JP6721298B2

JP6721298B2 - 音声情報制御方法及び端末装置

Info

Publication number: JP6721298B2
Application number: JP2015136115A
Authority: JP
Inventors: 美沙貴辻川; 伊三男島田
Original assignee: Panasonic Intellectual Property Corp of America
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2014-07-16
Filing date: 2015-07-07
Publication date: 2020-07-15
Anticipated expiration: 2035-07-07
Also published as: US10573318B2; JP2016029468A; US20160019894A1; US20190228775A1; US10297257B2

Description

本開示は、音声を取得してテキストを作成するテキスト作成システムにおける、音声情報制御方法および端末装置に関する。

会議などの音声を取得して、取得した音声をテキスト化し、議事録として記録をすることのできるテキスト作成システムの検討がされている。

特開２００８−３０９８５６号公報

ただし従来のテキスト作成システムでは、音声の集音に特殊なマイクロフォン装置を必要としており、容易に発話者の認識と音声のテキスト化による議事録作成を行う方法について検討が不十分である。

本開示に係る音声情報制御方法は、端末装置から受信した音声情報を基にテキストを作成するサーバ装置を備えるシステムに用いる端末装置の音声情報制御方法であって、
第１の音声情報を取得し、
前記第１の音声情報のうち、前記端末装置を利用している第１の話者の発話音声である第２の音声情報が含まれる時間区間を特定し、
前記特定した時間区間に含まれる音声情報を、前記サーバ装置に送信する。

本テキスト作成システムにおける音声情報制御方法によれば、多数のマイク等を備えた特別な装置を必要とすることなく、会議の議事録を作成することができる。

図１Ａは、実施の形態１におけるテキスト作成システムの全体像の一例を示す図である。図１Ｂは、実施の形態１におけるテキスト作成システムの全体像の一例を示す図である。図２Ａは、実施の形態１におけるテキスト作成システムにおける各構成の一例を示す図である。図２Ｂは、実施の形態１におけるテキスト作成システムにおける各構成の一例を示す図である。図３Ａは、制御・処理部の機能構成の一例を示す図である。図３Ｂは、制御・処理部の機能構成の一例を示す図である。図４は、テキスト作成システムの各機能構成の動作および処理の一例を示すフローチャートである。図５は、各端末装置が取得する音声情報のイメージの一例を示す図である。図６は、音声情報に対して、各端末装置の持ち主が発話した区間を特定したイメージの一例を示す図である。図７は、サーバに送信する各端末それぞれの音声情報のイメージの一例を示す図である。図８は、サーバ装置が端末装置から取得した音声情報に関して、各音声情報をテキスト化したイメージの一例を示す図である。図９は、作成した議事録の一例を示す図である。図１０Ａは、サーバ装置の通信部によって送信された議事録を端末装置にて表示している一例を示す図である。図１０Ｂは、サーバ装置の通信部によって送信された議事録を端末装置にて表示している一例を示す図である。図１１は、本実施の形態におけるテキスト作成システムにおける音声情報制御方法の処理の一例を示すシーケンス図である。図１２は、実施の形態１の変形例１におけるテキスト作成システムの各機能構成の動作および処理の流れを示すフローチャートである。図１３は、実施の形態１の変形例１におけるテキスト作成システムにおける音声情報制御方法の処理の一例を示すシーケンス図である。図１４は、実施の形態１の変形例２におけるテキスト作成システムの各機能構成の動作および処理の一例を示すフローチャートである。図１５は、実施の形態１の変形例２におけるテキスト作成システムにおける音声情報制御方法の処理の一例を示すシーケンス図である。図１６は、本テキスト作成システムが判定した発話区間（Ｘ）および発話区間以外の区間（Ｙ）の一例を示す図である。

（発明の基礎となった知見）
従来のテキスト作成システムでは、音声の集音に特殊なマイクロフォン装置を必要としており、容易に発話者の認識と音声のテキスト化による議事録作成を行う方法について検討が不十分である。

特許文献１では、各参加者に対応する数のマイクロフォンを用意し、各マイクロフォンにて取得した音声を収集し議事録を作成するシステムが開示されている。またこの際に、各マイクロフォンにて取得した音声に、当該マイクロフォンに対応する参加者以外の音声が入り込んだ場合などにおける処理方法が開示されている。たとえば各マイクロフォンにて取得した音声に対して音源分離を行うなどの方法によって、複数音源のうちどの音源がどの参加者の発話かを区分している。

しかし、上記でも記載したとおり、特許文献１に開示のテキスト作成システムでは、多数のマイクを含む当該システム専用の特殊な装置を必要とする。よって結果的に装置自体が高価となってしまうという問題があった。また、特許文献１に記載の通り会議参加者分のマイクが必要となるため、参加人数の異なる様々な会議に柔軟に対応できるテキスト作成システムとはなっていない。

本開示に係る端末装置の音声情報制御方法は、端末装置から受信した音声情報を基にテキストを作成するサーバ装置を備えるシステムに用いる端末装置の音声情報制御方法であって、第１の音声情報を取得し、前記第１の音声情報のうち、前記端末装置を利用している第１の話者の発話音声である第２の音声情報が含まれる時間区間を特定し、前記特定した時間区間に含まれる音声情報を、前記サーバ装置に送信する。

また、本開示の一態様では、前記端末装置は前記第１の話者に関する音声情報を含む音声モデルを保持しており、前記特定は、前記第１の音声情報と前記音声モデルとを比較することで行われる。

また、本開示の一態様では、前記送信において、前記特定した時間区間に含まれる第２の音声情報のみを、前記サーバ装置に送信し、前記送信において、前記特定した時間区間以外の時間区間に含まれる第１の音声情報を前記サーバ装置に送信しない。

また、本開示の一態様では、前記第１の端末は前記特定した時間区間に含まれる第２の音声情報を前記端末装置の記録媒体に蓄積し、所定のタイミングで蓄積した前記第２の音声情報を送信する。

また、本開示の一態様では、前記所定のタイミングは、前記端末装置が取得する前記第１の音声情報が、所定の音圧レベル以下となったタイミングである。

また、本開示の一態様では、前記所定のタイミングは、前記特定した第２の音声情報含まれる時間区間以外の時間区間におけるタイミングである。

また、本開示の一態様では、前記所定のタイミングは、前記第１の話者が利用する前記端末装置を介して前記システムを終了させる指示をしたタイミングである。

また、本開示の一態様では、前記第１の音声情報の取得、第２の音声情報が含まれる時間区間の特定、前記サーバ装置への送信のうちの少なくとも１つは、プロセッサにより行われる。

また、本開示の一態様では、前記第１の音声情報の取得、第２の音声情報が含まれる時間区間の特定、前記サーバ装置への送信のうちの少なくとも１つは、前記端末装置のプロセッサにより行われる。

また、本開示に係るサーバ装置の音声情報制御方法は、前記複数の端末装置の各々から受信した音声情報を基にテキストデータを作成するシステムにおける前記サーバ装置の音声情報制御方法であって、前記複数の端末装置の各々から、複数の音声情報および当該複数の音声情報を取得した時刻情報を受信し、前記複数の音声情報それぞれに対して音声認識・テキスト化を行うことで、複数のテキストデータを作成し、前記時刻情報に基づき前記複数のテキストデータを時刻順に統合する。

また、本開示の一態様では、前記音声情報を取得した複数の端末装置のうち、一部の端末装置または全部の端末装置に、前記統合したテキストデータを送信する。

また、本開示の一態様では、前記複数の端末装置のうち第１の端末装置から受信した音声情報に対応する第１の音声情報は、前記第１の端末を保有している第１の話者の発話音声である第２の音声情報を含む。

また、本開示の一態様では、前記複数の端末装置各々から、受信した複数の音声情報は、各々の端末装置が前記システムを起動させている間に取得した音声情報すべてである。

また、本開示の一態様では、前記複数の端末装置各々から受信した複数の音声情報の各々を比較することで、各発話区間における発話者が保有している端末装置を特定する。

また、本開示の一態様では、前記複数の端末装置各々から受信した複数の音声情報の各々の音圧レベルを比較し、第１の発話区間において最も高い音圧レベルを有している端末装置を、前記第１の発話区間における発話者が利用している端末装置であると特定する。

また、本開示の一態様では、前記複数の端末装置のうち第１の端末装置から受信した音声情報と、第２の端末装置から受信した音声情報とを比較することで、前記第１の端末を保有している第１の話者の発話音声を特定し、前記第２の端末装置から受信した音声情報に基づいて、第２の端末を保有している第２の話者の発話音声ではない音声情報をノイズ音声として特定し、前記第１の端末装置から受信した音声情報を用いて前記音声認識・テキスト化を行う前に前記第１の音声情報から前記特定した前記ノイズ音声を除去する。

また、本開示の一態様では、さらに、音声情報を取得した端末装置と前記時刻情報と前記テキスト化したテキストデータを対応付けて議事録を作成し、前記音声情報を取得した複数の端末装置のうち、一部の端末装置または全部の端末装置に、前記作成した議事録を送信する。

また、本開示の一態様では、前記複数の音声情報および当該複数の音声情報を取得した時刻情報の受信、前記複数のテキストデータの作成、および前記複数のテキストデータの統合のうちの少なくともいずれか１つはプロセッサを用いて行われる。

また、本開示の一態様では、複数の端末装置の各々から受信した音声情報を基にテキストを作成するサーバ装置を備えるシステムに用いる端末装置であって、第１の音声情報を取得する音声取得部と、前記第１の音声情報のうち、前記端末装置を利用している第１の話者の発話音声である第２の音声情報が含まれる時間区間を特定する制御・処理部と、前記特定した時間区間に含まれる第２の音声情報を、前記サーバ装置に送信する通信部と、を備えた端末装置であってもよい。

また、本開示の一態様では、前記端末装置は前記第１の話者に関する音声情報を含む音声モデルを保持する記録部を備え、前記制御・処理部は、前記第１の音声情報と前記音声モデルとを比較することで、前記第１の音声情報のうち前記第２の音声情報が含まれる時間区間を特定する。

また、本開示の一態様では、前記制御・処理部は前記通信部にて前記特定した時間区間に含まれる第２の音声情報のみを、前記サーバ装置に送信し、前記特定した時間区間以外の時間区間に含まれる第１の音声情報を前記サーバ装置に送信しない。

また、本開示の一態様では、前記音声取得部、前記制御・処理部および前記通信部のうちの少なくともいずれか１つは、プロセッサを含む。

（実施の形態１）
［システムの全体像］
図１Ａ、図１Ｂには、本テキスト作成システムの全体像を示す。本テキスト作成システムを採用し得る全体像の例として、図１Ａ、図１Ｂの２つの例を示しているが、これに限られるものではない。以下、各システムについて説明する。

図１Ａの例では、会議の参加者Ａ〜Ｄの全員がそれぞれ端末装置２１００を保有している。会議の参加者Ａ〜Ｄの各々の端末装置２１００はインターネットを介して室外に配置されたサーバ装置２２００と情報を送受信する。図１Ａに示すテキスト作成システムにおける音声情報制御方法によってテキスト（議事録）を作成する方法について、以下に説明する。

まず、会議の参加者Ａ〜Ｄのそれぞれが保有する端末装置２１００にて会議参加者の音声を取得する。そして、会議の参加者Ａ〜Ｄのそれぞれが保有する端末装置２１００は取得した音声情報をリアルタイムでサーバ装置２２００に送信する。サーバ装置２２００は、会議の参加者Ａ〜Ｄの端末装置２１００のそれぞれから受信した音声情報をテキスト化する。またサーバ装置２２００はテキスト化した各々の情報を、受信日時を基に統合し、議事録として作成する。ここで、議事録の作成方法の詳細については後述する。そしてサーバ装置２２００は作成した議事録を会議の参加者Ａ〜Ｄのそれぞれが保有する端末装置２１００に送信する。なお、端末装置２１００と記載したが、音声を取得しうる装置であればいかなる装置を採用してもかまわない。

図１Ｂの例では、会議の参加者Ａ〜Ｄの全員がそれぞれ端末装置２１００を保有している。会議の参加者Ａ〜Ｄの各々の端末装置２１００は有線通信または無線通信によって、室内に配置されたサーバ装置２２００と情報を送受信する。図１Ａと比較して、サーバ装置２２００が室内に配置されている点が異なるが、それ以外は同様であるので説明を省略する。図１Ｂの例で無線通信によってサーバ装置２２００と情報を送受信する方法については、ＷｉｆｉやＢｌｕｅｔｏｏｔｈ（登録商標）などの無線規格を用いればよい。なお、端末装置２１００と記載したが、音声を取得しうる装置であればいかなる装置を採用してもかまわない。

以下、各装置の構成や、議事録作成のための処理フローを説明するが、基本的には図１Ａのシステムを用いた場合の例を説明する。

［各装置の構成］
図２Ａを用いて、実施の形態１におけるテキスト作成システムにおける各構成を説明する。ここでは、図１Ａにて説明したシステムにおける各装置の構成について説明するが、これに限られるものではなく、端末装置２１００が備える各構成・手段の一部または全部をサーバ装置２２００が備えていてもよいし、サーバ装置２２００が備える各構成・手段の一部または全部を端末装置２１００が備えていてもよい。

端末装置２１００は、通信部２１０１、制御・処理部２１０２、記録部２１０３、音声取得部２１０４、表示部２１０５、操作部２１０６、音声再生部２１０７を備える。

通信部２１０１は、例えば通信を行う処理回路（通信回路）を含んでもよい。通信部２１０１は、インターネットを介してサーバ装置２２００や他の装置と情報を送受信する。ここで、インターネットを介してと記載したが、物理的に有線を接続することでサーバ装置２２００と情報を送受信してもよい。

制御・処理部２１０２は、取得したあらゆる情報を処理し、あらゆる構成を制御する。例えば後述する音声取得部２１０４が取得した音声情報を処理する。制御・処理部２１０２はいわゆる情報処理機能を有するプロセッサ（処理回路ともいう）を含む電子部品である。プロセッサとしては、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、マイコン（マイクロプロセッサともいう）等を含む。

制御・処理部２１０２は、例えば、図示しないＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）などのメモリ、または記録部２１０３に記録されたプログラムをＣＰＵが実行することにより、制御・処理部２１０２が機能するように構成してもよい。

または、制御・処理部２１０２は、例えば、上述のプログラムに実行により実現される機能をマイコンに組み込んで構成するのでもよい。制御・処理部２１０２の具体的な機能構成については図３Ａ、図３Ｂを用いて後述する。

記録部２１０３は、あらゆる情報を記録する。例えば音声取得部２１０４が取得した音声情報を記録部２１０３にて一時的または所定の期間記録しておく。記録部２１０３は、いわゆるメモリ、またはハードディスクなどの書き込み可能な記録媒体である。

音声取得部２１０４は、音声情報を取得する。音声取得部２１０４は、例えば、取得した音声を処理する処理回路を含んでもよい。取得した音声情報は例えばＡＤ変換処理が施され、記録部２１０３に記録され、または制御・処理部２１０２によって処理され、または通信部２１０１によってサーバ装置２２００に送信される。音声取得部２１０４は、いわゆるマイクなどである。

表示部２１０５は、あらゆる情報を表示する。表示部２１０５は、いわゆるディスプレイである。

操作部２１０６は、使用者からの操作・入力を受け付けるインターフェースである。入力の方法は特に限定しない。タッチパネル式の入力方式であってもよいし、ボタン入力であってもよい。操作部２１０６はいわゆるディスプレイや表示パネルである。

音声再生部２１０７は、音声を再生する。音声再生部２１０７は、いわゆるスピーカである。音声再生部２１０７は必須の構成ではない。

サーバ装置２２００は、通信部２２０１、制御・処理部２２０２、記録部２２０３、を備える。サーバ装置２２００は各端末装置２１００とネットワークを介して接続することが可能である。サーバ装置２２００は例えばクラウド上に配置されたサーバであり、設置場所等は特に限定しない。

通信部２２０１は、例えば通信を行う処理回路（通信回路）を含んでもよい。通信部２２０１は、各端末装置２１００が取得した音声情報を受信し、後述する制御・処理部２２０２が処理した情報を端末装置２１００に送信する。

制御・処理部２２０２は受信した音声情報を処理する。制御・処理部２２０２は、いわゆる情報処理機能を有するプロセッサを含む電子部品である。プロセッサとしては、例えば、ＣＰＵ、マイコンを含む。

制御・処理部２２０２は、例えば、図示しないＲＯＭなどのメモリ、または記録部２２０３に記録されたプログラムをＣＰＵが実行することにより、制御・処理部２２０２が機能するように構成してもよい。

または、制御・処理部２２０２は、例えば、上述のプログラムの実行により実現される機能をマイコンに組み込んで構成するのでもよい。

制御・処理部２２０２が行う処理等については後述する。

記録部２２０３は、あらゆる端末装置から取得した情報（音声情報など）を記録する。記録部２２０３は、いわゆるメモリ、ハードディスクなどの書き込み可能な記録媒体である。

以上が各装置の構成の説明となるが、上記した端末装置２１００およびサーバ装置２２００は必ずしも図２Ａに記載するすべての構成を備えている必要はない。その一部の構成が欠けていてもよい。

また図２Ｂには、図１Ｂに示すシステムにおけるサーバ装置２２００の構成の一例を示す。図２Ｂに示すようにこの場合、サーバ装置２２００がテキスト作成システム専用の装置となり、サーバ装置２２００内にすべての構成が集約される。各構成は図２Ａと同様なので、同一の名称または符号を用いてその説明を省略する。

［制御・処理部の機能構成］
図３Ａは、制御・処理部２１０２または、制御・処理部２２０２の機能構成の一例を示す図である。以下各構成について説明する。

なお、制御・処理部２１０２が図３Ａに示す機能構成の一部を備えている場合には、制御・処理部２２０２が、図３Ａのうち制御・処理部２１０２が備えていない機能構成を備えていればよい。また、制御・処理部２２０２が図３Ａの全ての機能構成を備えている場合には、制御・処理部２１０２が図３に記載する機能構成をひとつも備えていないことも考えられる。この場合は、端末装置２１００の音声取得部２１０４が取得した音声情報を、通信部２１０１がそのままサーバ装置２２００に送信する。

以下では、制御・処理部２１０２と制御・処理部２２０２とによって、図３Ｂのように機能構成を分担している一例について説明するがこれに限られるわけではない。

図３Ｂに示すように、端末装置２１００の制御・処理部２１０２は、音声情報取得手段３００１と、話者認識手段３００２と、通信制御手段３００３と、表示制御手段３００４と、を備える。また、サーバ装置２２００の制御・処理部２２０２は、音声認識手段３００５と、テキスト統合手段３００６と、を備える。

本実施の形態におけるテキスト作成システムの音声情報制御方法では、端末装置の受信した音声情報を基にテキストを作成するシステムに用いる端末装置の音声情報制御方法であって、第１の音声情報を取得し、第１の音声情報のうち、端末装置を利用している第１の話者の発話音声である第２の音声情報が含まれる時間区間を特定し、特定した時間区間に含まれる音声情報をサーバ装置に送信する。

また、本実施の形態におけるテキスト作成システムの音声情報制御方法では、複数の端末装置の各々から受信した音声情報を基にテキストを作成するシステムにおけるサーバ装置の音声情報制御方法であって、複数の端末装置の各々から、複数の音声情報および当該複数の音声情報を取得した時刻情報を受信し、複数の音声情報それぞれに対して音声認識・テキスト化を行うことで、複数のテキストデータを作成し、時刻情報に基づき前記複数のテキストデータを時刻順に統合する。

以下、各機能構成の動作および処理の流れを、図４のフローチャートを用いて説明する。なお、本フローチャートでは端末装置２１００の処理およびサーバ装置２２００の処理を記載している。図１１には端末装置２１００およびサーバ装置２２００の処理をシーケンス図を用いて記載している。

まずステップＳ４００１にて、制御・処理部２１０２の音声情報取得手段３００１は、音声取得部２１０４（すなわちマイク）が取得した音声情報を取得する。この際ＡＤ変換などの処理が制御・処理部２１０２内で施されてもよいし、音声取得部２１０４がＡＤ変換をして、制御・処理部２１０２の音声情報取得手段３００１はデジタル化された音声信号を取得してもよい。またこの際、記録部２１０３が記録している音声情報を取得してもよい。すなわち音声取得部２１０４が取得した音声情報はいったんすべて一時的に記録部２１０３に記録されてもよい。

図５には、参加者Ａ〜参加者Ｄの各端末装置２１００が取得する音声情報のイメージの一例を示す図である。

音声情報として、例えば、端末装置２１００のマイクで収音したときの音声信号を例に説明をする。

図５において、横軸は収音した時刻、縦軸は音声信号のレベルを示す。

図５に示すように、各端末装置２１００が所定の時間間隔で取得した音声信号は、音声情報取得手段３００１によって取得・保持される。ここでは、図１Ａに示す例において４人の会議の参加者Ａ〜Ｄが利用するそれぞれの端末装置２１００から音声情報を取得していることを示している。

次にステップＳ４００２にて、制御・処理部２１０２の話者認識手段３００２は、音声情報取得手段３００１が取得した各音声情報に対して逐次的に話者認識を行う。

図５に示すように、端末装置の持ち主以外の音声や会議の参加者Ａ〜Ｄの音声以外のノイズも各端末が取得する音声情報に含まれる可能性がある。ここで、会議の参加者Ａ〜Ｄのそれぞれ保有する端末装置２１００は、例えばスマートフォンなどの端末であるため、通話などによって各参加者の音声を事前に取得していることが多く、持ち主の音声情報を取得することは容易である。

よって、例えば参加者Ａの端末装置２１００の記録部２１０３によって事前に取得した音声情報から、参加者Ａの音声モデルを生成し、記録部２１０３に事前に保持しておく。参加者Ａの音声モデルとは、例えば、参加者Ａの発話を端末装置２１００のマイクで収音したときの参加者Ａの音声信号に対応するデータに基づいて作成された、参加者Ａを識別するためのデータである。そして参加者Ａの端末装置２１００は、取得した音声情報と保持していた参加者Ａの音声モデルを照合することで、取得した音声情報に持ち主（参加者Ａ）の発話が含まれるかそうでないかを判別することができる。

参加者Ｂの端末装置２１００についても、同様に、事前に取得した音声情報から、参加者Ｂの音声モデルを生成し、参加者Ｂの端末装置２１００の記録部２１０３に事前に保持しておく。

参加者Ｃの端末装置２１００についても、同様に、事前に取得した音声情報から、参加者Ｃの音声モデルを生成し、参加者Ｃの端末装置２１００の記録部２１０３に事前に保持しておく。

参加者Ｄの端末装置２１００についても、同様に、事前に取得した音声情報から、参加者Ｄの音声モデルを生成し、参加者Ｄの端末装置２１００の記録部２１０３に事前に保持しておく。

そして、参加者Ａの端末装置２１００と同様に、参加者Ｂ〜Ｄのそれぞれの端末装置２１００において、取得した音声情報と保持していた端末装置２１００の持ち主の音声モデルを照合することで、取得した音声情報に端末装置２１００の持ち主の発話が含まれるかそうでないかを判別する。

また、本テキスト作成システムを最初に利用する際に、ユーザに初期登録（発話）を促すようにすれば、当該端末を保有するユーザの音声モデルを生成・保持することが出来る。

すなわち本音声情報制御方法の一態様では、第１の端末は第１の話者に関する音声情報を蓄積している音声モデルを保持しており、第１の音声情報と音声モデルとを比較することで、第１の音声情報のうち第２の音声情報が含まれる時間区間を特定する。

また、各端末の持ち主のＩＤと音声モデルを対応付けて管理しているデータベースをサーバ装置２２００が保持していてもよい。当該データベースの構築方法は、本テキスト作成システムを利用するユーザに初期登録させる等が考えられるが、特に限定しない。この場合、例えば当該システムを起動した際に各端末装置からＩＤ情報をサーバ装置２２００に送信し、サーバ装置２２００は当該ＩＤに対応する音声モデルを抽出し、サーバ装置２２００は抽出した音声モデルを端末装置２１００に送信する、等の処理により端末装置が当該端末の音声モデルを保持することができる。

次にステップＳ４００３にて、端末装置２１００の制御・処理部２１０２における話者認識手段３００２は、ステップＳ４００２にて話者認識処理を行った結果に基づいて、取得した音声情報のうち当該端末装置の持ち主の音声情報が含まれるか否かを判断する。図６には図５の音声情報に対して、各端末装置の持ち主が発話した区間を特定したイメージを示す。

次に、ステップＳ４００４において、端末装置２１００の制御・処理部２１０２における通信制御手段３００３は、各端末の持ち主の発話区間を含む音声情報を時間情報と共にサーバ装置２２００に送信するように、通信部２１０１を制御する。

すなわち本実施の形態の音声情報制御方法の一態様では、端末装置は、送信において、特定した時間区間に含まれる第２の音声情報のみを、サーバ装置に送信し、特定した時間区間以外の時間区間に含まれる第１の音声情報をサーバ装置に送信しない。

また、本音声情報制御方法の一態様では、サーバ装置が、複数の端末装置のうち第１の端末装置から受信した音声情報に対応する第１の音声情報は、第１の端末を保有している第１の話者の発話音声である第２の音声情報を含む。

時間情報とは、たとえば、持ち主の音声情報が始まった時刻と終了した時刻のことである。時刻に関してはあらかじめ各端末間で同期されているものとする。同期方法については限定しない。

図７に、サーバに送信する各端末それぞれの音声情報のイメージを示す。ここでは、通信制御手段３００３は、図７に示すように各端末にて取得した音声情報のうち、各端末の持ち主の音声と認識された区間のみを時間情報とともに送信する。なお、送信する情報はこれに限られず、すべての音声情報を送信してもよい。この場合は、各端末にて判断した各端末の持ち主の音声と認識された区間に関してフラグ情報などを付加して、サーバ装置２２００の制御・処理部２２０２が判断できるようにして送信する。

なお、通信制御手段３００３が、音声情報をサーバへ送信するタイミングに関しては特に限定しない。例えば予め定められた所定の間隔（３０秒ごと、６０秒ごと、など）にて送信してもよい。また、端末装置２１００が当該端末装置の保有者の音声を認識しなくなったタイミングで送ってもよい。また、端末装置２１００が取得している音声の音圧レベルが、所定の音圧レベル以下となったタイミングで送ってもよい。また会議終了であるステップＳ４００５後に一括して送信してもよい。

すなわち本音声情報制御方法における一態様では、第１の端末は特定した時間区間に含まれる第２の音声情報を蓄積し、所定のタイミングで蓄積した第２の音声情報を送信する。

また、本音声情報制御方法における一態様では、所定のタイミングは、前記端末装置が取得する第１の音声情報が、所定の音圧レベル以下となったタイミングである。

また、本音声情報制御方法における一態様では、所定のタイミングは、特定した第２の音声情報含まれる時間区間以外の時間区間におけるタイミングである。

また、本音声情報制御方法における一態様では、所定のタイミングは、前記第１の話者が利用する端末装置を介して前記システムを終了させる指示をしたタイミングである。

次にステップＳ４００５にて、端末装置２１００の通信制御手段３００３は、会議終了であることがユーザから明示的に示された場合に、サーバ装置２２００へ会議の終了を通知する。

会議終了を知らせる方法については、会議終了ボタンを表示制御手段３００４が各端末の表示部２１０５に表示していてもよいし、特定の単語を発話することで終了としてもよい。

また、必ずしも会議終了が通知された後にステップＳ４００６に進まなくてもよい。すなわちステップＳ４００６にて行うサーバ装置２２００によるテキスト化処理等は、ステップＳ４００４にて音声情報がサーバ装置に送信された後に適宜行ってもよい。

次にステップＳ４００６にて、サーバ装置２２００の制御・処理部２２０２における音声認識手段３００５はステップＳ４００４にて取得していた音声情報に対して音声認識を行い、音声情報を文字情報としてテキスト化する。

図８には、サーバ装置２２００が端末装置２１００から受信した音声情報に関して、各音声情報をテキスト化したイメージを示す。

音声情報のテキスト化は、ステップＳ４００４において音声情報をサーバ装置２２００に送信するごとに行ってもよい。また、端末装置２１００が音声のテキスト化に関する機能を有している場合は、端末側で音声情報をテキスト化し、テキスト化された音声と時間情報のみをサーバに送信してもよい。

次に、ステップＳ４００７にて、サーバ装置２２００の制御・処理部２２０２におけるテキスト統合手段３００６はテキスト化された文章を統合し、話者情報、時間情報を用いて議事録を作成する。

図９に作成した議事録の一例を示す。このとき、取得できる各情報を全て使用してもよいし、一部のみを使用していてもよい。

次に、ステップＳ４００８にて、サーバ装置２２００の通信部２２０１は作成した議事録を各端末装置２１００に送信する。ここで、各端末装置２１００に送信する情報は、各々同一の情報であってもよいし、各々異なる情報であってもよい。

すなわち、本音声情報制御方法における一態様では、音声情報を取得した複数の端末装置のうち、一部の端末装置または全部の端末装置に、作成したテキストデータを送信する。

図１０Ａ、図１０Ｂは、ステップＳ４００８にてサーバ装置２２００の通信部２２０１によって送信された議事録を端末装置２１００にて表示している例を示す。図１０Ａは各端末装置によって同一の表示をしている場合の表示例で、図１０Ｂは各端末装置によって異なる表示をしている場合の表示例である。図１０Ａでは、発話者と発話内容が時刻順に表示されており、各端末同様の表示がされている。図１０Ｂでは、図１０Ａ同様に発話者と発話内容が時刻順に表示されているが、例えば会議参加者であるＣさんの端末装置２１００にはＣさんの発話内容が、他者の発話内容と異なる表示形式で表示されている。ここで異なる表示形式とは、異なる色・フォント・文字の大きさ等様々考えられ、特に限定しない。

なお、各端末に送信後、各端末装置２１００上で議事録を修正可能にしてもよい。またその場合、自分が発話した部分のみを修正可能にするように制御してもよい。図１０Ｂのように端末保有者の発話内容に対して表示形式を変更しておけば、発話者は修正可能なテキストを一目で把握できるので、利便性が高い。また、ユーザによって修正可能な範囲が異なってもよい。例えば代表となる端末装置２１００によってのみ、議事録を修正できるようにしてもよい。ここで代表となる端末装置２１００は、本システム起動時にユーザが設定できるなどが考えられる。

また図１１には、本実施の形態におけるテキスト作成システムにおける音声情報制御方法における処理の一例を示すシーケンス図を示す。図１１では、図４のフローチャートに示される各ステップが、端末装置２１００、サーバ装置２２００のいずれで行われているのかを示している。図１１に示すシーケンス図では、ステップＳ４００１、ステップＳ４００２、ステップＳ４００３、ステップＳ４００４、およびステップＳ４００５が、端末装置２１００において行われる処理であることを示している。

また、ステップＳ４００６、ステップＳ４００７、およびステップＳ４００８が、サーバ装置２２００において行われる処理であることを示している。

図１１に示すシーケンス図において、図４と同一の符号を付したものは、処理が同一であるため、ここでは説明を省略する。

なお、図１１においては、１台の端末装置２１００と、サーバ装置２２００のとの処理を示しているが、例えば会議の参加者が複数いる場合においては、参加者のそれぞれが保有する端末装置２１００において、ステップＳ４００１〜ステップＳ４００５の処理が行われる。

この場合、サーバ装置２２００において、各端末装置２１００から送信される音声情報を用いて、ステップＳ４００６〜ステップＳ４００７の処理が行われる。

また、サーバ装置２２００において行われる、ステップＳ４００８では、例えば、作成した議事録は、会議に参加する参加者の各端末装置２１００に送信する。

以上、本実施の形態におけるテキスト作成システムにおける音声情報制御方法によれば、多数のマイクを必要とせず、各参加者が持ち込んだ端末装置にて音声を収音する。また図１Ａのように収音した音声に対して音声認識・テキスト化処理はネットワークを介してクラウドサーバ上で行う場合は、会議参加者はテキスト作成システムの専用装置を用意する必要がない。また各人が個人所有の端末装置（スマートフォンなど）に対して本テキスト作成システムを実行するアプリケーションをインストールして持ち寄ればよいので、会議の度に会議の主催者が参加者分の数のマイクを用意するなどの手間がなくなる。

また本テキスト作成システムにおける音声情報制御方法によれば、各端末にて話者認識処理を行うことで、当該端末の持ち主の発話が含まれる音声のみをサーバ上に送信することが出来る。よって送信する音声情報の情報量を削減することが出来る。

（実施の形態１における変形例１）
本実施の形態における変形例１の音声情報制御方法を以下説明する。本変形例では図４にて説明した本実施の形態のシステムにおいて、ステップＳ４００２もしくはステップＳ４００３において行った話者認識の処理を省略し、端末装置２１００側の処理量を軽くしたものである。当該変形例に関するフローチャートを図１２に、シーケンス図を図１３に記載する。以下図４のフローチャートと異なる処理を中心に説明する。

ステップＳ４００１およびステップＳ４００４は図４の処理と同様である。ただし本変形例では図４に示したステップＳ４００２およびステップＳ４００３に関しては端末装置２１００で実行しない。すなわちこの場合ステップＳ４００４にて各端末で取得した音声をそのまますべてサーバ装置２２００に送信する。

すなわち、本音声情報制御方法における一態様では、本複数の端末装置各々から、受信した複数の音声情報は、各々の端末装置が前記システムを起動させている間に取得した音声情報すべてである。

ステップＳ４００５の処理も図４の処理と同様である。

そしてステップＳ１１００にて、サーバ装置２２００の制御・処理部２２０２は、取得した各音声情報に対してどの端末装置２１００の保有者の音声かを識別する。具体的にはある時刻において、各端末装置２１００によって取得した複数の音声情報の音圧レベルを比較し、最大の音圧レベルで音声情報を取得している端末装置２１００をその時刻における発話者の保有する端末装置２１００であることを判断する。

すなわち、本音声情報制御方法における一態様では、複数の端末装置各々から受信した複数の音声情報の各々を比較することで、各発話区間における発話者が利用している端末装置を特定する。

すなわち、本音声情報制御方法における一態様では、複数の端末装置各々から受信した複数の音声情報の各々の音圧レベルを比較し、第１の発話区間において最も高い音圧レベルを有している端末装置を、第１の発話区間における発話者が利用している端末装置であると特定する。

なおここでは音圧レベルを比較して発話者の端末を判断したがそれに限られない。サーバ装置２２００が端末持ち主のＩＤと音声モデルを紐付けて管理しているデータベースを保持している場合は、サーバ装置２２００上で話者識別を行うことができる。よってこれにより各時刻における発話者の端末装置２１００を特定することが出来る。

そして、ステップＳ４００６にて、各音声情報をテキスト化する。本ステップは図４にて説明した処理と同様であるので説明を省略する。

そしてステップＳ４００７では、ステップＳ１１００にて判断された時間ごとに発話者と判断された端末において取得した音声に対してテキスト化された情報を統合する。

ステップＳ４００８に関しては図４の処理と同様である。

図１３は、本実施の形態における変形例１の音声情報制御方法の処理の一例を示すシーケンス図である。図１３では、図１２のフローチャートに示される各ステップが、端末装置２１００、サーバ装置２２００のいずれで行われているのかを示している。

図１３に示すシーケンス図では、ステップＳ４００１、ステップＳ４００４、およびステップＳ４００５が、端末装置２１００において行われる処理であることを示している。

また、ステップＳ１１００、ステップＳ４００６、ステップＳ４００７、およびステップＳ４００８が、サーバ装置２２００において行われる処理であることを示している。

また図１３のシーケンス図において、図１２と同一の符号を示したものは、図１２で示した処理と同一であるので、ここでは説明を省略する。

以上の変形例によれば、端末装置２１００側における処理量が削減できる。

（実施の形態１における変形例２）
本実施の形態における変形例２の音声情報制御方法を以下説明する。本変形例では図１２にて説明した本実施の形態の変形例１におけるシステムに、サーバ装置２２００におけるノイズ除去に関する処理を追加したものである。当該変形例に関するフローチャートを図１４に、シーケンス図を図１５に記載する。以下図４のフローチャートと異なる処理を中心に説明する。

本変形例においては、ステップＳ４００１〜Ｓ４００５、ステップＳ４００６〜Ｓ４００８までの処理は図１２に示したフローチャートにおける処理と同様である。図１２に示した処理と異なる点は、ステップＳ１４００を追加した点である。

変形例１にて説明したステップＳ１１００にて各音声情報に対してどの端末の保有者の音声かを識別した後にステップＳ１４００に進む。

ステップＳ１４００にてサーバ装置２２００では、各音声情報の相関を利用してノイズを削除する。サーバ装置２２００は各端末装置２１００が取得したすべての音声情報を取得している（各端末装置２１００は会議中のすべて時間において取得した音声情報をすべて送信している）。よって、取得した各音声情報の相関を利用することによって、ノイズ除去を行うことが出来る。

例えば、まずサーバ装置２２００の制御・処理部２２０２は、参加者Ａ〜Ｄのそれぞれの端末装置２１００から取得した音声情報について、端末装置２１００の持ち主が発話した発話区間とそうでない区間を区別する。図１６には、本システムが判定した発話区間（Ｘ）および発話区間以外の区間（Ｙ）を示す。発話区間かそうでないかの判定は、例えば音圧レベルが閾値以上である場合に発話区間であると判定し、音圧レベルが閾値より小さければ、発話区間ではないと判定するなどが考えられる。

そしてサーバ装置２２００の制御・処理部２２０２は、ある端末装置２１００（例えば端末Ａ）の発話区間（Ｘ）の値から、当該発話区間（Ｘ）と同時刻において当該端末装置以外の端末装置２１００（例えば端末Ｂ・Ｃ・Ｄ）にて検出した発話区間以外の区間（Ｙ）の値を引くことで、ノイズを除去する。

すなわち、本音声情報制御方法における一態様では、複数の端末装置のうち第１の端末装置から受信した音声情報と、第２の端末装置から受信した音声情報とを比較することで、第１の端末を保有している第１の話者の発話音声を特定し、前記第２の端末装置から受信した音声情報に基づいて、第２の端末を保有している第２の話者の発話音声ではない音声情報をノイズ音声として特定し、第１の端末装置から受信した音声情報を用いて音声認識・テキスト化を行う前に第１の端末装置から受信した音声情報から特定したノイズ音声を除去する。

図１５は、本実施の形態における変形例２の音声情報制御方法の処理の一例を示すシーケンス図である。図１５では、図１４のフローチャートに示される各ステップが、端末装置２１００、サーバ装置２２００のいずれで行われているのかを示している。

図１５に示すシーケンス図では、ステップＳ４００１、ステップＳ４００４、およびステップＳ４００５が、端末装置２１００において行われる処理であることを示している。

また、ステップＳ１１００、ステップＳ１４００、ステップＳ４００６、ステップＳ４００７、およびステップＳ４００８が、サーバ装置２２００において行われる処理であることを示している。

また図１５のシーケンス図において、図１２と同一の符号を示したものは、図１２で示した処理と同一であるので、ここでは説明を省略する。

また図１５のシーケンス図において、図１４と同一の符号を付したものは、図１４に示す処理と同一であるため、ここでは説明を省略する。

以上、本変形例では各端末装置２１００各々から取得した音声情報の各々の相関を利用し、ノイズを除去する。よって音声認識テキスト化処理の際の誤認識を低減できる。

本開示は、音声を取得してテキストを作成するテキスト作成システムにおける、音声情報制御方法および端末装置に有用である。

また、本開示の音声情報制御方法は、遠隔会議システムや遠隔会議装置、議事録作成システムや議事録作成装置、また携帯端末（スマートフォン・タブレット）向けの音声認識アプリケーション、などに適用可能である。

２１００端末装置
２１０１通信部
２１０２制御・処理部
２１０３記録部
２１０４音声取得部
２１０５表示部
２１０６操作部
２１０７音声再生部
２２００サーバ装置
２２０１通信部
２２０２制御・処理部
２２０３記録部
３００１音声情報取得手段
３００２話者認識手段
３００３通信制御手段
３００４表示制御手段
３００５音声認識手段
３００６テキスト統合手段

Claims

複数の端末装置の各々から受信した音声情報を基にテキストデータを作成するシステムにおけるサーバ装置の音声情報制御方法であって、
前記複数の端末装置の各々から、複数の音声情報および当該複数の音声情報を取得した時刻情報を受信し、
前記複数の音声情報それぞれに対して音声認識・テキスト化を行うことで、複数のテキストデータを作成し、
前記時刻情報に基づき前記複数のテキストデータを時刻順に統合することで統合テキストデータを生成し、
前記統合テキストデータの前記複数のテキストデータ各々に対し、前記複数の端末装置のうちの各々に対して異なる表示形式で表示する表示制御データを付加し、
前記複数の端末装置各々に、前記表示制御データが付加された前記統合テキストデータを送信し、
前記表示制御データによる表示制御は、各々の前記複数の端末装置の保有者が発話した発話区間のテキストデータの表示形式を他の発話区間のテキストデータと異ならせる表示制御である、
音声情報制御方法。
さらに、前記音声情報を取得した複数の端末装置のうち、一部の端末装置または全部の端末装置に、前記統合テキストデータを送信する、
請求項１に記載の音声情報制御方法。
前記複数の端末装置のうち第１の端末装置から受信した音声情報に対応する第１の音声情報は、前記第１の端末装置を保有している第１の話者の発話音声である第２の音声情報を含む、
請求項２に記載の音声情報制御方法。
前記複数の端末装置各々から、受信した複数の音声情報は、各々の端末装置が前記システムを起動させている間に取得した音声情報すべてである、
請求項２に記載の音声情報制御方法。
前記複数の端末装置各々から受信した複数の音声情報の各々を比較することで、各発話区間における発話者が保有している端末装置を特定する、
請求項４に記載の音声情報制御方法。
前記複数の端末装置各々から受信した複数の音声情報の各々の音圧レベルを比較し、第１の発話区間において最も高い音圧レベルを有している端末装置を、前記第１の発話区間における発話者が利用している端末装置であると特定する、
請求項５に記載の音声情報制御方法。
さらに、前記統合テキストデータの前記複数のテキストデータ各々に対し修正可否情報を付加し、
前記修正可否情報は、各々の前記複数の端末装置の保有者が発話した発話区間のテキストデータのみ、前記保有者の端末装置から修正が可能となるように、前記複数の端末装置を制御する情報である、
請求項１に記載の音声情報制御方法。
前記複数の端末装置のうち第１の端末装置から受信した音声情報と、第２の端末装置から受信した音声情報とを比較することで、前記第１の端末装置を保有している第１の話者の発話音声を特定し、
前記第２の端末装置から受信した音声情報に基づいて、前記第２の端末装置を保有している第２の話者の発話音声ではない音声情報をノイズ音声として特定し、
前記第１の端末装置から受信した音声情報を用いて前記音声認識・テキスト化を行う前に前記第１の端末装置から受信した音声情報から前記特定した前記ノイズ音声を除去する、
請求項４に記載の音声情報制御方法。
さらに、前記音声情報を取得した端末装置と前記時刻情報と前記テキスト化したテキストデータを対応付けて議事録を作成し、
前記音声情報を取得した複数の端末装置のうち、一部の端末装置または全部の端末装置に、前記作成した議事録を送信する、
請求項２に記載の音声情報制御方法。
前記複数の音声情報および当該複数の音声情報を取得した時刻情報の受信、前記複数のテキストデータの作成、および前記複数のテキストデータの統合のうちの少なくともいずれか１つはプロセッサを用いて行われる請求項１に記載の音声情報制御方法。