JP2020020946A

JP2020020946A - 音声認識装置及びその制御方法、並びにプログラム

Info

Publication number: JP2020020946A
Application number: JP2018144081A
Authority: JP
Inventors: 裕介村松; Yusuke Murakami
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2018-07-31
Filing date: 2018-07-31
Publication date: 2020-02-06

Abstract

【課題】集音環境に依存することなく、音声認識の精度の低下を抑制することができる音声認識装置を提供する。【解決手段】音声認識装置１０１は、複数の参加者が発する音声を音声認識し、音声認識の実施結果の信頼度が基準信頼度未満である音声を発した参加者の移動を促す通知を行う。【選択図】図７Ｂ

Description

本発明は、音声認識装置及びその制御方法、並びにプログラムに関する。

会議の議事録を人手で作成する煩雑さを解消するために、議事録を自動で作成する会議システムが開発されている。会議システムでは、会議の参加者の発話内容をテキスト化した発話テキストデータに基づいて議事録が作成され、発話テキストデータは、音声認識装置が参加者の発話を音声認識することで生成される。音声認識の精度は、集音環境に依存して大きく変動するため、常に良好な音声認識結果が得られるとは限らない。例えば、音声認識装置のマイクで受けた音声の音量（以下、「受信音量」という。）不足に起因して音声認識の精度が低下してしまう。これに対し、従来では、音声認識装置が周辺の音源の位置を推定し、音声認識装置の動作部が各音源からの受信音量と位置関係から集音に適した場所へ音声認識装置のマイクを移動させる（例えば、特許文献１参照）。これにより、各音源から受けた音声において受信音量不足にならないように制御して、音声認識の精度の低下を抑制することができる。

特開２０１０−１０８５７号公報

しかしながら、上述した特許文献１の技術では、受信音量以外の要因、例えば、参加者周辺の雑音に起因する音声認識の精度の低下を抑制することができない。

本発明の目的は、集音環境に依存することなく、音声認識の精度の低下を抑制することができる音声認識装置及びその制御方法、並びにプログラムを提供することにある。

上記目的を達成するために、本発明の音声認識装置は、複数の発話者が発した音声の音声認識を行う音声認識装置であって、各前記発話者が発した音声の音声認識の実施結果の信頼度が予め設定された基準信頼度未満であるか否かを判別する判別手段と、前記音声認識の実施結果の信頼度が前記基準信頼度未満である音声を発した発話者の移動を促す通知を行う通知手段とを備えることを特徴とする。

本発明によれば、集音環境に依存することなく、音声認識の精度の低下を抑制することができる。

本発明の実施の形態に係る音声認識装置を含む会議システムの構成を概略的に示すブロック図である。図１の音声認識装置及び会議サーバのハードウェア構成を概略的に示すブロック図である。図１の音声認識装置の外観図である。図１の音声認識装置によって実行される会議情報送信処理の手順を示すフローチャートである。図２の表示デバイスに表示される画面の一例を示す図である。図１の音声認識装置によって生成される発話テキストテーブルの一例を示す図である。図４のステップＳ４０２の集音状態判別処理の手順を示すフローチャートである。図４のステップＳ４０２の集音状態判別処理の手順を示すフローチャートである。図１の音声認識装置による通知を説明するための図である。図１の会議サーバによって実行される議事録送信処理の手順を示すフローチャートである。図１の会議サーバによって作成される議事録の一例を示す図である。

以下、本発明の実施の形態について図面を参照しながら詳述する。なお、本実施の形態では、会議システムにおける音声認識装置に本発明を適用した場合について説明するが、本発明は会議システムにおける音声認識装置に限られない。例えば、スマートスピーカといった音声認識機能を有する装置に本発明を適用してもよい。

図１は、本発明の実施の形態に係る音声認識装置１０１を含む会議システム１００の構成を概略的に示すブロック図である。

図１において、会議システム１００は、音声認識装置１０１及び会議サーバ１０２を備える。音声認識装置１０１及び会議サーバ１０２は、ネットワーク１０３を介して接続されている。なお、本実施の形態では、会議システム１００は、音声認識装置１０１及び会議サーバ１０２を一台ずつ備える構成について説明するが、会議システム１００の構成は、これに限られない。例えば、会議システム１００は、音声認識装置１０１及び会議サーバ１０２の少なくとも一方を複数台備えていても良い。

音声認識装置１０１は、会議室等の会議開催場所に配置され、例えば、会議室のテーブル上に置かれる。音声認識装置１０１は、会議の参加者（発話者）の発話を音声認識して発話内容をテキスト化した発話テキストデータを生成する。また、音声認識装置１０１は、当該発話テキストデータや画像データ等の複数の種類のデータ（以下、「会議情報」という。）を保存する。音声認識装置１０１は、例えば、オフィスや所定の会場等で開催される会議の会議情報を保存する。なお、本実施の形態における会議は、複数の人が発言し合うような集まりであればよく、オフィスや所定の会場等で開催される会議に限定されない。例えば、本実施の形態における会議は、面接や取り調べ等を含み、また、ＰＣ（Personal Computer）等を用いた遠隔会議を含む。音声認識装置１０１は、保存した会議情報を会議サーバ１０２に送信する。

会議サーバ１０２は、ＰＣやクラウドサーバである。会議サーバ１０２は、会議情報に含まれる画像データを文字認識してテキストを生成する。また、会議サーバ１０２は、会議情報に含まれる発話テキストデータに基づいて議事録を作成し、作成した議事録を指定された送信先に送信する。

図２は、図１の音声認識装置１０１及び会議サーバ１０２のハードウェア構成を概略的に示すブロック図である。図２（ａ）は、音声認識装置１０１のハードウェア構成を示す。図２（ｂ）は、会議サーバ１０２のハードウェア構成を示す。

図２（ａ）において、音声認識装置１０１は、ＣＰＵ２０１、ＲＯＭ２０２、ＲＡＭ２０３、ストレージ２０４、入力デバイス２０５、表示デバイス２０６、外部インターフェース２０７、及びカメラデバイス２０８を備える。さらに、音声認識装置１０１は、マイクデバイス２０９、スピーカーデバイス２１０、及び方向通知デバイス２１１を備える。ＣＰＵ２０１、ＲＯＭ２０２、ＲＡＭ２０３、ストレージ２０４、入力デバイス２０５、表示デバイス２０６、外部インターフェース２０７、カメラデバイス２０８、マイクデバイス２０９、スピーカーデバイス２１０、及び方向通知デバイス２１１は、データバス２１２を介して互いに接続されている。なお、ＣＰＵは、Central Processing Unitの略称である。ＲＡＭは、Random Access Memoryの略称である。ＲＯＭは、Read Only Memoryの略称である。

ＣＰＵ２０１は、音声認識装置１０１全体を制御するためのコントローラである。ＣＰＵ２０１は、ＲＯＭ２０２に格納されたブートプログラムを実行してＯＳ（Operating System）（不図示）を起動する。ＯＳが起動すると、ＣＰＵ２０１は、ストレージ２０４に記録されたコントローラプログラムを実行して、データバス２１２を介して接続された各デバイスを制御する。コントローラプログラムは、音声認識装置１０１全体を制御するプログラムである。ＲＯＭ２０２は、不揮発メモリであり、ブートプログラム等を格納する。ＲＡＭ２０３は、ＣＰＵ２０１の作業領域として、また、各データの一時格納領域として用いられる。ストレージ２０４は、読み出し及び書き込み可能な不揮発メモリであり、コントローラプログラム等を保存する。また、ストレージ２０４は、会議サーバ１０２へ送信されるまでの間、会議情報を保存する。

入力デバイス２０５は、タッチパネル、ハードキー、及びマウス等から構成される入力装置である。入力デバイス２０５は、ユーザの操作指示を受け付けると、受け付けた操作指示の内容を示す指示情報をＣＰＵ２０１に送信する。表示デバイス２０６は、ＬＣＤ等の表示装置である。表示デバイス２０６は、ＣＰＵ２０１が生成した表示画像データを表示する。ＣＰＵ２０１は、入力デバイス２０５から受信した指示情報に基づいて音声認識装置１０１を制御する。例えば、ＣＰＵ２０１は、受信した指示情報に応じて新たな表示画像データを生成し、表示デバイス２０６の表示内容を当該新たな表示画像データに切り替える。外部インターフェース２０７は、ＬＡＮや電話回線等のネットワーク、又は赤外線といった近接無線等のネットワークを介して、外部機器とデータの送受信を行う。カメラデバイス２０８は、例えば、デジタルカメラであり、動画や画像を撮影する。マイクデバイス２０９は、複数のマイクで構成されるマイクアレイである。マイクデバイス２０９は、入力された音声をデジタル信号化し、ＷＡＶＥ等の音声データとして取得する。スピーカーデバイス２１０は、通知音声等の出力を行う。方向通知デバイス２１１は、複数、例えば、８つのマルチカラーＬＥＤ等の発光デバイスで構成される。方向通知デバイス２１１は、例えば、複数のＬＥＤの中の一部のＬＥＤを点灯させて、表示デバイス２０６に表示されたメッセージが示す方向をユーザに通知する。なお、方向通知デバイス２１１は、ユーザに方向を通知できるものであればこの構成に限られず、例えば、表示デバイス２０６に表示されたメッセージが示す方向を指し示す矢印を表示するディスプレイであっても良い。

図２（ｂ）において、会議サーバ１０２は、ＣＰＵ２１３、ＲＯＭ２１４、ＲＡＭ２１５、ストレージ２１６、入力デバイス２１７、表示デバイス２１８、及び外部インターフェース２１９を備える。ＣＰＵ２１３、ＲＯＭ２１４、ＲＡＭ２１５、ストレージ２１６、入力デバイス２１７、表示デバイス２１８、及び外部インターフェース２１９は、データバス２２０を介して互いに接続されている。

ＣＰＵ２１３は、会議サーバ１０２全体を制御するためのコントローラである。ＣＰＵ２１３は、不揮発メモリであるＲＯＭ２１４に格納されたブートプログラムを実行して会議サーバ１０２のＯＳ（不図示）を起動する。ＯＳが起動すると、ＣＰＵ２１３は、ストレージ２１６に記憶された会議サーバプログラムを実行して、データバス２２０を介して接続された各デバイスを制御する。ＲＡＭ２１５は、ＣＰＵ２１３の作業領域として、また、各データの一時格納領域として用いられる。ストレージ２１６は、読み出し及び書き込み可能な不揮発メモリであり、上記会議サーバプログラム等を保存する。入力デバイス２１７は、入力デバイス２０５と同様の構成であり、タッチパネル、ハードキー、及びマウス等から構成される入力装置である。入力デバイス２１７は、ユーザの操作指示を受け付けると、受け付けた操作指示の内容を示す指示情報をＣＰＵ２１３に送信する。表示デバイス２１８は、表示デバイス２０６と同様の構成であり、ＬＣＤ等の表示装置である。表示デバイス２１８は、ＣＰＵ２１３が生成した表示画像データ等を表示する。外部インターフェース２１９は、外部インターフェース２０７と同様の構成であり、ＬＡＮや電話回線等のネットワーク、又は赤外線といった近接無線等のネットワークを介して、外部機器とデータの送受信を行う。

図３は、図１の音声認識装置１０１の外観図である。図３に示すように、音声認識装置１０１は、円柱状の筐体である。音声認識装置１０１の側面には、表示デバイス２０６及びスピーカーデバイス２１０が設けられている。また、音声認識装置１０１の上面にはマイクデバイス２０９が設けられ、マイクデバイス２０９を囲むように円周状の方向通知デバイス２１１が配置されている。

図４は、図１の音声認識装置１０１によって実行される会議情報送信処理の手順を示すフローチャートである。図４の処理は、ＣＰＵ２０１がストレージ２０４に記憶されたコントローラプログラムを実行することによって行われる。図４の処理は、表示デバイス２０６に表示された図５（ａ）の開始画面５００において開始ボタン５０１が会議の参加者に選択された際に実行される。開始画面５００は、音声認識装置１０１に会議開始を指示するための画面である。開始画面５００は、音声認識装置１０１の電源キー（不図示）において、参加者から音声認識装置１０１の電源オンを指示する操作を受け付けた際に表示デバイス２０６に表示される。

図４において、まず、ＣＰＵ２０１は、参加者が会議開始を指示したか否かを判別する（ステップＳ４０１）。ステップＳ４０１では、開始画面５００において参加者が開始ボタン５０１を選択した場合、ＣＰＵ２０１は、参加者が会議開始を指示したと判別する。一方、開始画面５００において参加者が開始ボタン５０１を選択しない場合、ＣＰＵ２０１は、参加者が会議開始を指示しないと判別する。

ステップＳ４０１の判別の結果、参加者が会議開始を指示したとき、ＣＰＵ２０１は、後述する図７の集音状態判別処理を別プロセスとして実行し（ステップＳ４０２）、音声認識装置１０１の集音状態を判別する。ステップＳ４０２では、例えば、音声認識無効方向が設定される。音声認識無効方向は、マイクデバイス２０９が集音した音声を発した参加者のうち、音声認識の実施結果を所定の品質で得られない音声を発した参加者を音声認識装置１０１から眺めた方向である。ステップＳ４０２の処理が開始されると、表示デバイス２０６には、図５（ｂ）の会議中画面５０２が表示される。会議中画面５０２は、参加者が音声認識装置１０１に会議終了を指示するための画面である。ＣＰＵ２０１は、会議中画面５０２において会議終了を指示するための終了ボタン５０３が参加者に選択されるまでステップＳ４０２の処理を続ける。

また、ＣＰＵ２０１は、集音状態判別処理と並列で、マイクデバイス２０９で受けた音声の音声認識を行う（ステップＳ４０３）。ステップＳ４０３では、ＣＰＵ２０１は、マイクデバイス２０９で受けた複数の音声を含む音声データを先頭から走査し、音声データにおける無音区間を検出する。無音区間は、音声データにおいて、例えば、受信音量が所定の基準値以下の状態が一定時間継続された区間である。以下では、或る無音区間と次の無音区間との間の区間を発話区間とする。ＣＰＵ２０１は、音声データにおける各発話区間に対して音声認識を行って、各発話区間に対応する発話テキストデータを生成する。また、ステップＳ４０３では、ＣＰＵ２０１は、音声認識の実施結果を示す音声認識結果情報を取得する。具体的に、ＣＰＵ２０１は、音声認識結果情報として、発話区間に音声を発した参加者を音声認識装置１０１から眺めた方向（以下、「発声者方向」という。）、マイクデバイス２０９における受信音量、及び音声認識の実施結果の信頼度を示す情報を取得する。発声者方向は、マイクデバイス２０９を構成する複数のマイクの受信音声から音源定位を行うことで求められる。音声認識の実施結果の信頼度は、発話テキストデータが実際の発話と合致している確率で示される。音声認識の実施結果の信頼度は、音声認識の過程で受信音声から音響モデルを用いて音素列を推定した確率と、当該音素列から言語モデルを用いて発話テキストデータを推定した確率とを用いて求められる。次いで、ＣＰＵ２０１は、ステップＳ４０３で取得した発声者方向が音声認識無効方向と一致するか否かを判別する（ステップＳ４０４）。例えば、音声データに複数の参加者が発した音声が含まれ、ステップＳ４０３において複数の発声者方向が検出された場合、ＣＰＵ２０１は、取得した各発声者方向に対してステップＳ４０４の処理を行う。

ステップＳ４０４の判別の結果、ステップＳ４０３で取得した発声者方向が音声認識無効方向と一致しないとき、ＣＰＵ２０１は、ステップＳ４０５の処理を行う。ステップＳ４０５では、ＣＰＵ２０１は、当該発声者方向に対応する発話テキストデータ及び音声認識結果情報を図６の発話テキストテーブル６００に記録する。発話テキストテーブル６００は、音声データの音声認識の実施結果を管理するためのデータであり、ストレージ２０４等に記憶されている。発話テキストテーブル６００は、発話ＩＤ６０１、発話時刻６０２、発話テキスト６０３、方向６０４、音量６０５、信頼度６０６、及び判別済み６０７の設定項目で構成される。発話ＩＤ６０１には、音声認識を実施した際に付与される識別ＩＤが記録される。発話時刻６０２には、音声認識を実施した時刻が記録される。発話テキスト６０３には、ステップＳ４０３で取得した発話テキストデータが記録される。方向６０４には、ステップＳ４０３で取得した音声認識結果情報に含まれる発声者方向を示す文字列が記録される。方向６０４には、方向通知デバイス２１１を構成する複数のＬＥＤの中の１つのＬＥＤに対応する文字列、例えば、「北」、「北東」、「東」、「南東」、「南」、「南西」、「西」、「北西」の何れかの文字列が記録される。音量６０５には、ステップＳ４０３で取得した音声認識結果情報に含まれる受信音量を示す値が記録される。信頼度６０６には、ステップＳ４０３で取得した音声認識結果情報に含まれる音声認識の実施結果の信頼度を示す値が記録される。判別済み６０７には、後述する図７の集音状態判別処理における判別を実施済みであるか否かを示す値が記録される。レコードが新たに作成された場合、判別済み６０７には、その旨を示す「０」が記録される。一方、後述する図７の集音状態判別処理における判別を実施済みである場合、判別済み６０７には、その旨を示す「１」が記録される。すなわち、本実施の形態では、判別済み６０７に「０」が記録されたレコードに対して、後述する図７の集音状態判別処理が実行される。以下では、判別済み６０７に「０」が記録されたレコードを「未判別レコード」とする。次いで、ＣＰＵ２０１は、ステップＳ４０６の処理を行う。

ステップＳ４０４の判別の結果、ステップＳ４０３で取得した発声者方向が音声認識無効方向と一致したとき、ＣＰＵ２０１は、当該発声者方向に対応する発話テキストデータ及び音声認識結果情報を発話テキストテーブル６００に記録せずに破棄する。すなわち、本実施の形態では、ＣＰＵ２０１は、音声認識無効方向から受けた音声を音声認識して取得した発話テキストデータ及び音声認識結果情報を発話テキストテーブル６００で管理しない。次いで、ＣＰＵ２０１は、参加者が会議終了を指示したか否かを判別する（ステップＳ４０６）。ステップＳ４０６では、会議中画面５０２において参加者が終了ボタン５０３を選択した場合、ＣＰＵ２０１は、参加者が会議終了を指示したと判別する。一方、会議中画面５０２において参加者が終了ボタン５０３を選択しない場合、ＣＰＵ２０１は、参加者が会議終了を指示しないと判別する。

ステップＳ４０６の判別の結果、参加者が会議終了を指示しないとき、ＣＰＵ２０１は、ステップＳ４０３の処理に戻る。ステップＳ４０６の判別の結果、参加者が会議終了を指示したとき、ＣＰＵ２０１は、表示デバイス２０６に図５（ｃ）の会議終了画面５０４を表示する。会議終了画面５０４は、入力欄５０５及びＯＫボタン５０６を備える。入力欄５０５には、会議システム１００によって作成された議事録の送信先を示す文字列、例えば、送信先のメールアドレスが入力される。ＯＫボタン５０６は、音声認識装置１０１に会議終了の確定を指示するためのボタンである。次いで、ＣＰＵ２０１は、参加者が会議終了の確定を指示したか否かを判別する（ステップＳ４０７）。ステップＳ４０７では、例えば、参加者が入力欄５０５に議事録の送信先のメールアドレスを入力し且つＯＫボタン５０６を選択した場合、ＣＰＵ２０１は、参加者が会議終了の確定を指示したと判別する。一方、参加者が入力欄５０５に議事録の送信先のメールアドレスを入力せずにＯＫボタン５０６を選択した場合、若しくは参加者がＯＫボタン５０６を選択しない場合、ＣＰＵ２０１は、参加者が会議終了の確定を指示しないと判別する。ＣＰＵ２０１は、参加者が会議終了の確定を指示するまで待機する。

参加者が会議終了の確定を指示すると（ステップＳ４０７でＹＥＳ）、ＣＰＵ２０１は、発話テキストテーブル６００の信頼度６０６の値が予め設定された基準信頼度未満のレコードを全て削除する（ステップＳ４０８）。このようにして、本実施の形態では、音声認識の実施結果の信頼度が基準信頼度未満の発話が議事録に含まれないように制御される。次いで、ＣＰＵ２０１は、発話テキストテーブル６００及び入力欄５０５に入力された送信先情報を１つの会議情報として会議サーバ１０２に送信する（ステップＳ４０９）。なお、本実施の形態では、会議情報を会議サーバ１０２に送信した後、当該会議情報に含まれる発話テキストテーブル６００をストレージ２０４から削除しても良い。その後、ＣＰＵ２０１は、ステップＳ４０１の処理に戻る。

ステップＳ４０１の判別の結果、参加者が会議開始を指示しないとき、ＣＰＵ２０１は、参加者が音声認識装置１０１の電源オフを指示したか否かを判別する（ステップＳ４１０）。ステップＳ４１０では、参加者が音声認識装置１０１の電源キー（不図示）を押下した場合、ＣＰＵ２０１は、参加者が音声認識装置１０１の電源オフを指示したと判別する。一方、参加者が上記電源キーを押下しない場合、ＣＰＵ２０１は、参加者が音声認識装置１０１の電源オフを指示しないと判別する。

ステップＳ４１０の判別の結果、参加者が音声認識装置１０１の電源オフを指示しないとき、ＣＰＵ２０１は、ステップＳ４０１の処理に戻る。ステップＳ４１０の判別の結果、参加者が音声認識装置１０１の電源オフを指示したとき、ＣＰＵ２０１は、本処理を終了する。

図７は、図４のステップＳ４０２の集音状態判別処理の手順を示すフローチャートである。図７において、ＣＰＵ２０１は、集音状態判別処理を前回実行してから所定の時間が経過したか否かを判別する（ステップＳ７０１）。ステップＳ７０１では、ＣＰＵ２０１は、発話テキストテーブル６００において判別済み６０７に「１」が設定された最も新しいレコードの発話時刻６０２の時刻と、現在時刻とを比較する。比較した結果、その差が予め設定された所定の値以上である場合、ＣＰＵ２０１は、集音状態判別処理を前回実行してから所定の時間が経過したと判別する。一方、上記差が上記所定の値未満である場合、ＣＰＵ２０１は、集音状態判別処理を前回実行してから所定の時間が経過しないと判別する。

ステップＳ７０１の判別の結果、集音状態判別処理を前回実行してから所定の時間が経過したとき、ＣＰＵ２０１は、発話テキストテーブル６００に記録されたレコードのうち未判別レコードに対してステップＳ７０２〜Ｓ７１４の処理を行う。ステップＳ７０２では、ＣＰＵ２０１は、未判別レコードの中に受信音量が予め設定された基準音量未満のレコードが含まれるか否かを判別する（ステップＳ７０２）。

ステップＳ７０２の判別の結果、未判別レコードの中に受信音量が基準音量未満のレコードが含まれないとき、ＣＰＵ２０１は、後述するステップＳ７０９の処理を行う。ステップＳ７０２の判別の結果、未判別レコードの中に受信音量が基準音量未満のレコードが含まれるとき、ＣＰＵ２０１は、受信音量が基準音量未満となる方向を、方向通知デバイス２１１を用いて参加者に通知する（ステップＳ７０３）。具体的に、ＣＰＵ２０１は、方向通知デバイス２１１を構成する複数のＬＥＤのうち、受信音量が基準音量未満となる未判別レコードの方向６０４に記録された方向に対応するＬＥＤを赤色に点灯させる。次いで、ＣＰＵ２０１は、赤色に点灯するＬＥＤの数が方向通知デバイス２１１を構成するＬＥＤの数の半数未満であるか否かを判別する（ステップＳ７０４）。

ステップＳ７０４の判別の結果、赤色に点灯するＬＥＤの数が方向通知デバイス２１１を構成するＬＥＤの数の半数未満であるとき、ＣＰＵ２０１は、ステップＳ７０５の処理を行う。ステップＳ７０５では、ＣＰＵ２０１は、方向通知デバイス２１１において、赤色に点灯するＬＥＤの配列位置が連続しているか否かを判別する。

ステップＳ７０５の判別の結果、赤色に点灯するＬＥＤの配列位置が連続しているとき、受信音量が基準音量未満となる音声を発した参加者（以下、「基準音量未満参加者」とする。）が、一箇所に集まっていることが想定される。このとき、ＣＰＵ２０１は、基準音量未満参加者側に音声認識装置１０１を近付けるように、音声認識装置１０１の移動を促す通知を行う（ステップＳ７０６）。具体的に、ＣＰＵ２０１は、図８（ａ）の通知画面８００を表示デバイス２０６に表示する。なお、図８（ａ）は、音声認識装置１０１を真上から眺めた際の音声認識装置１０１の様子を示す。一例として、配列位置が連続しているＬＥＤ８０１、８０２が赤色に点灯する様子を示す。通知画面８００は、赤色のＬＥＤの方向に音声認識装置１０１を移動させることを促すメッセージ８０３、及び完了ボタン８０４を含む。完了ボタン８０４は、音声認識装置１０１の移動を完了した旨を参加者が音声認識装置１０１に知らせるためのボタンである。次いで、ＣＰＵ２０１は、後述するステップＳ７０８の処理を行う。

ステップＳ７０４の判別の結果、赤色に点灯するＬＥＤの数が方向通知デバイス２１１を構成するＬＥＤの数の半数以上であるとき、又はステップＳ７０５の判別の結果、赤色に点灯するＬＥＤの配列位置が連続していないとき、基準音量未満参加者が、複数の箇所に離れていることが想定される。このとき、ＣＰＵ２０１は、基準音量未満参加者の各々が音声認識装置１０１に近付くように、参加者の移動を促す通知を行う（ステップＳ７０７）。具体的に、ＣＰＵ２０１は、図８（ｂ）の通知画面８０５を表示デバイス２０６に表示する。なお、図８（ｂ）も、音声認識装置１０１を真上から眺めた際の音声認識装置１０１の様子を示す。一例として、配列位置が連続していないＬＥＤ８０１、８０６が赤色に点灯する様子を示す。通知画面８０５は、赤色のＬＥＤの方向の参加者に対して音声認識装置１０１に近付くことを促すメッセージ８０７、及び完了ボタン８０８を含む。すなわち、本実施の形態では、一の参加者からの受信音量が基準音量未満であると判別された場合、後述するステップＳ７１１、Ｓ７１２の通知を行う前に、一の参加者に対して音声認識装置１０１へ近付くことを促す通知が行われる。完了ボタン８０８は、参加者が音声認識装置１０１側への移動を完了した旨を知らせるためのボタンである。次いで、ＣＰＵ２０１は、ステップＳ７０６、Ｓ７０７の通知に対応する移動を完了したか否かを判別する（ステップＳ７０８）。ステップＳ７０８では、例えば、完了ボタン８０４、８０８の何れかが参加者に選択された場合、ＣＰＵ２０１は、ステップＳ７０６、Ｓ７０７の通知に対応する移動を完了したと判別する。一方、完了ボタン８０４，８０８の何れも参加者に選択されない場合、ＣＰＵ２０１は、ステップＳ７０６、Ｓ７０７の通知に対応する移動を完了しないと判別する。ＣＰＵ２０１は、ステップＳ７０６、Ｓ７０７の通知に対応する移動を完了するまで待機する。ステップＳ７０６、Ｓ７０７の通知に対応する移動を完了すると（ステップＳ７０８でＹＥＳ）、ＣＰＵ２０１は、ステップＳ７０９の処理を行う。ステップＳ７０９では、ＣＰＵ２０１は、発話テキストテーブル６００に記録された未判別レコードの中に受信音量が基準音量以上であって音声認識の実施結果の信頼度が基準信頼度未満であるレコードが含まれるか否かを判別する。

ステップＳ７０９の判別の結果、発話テキストテーブル６００に記録された未判別レコードの中に受信音量が基準音量以上であって音声認識の実施結果の信頼度が基準信頼度未満であるレコードが含まれるとき、ＣＰＵ２０１は、ステップＳ７１０の処理を行う。ステップＳ７１０では、ＣＰＵ２０１は、音声認識無効方向を更新する。具体的に、ＣＰＵ２０１は、受信音量が基準音量以上であって音声認識の実施結果の信頼度が基準信頼度未満である未判別レコードの方向６０４に記録された方向を音声認識無効方向として設定する。ステップＳ７１０で更新された音声認識無効方向は、上述したステップＳ４０４の処理で使用される。次いで、ＣＰＵ２０１は、ステップＳ７１１、Ｓ７１２の処理を行って、受信音量が基準音量以上であって音声認識の実施結果の信頼度が基準信頼度未満である音声を発した参加者の移動を促す通知を行う。

ステップＳ７１１では、ＣＰＵ２０１は、例えば、図８（ｃ）に示すように、受信音量が基準音量以上であって音声認識の実施結果の信頼度が基準信頼度未満である方向に対応するＬＥＤ８０９、８１０を黄色に点灯させる。また、ＣＰＵ２０１は、受信音量が基準音量以上であって音声認識の実施結果の信頼度が基準信頼度以上である方向に対応するＬＥＤ８１１を緑色に点灯させる。なお、図８（ｃ）も、音声認識装置１０１を真上から眺めた際の音声認識装置１０１の様子を示す。

ステップＳ７１２では、ＣＰＵ２０１は、図８（ｃ）の通知画面８１２を表示デバイス２０６に表示する。通知画面８１２は、黄色のＬＥＤ側の参加者に対して緑色のＬＥＤ側に移動することを促すメッセージ８１３、及び完了ボタン８１４を含む。すなわち、本実施の形態では、音声認識の実施結果の信頼度が基準信頼度未満である音声を発した一の参加者に、音声認識の実施結果の信頼度が基準信頼度以上である音声を発した他の参加者側（他の発話者側）への移動を促す通知が行われる。完了ボタン８１４は、参加者が音声認識装置１０１側への移動を完了した旨を知らせるためのボタンである。次いで、ＣＰＵ２０１は、メッセージ８１３に対応する移動を完了したか否かを判別する（ステップＳ７１３）。ステップＳ７１３では、例えば、完了ボタン８１４が参加者に選択された場合、ＣＰＵ２０１は、メッセージ８１３に対応する移動を完了したと判別する。一方、完了ボタン８１４が参加者に選択されない場合、ＣＰＵ２０１は、メッセージ８１３に対応する移動を完了しないと判別する。ＣＰＵ２０１は、メッセージ８１３に対応する移動を完了するまで待機する。メッセージ８１３に対応する移動を完了すると（ステップＳ７１３でＹＥＳ）、ＣＰＵ２０１は、表示デバイス２０６に会議中画面５０２を表示する。次いで、ＣＰＵ２０１は、未判別レコードの判別済み６０７の設定値を「０」から「１」に変更し（ステップＳ７１４）、ステップＳ７０１の処理に戻る。

ステップＳ７０１の判別の結果、集音状態判別処理を前回実行してから所定の時間が経過しないとき、ＣＰＵ２０１は、参加者が会議終了を指示したか否かを判別する（ステップＳ７１５）。ＣＰＵ２０１は、ステップＳ４０６と同様に、会議中画面５０２における終了ボタン５０３が参加者に選択されたか否かに基づいてステップＳ７１５の判別処理を行う。

ステップＳ７１５の判別の結果、参加者が会議終了を指示しないとき、ＣＰＵ２０１は、ステップＳ７０１の処理に戻る。ステップＳ７１５の判別の結果、参加者が会議終了を指示したとき、ＣＰＵ２０１は、本処理を終了する。

図９は、図１の会議サーバ１０２によって実行される議事録送信処理の手順を示すフローチャートである。図９の処理は、ＣＰＵ２１３がストレージ２１６に記憶された会議サーバプログラムを実行することによって行われる。図９の処理は、会議サーバ１０２が起動した際に実行される。

図９において、まず、ＣＰＵ２１３は、会議情報を受信したか否かを判別する（ステップＳ９０１）。

ステップＳ９０１の判別の結果、会議情報を受信したとき、ＣＰＵ２１３は、当該会議情報における発話テキストテーブル６００の全てのレコードを参照する。ＣＰＵ２１３は、各レコードの発話テキスト６０３に記録された発話テキストデータを構成する各単語の重要度を算出する（ステップＳ９０２）。ステップＳ９０２では、各単語の出現頻度に基づいて各単語の重要度が算出される。例えば、出現頻度が比較的高い単語は重要度が高い単語として算出され、出現頻度が比較的低い単語は重要度が低い単語として算出される。次いで、ＣＰＵ２１３は、各レコードの発話テキスト６０３に記録された発話テキストデータの重要度を算出する（ステップＳ９０３）。ステップＳ９０３では、発話テキストデータを構成する各単語の重要度の合計値に基づいて算出される。次いで、ＣＰＵ２１３は、発話テキストテーブル６００に記録されたレコードのうち、発話テキストデータの重要度が予め設定された基準重要度以上のレコードを抽出し（ステップＳ９０４）、抽出したレコードに基づいて図１０の議事録１０００を作成する。議事録１０００は、一行目の会議開催時間１００１、及び二行目以降の要約テキスト１００２、１００３で構成される。会議開催時間１００１には、発話テキストテーブル６００における最初のレコードの発話時刻６０２の時刻及び最後のレコードの発話時刻６０２の時刻に基づいて会議の開催時間が記される。要約テキスト１００２、１００３には、抽出されたレコードの発話テキスト６０３に記録された発話テキストデータが記載される。次いで、ＣＰＵ２１３は、作成した議事録１０００を会議情報に含まれる送信先に送信する（ステップＳ９０５）。ＣＰＵ２１３は、議事録１０００を上記送信先に、例えば、電子メールで送信する。その後、ＣＰＵ２１３は、ステップＳ９０１の処理に戻る。

ステップＳ９０１の判別の結果、会議情報を受信しないとき、ＣＰＵ２１３は、終了指示を受け付けたか否かを判別する（ステップＳ９０６）。ステップＳ９０６では、例えば、外部インターフェース２１９を介してＰＣ（不図示）等から終了指示を受信した場合、ＣＰＵ２１３は、終了指示を受け付けたと判別する。一方、外部インターフェース２１９を介して上記ＰＣ等から終了指示を受信しない場合、ＣＰＵ２１３は、終了指示を受け付けないと判別する。

ステップＳ９０６の判別の結果、終了指示を受け付けないとき、ＣＰＵ２１３は、ステップＳ９０１の処理に戻る。ステップＳ９０６の判別の結果、終了指示を受け付けたとき、ＣＰＵ２１３は、本処理を終了する。

上述した実施の形態によれば、音声認識の実施結果の信頼度が基準信頼度未満である音声を発した参加者に移動を促す通知が行われる。これにより、集音に適さない場所に参加者が留まることを防止することができ、もって、集音環境に依存することなく、音声認識の精度の低下を抑制することができる。

また、上述した実施の形態では、音声認識の実施結果の信頼度が基準信頼度未満である音声を発した一の参加者に、音声認識の実施結果の信頼度が基準信頼度以上である音声を発した他の参加者側への移動を促す通知が行われる。これにより、音声認識の実施結果の信頼度が基準信頼度未満であることに起因する音声認識の精度の低下を抑制することができる。

さらに、上述した実施の形態では、一の参加者からの受信音量が基準音量未満であると判別された場合、一の参加者に他の参加者側への移動を促す通知を行う前に、一の参加者に対して音声認識装置１０１へ近付くことを促す通知が行われる。ここで、参加者の移動において、参加者が音声認識装置１０１に近付くのであれば、参加者の移動距離が比較的短くなる。一方、参加者が音声認識の実施結果の信頼度が基準信頼度以上である音声を発した他の参加者側へ移動するのであれば、例えば、音声認識装置１０１を挟んだ反対側の位置への移動のように参加者の移動距離が比較的長くなる。ところで、音声認識の実施結果の信頼度が基準信頼度未満となる要因は、参加者からの受信音量不足や、音声認識装置１０１周辺の雑音等が考えられる。音声認識の実施結果の信頼度が基準信頼度未満となる要因が参加者からの受信音量不足である場合には、参加者に対して音声認識装置１０１へ近付くことを促す通知を行って、参加者の移動距離が不要に長くなることなく、音声認識の精度の低下を抑制するのが好ましい。これに対し、本実施の形態では、一の参加者からの受信音量が基準音量未満であると判別された場合、一の参加者に上記他の参加者側への移動を促す通知を行う前に、一の参加者に対して音声認識装置１０１へ近付くことを促す通知が行われる。これにより、参加者の移動距離を不要に長くすることなく、音声認識の精度の低下を抑制することができる。

上述した実施の形態では、発話テキストテーブル６００で管理されるレコードに基づいて議事録１０００が作成され、音声認識の実施結果の信頼度が基準信頼度未満である音声を発した参加者側から受けた音声に関するレコードが発話テキストテーブル６００で管理されずに破棄される。これにより、音声認識の実施結果の信頼度が比較的低いレコード、つまり、参加者が発した発話内容と異なる内容が含まれている可能性が極めて高いレコードに基づいて議事録が作成されるのを防止することができる。

上述した本実施の形態では、会議サーバ１０２が図９の処理を実行する場合について説明したが、図９の処理を実行する装置は会議サーバ１０２に限られない。例えば、音声認識装置１０１が発話テキストテーブル６００に基づいて図９の処理を実行して、議事録を作成しても良い。

上述した本実施の形態では、マイクデバイス２０９が着脱可能な構成であっても良く、このような構成である場合、ステップＳ７０６では、音声認識装置１０１本体ではなく、マイクデバイス２０９の移動を促す通知を行っても良い。

本発明は、上述の実施の形態の１以上の機能を実現するプログラムをネットワーク又は記憶媒体を介してシステム又は装置に供給し、該システム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読み出して実行する処理でも実現可能である。また、本発明は、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１０１音声認識装置
２０１ＣＰＵ
２０６表示デバイス
２１１方向通知デバイス
６００発話テキストテーブル
８００、８０５、８１２通知画面
８０１、８０２、８０６、８０９〜８１１ＬＥＤ

Claims

複数の発話者が発した音声の音声認識を行う音声認識装置であって、
各前記発話者が発した音声の音声認識の実施結果の信頼度が予め設定された基準信頼度未満であるか否かを判別する判別手段と、
前記音声認識の実施結果の信頼度が前記基準信頼度未満である音声を発した発話者の移動を促す通知を行う通知手段とを備えることを特徴とする音声認識装置。
前記通知手段は、前記音声認識の実施結果の信頼度が前記基準信頼度未満である音声を発した一の発話者に、前記音声認識の実施結果の信頼度が前記基準信頼度以上である音声を発した他の発話者側への移動を促す通知を行うことを特徴とする請求項１記載の音声認識装置。
各前記発話者から受けた音声の音量が予め設定された基準音量未満であるか否かを判別する他の判別手段を更に備え、
前記一の発話者から受けた音声の音量が前記基準音量未満であると判別された場合、前記通知手段は、前記一の発話者に前記他の発話者側への移動を促す通知を行う前に、前記一の発話者に対して前記音声認識装置へ近付くことを促す通知を行うことを特徴とする請求項２記載の音声認識装置。
各前記発話者が発した音声の音声認識の実施結果に関する情報を管理する管理手段を更に備え、
前記管理手段によって管理された前記音声認識の実施結果に関する情報に基づいて前記複数の発話者が発した音声をテキスト化した議事録が作成され、
前記管理手段は、前記音声認識の実施結果の信頼度が前記基準信頼度未満である音声を発した発話者側から受けた音声の音声認識の実施結果に関する情報を管理せずに破棄することを特徴とする請求項１乃至３のいずれか１項に記載の音声認識装置。
複数の発話者が発した音声の音声認識を行う音声認識装置の制御方法であって、
各前記発話者が発した音声の音声認識の実施結果の信頼度が予め設定された基準信頼度未満であるか否かを判別する判別ステップと、
前記音声認識の実施結果の信頼度が前記基準信頼度未満である音声を発した発話者の移動を促す通知を行う通知ステップとを有することを特徴とする音声認識装置の制御方法。
複数の発話者が発した音声の音声認識を行う音声認識装置の制御方法をコンピュータに実行させるプログラムであって、
前記音声認識装置の制御方法は、
各前記発話者が発した音声の音声認識の実施結果の信頼度が予め設定された基準信頼度未満であるか否かを判別する判別ステップと、
前記音声認識の実施結果の信頼度が前記基準信頼度未満である音声を発した発話者の移動を促す通知を行う通知ステップとを有することを特徴とするプログラム。