JP2020020946A - 音声認識装置及びその制御方法、並びにプログラム - Google Patents

音声認識装置及びその制御方法、並びにプログラム Download PDF

Info

Publication number
JP2020020946A
JP2020020946A JP2018144081A JP2018144081A JP2020020946A JP 2020020946 A JP2020020946 A JP 2020020946A JP 2018144081 A JP2018144081 A JP 2018144081A JP 2018144081 A JP2018144081 A JP 2018144081A JP 2020020946 A JP2020020946 A JP 2020020946A
Authority
JP
Japan
Prior art keywords
voice recognition
voice
reliability
result
cpu
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018144081A
Other languages
English (en)
Inventor
裕介 村松
Yusuke Murakami
裕介 村松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2018144081A priority Critical patent/JP2020020946A/ja
Publication of JP2020020946A publication Critical patent/JP2020020946A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】集音環境に依存することなく、音声認識の精度の低下を抑制することができる音声認識装置を提供する。【解決手段】音声認識装置101は、複数の参加者が発する音声を音声認識し、音声認識の実施結果の信頼度が基準信頼度未満である音声を発した参加者の移動を促す通知を行う。【選択図】図7B

Description

本発明は、音声認識装置及びその制御方法、並びにプログラムに関する。
会議の議事録を人手で作成する煩雑さを解消するために、議事録を自動で作成する会議システムが開発されている。会議システムでは、会議の参加者の発話内容をテキスト化した発話テキストデータに基づいて議事録が作成され、発話テキストデータは、音声認識装置が参加者の発話を音声認識することで生成される。音声認識の精度は、集音環境に依存して大きく変動するため、常に良好な音声認識結果が得られるとは限らない。例えば、音声認識装置のマイクで受けた音声の音量(以下、「受信音量」という。)不足に起因して音声認識の精度が低下してしまう。これに対し、従来では、音声認識装置が周辺の音源の位置を推定し、音声認識装置の動作部が各音源からの受信音量と位置関係から集音に適した場所へ音声認識装置のマイクを移動させる(例えば、特許文献1参照)。これにより、各音源から受けた音声において受信音量不足にならないように制御して、音声認識の精度の低下を抑制することができる。
特開2010−10857号公報
しかしながら、上述した特許文献1の技術では、受信音量以外の要因、例えば、参加者周辺の雑音に起因する音声認識の精度の低下を抑制することができない。
本発明の目的は、集音環境に依存することなく、音声認識の精度の低下を抑制することができる音声認識装置及びその制御方法、並びにプログラムを提供することにある。
上記目的を達成するために、本発明の音声認識装置は、複数の発話者が発した音声の音声認識を行う音声認識装置であって、各前記発話者が発した音声の音声認識の実施結果の信頼度が予め設定された基準信頼度未満であるか否かを判別する判別手段と、前記音声認識の実施結果の信頼度が前記基準信頼度未満である音声を発した発話者の移動を促す通知を行う通知手段とを備えることを特徴とする。
本発明によれば、集音環境に依存することなく、音声認識の精度の低下を抑制することができる。
本発明の実施の形態に係る音声認識装置を含む会議システムの構成を概略的に示すブロック図である。 図1の音声認識装置及び会議サーバのハードウェア構成を概略的に示すブロック図である。 図1の音声認識装置の外観図である。 図1の音声認識装置によって実行される会議情報送信処理の手順を示すフローチャートである。 図2の表示デバイスに表示される画面の一例を示す図である。 図1の音声認識装置によって生成される発話テキストテーブルの一例を示す図である。 図4のステップS402の集音状態判別処理の手順を示すフローチャートである。 図4のステップS402の集音状態判別処理の手順を示すフローチャートである。 図1の音声認識装置による通知を説明するための図である。 図1の会議サーバによって実行される議事録送信処理の手順を示すフローチャートである。 図1の会議サーバによって作成される議事録の一例を示す図である。
以下、本発明の実施の形態について図面を参照しながら詳述する。なお、本実施の形態では、会議システムにおける音声認識装置に本発明を適用した場合について説明するが、本発明は会議システムにおける音声認識装置に限られない。例えば、スマートスピーカといった音声認識機能を有する装置に本発明を適用してもよい。
図1は、本発明の実施の形態に係る音声認識装置101を含む会議システム100の構成を概略的に示すブロック図である。
図1において、会議システム100は、音声認識装置101及び会議サーバ102を備える。音声認識装置101及び会議サーバ102は、ネットワーク103を介して接続されている。なお、本実施の形態では、会議システム100は、音声認識装置101及び会議サーバ102を一台ずつ備える構成について説明するが、会議システム100の構成は、これに限られない。例えば、会議システム100は、音声認識装置101及び会議サーバ102の少なくとも一方を複数台備えていても良い。
音声認識装置101は、会議室等の会議開催場所に配置され、例えば、会議室のテーブル上に置かれる。音声認識装置101は、会議の参加者(発話者)の発話を音声認識して発話内容をテキスト化した発話テキストデータを生成する。また、音声認識装置101は、当該発話テキストデータや画像データ等の複数の種類のデータ(以下、「会議情報」という。)を保存する。音声認識装置101は、例えば、オフィスや所定の会場等で開催される会議の会議情報を保存する。なお、本実施の形態における会議は、複数の人が発言し合うような集まりであればよく、オフィスや所定の会場等で開催される会議に限定されない。例えば、本実施の形態における会議は、面接や取り調べ等を含み、また、PC(Personal Computer)等を用いた遠隔会議を含む。音声認識装置101は、保存した会議情報を会議サーバ102に送信する。
会議サーバ102は、PCやクラウドサーバである。会議サーバ102は、会議情報に含まれる画像データを文字認識してテキストを生成する。また、会議サーバ102は、会議情報に含まれる発話テキストデータに基づいて議事録を作成し、作成した議事録を指定された送信先に送信する。
図2は、図1の音声認識装置101及び会議サーバ102のハードウェア構成を概略的に示すブロック図である。図2(a)は、音声認識装置101のハードウェア構成を示す。図2(b)は、会議サーバ102のハードウェア構成を示す。
図2(a)において、音声認識装置101は、CPU201、ROM202、RAM203、ストレージ204、入力デバイス205、表示デバイス206、外部インターフェース207、及びカメラデバイス208を備える。さらに、音声認識装置101は、マイクデバイス209、スピーカーデバイス210、及び方向通知デバイス211を備える。CPU201、ROM202、RAM203、ストレージ204、入力デバイス205、表示デバイス206、外部インターフェース207、カメラデバイス208、マイクデバイス209、スピーカーデバイス210、及び方向通知デバイス211は、データバス212を介して互いに接続されている。なお、CPUは、Central Processing Unitの略称である。RAMは、Random Access Memoryの略称である。ROMは、Read Only Memoryの略称である。
CPU201は、音声認識装置101全体を制御するためのコントローラである。CPU201は、ROM202に格納されたブートプログラムを実行してOS(Operating System)(不図示)を起動する。OSが起動すると、CPU201は、ストレージ204に記録されたコントローラプログラムを実行して、データバス212を介して接続された各デバイスを制御する。コントローラプログラムは、音声認識装置101全体を制御するプログラムである。ROM202は、不揮発メモリであり、ブートプログラム等を格納する。RAM203は、CPU201の作業領域として、また、各データの一時格納領域として用いられる。ストレージ204は、読み出し及び書き込み可能な不揮発メモリであり、コントローラプログラム等を保存する。また、ストレージ204は、会議サーバ102へ送信されるまでの間、会議情報を保存する。
入力デバイス205は、タッチパネル、ハードキー、及びマウス等から構成される入力装置である。入力デバイス205は、ユーザの操作指示を受け付けると、受け付けた操作指示の内容を示す指示情報をCPU201に送信する。表示デバイス206は、LCD等の表示装置である。表示デバイス206は、CPU201が生成した表示画像データを表示する。CPU201は、入力デバイス205から受信した指示情報に基づいて音声認識装置101を制御する。例えば、CPU201は、受信した指示情報に応じて新たな表示画像データを生成し、表示デバイス206の表示内容を当該新たな表示画像データに切り替える。外部インターフェース207は、LANや電話回線等のネットワーク、又は赤外線といった近接無線等のネットワークを介して、外部機器とデータの送受信を行う。カメラデバイス208は、例えば、デジタルカメラであり、動画や画像を撮影する。マイクデバイス209は、複数のマイクで構成されるマイクアレイである。マイクデバイス209は、入力された音声をデジタル信号化し、WAVE等の音声データとして取得する。スピーカーデバイス210は、通知音声等の出力を行う。方向通知デバイス211は、複数、例えば、8つのマルチカラーLED等の発光デバイスで構成される。方向通知デバイス211は、例えば、複数のLEDの中の一部のLEDを点灯させて、表示デバイス206に表示されたメッセージが示す方向をユーザに通知する。なお、方向通知デバイス211は、ユーザに方向を通知できるものであればこの構成に限られず、例えば、表示デバイス206に表示されたメッセージが示す方向を指し示す矢印を表示するディスプレイであっても良い。
図2(b)において、会議サーバ102は、CPU213、ROM214、RAM215、ストレージ216、入力デバイス217、表示デバイス218、及び外部インターフェース219を備える。CPU213、ROM214、RAM215、ストレージ216、入力デバイス217、表示デバイス218、及び外部インターフェース219は、データバス220を介して互いに接続されている。
CPU213は、会議サーバ102全体を制御するためのコントローラである。CPU213は、不揮発メモリであるROM214に格納されたブートプログラムを実行して会議サーバ102のOS(不図示)を起動する。OSが起動すると、CPU213は、ストレージ216に記憶された会議サーバプログラムを実行して、データバス220を介して接続された各デバイスを制御する。RAM215は、CPU213の作業領域として、また、各データの一時格納領域として用いられる。ストレージ216は、読み出し及び書き込み可能な不揮発メモリであり、上記会議サーバプログラム等を保存する。入力デバイス217は、入力デバイス205と同様の構成であり、タッチパネル、ハードキー、及びマウス等から構成される入力装置である。入力デバイス217は、ユーザの操作指示を受け付けると、受け付けた操作指示の内容を示す指示情報をCPU213に送信する。表示デバイス218は、表示デバイス206と同様の構成であり、LCD等の表示装置である。表示デバイス218は、CPU213が生成した表示画像データ等を表示する。外部インターフェース219は、外部インターフェース207と同様の構成であり、LANや電話回線等のネットワーク、又は赤外線といった近接無線等のネットワークを介して、外部機器とデータの送受信を行う。
図3は、図1の音声認識装置101の外観図である。図3に示すように、音声認識装置101は、円柱状の筐体である。音声認識装置101の側面には、表示デバイス206及びスピーカーデバイス210が設けられている。また、音声認識装置101の上面にはマイクデバイス209が設けられ、マイクデバイス209を囲むように円周状の方向通知デバイス211が配置されている。
図4は、図1の音声認識装置101によって実行される会議情報送信処理の手順を示すフローチャートである。図4の処理は、CPU201がストレージ204に記憶されたコントローラプログラムを実行することによって行われる。図4の処理は、表示デバイス206に表示された図5(a)の開始画面500において開始ボタン501が会議の参加者に選択された際に実行される。開始画面500は、音声認識装置101に会議開始を指示するための画面である。開始画面500は、音声認識装置101の電源キー(不図示)において、参加者から音声認識装置101の電源オンを指示する操作を受け付けた際に表示デバイス206に表示される。
図4において、まず、CPU201は、参加者が会議開始を指示したか否かを判別する(ステップS401)。ステップS401では、開始画面500において参加者が開始ボタン501を選択した場合、CPU201は、参加者が会議開始を指示したと判別する。一方、開始画面500において参加者が開始ボタン501を選択しない場合、CPU201は、参加者が会議開始を指示しないと判別する。
ステップS401の判別の結果、参加者が会議開始を指示したとき、CPU201は、後述する図7の集音状態判別処理を別プロセスとして実行し(ステップS402)、音声認識装置101の集音状態を判別する。ステップS402では、例えば、音声認識無効方向が設定される。音声認識無効方向は、マイクデバイス209が集音した音声を発した参加者のうち、音声認識の実施結果を所定の品質で得られない音声を発した参加者を音声認識装置101から眺めた方向である。ステップS402の処理が開始されると、表示デバイス206には、図5(b)の会議中画面502が表示される。会議中画面502は、参加者が音声認識装置101に会議終了を指示するための画面である。CPU201は、会議中画面502において会議終了を指示するための終了ボタン503が参加者に選択されるまでステップS402の処理を続ける。
また、CPU201は、集音状態判別処理と並列で、マイクデバイス209で受けた音声の音声認識を行う(ステップS403)。ステップS403では、CPU201は、マイクデバイス209で受けた複数の音声を含む音声データを先頭から走査し、音声データにおける無音区間を検出する。無音区間は、音声データにおいて、例えば、受信音量が所定の基準値以下の状態が一定時間継続された区間である。以下では、或る無音区間と次の無音区間との間の区間を発話区間とする。CPU201は、音声データにおける各発話区間に対して音声認識を行って、各発話区間に対応する発話テキストデータを生成する。また、ステップS403では、CPU201は、音声認識の実施結果を示す音声認識結果情報を取得する。具体的に、CPU201は、音声認識結果情報として、発話区間に音声を発した参加者を音声認識装置101から眺めた方向(以下、「発声者方向」という。)、マイクデバイス209における受信音量、及び音声認識の実施結果の信頼度を示す情報を取得する。発声者方向は、マイクデバイス209を構成する複数のマイクの受信音声から音源定位を行うことで求められる。音声認識の実施結果の信頼度は、発話テキストデータが実際の発話と合致している確率で示される。音声認識の実施結果の信頼度は、音声認識の過程で受信音声から音響モデルを用いて音素列を推定した確率と、当該音素列から言語モデルを用いて発話テキストデータを推定した確率とを用いて求められる。次いで、CPU201は、ステップS403で取得した発声者方向が音声認識無効方向と一致するか否かを判別する(ステップS404)。例えば、音声データに複数の参加者が発した音声が含まれ、ステップS403において複数の発声者方向が検出された場合、CPU201は、取得した各発声者方向に対してステップS404の処理を行う。
ステップS404の判別の結果、ステップS403で取得した発声者方向が音声認識無効方向と一致しないとき、CPU201は、ステップS405の処理を行う。ステップS405では、CPU201は、当該発声者方向に対応する発話テキストデータ及び音声認識結果情報を図6の発話テキストテーブル600に記録する。発話テキストテーブル600は、音声データの音声認識の実施結果を管理するためのデータであり、ストレージ204等に記憶されている。発話テキストテーブル600は、発話ID601、発話時刻602、発話テキスト603、方向604、音量605、信頼度606、及び判別済み607の設定項目で構成される。発話ID601には、音声認識を実施した際に付与される識別IDが記録される。発話時刻602には、音声認識を実施した時刻が記録される。発話テキスト603には、ステップS403で取得した発話テキストデータが記録される。方向604には、ステップS403で取得した音声認識結果情報に含まれる発声者方向を示す文字列が記録される。方向604には、方向通知デバイス211を構成する複数のLEDの中の1つのLEDに対応する文字列、例えば、「北」、「北東」、「東」、「南東」、「南」、「南西」、「西」、「北西」の何れかの文字列が記録される。音量605には、ステップS403で取得した音声認識結果情報に含まれる受信音量を示す値が記録される。信頼度606には、ステップS403で取得した音声認識結果情報に含まれる音声認識の実施結果の信頼度を示す値が記録される。判別済み607には、後述する図7の集音状態判別処理における判別を実施済みであるか否かを示す値が記録される。レコードが新たに作成された場合、判別済み607には、その旨を示す「0」が記録される。一方、後述する図7の集音状態判別処理における判別を実施済みである場合、判別済み607には、その旨を示す「1」が記録される。すなわち、本実施の形態では、判別済み607に「0」が記録されたレコードに対して、後述する図7の集音状態判別処理が実行される。以下では、判別済み607に「0」が記録されたレコードを「未判別レコード」とする。次いで、CPU201は、ステップS406の処理を行う。
ステップS404の判別の結果、ステップS403で取得した発声者方向が音声認識無効方向と一致したとき、CPU201は、当該発声者方向に対応する発話テキストデータ及び音声認識結果情報を発話テキストテーブル600に記録せずに破棄する。すなわち、本実施の形態では、CPU201は、音声認識無効方向から受けた音声を音声認識して取得した発話テキストデータ及び音声認識結果情報を発話テキストテーブル600で管理しない。次いで、CPU201は、参加者が会議終了を指示したか否かを判別する(ステップS406)。ステップS406では、会議中画面502において参加者が終了ボタン503を選択した場合、CPU201は、参加者が会議終了を指示したと判別する。一方、会議中画面502において参加者が終了ボタン503を選択しない場合、CPU201は、参加者が会議終了を指示しないと判別する。
ステップS406の判別の結果、参加者が会議終了を指示しないとき、CPU201は、ステップS403の処理に戻る。ステップS406の判別の結果、参加者が会議終了を指示したとき、CPU201は、表示デバイス206に図5(c)の会議終了画面504を表示する。会議終了画面504は、入力欄505及びOKボタン506を備える。入力欄505には、会議システム100によって作成された議事録の送信先を示す文字列、例えば、送信先のメールアドレスが入力される。OKボタン506は、音声認識装置101に会議終了の確定を指示するためのボタンである。次いで、CPU201は、参加者が会議終了の確定を指示したか否かを判別する(ステップS407)。ステップS407では、例えば、参加者が入力欄505に議事録の送信先のメールアドレスを入力し且つOKボタン506を選択した場合、CPU201は、参加者が会議終了の確定を指示したと判別する。一方、参加者が入力欄505に議事録の送信先のメールアドレスを入力せずにOKボタン506を選択した場合、若しくは参加者がOKボタン506を選択しない場合、CPU201は、参加者が会議終了の確定を指示しないと判別する。CPU201は、参加者が会議終了の確定を指示するまで待機する。
参加者が会議終了の確定を指示すると(ステップS407でYES)、CPU201は、発話テキストテーブル600の信頼度606の値が予め設定された基準信頼度未満のレコードを全て削除する(ステップS408)。このようにして、本実施の形態では、音声認識の実施結果の信頼度が基準信頼度未満の発話が議事録に含まれないように制御される。次いで、CPU201は、発話テキストテーブル600及び入力欄505に入力された送信先情報を1つの会議情報として会議サーバ102に送信する(ステップS409)。なお、本実施の形態では、会議情報を会議サーバ102に送信した後、当該会議情報に含まれる発話テキストテーブル600をストレージ204から削除しても良い。その後、CPU201は、ステップS401の処理に戻る。
ステップS401の判別の結果、参加者が会議開始を指示しないとき、CPU201は、参加者が音声認識装置101の電源オフを指示したか否かを判別する(ステップS410)。ステップS410では、参加者が音声認識装置101の電源キー(不図示)を押下した場合、CPU201は、参加者が音声認識装置101の電源オフを指示したと判別する。一方、参加者が上記電源キーを押下しない場合、CPU201は、参加者が音声認識装置101の電源オフを指示しないと判別する。
ステップS410の判別の結果、参加者が音声認識装置101の電源オフを指示しないとき、CPU201は、ステップS401の処理に戻る。ステップS410の判別の結果、参加者が音声認識装置101の電源オフを指示したとき、CPU201は、本処理を終了する。
図7は、図4のステップS402の集音状態判別処理の手順を示すフローチャートである。図7において、CPU201は、集音状態判別処理を前回実行してから所定の時間が経過したか否かを判別する(ステップS701)。ステップS701では、CPU201は、発話テキストテーブル600において判別済み607に「1」が設定された最も新しいレコードの発話時刻602の時刻と、現在時刻とを比較する。比較した結果、その差が予め設定された所定の値以上である場合、CPU201は、集音状態判別処理を前回実行してから所定の時間が経過したと判別する。一方、上記差が上記所定の値未満である場合、CPU201は、集音状態判別処理を前回実行してから所定の時間が経過しないと判別する。
ステップS701の判別の結果、集音状態判別処理を前回実行してから所定の時間が経過したとき、CPU201は、発話テキストテーブル600に記録されたレコードのうち未判別レコードに対してステップS702〜S714の処理を行う。ステップS702では、CPU201は、未判別レコードの中に受信音量が予め設定された基準音量未満のレコードが含まれるか否かを判別する(ステップS702)。
ステップS702の判別の結果、未判別レコードの中に受信音量が基準音量未満のレコードが含まれないとき、CPU201は、後述するステップS709の処理を行う。ステップS702の判別の結果、未判別レコードの中に受信音量が基準音量未満のレコードが含まれるとき、CPU201は、受信音量が基準音量未満となる方向を、方向通知デバイス211を用いて参加者に通知する(ステップS703)。具体的に、CPU201は、方向通知デバイス211を構成する複数のLEDのうち、受信音量が基準音量未満となる未判別レコードの方向604に記録された方向に対応するLEDを赤色に点灯させる。次いで、CPU201は、赤色に点灯するLEDの数が方向通知デバイス211を構成するLEDの数の半数未満であるか否かを判別する(ステップS704)。
ステップS704の判別の結果、赤色に点灯するLEDの数が方向通知デバイス211を構成するLEDの数の半数未満であるとき、CPU201は、ステップS705の処理を行う。ステップS705では、CPU201は、方向通知デバイス211において、赤色に点灯するLEDの配列位置が連続しているか否かを判別する。
ステップS705の判別の結果、赤色に点灯するLEDの配列位置が連続しているとき、受信音量が基準音量未満となる音声を発した参加者(以下、「基準音量未満参加者」とする。)が、一箇所に集まっていることが想定される。このとき、CPU201は、基準音量未満参加者側に音声認識装置101を近付けるように、音声認識装置101の移動を促す通知を行う(ステップS706)。具体的に、CPU201は、図8(a)の通知画面800を表示デバイス206に表示する。なお、図8(a)は、音声認識装置101を真上から眺めた際の音声認識装置101の様子を示す。一例として、配列位置が連続しているLED801、802が赤色に点灯する様子を示す。通知画面800は、赤色のLEDの方向に音声認識装置101を移動させることを促すメッセージ803、及び完了ボタン804を含む。完了ボタン804は、音声認識装置101の移動を完了した旨を参加者が音声認識装置101に知らせるためのボタンである。次いで、CPU201は、後述するステップS708の処理を行う。
ステップS704の判別の結果、赤色に点灯するLEDの数が方向通知デバイス211を構成するLEDの数の半数以上であるとき、又はステップS705の判別の結果、赤色に点灯するLEDの配列位置が連続していないとき、基準音量未満参加者が、複数の箇所に離れていることが想定される。このとき、CPU201は、基準音量未満参加者の各々が音声認識装置101に近付くように、参加者の移動を促す通知を行う(ステップS707)。具体的に、CPU201は、図8(b)の通知画面805を表示デバイス206に表示する。なお、図8(b)も、音声認識装置101を真上から眺めた際の音声認識装置101の様子を示す。一例として、配列位置が連続していないLED801、806が赤色に点灯する様子を示す。通知画面805は、赤色のLEDの方向の参加者に対して音声認識装置101に近付くことを促すメッセージ807、及び完了ボタン808を含む。すなわち、本実施の形態では、一の参加者からの受信音量が基準音量未満であると判別された場合、後述するステップS711、S712の通知を行う前に、一の参加者に対して音声認識装置101へ近付くことを促す通知が行われる。完了ボタン808は、参加者が音声認識装置101側への移動を完了した旨を知らせるためのボタンである。次いで、CPU201は、ステップS706、S707の通知に対応する移動を完了したか否かを判別する(ステップS708)。ステップS708では、例えば、完了ボタン804、808の何れかが参加者に選択された場合、CPU201は、ステップS706、S707の通知に対応する移動を完了したと判別する。一方、完了ボタン804,808の何れも参加者に選択されない場合、CPU201は、ステップS706、S707の通知に対応する移動を完了しないと判別する。CPU201は、ステップS706、S707の通知に対応する移動を完了するまで待機する。ステップS706、S707の通知に対応する移動を完了すると(ステップS708でYES)、CPU201は、ステップS709の処理を行う。ステップS709では、CPU201は、発話テキストテーブル600に記録された未判別レコードの中に受信音量が基準音量以上であって音声認識の実施結果の信頼度が基準信頼度未満であるレコードが含まれるか否かを判別する。
ステップS709の判別の結果、発話テキストテーブル600に記録された未判別レコードの中に受信音量が基準音量以上であって音声認識の実施結果の信頼度が基準信頼度未満であるレコードが含まれるとき、CPU201は、ステップS710の処理を行う。ステップS710では、CPU201は、音声認識無効方向を更新する。具体的に、CPU201は、受信音量が基準音量以上であって音声認識の実施結果の信頼度が基準信頼度未満である未判別レコードの方向604に記録された方向を音声認識無効方向として設定する。ステップS710で更新された音声認識無効方向は、上述したステップS404の処理で使用される。次いで、CPU201は、ステップS711、S712の処理を行って、受信音量が基準音量以上であって音声認識の実施結果の信頼度が基準信頼度未満である音声を発した参加者の移動を促す通知を行う。
ステップS711では、CPU201は、例えば、図8(c)に示すように、受信音量が基準音量以上であって音声認識の実施結果の信頼度が基準信頼度未満である方向に対応するLED809、810を黄色に点灯させる。また、CPU201は、受信音量が基準音量以上であって音声認識の実施結果の信頼度が基準信頼度以上である方向に対応するLED811を緑色に点灯させる。なお、図8(c)も、音声認識装置101を真上から眺めた際の音声認識装置101の様子を示す。
ステップS712では、CPU201は、図8(c)の通知画面812を表示デバイス206に表示する。通知画面812は、黄色のLED側の参加者に対して緑色のLED側に移動することを促すメッセージ813、及び完了ボタン814を含む。すなわち、本実施の形態では、音声認識の実施結果の信頼度が基準信頼度未満である音声を発した一の参加者に、音声認識の実施結果の信頼度が基準信頼度以上である音声を発した他の参加者側(他の発話者側)への移動を促す通知が行われる。完了ボタン814は、参加者が音声認識装置101側への移動を完了した旨を知らせるためのボタンである。次いで、CPU201は、メッセージ813に対応する移動を完了したか否かを判別する(ステップS713)。ステップS713では、例えば、完了ボタン814が参加者に選択された場合、CPU201は、メッセージ813に対応する移動を完了したと判別する。一方、完了ボタン814が参加者に選択されない場合、CPU201は、メッセージ813に対応する移動を完了しないと判別する。CPU201は、メッセージ813に対応する移動を完了するまで待機する。メッセージ813に対応する移動を完了すると(ステップS713でYES)、CPU201は、表示デバイス206に会議中画面502を表示する。次いで、CPU201は、未判別レコードの判別済み607の設定値を「0」から「1」に変更し(ステップS714)、ステップS701の処理に戻る。
ステップS701の判別の結果、集音状態判別処理を前回実行してから所定の時間が経過しないとき、CPU201は、参加者が会議終了を指示したか否かを判別する(ステップS715)。CPU201は、ステップS406と同様に、会議中画面502における終了ボタン503が参加者に選択されたか否かに基づいてステップS715の判別処理を行う。
ステップS715の判別の結果、参加者が会議終了を指示しないとき、CPU201は、ステップS701の処理に戻る。ステップS715の判別の結果、参加者が会議終了を指示したとき、CPU201は、本処理を終了する。
図9は、図1の会議サーバ102によって実行される議事録送信処理の手順を示すフローチャートである。図9の処理は、CPU213がストレージ216に記憶された会議サーバプログラムを実行することによって行われる。図9の処理は、会議サーバ102が起動した際に実行される。
図9において、まず、CPU213は、会議情報を受信したか否かを判別する(ステップS901)。
ステップS901の判別の結果、会議情報を受信したとき、CPU213は、当該会議情報における発話テキストテーブル600の全てのレコードを参照する。CPU213は、各レコードの発話テキスト603に記録された発話テキストデータを構成する各単語の重要度を算出する(ステップS902)。ステップS902では、各単語の出現頻度に基づいて各単語の重要度が算出される。例えば、出現頻度が比較的高い単語は重要度が高い単語として算出され、出現頻度が比較的低い単語は重要度が低い単語として算出される。次いで、CPU213は、各レコードの発話テキスト603に記録された発話テキストデータの重要度を算出する(ステップS903)。ステップS903では、発話テキストデータを構成する各単語の重要度の合計値に基づいて算出される。次いで、CPU213は、発話テキストテーブル600に記録されたレコードのうち、発話テキストデータの重要度が予め設定された基準重要度以上のレコードを抽出し(ステップS904)、抽出したレコードに基づいて図10の議事録1000を作成する。議事録1000は、一行目の会議開催時間1001、及び二行目以降の要約テキスト1002、1003で構成される。会議開催時間1001には、発話テキストテーブル600における最初のレコードの発話時刻602の時刻及び最後のレコードの発話時刻602の時刻に基づいて会議の開催時間が記される。要約テキスト1002、1003には、抽出されたレコードの発話テキスト603に記録された発話テキストデータが記載される。次いで、CPU213は、作成した議事録1000を会議情報に含まれる送信先に送信する(ステップS905)。CPU213は、議事録1000を上記送信先に、例えば、電子メールで送信する。その後、CPU213は、ステップS901の処理に戻る。
ステップS901の判別の結果、会議情報を受信しないとき、CPU213は、終了指示を受け付けたか否かを判別する(ステップS906)。ステップS906では、例えば、外部インターフェース219を介してPC(不図示)等から終了指示を受信した場合、CPU213は、終了指示を受け付けたと判別する。一方、外部インターフェース219を介して上記PC等から終了指示を受信しない場合、CPU213は、終了指示を受け付けないと判別する。
ステップS906の判別の結果、終了指示を受け付けないとき、CPU213は、ステップS901の処理に戻る。ステップS906の判別の結果、終了指示を受け付けたとき、CPU213は、本処理を終了する。
上述した実施の形態によれば、音声認識の実施結果の信頼度が基準信頼度未満である音声を発した参加者に移動を促す通知が行われる。これにより、集音に適さない場所に参加者が留まることを防止することができ、もって、集音環境に依存することなく、音声認識の精度の低下を抑制することができる。
また、上述した実施の形態では、音声認識の実施結果の信頼度が基準信頼度未満である音声を発した一の参加者に、音声認識の実施結果の信頼度が基準信頼度以上である音声を発した他の参加者側への移動を促す通知が行われる。これにより、音声認識の実施結果の信頼度が基準信頼度未満であることに起因する音声認識の精度の低下を抑制することができる。
さらに、上述した実施の形態では、一の参加者からの受信音量が基準音量未満であると判別された場合、一の参加者に他の参加者側への移動を促す通知を行う前に、一の参加者に対して音声認識装置101へ近付くことを促す通知が行われる。ここで、参加者の移動において、参加者が音声認識装置101に近付くのであれば、参加者の移動距離が比較的短くなる。一方、参加者が音声認識の実施結果の信頼度が基準信頼度以上である音声を発した他の参加者側へ移動するのであれば、例えば、音声認識装置101を挟んだ反対側の位置への移動のように参加者の移動距離が比較的長くなる。ところで、音声認識の実施結果の信頼度が基準信頼度未満となる要因は、参加者からの受信音量不足や、音声認識装置101周辺の雑音等が考えられる。音声認識の実施結果の信頼度が基準信頼度未満となる要因が参加者からの受信音量不足である場合には、参加者に対して音声認識装置101へ近付くことを促す通知を行って、参加者の移動距離が不要に長くなることなく、音声認識の精度の低下を抑制するのが好ましい。これに対し、本実施の形態では、一の参加者からの受信音量が基準音量未満であると判別された場合、一の参加者に上記他の参加者側への移動を促す通知を行う前に、一の参加者に対して音声認識装置101へ近付くことを促す通知が行われる。これにより、参加者の移動距離を不要に長くすることなく、音声認識の精度の低下を抑制することができる。
上述した実施の形態では、発話テキストテーブル600で管理されるレコードに基づいて議事録1000が作成され、音声認識の実施結果の信頼度が基準信頼度未満である音声を発した参加者側から受けた音声に関するレコードが発話テキストテーブル600で管理されずに破棄される。これにより、音声認識の実施結果の信頼度が比較的低いレコード、つまり、参加者が発した発話内容と異なる内容が含まれている可能性が極めて高いレコードに基づいて議事録が作成されるのを防止することができる。
上述した本実施の形態では、会議サーバ102が図9の処理を実行する場合について説明したが、図9の処理を実行する装置は会議サーバ102に限られない。例えば、音声認識装置101が発話テキストテーブル600に基づいて図9の処理を実行して、議事録を作成しても良い。
上述した本実施の形態では、マイクデバイス209が着脱可能な構成であっても良く、このような構成である場合、ステップS706では、音声認識装置101本体ではなく、マイクデバイス209の移動を促す通知を行っても良い。
本発明は、上述の実施の形態の1以上の機能を実現するプログラムをネットワーク又は記憶媒体を介してシステム又は装置に供給し、該システム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読み出して実行する処理でも実現可能である。また、本発明は、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
101 音声認識装置
201 CPU
206 表示デバイス
211 方向通知デバイス
600 発話テキストテーブル
800、805、812 通知画面
801、802、806、809〜811 LED

Claims (6)

  1. 複数の発話者が発した音声の音声認識を行う音声認識装置であって、
    各前記発話者が発した音声の音声認識の実施結果の信頼度が予め設定された基準信頼度未満であるか否かを判別する判別手段と、
    前記音声認識の実施結果の信頼度が前記基準信頼度未満である音声を発した発話者の移動を促す通知を行う通知手段とを備えることを特徴とする音声認識装置。
  2. 前記通知手段は、前記音声認識の実施結果の信頼度が前記基準信頼度未満である音声を発した一の発話者に、前記音声認識の実施結果の信頼度が前記基準信頼度以上である音声を発した他の発話者側への移動を促す通知を行うことを特徴とする請求項1記載の音声認識装置。
  3. 各前記発話者から受けた音声の音量が予め設定された基準音量未満であるか否かを判別する他の判別手段を更に備え、
    前記一の発話者から受けた音声の音量が前記基準音量未満であると判別された場合、前記通知手段は、前記一の発話者に前記他の発話者側への移動を促す通知を行う前に、前記一の発話者に対して前記音声認識装置へ近付くことを促す通知を行うことを特徴とする請求項2記載の音声認識装置。
  4. 各前記発話者が発した音声の音声認識の実施結果に関する情報を管理する管理手段を更に備え、
    前記管理手段によって管理された前記音声認識の実施結果に関する情報に基づいて前記複数の発話者が発した音声をテキスト化した議事録が作成され、
    前記管理手段は、前記音声認識の実施結果の信頼度が前記基準信頼度未満である音声を発した発話者側から受けた音声の音声認識の実施結果に関する情報を管理せずに破棄することを特徴とする請求項1乃至3のいずれか1項に記載の音声認識装置。
  5. 複数の発話者が発した音声の音声認識を行う音声認識装置の制御方法であって、
    各前記発話者が発した音声の音声認識の実施結果の信頼度が予め設定された基準信頼度未満であるか否かを判別する判別ステップと、
    前記音声認識の実施結果の信頼度が前記基準信頼度未満である音声を発した発話者の移動を促す通知を行う通知ステップとを有することを特徴とする音声認識装置の制御方法。
  6. 複数の発話者が発した音声の音声認識を行う音声認識装置の制御方法をコンピュータに実行させるプログラムであって、
    前記音声認識装置の制御方法は、
    各前記発話者が発した音声の音声認識の実施結果の信頼度が予め設定された基準信頼度未満であるか否かを判別する判別ステップと、
    前記音声認識の実施結果の信頼度が前記基準信頼度未満である音声を発した発話者の移動を促す通知を行う通知ステップとを有することを特徴とするプログラム。
JP2018144081A 2018-07-31 2018-07-31 音声認識装置及びその制御方法、並びにプログラム Pending JP2020020946A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018144081A JP2020020946A (ja) 2018-07-31 2018-07-31 音声認識装置及びその制御方法、並びにプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018144081A JP2020020946A (ja) 2018-07-31 2018-07-31 音声認識装置及びその制御方法、並びにプログラム

Publications (1)

Publication Number Publication Date
JP2020020946A true JP2020020946A (ja) 2020-02-06

Family

ID=69589807

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018144081A Pending JP2020020946A (ja) 2018-07-31 2018-07-31 音声認識装置及びその制御方法、並びにプログラム

Country Status (1)

Country Link
JP (1) JP2020020946A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021135648A (ja) * 2020-02-26 2021-09-13 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021135648A (ja) * 2020-02-26 2021-09-13 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム

Similar Documents

Publication Publication Date Title
CN106257355B (zh) 设备控制方法和控制器
JP6902136B2 (ja) システムの制御方法、システム、及びプログラム
JP6575658B2 (ja) インタラクティブ・ホワイトボード機器の音声制御
CN106297781B (zh) 控制方法和控制器
CN106653008B (zh) 一种语音控制方法、装置及系统
US9721572B2 (en) Device control method and electric device
JP4558074B2 (ja) 電話通信端末
JP6819672B2 (ja) 情報処理装置、情報処理方法、及びプログラム
TWI616868B (zh) 會議記錄裝置及其自動生成會議記錄的方法
EP2311031B1 (en) Method and device for converting speech
US20110112837A1 (en) Method and device for converting speech
JP6725006B2 (ja) 制御装置および機器制御システム
JPWO2018173293A1 (ja) 音声端末、音声コマンド生成システム、及び音声コマンド生成システムの制御方法
TW201926079A (zh) 雙向語音翻譯系統、雙向語音翻譯方法和電腦程式產品
JP2013179446A (ja) 機器操作システム、機器操作装置、サーバ、機器操作方法およびプログラム
TWI619115B (zh) 會議記錄裝置及其自動生成會議記錄的方法
JP6659514B2 (ja) 電子機器及びその制御方法
JP2020020946A (ja) 音声認識装置及びその制御方法、並びにプログラム
JP2020020945A (ja) 音声認識装置及びその制御方法、並びにプログラム
JP2020052511A (ja) 要約生成装置、要約生成方法、及びプログラム
JP2018054926A (ja) 音声対話装置および音声対話方法
JP2019138989A (ja) 情報処理装置、情報処理方法、及びプログラム
JP2020184007A (ja) 情報処理装置、音声テキスト化システム、音声テキスト化方法および音声テキスト化プログラム
CN111667822A (zh) 语音处理装置、会议系统以及语音处理方法
JP2020194021A (ja) 音声処理装置、音声処理方法およびプログラム