JP2023115795A - 会話支援装置、会話支援システム、会話支援方法、および、プログラム - Google Patents
会話支援装置、会話支援システム、会話支援方法、および、プログラム Download PDFInfo
- Publication number
- JP2023115795A JP2023115795A JP2022018207A JP2022018207A JP2023115795A JP 2023115795 A JP2023115795 A JP 2023115795A JP 2022018207 A JP2022018207 A JP 2022018207A JP 2022018207 A JP2022018207 A JP 2022018207A JP 2023115795 A JP2023115795 A JP 2023115795A
- Authority
- JP
- Japan
- Prior art keywords
- text information
- speech
- unit
- section
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title abstract description 76
- 238000012545 processing Methods 0.000 claims abstract description 125
- 230000010354 integration Effects 0.000 claims abstract description 47
- 230000006870 function Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 description 59
- 238000010586 diagram Methods 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 238000001514 detection method Methods 0.000 description 8
- 230000001419 dependent effect Effects 0.000 description 7
- 238000007781 pre-processing Methods 0.000 description 5
- 230000007704 transition Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000013178 mathematical model Methods 0.000 description 3
- 208000032041 Hearing impaired Diseases 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 238000011867 re-evaluation Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000002747 voluntary effect Effects 0.000 description 2
- 244000182691 Echinochloa frumentacea Species 0.000 description 1
- 235000008247 Echinochloa frumentacea Nutrition 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000005034 decoration Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005401 electroluminescence Methods 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
【課題】会話内容の信頼性を確保しながら会話の進行をより容易に把握させることができる会話支援装置、会話支援システム、会話支援方法およびプログラムを提供する。
【解決手段】第1音声認識部は音声信号に基づいて音声認識処理を行い発話区間の一部分である部分区間ごとに部分区間テキスト情報を定め、第2音声認識部は前記音声信号に基づいて音声認識処理を行い前記発話区間ごとに発話区間テキスト情報を定め、情報統合部は前記発話区間テキスト情報に前記部分区間テキスト情報を統合して統合テキスト情報を生成し、出力処理部は前記部分区間テキスト情報を表示部に出力した後、前記統合テキスト情報を前記表示部に出力する。
【選択図】図1
【解決手段】第1音声認識部は音声信号に基づいて音声認識処理を行い発話区間の一部分である部分区間ごとに部分区間テキスト情報を定め、第2音声認識部は前記音声信号に基づいて音声認識処理を行い前記発話区間ごとに発話区間テキスト情報を定め、情報統合部は前記発話区間テキスト情報に前記部分区間テキスト情報を統合して統合テキスト情報を生成し、出力処理部は前記部分区間テキスト情報を表示部に出力した後、前記統合テキスト情報を前記表示部に出力する。
【選択図】図1
Description
本発明は、会話支援装置、会話支援システム、会話支援方法、および、プログラムに関する。
従来から、会議など複数人間で行われる会話において、健聴者と聴覚障がい者が参加する会話を支援するための会話支援システムが提案されている。会話支援システムは、会話において発話された音声に対して音声認識を行って発言内容を示すテキストに変換し、変換したテキストを画面に表示する。
例えば、特許文献1に記載の会議システムは、収音部と、テキスト入力部、表示部を備えて子機と、子機と接続をし、子機から入力された音声を音声認識したテキスト情報または子機から入力されたテキスト情報を用いて、議事録を作成し、作成した議事録を子機と共有する親機と、を備える。当該会議システムにおいて、親機は、テキストによって会話に参加された場合に、他の会議参加者の発話を待機させるように親機を制御し、発言を待機させる情報を子機に送信する。
聴覚障がい者は、表示部に表示されたテキストを読んで会話内容を理解する。会話の進行を把握させるためには、会話内容を表すテキストを実時間で逐次に表示することが期待される。他方、音声認識精度を確保するためには、音声認識を逐次に実行するよりも、一回の発話内容全体に対して一括して実行する方が望ましい。その場合、一回の発話が終了するまで表示されるべきテキストが定まらないため、実時間で会話内容を表すテキストを表示できない。そのため、聴覚障がい者が会話に追随できないことがあった。
本発明の課題の一つは、会話内容の信頼性を確保しながら会話の進行をより容易に把握させることができる会話支援装置、会話支援システム、会話支援方法およびプログラムを提供することである。
(1)本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、音声信号に基づいて音声認識処理を行い発話区間の一部分である部分区間ごとに部分区間テキスト情報を定める第1音声認識部と、前記音声信号に基づいて音声認識処理を行い前記発話区間ごとに発話区間テキスト情報を定める第2音声認識部と、前記発話区間テキスト情報に前記部分区間テキスト情報を統合して統合テキスト情報を生成する情報統合部と、前記部分区間テキスト情報を表示部に出力した後、前記統合テキスト情報を前記表示部に出力する出力処理部と、を備える会話支援装置である。
(2)本発明のその他の態様は、(1)の会話支援装置であって、前記出力処理部は、前記統合テキスト情報において、前記部分区間テキスト情報と差が生ずる区間である差分区間における表示態様を、前記統合テキスト情報の他の区間と異なる表示態様に定めてもよい。
(3)本発明のその他の態様は、(1)または(2)の会話支援装置であって、前記情報統合部は、前記第1音声認識部において得られた前記部分区間ごとの部分区間テキスト情報の候補と当該候補のスコアと順列を示す第1グラフを、前記第2音声認識部において得られた前記発話区間の一部をなす部分区間ごとの部分区間テキスト情報の候補と当該候補のスコアと順列を示す第2グラフに統合して統合グラフを生成し、前記統合グラフを用い、前記部分区間ごとの部分区間テキスト情報の候補のスコアから、当該候補を配列して得られる発話区間テキスト情報の候補のスコアである発話区間スコアを算出し、前記発話区間スコアに基づいて前記統合テキスト情報を定めてもよい。
(4)本発明のその他の態様は、(3)の会話支援装置であって、前記部分区間テキスト情報の候補のスコアは、音響コストと言語コストを含み、前記情報統合部は、前記発話区間における部分区間ごとの部分区間テキスト情報の候補の音響コストの総和と言語コストの総和の加重平均値を前記発話区間スコアとして算出してもよい。
(5)本発明のその他の態様は、(1)から(4)のいずれかの会話支援装置において、前記部分区間は、1個または複数の単語に対応する区間であってもよい。
(6)本発明のその他の態様は、コンピュータに(1)から(5)のいずれかの会話支援装置として機能させるためのプログラムであってもよい。
(7)本発明のその他の態様は、(1)から(5)のいずれかの会話支援装置と、前記表示部と、を備える会話支援システム。
(8)本発明のその他の態様は、会話支援装置が、音声信号に基づいて音声認識処理を行い発話区間の一部分である部分区間ごとに部分区間テキスト情報を定める第1音声認識ステップと、前記音声信号に基づいて音声認識処理を行い前記発話区間ごとに発話区間テキスト情報を定める第2音声認識ステップと、前記発話区間テキスト情報に前記部分区間テキスト情報を統合して統合テキスト情報を生成する情報統合ステップと、前記部分区間テキスト情報を表示部に出力した後、前記統合テキスト情報を前記表示部に出力する出力処理ステップと、を実行する会話支援方法である。
本発明によれば、会話内容の信頼性を確保しながら会話の進行をより容易に把握させることができる。
本発明の(1)、(6)、(7)または(8)の態様によれば、部分区間ごとの発話内容を示す部分区間テキスト情報が表示部に逐次に表示され、発話区間ごとの発話内容を示す発話区間テキスト情報と統合した、統合テキスト情報が表示される。部分区間ごとの部分区間テキスト情報を実時間で表示することで使用者に対して会話の進行を把握させ、その後、発話区間ごとの統合テキスト情報を表示することで会話内容の信頼性を確保することができる。
本発明の(1)、(6)、(7)または(8)の態様によれば、部分区間ごとの発話内容を示す部分区間テキスト情報が表示部に逐次に表示され、発話区間ごとの発話内容を示す発話区間テキスト情報と統合した、統合テキスト情報が表示される。部分区間ごとの部分区間テキスト情報を実時間で表示することで使用者に対して会話の進行を把握させ、その後、発話区間ごとの統合テキスト情報を表示することで会話内容の信頼性を確保することができる。
(2)の態様によれば、差分区間が他の区間と異なる表示態様で表示される。利用者は部分区間テキスト情報と差が生じた差分区間に容易に気づくことができるので、差分区間における信頼性が高い会話内容の見逃しを回避することができる。
(3)の態様によれば、第2音声認識部により得られる発話区間テキスト情報の候補の他に、第1音声認識部より得られた部分区間テキスト情報の候補を参照して会話内容の信頼性を向上させることができる。
(4)の態様によれば、音響的特徴による信頼度と言語的特徴による信頼度を重み付けて発話区間スコアが得られる。そのため、会話内容の信頼性に対する音響的特徴と言語的特徴の寄与を調整することができる。
(5)の態様によれば、単語ごとの発話内容を示す部分区間テキスト情報が表示部30に逐次に表示され、発話区間ごとの発話内容を示す発話区間テキスト情報と統合した、統合テキスト情報が表示される。単語ごとの部分区間テキスト情報を実時間で表示することで使用者に対して会話の進行を把握させ、その後、発話区間ごとの統合テキスト情報を表示することで会話内容の信頼性を確保することができる。
以下、図面を参照しながら本発明の実施形態について説明する。まず、本実施形態に係る会話支援システムS1の構成例について説明する。図1は、本実施形態に係る会話支援システムS1の構成例を示す概略ブロック図である。会話支援システムS1は、会話支援装置10と、収音部20と、表示部30と、端末装置40と、を含んで構成される。
会話支援システムS1は、2人以上の参加者が参加する会話において用いられる。参加者には、発話と音声の受聴の一方または両方に不自由な者(以下、「障がい者」と呼ぶ)が1名以上含まれていてもよい。障がい者は、個々に端末装置40を操作して、発言内容を示すテキスト(以下、「操作テキスト」と呼ぶ)を会話支援装置10に入力してもよい。発話および音声の受聴に困難を伴わない者(以下、「健常者」と呼ぶ)は、個々に収音部20または収音部を備える機器(例えば、端末装置40)を用い、発話した音声を会話支援装置10に入力してもよい。会話支援装置10は、入力された音声を示す音声データに対して公知の音声認識処理を行い、音声による発言内容を示すテキスト(以下、「発話テキスト」、と呼ぶ)に変換する。会話支援装置10は、変換により得られた操作テキストと端末装置40から得られた発話テキストのいずれかのテキスト(以下、「発言テキスト」と呼び、「発話テキスト」と区別する)が取得されるたびに、取得される発言テキストを表示部30に表示させる。障がい者は、表示されるテキスト(以下、「表示テキスト」、と呼ぶ)を読んで会話における発言内容を理解することができる。
会話支援装置10は、収音された音声を示す音声信号から、いずれかの参加者が一度に発話している区間(以下、「発話区間」と呼ぶことがある)の開始(以下、「発話開始」と呼ぶ)と発話区間の終了(以下、「発話終了」と呼ぶ)を判定する。この判定により、発話区間が特定される。会話支援装置10は、発話区間に対する音声認識処理として、第1音声認識処理と、第2音声認識処理とを並列に実行可能となる。
会話支援装置10は、第1音声認識処理において、発話区間の一部(以下、「部分区間」と呼ぶことがある)ごとに発話内容を示す部分区間テキスト情報を定め、定めた部分区間テキスト情報を表示部30に逐次に出力する。表示部30には、部分区間ごとの発話内容を示す部分区間テキスト情報が発言テキストとして実時間(リアルタイム)で表示可能とする。即ち、第1音声認識処理の処理結果は、オンラインで逐次に表示テキストに反映されるので、第1音声認識処理はフォアグラウンド処理となる。以下の説明では、この第1音声認識処理の特徴をオンラインと呼ぶことがある。
会話支援装置10は、第2音声認識処理において、第1音声認識処理と並行して発話区間ごとに発話内容を示す発話区間テキスト情報を定める。会話支援装置10は、定めた発話区間テキスト情報と、その発話区間における部分区間テキスト情報と統合し、統合テキスト情報を生成する。会話支援装置10は、生成した統合テキスト情報を表示部30に出力する。表示部30には、統合テキスト情報で表される発話内容を示す表示テキストが表示される。発話区間テキスト情報と部分区間テキスト情報とを統合する手法については、後述する。
発話区間の終点は発話終了が検出されたときに画定するので、発話区間テキスト情報の出力は早くとも発話区間が画定されるまで遅延する。統合発話区間テキスト情報は、部分区間テキスト情報よりも後に表示される。第2音声認識処理の処理結果は、直ちに表示テキストに反映されないため、第2音声認識処理はバックグラウンド処理となる。以下の説明では、この第2音声認識処理の特徴をオフラインと呼ぶことがある。第2音声認識処理によれば、発話区間テキスト情報は、発話区間を構成する複数の部分区間を跨ぐ発話内容の出現確率(隣接する部分空間同士の発話内容の遷移確率が含まれる)を考慮して定まる。そのため、統合テキスト情報が部分区間テキスト情報とは異なる区間(以下、「差分区間」と呼ぶことがある)が生じうる。また、発話区間テキスト情報の方が、部分区間テキスト情報よりも信頼度が高くなる傾向がある。そこで、会話支援装置10は、差分区間における統合テキスト情報に係る表示テキストを、他の区間の表示テキストとは異なる態様(例えば、背景色、文字色、文字種、線幅、線種、装飾、などのいずれか1項目または複数項目の組)で表示させてもよい。これにより、統合テキスト情報に基づく表示テキストを視認した参加者は、暫定的に表示された部分空間テキスト情報に基づく表示テキストからの発話内容の変化に気づき、より信頼できる情報に接することができる。
収音部20は、自部に到来する音声を収音し、収音された音声を示す音声データを会話支援装置10に出力する。収音部20は、マイクロホンを備える。収音部20の数は、1個に限られず、2個以上であってもよい。収音部20は、例えば、可搬型のワイヤレスマイクロホンであってもよい。ワイヤレスマイクロホンは、主に個々の所持者の発話音声を収音する。収音部20は、複数のマイクロホンを異なる位置に配置してなるマイクロホンアレイであってもよい。マイクロホンアレイは、全体として複数チャネルの音声データを会話支援装置10に出力する。以下の説明では、主に収音部20が1個のマイクロホンを有するワイヤレスマイクロホンである場合を例にする。
表示部30は、会話支援装置10から入力される表示データに基づく表示情報、例えば、各種の表示画面を表示する。表示データには、後述する表示画面データなどがある。表示部30は、例えば、液晶ディスプレイ(LCD:Liquid Crystal Display)、有機エレクトロルミネッセンスディスプレイ(OLED:Organic Electro luminescence Display)など、いずれの方式のディスプレイであってもよい。なお、表示部30をなすディスプレイの表示領域は、タッチセンサの検出領域を重畳して一体化した単一のタッチパネルとして構成されてもよい。
なお、会話支援システムS1は、操作部(図示せず)を備えてもよい。操作部は、使用者による操作を受け付け、受け付けた操作に応じた操作信号を会話支援装置10に出力する。操作部は、タッチセンサ(表示部30と一体化されるものも該当しうる)、マウス、キーボードなどの汎用の入力デバイスを備えてもよいし、ボタン、つまみ、ダイヤルなどの専用の部材を備えてもよい。
端末装置40は、操作部、表示部、収音部の一部または全部と、入出力部とを備える。以下の説明では、端末装置40に備わる操作部、表示部、収音部、および、入出力部を、それぞれ端末操作部、端末表示部、端末収音部、および、端末入出力部と呼んで、会話支援装置10に備わる操作部、表示部、収音部、および、入出力部と区別する。
端末入出力部は、会話支援装置10と各種のデータを入力または出力する。端末入出力部は、例えば、所定の入出力方式または通信方式でデータを入出力する入出力インタフェースを備える。
端末操作部は、使用者による操作を受け付け、受け付けた操作に応じた操作信号を会話支援装置10に入出力部を経由して出力する。端末操作部は、入力デバイスを備える。
端末操作部は、使用者による操作を受け付け、受け付けた操作に応じた操作信号を会話支援装置10に入出力部を経由して出力する。端末操作部は、入力デバイスを備える。
端末表示部は、会話支援装置10から入出力部を経由して入力される表示画面データに基づいて表示画面を表示する。端末表示部は、端末操作部と一体化し、タッチパネルとして構成されてもよい。端末操作部は、表示画面の表示中に、操作に応じて指示された文字で構成されたテキストを示すテキスト情報を会話支援装置10に端末入出力部を用いて送信する(テキスト入力)。
端末収音部は、自部に到来する音声を収音し、収音された音声を示す音声データを会話支援装置10に端末入出力部を用いて出力する。端末収音部は、マイクロホンを備える。端末収音部により取得された音声データは、会話支援装置10において音声認識処理がなされてもよい。
図1に示す会話支援システムS1は、1個の会話支援装置10と1個の端末装置40を備えるが、これには限らない。端末装置40の数は、2個以上になることもありうるし、0個の場合もありうる。会話支援装置10、端末装置40は、それぞれ図1に示す例では、親機、子機としての機能を有する。
なお、本願では、「会話」とは2人以上の参加者間でなされる意思疎通のことを意味し、音声を用いた意思疎通に限られず、テキストなどの、その他の種別の情報媒体を用いた意思疎通も含まれる。会話には、2人以上の参加者間で自発的または任意になされる意思疎通に限られず、会議、発表会、講演会、式典のように特定の参加者(例えば、司会者)が他の参加者の発言を統制する形態での意思疎通も含まれる。また、「発言」とは言語を用いて意思を伝達することを意味し、音声を発して意思を伝達することに限らず、テキストなど、その他の種別の情報媒体を用いて意思を伝達することも含まれる。
(会話支援装置)
次に、本実施形態に係る会話支援装置10の構成例について説明する。会話支援装置10は、入出力部110と、制御部120と、記憶部140と、を含んで構成される。
入出力部110は、所定の入出力方式または通信方式を用いて他の部材もしくは機器と各種のデータを無線または有線で入力および出力可能とする。入出力部110は、例えば、USB(Universal Serial Bus)、IEEE1394に規定の入出力方式、IEEE802.11、LTE-A(Long Term Evolution Advanced)、5G-NR(5th Generation - New Radio)に規定の通信方式などのいずれの方式を利用可能としてもよい。入出力部110は、例えば、入出力インタフェースと通信インタフェースの一方または両方を含んで構成される。
次に、本実施形態に係る会話支援装置10の構成例について説明する。会話支援装置10は、入出力部110と、制御部120と、記憶部140と、を含んで構成される。
入出力部110は、所定の入出力方式または通信方式を用いて他の部材もしくは機器と各種のデータを無線または有線で入力および出力可能とする。入出力部110は、例えば、USB(Universal Serial Bus)、IEEE1394に規定の入出力方式、IEEE802.11、LTE-A(Long Term Evolution Advanced)、5G-NR(5th Generation - New Radio)に規定の通信方式などのいずれの方式を利用可能としてもよい。入出力部110は、例えば、入出力インタフェースと通信インタフェースの一方または両方を含んで構成される。
制御部120は、各種の演算処理を行うことにより、会話支援装置10の機能を実現し、その機能を制御する。制御部120は、専用の部材により実現されてもよいが、プロセッサと、ROM(Read Only Memory)、RAM(Random Access Memory)などの記憶媒体を備えるコンピュータとして実現されてもよい。プロセッサは、予めROMに記憶された所定のプログラムを読み出し、読み出したプログラムをRAMに展開して、RAMの記憶領域を作業領域として用いる。プロセッサは、読み出したプログラムで記述された各種の命令で指示される処理を実行して制御部120の機能を実現する。実現される機能には、後述する各部の機能が含まれうる。以下の説明では、プログラムに記述された命令で指示される処理を実行することを、「プログラムを実行する」、「プログラムの実行」などと呼ぶことがある。プロセッサは、例えば、CPU(Central Processing Unit)などである。
制御部120は、音響処理部122、特徴量算出部124、第1音声認識部126、第2音声認識部128、情報統合部130、出力処理部132、および、発話情報記録部134を含んで構成される。
音響処理部122には、収音部20から入出力部110を経由して音声データが入力される。音響処理部122は、入力された音声データに対して所定の前処理を行う。前処理には、例えば、公知の雑音抑圧処理が含まれうる。一度に複数チャネルの音声データが入力される場合には、前処理として音源分離処理が含まれてもよい。音響処理部122は、音源分離処理により分離された音声を示す音源別音声データに対して公知の話者認識処理を行って話者を特定し、特定した話者を示す話者識別情報を音源別音声データに付加してもよい。音響処理部122に複数の収音部20から音声データが入力される場合には、個々の収音部20を示す識別情報としてMic IDをその収音部20から入力された音声データに付加してもよい。Mic IDは、その収音部20を専用する話者を特定するための話者識別情報として用いられてもよい。
音響処理部122には、収音部20から入出力部110を経由して音声データが入力される。音響処理部122は、入力された音声データに対して所定の前処理を行う。前処理には、例えば、公知の雑音抑圧処理が含まれうる。一度に複数チャネルの音声データが入力される場合には、前処理として音源分離処理が含まれてもよい。音響処理部122は、音源分離処理により分離された音声を示す音源別音声データに対して公知の話者認識処理を行って話者を特定し、特定した話者を示す話者識別情報を音源別音声データに付加してもよい。音響処理部122に複数の収音部20から音声データが入力される場合には、個々の収音部20を示す識別情報としてMic IDをその収音部20から入力された音声データに付加してもよい。Mic IDは、その収音部20を専用する話者を特定するための話者識別情報として用いられてもよい。
音響処理部122は、前処理を行って得られた前処理後の音声データ(音源別音声データも含まれうる)に示される音声から発話区間を検出する(発話区間検出)。発話区間は、いずれかの話者が発話している区間を指す。発話区間は、音声データに収音された発話音声の成分を有意に含む期間に相当する。発話区間は、発話開始が検出された時点を起点とし、次に発話終了と判定される時点を終点とする期間に相当する。
発話区間検出において、音響処理部122は、前処理後の音声データに対して公知の音声検出処理(VAD:Voice Activity Detection)を行い、その時点における処理対象のフレーム(以下、「現フレーム」)が音声区間であるか否かを判定することができる。音響処理部122は、例えば、取得した音声データについて所定の長さのフレーム(例えば、10~50ms)ごとに発話状態を示す特徴量としてパワーと零交差数(Number of Zero Crossings)を算出する。音響処理部122は、例えば、算出したパワーが所定の発話状態におけるパワーの下限よりも大きく、かつ、零交差数が所定の発話状態における範囲内(例えば、1秒当たり300~1000回)であるフレームを音声区間として判定し、それ以外のフレームを非音声区間として判定する。
音響処理部122は、現フレームの直前の時刻のフレーム(以下の説明では、「前フレーム」と呼ぶ)まで所定の個数のフレームにおいて連続して発話状態が非音声区間(以下の説明では、「連続非音声区間」と呼ぶ)と判定されたが、現フレームの発話状態を新たに音声区間として判定する場合、その現フレームにおける発話状態を発話開始と判定する。以下の説明では、発話状態が発話開始と判定されたフレームを「発話開始フレーム」と呼ぶ。音響処理部122は、現フレームまでの所定の個数のフレームにおいて連続して発話状態が非音声区間である連続避非音声区間と判定する場合、その連続非音声区間の直前のフレームにおける発話状態を発話終了と判定する。以下の説明では、発話状態が発話終了と判定されたフレームを「発話終了フレーム」と呼ぶ。音響処理部122は、発話開始フレームから次の発話終了フレームまでの期間を発話区間として特定することができる。
音響処理部122は、前処理後の音声データを発話開始フレームから次の発話終了フレームまで特徴量算出部124と発話情報記録部134に逐次に出力する。
音響処理部122は、前処理後の音声データを発話開始フレームから次の発話終了フレームまで特徴量算出部124と発話情報記録部134に逐次に出力する。
特徴量算出部124は、音響処理部122から入力される音声データについてフレームごとに音響特徴量を算出する。音響特徴量は、その音声の音響的な特徴を示すパラメータである。特徴量算出部124は、例えば、多次元のメル周波数ケプストラム係数(MFCC:Mel Frequency Cepstrum Coefficients)を算出する。特徴量算出部124は、算出した音響特徴量を第1音声認識部126と第2音声認識部128に出力する。発話区間ごとに入力される音声データに話者識別情報が付加されている場合には、特徴量算出部124は、その話者識別情報を対応付けて音響特徴量に付加し、第1音声認識部126、第2音声認識部128を経由して出力処理部132に出力してもよい。
第1音声認識部126は、特徴量算出部124から入力される音響特徴量に対して第1音声認識処理を実時間で行う。第1音声認識部126は、第1音声認識処理として、発話区間の一部となる部分区間ごとの発話内容を示すテキスト情報として学習済みの第1音声認識モデルを用いて部分区間テキスト情報を定める。第1音声認識部126は、定めた部分区間テキスト情報を情報統合部130と出力処理部132に出力する。第1音声認識処理は、部分区間ごとのオンライン処理となる。但し、会話支援において会話の進行を表現するため、1個の部分区間を少なくとも表記単位(例えば、文字、数字、記号、など)に係る発音に要する時間と同等またはそれ以上の期間とする。部分区間として、例えば、1個の単語、文節、などに係る期間を適用すればよい。
第1音声認識部126は、部分区間として単語を適用する。その場合には、第1音声認識部126は、第1音声認識処理に係る数理モデルとして、音響モデル(Acoustical Model)、文脈依存モデル(Context Dependency)、および、単語辞書(Lexicon)を用いる。音響モデルは、1組以上の音響特徴量を含む時系列から文脈非依存音素の推定に用いられる。文脈依存モデルは、文脈非依存音素から文脈依存音素の推定に用いられる。単語辞書は、1個以上の文脈依存音素を含む音素列から単語の推定に用いられる。単語辞書には、単語ごとの自然言語による表記を示す単語テキスト情報が含まれうる。
第2音声認識部128は、特徴量算出部124から入力される音響特徴量に対して発話区間ごとに第2音声認識処理を行う。つまり、第2音声認識処理は、発話区間ごとのバッチ処理となる。第2音声認識部128は、第2音声認識処理として、発話区間ごとの発話内容を示すテキスト情報として学習済みの第2音声認識モデルを用いて発話区間テキスト情報を定める。第2音声認識処理に係る数理モデルとして、音響モデル、文脈依存モデル、および、単語辞書の他、さらに1個または複数の単語間の関連性(文法規則)を示す文法モデル(Grammer Model)が用いられる。第2音声認識部128は、定めた発話区間テキスト情報を情報統合部130と発話情報記録部134に出力する。
情報統合部130は、第2音声認識部から入力される発話区間ごとの発話区間テキスト情報に第1音声認識部126から入力される部分区間ごとの部分区間テキスト情報を統合し、統合テキスト情報を生成する。情報統合部130は、例えば、第2音声認識モデルを用いて発話区間を構成する部分区間ごとの部分区間テキスト情報の候補をその順序で配列して形成される発話区間テキスト情報の候補(仮説)として定める。情報統合部130は、発話区間テキスト情報の候補ごとにスコア(以下、「発話区間スコア」と呼ぶ)を算出する。情報統合部130は、発話区間テキスト情報の候補を構成する個々の部分区間テキスト情報の候補に係るスコア(以下、「部分区間スコア」と呼ぶ)の総和を発話区間スコアとして算出することができる。部分区間スコアは、部分区間テキスト情報の候補の信頼度(confidence)を示す実数値である。信頼度は、仮説としての確からしさの度合いを意味する。発話区間スコアとして、例えば、遷移確率が用いられうる。情報統合部130は、最も高い信頼度を示す発話区間スコアを与える発話区間テキスト情報を統合テキスト情報として定めることができる。情報統合部130は、第1音声認識部126から部分区間ごとの部分区間テキスト情報を定める際に中間データとして導出された部分区間テキスト情報の候補と、第2音声認識部128から発話区間ごとの発話区間テキスト情報を定める際に中間データとして部分区間ごとに導出された部分区間テキスト情報の候補を取得してもよい。情報統合部130は、生成した統合テキスト情報を出力処理部132に出力する。
出力処理部132には、第1音声認識部126から入力された部分区間ごとの部分区間テキスト情報を逐次に表す表示画面データを生成し、生成した表示画面データを表示部30に入出力部110を経由して出力する。
他方、出力処理部132は、情報統合部130から発話区間ごとに統合テキスト情報が入力される。統合テキスト情報の入力は、部分区間テキスト情報よりも遅延する。出力処理部132は、その発話区間に係る部分区間テキスト情報を統合テキスト情報に置き換えることにより表示画面データを更新する。出力処理部132は、更新した表示画面データを表示部30に出力する。ここで、出力処理部132は、その発話区間の統合テキスト情報について、部分区間テキスト情報との差が生じる差分区間を検出してもよい。出力処理部132は、差分区間における表示態様を一時的(例えば、差分区間の検出を起点とする所定の時間内(例えば、2~10秒))または恒常的に、その他の区間とは異なる表示態様に定めてもよい。出力処理部132には、発話区間ごとに第1音声認識部126と情報統合部130を経由して音響特徴量から導出された部分区間テキスト情報と統合テキスト情報と対応付けて話者識別情報が入力されることがある。出力処理部132は、その発話区間について話者識別情報を含めて表示画面データを生成してもよい。話者識別情報は、例えば、部分区間テキスト情報または統合テキスト情報の冒頭に配置され、その話者を識別するためのアイコン、図形、記号などで表現されてもよい。
他方、出力処理部132は、情報統合部130から発話区間ごとに統合テキスト情報が入力される。統合テキスト情報の入力は、部分区間テキスト情報よりも遅延する。出力処理部132は、その発話区間に係る部分区間テキスト情報を統合テキスト情報に置き換えることにより表示画面データを更新する。出力処理部132は、更新した表示画面データを表示部30に出力する。ここで、出力処理部132は、その発話区間の統合テキスト情報について、部分区間テキスト情報との差が生じる差分区間を検出してもよい。出力処理部132は、差分区間における表示態様を一時的(例えば、差分区間の検出を起点とする所定の時間内(例えば、2~10秒))または恒常的に、その他の区間とは異なる表示態様に定めてもよい。出力処理部132には、発話区間ごとに第1音声認識部126と情報統合部130を経由して音響特徴量から導出された部分区間テキスト情報と統合テキスト情報と対応付けて話者識別情報が入力されることがある。出力処理部132は、その発話区間について話者識別情報を含めて表示画面データを生成してもよい。話者識別情報は、例えば、部分区間テキスト情報または統合テキスト情報の冒頭に配置され、その話者を識別するためのアイコン、図形、記号などで表現されてもよい。
発話情報記録部134には、音響処理部122から発話開始フレームから発話終了フレームまでの発話区間ごとに音声データが入力される。他方、発話情報記録部134には、情報統合部130から発話区間ごとに統合テキスト情報が入力される。発話情報記録部134は、入力された音声データと統合テキスト情報とを対応付けて記憶部140に記録する。記憶部140には、発話区間ごとの発話内容を示す統合テキスト情報と音声データを示す議事録データが形成される。発話区間の音声データには、発話者を識別するための話者識別情報が付加されてもよい。
記憶部140は、各種のデータを一時的または恒常的に記憶する。記憶部140には、制御部120に実行させるための処理を記述したプログラム、その処理に用いられる各種のデータ(各種パラメータ、初期値、中間値、音声認識モデルなども含む)、制御部120が取得した各種のデータを記憶する。記憶部140は、例えば、上記のROM、RAMなどの記憶媒体を含んで構成される。
(実時間処理可能性)
上記のように、第1音声認識部126は、第1音声認識処理により実時間で部分区間ごとに部分区間テキスト情報を定め、出力処理部132に出力する。実時間処理を可能とするため、第1音声認識部126は、入力情報の入力から出力結果が出力されるまでの経過時間が、新たな入力情報の取得に係る取得期間を超える処理ステップが存在しないことを要する。図2は、実時間処理が可能な音声の処理手順を例示する。この例では、1フレームの音声入力に対して、第1ステップと第2ステップを経て出力結果が得られるまでの処理時間は1フレームに満たない。
上記のように、第1音声認識部126は、第1音声認識処理により実時間で部分区間ごとに部分区間テキスト情報を定め、出力処理部132に出力する。実時間処理を可能とするため、第1音声認識部126は、入力情報の入力から出力結果が出力されるまでの経過時間が、新たな入力情報の取得に係る取得期間を超える処理ステップが存在しないことを要する。図2は、実時間処理が可能な音声の処理手順を例示する。この例では、1フレームの音声入力に対して、第1ステップと第2ステップを経て出力結果が得られるまでの処理時間は1フレームに満たない。
一度に処理対象とする音声入力が複数フレームの期間にわたっていても、新たな音声入力の期間が1フレームであるとき、処理時間が1フレーム以下となれば実時間処理が可能である。図3の例では、一度に処理対象となる音声入力は2フレームとなるが、2フレームのうち1フレームの音声入力が新たに取得され、残りの1フレームの音声入力が直前の処理における処理対象になる。このような場合でも、未処理の音声入力の入力から処理を開始できる時点までの遅延時間が増加しないため実時間処理が可能となる。
これに対し、図4の例では、実時間処理は不可能である。この例でも、一度に処理対象となる音声入力が2フレームであり、そのうち1フレームの音声入力が新たに取得される。但し、1フレームの音声入力に対する第1ステップ、第2ステップの処理における処理時間は、それぞれ0.2フレーム、1.3フレームとなる。第2フレームまでの2フレームの音声入力に対して第2ステップの処理を開始できる時期は、その第1ステップの終了時となる。この時期は、第2フレームの音声入力から0.2フレーム後となる。第3フレームまでの2フレームの音声入力に対して第2ステップの処理を開始できる時期は、直前の第2ステップの処理の終了時となる。この時期は、第3フレームの音声入力から0.5フレーム後となる。第4フレームまでの2フレームの音声入力に対して第2ステップの処理を開始できる時期は、直前の第2ステップの処理の終了時となる。この時期は、第4フレームの音声入力から0.8フレーム後となる。このように、新たな音声入力に対して処理可能になるまでの遅延時間が増加する。
図5は、本実施形態に係る部分区間テキスト情報の出力例を時刻ごとに示す。第1音声認識処理の処理結果となる部分区間テキスト情報は、概ね時間経過に従って累積する。この例では、第1音声認識部126は、日本語の表記に係る漢字およびカナ文字の1文字に相当する期間を部分区間として部分区間テキスト情報を定め、定めた部分区間テキスト情報を出力する処理を繰り返す。図5の例では、認識結果となる日本語のテキストが1文字ずつ追加される。発話開始当初における認識結果として「えー」が表示される。発話区間の終了時において、日本語の平叙文の末尾に頻出する助動詞「です」が認識されるとき、単語辞書または文法辞書を参照して文末と推定される。文末を示す句点「。」を加え、「です。」が発話区間の末尾における発話内容として記述される。
なお、第1音声認識処理が実時間処理可能であれば、第1音声認識部126は、既に推定された1個または複数の文脈非依存画素に、時間経過により新たに取得される文脈非依存音素の候補を追加して、より信頼度が高い他の単語の候補を推定してもよい。1個の新たな部分区間に係る音声信号の取得から発言テキストの出力までの処理時間が、その部分区間の平均的な長さよりも短い場合には、実時間での表示が可能になる。また、推定された単語の変化に伴い、句読点が追加または削除されることがある。図5の例では、第1行の認識結果「えー」が第2行において「レーキ」に更新され、第2行の認識結果「レーキ」が第3行において「えー、木」に更新され、第3行の末尾の「木」が第4行において「今日」に更新され、第5行の末尾の「春」が第6行において「晴れ」に更新され、第9行の末尾の「のち」が「にち雨」に更新され、第12行の「様」が第13行において「予定」に更新されている。
(仮説ラティスデータ)
第2音声認識部128は、第2音声認識処理を実行して発話区間ごとに発話区間テキスト情報を定め、出力処理部132に出力する。上記のように、第2音声認識処理は、発話区間をなす部分区間ごとに部分区間テキスト情報の候補を推定する処理の他、発話区間において部分区間の順に部分区間テキスト情報の候補を連結して発話区間テキスト情報の候補を生成する処理を含む。第2音声認識部128は、発話区間情報の候補ごとに、その発話区間情報の候補をなす部分区間ごとの部分区間テキスト情報の候補に対応する部分区間スコアの総和を発話区間スコアとして算出する。第2音声認識部128は、認識結果として最も高い発話区間スコアを与える発話区間テキスト情報の候補を発話区間テキスト情報として定めることができる。
第2音声認識部128は、第2音声認識処理を実行して発話区間ごとに発話区間テキスト情報を定め、出力処理部132に出力する。上記のように、第2音声認識処理は、発話区間をなす部分区間ごとに部分区間テキスト情報の候補を推定する処理の他、発話区間において部分区間の順に部分区間テキスト情報の候補を連結して発話区間テキスト情報の候補を生成する処理を含む。第2音声認識部128は、発話区間情報の候補ごとに、その発話区間情報の候補をなす部分区間ごとの部分区間テキスト情報の候補に対応する部分区間スコアの総和を発話区間スコアとして算出する。第2音声認識部128は、認識結果として最も高い発話区間スコアを与える発話区間テキスト情報の候補を発話区間テキスト情報として定めることができる。
第2音声認識部128は、第2音声認識処理において、公知の手法に従い上記の数理モデルを用いて、仮説ラティス(hypothetical lattice)を示す仮説ラティスデータを生成する。仮説ラティスは、仮説として発話区間における部分区間ごとの部分区間テキスト情報の候補を、その順に配列された発話区間テキスト候補を1個または複数個示す。個々の部分区間テキスト情報の候補には、発話区間における、その順序と部分区間スコアが対応付けられる。仮説ラティスは、図6に例示されるように、複数のノード(節点)と、各2個のノードを接続するエッジ(辺、枝、リンク)を1個以上有する有向グラフで表現される。複数のノードのうちの2点が開始シンボルと終了シンボルに対応付けられる。開始シンボル、終了シンボルは、それぞれ発話開始、発話終了を示す。個々のエッジが、部分区間テキスト情報の候補とその信頼度を示す部分区間スコアに対応付けられる。よって、開始シンボルから終了シンボルまでの各経路をなすエッジのそれぞれに対応する部分区間テキスト情報の候補を、その順に配列して発話区間テキスト候補が表される。
図6の例では、部分区間が単語であり、仮説ラティスは全体として単語グラフの形式を有する。なお、処理対象として注目する部分区間が発話開始時に現れる場合には、第2音声認識部128は、直前の部分区間が存在しないため、開始シンボルを適用してもよい。注目する部分区間が発話終了時に現れる場合には、第2音声認識部128は、直後の部分区間が存在しないため、終了シンボルを適用してもよい。
仮説ラティスでは、あるエッジに後続する単語の候補が複数通り存在する場合、そのエッジの後端となるノードにおいて複数のエッジに分岐される。複数通りの単語の候補のそれぞれが、個々の分岐したエッジに対応付けられる。図7の例では、「伊藤」に対応するエッジは、ノードにおいて後続する2本のエッジに分岐し、個々のエッジが「と」、「も」に対応付けられる。
複数のエッジに後続する単語の候補が共通である場合、それらの複数のエッジは、後続する単語に対応するエッジの先端において統合される。図7の例では、2個のエッジのそれぞれが、共通の単語「再会」に対応付けられ、2個のエッジに後続するエッジはノードを介して1個のエッジに統合され、共通の単語の候補として「する」に対応付けられる。
複数のエッジに後続する単語の候補が共通である場合、それらの複数のエッジは、後続する単語に対応するエッジの先端において統合される。図7の例では、2個のエッジのそれぞれが、共通の単語「再会」に対応付けられ、2個のエッジに後続するエッジはノードを介して1個のエッジに統合され、共通の単語の候補として「する」に対応付けられる。
第2音声認識部128は、生成した仮説ラティスデータを参照して、開始シンボルから終了シンボルまでの経路ごとに、各ノードに与えられた部分区間スコアを累積して得られる総和を信頼度スコアとして算出することができる。個々の部分区間スコアは、スカラー値であってもよいし、ベクトル値であってもよい。個々のスコアは、大きいほど高い信頼度を示す実数値でもよいし、小さいほど高い信頼度を示す実数値(コスト値)でもよい。部分区間スコアは、例えば、要素値として音響コスト(acoustic cost)と言語スコア(graph cost)を要素として含む2次元のベクトルで表されてよい。音響コストは、その部分区間における音響特徴量の系列が、その部分区間の単語の音響特徴量の系列である可能性を示す指標値である。音響コストは、その部分区間内の音響特徴量から音響モデルを用いて導出される。言語コストは、その部分区間において言語的な特性に基づいて出現する可能性を示す指標値である。言語コストは、部分区間内の音響特徴量、文脈非依存音素および単語から、それぞれ文脈依存モデル、単語辞書、および、文法モデルを用いて導出される。部分区間コスト、および、その要素である音響コスト、言語コストは、発話区間スコアの演算が効率的かつ認識精度が低下しないようにスケーリングされた実数値で表現されてもよい。
部分区間スコアが、音響コストと言語コストを含む場合には、第2音声認識部128は、音響コストの総和である音響スコアと、言語コストの総和である言語スコアとの加重平均値を発話区間スコアとして算出することができる。第2音声認識部128は、算出した発話区間スコアが最小となる経路を選択し、選択した経路をなすエッジに対応する単語をその順に連結して発話区間テキスト情報を生成することができる。図6の例では、開始シンボルを起点とし、終了シンボルを終点とする3つの経路のうち、最上部に表された経路が選択される。選択された経路をなす各エッジに対応する単語として、「家族」、「と」、「再会」、「する」をその順に配列して、「家族と再開する」との発話内容が推定される。
第2音声認識処理は、発話区間ごとに候補となる部分区間(例えば、単語)間の関係を定量的に評価して発話内容を推定する。1回の発話区間の長さは、典型的には、数秒から数十秒程度である。発話区間ごとの実時間処理は現実的ではないため、オフラインで処理される。第2音声認識処理により推定された発話内容は、部分区間ごとに推定される第1音声認識処理により推定された発話内容よりも推定精度が高くなる傾向があるが、必ずしもその限りではない。
そこで、情報統合部130は、その発話区間における第1音声認識処理により得られる部分区間ごとの部分区間テキスト情報の候補、文脈依存音素の候補、文脈非依存音素の候補および音響特徴量を第1音声認識部126から取得する。情報統合部130は、第2音声認識処理と同様の手順を実行して、取得した部分区間テキスト情報の候補を部分区間の順に配列して、発話区間テキスト候補を示す仮説ラティスを示すデータを第1仮説ラティスデータとして生成する。情報統合部130は、第1仮説ラティスデータを生成する際、音響モデル、文脈依存モデルおよび単語辞書を用い、文法モデルを用いなくてもよい。
情報統合部130は、第2音声認識部128から第2音声認識処理において生成された仮説ラティスデータ(以下、「第2仮説ラティスデータ」と呼ぶ)を取得する。情報統合部130は、発話区間ごとに第1仮説ラティスデータで表される第1仮説ラティス(以下、「第1グラフ」と呼ぶ)と、第2仮説ラティスデータで表される第2仮説ラティス(以下、「第2グラフ」と呼ぶ)とを結合し、得られたグラフを結合グラフとして定める(グラフ統合)。
グラフ統合において、情報統合部130は、第1グラフと第2グラフを跨いで独自(唯一)のエッジと、そのエッジに対応する部分区間テキスト情報と部分区間スコアを結合グラフの要素に含むよう採用する。情報統合部130は、第1グラフと第2グラフとの間で重複するエッジが存在する場合には、それぞれのエッジを1本のエッジに統合し、それぞれのエッジの部分区間スコアを合成して得られる合成値(例えば、個々の部分区間スコアが遷移確率である場合には、それらの和)を新たな部分区間スコアとして定める。情報統合部130は、統合したエッジと、そのエッジに対応する部分区間テキスト情報と新た部分区間スコアを結合グラフの要素に含むように採用する。処理対象として注目するエッジと重複するエッジとは、注目するエッジと対応する部分区間テキスト情報の候補が共通であって、注目するエッジの直前のエッジおよび直後のエッジとして、共通な部分区間テキスト情報の候補に対応するエッジが存在しないことを意味する。但し、注目するエッジが発話区間冒頭のエッジである場合には、直前のエッジは参照されず、注目するエッジが発話区間末尾のエッジである場合には、直後のエッジが参照されない。発話区間冒頭のエッジの一端は、開始シンボルに対応付けられ、発話区間末尾のエッジの一端は、終了シンボルに対応付けられることにより、他の種類のエッジと区別される。よって、結合グラフでは、結合前の第1グラフと第2グラフで固有の経路が並列し、共通の経路が1つに集約される。
図7は、左上、左下にそれぞれ、第1グラフ、第2グラフを例示し、右に結合グラフを例示する。例えば、第1グラフの冒頭には、「怪盗」、「伊藤」、「伊東」のそれぞれに対応するエッジが存在する。第2グラフの冒頭には、「加藤」、「怪盗」、「配当」のそれぞれに対応するエッジが存在する。第1グラフと第2グラフの間で、「伊藤」、「伊東」、「加藤」、「配当」に係るエッジは独自であるため、維持される。「加藤」に対応するエッジは、第1グラフと第2グラフに共通するため、いずれかに統合される。そして、第1グラフと第2グラフにおける、それらのエッジの部分区間スコアである遷移確率の和が、新たな部分区間スコアの統合されたエッジに対応付けられる。
第1グラフには、「最近」に対応付けられるエッジが存在するが、第2グラフには存在しない。他方、第2グラフには、「采配」に対応するエッジが存在するが、第1グラフには存在しない。よって、「最近」に対応付けられるエッジ、「采配」に対応付けられるエッジのいずれも採用される。「再会」に対応付けられ、後続するエッジにおいて「する」に対応するエッジは、統合される。かかるエッジは、第1グラフと第2グラフのいずれにも存在するためである。統合されたエッジには、統合前の各エッジに対応する重み値の和が新たな重み値として対応付けられる。
第1グラフには、「最近」に対応付けられるエッジが存在するが、第2グラフには存在しない。他方、第2グラフには、「采配」に対応するエッジが存在するが、第1グラフには存在しない。よって、「最近」に対応付けられるエッジ、「采配」に対応付けられるエッジのいずれも採用される。「再会」に対応付けられ、後続するエッジにおいて「する」に対応するエッジは、統合される。かかるエッジは、第1グラフと第2グラフのいずれにも存在するためである。統合されたエッジには、統合前の各エッジに対応する重み値の和が新たな重み値として対応付けられる。
情報統合部130は、結合グラフを用いて、個々の経路をなすエッジに対応する部分区間スコアに基づいて発話区間スコアを経路ごとに算出し、最も大きい発話区間スコアを与える経路を選択する(再評価)。情報統合部130は、選択した経路をなすエッジに対応する単語をその順に連結して、発話区間における発話内容を示す統合テキスト情報を生成することができる。図7の例では、開始シンボルから終了シンボルまでの経路のうち、「怪盗」、「と」、「再会」、「する」のそれぞれに対応するエッジを含む経路が選択される。発話内容として「怪盗と再開する」を示す統合テキスト情報が生成される。
なお、情報統合部130が結合グラフを用いて統合テキスト情報を生成する場合には、第2音声認識処理において発話区間テキスト情報の候補を示す第2仮説ラティスデータが生成されれば足り、最終的な処理結果となる唯一の発話区間テキスト情報を定めることを要しない。
なお、情報統合部130が結合グラフを用いて統合テキスト情報を生成する場合には、第2音声認識処理において発話区間テキスト情報の候補を示す第2仮説ラティスデータが生成されれば足り、最終的な処理結果となる唯一の発話区間テキスト情報を定めることを要しない。
なお、仮説ラティスの生成、仮説ラティスを用いた音声認識、については、以下の文献により詳細に記載されている。本実施形態では、これらの手法を適用することができる。
Daniel Povey, Mirko Hannermann, et al: “GENERATING EXACT LATTICES IN THE WFST FRAMEWORK”, Proceedings of International Conference on Acoustics, Speech, and Signal Processing (ICASSP) 2012, 25-30 March, 2012
“Lattices in Kaldi”, [online], Kaldi Project, <URL: https://www.kaldi-asr.org/doc/lattices.html>
Daniel Povey, Mirko Hannermann, et al: “GENERATING EXACT LATTICES IN THE WFST FRAMEWORK”, Proceedings of International Conference on Acoustics, Speech, and Signal Processing (ICASSP) 2012, 25-30 March, 2012
“Lattices in Kaldi”, [online], Kaldi Project, <URL: https://www.kaldi-asr.org/doc/lattices.html>
(処理タイミング)
第1音声認識処理では、一度に処理対象とする期間を部分区間に制限することで、オンラインでの実時間処理を可能としている。図8の例では、ある部分区間に対する第1音声認識処理は、次の部分区間に対する音響特徴量が特徴量算出部124から取得される時点までに完了する。出力処理部132は、第1音声認識部126から部分区間ごとに認識結果を示す部分区間テキスト情報を取得し、部分区間テキスト情報で示される表示テキストを表示部30に実時間で表示させることができる。
第1音声認識処理では、一度に処理対象とする期間を部分区間に制限することで、オンラインでの実時間処理を可能としている。図8の例では、ある部分区間に対する第1音声認識処理は、次の部分区間に対する音響特徴量が特徴量算出部124から取得される時点までに完了する。出力処理部132は、第1音声認識部126から部分区間ごとに認識結果を示す部分区間テキスト情報を取得し、部分区間テキスト情報で示される表示テキストを表示部30に実時間で表示させることができる。
第2音声認識処理では、一度に処理対象とする期間を発話区間とするため、オンラインでの実時間処理は現実的ではない。一回の発話区間の長さは、典型的には数秒から十数秒程度であり、第2音声認識処理では複数の部分区間の関連性が評価される。図9の例では、ある部分区間に対する第2音声認識処理は、後続の部分区間に対する音響特徴量が取得される状態になっても完了できない。そのため、新たな音響特徴量が取得される都度、新たな音響特徴量の取得から第2音声認識処理を開始できるまでの遅延時間が増加する。本実施形態では、第2音声認識処理がオフラインで実行され、発話区間ごとの処理結果となる発話区間テキスト情報が取得される。
グラフ統合では、第2グラフに第1グラフを結合して結合グラフが生成される。生成された結合グラフ上の経路ごとに発話区間スコアが算出され、発話区間スコアが最大となる経路が選択される。グラフ結合は、情報統合部130は、発話区間において第1グラフの要素となる部分区間ごとの部分区間テキスト情報の候補と、その発話区間に係る第2グラフを取得できることが前提となる。図10に例示されるように、グラフ統合は、第1音声認識処理と第2音声認識処理が完了した後に開始される。再評価では、グラフ統合により得られた結合グラフを用いて経路ごとに発話区間スコアが算出され、統合テキスト情報を定める際に用いられる。そして、統合テキスト情報に基づく表示テキストが表示部30に、部分区間テキスト情報に基づく表示テキストよりも遅れて表示される。図10の例では、発話区間内の音声データに係る第1音声認識処理の完了直後に、その発話区間に対する認識結果を示す表示テキストが表示されるとともに、それ以降に第2音声認識処理が開始可能となる。なお、本実施形態では、第1音声認識処理の終了前に、第2音声認識処理の実行が第1音声認識処理の開始以降に開始され、その発話区間に係る第1音声認識処理の一部または全部の処理期間と並列になってもよい。よって、第1音声認識処理の開始から処理結果となる統合テキスト情報の出力までの処理期間が短縮される。
(会話支援処理)
次に、本実施形態に係る会話支援処理の例について説明する。図11は、本実施形態に係る会話支援処理の例を示すフローチャートである。
(ステップS102)音響処理部122は、収音部20から入力された音声データに対して前処理を行う。
(ステップS104)音響処理部122は、前処理後の音声データに対して音声検出処理を行い、検出された発話状態に基づいて発話が開始されたか否かを判定する。発話開始が判定された場合(ステップS104 YES)、ステップS106の処理に進む。発話開始が判定されない場合(ステップS104 NO)、ステップS102の処理に戻る。
次に、本実施形態に係る会話支援処理の例について説明する。図11は、本実施形態に係る会話支援処理の例を示すフローチャートである。
(ステップS102)音響処理部122は、収音部20から入力された音声データに対して前処理を行う。
(ステップS104)音響処理部122は、前処理後の音声データに対して音声検出処理を行い、検出された発話状態に基づいて発話が開始されたか否かを判定する。発話開始が判定された場合(ステップS104 YES)、ステップS106の処理に進む。発話開始が判定されない場合(ステップS104 NO)、ステップS102の処理に戻る。
(ステップS106)特徴量算出部124は、前処理後の音声データに対してフレームごとに音響特徴量を算出する。
(ステップS108)第1音声認識部126は、算出された音響信号に対して第1音声認識処理を行い、発話区間の一部である部分区間ごとに発話内容を示す部分区間テキスト情報を定める。
(ステップS110)出力処理部132は、部分区間ごとに部分区間テキスト情報を示す表示画面データを生成し、生成した表示画面データを表示部30に出力される。表示部30には、部分区間ごとの発話内容を示す表示テキストが実時間で表示される。
(ステップS112)音響処理部122は、前処理後の音声データに対して音声検出処理を行い、検出された発話状態に基づいて発話が終了したか否かを判定する。発話が終了した判定された場合(ステップS112 YES)、ステップS114の処理に進む。発話開始から発話終了までの期間が発話期間に相当する。発話が終了と判定されない場合(ステップS112 NO)、ステップS102の処理に戻る。
(ステップS108)第1音声認識部126は、算出された音響信号に対して第1音声認識処理を行い、発話区間の一部である部分区間ごとに発話内容を示す部分区間テキスト情報を定める。
(ステップS110)出力処理部132は、部分区間ごとに部分区間テキスト情報を示す表示画面データを生成し、生成した表示画面データを表示部30に出力される。表示部30には、部分区間ごとの発話内容を示す表示テキストが実時間で表示される。
(ステップS112)音響処理部122は、前処理後の音声データに対して音声検出処理を行い、検出された発話状態に基づいて発話が終了したか否かを判定する。発話が終了した判定された場合(ステップS112 YES)、ステップS114の処理に進む。発話開始から発話終了までの期間が発話期間に相当する。発話が終了と判定されない場合(ステップS112 NO)、ステップS102の処理に戻る。
(ステップS114)第2音声認識部128は、算出された音響信号に対して第2音声認識処理を行い、発話区間ごとに発話内容を示す発話区間テキスト情報を定める。第2音声認識処理の過程において、発話区間に属する部分区間ごとの部分区間テキスト情報の候補の順列からなる経路を示す第2グラフが定まる。
(ステップS116)情報統合部130は、第1音声認識処理の過程において得られた発話区間内の部分区間テキスト情報の候補の順列からなる経路を示す第1グラフを構成する。情報統合部130は、第2グラフと第1グラフを結合して結合グラフを生成する(グラフ統合)。
(ステップS118)情報統合部130は、統合グラフに示される経路ごとの発話区間スコアを算出し(再評価)、算出した発話区間スコアに基づいて経路を選択する。情報統合部130は、選択した経路をなす各エッジに対応する部分区間テキスト情報の候補の順列を統合テキスト情報として定める。
(ステップS120)出力処理部132は、発話区間内の部分区間テキスト情報を統合テキスト情報に置き換えて表示画面データを更新し、更新した表示画面データを表示部30に出力される。よって、発話区間内の発話内容が統合テキスト情報に示されるものに更新される。
(ステップS116)情報統合部130は、第1音声認識処理の過程において得られた発話区間内の部分区間テキスト情報の候補の順列からなる経路を示す第1グラフを構成する。情報統合部130は、第2グラフと第1グラフを結合して結合グラフを生成する(グラフ統合)。
(ステップS118)情報統合部130は、統合グラフに示される経路ごとの発話区間スコアを算出し(再評価)、算出した発話区間スコアに基づいて経路を選択する。情報統合部130は、選択した経路をなす各エッジに対応する部分区間テキスト情報の候補の順列を統合テキスト情報として定める。
(ステップS120)出力処理部132は、発話区間内の部分区間テキスト情報を統合テキスト情報に置き換えて表示画面データを更新し、更新した表示画面データを表示部30に出力される。よって、発話区間内の発話内容が統合テキスト情報に示されるものに更新される。
以上に説明したように、本実施形態に係る会話支援装置10は、音声信号に基づいて音声認識処理(例えば、第1音声認識処理)を行い発話区間の一部分である部分区間ごとに部分区間テキスト情報を定める第1音声認識部126と、前記音声信号に基づいて音声認識処理(例えば、第2音声認識処理)を行い前記発話区間ごとに発話区間テキスト情報を定める第2音声認識部128を備える。会話支援装置10は、発話区間テキスト情報に部分区間テキスト情報を統合して統合テキスト情報を生成する情報統合部130と、部分区間テキスト情報を(例えば、表示画面データに含め)表示部30に出力した後、統合テキスト情報を(例えば、表示画面データに含め)表示部30に出力する出力処理部132と、を備える。
この構成によれば、部分区間ごとの発話内容を示す部分区間テキスト情報が表示部30に逐次に表示され、発話区間ごとの発話内容を示す発話区間テキスト情報と統合した統合テキスト情報が表示される。部分区間ごとの部分区間テキスト情報を実時間で表示することで使用者に対して会話の進行を把握させ、その後、発話区間ごとの統合テキスト情報を表示することで会話内容の信頼度を確保することができる。
この構成によれば、部分区間ごとの発話内容を示す部分区間テキスト情報が表示部30に逐次に表示され、発話区間ごとの発話内容を示す発話区間テキスト情報と統合した統合テキスト情報が表示される。部分区間ごとの部分区間テキスト情報を実時間で表示することで使用者に対して会話の進行を把握させ、その後、発話区間ごとの統合テキスト情報を表示することで会話内容の信頼度を確保することができる。
また、出力処理部132は、統合テキスト情報において、部分区間テキスト情報と差が生ずる区間である差分区間における表示態様を、統合テキスト情報の他の区間と異なる表示態様に定めてもよい。
この構成によれば、差分区間が他の区間と異なる表示態様で表示される。利用者は部分区間テキスト情報と差が生じた差分区間に容易に気づくことができるので、差分区間における信頼性が高い会話内容の見逃しを回避することができる。
この構成によれば、差分区間が他の区間と異なる表示態様で表示される。利用者は部分区間テキスト情報と差が生じた差分区間に容易に気づくことができるので、差分区間における信頼性が高い会話内容の見逃しを回避することができる。
また、情報統合部130は、第1音声認識部126において得られた部分区間ごとの部分区間テキスト情報の候補と当該候補のスコアと順列を示す第1グラフを、第2音声認識部128において得られた発話区間の一部をなす部分区間ごとの部分区間テキスト情報の候補と当該候補のスコアと順列を示す第2グラフに統合して統合グラフを生成する。情報統合部130は、統合グラフを用い、部分区間ごとの部分区間テキスト情報の候補のスコアから、当該候補を配列して得られる発話区間テキスト情報の候補のスコアである発話区間スコアを算出し、発話区間スコアに基づいて統合テキスト情報を定めてもよい。
この構成によれば、第2音声認識部128により得られる発話区間テキスト情報の候補の他に、第1音声認識部126より得られた部分区間テキスト情報の候補を参照して会話内容の信頼性を向上させることができる。
この構成によれば、第2音声認識部128により得られる発話区間テキスト情報の候補の他に、第1音声認識部126より得られた部分区間テキスト情報の候補を参照して会話内容の信頼性を向上させることができる。
また、部分区間テキスト情報の候補のスコアは、音響コストと言語コストを含み、情報統合部130は、発話区間における部分区間ごとの部分区間テキスト情報の候補の音響コストの総和と言語コストの総和の加重平均値を発話区間スコアとして算出してもよい。
この構成によれば、音響的特徴による信頼度と言語的特徴による信頼度を重み付けて発話区間スコアが得られる。そのため、会話内容の信頼性に対する音響的特徴と言語的特徴の寄与を調整することができる。
この構成によれば、音響的特徴による信頼度と言語的特徴による信頼度を重み付けて発話区間スコアが得られる。そのため、会話内容の信頼性に対する音響的特徴と言語的特徴の寄与を調整することができる。
また、部分区間は、1個または複数の単語に対応する区間であってもよい。
この構成によれば、単語ごとの発話内容を示す部分区間テキスト情報が表示部30に逐次に表示され、発話区間ごとの発話内容を示す発話区間テキスト情報と統合した、統合テキスト情報が表示される。単語ごとの部分区間テキスト情報を実時間で表示することで使用者に対して会話の進行を把握させ、その後、発話区間ごとの統合テキスト情報を表示することで会話内容の信頼性を確保することができる。
この構成によれば、単語ごとの発話内容を示す部分区間テキスト情報が表示部30に逐次に表示され、発話区間ごとの発話内容を示す発話区間テキスト情報と統合した、統合テキスト情報が表示される。単語ごとの部分区間テキスト情報を実時間で表示することで使用者に対して会話の進行を把握させ、その後、発話区間ごとの統合テキスト情報を表示することで会話内容の信頼性を確保することができる。
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
例えば、収音部20、表示部30は、会話支援装置10と必ずしも一体化されていなくてよく、それらのいずれかまたは組み合わせは、無線または有線で各種のデータを送受信可能に接続できれば、会話支援装置10と別体であってもよい。発話情報記録部134は省略されてもよい。
上記の説明では、主に部分区間が単語である場合を例にしたが、これには限られない。部分区間は、単語とは異なる単位、例えば、文節、文字、などであってもよい。
上記の説明では、主に部分区間が単語である場合を例にしたが、これには限られない。部分区間は、単語とは異なる単位、例えば、文節、文字、などであってもよい。
情報統合部130は、発話区間テキスト情報と部分区間テキスト情報を統合して統合テキスト情報を生成する際、必ずしもグラフ統合を行わなくてもよい。情報統合部130は、ある発話区間における第1音声認識処理による部分区間テキスト情報を、その部分区間における第2音声認識処理による発話区間テキスト情報に置き換えて統合テキスト情報として採用してもよい。情報統合部130は、第2音声認識処理による発話区間テキスト情報において、認識結果となる部分区間テキスト情報を特定できない部分区間が存在する場合には、その部分区間に係る第1音声認識処理による部分区間テキスト情報を棄却せずに統合テキスト情報に含めてもよい。
S1…会話支援システム、10…会話支援装置、110…入出力部、120…制御部、122…音響処理部、124…特徴量算出部、126…第1音声認識部、128…第2音声認識部、130…情報統合部、132…出力処理部、134…発話情報記録部、140…記憶部
Claims (8)
- 音声信号に基づいて音声認識処理を行い発話区間の一部分である部分区間ごとに部分区間テキスト情報を定める第1音声認識部と、
前記音声信号に基づいて音声認識処理を行い前記発話区間ごとに発話区間テキスト情報を定める第2音声認識部と、
前記発話区間テキスト情報に前記部分区間テキスト情報を統合して統合テキスト情報を生成する情報統合部と、
前記部分区間テキスト情報を表示部に出力した後、
前記統合テキスト情報を前記表示部に出力する出力処理部と、を備える
会話支援装置。 - 前記出力処理部は、
前記統合テキスト情報において、前記部分区間テキスト情報と差が生ずる区間である差分区間における表示態様を、前記統合テキスト情報の他の区間と異なる表示態様に定める
請求項1に記載の会話支援装置。 - 前記情報統合部は、
前記第1音声認識部において得られた前記部分区間ごとの部分区間テキスト情報の候補と当該候補のスコアと順列を示す第1グラフを、
前記第2音声認識部において得られた前記発話区間の一部をなす部分区間ごとの部分区間テキスト情報の候補と当該候補のスコアと順列を示す第2グラフに統合して統合グラフを生成し、
前記統合グラフを用い、前記部分区間ごとの部分区間テキスト情報の候補のスコアから、当該候補を配列して得られる発話区間テキスト情報の候補のスコアである発話区間スコアを算出し、
前記発話区間スコアに基づいて前記統合テキスト情報を定める
請求項1または請求項2に記載の会話支援装置。 - 前記部分区間テキスト情報の候補のスコアは、音響コストと言語コストを含み、
前記情報統合部は、
前記発話区間における部分区間ごとの部分区間テキスト情報の候補の音響コストの総和と言語コストの総和の加重平均値を前記発話区間スコアとして算出する
請求項3に記載の会話支援装置。 - 前記部分区間は、1個または複数の単語に対応する区間である
請求項1から請求項4のいずれか一項に記載の会話支援装置。 - コンピュータに
請求項1から請求項5のいずれか一項に記載の会話支援装置として機能させるための
プログラム。 - 請求項1から請求項5のいずれか一項に記載の会話支援装置と、
前記表示部と、を備える
会話支援システム。 - 会話支援装置が、
音声信号に基づいて音声認識処理を行い発話区間の一部分である部分区間ごとに部分区間テキスト情報を定める第1音声認識ステップと、
前記音声信号に基づいて音声認識処理を行い前記発話区間ごとに発話区間テキスト情報を定める第2音声認識ステップと、
前記発話区間テキスト情報に前記部分区間テキスト情報を統合して統合テキスト情報を生成する情報統合ステップと、
前記部分区間テキスト情報を表示部に出力した後、
前記統合テキスト情報を前記表示部に出力する出力処理ステップと、を実行する
会話支援方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022018207A JP2023115795A (ja) | 2022-02-08 | 2022-02-08 | 会話支援装置、会話支援システム、会話支援方法、および、プログラム |
US18/080,794 US20230252996A1 (en) | 2022-02-08 | 2022-12-14 | Conversation support device, conversation support system, conversation support method, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022018207A JP2023115795A (ja) | 2022-02-08 | 2022-02-08 | 会話支援装置、会話支援システム、会話支援方法、および、プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023115795A true JP2023115795A (ja) | 2023-08-21 |
Family
ID=87521310
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022018207A Pending JP2023115795A (ja) | 2022-02-08 | 2022-02-08 | 会話支援装置、会話支援システム、会話支援方法、および、プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20230252996A1 (ja) |
JP (1) | JP2023115795A (ja) |
-
2022
- 2022-02-08 JP JP2022018207A patent/JP2023115795A/ja active Pending
- 2022-12-14 US US18/080,794 patent/US20230252996A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20230252996A1 (en) | 2023-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10319250B2 (en) | Pronunciation guided by automatic speech recognition | |
CN110310623B (zh) | 样本生成方法、模型训练方法、装置、介质及电子设备 | |
CN107195296B (zh) | 一种语音识别方法、装置、终端及系统 | |
Schmitt et al. | A Parameterized and Annotated Spoken Dialog Corpus of the CMU Let's Go Bus Information System. | |
US8818801B2 (en) | Dialogue speech recognition system, dialogue speech recognition method, and recording medium for storing dialogue speech recognition program | |
WO2016136062A1 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
US20150288818A1 (en) | Method and apparatus for predicting intent in ivr using natural language queries | |
JP5062171B2 (ja) | 音声認識システム、音声認識方法および音声認識用プログラム | |
EP3425628A1 (en) | Voice recognition method, recording medium, voice recognition device, and robot | |
WO2006054724A1 (ja) | 音声認識装置及び方法ならびにプログラム | |
US11574637B1 (en) | Spoken language understanding models | |
CN110570853A (zh) | 基于语音数据的意图识别方法和装置 | |
CN104157285A (zh) | 语音识别方法、装置及电子设备 | |
US20200219487A1 (en) | Information processing apparatus and information processing method | |
CN110853621B (zh) | 语音顺滑方法、装置、电子设备及计算机存储介质 | |
CN111508501B (zh) | 一种电话机器人中带口音的语音识别方法及系统 | |
CN109074809B (zh) | 信息处理设备、信息处理方法和计算机可读存储介质 | |
JP6468258B2 (ja) | 音声対話装置および音声対話方法 | |
CN114254096A (zh) | 一种基于交互机器人对话的多模态情感预测方法及系统 | |
JP5158022B2 (ja) | 対話処理装置、対話処理方法、及び対話処理プログラム | |
US20040006469A1 (en) | Apparatus and method for updating lexicon | |
JP6233867B2 (ja) | 音声認識用辞書登録システム、音声認識システム、音声認識サービスシステム、方法およびプログラム | |
US20230148275A1 (en) | Speech synthesis device and speech synthesis method | |
CN116564286A (zh) | 语音录入方法、装置、存储介质及电子设备 | |
JP2023115795A (ja) | 会話支援装置、会話支援システム、会話支援方法、および、プログラム |