JP2023115795A

JP2023115795A - 会話支援装置、会話支援システム、会話支援方法、および、プログラム

Info

Publication number: JP2023115795A
Application number: JP2022018207A
Authority: JP
Inventors: 一博中臺; Kazuhiro Nakadai; 将行瀧ケ平; Masayuki Takigahira; 直亮住田; Naoaki Sumita; 雅樹中塚; Masaki NAKATSUKA; 一也眞浦; Kazuya Maura; 恭佑日根野; Kyosuke Hineno; 健人清水; Kento Shimizu
Original assignee: Honda Motor Co Ltd; Honda Sun Co Ltd
Current assignee: Honda Motor Co Ltd; Honda Sun Co Ltd
Priority date: 2022-02-08
Filing date: 2022-02-08
Publication date: 2023-08-21
Also published as: US20230252996A1

Abstract

【課題】会話内容の信頼性を確保しながら会話の進行をより容易に把握させることができる会話支援装置、会話支援システム、会話支援方法およびプログラムを提供する。
【解決手段】第１音声認識部は音声信号に基づいて音声認識処理を行い発話区間の一部分である部分区間ごとに部分区間テキスト情報を定め、第２音声認識部は前記音声信号に基づいて音声認識処理を行い前記発話区間ごとに発話区間テキスト情報を定め、情報統合部は前記発話区間テキスト情報に前記部分区間テキスト情報を統合して統合テキスト情報を生成し、出力処理部は前記部分区間テキスト情報を表示部に出力した後、前記統合テキスト情報を前記表示部に出力する。
【選択図】図１

Description

本発明は、会話支援装置、会話支援システム、会話支援方法、および、プログラムに関する。

従来から、会議など複数人間で行われる会話において、健聴者と聴覚障がい者が参加する会話を支援するための会話支援システムが提案されている。会話支援システムは、会話において発話された音声に対して音声認識を行って発言内容を示すテキストに変換し、変換したテキストを画面に表示する。

例えば、特許文献１に記載の会議システムは、収音部と、テキスト入力部、表示部を備えて子機と、子機と接続をし、子機から入力された音声を音声認識したテキスト情報または子機から入力されたテキスト情報を用いて、議事録を作成し、作成した議事録を子機と共有する親機と、を備える。当該会議システムにおいて、親機は、テキストによって会話に参加された場合に、他の会議参加者の発話を待機させるように親機を制御し、発言を待機させる情報を子機に送信する。

特開２０１９－１７９４８０号公報

聴覚障がい者は、表示部に表示されたテキストを読んで会話内容を理解する。会話の進行を把握させるためには、会話内容を表すテキストを実時間で逐次に表示することが期待される。他方、音声認識精度を確保するためには、音声認識を逐次に実行するよりも、一回の発話内容全体に対して一括して実行する方が望ましい。その場合、一回の発話が終了するまで表示されるべきテキストが定まらないため、実時間で会話内容を表すテキストを表示できない。そのため、聴覚障がい者が会話に追随できないことがあった。

本発明の課題の一つは、会話内容の信頼性を確保しながら会話の進行をより容易に把握させることができる会話支援装置、会話支援システム、会話支援方法およびプログラムを提供することである。

（１）本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、音声信号に基づいて音声認識処理を行い発話区間の一部分である部分区間ごとに部分区間テキスト情報を定める第１音声認識部と、前記音声信号に基づいて音声認識処理を行い前記発話区間ごとに発話区間テキスト情報を定める第２音声認識部と、前記発話区間テキスト情報に前記部分区間テキスト情報を統合して統合テキスト情報を生成する情報統合部と、前記部分区間テキスト情報を表示部に出力した後、前記統合テキスト情報を前記表示部に出力する出力処理部と、を備える会話支援装置である。

（２）本発明のその他の態様は、（１）の会話支援装置であって、前記出力処理部は、前記統合テキスト情報において、前記部分区間テキスト情報と差が生ずる区間である差分区間における表示態様を、前記統合テキスト情報の他の区間と異なる表示態様に定めてもよい。

（３）本発明のその他の態様は、（１）または（２）の会話支援装置であって、前記情報統合部は、前記第１音声認識部において得られた前記部分区間ごとの部分区間テキスト情報の候補と当該候補のスコアと順列を示す第１グラフを、前記第２音声認識部において得られた前記発話区間の一部をなす部分区間ごとの部分区間テキスト情報の候補と当該候補のスコアと順列を示す第２グラフに統合して統合グラフを生成し、前記統合グラフを用い、前記部分区間ごとの部分区間テキスト情報の候補のスコアから、当該候補を配列して得られる発話区間テキスト情報の候補のスコアである発話区間スコアを算出し、前記発話区間スコアに基づいて前記統合テキスト情報を定めてもよい。

（４）本発明のその他の態様は、（３）の会話支援装置であって、前記部分区間テキスト情報の候補のスコアは、音響コストと言語コストを含み、前記情報統合部は、前記発話区間における部分区間ごとの部分区間テキスト情報の候補の音響コストの総和と言語コストの総和の加重平均値を前記発話区間スコアとして算出してもよい。

（５）本発明のその他の態様は、（１）から（４）のいずれかの会話支援装置において、前記部分区間は、１個または複数の単語に対応する区間であってもよい。

（６）本発明のその他の態様は、コンピュータに（１）から（５）のいずれかの会話支援装置として機能させるためのプログラムであってもよい。

（７）本発明のその他の態様は、（１）から（５）のいずれかの会話支援装置と、前記表示部と、を備える会話支援システム。

（８）本発明のその他の態様は、会話支援装置が、音声信号に基づいて音声認識処理を行い発話区間の一部分である部分区間ごとに部分区間テキスト情報を定める第１音声認識ステップと、前記音声信号に基づいて音声認識処理を行い前記発話区間ごとに発話区間テキスト情報を定める第２音声認識ステップと、前記発話区間テキスト情報に前記部分区間テキスト情報を統合して統合テキスト情報を生成する情報統合ステップと、前記部分区間テキスト情報を表示部に出力した後、前記統合テキスト情報を前記表示部に出力する出力処理ステップと、を実行する会話支援方法である。

本発明によれば、会話内容の信頼性を確保しながら会話の進行をより容易に把握させることができる。
本発明の（１）、（６）、（７）または（８）の態様によれば、部分区間ごとの発話内容を示す部分区間テキスト情報が表示部に逐次に表示され、発話区間ごとの発話内容を示す発話区間テキスト情報と統合した、統合テキスト情報が表示される。部分区間ごとの部分区間テキスト情報を実時間で表示することで使用者に対して会話の進行を把握させ、その後、発話区間ごとの統合テキスト情報を表示することで会話内容の信頼性を確保することができる。

（２）の態様によれば、差分区間が他の区間と異なる表示態様で表示される。利用者は部分区間テキスト情報と差が生じた差分区間に容易に気づくことができるので、差分区間における信頼性が高い会話内容の見逃しを回避することができる。

（３）の態様によれば、第２音声認識部により得られる発話区間テキスト情報の候補の他に、第１音声認識部より得られた部分区間テキスト情報の候補を参照して会話内容の信頼性を向上させることができる。

（４）の態様によれば、音響的特徴による信頼度と言語的特徴による信頼度を重み付けて発話区間スコアが得られる。そのため、会話内容の信頼性に対する音響的特徴と言語的特徴の寄与を調整することができる。

（５）の態様によれば、単語ごとの発話内容を示す部分区間テキスト情報が表示部３０に逐次に表示され、発話区間ごとの発話内容を示す発話区間テキスト情報と統合した、統合テキスト情報が表示される。単語ごとの部分区間テキスト情報を実時間で表示することで使用者に対して会話の進行を把握させ、その後、発話区間ごとの統合テキスト情報を表示することで会話内容の信頼性を確保することができる。

本実施形態に係る会話支援システムの構成例を示す概略ブロック図である。実時間処理可能な場合の第１例を示す説明図である。実時間処理可能な場合の第２例を示す説明図である。実時間処理不可能な場合の例を示す説明図である。本実施形態に係る部分区間テキスト情報の出力例を示す図である。仮説ラティスの例を示す図である。グラフ統合の例を示す説明図である。第１音声認識処理のタイミングを例示する説明図である。第２音声認識処理のタイミングを例示する説明図である。統合テキスト情報の出力タイミングを例示する説明図である。会話支援処理の例を示すフローチャートである。

以下、図面を参照しながら本発明の実施形態について説明する。まず、本実施形態に係る会話支援システムＳ１の構成例について説明する。図１は、本実施形態に係る会話支援システムＳ１の構成例を示す概略ブロック図である。会話支援システムＳ１は、会話支援装置１０と、収音部２０と、表示部３０と、端末装置４０と、を含んで構成される。

会話支援システムＳ１は、２人以上の参加者が参加する会話において用いられる。参加者には、発話と音声の受聴の一方または両方に不自由な者（以下、「障がい者」と呼ぶ）が１名以上含まれていてもよい。障がい者は、個々に端末装置４０を操作して、発言内容を示すテキスト（以下、「操作テキスト」と呼ぶ）を会話支援装置１０に入力してもよい。発話および音声の受聴に困難を伴わない者（以下、「健常者」と呼ぶ）は、個々に収音部２０または収音部を備える機器（例えば、端末装置４０）を用い、発話した音声を会話支援装置１０に入力してもよい。会話支援装置１０は、入力された音声を示す音声データに対して公知の音声認識処理を行い、音声による発言内容を示すテキスト（以下、「発話テキスト」、と呼ぶ）に変換する。会話支援装置１０は、変換により得られた操作テキストと端末装置４０から得られた発話テキストのいずれかのテキスト（以下、「発言テキスト」と呼び、「発話テキスト」と区別する）が取得されるたびに、取得される発言テキストを表示部３０に表示させる。障がい者は、表示されるテキスト（以下、「表示テキスト」、と呼ぶ）を読んで会話における発言内容を理解することができる。

会話支援装置１０は、収音された音声を示す音声信号から、いずれかの参加者が一度に発話している区間（以下、「発話区間」と呼ぶことがある）の開始（以下、「発話開始」と呼ぶ）と発話区間の終了（以下、「発話終了」と呼ぶ）を判定する。この判定により、発話区間が特定される。会話支援装置１０は、発話区間に対する音声認識処理として、第１音声認識処理と、第２音声認識処理とを並列に実行可能となる。

会話支援装置１０は、第１音声認識処理において、発話区間の一部（以下、「部分区間」と呼ぶことがある）ごとに発話内容を示す部分区間テキスト情報を定め、定めた部分区間テキスト情報を表示部３０に逐次に出力する。表示部３０には、部分区間ごとの発話内容を示す部分区間テキスト情報が発言テキストとして実時間（リアルタイム）で表示可能とする。即ち、第１音声認識処理の処理結果は、オンラインで逐次に表示テキストに反映されるので、第１音声認識処理はフォアグラウンド処理となる。以下の説明では、この第１音声認識処理の特徴をオンラインと呼ぶことがある。

会話支援装置１０は、第２音声認識処理において、第１音声認識処理と並行して発話区間ごとに発話内容を示す発話区間テキスト情報を定める。会話支援装置１０は、定めた発話区間テキスト情報と、その発話区間における部分区間テキスト情報と統合し、統合テキスト情報を生成する。会話支援装置１０は、生成した統合テキスト情報を表示部３０に出力する。表示部３０には、統合テキスト情報で表される発話内容を示す表示テキストが表示される。発話区間テキスト情報と部分区間テキスト情報とを統合する手法については、後述する。

発話区間の終点は発話終了が検出されたときに画定するので、発話区間テキスト情報の出力は早くとも発話区間が画定されるまで遅延する。統合発話区間テキスト情報は、部分区間テキスト情報よりも後に表示される。第２音声認識処理の処理結果は、直ちに表示テキストに反映されないため、第２音声認識処理はバックグラウンド処理となる。以下の説明では、この第２音声認識処理の特徴をオフラインと呼ぶことがある。第２音声認識処理によれば、発話区間テキスト情報は、発話区間を構成する複数の部分区間を跨ぐ発話内容の出現確率（隣接する部分空間同士の発話内容の遷移確率が含まれる）を考慮して定まる。そのため、統合テキスト情報が部分区間テキスト情報とは異なる区間（以下、「差分区間」と呼ぶことがある）が生じうる。また、発話区間テキスト情報の方が、部分区間テキスト情報よりも信頼度が高くなる傾向がある。そこで、会話支援装置１０は、差分区間における統合テキスト情報に係る表示テキストを、他の区間の表示テキストとは異なる態様（例えば、背景色、文字色、文字種、線幅、線種、装飾、などのいずれか１項目または複数項目の組）で表示させてもよい。これにより、統合テキスト情報に基づく表示テキストを視認した参加者は、暫定的に表示された部分空間テキスト情報に基づく表示テキストからの発話内容の変化に気づき、より信頼できる情報に接することができる。

収音部２０は、自部に到来する音声を収音し、収音された音声を示す音声データを会話支援装置１０に出力する。収音部２０は、マイクロホンを備える。収音部２０の数は、１個に限られず、２個以上であってもよい。収音部２０は、例えば、可搬型のワイヤレスマイクロホンであってもよい。ワイヤレスマイクロホンは、主に個々の所持者の発話音声を収音する。収音部２０は、複数のマイクロホンを異なる位置に配置してなるマイクロホンアレイであってもよい。マイクロホンアレイは、全体として複数チャネルの音声データを会話支援装置１０に出力する。以下の説明では、主に収音部２０が１個のマイクロホンを有するワイヤレスマイクロホンである場合を例にする。

表示部３０は、会話支援装置１０から入力される表示データに基づく表示情報、例えば、各種の表示画面を表示する。表示データには、後述する表示画面データなどがある。表示部３０は、例えば、液晶ディスプレイ（ＬＣＤ：Liquid Crystal Display）、有機エレクトロルミネッセンスディスプレイ（ＯＬＥＤ：Organic Electro luminescence Display）など、いずれの方式のディスプレイであってもよい。なお、表示部３０をなすディスプレイの表示領域は、タッチセンサの検出領域を重畳して一体化した単一のタッチパネルとして構成されてもよい。

なお、会話支援システムＳ１は、操作部（図示せず）を備えてもよい。操作部は、使用者による操作を受け付け、受け付けた操作に応じた操作信号を会話支援装置１０に出力する。操作部は、タッチセンサ（表示部３０と一体化されるものも該当しうる）、マウス、キーボードなどの汎用の入力デバイスを備えてもよいし、ボタン、つまみ、ダイヤルなどの専用の部材を備えてもよい。

端末装置４０は、操作部、表示部、収音部の一部または全部と、入出力部とを備える。以下の説明では、端末装置４０に備わる操作部、表示部、収音部、および、入出力部を、それぞれ端末操作部、端末表示部、端末収音部、および、端末入出力部と呼んで、会話支援装置１０に備わる操作部、表示部、収音部、および、入出力部と区別する。

端末入出力部は、会話支援装置１０と各種のデータを入力または出力する。端末入出力部は、例えば、所定の入出力方式または通信方式でデータを入出力する入出力インタフェースを備える。
端末操作部は、使用者による操作を受け付け、受け付けた操作に応じた操作信号を会話支援装置１０に入出力部を経由して出力する。端末操作部は、入力デバイスを備える。

端末表示部は、会話支援装置１０から入出力部を経由して入力される表示画面データに基づいて表示画面を表示する。端末表示部は、端末操作部と一体化し、タッチパネルとして構成されてもよい。端末操作部は、表示画面の表示中に、操作に応じて指示された文字で構成されたテキストを示すテキスト情報を会話支援装置１０に端末入出力部を用いて送信する（テキスト入力）。

端末収音部は、自部に到来する音声を収音し、収音された音声を示す音声データを会話支援装置１０に端末入出力部を用いて出力する。端末収音部は、マイクロホンを備える。端末収音部により取得された音声データは、会話支援装置１０において音声認識処理がなされてもよい。

図１に示す会話支援システムＳ１は、１個の会話支援装置１０と１個の端末装置４０を備えるが、これには限らない。端末装置４０の数は、２個以上になることもありうるし、０個の場合もありうる。会話支援装置１０、端末装置４０は、それぞれ図１に示す例では、親機、子機としての機能を有する。

なお、本願では、「会話」とは２人以上の参加者間でなされる意思疎通のことを意味し、音声を用いた意思疎通に限られず、テキストなどの、その他の種別の情報媒体を用いた意思疎通も含まれる。会話には、２人以上の参加者間で自発的または任意になされる意思疎通に限られず、会議、発表会、講演会、式典のように特定の参加者（例えば、司会者）が他の参加者の発言を統制する形態での意思疎通も含まれる。また、「発言」とは言語を用いて意思を伝達することを意味し、音声を発して意思を伝達することに限らず、テキストなど、その他の種別の情報媒体を用いて意思を伝達することも含まれる。

（会話支援装置）
次に、本実施形態に係る会話支援装置１０の構成例について説明する。会話支援装置１０は、入出力部１１０と、制御部１２０と、記憶部１４０と、を含んで構成される。
入出力部１１０は、所定の入出力方式または通信方式を用いて他の部材もしくは機器と各種のデータを無線または有線で入力および出力可能とする。入出力部１１０は、例えば、ＵＳＢ（Universal Serial Bus）、ＩＥＥＥ１３９４に規定の入出力方式、ＩＥＥＥ８０２．１１、ＬＴＥ－Ａ（Long Term Evolution Advanced）、５Ｇ－ＮＲ（5^th Generation － New Radio）に規定の通信方式などのいずれの方式を利用可能としてもよい。入出力部１１０は、例えば、入出力インタフェースと通信インタフェースの一方または両方を含んで構成される。

制御部１２０は、各種の演算処理を行うことにより、会話支援装置１０の機能を実現し、その機能を制御する。制御部１２０は、専用の部材により実現されてもよいが、プロセッサと、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）などの記憶媒体を備えるコンピュータとして実現されてもよい。プロセッサは、予めＲＯＭに記憶された所定のプログラムを読み出し、読み出したプログラムをＲＡＭに展開して、ＲＡＭの記憶領域を作業領域として用いる。プロセッサは、読み出したプログラムで記述された各種の命令で指示される処理を実行して制御部１２０の機能を実現する。実現される機能には、後述する各部の機能が含まれうる。以下の説明では、プログラムに記述された命令で指示される処理を実行することを、「プログラムを実行する」、「プログラムの実行」などと呼ぶことがある。プロセッサは、例えば、ＣＰＵ（Central Processing Unit）などである。

制御部１２０は、音響処理部１２２、特徴量算出部１２４、第１音声認識部１２６、第２音声認識部１２８、情報統合部１３０、出力処理部１３２、および、発話情報記録部１３４を含んで構成される。
音響処理部１２２には、収音部２０から入出力部１１０を経由して音声データが入力される。音響処理部１２２は、入力された音声データに対して所定の前処理を行う。前処理には、例えば、公知の雑音抑圧処理が含まれうる。一度に複数チャネルの音声データが入力される場合には、前処理として音源分離処理が含まれてもよい。音響処理部１２２は、音源分離処理により分離された音声を示す音源別音声データに対して公知の話者認識処理を行って話者を特定し、特定した話者を示す話者識別情報を音源別音声データに付加してもよい。音響処理部１２２に複数の収音部２０から音声データが入力される場合には、個々の収音部２０を示す識別情報としてＭｉｃＩＤをその収音部２０から入力された音声データに付加してもよい。ＭｉｃＩＤは、その収音部２０を専用する話者を特定するための話者識別情報として用いられてもよい。

音響処理部１２２は、前処理を行って得られた前処理後の音声データ（音源別音声データも含まれうる）に示される音声から発話区間を検出する（発話区間検出）。発話区間は、いずれかの話者が発話している区間を指す。発話区間は、音声データに収音された発話音声の成分を有意に含む期間に相当する。発話区間は、発話開始が検出された時点を起点とし、次に発話終了と判定される時点を終点とする期間に相当する。

発話区間検出において、音響処理部１２２は、前処理後の音声データに対して公知の音声検出処理（ＶＡＤ：Voice Activity Detection）を行い、その時点における処理対象のフレーム（以下、「現フレーム」）が音声区間であるか否かを判定することができる。音響処理部１２２は、例えば、取得した音声データについて所定の長さのフレーム（例えば、１０～５０ｍｓ）ごとに発話状態を示す特徴量としてパワーと零交差数（Number of Zero Crossings）を算出する。音響処理部１２２は、例えば、算出したパワーが所定の発話状態におけるパワーの下限よりも大きく、かつ、零交差数が所定の発話状態における範囲内（例えば、１秒当たり３００～１０００回）であるフレームを音声区間として判定し、それ以外のフレームを非音声区間として判定する。

音響処理部１２２は、現フレームの直前の時刻のフレーム（以下の説明では、「前フレーム」と呼ぶ）まで所定の個数のフレームにおいて連続して発話状態が非音声区間（以下の説明では、「連続非音声区間」と呼ぶ）と判定されたが、現フレームの発話状態を新たに音声区間として判定する場合、その現フレームにおける発話状態を発話開始と判定する。以下の説明では、発話状態が発話開始と判定されたフレームを「発話開始フレーム」と呼ぶ。音響処理部１２２は、現フレームまでの所定の個数のフレームにおいて連続して発話状態が非音声区間である連続避非音声区間と判定する場合、その連続非音声区間の直前のフレームにおける発話状態を発話終了と判定する。以下の説明では、発話状態が発話終了と判定されたフレームを「発話終了フレーム」と呼ぶ。音響処理部１２２は、発話開始フレームから次の発話終了フレームまでの期間を発話区間として特定することができる。
音響処理部１２２は、前処理後の音声データを発話開始フレームから次の発話終了フレームまで特徴量算出部１２４と発話情報記録部１３４に逐次に出力する。

特徴量算出部１２４は、音響処理部１２２から入力される音声データについてフレームごとに音響特徴量を算出する。音響特徴量は、その音声の音響的な特徴を示すパラメータである。特徴量算出部１２４は、例えば、多次元のメル周波数ケプストラム係数（ＭＦＣＣ：Mel Frequency Cepstrum Coefficients）を算出する。特徴量算出部１２４は、算出した音響特徴量を第１音声認識部１２６と第２音声認識部１２８に出力する。発話区間ごとに入力される音声データに話者識別情報が付加されている場合には、特徴量算出部１２４は、その話者識別情報を対応付けて音響特徴量に付加し、第１音声認識部１２６、第２音声認識部１２８を経由して出力処理部１３２に出力してもよい。

第１音声認識部１２６は、特徴量算出部１２４から入力される音響特徴量に対して第１音声認識処理を実時間で行う。第１音声認識部１２６は、第１音声認識処理として、発話区間の一部となる部分区間ごとの発話内容を示すテキスト情報として学習済みの第１音声認識モデルを用いて部分区間テキスト情報を定める。第１音声認識部１２６は、定めた部分区間テキスト情報を情報統合部１３０と出力処理部１３２に出力する。第１音声認識処理は、部分区間ごとのオンライン処理となる。但し、会話支援において会話の進行を表現するため、１個の部分区間を少なくとも表記単位（例えば、文字、数字、記号、など）に係る発音に要する時間と同等またはそれ以上の期間とする。部分区間として、例えば、１個の単語、文節、などに係る期間を適用すればよい。

第１音声認識部１２６は、部分区間として単語を適用する。その場合には、第１音声認識部１２６は、第１音声認識処理に係る数理モデルとして、音響モデル（Acoustical Model）、文脈依存モデル（Context Dependency）、および、単語辞書（Lexicon）を用いる。音響モデルは、１組以上の音響特徴量を含む時系列から文脈非依存音素の推定に用いられる。文脈依存モデルは、文脈非依存音素から文脈依存音素の推定に用いられる。単語辞書は、１個以上の文脈依存音素を含む音素列から単語の推定に用いられる。単語辞書には、単語ごとの自然言語による表記を示す単語テキスト情報が含まれうる。

第２音声認識部１２８は、特徴量算出部１２４から入力される音響特徴量に対して発話区間ごとに第２音声認識処理を行う。つまり、第２音声認識処理は、発話区間ごとのバッチ処理となる。第２音声認識部１２８は、第２音声認識処理として、発話区間ごとの発話内容を示すテキスト情報として学習済みの第２音声認識モデルを用いて発話区間テキスト情報を定める。第２音声認識処理に係る数理モデルとして、音響モデル、文脈依存モデル、および、単語辞書の他、さらに１個または複数の単語間の関連性（文法規則）を示す文法モデル（Grammer Model）が用いられる。第２音声認識部１２８は、定めた発話区間テキスト情報を情報統合部１３０と発話情報記録部１３４に出力する。

情報統合部１３０は、第２音声認識部から入力される発話区間ごとの発話区間テキスト情報に第１音声認識部１２６から入力される部分区間ごとの部分区間テキスト情報を統合し、統合テキスト情報を生成する。情報統合部１３０は、例えば、第２音声認識モデルを用いて発話区間を構成する部分区間ごとの部分区間テキスト情報の候補をその順序で配列して形成される発話区間テキスト情報の候補（仮説）として定める。情報統合部１３０は、発話区間テキスト情報の候補ごとにスコア（以下、「発話区間スコア」と呼ぶ）を算出する。情報統合部１３０は、発話区間テキスト情報の候補を構成する個々の部分区間テキスト情報の候補に係るスコア（以下、「部分区間スコア」と呼ぶ）の総和を発話区間スコアとして算出することができる。部分区間スコアは、部分区間テキスト情報の候補の信頼度（confidence）を示す実数値である。信頼度は、仮説としての確からしさの度合いを意味する。発話区間スコアとして、例えば、遷移確率が用いられうる。情報統合部１３０は、最も高い信頼度を示す発話区間スコアを与える発話区間テキスト情報を統合テキスト情報として定めることができる。情報統合部１３０は、第１音声認識部１２６から部分区間ごとの部分区間テキスト情報を定める際に中間データとして導出された部分区間テキスト情報の候補と、第２音声認識部１２８から発話区間ごとの発話区間テキスト情報を定める際に中間データとして部分区間ごとに導出された部分区間テキスト情報の候補を取得してもよい。情報統合部１３０は、生成した統合テキスト情報を出力処理部１３２に出力する。

出力処理部１３２には、第１音声認識部１２６から入力された部分区間ごとの部分区間テキスト情報を逐次に表す表示画面データを生成し、生成した表示画面データを表示部３０に入出力部１１０を経由して出力する。
他方、出力処理部１３２は、情報統合部１３０から発話区間ごとに統合テキスト情報が入力される。統合テキスト情報の入力は、部分区間テキスト情報よりも遅延する。出力処理部１３２は、その発話区間に係る部分区間テキスト情報を統合テキスト情報に置き換えることにより表示画面データを更新する。出力処理部１３２は、更新した表示画面データを表示部３０に出力する。ここで、出力処理部１３２は、その発話区間の統合テキスト情報について、部分区間テキスト情報との差が生じる差分区間を検出してもよい。出力処理部１３２は、差分区間における表示態様を一時的（例えば、差分区間の検出を起点とする所定の時間内（例えば、２～１０秒））または恒常的に、その他の区間とは異なる表示態様に定めてもよい。出力処理部１３２には、発話区間ごとに第１音声認識部１２６と情報統合部１３０を経由して音響特徴量から導出された部分区間テキスト情報と統合テキスト情報と対応付けて話者識別情報が入力されることがある。出力処理部１３２は、その発話区間について話者識別情報を含めて表示画面データを生成してもよい。話者識別情報は、例えば、部分区間テキスト情報または統合テキスト情報の冒頭に配置され、その話者を識別するためのアイコン、図形、記号などで表現されてもよい。

発話情報記録部１３４には、音響処理部１２２から発話開始フレームから発話終了フレームまでの発話区間ごとに音声データが入力される。他方、発話情報記録部１３４には、情報統合部１３０から発話区間ごとに統合テキスト情報が入力される。発話情報記録部１３４は、入力された音声データと統合テキスト情報とを対応付けて記憶部１４０に記録する。記憶部１４０には、発話区間ごとの発話内容を示す統合テキスト情報と音声データを示す議事録データが形成される。発話区間の音声データには、発話者を識別するための話者識別情報が付加されてもよい。

記憶部１４０は、各種のデータを一時的または恒常的に記憶する。記憶部１４０には、制御部１２０に実行させるための処理を記述したプログラム、その処理に用いられる各種のデータ（各種パラメータ、初期値、中間値、音声認識モデルなども含む）、制御部１２０が取得した各種のデータを記憶する。記憶部１４０は、例えば、上記のＲＯＭ、ＲＡＭなどの記憶媒体を含んで構成される。

（実時間処理可能性）
上記のように、第１音声認識部１２６は、第１音声認識処理により実時間で部分区間ごとに部分区間テキスト情報を定め、出力処理部１３２に出力する。実時間処理を可能とするため、第１音声認識部１２６は、入力情報の入力から出力結果が出力されるまでの経過時間が、新たな入力情報の取得に係る取得期間を超える処理ステップが存在しないことを要する。図２は、実時間処理が可能な音声の処理手順を例示する。この例では、１フレームの音声入力に対して、第１ステップと第２ステップを経て出力結果が得られるまでの処理時間は１フレームに満たない。

一度に処理対象とする音声入力が複数フレームの期間にわたっていても、新たな音声入力の期間が１フレームであるとき、処理時間が１フレーム以下となれば実時間処理が可能である。図３の例では、一度に処理対象となる音声入力は２フレームとなるが、２フレームのうち１フレームの音声入力が新たに取得され、残りの１フレームの音声入力が直前の処理における処理対象になる。このような場合でも、未処理の音声入力の入力から処理を開始できる時点までの遅延時間が増加しないため実時間処理が可能となる。

これに対し、図４の例では、実時間処理は不可能である。この例でも、一度に処理対象となる音声入力が２フレームであり、そのうち１フレームの音声入力が新たに取得される。但し、１フレームの音声入力に対する第１ステップ、第２ステップの処理における処理時間は、それぞれ０．２フレーム、１．３フレームとなる。第２フレームまでの２フレームの音声入力に対して第２ステップの処理を開始できる時期は、その第１ステップの終了時となる。この時期は、第２フレームの音声入力から０．２フレーム後となる。第３フレームまでの２フレームの音声入力に対して第２ステップの処理を開始できる時期は、直前の第２ステップの処理の終了時となる。この時期は、第３フレームの音声入力から０．５フレーム後となる。第４フレームまでの２フレームの音声入力に対して第２ステップの処理を開始できる時期は、直前の第２ステップの処理の終了時となる。この時期は、第４フレームの音声入力から０．８フレーム後となる。このように、新たな音声入力に対して処理可能になるまでの遅延時間が増加する。

図５は、本実施形態に係る部分区間テキスト情報の出力例を時刻ごとに示す。第１音声認識処理の処理結果となる部分区間テキスト情報は、概ね時間経過に従って累積する。この例では、第１音声認識部１２６は、日本語の表記に係る漢字およびカナ文字の１文字に相当する期間を部分区間として部分区間テキスト情報を定め、定めた部分区間テキスト情報を出力する処理を繰り返す。図５の例では、認識結果となる日本語のテキストが１文字ずつ追加される。発話開始当初における認識結果として「えー」が表示される。発話区間の終了時において、日本語の平叙文の末尾に頻出する助動詞「です」が認識されるとき、単語辞書または文法辞書を参照して文末と推定される。文末を示す句点「。」を加え、「です。」が発話区間の末尾における発話内容として記述される。

なお、第１音声認識処理が実時間処理可能であれば、第１音声認識部１２６は、既に推定された１個または複数の文脈非依存画素に、時間経過により新たに取得される文脈非依存音素の候補を追加して、より信頼度が高い他の単語の候補を推定してもよい。１個の新たな部分区間に係る音声信号の取得から発言テキストの出力までの処理時間が、その部分区間の平均的な長さよりも短い場合には、実時間での表示が可能になる。また、推定された単語の変化に伴い、句読点が追加または削除されることがある。図５の例では、第１行の認識結果「えー」が第２行において「レーキ」に更新され、第２行の認識結果「レーキ」が第３行において「えー、木」に更新され、第３行の末尾の「木」が第４行において「今日」に更新され、第５行の末尾の「春」が第６行において「晴れ」に更新され、第９行の末尾の「のち」が「にち雨」に更新され、第１２行の「様」が第１３行において「予定」に更新されている。

（仮説ラティスデータ）
第２音声認識部１２８は、第２音声認識処理を実行して発話区間ごとに発話区間テキスト情報を定め、出力処理部１３２に出力する。上記のように、第２音声認識処理は、発話区間をなす部分区間ごとに部分区間テキスト情報の候補を推定する処理の他、発話区間において部分区間の順に部分区間テキスト情報の候補を連結して発話区間テキスト情報の候補を生成する処理を含む。第２音声認識部１２８は、発話区間情報の候補ごとに、その発話区間情報の候補をなす部分区間ごとの部分区間テキスト情報の候補に対応する部分区間スコアの総和を発話区間スコアとして算出する。第２音声認識部１２８は、認識結果として最も高い発話区間スコアを与える発話区間テキスト情報の候補を発話区間テキスト情報として定めることができる。

第２音声認識部１２８は、第２音声認識処理において、公知の手法に従い上記の数理モデルを用いて、仮説ラティス（hypothetical lattice）を示す仮説ラティスデータを生成する。仮説ラティスは、仮説として発話区間における部分区間ごとの部分区間テキスト情報の候補を、その順に配列された発話区間テキスト候補を１個または複数個示す。個々の部分区間テキスト情報の候補には、発話区間における、その順序と部分区間スコアが対応付けられる。仮説ラティスは、図６に例示されるように、複数のノード（節点）と、各２個のノードを接続するエッジ（辺、枝、リンク）を１個以上有する有向グラフで表現される。複数のノードのうちの２点が開始シンボルと終了シンボルに対応付けられる。開始シンボル、終了シンボルは、それぞれ発話開始、発話終了を示す。個々のエッジが、部分区間テキスト情報の候補とその信頼度を示す部分区間スコアに対応付けられる。よって、開始シンボルから終了シンボルまでの各経路をなすエッジのそれぞれに対応する部分区間テキスト情報の候補を、その順に配列して発話区間テキスト候補が表される。

図６の例では、部分区間が単語であり、仮説ラティスは全体として単語グラフの形式を有する。なお、処理対象として注目する部分区間が発話開始時に現れる場合には、第２音声認識部１２８は、直前の部分区間が存在しないため、開始シンボルを適用してもよい。注目する部分区間が発話終了時に現れる場合には、第２音声認識部１２８は、直後の部分区間が存在しないため、終了シンボルを適用してもよい。

仮説ラティスでは、あるエッジに後続する単語の候補が複数通り存在する場合、そのエッジの後端となるノードにおいて複数のエッジに分岐される。複数通りの単語の候補のそれぞれが、個々の分岐したエッジに対応付けられる。図７の例では、「伊藤」に対応するエッジは、ノードにおいて後続する２本のエッジに分岐し、個々のエッジが「と」、「も」に対応付けられる。
複数のエッジに後続する単語の候補が共通である場合、それらの複数のエッジは、後続する単語に対応するエッジの先端において統合される。図７の例では、２個のエッジのそれぞれが、共通の単語「再会」に対応付けられ、２個のエッジに後続するエッジはノードを介して１個のエッジに統合され、共通の単語の候補として「する」に対応付けられる。

第２音声認識部１２８は、生成した仮説ラティスデータを参照して、開始シンボルから終了シンボルまでの経路ごとに、各ノードに与えられた部分区間スコアを累積して得られる総和を信頼度スコアとして算出することができる。個々の部分区間スコアは、スカラー値であってもよいし、ベクトル値であってもよい。個々のスコアは、大きいほど高い信頼度を示す実数値でもよいし、小さいほど高い信頼度を示す実数値（コスト値）でもよい。部分区間スコアは、例えば、要素値として音響コスト（acoustic cost）と言語スコア（graph cost）を要素として含む２次元のベクトルで表されてよい。音響コストは、その部分区間における音響特徴量の系列が、その部分区間の単語の音響特徴量の系列である可能性を示す指標値である。音響コストは、その部分区間内の音響特徴量から音響モデルを用いて導出される。言語コストは、その部分区間において言語的な特性に基づいて出現する可能性を示す指標値である。言語コストは、部分区間内の音響特徴量、文脈非依存音素および単語から、それぞれ文脈依存モデル、単語辞書、および、文法モデルを用いて導出される。部分区間コスト、および、その要素である音響コスト、言語コストは、発話区間スコアの演算が効率的かつ認識精度が低下しないようにスケーリングされた実数値で表現されてもよい。

部分区間スコアが、音響コストと言語コストを含む場合には、第２音声認識部１２８は、音響コストの総和である音響スコアと、言語コストの総和である言語スコアとの加重平均値を発話区間スコアとして算出することができる。第２音声認識部１２８は、算出した発話区間スコアが最小となる経路を選択し、選択した経路をなすエッジに対応する単語をその順に連結して発話区間テキスト情報を生成することができる。図６の例では、開始シンボルを起点とし、終了シンボルを終点とする３つの経路のうち、最上部に表された経路が選択される。選択された経路をなす各エッジに対応する単語として、「家族」、「と」、「再会」、「する」をその順に配列して、「家族と再開する」との発話内容が推定される。

第２音声認識処理は、発話区間ごとに候補となる部分区間（例えば、単語）間の関係を定量的に評価して発話内容を推定する。１回の発話区間の長さは、典型的には、数秒から数十秒程度である。発話区間ごとの実時間処理は現実的ではないため、オフラインで処理される。第２音声認識処理により推定された発話内容は、部分区間ごとに推定される第１音声認識処理により推定された発話内容よりも推定精度が高くなる傾向があるが、必ずしもその限りではない。

そこで、情報統合部１３０は、その発話区間における第１音声認識処理により得られる部分区間ごとの部分区間テキスト情報の候補、文脈依存音素の候補、文脈非依存音素の候補および音響特徴量を第１音声認識部１２６から取得する。情報統合部１３０は、第２音声認識処理と同様の手順を実行して、取得した部分区間テキスト情報の候補を部分区間の順に配列して、発話区間テキスト候補を示す仮説ラティスを示すデータを第１仮説ラティスデータとして生成する。情報統合部１３０は、第１仮説ラティスデータを生成する際、音響モデル、文脈依存モデルおよび単語辞書を用い、文法モデルを用いなくてもよい。

情報統合部１３０は、第２音声認識部１２８から第２音声認識処理において生成された仮説ラティスデータ（以下、「第２仮説ラティスデータ」と呼ぶ）を取得する。情報統合部１３０は、発話区間ごとに第１仮説ラティスデータで表される第１仮説ラティス（以下、「第１グラフ」と呼ぶ）と、第２仮説ラティスデータで表される第２仮説ラティス（以下、「第２グラフ」と呼ぶ）とを結合し、得られたグラフを結合グラフとして定める（グラフ統合）。

グラフ統合において、情報統合部１３０は、第１グラフと第２グラフを跨いで独自（唯一）のエッジと、そのエッジに対応する部分区間テキスト情報と部分区間スコアを結合グラフの要素に含むよう採用する。情報統合部１３０は、第１グラフと第２グラフとの間で重複するエッジが存在する場合には、それぞれのエッジを１本のエッジに統合し、それぞれのエッジの部分区間スコアを合成して得られる合成値（例えば、個々の部分区間スコアが遷移確率である場合には、それらの和）を新たな部分区間スコアとして定める。情報統合部１３０は、統合したエッジと、そのエッジに対応する部分区間テキスト情報と新た部分区間スコアを結合グラフの要素に含むように採用する。処理対象として注目するエッジと重複するエッジとは、注目するエッジと対応する部分区間テキスト情報の候補が共通であって、注目するエッジの直前のエッジおよび直後のエッジとして、共通な部分区間テキスト情報の候補に対応するエッジが存在しないことを意味する。但し、注目するエッジが発話区間冒頭のエッジである場合には、直前のエッジは参照されず、注目するエッジが発話区間末尾のエッジである場合には、直後のエッジが参照されない。発話区間冒頭のエッジの一端は、開始シンボルに対応付けられ、発話区間末尾のエッジの一端は、終了シンボルに対応付けられることにより、他の種類のエッジと区別される。よって、結合グラフでは、結合前の第１グラフと第２グラフで固有の経路が並列し、共通の経路が１つに集約される。

図７は、左上、左下にそれぞれ、第１グラフ、第２グラフを例示し、右に結合グラフを例示する。例えば、第１グラフの冒頭には、「怪盗」、「伊藤」、「伊東」のそれぞれに対応するエッジが存在する。第２グラフの冒頭には、「加藤」、「怪盗」、「配当」のそれぞれに対応するエッジが存在する。第１グラフと第２グラフの間で、「伊藤」、「伊東」、「加藤」、「配当」に係るエッジは独自であるため、維持される。「加藤」に対応するエッジは、第１グラフと第２グラフに共通するため、いずれかに統合される。そして、第１グラフと第２グラフにおける、それらのエッジの部分区間スコアである遷移確率の和が、新たな部分区間スコアの統合されたエッジに対応付けられる。
第１グラフには、「最近」に対応付けられるエッジが存在するが、第２グラフには存在しない。他方、第２グラフには、「采配」に対応するエッジが存在するが、第１グラフには存在しない。よって、「最近」に対応付けられるエッジ、「采配」に対応付けられるエッジのいずれも採用される。「再会」に対応付けられ、後続するエッジにおいて「する」に対応するエッジは、統合される。かかるエッジは、第１グラフと第２グラフのいずれにも存在するためである。統合されたエッジには、統合前の各エッジに対応する重み値の和が新たな重み値として対応付けられる。

情報統合部１３０は、結合グラフを用いて、個々の経路をなすエッジに対応する部分区間スコアに基づいて発話区間スコアを経路ごとに算出し、最も大きい発話区間スコアを与える経路を選択する（再評価）。情報統合部１３０は、選択した経路をなすエッジに対応する単語をその順に連結して、発話区間における発話内容を示す統合テキスト情報を生成することができる。図７の例では、開始シンボルから終了シンボルまでの経路のうち、「怪盗」、「と」、「再会」、「する」のそれぞれに対応するエッジを含む経路が選択される。発話内容として「怪盗と再開する」を示す統合テキスト情報が生成される。
なお、情報統合部１３０が結合グラフを用いて統合テキスト情報を生成する場合には、第２音声認識処理において発話区間テキスト情報の候補を示す第２仮説ラティスデータが生成されれば足り、最終的な処理結果となる唯一の発話区間テキスト情報を定めることを要しない。

なお、仮説ラティスの生成、仮説ラティスを用いた音声認識、については、以下の文献により詳細に記載されている。本実施形態では、これらの手法を適用することができる。
Daniel Povey, Mirko Hannermann, et al: “GENERATING EXACT LATTICES IN THE WFST FRAMEWORK”, Proceedings of International Conference on Acoustics, Speech, and Signal Processing (ICASSP) 2012, 25-30 March, 2012
“Lattices in Kaldi”, [online], Kaldi Project, <URL: https://www.kaldi-asr.org/doc/lattices.html>

（処理タイミング）
第１音声認識処理では、一度に処理対象とする期間を部分区間に制限することで、オンラインでの実時間処理を可能としている。図８の例では、ある部分区間に対する第１音声認識処理は、次の部分区間に対する音響特徴量が特徴量算出部１２４から取得される時点までに完了する。出力処理部１３２は、第１音声認識部１２６から部分区間ごとに認識結果を示す部分区間テキスト情報を取得し、部分区間テキスト情報で示される表示テキストを表示部３０に実時間で表示させることができる。

第２音声認識処理では、一度に処理対象とする期間を発話区間とするため、オンラインでの実時間処理は現実的ではない。一回の発話区間の長さは、典型的には数秒から十数秒程度であり、第２音声認識処理では複数の部分区間の関連性が評価される。図９の例では、ある部分区間に対する第２音声認識処理は、後続の部分区間に対する音響特徴量が取得される状態になっても完了できない。そのため、新たな音響特徴量が取得される都度、新たな音響特徴量の取得から第２音声認識処理を開始できるまでの遅延時間が増加する。本実施形態では、第２音声認識処理がオフラインで実行され、発話区間ごとの処理結果となる発話区間テキスト情報が取得される。

グラフ統合では、第２グラフに第１グラフを結合して結合グラフが生成される。生成された結合グラフ上の経路ごとに発話区間スコアが算出され、発話区間スコアが最大となる経路が選択される。グラフ結合は、情報統合部１３０は、発話区間において第１グラフの要素となる部分区間ごとの部分区間テキスト情報の候補と、その発話区間に係る第２グラフを取得できることが前提となる。図１０に例示されるように、グラフ統合は、第１音声認識処理と第２音声認識処理が完了した後に開始される。再評価では、グラフ統合により得られた結合グラフを用いて経路ごとに発話区間スコアが算出され、統合テキスト情報を定める際に用いられる。そして、統合テキスト情報に基づく表示テキストが表示部３０に、部分区間テキスト情報に基づく表示テキストよりも遅れて表示される。図１０の例では、発話区間内の音声データに係る第１音声認識処理の完了直後に、その発話区間に対する認識結果を示す表示テキストが表示されるとともに、それ以降に第２音声認識処理が開始可能となる。なお、本実施形態では、第１音声認識処理の終了前に、第２音声認識処理の実行が第１音声認識処理の開始以降に開始され、その発話区間に係る第１音声認識処理の一部または全部の処理期間と並列になってもよい。よって、第１音声認識処理の開始から処理結果となる統合テキスト情報の出力までの処理期間が短縮される。

（会話支援処理）
次に、本実施形態に係る会話支援処理の例について説明する。図１１は、本実施形態に係る会話支援処理の例を示すフローチャートである。
（ステップＳ１０２）音響処理部１２２は、収音部２０から入力された音声データに対して前処理を行う。
（ステップＳ１０４）音響処理部１２２は、前処理後の音声データに対して音声検出処理を行い、検出された発話状態に基づいて発話が開始されたか否かを判定する。発話開始が判定された場合（ステップＳ１０４ＹＥＳ）、ステップＳ１０６の処理に進む。発話開始が判定されない場合（ステップＳ１０４ＮＯ）、ステップＳ１０２の処理に戻る。

（ステップＳ１０６）特徴量算出部１２４は、前処理後の音声データに対してフレームごとに音響特徴量を算出する。
（ステップＳ１０８）第１音声認識部１２６は、算出された音響信号に対して第１音声認識処理を行い、発話区間の一部である部分区間ごとに発話内容を示す部分区間テキスト情報を定める。
（ステップＳ１１０）出力処理部１３２は、部分区間ごとに部分区間テキスト情報を示す表示画面データを生成し、生成した表示画面データを表示部３０に出力される。表示部３０には、部分区間ごとの発話内容を示す表示テキストが実時間で表示される。
（ステップＳ１１２）音響処理部１２２は、前処理後の音声データに対して音声検出処理を行い、検出された発話状態に基づいて発話が終了したか否かを判定する。発話が終了した判定された場合（ステップＳ１１２ＹＥＳ）、ステップＳ１１４の処理に進む。発話開始から発話終了までの期間が発話期間に相当する。発話が終了と判定されない場合（ステップＳ１１２ＮＯ）、ステップＳ１０２の処理に戻る。

（ステップＳ１１４）第２音声認識部１２８は、算出された音響信号に対して第２音声認識処理を行い、発話区間ごとに発話内容を示す発話区間テキスト情報を定める。第２音声認識処理の過程において、発話区間に属する部分区間ごとの部分区間テキスト情報の候補の順列からなる経路を示す第２グラフが定まる。
（ステップＳ１１６）情報統合部１３０は、第１音声認識処理の過程において得られた発話区間内の部分区間テキスト情報の候補の順列からなる経路を示す第１グラフを構成する。情報統合部１３０は、第２グラフと第１グラフを結合して結合グラフを生成する（グラフ統合）。
（ステップＳ１１８）情報統合部１３０は、統合グラフに示される経路ごとの発話区間スコアを算出し（再評価）、算出した発話区間スコアに基づいて経路を選択する。情報統合部１３０は、選択した経路をなす各エッジに対応する部分区間テキスト情報の候補の順列を統合テキスト情報として定める。
（ステップＳ１２０）出力処理部１３２は、発話区間内の部分区間テキスト情報を統合テキスト情報に置き換えて表示画面データを更新し、更新した表示画面データを表示部３０に出力される。よって、発話区間内の発話内容が統合テキスト情報に示されるものに更新される。

以上に説明したように、本実施形態に係る会話支援装置１０は、音声信号に基づいて音声認識処理（例えば、第１音声認識処理）を行い発話区間の一部分である部分区間ごとに部分区間テキスト情報を定める第１音声認識部１２６と、前記音声信号に基づいて音声認識処理（例えば、第２音声認識処理）を行い前記発話区間ごとに発話区間テキスト情報を定める第２音声認識部１２８を備える。会話支援装置１０は、発話区間テキスト情報に部分区間テキスト情報を統合して統合テキスト情報を生成する情報統合部１３０と、部分区間テキスト情報を（例えば、表示画面データに含め）表示部３０に出力した後、統合テキスト情報を（例えば、表示画面データに含め）表示部３０に出力する出力処理部１３２と、を備える。
この構成によれば、部分区間ごとの発話内容を示す部分区間テキスト情報が表示部３０に逐次に表示され、発話区間ごとの発話内容を示す発話区間テキスト情報と統合した統合テキスト情報が表示される。部分区間ごとの部分区間テキスト情報を実時間で表示することで使用者に対して会話の進行を把握させ、その後、発話区間ごとの統合テキスト情報を表示することで会話内容の信頼度を確保することができる。

また、出力処理部１３２は、統合テキスト情報において、部分区間テキスト情報と差が生ずる区間である差分区間における表示態様を、統合テキスト情報の他の区間と異なる表示態様に定めてもよい。
この構成によれば、差分区間が他の区間と異なる表示態様で表示される。利用者は部分区間テキスト情報と差が生じた差分区間に容易に気づくことができるので、差分区間における信頼性が高い会話内容の見逃しを回避することができる。

また、情報統合部１３０は、第１音声認識部１２６において得られた部分区間ごとの部分区間テキスト情報の候補と当該候補のスコアと順列を示す第１グラフを、第２音声認識部１２８において得られた発話区間の一部をなす部分区間ごとの部分区間テキスト情報の候補と当該候補のスコアと順列を示す第２グラフに統合して統合グラフを生成する。情報統合部１３０は、統合グラフを用い、部分区間ごとの部分区間テキスト情報の候補のスコアから、当該候補を配列して得られる発話区間テキスト情報の候補のスコアである発話区間スコアを算出し、発話区間スコアに基づいて統合テキスト情報を定めてもよい。
この構成によれば、第２音声認識部１２８により得られる発話区間テキスト情報の候補の他に、第１音声認識部１２６より得られた部分区間テキスト情報の候補を参照して会話内容の信頼性を向上させることができる。

また、部分区間テキスト情報の候補のスコアは、音響コストと言語コストを含み、情報統合部１３０は、発話区間における部分区間ごとの部分区間テキスト情報の候補の音響コストの総和と言語コストの総和の加重平均値を発話区間スコアとして算出してもよい。
この構成によれば、音響的特徴による信頼度と言語的特徴による信頼度を重み付けて発話区間スコアが得られる。そのため、会話内容の信頼性に対する音響的特徴と言語的特徴の寄与を調整することができる。

また、部分区間は、１個または複数の単語に対応する区間であってもよい。
この構成によれば、単語ごとの発話内容を示す部分区間テキスト情報が表示部３０に逐次に表示され、発話区間ごとの発話内容を示す発話区間テキスト情報と統合した、統合テキスト情報が表示される。単語ごとの部分区間テキスト情報を実時間で表示することで使用者に対して会話の進行を把握させ、その後、発話区間ごとの統合テキスト情報を表示することで会話内容の信頼性を確保することができる。

以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。

例えば、収音部２０、表示部３０は、会話支援装置１０と必ずしも一体化されていなくてよく、それらのいずれかまたは組み合わせは、無線または有線で各種のデータを送受信可能に接続できれば、会話支援装置１０と別体であってもよい。発話情報記録部１３４は省略されてもよい。
上記の説明では、主に部分区間が単語である場合を例にしたが、これには限られない。部分区間は、単語とは異なる単位、例えば、文節、文字、などであってもよい。

情報統合部１３０は、発話区間テキスト情報と部分区間テキスト情報を統合して統合テキスト情報を生成する際、必ずしもグラフ統合を行わなくてもよい。情報統合部１３０は、ある発話区間における第１音声認識処理による部分区間テキスト情報を、その部分区間における第２音声認識処理による発話区間テキスト情報に置き換えて統合テキスト情報として採用してもよい。情報統合部１３０は、第２音声認識処理による発話区間テキスト情報において、認識結果となる部分区間テキスト情報を特定できない部分区間が存在する場合には、その部分区間に係る第１音声認識処理による部分区間テキスト情報を棄却せずに統合テキスト情報に含めてもよい。

Ｓ１…会話支援システム、１０…会話支援装置、１１０…入出力部、１２０…制御部、１２２…音響処理部、１２４…特徴量算出部、１２６…第１音声認識部、１２８…第２音声認識部、１３０…情報統合部、１３２…出力処理部、１３４…発話情報記録部、１４０…記憶部

Claims

音声信号に基づいて音声認識処理を行い発話区間の一部分である部分区間ごとに部分区間テキスト情報を定める第１音声認識部と、
前記音声信号に基づいて音声認識処理を行い前記発話区間ごとに発話区間テキスト情報を定める第２音声認識部と、
前記発話区間テキスト情報に前記部分区間テキスト情報を統合して統合テキスト情報を生成する情報統合部と、
前記部分区間テキスト情報を表示部に出力した後、
前記統合テキスト情報を前記表示部に出力する出力処理部と、を備える
会話支援装置。
前記出力処理部は、
前記統合テキスト情報において、前記部分区間テキスト情報と差が生ずる区間である差分区間における表示態様を、前記統合テキスト情報の他の区間と異なる表示態様に定める
請求項１に記載の会話支援装置。
前記情報統合部は、
前記第１音声認識部において得られた前記部分区間ごとの部分区間テキスト情報の候補と当該候補のスコアと順列を示す第１グラフを、
前記第２音声認識部において得られた前記発話区間の一部をなす部分区間ごとの部分区間テキスト情報の候補と当該候補のスコアと順列を示す第２グラフに統合して統合グラフを生成し、
前記統合グラフを用い、前記部分区間ごとの部分区間テキスト情報の候補のスコアから、当該候補を配列して得られる発話区間テキスト情報の候補のスコアである発話区間スコアを算出し、
前記発話区間スコアに基づいて前記統合テキスト情報を定める
請求項１または請求項２に記載の会話支援装置。
前記部分区間テキスト情報の候補のスコアは、音響コストと言語コストを含み、
前記情報統合部は、
前記発話区間における部分区間ごとの部分区間テキスト情報の候補の音響コストの総和と言語コストの総和の加重平均値を前記発話区間スコアとして算出する
請求項３に記載の会話支援装置。
前記部分区間は、１個または複数の単語に対応する区間である
請求項１から請求項４のいずれか一項に記載の会話支援装置。
コンピュータに
請求項１から請求項５のいずれか一項に記載の会話支援装置として機能させるための
プログラム。
請求項１から請求項５のいずれか一項に記載の会話支援装置と、
前記表示部と、を備える
会話支援システム。
会話支援装置が、
音声信号に基づいて音声認識処理を行い発話区間の一部分である部分区間ごとに部分区間テキスト情報を定める第１音声認識ステップと、
前記音声信号に基づいて音声認識処理を行い前記発話区間ごとに発話区間テキスト情報を定める第２音声認識ステップと、
前記発話区間テキスト情報に前記部分区間テキスト情報を統合して統合テキスト情報を生成する情報統合ステップと、
前記部分区間テキスト情報を表示部に出力した後、
前記統合テキスト情報を前記表示部に出力する出力処理ステップと、を実行する
会話支援方法。