JP6148163B2

JP6148163B2 - 会話支援装置、会話支援装置の制御方法、及び会話支援装置のプログラム

Info

Publication number: JP6148163B2
Application number: JP2013247460A
Authority: JP
Inventors: 一博中臺; 圭佑中村
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2013-11-29
Filing date: 2013-11-29
Publication date: 2017-06-14
Anticipated expiration: 2033-11-29
Also published as: US20150154957A1; US9691387B2; JP2015106014A

Description

本発明は、会話支援装置、会話支援装置の制御方法、及び会話支援装置のプログラムに関する。

特許文献１には、会話の内容を音声認識して文字を表示することで、視覚的に聴力を補助する聴力補助装置が開示されている。特許文献１に記載の聴力補助装置では、マイクロホンにより集音された音声を音声認識部が認識し、音声認識結果に基づいて認識した内容に対応する文字を表示手段に表示している。また、特許文献１に記載の聴力補助装置では、発話者が送信機を使用し、聴取者が受信機を使用する。そして、送信機は、マイクロホンと音声認識回路と送信部等を有し、音声認識結果に基づいて認識した内容に対応する文字情報を送信部が受信機に送信する。受信機は、受信部とＣＰＵ（中央演算装置）と表示器等を有し、送信機から文字情報を受信した場合に表示器に文字表示を行う。

特開平９−２０６３２９号公報

しかしながら、特許文献１に記載の技術では、発話者や聴取者がそれぞれ聴力補助装置を使用することを想定しているため、マイクロホンに複数の音声が混合されて入力されるような場合、それぞれの音声を認識することが困難であるという課題があった。

本発明は、上記の問題点に鑑みてなされたものであって、発話者が複数であっても、それぞれの音声を認識して聴覚を支援することができる会話支援装置、会話支援装置の制御方法、及び会話支援装置のプログラムを提供することを目的とする。

（１）上記目的を達成するため、本発明の一態様に係る会話支援装置は、２以上の使用者の音声信号を入力する音声入力部と、前記音声入力部に入力された音声信号を認識する音声認識部と、前記音声入力部に入力された音声信号の音源方向を推定する音源推定部と、前記音声認識部によって認識された認識結果が表示される表示部と、前記使用者毎に対応する表示領域を前記表示部の画像表示領域に設定し、前記音源推定部によって前記音声信号の音源方向が推定される前、前記音声認識部によって認識された結果を予め定められている表示角度で表示させ、前記音源推定部によって前記音声信号の音源方向が推定された後、前記音源方向に基づく表示角度で、前記音声認識部によって認識された認識結果を前記表示部の前記使用者毎に対応する前記表示領域に表示させ、既に音源定位されている話者とは違う方向から音声を検出した場合には、新たな話者が会議に参加していると判断し、その発話内容を隣り合う既に認識されている話者同士のテキスト表示枠の間に表示させる画像処理部と、を備えることを特徴としている。

（２）また、本発明の一態様に係る会話支援装置において、前記画像処理部は、前記使用者毎に対応する表示領域の表示色、柄、当該表示領域に表示されるアイコン、当該表示領域に表示されるアバターのうち少なくとも１つを前記使用者毎に異なるように表示させるようにしてもよい。

（３）また、本発明の一態様に係る会話支援装置において、前記画像処理部は、前記音源推定部によって推定された前記音源方向に基づく画像を、前記表示部の前記使用者毎に対応する前記表示領域に表示させるようにしてもよい。

（４）また、本発明の一態様に係る会話支援装置は、前記音声入力部に入力された音声信号を前記使用者毎に分離する音源分離部を備え、前記画像処理部は、前記音源分離部によって分離された前記使用者毎の音声信号のうち、前記表示領域に対応する前記使用者以外の前記認識結果を前記表示部の前記使用者毎に対応する表示領域に表示させるようにしてもよい。

（５）また、本発明の一態様に係る会話支援装置は、前記使用者の位置を推定する位置推定部を備え、前記画像処理部は、前記位置推定部によって推定された前記使用者の位置に応じた位置に、前記使用者毎に対応する表示領域を前記表示部の画像表示領域に設定または再配置するようにしてもよい。

（６）また、本発明の一態様に係る会話支援装置において、前記位置推定部は、前記音声入力部に入力された音声信号を用いて前記使用者の位置を推定するようにしてもよい。

（７）また、本発明の一態様に係る会話支援装置は、前記音声認識部によって認識された認識結果を翻訳する翻訳部を備え、前記画像処理部は、前記翻訳部によって翻訳された翻訳結果を前記表示部の前記使用者毎に対応する前記表示領域に表示させるようにしてもよい。

（８）また、本発明の一態様に係る会話支援装置は、前記使用者が発話する言語を検出する言語情報検出部を備え、前記翻訳部は、前記表示領域に対応する前記使用者以外の前記認識結果を、前記言語情報検出部によって検出された言語に翻訳するようにしてもよい。

（９）また、本発明の一態様に係る会話支援装置は、他の会話支援装置との通信を行う通信部を備え、前記音声入力部は、前記通信部が受信した前記他の会話支援装置から受信された音声信号を入力し、前記音声認識部は、前記音声入力部から入力された音声信号のうち、前記表示領域に対応する前記使用者以外の音声信号を認識するようにしてもよい。

（１０）また、本発明の一態様に係る会話支援装置は、前記表示部に表示された画像の一部を選択する入力部を備え、前記画像処理部は、前記入力部によって選択された画像の一部が認識結果である場合、選択された前記認識に対応する他の認識候補を前記表示部に表示させ、前記認識候補のうち前記入力部によって選択された候補に前記認識結果を修正し、修正した前記認識結果を、前記通信部を介して前記他の会話支援装置に送信させるようにしてもよい。

（１１）上記目的を達成するため、本発明の一態様に係る会話支援装置の制御方法は、音声入力部が、２以上の使用者の音声信号を入力する音声入力手順と、音声認識部が、前記音声入力手順によって入力された音声信号を認識する音声認識手順と、音源推定部が、前記音声入力手順によって入力された音声信号の音源方向を推定する音源推定手順と、画像処理部が、前記使用者毎に対応する表示領域を、前記音声認識手順によって認識された認識結果が表示される表示部の画像表示領域に設定し、前記音源推定手順によって前記音声信号の音源方向が推定される前、前記音声認識部によって認識された結果を予め定められている表示角度で表示させ、前記音源推定手順によって推定された後、前記音源方向に基づく表示角度で、前記音声認識手順によって認識された認識結果を前記表示部の前記使用者毎に対応する前記表示領域に表示させ、既に音源定位されている話者とは違う方向から音声を検出した場合には、新たな話者が会議に参加していると判断し、その発話内容を隣り合う既に認識されている話者同士のテキスト表示枠の間に表示させる画像処理手順と、を含むことを特徴としている。

（１２）上記目的を達成するため、本発明の一態様に係る会話支援装置のプログラムは、会話支援装置のコンピュータに、２以上の使用者の音声信号を入力する音声入力手順と、前記音声入力手順によって入力された音声信号を認識する音声認識手順と、前記音声入力手順によって入力された音声信号の音源方向を推定する音源推定手順と、前記使用者毎に対応する表示領域を、前記音声認識手順によって認識された認識結果が表示される表示部の画像表示領域に設定し、前記音源推定手順によって前記音声信号の音源方向が推定される前、前記音声認識手順によって認識された結果を予め定められている表示角度で表示させ、前記音源推定手順によって推定された後、前記音源方向に基づく表示角度で、前記音声認識手順によって認識された認識結果を前記表示部の前記使用者毎に対応する前記表示領域に表示させ、既に音源定位されている話者とは違う方向から音声を検出した場合には、新たな話者が会議に参加していると判断し、その発話内容を隣り合う既に認識されている話者同士のテキスト表示枠の間に表示させる画像処理手順と、を実行させることを特徴としている。

上述した（１）、（１１）又は（１２）の構成によれば、発話者が複数であっても、それぞれの音声を認識して聴覚を支援することができる。
本発明の態様（１）、（１１）又は（１２）の構成によれば、使用者が認識された結果が見やすくなるため、使用者の利便性を向上することができる。
本発明の態様（３）によれば、使用者は、自分の表示領域を判別しやすくなる。
本発明の態様（４）によれば、話者毎の方位の推定や話者毎の発話の分離を精度よく行うことができる。また、他の話者は、相手の発話を精度良く会話支援装置上で視覚的に確認することができるので、話者の聴覚を支援することができる。
本発明の態様（５）、（６）によれば、各話者の一番近い位置に表示位置が配置されるため、他の話者の発話内容が認識された文字データ（認識結果）が話者にとって見やすくなる。

本発明の態様（７）、（８）によれば、翻訳部によって翻訳された翻訳結果を表示部（画像表示部１５）の使用者毎に対応する表示領域に表示されるので、他の話者は、相手の発話を会話支援装置上で視覚的に確認することができるので、話者の聴覚を支援することができる。
本発明の態様（９）によれば、複数台の会話支援装置を用いて音声認識を行うことができる。
本発明の態様（１０）によれば、使用者の発話内容を、他の使用者に正しく提示することができる。

第１実施形態に係る会話支援装置の構成を表すブロック図である。第１実施形態に係るマイクロホンが本体に組み込まれている場合の例を説明する図である。第１実施形態に係るマイクロホンがカバーに組み込まれている場合の例を説明する図である。第１実施形態に係る話者が接話型マイクロホンを使用する場合の例を説明する図である。第１実施形態に係るメニュー画像の一例を説明する図である。第１実施形態に係る話者が２人の場合に画像表示部上に表示される画面パターンの画像の例を説明する図である。第１実施形態に係る話者が３人の場合に画像表示部上に表示される画面パターンの画像の例を説明する図である。第１実施形態に係る話者が４人の場合に画像表示部上に表示される画面パターンの画像の例を説明する図である。第１実施形態に係る会話支援装置が行う処理手順のフローチャートである。実験環境を説明するための図である。会話を始める前の画像表示部上に表示される画像である。第１話者が「こんばんは」と発話した後に画像表示部上に表示される画像である。図１２の後に第２話者が「こんばんは」と発話した後に画像表示部上に表示される画像である。第１話者が４回発話し、第２話者が３回発話した後に画像表示部上に表示される画像である。話者が３人の場合に画像表示部上に表示される画像の例を説明する図である。第２実施形態に係る会話支援装置の構成を表すブロック図である。第２実施形態に係るマイクアレイに対応する各部の組み合わせの例を説明する図である。第２実施形態に係る音源定位の一例を説明する図である。第２実施形態に係る会話支援装置が行う処理手順のフローチャートである。第２実施形態に係る話者の人数が変化した場合の処理を説明する図である。第３実施形態に係る会話支援装置の構成を表すブロック図である。第３実施形態に係る複数の会話支援装置の配置の一例を説明する図である。第３実施形態に係る各会話支援装置の画像表示部に表示される画像の一例を説明する図である。第３実施形態に係る会話支援装置の構成を表すブロック図である。第４実施形態に係る会話支援装置の構成を表すブロック図である。第４実施形態に係る会話支援装置の画像表示部上に表示される画像の一例を説明する図である。

まず、本発明の概要を説明する。
本発明では、マイクロホンで収音された音声信号に含まれる発話のうち、発話者が発した発話を示す情報を他者の表示領域に表示する。本発明では、発話者が複数の場合、表示部の表示領域を発話者の人数に応じた領域に分割し、分割した各領域に各発話者を対応付け、対応付けた各領域に発話を示す情報を表示する。

以下、図面を参照しながら本発明の実施形態について説明する。

［第１実施形態］
図１は、本実施形態に係る会話支援装置１の構成を表すブロック図である。図１に示すように、会話支援装置１は、収音部１１（音声入力部）、音響信号取得部１２（音声入力部）、音声認識部１３（音声認識部、位置推定部）、画像処理部１４、画像表示部１５（表示部）、及び入力部１６を備える。また、画像処理部１４は、画像パターン生成部１４１、表示画像生成部１４２、及び画像合成部１４３を備える。
会話支援装置１は、例えばタブレット型の端末、携帯電話、携帯ゲーム機、テーブルの表面に画像表示部を備える端末等である。以下の実施形態では、会話支援装置１がタブレット型の端末（以下、タブレット端末ともいう）について説明する。

入力部１６は、画像表示部１５上に設けられたタッチパネルセンサーであり、使用者によってタッチされた画面上の座標情報を、画像処理部１４に出力する。なお、入力部１６は、有線または無線接続による外付けの入力装置であってもよい。外付けの入力装置は、例えば、キーボード、マウス等である。

収音部１１は、Ｎ個（Ｎは１よりも大きい整数、例えば８個）のチャネルの音響信号を収録し、収録したＮチャネルの音響信号を音響信号取得部１２に送信する。収音部１１は、例えば周波数帯域（例えば２００Ｈｚ〜４ｋＨｚ）の成分を有する音波を受信するＮ個のマイクロホン１０１−１〜１０１−Ｎを備えている。収音部１１は、収録したＮチャネルの音響信号を無線で送信してもよいし、有線で送信してもよい。Ｎが１よりも大きい場合には、送信の際にチャネル間で音響信号が同期していればよい。なお、以下の説明において、マイクロホン１０１−１〜１０１−Ｎのうち特定しない場合は、単にマイクロホン１０１という。また、収音部１１のマイクロホン１０１は、後述するように、会話支援装置１に組み込まれていてもよく、または会話支援装置１に取り付けられていてもよく、あるいは、話者が使う接話マイクロホンであってもよい。

音響信号取得部１２は、収音部１１のＮ個のマイクロホン１０１によって収録されたＮ個の音響信号を取得する。音響信号取得部１２は、時間領域において、取得したＮ個の音響信号に対してフレーム毎にフーリエ変換を行うことで周波数領域の入力信号を生成する。音響信号取得部１２は、フーリエ変換したＮ個の音響信号を音声認識部１３に出力する。なお、Ｎ個の音響信号には、マイクロホン１０１−１〜１０１−Ｎを識別できる情報、またはマイクロホン１０１−１〜１０１−Ｎが取り付けられている向きを示す情報を含むようにしてもよい。なお、マイクロホン１０１−１〜１０１−Ｎの向きは、会話支援装置１が備える不図示の方位センサによって取得し、取得した方位に基づく情報と会話支援装置１に組み込まれているマイクロホン１０１の位置関係に基づいて、マイクロホン１０１−１〜１０１−Ｎが取り付けられている向きを示す情報を推定するようにしてもよい。

音声認識部１３は、音響信号取得部１２から入力された音響信号に対して音声認識処理を行って発話内容（例えば、単語、文を示すテキスト）を認識する。なお、音声認識部１３は、複数の話者による音響信号の場合、話者を判別し、判別した話者毎に発話内容を認識する。また、音声認識部１３は、例えば、音響信号取得部１２から入力されたＮチャネルの音響信号のうち、最も信号レベルが大きな音響信号を取得したマイクロホン１０１の向きを話者の向きであると例えばＭＵＳＩＣ（ＭＵｌｔｉｐｌｅＳＩｇｎａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ）法によって推定するようにしてもよい。そして、音声認識部１３は、話者を示す情報と話者の向きを示す情報と認識データとを、画像処理部１４に出力する。
音声認識部１３は、例えば、音響モデルである隠れマルコフモデル（ＨＭＭ：ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）と単語辞書を備える。

音声認識部１３は、例えば、音響信号について予め定めた時間間隔（例えば、１０ｍｓ）毎に音響特徴量を算出する。音響特徴量は、例えば、３４次のメル周波数ケプストラム（ＭＦＣＣ；Ｍｅｌ−ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔｓ）、静的メル尺度対数スペクトル（ｓｔａｔｉｃＭＳＬＳ：Ｍｅｌ−ＳｃａｌｅＬｏｇＳｐｅｃｔｒｕｍ）、デルタＭＳＬＳ及び１個のデルタパワーの組である特性ベクトル（ｆｅａｔｕｒｅｖｅｃｔｏｒ）、静的メル尺度対数スペクトル（ＭＳＬＳ：Ｍｅｌ−ＳｃａｌｅＬｏｇＳｐｅｃｔｒｕｍ）、デルタＭＳＬＳ及び１個のデルタパワーの組等である。音声認識部１３は、算出した音響特徴量から音響モデルを用いて音韻を定め、定めた音韻で構成される音韻列から単語辞書を用いて単語を認識する。

なお、本実施形態の会話支援装置１は、聴覚を支援する装置であるため、使用者である話者は、相手の発話が聞き取りづらい。このため、例えば、話者が２人の場合、第１話者Ｓｐ１が発話した場合、まず、第１話者Ｓｐ１の発話に基づく文字データが画像表示部１５上に表示される。次に、第２話者Ｓｐ２は、画像表示部１５上に表示された文字データに対する返答を発話する。その後、第１話者Ｓｐ１は、画像表示部１５上に表示された文字データに対する返答を発話する。このように、２人の話者が同時に発話を行わない場合、図１に示したように、音響信号取得部１２から入力された音響信号に対して音響定位処理や音響分離処理を行わなくても、音響信号の特徴量や最も信号レベルの大きなマイクロホン１０１の音響信号から、どの話者が発話しているのかを判別することができ、かつ発話内容を認識することができる。

画像パターン生成部１４１は、入力部１６から入力された画面上の座標情報に基づいて、後述するメニュー画像を生成し、生成したメニュー画像を画像合成部１４３に出力する。画像パターン生成部１４１は、入力部１６から入力された画面上の座標情報に基づいて、メニュー画面において、使用者によって選択された内容に従って画面パターンの画像を生成し、生成した画面パターンの画像を画像合成部１４３に出力する。なお、画面パターンの画像とは、後述するように、話者の人数に応じた表示画像である。

表示画像生成部１４２は、音声認識部１３から入力された話者毎の認識データに対応する文字データを生成し、生成した話者毎の文字データを画像合成部１４３に出力する。表示画像生成部１４２は、音声認識部１３から入力された話者の向きを示す情報に基づいて、話者毎の向きを話者毎の向きを示す画像を生成し、生成した話者毎の向きを示す画像を画像合成部１４３に出力する。

画像合成部１４３は、画像パターン生成部１４１が生成したメニュー画像を画像表示部１５上に表示させる。画像合成部１４３は、画像パターン生成部１４１が生成した表示画像において、表示画像生成部１４２から入力された話者毎の文字データを発話した話者以外の表示領域に表示するように画像を合成する。また、画像合成部１４３は、表示画像生成部１４２から入力された話者毎の向きを示す画像を、各話者の表示領域に表示するように画像を合成する。画像合成部１４３は、合成した画像を画像表示部１５上に表示させる。
なお、画像合成部１４３は、表示画像において、話者毎の文字データを発話した話者の表示領域に表示するように画像を合成してもよい。

画像表示部１５には、画像合成部１４３が出力した画像が表示される。画像表示部１５は、例えば液晶表示装置、有機ＥＬ（エレクトロルミネッセンス）表示装置、電子インク表示装置等である。

次に、収音部１１のマイクロホン１０１について図２〜図４を用いて説明する。図２は、本実施形態に係るマイクロホン１０１が本体２０１に組み込まれている場合の例を説明する図である。図３は、本実施形態に係るマイクロホン１０１がカバー２０２に組み込まれている場合の例を説明する図である。図４は、本実施形態に係る話者が接話型マイクロホンを使用する場合の例を説明する図である。なお、図２〜図４に示したマイクロホン１０１の個数、配置は一例であり、これに限られない。また、図２〜図４において、符号２０１が示す画像は、会話支援装置１の本体を示す画像である。本体２０１の形状は、縦長の長方形に限られず、正方形、横長の長方形、円形、楕円形、多角形であってもよい。

図２に示す例では、本体２０１の周辺部にマイクロホン１０１が８個組み込まれている。８個のマイクロホン１０１のうちマイクロホン１０１−１〜１０１−４が、紙面に向かった右の長辺に沿って取り付けられ、残りのマイクロホン１０１−５〜１０１−８が、紙面に向かった左の長辺に沿って取り付けられている。

図３に示す例では、本体２０１に取り外し可能なカバー２０２の周辺部にマイクロホン１０１が８個組み込まれている。各マイクロホン１０１と本体２０１との接続は、有線または無線で接続されるようにしてもよい。図２と同様に、マイクロホン１０１−１〜１０１−４が、紙面に向かった右の長辺に沿って取り付けられ、残りのマイクロホン１０１−５〜１０１−８が、紙面に向かった左の長辺に沿って取り付けられている。なお、カバー２０２にマイクロホン１０１を組み込む例を接続したが、他の例として本体２０１を保護するバンパー等にマイクロホン１０１を組み込んでもよい。

図４に示す例では、４人の話者がそれぞれ接話型のマイクロホン１０１−１〜１０１−４を使用する例である。各マイクロホン１０１と本体２０１との接続は、有線または無線で接続されるようにしてもよい。また、マイクロホン１０１の位置は、話者に応じた位置であり、話者が２人の場合、話者の配置は、紙面に向かって本体２０１の左右または上下になることが望ましい。また、話者が４人の場合、話者の配置は、図４に示すように紙面に向かって本体２０１の右上、右下、左下、左上になることが望ましい。

次に、入力部１６によって選択されるメニュー画面について説明する。図５は、本実施形態に係るメニュー画像３０１の一例を説明する図である。
図５において、メニュー画像３０１は、使用者が表示画面の選択や切り替えを行うときに画像表示部１５に表示される。メニュー画像３０１には、話者の選択メニュー領域３１１、話者１人目（第１話者）〜話者４人目（第４話者）がそれぞれ発話する言語の選択メニュー領域３１２〜３１５、及び画面の回転選択メニュー領域３１６を含む。なお、図５に示したメニュー画像３０１は一例であり、図５のように全てのメニュー画像を１つのメニューとして表示してもよく、または、項目毎に複数のメニュー画像に分けて表示するようにしてもよい。

話者の選択メニュー領域３１１は、会話支援装置１を利用して会話を行う話者の人数に応じて、話者のうちいずれかの人が入力部１６を操作して選択する。話者の選択メニュー領域３１１において、例えば、「話者２人（緑色）」は、話者が２人であり、２人目の話者に対応する表示色が緑色であることを表している。なお、図５に示した例では、話者１人目〜話者４人目に対応する表示色が固定されている例を示したが、表示色は、複数の話者が同じ色合いにならず、視覚的に判別可能な範囲で選択できるようにしてもよい。この場合、例えば、１人目の話者は、「話者１人（赤色）」を入力部１６によって操作して、表示色を変更するようにしてもよい。例えば、１人目の話者によって赤色が選択された後、画像パターン生成部１４１は、この赤色と隣接しても視覚的に識別可能な色を、他の話者の対応する話者の選択メニュー領域３１１に表示するようにしてもよい。

話者１人目が発話する言語の選択メニュー領域３１２には、話者１人目が使用する言語を、入力部１６を操作して選択するためのメニュー画像である。同様に、話者２人目〜第４人目が発話する言語の選択メニュー領域３１３〜３１５には、話者２人目〜話者４人目が使用する言語を、入力部１６を操作して選択するためのメニュー画像である。なお、図５に示した例では、話者が使用する言語の例として、日本語、英語、フランス語、中国語の４カ国語から選択する例を示したが、言語数はこれに限られない。また、図５に示した例では、話者の選択メニュー領域３１１、話者１人目（第１話者）〜話者４人目（第４話者）がそれぞれ発話する言語の選択メニュー領域３１２〜３１５を全て日本語で表示する例を示したが、これに限られない。例えば、話者１人目が発話する言語の選択メニュー領域３１２のうち「話者１人目：言語日本語」を日本語で表示し、「話者１人目：言語英語」を英語で表示し、「話者１人目：言語フランス語」をフランス語で表示し、「話者１人目：言語中国語」を中国語で表示するようにしてもよい。

画面の回転選択メニュー領域３１６は、画面に表示される画像が回転しないように固定させる指示、画面の向きの９０度回転させる指示、画面の向きの反転（１８０度回転）させる指示が含まれる。画面に表示される画像が回転しないように固定させる指示とは、例えば会話支援装置１が備える不図示の本体の回転を検出するセンサの検出出力に応じて、画面の向きを回転させる機能を有している場合であっても、表示画面が回転しないように固定する指示である。また、画面の向きの９０度回転させる指示、画面の向きの反転（１８０度回転）させる指示は、話者の人数や配置に応じて、話者にとって画像表示部１５上に表示される画像が最も見やすいように画像の表示向きを回転させたり反転させたりする指示である。
例えば、会話支援装置１に不図示のプロジェクタが接続された場合、画像表示部１５上に表示される画像がプロジェクタを介してスクリーンに表示される。この場合、会話支援装置１を回転させたりすると、このスクリーンに表示される画像も回転してしまうため、発話者にとって、自分が見るべき表示領域がわかりづらくなる場合もある。これを防止するため、画面に表示される画像が回転しないように固定させる。

次に、図６〜図８を用いて、画像パターン生成部１４１が生成する画面パターンの画像の例を説明する。図６は、本実施形態に係る話者が２人の場合に画像表示部１５上に表示される画面パターンの画像の例を説明する図である。図７は、本実施形態に係る話者が３人の場合に画像表示部１５上に表示される画面パターンの画像の例を説明する図である。図８は、本実施形態に係る話者が４人の場合に画像表示部１５上に表示される画面パターンの画像の例を説明する図である。なお、図６〜図８に示した配置及び配色等は一例であり、これに限られない。また、図６〜図８において、画像３０１Ａ〜画像３０１Ｃは、画像表示部１５上に表示される画面パターンの画像である。また、各話者に対応する色は、図５に示したメニュー画像のように、話者１人目が赤色、話者２人目が緑色、話者３人目が青色、話者４人目が黄色である。
なお、以下に示した例では、各話者に対応する表示領域を異なる色で区分けした例を示したが、これに限られない。各話者に対応する表示領域は、例えば異なる柄や、話者毎に対応するアイコン、話者毎に対応する擬人化した画像であるアバター等によって、見分けられるようにしてもよい。この場合、領域等を色で識別しなくても話者に対応する表示領域を話者が識別することができるので、画像表示部１５に白黒の画像表示装置や電子インク表示装置を用いることができ、消費電力を低減することができる。

図６に示すように、話者が２人の場合、画像３０１Ａは、紙面に向かって上下に分割され、例えば上側の領域に話者１人目に提示する情報の表示領域が割り当てられ、下側の領域に話者２人目に提示する情報の表示領域が割り当てられる。
話者１人目に提示される情報の表示領域の第１提示画像３２１Ａには、後述するように第２話者が発話した発話内容のテキストが表示される文字表示領域の第１文字提示画像３２２Ａを備えている。第１文字提示画像３２２Ａの色は、例えば白色である。また、第１文字提示画像３２２Ａには、後述するように第１話者の向きを示す方位画像３２３Ａが含まれる。図６に示した例は、第１話者は、紙面に対して、上側の正面にいる例である。
話者２人目に提示される情報の表示領域の第２提示画像３３１Ａには、第１話者が発話した発話内容のテキストが表示される文字表示領域の第２文字提示画像３３２Ａ、及び第２話者の向きを示す方位画像３３３Ａが含まれる。図６に示した例は、第２話者は、紙面に対して、右下にいる例である。第２文字提示画像３３２Ａの色は、例えば白色である。

図７に示すように、話者が３人の場合、画像３０１Ｂは３分割され、例えば左上側の領域に話者１人目に提示する情報の表示領域が割り当てられ、左下側の領域に話者２人目に提示する情報の表示領域が割り当てられ、右側の領域に話者３人目に提示する情報の表示領域が割り当てられる。
また、第１話者〜第３話者に対応する表示領域の第１提示画像３２１Ｂ〜第３提示画像３４１Ｂそれぞれには、自分を含まない他の発話した発話内容のテキストが表示される文字表示領域の第１文字提示画像３２２Ｂ〜第３文字提示画像３４２Ｂ、及び自分の向きを示す方位画像３２３Ｂ〜３２４Ｂが含まれる。第１文字提示画像３２２Ｂ〜第３文字提示画像３４２Ｂの色は、例えば白色である。
一例として、話者３人目に提示される情報の表示領域の第３提示画像３４１Ｂの第３文字提示画像３４２Ｂには、第１話者及び第２話者が発話した発話内容のテキストが表示される。また、方位画像３４３Ｂは、第３話者の向きを表す。

図８に示すように、話者が４人の場合、画像３０１Ｃは４分割され、例えば左上側の領域に話者１人目に提示する情報の表示領域が割り当てられ、左下側の領域に話者２人目に提示する情報の表示領域が割り当てられる。また、右下側の領域に話者３人目に提示する情報の表示領域が割り当てられ、右上側の領域に話者４人目に提示する情報の表示領域が割り当てられる。
また、第１話者〜第４話者に対応する表示領域の第１提示画像３２１Ｃ〜第４提示画像３５１Ｃそれぞれには、自分を含まない他の発話した発話内容のテキストが表示される文字表示領域の第１文字提示画像３２２Ｃ〜第４文字提示画像３５２Ｃ、及び自分の向きを示す方位画像３２３Ｃ〜３５３Ｃが含まれる。第１文字提示画像３２２Ｃ〜第４文字提示画像３５２Ｃの色は、例えば白色である。

一例として、話者４人目に提示される情報の表示領域の第４提示画像３５１Ｃの第４文字提示画像３５２Ｃには、第１話者〜第３話者が発話した発話内容のテキストが表示される。また、方位画像３５３Ｃは、第４話者の向きを表す。
なお、各話者は、例えば図８において、自分の方向を画像表示部１５に設けられているタッチパネル式の入力部１６を操作することで初期の話者方向を入力するようにしてもよい。この場合、会話支援装置１は、入力された初期の話者方向に応じた報告に発話内容のテキストを表示させ続けるようにしてもよい。

なお、図６〜図８に示した例のように、画像パターン生成部１４１は、例えば、自分を含まない他の発話した発話内容のテキストが表示される文字表示領域の画像の大きさが均等になるように、各表示領域を分割する。または、画像パターン生成部１４１は、会話支援装置１が備える不図示の傾き検出センサの検出結果に基づいて、装置がテーブルなどの上に傾けて置かれていることを検出し、検出された傾きの角度に応じて、文字表示領域の画像の大きさの比を演算し、演算した比に基づく文字表示領域の画像の大きさに応じて分割する各領域の大きさを決定するようにしてもよい。
なお、２〜４分割された領域のうち、どの領域がどの話者に対応するかは、予め画像パターン生成部１４１に記憶されている。画像パターン生成部１４１は、入力部１６から入力された指示に応じて、どの領域がどの話者に対応するかを切り替えるようにしてもよい。例えば、図８において、第２話者と第４話者の位置が入れ替わった場合、例えば第２話者は、画像表示部１５がタッチパネル式の入力部１６において、第２提示画像３３１Ｃを第４提示画像３５１Ｃの領域に移動させるように操作することで、第２提示画像３３１Ｃと第４提示画像３５１Ｃとを入れ替えるようにしてもよい。これにより、話者の位置が途中で入れ替わった場合であっても、本実施形態によれば、それまでの会話内容の表示を維持したままの画面を見ることができるので、話者に対する利便性が向上する。

次に、会話支援装置１が行う処理手順を説明する。図９は、本実施形態に係る会話支援装置１が行う処理手順のフローチャートである。
（ステップＳ１）話者は、図５に示したメニュー画像３０１において、入力部１６を操作することで、使用者人数を選択する。次に、各話者は、図５に示したメニュー画像３０１において、入力部１６を操作することで、使用する言語を選択する。次に、入力部１６は、話者によって選択された画面上の座標情報を、画像処理部１４に出力する。

（ステップＳ２）画像パターン生成部１４１は、入力部１６から入力された画面上の座標情報に基づいて、メニュー画面において、使用者によって選択された内容に従って画面パターンの画像を生成し、生成した画面パターンの画像を画像合成部１４３に出力する。次に、画像合成部１４３は、画像パターン生成部１４１が生成したメニュー画像を画像表示部１５上に表示させる。
（ステップＳ３）音響信号取得部１２は、例えば入力部１６によって認識開始が指示されたことが検出された後、またはステップＳ１が行われたタイミング等で、収音部１１のＮ個のマイクロホン１０１によって収録されたＮ個の音響信号の取得を開始する。次に、音響信号取得部１２は、フーリエ変換したＮ個の音響信号を音声認識部１３に出力する。

（ステップＳ４）音声認識部１３は、音響信号取得部１２から入力された音響信号に対して、話者毎に音声認識処理を行って発話内容を認識する。次に、音声認識部１３は、話者毎に話者の向きを、例えば、話者の発話時に最も信号レベルが大きい音響信号を取得したマイクロホン１０１の向きに基づいて推定する。次に、音声認識部１３は、話者を示す情報と話者の向きを示す情報と認識データとを、画像処理部１４に出力する。

（ステップＳ５）表示画像生成部１４２は、音声認識部１３から入力された話者毎の認識データに対応する文字データを生成し、生成した話者毎の文字データを画像表示部１５に出力する。表示画像生成部１４２は、音声認識部１３から入力された話者の向きを示す情報に基づいて、話者毎の向きを話者毎の向きを示す情報の画像を生成し、生成した話者毎の向きを示す情報の画像を画像合成部１４３に出力する。

（ステップＳ６）画像合成部１４３は、画像パターン生成部１４１が生成した表示画像において、表示画像生成部１４２から入力された話者毎の文字データを発話した話者以外の表示領域に表示するように画像を合成する。次に、画像合成部１４３は、表示画像生成部１４２から入力された話者毎の向きを示す情報の画像を、各話者の表示領域に表示するように画像を合成する。次に、画像合成部１４３は、合成した画像を画像表示部１５上に表示させる。
以上で、会話支援装置１が行う処理を終了する。

＜実験結果の説明＞
ここで、本実施形態に係る会話支援装置１を用いて行った実験結果の例を説明する。図１０は、実験環境を説明するための図である。
図１０に示すように、会話支援装置１は、テーブル４０１の上に傾けて置かれている。また、会話支援装置１は、一方の長手方向がテーブル４０１に接するように置かれている。実験は、所定の広さを有する部屋で行った。また、話者は第１話者Ｓｐ１と第２話者Ｓｐ２の２人であり、第１話者Ｓｐ１と第２話者Ｓｐ２とは椅子４０２に着席した状態である。

図１１は、会話を始める前の画像表示部１５上に表示される画像５０１である。画像５０１において、紙面に向かって上方向の第１提示画像５２１が第１話者Ｓｐ１に提示される領域であり、紙面に向かって下方向の第２提示画像５３１が第２話者Ｓｐ２に提示される領域である。図１０における会話支援装置１の画像表示部１５上において、第１話者Ｓｐ１及び第２話者Ｓｐ２から見て左側に第１提示画像５２１が表示され、右側に第２提示画像５３１が表示される。図１１に示した図は、第１話者Ｓｐ１または第２話者Ｓｐ２によって、話者の人数として２人が選択された後に画像表示部１５に表示される画像である（ステップＳ２）。また、第１提示画像５２１は第１文字提示画像５２２を備え、第２提示画像５３１は第２文字提示画像５３２を備えている。

図１２は、第１話者Ｓｐ１が「こんばんは」と発話した後に画像表示部１５上に表示される画像である。図１２に示すように、第２文字提示画像５３２には、第１話者Ｓｐ１の発話を認識した文字を示す画像５３４Ａである「こんばんは」が画像処理部１４によって表示される。この時点で、第２話者Ｓｐ２は、まだ発話を行っていないため、第２話者Ｓｐ２の向きが不明である。このため、図１２に示すように、画像５３４Ａである「こんばんは」は、初期方向に向けて画像処理部１４によって表示される。また、第１文字提示画像５２２には、第１話者Ｓｐ１の向きを示す方位画像５２３が画像処理部１４によって表示される。なお、方位画像５２３において、矢印の矢の先の向きが第１話者Ｓｐ１の向きである。

図１３は、図１２の後に第２話者Ｓｐ２が「こんばんは」と発話した後に画像表示部１５上に表示される画像である。この時点で、第２話者Ｓｐ２が発話を行ったため、音声認識部１３は、第２話者Ｓｐ２の向きを推定する。そして、第２文字提示画像５３２には、第２話者Ｓｐ２の向きを示す方位画像５３３が画像処理部１４によって表示される。この結果、第２文字提示画像５３２に表示される画像５３４Ａは、第２話者Ｓｐ２の向きに合わせて表示が表示画像生成部１４２によって回転されて表示される。
さらに、第１文字提示画像５２２には、第２話者Ｓｐ２の発話を認識した文字を示す画像５２４Ａである「こんばんは」が、第１話者Ｓｐ１の向きに応じた方向に画像処理部１４によって表示される。

図１４は、第１話者Ｓｐ１が４回発話し、第２話者Ｓｐ２が３回発話した後に画像表示部１５上に表示される画像である。
第１文字提示画像５２２には、第２話者Ｓｐ２の発話を認識した文字の画像５２４Ａ〜５２４Ｃが表示されている。そして、図１４に示すように、画像５２４Ａ〜５２４Ｃは、第１話者Ｓｐ１にとって画像表示部１５の奥から手前に向かって順次、表示される。また、第２文字提示画像５３２には、第１話者Ｓｐ１の発話を認識した文字の画像５３４Ａ〜５３４Ｄが表示されている。そして、図１４に示すように、画像５３４Ａ〜５３４Ｄは、第２話者Ｓｐ２にとって画像表示部１５の奥から手前に向かって順次、表示される。図１４において、発話順番は、例えば、画像５３４Ａ−＞画像５２４Ａ−＞画像５３４Ｂ−＞画像５２４Ｂ−＞画像５３４Ｃ−＞画像５２４Ｃ−＞画像５３４Ｄの順番である。

なお、表示画像生成部１４２は、例えば第１文字提示画像５２２が認識された文字に対応する画像で埋め尽くされたか否かを判別し、第１文字提示画像５２２が認識された文字に対応する画像で埋め尽くされたと判別した場合、古い発話に対応する画像から消去するようにしてもよく、または画像をスクロールするようにしてもよい。そして、第１話者Ｓｐ１は、消去された発話に対応する画像を見たいときに、画像表示部１５上の第１文字提示画像５２２の過去に表示された文字の画像を呼び出すように、画像表示部１５上に設けられているタッチパネルの入力部１６を操作することで、過去の発話も参照することができるように、画像処理部１４が処理するようにしてもよい。

なお、図１２〜図１４において、第１文字提示画像５２２に表示される画像の大きさが全て等しい例を示したが、これに限られない。例えば、最新の発話を認識した結果の画像を、例えば第１文字提示画像５２２の中央に大きく表示させ、過去の発話に基づく画像を小さく表示するようにしてもよい。第２文字提示画像５３２に表示させる画像についても同様である。
また、図１２〜図１４では、各会話に対応する文字を１行に収まるように表示画像生成部１４２が、文字サイズを決定するようにしてもよい。または、表示画像生成部１４２は、所定の文字サイズで認識された文字に対応する画像を数行に渡って表示するようにしてもよい。この場合、音声認識部１３は、認識した認識データに文節を示す情報を含めて画像処理部１４に出力するようにしてもよい。これにより、表示画像生成部１４２は、認識された文が所定の文字サイズでは１行に収まらないと判別した場合、音声認識部１３から入力された文節を示す情報を用いて、文の中において文節の切れ目の位置で折り返すようにしてもよい。
また、例えば、図１４に示した例において、認識された文字に対応する画像５２４Ａ〜５２４Ｃは、第２話者Ｓｐ２に対応する色で表示するようにしてもよい。同様に、認識された文字に対応する画像５３４Ａ〜５３４Ｄは、第１話者Ｓｐ１に対応する色で表示するようにしてもよい。

次に、話者が３人の場合に画像表示部１５上に表示される画像の例を説明する。図１５は、話者が３人の場合に画像表示部１５上に表示される画像６０１の例を説明する図である。
画像６０１は、図７に示した画像３０１Ｂに対応し、各符号６２１、６２２、６２３、６３１、６３２、６３３、６４１、６４２、及び６４３それぞれは、図７の符号３２１Ｂ、３２２Ｂ、３２３Ｂ、３３１Ｂ、３３２Ｂ、３３３Ｂ、３４１Ｂ、３４２Ｂ、及び３４３Ｂに対応する。

図１５に示した例では、まず第１話者が「こんにちは」と発話する。これにより、第２文字提示画像６３２に認識された文字に対応する画像６３４Ａが表示され、第３文字提示画像６４２に認識された文字に対応する画像６４４Ａが表示される。この画像６３４Ａと画像６４４Ａは、第１話者に対応した色、例えば赤色で表示されるようにしてもよい。または第１話者が発話したことを示す情報を、画像６３４Ａ及び画像６４４Ａに、表示画像生成部１４２が付加してもよい。第１話者が発話したことを示す情報とは、名前、第１話者に対応するアバター、第１話者に対応するアイコン、第１話者に対応した色のマーク（例えば赤丸）等である。これにより、どの発話者による発話結果が認識されているのかを、視覚的に認識することを支援できる。

次に、第２話者が「やあ！」と発話する。これにより、第１文字提示画像６２２に認識された文字に対応する画像６２５Ｂが表示され、第３文字提示画像６４２に認識された文字に対応する画像６４５Ｂが表示される。この場合も、画像６２５Ｂと画像６４５Ｂは、第２話者に対応した色、例えば緑色で表示されるようにしてもよい。

以上のように、本実施形態に係る会話支援装置１では、２以上の使用者の音声信号を入力する音声入力部（収音部１１、音響信号取得部１２）と、音声入力部に入力された音声信号を認識する音声認識部１３と、音声認識部によって認識された認識結果が表示される表示部（画像表示部１５）と、使用者毎に対応する表示領域を表示部（画像表示部１５）の画像表示領域（３２１Ａ、３２２Ａ、３３１Ａ、３３２Ａ、３２１Ｂ、３２２Ｂ、３３１Ｂ、３３２Ｂ、３４１Ｂ、３４２Ｂ、３２１Ｃ、３２２Ｃ、３３１Ｃ、３３２Ｃ、３４１Ｃ、３４２Ｃ、３５１Ｃ、３５２Ｃ）に設定する画像処理部１４と、を備える。

この構成により、本実施形態の会話支援装置１では、発話者が複数であっても、それぞれの音声を認識して聴覚を支援することができる。また、音響信号取得部１２が取得した音響信号に対して音響定位処理や音響分離処理を行わないため、装置の演算量を削減することができ、装置の機能部を削減することができる。

また、本実施形態に係る会話支援装置１では、使用者の音源方向を推定する音源推定部（音響信号取得部１２）を備え、画像処理部１４は、音源推定部によって推定された音源方向に基づく表示角度で、音声認識部によって認識された認識結果を画像表示部１５の使用者毎に対応する前記表示領域に表示させる。

この構成により、本実施形態の会話支援装置１では、図１３〜図１５のように話者の向きに応じた角度で文字データを表示することができる。この結果、本実施形態の会話支援装置１では、使用者が認識された結果が見やすくなるため、使用者の利便性を向上することができる。

また、本実施形態に係る会話支援装置１では、画像処理部１４は、音源推定部（音響信号取得部１２）によって推定された音源方向に基づく画像を、画像表示部１５の使用者毎に対応する表示領域に表示させる。

この構成により、本実施形態の会話支援装置１では、図１３〜図１５のように話者の向きを示す画像５２３、５３３、６２３，６３３、６４３を画像表示部１５上に表示させることができるので、使用者は、自分の表示領域を判別しやすくなる。

なお、本実施形態では、例えば話者が４人の場合、メニューから選択された人数に応じた表示領域を図８のように表示させる例を説明したが、これに限られない。会話支援装置１は、例えば、会話開始前に４人の話者（第１話者Ｓｐ１〜第４話者Ｓｐ４）の音声を登録する。そして、４人の話者が各々所定の位置にいる場合、会話支援装置１の音声認識部１３は、４人の話者によって順次発話が行われたとき、発話された音声を用いて発話者の位置を推定する。そして、画像処理部１４は、音声認識部１３によって推定された各発話者の位置に基づいて、各画像表示位置を決定、または再配置するようにしてもよい。

例えば、４人の話者（第１話者Ｓｐ１〜第４話者Ｓｐ４）が図４のような位置にいるとする。ここで、第１話者Ｓｐ１〜第４話者Ｓｐ４それぞれは、マイクロホン１０１−１〜１０１−４を使用しているとする。
音声認識部１３は、順次発話された各発話者の音声認識を行い、第１話者Ｓｐ１の表示領域を図８において第４提示画像３５１Ｃの右上に配置し、第２話者Ｓｐ２の表示領域を図８において第３提示画像３４１Ｃの右下に配置し、第３話者Ｓｐ３の表示領域を図８において第２提示画像３３１Ｃの左下に配置し、第４話者Ｓｐ４の表示領域を図８において第１提示画像３２１Ｃの左上に配置する。このように、複数の話者によって同時に発話が行われず、また会話支援装置１を使用する環境に雑音が少ない場合は、本実施形態の会話支援装置１のように、音源定位処理や音源分離処理を行わなくても、上述した処理を行うことができる。

以上のように、本実施形態に係る会話支援装置１では、使用者の位置を推定する位置推定部（音声認識部１３）を備え、画像処理部１４は、位置推定部によって推定された使用者の位置に応じた位置に、使用者毎に対応する表示領域を表示部の画像表示領域に設定または再配置する。
この構成によって、本実施形態の会話支援装置１では、各話者の一番近い位置に表示位置が配置されるため、他の話者の発話内容が認識された文字データ（認識結果）が話者にとって見やすくなる。

［第２実施形態］
図１６は、本実施形態に係る会話支援装置１Ａの構成を表すブロック図である。図１６に示すように、会話支援装置１Ａは、収音部１１、音響信号取得部１２、音声認識部１３Ａ、画像処理部１４、画像表示部１５、入力部１６、音源定位部２１（音源推定部）、音源分離部２２、言語情報検出部２３、及び翻訳部２４を備える。また、画像処理部１４は、画像パターン生成部１４１、表示画像生成部１４２、及び画像合成部１４３を備える。なお、図１で説明した会話支援装置１と同じ機能を有する機能部には同じ符号を用いて、説明を省略する。

音源定位部２１は、音響信号取得部１２から入力された入力信号に基づいて、音源の方位角を推定し、推定した方位角を示す方位角情報とＮチャネルの音響信号を音源分離部２２に出力する。音源定位部２１が推定する方位角は、例えば、収音部１１が備えるＮ個のマイクロホンの位置の重心点から、当該Ｎ個のマイクロホンのうち予め定めた１個のマイクロホンへの方向を基準とした、水平面内の方向である。例えば、音源定位部２１は、ＧＳＶＤ−ＭＵＳＩＣ（ＧｅｎｅｒａｌｉｚｅｄＳｉｎｇｕｌａｒＶａｌｕｅＤｅｃｏｍｐｏｓｉｔｉｏｎ−ＭｕｌｔｉｐｌｅＳｉｇｎａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ；一般化特異値展開を用いたＭＵＳＩＣ）法を用いて方位角を推定する。
なお、方位角の推定には、ＷＤＳ−ＢＦ（ＷｅｉｇｈｔｅｄＤｅｌａｙａｎｄＳｕｍＢｅａｍＦｏｒｍｉｎｇ；重み付き遅延和ビームフォーミング）法、ＭＵＳＩＣ法等の他の音源方向推定方式を用いてもよい。

音源分離部２２は、音源定位部２１が出力したＮチャネルの音響信号を取得し、取得したＮチャネルの音響信号を、例えばＧＨＤＳＳ（ＧｅｏｍｅｔｒｉｃＨｉｇｈ−ｏｒｄｅｒＤｅｃｏｒｒｅｌａｔｉｏｎ−ｂａｓｅｄＳｏｕｒｃｅＳｅｐａｒａｔｉｏｎ）法を用いて話者毎の音響信号に分離する。ＧＨＤＳＳ方については、後述する。または、音源分離部２２は、例えば独立成分分析（ＩｎｄｅｐｅｎｄｅｎｔＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ；ＩＣＡ）法を用いて、音源分離処理を行ってもよい。音源分離部２２は、分離した話者毎の音響信号と音源定位部２１から入力された方位角情報とを、言語情報検出部２３に出力する。
なお、音源分離部２２は、例えば自部に記憶されている室内の伝達関数を用いて、雑音と話者の音響信号とを分離した後、話者毎の音響信号を分離するようにしてもよい。音源分離部２２は、例えばＮチャネルの音響信号毎に音響特徴量を算出し、算出した音響特徴量及び音源定位部２１から入力された方位角情報に基づいて、話者毎の音響信号に分離するようにしてもよい。

言語情報検出部２３は、音源分離部２２から入力された話者毎の音響信号毎に、周知の手法によって話者毎の言語を検出する。言語情報検出部２３は、検出した話者毎の言語を示す情報、音源分離部２２から入力された話者毎の音響信号及び方位角情報を音声認識部１３Ａに出力する。言語情報検出部２３は、例えば言語データベースを参照して、参照した結果に基づいて話者毎の言語を検出する。言語データベースは、会話支援装置１Ａが備えていてもよく、有線または無線のネットワークを介して接続されていてもよい。

音声認識部１３Ａは、言語情報検出部２３から入力された話者毎の言語を示す情報、話者毎の音響信号及び方位角情報に基づいて、音響信号取得部１２から入力された音響信号に対して音声認識処理を行って発話内容（例えば、単語、文を示すテキスト）を認識する。音声認識部１３Ａは、発話内容、話者を示す情報、話者の向きを示す情報と認識データ、及び、話者毎の言語を示す情報を翻訳部２４に出力する。

翻訳部２４は、音声認識部１３Ａから入力された発話内容、話者を示す情報、話者毎の言語を示す情報に基づいて、必要に応じて発話内容を翻訳し、翻訳した発話内容を示す情報を音声認識部１３Ａから入力された情報に加えて、または置き換えて、画像処理部１４に出力する。具体的には、話者が第１話者Ｓｐ１と第２話者Ｓｐの２人であり、第１話者Ｓｐ１の使用言語が日本語、第２話者Ｓｐ２の使用言語が英語の場合を、図１４を用いて説明する。この場合、第２文字提示画像５３２に表示される画像５３４Ａ〜５３４Ｄが、第１話者Ｓｐ１が発話した日本語から第２話者Ｓｐ２の使用言語である英語に翻訳して表示されるように、翻訳部２４は発話内容を翻訳する。また、第１文字提示画像５２２に表示される画像５２４Ａ〜５２４Ｃが、第２話者Ｓｐ２が発話した英語から第１話者Ｓｐ１の使用言語である日本語に翻訳して表示されるように、翻訳部２４は発話内容を翻訳する。

＜ＧＨＤＳＳ法＞
ここで、音源分離部２２で用いられるＧＨＤＳＳ法の概略について説明する。ＧＨＤＳＳ法は、ＧＣ（幾何拘束に基づく音源分離）法と、ＨＤＳＳ（Ｈｉｇｈ−ｏｒｄｅｒＤｉｃｏｒｒｅｌａｔｉｏｎ−ｂａｓｅｄＳｏｕｒｃｅＳｅｐａｒａｔｉｏｎ；高次元無相関化に基づく音源分離）法を統合した手法である。ＧＨＤＳＳ法は、１種のブラインド分離処理（ｂｌｉｎｄｄｅｃｏｎｖｏｌｕｔｉｏｎ）である。ＧＨＤＳＳ法は、分離行列（ｓｅｐａｒａｔｉｏｎｍａｔｒｉｘ）［Ｖ（ω）］を逐次に算出し、入力音声ベクトル［ｘ（ω）］に算出した分離行列［Ｖ（ω）］を乗算して音源ベクトル［ｕ（ω）］を推定することで、音源毎の音響信号に分離する手法である。分離行列［Ｖ（ω）］は、各音源から収音部１１が備える各マイクロホン１０１までに伝達関数を要素として有する伝達関数［Ｈ（ω）］の擬似逆行列（ｐｓｅｕｄｏ−ｉｎｖｅｒｓｅｍａｔｒｉｘ）である。入力音声ベクトル［ｘ（ω）］は、各チャネルの音響信号の周波数領域係数を要素として有するベクトルである。音源ベクトル［ｕ（ω）］は、各音源が発する音響信号の周波数領域係数を要素として有するベクトルである。

ＧＨＤＳＳ法は、分離行列［Ｖ（ω）］を算出するとき、分離尖鋭度（ｓｅｐａｒａｔｉｏｎｓｈａｒｐｎｅｓｓ）ＪＳＳ、幾何制約度（ｇｅｏｍｅｔｒｉｘｃｏｎｓｔｒａｉｎｔｓ）ＪＧＣといった２つのコスト関数を、それぞれ最小化するように音源ベクトル［ｕ（ω）］を推定する。
ここで、分離尖鋭度ＪＳＳは、１つの音源が他の音源として誤って分離される度合いを表す指標値であり、例えば、次式（１）で表される。

式（２）において、｜｜…｜｜^２は、フロベニウスノルム（Ｆｒｏｂｅｎｉｕｓｎｏｒｍ）を示す。＊は、ベクトル又は行列の共役転置（ｃｏｎｊｕｇａｔｅｔｒａｎｓｐｏｓｅ）を示す。また、ｄｉａｇ（…）は、…の対角要素からなる対角行列（ｄｉａｇｏｎａｌｍａｔｒｉｘ）を示す。
幾何制約度ＪＧＣは、音源ベクトル［ｕ（ω）］の誤差の度合いを表す指標値であり、例えば、次式（２）で表される。

なお、式（２）において、［Ｉ］は、単位行列を示す。

なお、収音部１１が有するマイクロホン１０１−１〜１０１−Ｎによってマイクロホンアレイを構成した場合、話者は、自分が発話する際に、自分が発話することを示す情報を会話支援装置１Ａに入力または選択しなくてもよい。この場合、会話支援装置１Ａは、マイクロホンアレイを用いて、話者毎の発話に分離することができる。

次に、図１６に示した各部を使用する組み合わせの例を説明する。図１７は、本実施形態に係るマイクアレイに対応する各部の組み合わせの例を説明する図である。
図１７において、マイクロホンアレイ１とは、図２に示したように会話支援装置１Ａにマイクロホン１０１のアレイが組み込まれているマイクロホンアレイである。マイクロホンアレイ２とは、図３に示したように、マイクロホン１０１が有線または無線で会話支援装置１Ａに接続されるマイクロホンアレイである。マイクロホンアレイ３とは、図４に示したように、各話者が例えば口元に接話型のマイクロホン１０１を使用し、マイクロホン１０１が有線または無線で会話支援装置１Ａに接続されるマイクロホンアレイである。

図１７の１行目に示すように、マイクロホンアレイ（単にアレイともいう）１〜３の場合、話者の位置等に応じて、音響信号の定位や分離状態が良い場合、会話支援装置１Ａは、音源定位部２１及び音源分離部２２を備えていなくてもよい。また、翻訳を行う必要がない場合や、話者が使用する言語が同一の場合等、会話支援装置１Ａは、言語情報検出部２３及び翻訳部２４を備えていなくてもよい。すなわち、言語情報検出部２３及び翻訳部２４は、オプションであってもよい。

図１７の２行目に示すように、マイクロホンアレイ１及び２の場合、話者の位置等に応じて、音響信号の分離状態が良い場合、会話支援装置１Ａは、音源分離部２２を備えていなくてもよい。また、翻訳を行う必要がない場合や、話者が使用する言語が同一の場合等、会話支援装置１Ａは、言語情報検出部２３及び翻訳部２４を備えていなくてもよい。
図１７の３行目に示すように、マイクロホンアレイ１及び２の場合、話者の位置等に応じて、会話支援装置１Ａは、音源定位部２１及び音源分離部２２を備えていてもよい。また、翻訳を行う必要がない場合や、話者が使用する言語が同一の場合等、会話支援装置１Ａは、言語情報検出部２３及び翻訳部２４を備えていなくてもよい。

図１８は、本実施形態に係る音源定位の一例を説明する図である。
図１８に示すように４人の話者Ｓｐ１〜Ｓｐ４が、会話支援装置１Ａを囲んでいる。そして、話者Ｓｐ１は、自分に最も近い第４提示画像３５１Ｃを予め選択し、話者Ｓｐ２は、自分に最も近い第１提示画像３２１Ｃを予め選択する。話者Ｓｐ３は、自分に最も近い第２提示画像３３１Ｃを予め選択し、話者Ｓｐ４は、自分に最も近い第３提示画像３４１Ｃを予め選択する。

話者Ｓｐ１が発話を行っていない場合、会話支援装置１Ａは、話者Ｓｐ１がいる方位を推定することができない。このため、会話支援装置１Ａは、まず、会話支援装置１Ａの画像表示部１５の面に対して３６０度方向の取得された音響信号に対して音源定位処理を行う。そして、話者Ｓｐ１が発話した場合、この発話に基づいて音源定位を行う。この処理によって、話者Ｓｐ１の発話方向を推定できるので、会話支援装置１Ａは、以後、話者Ｓｐ１の音響信号の探索範囲を、話者Ｓｐ１に最も近い第４提示画像３５１Ｃ（表示領域）に基づいて、例えばθ_１の角度の範囲に変更するようにしてもよい。これにより、音源定位処理の演算量を削減することができ、さらに音源定位の精度を向上させることができる。同様に、会話支援装置１Ａは、話者Ｓｐ２が発話した後、話者Ｓｐ２の音響信号の探索範囲を、話者Ｓｐ２に最も近い第１提示画像３２１Ｃに基づいて、例えばθ_２の角度の範囲に変更するようにしてもよい。会話支援装置１Ａは、話者Ｓｐ３が発話した後、話者Ｓｐ３の音響信号の探索範囲を、話者Ｓｐ３に最も近い第２提示画像３３１Ｃに基づいて、例えばθ_３の角度の範囲に変更するようにしてもよく、話者Ｓｐ４が発話した後、話者Ｓｐ４の音響信号の探索範囲を、話者Ｓｐ４に最も近い第３提示画像３４１Ｃに基づいて、例えばθ_４の角度の範囲に変更するようにしてもよい。なお、θ_１〜θ_４それぞれの角度は、例えば９０度である。

なお、上述した例では、図１８を用いて話者が４人の例を説明したが、これに限られない。話者が２人の場合、話者毎の音響信号の探索範囲を、図６のように話者毎の表示領域（３２１Ａ、３３１Ａ）に基づいて、例えば３６０度から１８０度の角度の範囲に変更するようにしてもよい。あるいは、話者が３人の場合、話者毎の音響信号の探索範囲を、例えば３６０度から１２０度の角度の範囲に変更するようにしてもよい。すなわち、会話支援装置１Ａは、各話者の探索範囲を、各話者の表示領域に基づいて変更するようにしてもよい。これにより、会話支援装置１Ａは、探索範囲を狭くすることができるので、方位の推定精度を向上することができ、かつ会話支援装置１Ａの演算量を削減することができる。

また、例えば音声認識部１３Ａが話者同定を行うようにしてもよい。例えば、認識を開始させる前に、話者毎に音声を会話支援装置１Ａに予め登録させる。これにより、例えば話者Ｓｐ１が発話した場合、音声認識部１３Ａは、音源分離部２２によって分離された音響信号から話者Ｓｐ１の音響信号を同定するようにしてもよい。

また、各話者に提示される画像に表示される言語は、予めメニューから選択された言語に基づくものであってもよい。例えば話者Ｓｐ１が、使用言語として日本語をメニューから選択した場合、他の話者がフランス語で発話した結果を翻訳部２４が翻訳し、翻訳された結果を第１文字提示画像３２２Ｃに表示するようにしてもよい。このため、他の話者が、フランス語、英語、中国語で発話したとしても、会話支援装置１Ａは、図１８において、第４文字提示画像３５２Ｃに他の話者の発話を全て日本語で表示するようにしてもよい。

会話支援装置１Ａが行う処理手順を説明する。図１９は、本実施形態に係る会話支援装置１Ａが行う処理手順のフローチャートである。
（ステップＳ１０１〜Ｓ１０３）ステップＳ１０１〜Ｓ１０３は、ステップＳ１〜Ｓ３（図９参照）と同様に行う。なお、ステップＳ１０１において、各話者は、他の話者の発話を翻訳するか否かをメニュー画像３０１において、選択するようにしてもよい。

（ステップＳ１０４）音源定位部２１は、音響信号取得部１２から入力された入力信号に基づいて、音源の方位角を推定し、推定した方位角を示す方位角情報とＮチャネルの音響信号を音源分離部２２に出力する。音源定位部２１は、ステップＳ１０４終了後、処理をステップＳ１０５に進める。
（ステップＳ１０５）音源分離部２２は、音源定位部２１が出力したＮチャネルの音響信号を取得し、取得したＮチャネルの音響信号を、例えばＧＨＤＳＳ法を用いて話者毎の音響信号に分離する。次に、音源分離部２２は、分離した話者毎の音響信号と音源定位部２１から入力された方位角情報とを、言語情報検出部２３に出力する。音源分離部２２は、ステップＳ１０５終了後、処理をステップＳ１０６に進める。

（ステップＳ１０６）言語情報検出部２３は、音源分離部２２から入力された話者毎の音響信号毎に、周知の手法によって話者毎の言語を検出する。言語情報検出部２３は、検出した話者毎の言語を示す情報、音源分離部２２から入力された話者毎の音響信号及び方位角情報を音声認識部１３Ａに出力する。言語情報検出部２３は、ステップＳ１０６終了後、処理をステップＳ１０７に進める。

（ステップＳ１０７）音声認識部１３Ａは、言語情報検出部２３から入力された話者毎の言語を示す情報、話者毎の音響信号及び方位角情報に基づいて、音響信号取得部１２から入力された音響信号に対して音声認識処理を行って発話内容を認識する。次に、音声認識部１３Ａは、発話内容、話者を示す情報、話者の向きを示す情報と認識データ、及び、話者毎の言語を示す情報を翻訳部２４に出力する。音声認識部１３Ａは、ステップＳ１０７終了後、処理をステップＳ１０８に進める。

（ステップＳ１０８）翻訳部２４は、音声認識部１３Ａから入力された発話内容、話者を示す情報、話者毎の言語を示す情報に基づいて発話内容を翻訳し、翻訳した発話内容を示す情報を音声認識部１３Ａから入力された情報に加えて、または置き換えて、画像処理部１４に出力する。翻訳部２４は、ステップＳ１０８終了後、処理をステップＳ１０９に進める。
（ステップＳ１０９〜Ｓ１１０）ステップＳ１０９〜Ｓ１１０は、ステップＳ５〜Ｓ６（図９参照）と同様に行う。
以上で、会話支援装置１Ａが行う処理を終了する。

なお、図１９に示した例では、会話支援装置１Ａが図１６の全ての機能部を備え、全ての機能部を使用する例を説明したが、これに限られない。図１７に示したようにマイクロホンアレイに応じて、会話支援装置１Ａは、使用する機能部と処理とを選択するようにしてもよい。

以上のように、本実施形態に係る会話支援装置１Ａでは、使用者の音源方向を推定する音源推定部（音源定位部２１）を備え、画像処理部１４は、音源推定部によって推定された前記音源方向に基づく表示角度で、音声認識部１３Ａによって認識された認識結果を表示部（画像表示部１５）の前記使用者毎に対応する表示領域に表示させる。
また、本実施形態に係る会話支援装置１Ａでは、音声入力部（収音部１１、音響信号取得部１２）に入力された音声信号を使用者毎に分離する音源分離部２２を備え、画像処理部１４は、音源分離部によって分離された使用者毎の音声信号のうち、表示領域に対応する使用者以外の認識結果を前記表示部の使用者毎に対応する表示領域に表示させる。

この構成によって、本実施形態の会話支援装置１Ａによれば、音源の定位や分離状況が悪い場合であっても、音源定位部２１が音源定位処理を行い、音源分離部２２が音源分離処理を行うので、話者毎の方位の推定や話者毎の発話の分離を精度よく行うことができる。この結果、本実施形態の会話支援装置１Ａによれば、他の話者は、相手の発話を精度良く会話支援装置１Ａ上で視覚的に確認することができるので、話者の聴覚を支援することができる。

また、本実施形態に係る会話支援装置１Ａでは、音声認識部１３Ａによって認識された認識結果を翻訳する翻訳部２４を備え、画像処理部１４は、翻訳部によって翻訳された翻訳結果を表示部（画像表示部１５）の使用者毎に対応する表示領域に表示させる。
また、本実施形態に係る会話支援装置１Ａでは、使用者が発話する言語を検出する言語情報検出部２３を備え、翻訳部２４は、表示領域に対応する使用者以外の認識結果を、言語情報検出部によって検出された言語に翻訳する。

この構成によって、本実施形態の会話支援装置１Ａによれば、言語情報検出部２３及び翻訳部２４を備えるようにしたので、話者毎に使用言語が異なる場合であっても、必要に応じて他の話者の発話を会話支援装置１Ａ上で視覚的に表示することができる。この結果、実施形態の会話支援装置１Ａによれば、他の話者は、相手の発話を会話支援装置１Ａ上で視覚的に確認することができるので、話者の聴覚を支援することができる。

なお、本実施形態では、複数の話者が会話支援装置１Ａを使用する例を説明したが、これに限られない。会話支援装置１Ａを１人の話者が使用するようにしてもよい。例えば、この話者が初期状態において使用言語を日本語として登録し、英語を発話したとき、会話支援装置１Ａは、この話者が発話した英語を登録された言語である日本語に翻訳して話者に対応した画像の提示領域に表示させるようにしてもよい。これにより、本実施形態の会話支援装置１Ａでは、外国語の学習支援を行う効果が得られる。

また、本実施形態において、話者のうち１人が退席するような場合、退席する話者は、退席時に、退席を示す情報を会話支援装置１Ａに入力または選択するようにしてもよい。会話支援装置１Ａは、例えば話者が４人から３人に減った場合、図８に示したレイアウトから図７に示したレイアウトに変更するようにしてもよい。
一方、話者が途中から参加する場合、途中参加する話者は参加を示す情報を会話支援装置１Ａに入力または選択するようにしてもよい。会話支援装置１Ａは、例えば話者が３人から４人に増えた場合、図７に示したレイアウトから図８に示したレイアウトに変更するようにしてもよい。

図２０は、本実施形態に係る話者の人数が変化した場合の処理を説明する図である。図２０に示す例では、３人の話者Ｓｐ１〜Ｓｐ３が、会話支援装置１Ａを使用している例である。なお、図２０では、話者Ｓｐ１〜Ｓｐ３の発話方向が推定済みである。
例えば、３人の話者Ｓｐ１〜Ｓｐ３がいる位置が殆ど変化しない場合、音源定位部２１によって定位された音響信号に、話者Ｓｐ１〜Ｓｐ３とは異なる発話方向の音響信号があった場合、会話支援装置１Ａは、新たな話者Ｓｐ４が会話に参加したと判別するようにしてもよい。図２０に示した例では、話者Ｓｐ４が、紙面に向かって右斜め上方向から発話している。この場合、会話支援装置１Ａは、この新たな話者Ｓｐ４の発話方向を推定し、推定した結果に基づいて、図８に示したような４人の話者に対応した表示画面に切り替えるようにしてもよい。この場合、話者Ｓｐ４の位置が、話者Ｓｐ１とＳｐ３との間であるため、会話支援装置１Ａは、話者Ｓｐ４に対応する情報の表示領域を、第１提示画像６２１と第３提示画像６４１との間に挿入するように、各表示領域を再レイアウトするようにしてもよい。

［第３実施形態］
第１実施形態及び第２実施形態では、会話支援装置１または会話支援装置１Ａが１台の例を説明したが、本実施形態では、会話支援装置１または会話支援装置１Ａが複数台の例を説明する。複数台の会話支援装置１または会話支援装置１Ａは、例えば話者毎に使用されるようにしてもよい。

図２１は、本実施形態に係る会話支援装置１Ｂの構成を表すブロック図である。図２１に示すように、会話支援装置１Ｂは、収音部１１、音響信号取得部１２Ｂ、音声認識部１３Ａ、画像処理部１４、画像表示部１５、入力部１６、音源定位部２１、音源分離部２２、言語情報検出部２３、翻訳部２４、及び通信部３１を備える。また、画像処理部１４は、画像パターン生成部１４１、表示画像生成部１４２、及び画像合成部１４３を備える。なお、図１６で説明した会話支援装置１Ａと同じ機能を有する機能部には同じ符号を用いて、説明を省略する。なお、図２１では、会話支援装置１Ｂが図１６に示した会話支援装置１Ａを元にした構成の例を説明したが、会話支援装置１Ｂは、図１に示した会話支援装置１を元にした構成であってもよい。すなわち、用途に応じて、会話支援装置１Ｂは、音源定位部２１、音源分離部２２、言語情報検出部２３、及び翻訳部２４のうち、いくつかの機能部を備えていなくてもよい。

音響信号取得部１２Ｂは、収音部１１のＭ個（Ｍは、１以上の整数）のマイクロホン１０１によって収録されたＭ個の音響信号を取得する。例えば、Ｍが２の場合、２個のマイクロホン１０１によって収録された２個の音響信号を取得する。音響信号取得部１２Ｂは、取得したＭ個の音響信号を音源定位部２１及び通信部３１に出力する。また、音響信号取得部１２Ｂは、通信部３１から入力されたＬ個（Ｌは、１以上の整数）の音響信号を取得する。音響信号取得部１２Ｂは、取得したＬ個の音響信号を音源定位部２１に出力する。なお、音響信号取得部１２Ｂは、通信部３１から取得した音響信号に端末を識別する識別情報が含まれている場合、この識別情報も音源定位部２１に出力するようにしてもよい。

通信部３１は、音響信号取得部１２Ｂから入力されたＭ個の音響信号を、他の会話支援装置１Ｂに送信する。また、通信部３１は、他の会話支援装置１Ｂから受信したＬ個の音響信号を音響信号取得部１２Ｂに出力する。例えば、通信部３１は、３台の会話支援装置１Ｂそれぞれから、２個ずつの音響信号を受信した場合、受信した６個（＝２個×３台）の音響信号を音響信号取得部１２Ｂに出力する。また、通信部３１は、端末を識別する識別情報を音響信号に含めて音響信号取得部１２Ｂに出力するようにしてもよい。

図２２は、本実施形態に係る複数の会話支援装置１Ｂの配置の一例を説明する図である。図２２に示す例では、４台の会話支援装置１Ｂ−１〜１Ｂ−４が、格子状に配置されている。会話支援装置１Ｂ−１〜１Ｂ−４は、マイクロホン１０１−１〜１０１−８のうち、それぞれ２つのマイクロホン１０１を備えている。例えば会話支援装置１Ｂ−１は、マイクロホン１０１−１及びマイクロホン１０１−２を備えている。
会話支援装置１Ｂ−１〜１Ｂ−４の構成は、図２１に示した構成である。会話支援装置１Ｂ−１〜１Ｂ−４それぞれは、各装置が備える通信部３１を介して互いに通信を行う。

また、図２２に示すように、会話支援装置１Ｂ−１〜１Ｂ−４のそれぞれの画像表示部１５には、提供される情報の表示領域は１つであり、文字提示画像７０１〜７０４も１つずつである。会話支援装置１Ｂ−１の文字提示画像７０１には、会話支援装置１Ｂ−２〜１Ｂ−４の話者が発話した発話内容が認識されたテキストが表示される。会話支援装置１Ｂ−２の文字提示画像７０２には、会話支援装置１Ｂ−１、１Ｂ−３、１Ｂ−４の話者が発話した発話内容が認識されたテキストが表示される。会話支援装置１Ｂ−３の文字提示画像７０３には、会話支援装置１Ｂ−１、１Ｂ−２、１Ｂ−４の話者が発話した発話内容が認識されたテキストが表示される。会話支援装置１Ｂ−４の文字提示画像７０４には、会話支援装置１Ｂ−１〜１Ｂ−３の話者が発話した発話内容が認識されたテキストが表示される。

すなわち、図２２に示したように４台の会話支援装置１Ｂ−１〜１Ｂ−４を使用する場合、会話支援装置１Ｂ−１が収音した音響信号を通信部３１と無線通信を介して、他の会話支援装置１Ｂ−２〜１Ｂ−３に送信する。一方、他の会話支援装置１Ｂ−２〜１Ｂ−３がそれぞれ収音した音響信号が、各装置の通信部３１と無線通信を介して、会話支援装置１Ｂ−１に送信される。この結果、会話支援装置１Ｂ−１は、会話支援装置１Ｂ−２〜１Ｂ−３から受信した各音響信号に対して音声認識を行って、音声認識した結果の文字を画像表示部１５上に表示する。なお、各会話支援装置１Ｂ−１〜１Ｂ−４は、他の会話支援装置１Ｂから受信した音響信号を直接音声認識処理してもよい。

なお、図２２では、４台の会話支援装置１Ｂ−１〜１Ｂ−４を隣接させて設置させる例を説明したが、これに限られない。例えば、各会話支援装置１Ｂ−１〜１Ｂ−４は、それぞれ各話者の近傍に配置させるようにしてもよい。

図２３は、本実施形態に係る各会話支援装置１Ｂの画像表示部１５に表示される画像の一例を説明する図である。なお、図２３は、図２２に示したように、４台の会話支援装置１Ｂ−２〜１Ｂ−４のうち、会話支援装置１Ｂ−３の画像表示部１５上に表示される画像の一例である。
図２３において、符号７２０で示す領域の画像は、話者に対応する画像である。符号７２０で示す領域の画像には、会話支援装置１Ｂ−１に対応する話者を示す画像７２１、会話支援装置１Ｂ−２に対応する話者を示す画像７２２、会話支援装置１Ｂ−３に対応する話者を示す画像７２３、会話支援装置１Ｂ−４に対応する話者を示す画像７２４が含まれる。画像７２１は例えば赤色、画像７２２は例えば緑色、画像７２３は例えば青色、画像７２４は例えば黄色である。なお、各会話支援装置１Ｂ−１〜１Ｂ−４に対応する画像７２１〜７２４は色の画像に限られない。例えば、各会話支援装置１Ｂ−１〜１Ｂ−４に対応するアバター、アイコン、名前等であってもよい。
また、文字提示画像７０３に表示される画像は、会話支援装置１Ｂ−１に対応する話者の発話の認識データに基づく画像７３１、会話支援装置１Ｂ−２に対応する話者の発話の認識データに基づく画像７３２、及び会話支援装置１Ｂ−４に対応する話者の発話の認識データに基づく画像７３４である。これらの画像７３１〜７３４は、画像７２１〜７２４に対応する色で表示されてもよく、アバター、アイコン、名前等が付加されて表示されるようにしてもよい。アバター、アイコン、名前の場合は、例えば各画像７３１〜７３４の左に付加されて表示されるようにしてもよい。なお、これらの表示処理は、画像処理部１４が行う。

また、１台の会話支援装置１Ｃのみが全ての機能部を備えるようにしてもよい。そして、他の３台の会話支援装置は、収音部１１、音響信号取得部１２Ｂ、通信部３１、画像処理部１４、及び画像表示部１５を備えるようにしてもよい。この場合、全ての機能を備える会話支援装置１Ｃが、他の会話支援装置１Ｃからの音響信号を通信によって取得し、音源定位処理、音源分離処理、音声認識処理、画像生成処理等を行うようにしてもよい。そして生成した画像データを各会話支援装置１Ｃに送信するようにしてもよい。

図２４は、本実施形態に係る会話支援装置１Ｃの構成を表すブロック図である。図２４に示すように、会話支援装置１Ｃは、収音部１１、音響信号取得部１２Ｃ、音声認識部１３Ａ、画像処理部１４Ｃ、画像表示部１５、入力部１６、音源定位部２１、音源分離部２２、言語情報検出部２３、翻訳部２４、及び通信部３１Ｃを備える。なお、図２１で説明した会話支援装置１Ｂと同じ機能を有する機能部には同じ符号を用いて、説明を省略する。なお、図２４では、会話支援装置１Ｃが図２１に示した会話支援装置１Ｂを元にした構成を備える例を説明したが、会話支援装置１Ｃは、図１に示した会話支援装置１を元にした構成であってもよい。すなわち、用途に応じて、会話支援装置１Ｃは、音源定位部２１、音源分離部２２、言語情報検出部２３、及び翻訳部２４のうち、いくつかの機能部を備えていなくてもよい。

音響信号取得部１２Ｃは、収音部１１のＭ個（Ｍは、１以上の整数）のマイクロホン１０１によって収録されたＭ個の音響信号を取得する。音響信号取得部１２Ｃは、取得したＭ個の音響信号を音源定位部２１に出力する。また、音響信号取得部１２Ｃは、通信部３１Ｃから入力されたＬ個（Ｌは、１以上の整数）の音響信号を取得し、取得したＬ個の音響信号を音源定位部２１に出力する。なお、音響信号取得部１２Ｃは、通信部３１Ｃから取得した音響信号に端末を識別する識別情報が含まれている場合、この識別情報も音源定位部２１に出力するようにしてもよい。

画像処理部１４Ｃは、翻訳部２４が出力した話者を示す情報と話者の向きを示す情報と認識データに基づいて、話者に対応した端末毎の文字データ及び話者の向きを示す画像を生成する。画像処理部１４Ｃは、生成した話者に対応した端末毎の文字データ及び話者の向きを示す画像を通信部３１Ｃに出力する。また、画像処理部１４Ｃは、自装置に対応する話者に対応した端末毎の文字データ及び話者の向きを示す画像を画像表示部１５上に表示させる。

通信部３１Ｃは、他の会話支援装置１Ｃから受信したＬ個の音響信号を音響信号取得部１２Ｃに出力する。通信部３１Ｃは、画像処理部１４Ｃから入力された話者に対応した端末毎の文字データ及び話者の向きを示す画像を、無線通信を介して、対応する他の会話支援装置１Ｃに送信する。

例えば、図２２において、会話支援装置１Ｂ−１を全ての機能部を備える会話支援装置１Ｃ−１とした場合、会話支援装置１Ｂ−２〜１Ｂ−４それぞれを一部の機能部を備える会話支援装置１Ｃ−２〜１Ｃ−４とする。また、第１話者Ｓｐ１が会話支援装置１Ｃ−１を使用し、第２話者Ｓｐ２が会話支援装置１Ｃ−２を使用し、第３話者Ｓｐ３が会話支援装置１Ｃ−３を使用し、第４話者Ｓｐ４が会話支援装置１Ｃ−４を使用するとする。
この場合、会話支援装置１Ｃ−２〜１Ｃ−３は、収音したＭ個ずつの音響信号を、それぞれ通信部３１Ｃと無線通信を介して、会話支援装置１Ｃ−１に送信する。そして、会話支援装置１Ｃ−１は、自装置が収音した音響信号、受信した音響信号全てに対して音声認識を行う。

そして、画像処理部１４Ｃは、自装置の画像表示部１５上に第１話者Ｓｐ１の向きを示す画像と第２話者Ｓｐ２〜第４話者Ｓｐ４の発話内容を認識した文字データとを表示させる。
画像処理部１４Ｃは、第２話者Ｓｐ２の向きを示す画像と第１話者Ｓｐ１、第３話者Ｓｐ３、第４話者Ｓｐ４の発話内容を認識した文字データを生成する。そして、通信部３１Ｃは、生成された第２話者Ｓｐ２の向きを示す画像と第１話者Ｓｐ１、第３話者Ｓｐ３、第４話者Ｓｐ４の発話内容を認識した文字データを、無線通信を介して会話支援装置１Ｃ−２に送信する。

同様に、画像処理部１４Ｃによって生成された第３話者Ｓｐ３の向きを示す画像と第１話者Ｓｐ１、第２話者Ｓｐ２、第４話者Ｓｐ４の発話内容を認識した文字データを、通信部３１Ｃは、無線通信を介して会話支援装置１Ｃ−３に送信する。
さらに、画像処理部１４Ｃによって生成された第４話者Ｓｐ４の向きを示す画像と第１話者Ｓｐ１〜第３話者Ｓｐ３の発話内容を認識した文字データを、通信部３１Ｃは、無線通信を介して会話支援装置１Ｃ−４に送信する。

以上のように、本実施形態に係る会話支援装置１Ｂ、１Ｃでは、他の会話支援装置との通信を行う通信部３１、３１Ｃを備え、音声入力部（収音部１１、音響信号取得部１２Ｂ、１２Ｃ）は、通信部が受信した他の会話支援装置から受信された音声信号を入力し、音声認識部１３Ａは、音声入力部から入力された音声信号のうち、表示領域に対応する前記使用者以外の音声信号を認識する。

この構成によって、本実施形態に係る会話支援装置１Ｂ、１Ｃでは、複数台の会話支援装置１Ｂを用いて音声認識を行うことができる。

［第４実施形態］
第１〜第３実施形態では、各話者に対応する文字提示画像に他の話者の発話内容を認識した認識データに基づく画像の例を説明したが、これに限られない。本実施形態では、他の話者に限らず、自分の発話も含めて発話内容を認識した認識データに基づく画像が表示する例について説明する。

図２５は、本実施形態に係る会話支援装置１Ｄの構成を表すブロック図である。図２５に示すように、会話支援装置１Ｄは、収音部１１、音響信号取得部１２Ｂ、音声認識部１３Ａ、画像処理部１４Ｄ、画像表示部１５、入力部１６、音源定位部２１、音源分離部２２、言語情報検出部２３、翻訳部２４、及び通信部３１Ｄを備える。なお、図２１で説明した会話支援装置１Ｂと同じ機能を有する機能部には同じ符号を用いて、説明を省略する。なお、図２５では、会話支援装置１Ｄが図２１に示した会話支援装置１Ｂを元にした構成を備える例を説明したが、会話支援装置１Ｄは、図１に示した会話支援装置１を元にした構成であってもよい。すなわち、用途に応じて、会話支援装置１Ｄは、音源定位部２１、音源分離部２２、言語情報検出部２３、及び翻訳部２４のうち、いくつかの機能部を備えていなくてもよい。

画像処理部１４Ｄは、会話支援装置１Ｄを使用している話者の発話内容が認識された文字データを画像表示部１５上に表示させる。画像処理部１４Ｄは、会話支援装置１Ｄを使用している話者の発話内容が認識された文字データを通信部３１Ｄに出力する。画像処理部１４Ｄは、画像表示部１５上に設けられているタッチパネルである入力部１６の操作に基づいて、会話支援装置１Ｄを使用している話者の発話内容が認識された文字データを修正し、修正した文字データを通信部３１Ｄに出力する。

通信部３１Ｄは、画像処理部１４Ｄから入力された会話支援装置１Ｄを使用している話者の発話内容が認識された文字データを、無線通信を介して、他の会話支援装置１Ｄに送信する。また、通信部３１Ｄは、画像処理部１４Ｄから入力された修正された文字データを、無線通信を介して、他の会話支援装置１Ｄに送信する。なお、通信部３１Ｄは、会話支援装置１Ｄを使用している話者の発話内容が認識された文字データが入力された後、所定の時間、文字データの送信を待機させ、修正された文字データが入力されたか否かを判別するようにしてもよい。そして、通信部３１Ｄは、所定の時間内に修正された文字データが入力されなかった場合、待機させていた文字データを他の会話支援装置１Ｄに送信するようにしてもよい。一方、通信部３１Ｄは、所定の時間内に修正された文字データが入力された場合、待機されていた文字データは送信せず、入力された修正された文字データのみを他の会話支援装置１Ｄに送信するようにしてもよい。

図２６は、本実施形態に係る会話支援装置１Ｄの画像表示部１５上に表示される画像の一例を説明する図である。図２６に示した例は、４台の会話支援装置１Ｄが使用され、図２２における会話支援装置１Ｂ−３に対応する位置に配置される会話支援装置１Ｄの画像表示部１５上に表示される画像の例である。以下の例では、図２２において、会話支援装置１Ｂ−１が会話支援装置１Ｄ−１であるとし、会話支援装置１Ｄ−１は、第１話者Ｓｐ１が使用するとする。以下同様に、会話支援装置１Ｂ−２が会話支援装置１Ｄ−２であり、会話支援装置１Ｄ−２は、第１話者Ｓｐ２が使用するとする。会話支援装置１Ｂ−３が会話支援装置１Ｄ−３であるとし、会話支援装置１Ｄ−３は、第３話者Ｓｐ３が使用するとする。会話支援装置１Ｂ−４が会話支援装置１Ｄ−４であるとし、会話支援装置１Ｄ−４は、第４話者Ｓｐ４が使用するとする。

図２６において、画像７５１は、第３話者Ｓｐ３が発話した発話内容が認識された文字データである。画像７５１は、第３話者Ｓｐ３が「きのうかわいさんにあいましたか？」と発話した音響信号を音声認識した結果である。しかしながら、第３話者Ｓｐ３は、「かわいさん」を「河合さん」として話しているつもりであるが、認識結果は「川井さん」と表示されている。この画像７５１が、会話支援装置１Ｄ−３の画像表示部１５に表示されず、他の会話支援装置１Ｄ−１、１Ｄ−２、１Ｄ−４の各画像表示部１５上のみに表示されても、第１話者Ｓｐ１、第２話者Ｓｐ２、第４話者Ｓｐ４は「川井さん」を知らないため、会話が成り立たないこともあり得る。

このため、本実施形態では、自分が発話した発話内容が認識された文字データも画像表示部１５上に表示される。
これにより、第３話者Ｓｐ３は、画像７５１を確認し、例えば認識が異なっている箇所の画像７５２を画像表示部１５が備えるタッチパネルの入力部１６を操作して選択する。そして、画像処理部１４Ｄは、選択された画像７５２に対応する他の変換「河合さん」、「河井さん」等を含む画像７５３を、図２６のように例えば選択された画像７５２の近傍に表示する。これにより、第３話者Ｓｐ３は、画像７５３から所望の「河合さん」を選択する。入力部１６は、選択された「河合さん」を示す情報を画像処理部１４Ｄに出力するようにしてもよい。そして、会話支援装置１Ｄ−３の通信部３１Ｄは、画像処理部１４Ｄによって修正された文字データを、他の会話支援装置１Ｄに送信し直すようにしてもよい。

なお、上述した例では、図２２のように複数の会話支援装置１Ｄに適用する例を説明したが、これに限られない。第１、第２実施形態で説明したように１台の会話支援装置１、１Ａにも適用するようにしてもよい。
例えば、図８において、会話支援装置１または１Ａは、第１文字提示画像３２２Ａに、第１話者Ｓｐ１の発話内容を認識した文字データを表示するようにしてもよい。

以上のように、本実施形態の会話支援装置１Ｄでは、表示部（画像表示部１５）に表示された画像の一部を選択する入力部１６を備え、画像処理部１４Ｄは、入力部によって選択された画像の一部が認識結果である場合、選択された認識に対応する他の認識候補を表示部に表示させ、認識候補のうち入力部によって選択された候補に認識結果を修正し、修正した認識結果を、通信部３１Ｄを介して他の会話支援装置に送信させる。
この構成によって、使用者の発話内容を、他の使用者に正しく提示することができる。

なお、第１〜第４実施形態では、話者が２〜４人の例を説明したが、これに限られず５人以上であってもよい。この場合、画像パターン生成部１４１は、人数に合わせた表示パターンを生成するようにする。または、第３実施形態で説明したように、話者毎に会話支援装置を用いることで、５人以上にも対応することができる。
また、複数の会話支援装置（１、１Ａ、１Ｂ、１Ｃ、１Ｄ）を用いる場合、第３、第４実施形態では、１台の会話支援装置（１、１Ａ、１Ｂ、１Ｃ、１Ｄ）の画像表示部１５上に、１人分の表示を行う例を示したが、これに限られない。複数の会話支援装置（１、１Ａ、１Ｂ、１Ｃ、１Ｄ）を用いる場合、各会話支援装置（１、１Ａ、１Ｂ、１Ｃ、１Ｄ）に表示する表示パターンは、例えば図６〜図８に示したように、複数の話者に対応した画面であってもよい。例えば、第３、第４実施形態によれば、各会話支援装置（１、１Ａ、１Ｂ、１Ｃ、１Ｄ）の画像表示部１５上に図６に示した表示パターンを表示することで、会話支援装置（１、１Ａ、１Ｂ、１Ｃ、１Ｄ）を２台用いて４人の話者に対応することができる。

なお、第１〜第４実施形態では、会話支援装置１、１Ａ、１Ｂ、１Ｄの例としてタブレット端末等を例に説明したが、これに限られない。例えば、テーブル上に画像表示部１５を備える装置に会話支援装置１、１Ａ、１Ｂ、１Ｄを適用するようにしてもよい。または、会話支援装置１、１Ａ、１Ｂ、１Ｄを、電子黒板等に適用するようにしてもよい。また、第３実施形態で説明したように、複数の端末で会話支援装置を構成する場合、これらの各端末は、例えば同じ室内に配置されなくてもよい。例えば、複数の会話支援装置１、１Ａ、１Ｂ、１Ｄは、異なる部屋に配置されるようにしてもよい。さらに、複数の会話支援装置１、１Ａ、１Ｂ、１Ｄは、例えば複数の車両などに搭載されていてもよい。また、複数の端末がネットワークを介して接続されている場合、複数の会話支援装置１、１Ａ、１Ｂ、１Ｄは、例えば異なる国や地域に配置されていてもよい。これにより、離れた位置にいる複数の話者の聴覚の支援を行うことができる。

なお、第１〜第４実施形態において、会話支援装置１、１Ａ、１Ｂ、１Ｄは、画像表示領域に表示される話者の発話を認識した文字を示す画像を、例えば、最新の発話に対応する画像を濃く表示し、過去の発話に対応する画像を薄く表示するようにしてもよい。例えば、会話支援装置１、１Ａ、１Ｂ、１Ｄは、最新の発話に対応する画像を太字で表示し、過去の発話に対応する画像を細字で表示させてもよい。または、過去の発話に対応する画像に用いる文字の大きさを、最新の発話に対応する画像に用いる文字の大きさより大きくしてもよい。
また、第１〜第４実施形態において、話者の発話を認識した画像を表示する位置は、例えば図１４では、上から下に順番に表示する例を説明したが、これに限られない。図１４において、例えば、会話支援装置１、１Ａ、１Ｂ、１Ｄは、最新の発話に対応する画像を、例えば第１提示画像５２１の第１文字提示画像５２２の略中心に表示させ、１つ前の発話に対応する画像をその上部に表示させるようにしてもよい。

また、第１〜第４実施形態において、会話支援装置１、１Ａ、１Ｂ、１Ｄは、話者毎の発話量に応じて、例えば話者毎に提示される情報の表示領域（例えば第１提示画像３２１Ａ）、またはその表示領域内の文字提示画像（例えば第１文字提示画像３２２Ａ）の明るさを変化させて表示させてもよい。会話支援装置１、１Ａ、１Ｂ、１Ｄは、例えば、発話回数または発話時間を話者毎に検出し、検出した発話回数または発話時間が他の話者より少ない話者の表示領域または文字提示画像を初期状態の輝度より低くするように制御してもよい。または、会話支援装置１、１Ａ、１Ｂ、１Ｄは、検出した発話回数または発話時間が他の話者より多い話者の表示領域または文字提示画像を初期状態の輝度より高くするように制御してもよい。これにより、使用者は、自分の発話時間または発話回数を認識することができる。または、司会者は、この表示を見て、発話回数の少ない、または発話時間が短い話者に、発話を促すことで会議などの進行において有効に活用することもできる。

なお、第１〜第４実施形態では、会話支援装置１、１Ａ、１Ｂ、１Ｄが、音声認識部１３または１３Ａを備える例を説明したが、音声認識部１３または１３Ａは、例えばネットワーク経由で提供されるようにしてもよい。

なお、本発明における会話支援装置１、１Ａ、１Ｂ、１Ｄの機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより上述した各種の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境（あるいは表示環境）を備えたＷＷＷシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

１、１Ａ、１Ｂ、１Ｃ、１Ｄ…会話支援装置、１１…収音部、１２、１２Ｂ、１２Ｃ…音響信号取得部、１３、１３Ａ…音声認識部、１４、１４Ｃ、１４Ｄ…画像処理部、１５…画像表示部、１６…入力部、２１…音源定位部、２２…音源分離部、２３…言語情報検出部、２４…翻訳部、３１、３１Ｃ、３１Ｄ…通信部、１０１−１〜１０１−Ｎ、１０１−Ｍ…マイクロホン、１４１…画像パターン生成部、１４２…表示画像生成部、１４３…画像合成部、３２１Ａ、３２１Ｂ、３２１Ｃ、５２１、６２１…第１提示画像、３２２Ａ、３２２Ｂ、３２２Ｃ、５２２、６２２…第１文字提示画像、３２３Ａ、３３３Ａ、３２３Ｂ〜３２４Ｂ、３２３Ｃ〜３５３Ｃ、５２３、５３３…方位画像、３３１Ａ、３３１Ｂ、３３１Ｃ、５３１、６３１…第２提示画像、３３２Ａ、３３２Ｂ、３３２Ｃ、５３２、６３２…第２文字提示画像、３４１Ｂ、３４１Ｃ、６４１…第３提示画像、３４２Ｂ、３４２Ｃ、６４２…第３文字提示画像、３５１Ｃ…第４提示画像、３５２Ｃ…第４文字提示画像、５２４Ａ〜５２４Ｃ、５３４Ａ〜５３４Ｄ、６３４Ａ、６４４Ａ、６２５Ｂ、６４５Ｂ…発話が認識された文字の画像

Claims

２以上の使用者の音声信号を入力する音声入力部と、
前記音声入力部に入力された音声信号を認識する音声認識部と、
前記音声入力部に入力された音声信号の音源方向を推定する音源推定部と、
前記音声認識部によって認識された認識結果が表示される表示部と、
前記使用者毎に対応する表示領域を前記表示部の画像表示領域に設定し、前記音源推定部によって前記音声信号の音源方向が推定される前、前記音声認識部によって認識された結果を予め定められている表示角度で表示させ、前記音源推定部によって前記音声信号の音源方向が推定された後、前記音源方向に基づく表示角度で、前記音声認識部によって認識された認識結果を前記表示部の前記使用者毎に対応する前記表示領域に表示させ、既に音源定位されている話者とは違う方向から音声を検出した場合には、新たな話者が会議に参加していると判断し、その発話内容を隣り合う既に認識されている話者同士のテキスト表示枠の間に表示させる画像処理部と、
を備えることを特徴とする会話支援装置。
前記画像処理部は、
前記使用者毎に対応する表示領域の表示色、柄、当該表示領域に表示されるアイコン、当該表示領域に表示されるアバターのうち少なくとも１つを前記使用者毎に異なるように表示させる、請求項１に記載の会話支援装置。
前記画像処理部は、
前記音源推定部によって推定された前記音源方向に基づく画像を、前記表示部の前記使用者毎に対応する前記表示領域に表示させる
ことを特徴とする請求項１または請求項２に記載の会話支援装置。
前記音声入力部に入力された音声信号を前記使用者毎に分離する音源分離部を備え、
前記画像処理部は、
前記音源分離部によって分離された前記使用者毎の音声信号のうち、前記表示領域に対応する前記使用者以外の前記認識結果を前記表示部の前記使用者毎に対応する表示領域に表示させる
ことを特徴とする請求項１から請求項３のいずれか１項に記載の会話支援装置。
前記使用者の位置を推定する位置推定部を備え、
前記画像処理部は、
前記位置推定部によって推定された前記使用者の位置に応じた位置に、前記使用者毎に対応する表示領域を前記表示部の画像表示領域に設定または再配置する
ことを特徴とする請求項１から請求項４のいずれか１項に記載の会話支援装置。
前記位置推定部は、
前記音声入力部に入力された音声信号を用いて前記使用者の位置を推定する
ことを特徴とする請求項５に記載の会話支援装置。
前記音声認識部によって認識された認識結果を翻訳する翻訳部を備え、
前記画像処理部は、
前記翻訳部によって翻訳された翻訳結果を前記表示部の前記使用者毎に対応する前記表示領域に表示させる
ことを特徴とする請求項１から請求項６のいずれか１項に記載の会話支援装置。
前記使用者が発話する言語を検出する言語情報検出部を備え、
前記翻訳部は、
前記表示領域に対応する前記使用者以外の前記認識結果を、前記言語情報検出部によって検出された言語に翻訳する
ことを特徴とする請求項７に記載の会話支援装置。
他の会話支援装置との通信を行う通信部を備え、
前記音声入力部は、
前記通信部が受信した前記他の会話支援装置から受信された音声信号を入力し、
前記音声認識部は、
前記音声入力部から入力された音声信号のうち、前記表示領域に対応する前記使用者以外の音声信号を認識する
ことを特徴とする請求項１から請求項７のいずれか１項に記載の会話支援装置。
前記表示部に表示された画像の一部を選択する入力部を備え、
前記画像処理部は、
前記入力部によって選択された画像の一部が認識結果である場合、選択された前記認識に対応する他の認識候補を前記表示部に表示させ、前記認識候補のうち前記入力部によって選択された候補に前記認識結果を修正し、修正した前記認識結果を、前記通信部を介して前記他の会話支援装置に送信させる
ことを特徴とする請求項９に記載の会話支援装置。
音声入力部が、２以上の使用者の音声信号を入力する音声入力手順と、
音声認識部が、前記音声入力手順によって入力された音声信号を認識する音声認識手順と、
音源推定部が、前記音声入力手順によって入力された音声信号の音源方向を推定する音源推定手順と、
画像処理部が、前記使用者毎に対応する表示領域を、前記音声認識手順によって認識された認識結果が表示される表示部の画像表示領域に設定し、前記音源推定手順によって前記音声信号の音源方向が推定される前、前記音声認識部によって認識された結果を予め定められている表示角度で表示させ、前記音源推定手順によって推定された後、前記音源方向に基づく表示角度で、前記音声認識手順によって認識された認識結果を前記表示部の前記使用者毎に対応する前記表示領域に表示させ、既に音源定位されている話者とは違う方向から音声を検出した場合には、新たな話者が会議に参加していると判断し、その発話内容を隣り合う既に認識されている話者同士のテキスト表示枠の間に表示させる画像処理手順と、
を含むことを特徴とする会話支援装置の制御方法。
会話支援装置のコンピュータに、
２以上の使用者の音声信号を入力する音声入力手順と、
前記音声入力手順によって入力された音声信号を認識する音声認識手順と、
前記音声入力手順によって入力された音声信号の音源方向を推定する音源推定手順と、
前記使用者毎に対応する表示領域を、前記音声認識手順によって認識された認識結果が表示される表示部の画像表示領域に設定し、前記音源推定手順によって前記音声信号の音源方向が推定される前、前記音声認識手順によって認識された結果を予め定められている表示角度で表示させ、前記音源推定手順によって推定された後、前記音源方向に基づく表示角度で、前記音声認識手順によって認識された認識結果を前記表示部の前記使用者毎に対応する前記表示領域に表示させ、既に音源定位されている話者とは違う方向から音声を検出した場合には、新たな話者が会議に参加していると判断し、その発話内容を隣り合う既に認識されている話者同士のテキスト表示枠の間に表示させる画像処理手順と、
を実行させることを特徴とする会話支援装置のプログラム。