JP6148163B2 - 会話支援装置、会話支援装置の制御方法、及び会話支援装置のプログラム - Google Patents
会話支援装置、会話支援装置の制御方法、及び会話支援装置のプログラム Download PDFInfo
- Publication number
- JP6148163B2 JP6148163B2 JP2013247460A JP2013247460A JP6148163B2 JP 6148163 B2 JP6148163 B2 JP 6148163B2 JP 2013247460 A JP2013247460 A JP 2013247460A JP 2013247460 A JP2013247460 A JP 2013247460A JP 6148163 B2 JP6148163 B2 JP 6148163B2
- Authority
- JP
- Japan
- Prior art keywords
- unit
- speaker
- image
- display
- conversation support
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 88
- 238000012545 processing Methods 0.000 claims description 89
- 238000004891 communication Methods 0.000 claims description 53
- 238000000926 separation method Methods 0.000 claims description 52
- 238000013519 translation Methods 0.000 claims description 39
- 238000001514 detection method Methods 0.000 claims description 30
- 230000005236 sound signal Effects 0.000 claims description 23
- 230000004807 localization Effects 0.000 description 45
- 238000010586 diagram Methods 0.000 description 25
- 230000006870 function Effects 0.000 description 19
- 239000000203 mixture Substances 0.000 description 17
- 230000005540 biological transmission Effects 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 8
- 238000003491 array Methods 0.000 description 4
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 241000543540 Guillardia theta Species 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000012880 independent component analysis Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005401 electroluminescence Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/263—Language identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- User Interface Of Digital Computer (AREA)
Description
本発明の態様(1)、(11)又は(12)の構成によれば、使用者が認識された結果が見やすくなるため、使用者の利便性を向上することができる。
本発明の態様(3)によれば、使用者は、自分の表示領域を判別しやすくなる。
本発明の態様(4)によれば、話者毎の方位の推定や話者毎の発話の分離を精度よく行うことができる。また、他の話者は、相手の発話を精度良く会話支援装置上で視覚的に確認することができるので、話者の聴覚を支援することができる。
本発明の態様(5)、(6)によれば、各話者の一番近い位置に表示位置が配置されるため、他の話者の発話内容が認識された文字データ(認識結果)が話者にとって見やすくなる。
本発明の態様(9)によれば、複数台の会話支援装置を用いて音声認識を行うことができる。
本発明の態様(10)によれば、使用者の発話内容を、他の使用者に正しく提示することができる。
本発明では、マイクロホンで収音された音声信号に含まれる発話のうち、発話者が発した発話を示す情報を他者の表示領域に表示する。本発明では、発話者が複数の場合、表示部の表示領域を発話者の人数に応じた領域に分割し、分割した各領域に各発話者を対応付け、対応付けた各領域に発話を示す情報を表示する。
図1は、本実施形態に係る会話支援装置1の構成を表すブロック図である。図1に示すように、会話支援装置1は、収音部11(音声入力部)、音響信号取得部12(音声入力部)、音声認識部13(音声認識部、位置推定部)、画像処理部14、画像表示部15(表示部)、及び入力部16を備える。また、画像処理部14は、画像パターン生成部141、表示画像生成部142、及び画像合成部143を備える。
会話支援装置1は、例えばタブレット型の端末、携帯電話、携帯ゲーム機、テーブルの表面に画像表示部を備える端末等である。以下の実施形態では、会話支援装置1がタブレット型の端末(以下、タブレット端末ともいう)について説明する。
音声認識部13は、例えば、音響モデルである隠れマルコフモデル(HMM:Hidden Markov Model)と単語辞書を備える。
なお、画像合成部143は、表示画像において、話者毎の文字データを発話した話者の表示領域に表示するように画像を合成してもよい。
図5において、メニュー画像301は、使用者が表示画面の選択や切り替えを行うときに画像表示部15に表示される。メニュー画像301には、話者の選択メニュー領域311、話者1人目(第1話者)〜話者4人目(第4話者)がそれぞれ発話する言語の選択メニュー領域312〜315、及び画面の回転選択メニュー領域316を含む。なお、図5に示したメニュー画像301は一例であり、図5のように全てのメニュー画像を1つのメニューとして表示してもよく、または、項目毎に複数のメニュー画像に分けて表示するようにしてもよい。
例えば、会話支援装置1に不図示のプロジェクタが接続された場合、画像表示部15上に表示される画像がプロジェクタを介してスクリーンに表示される。この場合、会話支援装置1を回転させたりすると、このスクリーンに表示される画像も回転してしまうため、発話者にとって、自分が見るべき表示領域がわかりづらくなる場合もある。これを防止するため、画面に表示される画像が回転しないように固定させる。
なお、以下に示した例では、各話者に対応する表示領域を異なる色で区分けした例を示したが、これに限られない。各話者に対応する表示領域は、例えば異なる柄や、話者毎に対応するアイコン、話者毎に対応する擬人化した画像であるアバター等によって、見分けられるようにしてもよい。この場合、領域等を色で識別しなくても話者に対応する表示領域を話者が識別することができるので、画像表示部15に白黒の画像表示装置や電子インク表示装置を用いることができ、消費電力を低減することができる。
話者1人目に提示される情報の表示領域の第1提示画像321Aには、後述するように第2話者が発話した発話内容のテキストが表示される文字表示領域の第1文字提示画像322Aを備えている。第1文字提示画像322Aの色は、例えば白色である。また、第1文字提示画像322Aには、後述するように第1話者の向きを示す方位画像323Aが含まれる。図6に示した例は、第1話者は、紙面に対して、上側の正面にいる例である。
話者2人目に提示される情報の表示領域の第2提示画像331Aには、第1話者が発話した発話内容のテキストが表示される文字表示領域の第2文字提示画像332A、及び第2話者の向きを示す方位画像333Aが含まれる。図6に示した例は、第2話者は、紙面に対して、右下にいる例である。第2文字提示画像332Aの色は、例えば白色である。
また、第1話者〜第3話者に対応する表示領域の第1提示画像321B〜第3提示画像341Bそれぞれには、自分を含まない他の発話した発話内容のテキストが表示される文字表示領域の第1文字提示画像322B〜第3文字提示画像342B、及び自分の向きを示す方位画像323B〜324Bが含まれる。第1文字提示画像322B〜第3文字提示画像342Bの色は、例えば白色である。
一例として、話者3人目に提示される情報の表示領域の第3提示画像341Bの第3文字提示画像342Bには、第1話者及び第2話者が発話した発話内容のテキストが表示される。また、方位画像343Bは、第3話者の向きを表す。
また、第1話者〜第4話者に対応する表示領域の第1提示画像321C〜第4提示画像351Cそれぞれには、自分を含まない他の発話した発話内容のテキストが表示される文字表示領域の第1文字提示画像322C〜第4文字提示画像352C、及び自分の向きを示す方位画像323C〜353Cが含まれる。第1文字提示画像322C〜第4文字提示画像352Cの色は、例えば白色である。
なお、各話者は、例えば図8において、自分の方向を画像表示部15に設けられているタッチパネル式の入力部16を操作することで初期の話者方向を入力するようにしてもよい。この場合、会話支援装置1は、入力された初期の話者方向に応じた報告に発話内容のテキストを表示させ続けるようにしてもよい。
なお、2〜4分割された領域のうち、どの領域がどの話者に対応するかは、予め画像パターン生成部141に記憶されている。画像パターン生成部141は、入力部16から入力された指示に応じて、どの領域がどの話者に対応するかを切り替えるようにしてもよい。例えば、図8において、第2話者と第4話者の位置が入れ替わった場合、例えば第2話者は、画像表示部15がタッチパネル式の入力部16において、第2提示画像331Cを第4提示画像351Cの領域に移動させるように操作することで、第2提示画像331Cと第4提示画像351Cとを入れ替えるようにしてもよい。これにより、話者の位置が途中で入れ替わった場合であっても、本実施形態によれば、それまでの会話内容の表示を維持したままの画面を見ることができるので、話者に対する利便性が向上する。
(ステップS1)話者は、図5に示したメニュー画像301において、入力部16を操作することで、使用者人数を選択する。次に、各話者は、図5に示したメニュー画像301において、入力部16を操作することで、使用する言語を選択する。次に、入力部16は、話者によって選択された画面上の座標情報を、画像処理部14に出力する。
(ステップS3)音響信号取得部12は、例えば入力部16によって認識開始が指示されたことが検出された後、またはステップS1が行われたタイミング等で、収音部11のN個のマイクロホン101によって収録されたN個の音響信号の取得を開始する。次に、音響信号取得部12は、フーリエ変換したN個の音響信号を音声認識部13に出力する。
以上で、会話支援装置1が行う処理を終了する。
ここで、本実施形態に係る会話支援装置1を用いて行った実験結果の例を説明する。図10は、実験環境を説明するための図である。
図10に示すように、会話支援装置1は、テーブル401の上に傾けて置かれている。また、会話支援装置1は、一方の長手方向がテーブル401に接するように置かれている。実験は、所定の広さを有する部屋で行った。また、話者は第1話者Sp1と第2話者Sp2の2人であり、第1話者Sp1と第2話者Sp2とは椅子402に着席した状態である。
さらに、第1文字提示画像522には、第2話者Sp2の発話を認識した文字を示す画像524Aである「こんばんは」が、第1話者Sp1の向きに応じた方向に画像処理部14によって表示される。
第1文字提示画像522には、第2話者Sp2の発話を認識した文字の画像524A〜524Cが表示されている。そして、図14に示すように、画像524A〜524Cは、第1話者Sp1にとって画像表示部15の奥から手前に向かって順次、表示される。また、第2文字提示画像532には、第1話者Sp1の発話を認識した文字の画像534A〜534Dが表示されている。そして、図14に示すように、画像534A〜534Dは、第2話者Sp2にとって画像表示部15の奥から手前に向かって順次、表示される。図14において、発話順番は、例えば、画像534A−>画像524A−>画像534B−>画像524B−>画像534C−>画像524C−>画像534Dの順番である。
また、図12〜図14では、各会話に対応する文字を1行に収まるように表示画像生成部142が、文字サイズを決定するようにしてもよい。または、表示画像生成部142は、所定の文字サイズで認識された文字に対応する画像を数行に渡って表示するようにしてもよい。この場合、音声認識部13は、認識した認識データに文節を示す情報を含めて画像処理部14に出力するようにしてもよい。これにより、表示画像生成部142は、認識された文が所定の文字サイズでは1行に収まらないと判別した場合、音声認識部13から入力された文節を示す情報を用いて、文の中において文節の切れ目の位置で折り返すようにしてもよい。
また、例えば、図14に示した例において、認識された文字に対応する画像524A〜524Cは、第2話者Sp2に対応する色で表示するようにしてもよい。同様に、認識された文字に対応する画像534A〜534Dは、第1話者Sp1に対応する色で表示するようにしてもよい。
画像601は、図7に示した画像301Bに対応し、各符号621、622、623、631、632、633、641、642、及び643それぞれは、図7の符号321B、322B、323B、331B、332B、333B、341B、342B、及び343Bに対応する。
音声認識部13は、順次発話された各発話者の音声認識を行い、第1話者Sp1の表示領域を図8において第4提示画像351Cの右上に配置し、第2話者Sp2の表示領域を図8において第3提示画像341Cの右下に配置し、第3話者Sp3の表示領域を図8において第2提示画像331Cの左下に配置し、第4話者Sp4の表示領域を図8において第1提示画像321Cの左上に配置する。このように、複数の話者によって同時に発話が行われず、また会話支援装置1を使用する環境に雑音が少ない場合は、本実施形態の会話支援装置1のように、音源定位処理や音源分離処理を行わなくても、上述した処理を行うことができる。
この構成によって、本実施形態の会話支援装置1では、各話者の一番近い位置に表示位置が配置されるため、他の話者の発話内容が認識された文字データ(認識結果)が話者にとって見やすくなる。
図16は、本実施形態に係る会話支援装置1Aの構成を表すブロック図である。図16に示すように、会話支援装置1Aは、収音部11、音響信号取得部12、音声認識部13A、画像処理部14、画像表示部15、入力部16、音源定位部21(音源推定部)、音源分離部22、言語情報検出部23、及び翻訳部24を備える。また、画像処理部14は、画像パターン生成部141、表示画像生成部142、及び画像合成部143を備える。なお、図1で説明した会話支援装置1と同じ機能を有する機能部には同じ符号を用いて、説明を省略する。
なお、方位角の推定には、WDS−BF(Weighted Delay and Sum Beam Forming;重み付き遅延和ビームフォーミング)法、MUSIC法等の他の音源方向推定方式を用いてもよい。
なお、音源分離部22は、例えば自部に記憶されている室内の伝達関数を用いて、雑音と話者の音響信号とを分離した後、話者毎の音響信号を分離するようにしてもよい。音源分離部22は、例えばNチャネルの音響信号毎に音響特徴量を算出し、算出した音響特徴量及び音源定位部21から入力された方位角情報に基づいて、話者毎の音響信号に分離するようにしてもよい。
ここで、音源分離部22で用いられるGHDSS法の概略について説明する。GHDSS法は、GC(幾何拘束に基づく音源分離)法と、HDSS(High−order Dicorrelation−based Source Separation;高次元無相関化に基づく音源分離)法を統合した手法である。GHDSS法は、1種のブラインド分離処理(blind deconvolution)である。GHDSS法は、分離行列(separation matrix)[V(ω)]を逐次に算出し、入力音声ベクトル[x(ω)]に算出した分離行列[V(ω)]を乗算して音源ベクトル[u(ω)]を推定することで、音源毎の音響信号に分離する手法である。分離行列[V(ω)]は、各音源から収音部11が備える各マイクロホン101までに伝達関数を要素として有する伝達関数[H(ω)]の擬似逆行列(pseudo−inverse matrix)である。入力音声ベクトル[x(ω)]は、各チャネルの音響信号の周波数領域係数を要素として有するベクトルである。音源ベクトル[u(ω)]は、各音源が発する音響信号の周波数領域係数を要素として有するベクトルである。
ここで、分離尖鋭度JSSは、1つの音源が他の音源として誤って分離される度合いを表す指標値であり、例えば、次式(1)で表される。
幾何制約度JGCは、音源ベクトル[u(ω)]の誤差の度合いを表す指標値であり、例えば、次式(2)で表される。
図17において、マイクロホンアレイ1とは、図2に示したように会話支援装置1Aにマイクロホン101のアレイが組み込まれているマイクロホンアレイである。マイクロホンアレイ2とは、図3に示したように、マイクロホン101が有線または無線で会話支援装置1Aに接続されるマイクロホンアレイである。マイクロホンアレイ3とは、図4に示したように、各話者が例えば口元に接話型のマイクロホン101を使用し、マイクロホン101が有線または無線で会話支援装置1Aに接続されるマイクロホンアレイである。
図17の3行目に示すように、マイクロホンアレイ1及び2の場合、話者の位置等に応じて、会話支援装置1Aは、音源定位部21及び音源分離部22を備えていてもよい。また、翻訳を行う必要がない場合や、話者が使用する言語が同一の場合等、会話支援装置1Aは、言語情報検出部23及び翻訳部24を備えていなくてもよい。
図18に示すように4人の話者Sp1〜Sp4が、会話支援装置1Aを囲んでいる。そして、話者Sp1は、自分に最も近い第4提示画像351Cを予め選択し、話者Sp2は、自分に最も近い第1提示画像321Cを予め選択する。話者Sp3は、自分に最も近い第2提示画像331Cを予め選択し、話者Sp4は、自分に最も近い第3提示画像341Cを予め選択する。
(ステップS101〜S103)ステップS101〜S103は、ステップS1〜S3(図9参照)と同様に行う。なお、ステップS101において、各話者は、他の話者の発話を翻訳するか否かをメニュー画像301において、選択するようにしてもよい。
(ステップS105)音源分離部22は、音源定位部21が出力したNチャネルの音響信号を取得し、取得したNチャネルの音響信号を、例えばGHDSS法を用いて話者毎の音響信号に分離する。次に、音源分離部22は、分離した話者毎の音響信号と音源定位部21から入力された方位角情報とを、言語情報検出部23に出力する。音源分離部22は、ステップS105終了後、処理をステップS106に進める。
(ステップS109〜S110)ステップS109〜S110は、ステップS5〜S6(図9参照)と同様に行う。
以上で、会話支援装置1Aが行う処理を終了する。
また、本実施形態に係る会話支援装置1Aでは、音声入力部(収音部11、音響信号取得部12)に入力された音声信号を使用者毎に分離する音源分離部22を備え、画像処理部14は、音源分離部によって分離された使用者毎の音声信号のうち、表示領域に対応する使用者以外の認識結果を前記表示部の使用者毎に対応する表示領域に表示させる。
また、本実施形態に係る会話支援装置1Aでは、使用者が発話する言語を検出する言語情報検出部23を備え、翻訳部24は、表示領域に対応する使用者以外の認識結果を、言語情報検出部によって検出された言語に翻訳する。
一方、話者が途中から参加する場合、途中参加する話者は参加を示す情報を会話支援装置1Aに入力または選択するようにしてもよい。会話支援装置1Aは、例えば話者が3人から4人に増えた場合、図7に示したレイアウトから図8に示したレイアウトに変更するようにしてもよい。
例えば、3人の話者Sp1〜Sp3がいる位置が殆ど変化しない場合、音源定位部21によって定位された音響信号に、話者Sp1〜Sp3とは異なる発話方向の音響信号があった場合、会話支援装置1Aは、新たな話者Sp4が会話に参加したと判別するようにしてもよい。図20に示した例では、話者Sp4が、紙面に向かって右斜め上方向から発話している。この場合、会話支援装置1Aは、この新たな話者Sp4の発話方向を推定し、推定した結果に基づいて、図8に示したような4人の話者に対応した表示画面に切り替えるようにしてもよい。この場合、話者Sp4の位置が、話者Sp1とSp3との間であるため、会話支援装置1Aは、話者Sp4に対応する情報の表示領域を、第1提示画像621と第3提示画像641との間に挿入するように、各表示領域を再レイアウトするようにしてもよい。
第1実施形態及び第2実施形態では、会話支援装置1または会話支援装置1Aが1台の例を説明したが、本実施形態では、会話支援装置1または会話支援装置1Aが複数台の例を説明する。複数台の会話支援装置1または会話支援装置1Aは、例えば話者毎に使用されるようにしてもよい。
会話支援装置1B−1〜1B−4の構成は、図21に示した構成である。会話支援装置1B−1〜1B−4それぞれは、各装置が備える通信部31を介して互いに通信を行う。
図23において、符号720で示す領域の画像は、話者に対応する画像である。符号720で示す領域の画像には、会話支援装置1B−1に対応する話者を示す画像721、会話支援装置1B−2に対応する話者を示す画像722、会話支援装置1B−3に対応する話者を示す画像723、会話支援装置1B−4に対応する話者を示す画像724が含まれる。画像721は例えば赤色、画像722は例えば緑色、画像723は例えば青色、画像724は例えば黄色である。なお、各会話支援装置1B−1〜1B−4に対応する画像721〜724は色の画像に限られない。例えば、各会話支援装置1B−1〜1B−4に対応するアバター、アイコン、名前等であってもよい。
また、文字提示画像703に表示される画像は、会話支援装置1B−1に対応する話者の発話の認識データに基づく画像731、会話支援装置1B−2に対応する話者の発話の認識データに基づく画像732、及び会話支援装置1B−4に対応する話者の発話の認識データに基づく画像734である。これらの画像731〜734は、画像721〜724に対応する色で表示されてもよく、アバター、アイコン、名前等が付加されて表示されるようにしてもよい。アバター、アイコン、名前の場合は、例えば各画像731〜734の左に付加されて表示されるようにしてもよい。なお、これらの表示処理は、画像処理部14が行う。
この場合、会話支援装置1C−2〜1C−3は、収音したM個ずつの音響信号を、それぞれ通信部31Cと無線通信を介して、会話支援装置1C−1に送信する。そして、会話支援装置1C−1は、自装置が収音した音響信号、受信した音響信号全てに対して音声認識を行う。
画像処理部14Cは、第2話者Sp2の向きを示す画像と第1話者Sp1、第3話者Sp3、第4話者Sp4の発話内容を認識した文字データを生成する。そして、通信部31Cは、生成された第2話者Sp2の向きを示す画像と第1話者Sp1、第3話者Sp3、第4話者Sp4の発話内容を認識した文字データを、無線通信を介して会話支援装置1C−2に送信する。
さらに、画像処理部14Cによって生成された第4話者Sp4の向きを示す画像と第1話者Sp1〜第3話者Sp3の発話内容を認識した文字データを、通信部31Cは、無線通信を介して会話支援装置1C−4に送信する。
第1〜第3実施形態では、各話者に対応する文字提示画像に他の話者の発話内容を認識した認識データに基づく画像の例を説明したが、これに限られない。本実施形態では、他の話者に限らず、自分の発話も含めて発話内容を認識した認識データに基づく画像が表示する例について説明する。
これにより、第3話者Sp3は、画像751を確認し、例えば認識が異なっている箇所の画像752を画像表示部15が備えるタッチパネルの入力部16を操作して選択する。そして、画像処理部14Dは、選択された画像752に対応する他の変換「河合さん」、「河井さん」等を含む画像753を、図26のように例えば選択された画像752の近傍に表示する。これにより、第3話者Sp3は、画像753から所望の「河合さん」を選択する。入力部16は、選択された「河合さん」を示す情報を画像処理部14Dに出力するようにしてもよい。そして、会話支援装置1D−3の通信部31Dは、画像処理部14Dによって修正された文字データを、他の会話支援装置1Dに送信し直すようにしてもよい。
例えば、図8において、会話支援装置1または1Aは、第1文字提示画像322Aに、第1話者Sp1の発話内容を認識した文字データを表示するようにしてもよい。
この構成によって、使用者の発話内容を、他の使用者に正しく提示することができる。
また、複数の会話支援装置(1、1A、1B、1C、1D)を用いる場合、第3、第4実施形態では、1台の会話支援装置(1、1A、1B、1C、1D)の画像表示部15上に、1人分の表示を行う例を示したが、これに限られない。複数の会話支援装置(1、1A、1B、1C、1D)を用いる場合、各会話支援装置(1、1A、1B、1C、1D)に表示する表示パターンは、例えば図6〜図8に示したように、複数の話者に対応した画面であってもよい。例えば、第3、第4実施形態によれば、各会話支援装置(1、1A、1B、1C、1D)の画像表示部15上に図6に示した表示パターンを表示することで、会話支援装置(1、1A、1B、1C、1D)を2台用いて4人の話者に対応することができる。
また、第1〜第4実施形態において、話者の発話を認識した画像を表示する位置は、例えば図14では、上から下に順番に表示する例を説明したが、これに限られない。図14において、例えば、会話支援装置1、1A、1B、1Dは、最新の発話に対応する画像を、例えば第1提示画像521の第1文字提示画像522の略中心に表示させ、1つ前の発話に対応する画像をその上部に表示させるようにしてもよい。
Claims (12)
- 2以上の使用者の音声信号を入力する音声入力部と、
前記音声入力部に入力された音声信号を認識する音声認識部と、
前記音声入力部に入力された音声信号の音源方向を推定する音源推定部と、
前記音声認識部によって認識された認識結果が表示される表示部と、
前記使用者毎に対応する表示領域を前記表示部の画像表示領域に設定し、前記音源推定部によって前記音声信号の音源方向が推定される前、前記音声認識部によって認識された結果を予め定められている表示角度で表示させ、前記音源推定部によって前記音声信号の音源方向が推定された後、前記音源方向に基づく表示角度で、前記音声認識部によって認識された認識結果を前記表示部の前記使用者毎に対応する前記表示領域に表示させ、既に音源定位されている話者とは違う方向から音声を検出した場合には、新たな話者が会議に参加していると判断し、その発話内容を隣り合う既に認識されている話者同士のテキスト表示枠の間に表示させる画像処理部と、
を備えることを特徴とする会話支援装置。 - 前記画像処理部は、
前記使用者毎に対応する表示領域の表示色、柄、当該表示領域に表示されるアイコン、当該表示領域に表示されるアバターのうち少なくとも1つを前記使用者毎に異なるように表示させる、請求項1に記載の会話支援装置。 - 前記画像処理部は、
前記音源推定部によって推定された前記音源方向に基づく画像を、前記表示部の前記使用者毎に対応する前記表示領域に表示させる
ことを特徴とする請求項1または請求項2に記載の会話支援装置。 - 前記音声入力部に入力された音声信号を前記使用者毎に分離する音源分離部を備え、
前記画像処理部は、
前記音源分離部によって分離された前記使用者毎の音声信号のうち、前記表示領域に対応する前記使用者以外の前記認識結果を前記表示部の前記使用者毎に対応する表示領域に表示させる
ことを特徴とする請求項1から請求項3のいずれか1項に記載の会話支援装置。 - 前記使用者の位置を推定する位置推定部を備え、
前記画像処理部は、
前記位置推定部によって推定された前記使用者の位置に応じた位置に、前記使用者毎に対応する表示領域を前記表示部の画像表示領域に設定または再配置する
ことを特徴とする請求項1から請求項4のいずれか1項に記載の会話支援装置。 - 前記位置推定部は、
前記音声入力部に入力された音声信号を用いて前記使用者の位置を推定する
ことを特徴とする請求項5に記載の会話支援装置。 - 前記音声認識部によって認識された認識結果を翻訳する翻訳部を備え、
前記画像処理部は、
前記翻訳部によって翻訳された翻訳結果を前記表示部の前記使用者毎に対応する前記表示領域に表示させる
ことを特徴とする請求項1から請求項6のいずれか1項に記載の会話支援装置。 - 前記使用者が発話する言語を検出する言語情報検出部を備え、
前記翻訳部は、
前記表示領域に対応する前記使用者以外の前記認識結果を、前記言語情報検出部によって検出された言語に翻訳する
ことを特徴とする請求項7に記載の会話支援装置。 - 他の会話支援装置との通信を行う通信部を備え、
前記音声入力部は、
前記通信部が受信した前記他の会話支援装置から受信された音声信号を入力し、
前記音声認識部は、
前記音声入力部から入力された音声信号のうち、前記表示領域に対応する前記使用者以外の音声信号を認識する
ことを特徴とする請求項1から請求項7のいずれか1項に記載の会話支援装置。 - 前記表示部に表示された画像の一部を選択する入力部を備え、
前記画像処理部は、
前記入力部によって選択された画像の一部が認識結果である場合、選択された前記認識に対応する他の認識候補を前記表示部に表示させ、前記認識候補のうち前記入力部によって選択された候補に前記認識結果を修正し、修正した前記認識結果を、前記通信部を介して前記他の会話支援装置に送信させる
ことを特徴とする請求項9に記載の会話支援装置。 - 音声入力部が、2以上の使用者の音声信号を入力する音声入力手順と、
音声認識部が、前記音声入力手順によって入力された音声信号を認識する音声認識手順と、
音源推定部が、前記音声入力手順によって入力された音声信号の音源方向を推定する音源推定手順と、
画像処理部が、前記使用者毎に対応する表示領域を、前記音声認識手順によって認識された認識結果が表示される表示部の画像表示領域に設定し、前記音源推定手順によって前記音声信号の音源方向が推定される前、前記音声認識部によって認識された結果を予め定められている表示角度で表示させ、前記音源推定手順によって推定された後、前記音源方向に基づく表示角度で、前記音声認識手順によって認識された認識結果を前記表示部の前記使用者毎に対応する前記表示領域に表示させ、既に音源定位されている話者とは違う方向から音声を検出した場合には、新たな話者が会議に参加していると判断し、その発話内容を隣り合う既に認識されている話者同士のテキスト表示枠の間に表示させる画像処理手順と、
を含むことを特徴とする会話支援装置の制御方法。 - 会話支援装置のコンピュータに、
2以上の使用者の音声信号を入力する音声入力手順と、
前記音声入力手順によって入力された音声信号を認識する音声認識手順と、
前記音声入力手順によって入力された音声信号の音源方向を推定する音源推定手順と、
前記使用者毎に対応する表示領域を、前記音声認識手順によって認識された認識結果が表示される表示部の画像表示領域に設定し、前記音源推定手順によって前記音声信号の音源方向が推定される前、前記音声認識手順によって認識された結果を予め定められている表示角度で表示させ、前記音源推定手順によって推定された後、前記音源方向に基づく表示角度で、前記音声認識手順によって認識された認識結果を前記表示部の前記使用者毎に対応する前記表示領域に表示させ、既に音源定位されている話者とは違う方向から音声を検出した場合には、新たな話者が会議に参加していると判断し、その発話内容を隣り合う既に認識されている話者同士のテキスト表示枠の間に表示させる画像処理手順と、
を実行させることを特徴とする会話支援装置のプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013247460A JP6148163B2 (ja) | 2013-11-29 | 2013-11-29 | 会話支援装置、会話支援装置の制御方法、及び会話支援装置のプログラム |
US14/524,068 US9691387B2 (en) | 2013-11-29 | 2014-10-27 | Conversation support apparatus, control method of conversation support apparatus, and program for conversation support apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013247460A JP6148163B2 (ja) | 2013-11-29 | 2013-11-29 | 会話支援装置、会話支援装置の制御方法、及び会話支援装置のプログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017042240A Division JP6464465B2 (ja) | 2017-03-06 | 2017-03-06 | 会話支援装置、会話支援装置の制御方法、及び会話支援装置のプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015106014A JP2015106014A (ja) | 2015-06-08 |
JP6148163B2 true JP6148163B2 (ja) | 2017-06-14 |
Family
ID=53265830
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013247460A Active JP6148163B2 (ja) | 2013-11-29 | 2013-11-29 | 会話支援装置、会話支援装置の制御方法、及び会話支援装置のプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US9691387B2 (ja) |
JP (1) | JP6148163B2 (ja) |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20150145109A (ko) * | 2014-06-18 | 2015-12-29 | 삼성전자주식회사 | 자동 번역을 위한 장치 및 방법 |
US20170018282A1 (en) * | 2015-07-16 | 2017-01-19 | Chunghwa Picture Tubes, Ltd. | Audio processing system and audio processing method thereof |
KR101910383B1 (ko) * | 2015-08-05 | 2018-10-22 | 엘지전자 주식회사 | 차량 운전 보조 장치 및 이를 구비한 차량 |
JP6690200B2 (ja) * | 2015-11-20 | 2020-04-28 | 株式会社Jvcケンウッド | 端末装置、通信方法 |
JP6610195B2 (ja) * | 2015-11-20 | 2019-11-27 | 株式会社Jvcケンウッド | 端末装置、通信方法 |
US10185840B2 (en) * | 2016-08-30 | 2019-01-22 | Google Llc | Conditional disclosure of individual-controlled content in group contexts |
JP6672114B2 (ja) * | 2016-09-13 | 2020-03-25 | 本田技研工業株式会社 | 会話メンバー最適化装置、会話メンバー最適化方法およびプログラム |
JP6646001B2 (ja) * | 2017-03-22 | 2020-02-14 | 株式会社東芝 | 音声処理装置、音声処理方法およびプログラム |
JP2018159759A (ja) * | 2017-03-22 | 2018-10-11 | 株式会社東芝 | 音声処理装置、音声処理方法およびプログラム |
EP3602544A4 (en) | 2017-03-23 | 2020-02-05 | Joyson Safety Systems Acquisition LLC | SYSTEM AND METHOD FOR CORRELATION OF MOUTH IMAGES WITH INPUT COMMANDS |
JP7197259B2 (ja) * | 2017-08-25 | 2022-12-27 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 情報処理方法、情報処理装置およびプログラム |
JP2019057047A (ja) * | 2017-09-20 | 2019-04-11 | 株式会社東芝 | 表示制御システム、表示制御方法及びプログラム |
JP7038519B2 (ja) * | 2017-10-12 | 2022-03-18 | 株式会社バンダイナムコエンターテインメント | コンテンツ配信システム、コンピュータシステム及びコンテンツ配信方法 |
JP6916130B2 (ja) * | 2018-03-02 | 2021-08-11 | 株式会社日立製作所 | 話者推定方法および話者推定装置 |
JP7171402B2 (ja) * | 2018-03-29 | 2022-11-15 | パナソニックホールディングス株式会社 | 音声翻訳装置、音声翻訳方法及びそのプログラム |
CN110322881A (zh) * | 2018-03-29 | 2019-10-11 | 松下电器产业株式会社 | 语音翻译装置、语音翻译方法及其存储介质 |
DE102018212902A1 (de) * | 2018-08-02 | 2020-02-06 | Bayerische Motoren Werke Aktiengesellschaft | Verfahren zum Bestimmen eines digitalen Assistenten zum Ausführen einer Fahrzeugfunktion aus einer Vielzahl von digitalen Assistenten in einem Fahrzeug, computerlesbares Medium, System, und Fahrzeug |
US10861457B2 (en) * | 2018-10-26 | 2020-12-08 | Ford Global Technologies, Llc | Vehicle digital assistant authentication |
JP7330066B2 (ja) * | 2019-03-27 | 2023-08-21 | パナソニックホールディングス株式会社 | 音声認識装置、音声認識方法及びそのプログラム |
CN110196914B (zh) * | 2019-07-29 | 2019-12-27 | 上海肇观电子科技有限公司 | 一种将人脸信息录入数据库的方法和装置 |
KR20210112726A (ko) * | 2020-03-06 | 2021-09-15 | 엘지전자 주식회사 | 차량의 좌석별로 대화형 비서를 제공하는 방법 |
JP7332519B2 (ja) * | 2020-03-30 | 2023-08-23 | 本田技研工業株式会社 | 会話支援装置、会話支援システム、会話支援方法およびプログラム |
CN115735178A (zh) * | 2020-06-30 | 2023-03-03 | 美国斯耐普公司 | 具有对话气泡和翻译的增强现实眼戴器 |
WO2022039486A1 (ko) * | 2020-08-19 | 2022-02-24 | 주식회사 아모센스 | 음성 신호를 처리하기 위한 음성 처리 장치 및 이를 포함하는 음성 처리 시스템 |
JP7369110B2 (ja) * | 2020-09-30 | 2023-10-25 | 本田技研工業株式会社 | 会話支援装置、会話支援システム、会話支援方法およびプログラム |
KR20220059629A (ko) * | 2020-11-03 | 2022-05-10 | 현대자동차주식회사 | 차량 및 그의 제어방법 |
EP4260013A2 (en) * | 2020-12-09 | 2023-10-18 | Cerence Operating Company | Automotive infotainment system with spatially-cognizant applications that interact with a speech interface |
JP2023510057A (ja) * | 2020-12-18 | 2023-03-13 | テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド | 音声テキスト変換方法、システム、装置、機器及びプログラム |
KR20240021631A (ko) * | 2022-08-10 | 2024-02-19 | 엘지전자 주식회사 | 디스플레이 장치 및 그 동작 방법 |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09206329A (ja) | 1996-01-31 | 1997-08-12 | Sony Corp | 聴力補助装置 |
US7035804B2 (en) * | 2001-04-26 | 2006-04-25 | Stenograph, L.L.C. | Systems and methods for automated audio transcription, translation, and transfer |
JP3933449B2 (ja) * | 2001-11-22 | 2007-06-20 | 株式会社東芝 | コミュニケーション支援装置 |
JP3910898B2 (ja) * | 2002-09-17 | 2007-04-25 | 株式会社東芝 | 指向性設定装置、指向性設定方法及び指向性設定プログラム |
DE602004021716D1 (de) * | 2003-11-12 | 2009-08-06 | Honda Motor Co Ltd | Spracherkennungssystem |
JP4411590B2 (ja) * | 2004-01-23 | 2010-02-10 | 末雄 杉本 | 音声可視化方法及び該方法を記憶させた記録媒体 |
JP4679254B2 (ja) * | 2004-10-28 | 2011-04-27 | 富士通株式会社 | 対話システム、対話方法、及びコンピュータプログラム |
JP4599244B2 (ja) * | 2005-07-13 | 2010-12-15 | キヤノン株式会社 | 動画データから字幕を作成する装置及び方法、プログラム、並びに記憶媒体 |
US7830408B2 (en) * | 2005-12-21 | 2010-11-09 | Cisco Technology, Inc. | Conference captioning |
US7843486B1 (en) * | 2006-04-10 | 2010-11-30 | Avaya Inc. | Selective muting for conference call participants |
EP2241077A2 (en) * | 2007-12-17 | 2010-10-20 | Koninklijke Philips Electronics N.V. | Method of controlling communications between at least two users of a communication system |
US9484019B2 (en) * | 2008-11-19 | 2016-11-01 | At&T Intellectual Property I, L.P. | System and method for discriminative pronunciation modeling for voice search |
US20100283829A1 (en) * | 2009-05-11 | 2010-11-11 | Cisco Technology, Inc. | System and method for translating communications between participants in a conferencing environment |
US9197736B2 (en) * | 2009-12-31 | 2015-11-24 | Digimarc Corporation | Intuitive computing methods and systems |
US8818175B2 (en) * | 2010-03-08 | 2014-08-26 | Vumanity Media, Inc. | Generation of composited video programming |
US20110246172A1 (en) * | 2010-03-30 | 2011-10-06 | Polycom, Inc. | Method and System for Adding Translation in a Videoconference |
US8395653B2 (en) * | 2010-05-18 | 2013-03-12 | Polycom, Inc. | Videoconferencing endpoint having multiple voice-tracking cameras |
US9723260B2 (en) * | 2010-05-18 | 2017-08-01 | Polycom, Inc. | Voice tracking camera with speaker identification |
CN103038765B (zh) * | 2010-07-01 | 2017-09-15 | 诺基亚技术有限公司 | 用于适配情境模型的方法和装置 |
JP2012038131A (ja) * | 2010-08-09 | 2012-02-23 | Sony Corp | 情報処理装置、および情報処理方法、並びにプログラム |
US8630854B2 (en) * | 2010-08-31 | 2014-01-14 | Fujitsu Limited | System and method for generating videoconference transcriptions |
JP5950509B2 (ja) * | 2011-05-24 | 2016-07-13 | シャープ株式会社 | 表示装置および表示方法 |
US9246543B2 (en) * | 2011-12-12 | 2016-01-26 | Futurewei Technologies, Inc. | Smart audio and video capture systems for data processing systems |
EP2845191B1 (en) * | 2012-05-04 | 2019-03-13 | Xmos Inc. | Systems and methods for source signal separation |
US8681203B1 (en) * | 2012-08-20 | 2014-03-25 | Google Inc. | Automatic mute control for video conferencing |
US10026329B2 (en) * | 2012-11-26 | 2018-07-17 | ISSLA Enterprises, LLC | Intralingual supertitling in language acquisition |
US9280972B2 (en) * | 2013-05-10 | 2016-03-08 | Microsoft Technology Licensing, Llc | Speech to text conversion |
US9595271B2 (en) * | 2013-06-27 | 2017-03-14 | Getgo, Inc. | Computer system employing speech recognition for detection of non-speech audio |
-
2013
- 2013-11-29 JP JP2013247460A patent/JP6148163B2/ja active Active
-
2014
- 2014-10-27 US US14/524,068 patent/US9691387B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20150154957A1 (en) | 2015-06-04 |
US9691387B2 (en) | 2017-06-27 |
JP2015106014A (ja) | 2015-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6148163B2 (ja) | 会話支援装置、会話支援装置の制御方法、及び会話支援装置のプログラム | |
EP3707716B1 (en) | Multi-channel speech separation | |
US9864745B2 (en) | Universal language translator | |
US9899028B2 (en) | Information processing device, information processing system, information processing method, and information processing program | |
CN104303177B (zh) | 执行即时语音翻译的方法及耳机计算装置 | |
US20030125959A1 (en) | Translation device with planar microphone array | |
JP3933449B2 (ja) | コミュニケーション支援装置 | |
JP6464465B2 (ja) | 会話支援装置、会話支援装置の制御方法、及び会話支援装置のプログラム | |
US11145222B2 (en) | Language learning system, language learning support server, and computer program product | |
US20140324412A1 (en) | Translation device, translation system, translation method and program | |
US20160212525A1 (en) | Sound source localization device, sound processing system, and control method of sound source localization device | |
JP2014048506A (ja) | 単語登録装置及びそのためのコンピュータプログラム | |
US20180288109A1 (en) | Conference support system, conference support method, program for conference support apparatus, and program for terminal | |
JP2018174439A (ja) | 会議支援システム、会議支援方法、会議支援装置のプログラム、および端末のプログラム | |
JP2017123505A (ja) | コンテンツ再生装置、コンテンツ再生方法及びプログラム | |
KR100593589B1 (ko) | 음성인식을 이용한 다국어 통역/학습 장치 및 방법 | |
JP6841309B2 (ja) | 電子機器およびプログラム | |
TWI277947B (en) | Interactive speech correcting method | |
JP5733566B2 (ja) | 翻訳装置、翻訳方法及びプログラム | |
JP2006195094A (ja) | 発音学習支援装置 | |
JP2023046590A (ja) | 表示方法、表示装置、及び、表示システム | |
JP2011150657A (ja) | 翻訳音声再生装置およびその再生方法 | |
JP6696878B2 (ja) | 音声処理装置、ウェアラブル端末、携帯端末、および音声処理方法 | |
JP7279310B2 (ja) | 電子機器、学習支援装置、学習支援システム、電子機器の制御方法、学習支援装置の制御方法、電子機器の制御プログラム及び学習支援装置の制御プログラム | |
JP2005241767A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20151126 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160426 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160510 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160708 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20161206 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170306 |
|
A911 | Transfer of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20170314 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170516 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170518 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6148163 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |