JP6148163B2 - 会話支援装置、会話支援装置の制御方法、及び会話支援装置のプログラム - Google Patents

会話支援装置、会話支援装置の制御方法、及び会話支援装置のプログラム Download PDF

Info

Publication number
JP6148163B2
JP6148163B2 JP2013247460A JP2013247460A JP6148163B2 JP 6148163 B2 JP6148163 B2 JP 6148163B2 JP 2013247460 A JP2013247460 A JP 2013247460A JP 2013247460 A JP2013247460 A JP 2013247460A JP 6148163 B2 JP6148163 B2 JP 6148163B2
Authority
JP
Japan
Prior art keywords
unit
speaker
image
display
conversation support
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013247460A
Other languages
English (en)
Other versions
JP2015106014A (ja
Inventor
一博 中臺
一博 中臺
圭佑 中村
圭佑 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2013247460A priority Critical patent/JP6148163B2/ja
Priority to US14/524,068 priority patent/US9691387B2/en
Publication of JP2015106014A publication Critical patent/JP2015106014A/ja
Application granted granted Critical
Publication of JP6148163B2 publication Critical patent/JP6148163B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明は、会話支援装置、会話支援装置の制御方法、及び会話支援装置のプログラムに関する。
特許文献1には、会話の内容を音声認識して文字を表示することで、視覚的に聴力を補助する聴力補助装置が開示されている。特許文献1に記載の聴力補助装置では、マイクロホンにより集音された音声を音声認識部が認識し、音声認識結果に基づいて認識した内容に対応する文字を表示手段に表示している。また、特許文献1に記載の聴力補助装置では、発話者が送信機を使用し、聴取者が受信機を使用する。そして、送信機は、マイクロホンと音声認識回路と送信部等を有し、音声認識結果に基づいて認識した内容に対応する文字情報を送信部が受信機に送信する。受信機は、受信部とCPU(中央演算装置)と表示器等を有し、送信機から文字情報を受信した場合に表示器に文字表示を行う。
特開平9−206329号公報
しかしながら、特許文献1に記載の技術では、発話者や聴取者がそれぞれ聴力補助装置を使用することを想定しているため、マイクロホンに複数の音声が混合されて入力されるような場合、それぞれの音声を認識することが困難であるという課題があった。
本発明は、上記の問題点に鑑みてなされたものであって、発話者が複数であっても、それぞれの音声を認識して聴覚を支援することができる会話支援装置、会話支援装置の制御方法、及び会話支援装置のプログラムを提供することを目的とする。
(1)上記目的を達成するため、本発明の一態様に係る会話支援装置は、2以上の使用者の音声信号を入力する音声入力部と、前記音声入力部に入力された音声信号を認識する音声認識部と、前記音声入力部に入力された音声信号の音源方向を推定する音源推定部と、前記音声認識部によって認識された認識結果が表示される表示部と、前記使用者毎に対応する表示領域を前記表示部の画像表示領域に設定し、前記音源推定部によって前記音声信号の音源方向が推定される前、前記音声認識部によって認識された結果を予め定められている表示角度で表示させ、前記音源推定部によって前記音声信号の音源方向が推定された後、前記音源方向に基づく表示角度で、前記音声認識部によって認識された認識結果を前記表示部の前記使用者毎に対応する前記表示領域に表示させ、既に音源定位されている話者とは違う方向から音声を検出した場合には、新たな話者が会議に参加していると判断し、その発話内容を隣り合う既に認識されている話者同士のテキスト表示枠の間に表示させる画像処理部と、を備えることを特徴としている。
(2)また、本発明の一態様に係る会話支援装置において、前記画像処理部は、前記使用者毎に対応する表示領域の表示色、柄、当該表示領域に表示されるアイコン、当該表示領域に表示されるアバターのうち少なくとも1つを前記使用者毎に異なるように表示させるようにしてもよい
)また、本発明の一態様に係る会話支援装置において、前記画像処理部は、前記音源推定部によって推定された前記音源方向に基づく画像を、前記表示部の前記使用者毎に対応する前記表示領域に表示させるようにしてもよい。
)また、本発明の一態様に係る会話支援装置は、前記音声入力部に入力された音声信号を前記使用者毎に分離する音源分離部を備え、前記画像処理部は、前記音源分離部によって分離された前記使用者毎の音声信号のうち、前記表示領域に対応する前記使用者以外の前記認識結果を前記表示部の前記使用者毎に対応する表示領域に表示させるようにしてもよい。
)また、本発明の一態様に係る会話支援装置は、前記使用者の位置を推定する位置推定部を備え、前記画像処理部は、前記位置推定部によって推定された前記使用者の位置に応じた位置に、前記使用者毎に対応する表示領域を前記表示部の画像表示領域に設定または再配置するようにしてもよい。
)また、本発明の一態様に係る会話支援装置において、前記位置推定部は、前記音声入力部に入力された音声信号を用いて前記使用者の位置を推定するようにしてもよい。
)また、本発明の一態様に係る会話支援装置は、前記音声認識部によって認識された認識結果を翻訳する翻訳部を備え、前記画像処理部は、前記翻訳部によって翻訳された翻訳結果を前記表示部の前記使用者毎に対応する前記表示領域に表示させるようにしてもよい。
)また、本発明の一態様に係る会話支援装置は、前記使用者が発話する言語を検出する言語情報検出部を備え、前記翻訳部は、前記表示領域に対応する前記使用者以外の前記認識結果を、前記言語情報検出部によって検出された言語に翻訳するようにしてもよい。
)また、本発明の一態様に係る会話支援装置は、他の会話支援装置との通信を行う通信部を備え、前記音声入力部は、前記通信部が受信した前記他の会話支援装置から受信された音声信号を入力し、前記音声認識部は、前記音声入力部から入力された音声信号のうち、前記表示領域に対応する前記使用者以外の音声信号を認識するようにしてもよい。
10)また、本発明の一態様に係る会話支援装置は、前記表示部に表示された画像の一部を選択する入力部を備え、前記画像処理部は、前記入力部によって選択された画像の一部が認識結果である場合、選択された前記認識に対応する他の認識候補を前記表示部に表示させ、前記認識候補のうち前記入力部によって選択された候補に前記認識結果を修正し、修正した前記認識結果を、前記通信部を介して前記他の会話支援装置に送信させるようにしてもよい。
11)上記目的を達成するため、本発明の一態様に係る会話支援装置の制御方法は、音声入力部が、2以上の使用者の音声信号を入力する音声入力手順と、音声認識部が、前記音声入力手順によって入力された音声信号を認識する音声認識手順と、音源推定部が、前記音声入力手順によって入力された音声信号の音源方向を推定する音源推定手順と、画像処理部が、前記使用者毎に対応する表示領域を、前記音声認識手順によって認識された認識結果が表示される表示部の画像表示領域に設定し、前記音源推定手順によって前記音声信号の音源方向が推定される前、前記音声認識部によって認識された結果を予め定められている表示角度で表示させ、前記音源推定手順によって推定された後、前記音源方向に基づく表示角度で、前記音声認識手順によって認識された認識結果を前記表示部の前記使用者毎に対応する前記表示領域に表示させ、既に音源定位されている話者とは違う方向から音声を検出した場合には、新たな話者が会議に参加していると判断し、その発話内容を隣り合う既に認識されている話者同士のテキスト表示枠の間に表示させる画像処理手順と、を含むことを特徴としている。
12)上記目的を達成するため、本発明の一態様に係る会話支援装置のプログラムは、会話支援装置のコンピュータに、2以上の使用者の音声信号を入力する音声入力手順と、前記音声入力手順によって入力された音声信号を認識する音声認識手順と、前記音声入力手順によって入力された音声信号の音源方向を推定する音源推定手順と、前記使用者毎に対応する表示領域を、前記音声認識手順によって認識された認識結果が表示される表示部の画像表示領域に設定し、前記音源推定手順によって前記音声信号の音源方向が推定される前、前記音声認識手順によって認識された結果を予め定められている表示角度で表示させ、前記音源推定手順によって推定された後、前記音源方向に基づく表示角度で、前記音声認識手順によって認識された認識結果を前記表示部の前記使用者毎に対応する前記表示領域に表示させ、既に音源定位されている話者とは違う方向から音声を検出した場合には、新たな話者が会議に参加していると判断し、その発話内容を隣り合う既に認識されている話者同士のテキスト表示枠の間に表示させる画像処理手順と、を実行させることを特徴としている。
上述した(1)、(11)又は(12)の構成によれば、発話者が複数であっても、それぞれの音声を認識して聴覚を支援することができる。
本発明の態様(1)、(11)又は(12)の構成によれば、使用者が認識された結果が見やすくなるため、使用者の利便性を向上することができる。
本発明の態様()によれば、使用者は、自分の表示領域を判別しやすくなる。
本発明の態様()によれば、話者毎の方位の推定や話者毎の発話の分離を精度よく行うことができる。また、他の話者は、相手の発話を精度良く会話支援装置上で視覚的に確認することができるので、話者の聴覚を支援することができる。
本発明の態様()、()によれば、各話者の一番近い位置に表示位置が配置されるため、他の話者の発話内容が認識された文字データ(認識結果)が話者にとって見やすくなる。
本発明の態様()、()によれば、翻訳部によって翻訳された翻訳結果を表示部(画像表示部15)の使用者毎に対応する表示領域に表示されるので、他の話者は、相手の発話を会話支援装置上で視覚的に確認することができるので、話者の聴覚を支援することができる。
本発明の態様()によれば、複数台の会話支援装置を用いて音声認識を行うことができる。
本発明の態様(10)によれば、使用者の発話内容を、他の使用者に正しく提示することができる。
第1実施形態に係る会話支援装置の構成を表すブロック図である。 第1実施形態に係るマイクロホンが本体に組み込まれている場合の例を説明する図である。 第1実施形態に係るマイクロホンがカバーに組み込まれている場合の例を説明する図である。 第1実施形態に係る話者が接話型マイクロホンを使用する場合の例を説明する図である。 第1実施形態に係るメニュー画像の一例を説明する図である。 第1実施形態に係る話者が2人の場合に画像表示部上に表示される画面パターンの画像の例を説明する図である。 第1実施形態に係る話者が3人の場合に画像表示部上に表示される画面パターンの画像の例を説明する図である。 第1実施形態に係る話者が4人の場合に画像表示部上に表示される画面パターンの画像の例を説明する図である。 第1実施形態に係る会話支援装置が行う処理手順のフローチャートである。 実験環境を説明するための図である。 会話を始める前の画像表示部上に表示される画像である。 第1話者が「こんばんは」と発話した後に画像表示部上に表示される画像である。 図12の後に第2話者が「こんばんは」と発話した後に画像表示部上に表示される画像である。 第1話者が4回発話し、第2話者が3回発話した後に画像表示部上に表示される画像である。 話者が3人の場合に画像表示部上に表示される画像の例を説明する図である。 第2実施形態に係る会話支援装置の構成を表すブロック図である。 第2実施形態に係るマイクアレイに対応する各部の組み合わせの例を説明する図である。 第2実施形態に係る音源定位の一例を説明する図である。 第2実施形態に係る会話支援装置が行う処理手順のフローチャートである。 第2実施形態に係る話者の人数が変化した場合の処理を説明する図である。 第3実施形態に係る会話支援装置の構成を表すブロック図である。 第3実施形態に係る複数の会話支援装置の配置の一例を説明する図である。 第3実施形態に係る各会話支援装置の画像表示部に表示される画像の一例を説明する図である。 第3実施形態に係る会話支援装置の構成を表すブロック図である。 第4実施形態に係る会話支援装置の構成を表すブロック図である。 第4実施形態に係る会話支援装置の画像表示部上に表示される画像の一例を説明する図である。
まず、本発明の概要を説明する。
本発明では、マイクロホンで収音された音声信号に含まれる発話のうち、発話者が発した発話を示す情報を他者の表示領域に表示する。本発明では、発話者が複数の場合、表示部の表示領域を発話者の人数に応じた領域に分割し、分割した各領域に各発話者を対応付け、対応付けた各領域に発話を示す情報を表示する。
以下、図面を参照しながら本発明の実施形態について説明する。
[第1実施形態]
図1は、本実施形態に係る会話支援装置1の構成を表すブロック図である。図1に示すように、会話支援装置1は、収音部11(音声入力部)、音響信号取得部12(音声入力部)、音声認識部13(音声認識部、位置推定部)、画像処理部14、画像表示部15(表示部)、及び入力部16を備える。また、画像処理部14は、画像パターン生成部141、表示画像生成部142、及び画像合成部143を備える。
会話支援装置1は、例えばタブレット型の端末、携帯電話、携帯ゲーム機、テーブルの表面に画像表示部を備える端末等である。以下の実施形態では、会話支援装置1がタブレット型の端末(以下、タブレット端末ともいう)について説明する。
入力部16は、画像表示部15上に設けられたタッチパネルセンサーであり、使用者によってタッチされた画面上の座標情報を、画像処理部14に出力する。なお、入力部16は、有線または無線接続による外付けの入力装置であってもよい。外付けの入力装置は、例えば、キーボード、マウス等である。
収音部11は、N個(Nは1よりも大きい整数、例えば8個)のチャネルの音響信号を収録し、収録したNチャネルの音響信号を音響信号取得部12に送信する。収音部11は、例えば周波数帯域(例えば200Hz〜4kHz)の成分を有する音波を受信するN個のマイクロホン101−1〜101−Nを備えている。収音部11は、収録したNチャネルの音響信号を無線で送信してもよいし、有線で送信してもよい。Nが1よりも大きい場合には、送信の際にチャネル間で音響信号が同期していればよい。なお、以下の説明において、マイクロホン101−1〜101−Nのうち特定しない場合は、単にマイクロホン101という。また、収音部11のマイクロホン101は、後述するように、会話支援装置1に組み込まれていてもよく、または会話支援装置1に取り付けられていてもよく、あるいは、話者が使う接話マイクロホンであってもよい。
音響信号取得部12は、収音部11のN個のマイクロホン101によって収録されたN個の音響信号を取得する。音響信号取得部12は、時間領域において、取得したN個の音響信号に対してフレーム毎にフーリエ変換を行うことで周波数領域の入力信号を生成する。音響信号取得部12は、フーリエ変換したN個の音響信号を音声認識部13に出力する。なお、N個の音響信号には、マイクロホン101−1〜101−Nを識別できる情報、またはマイクロホン101−1〜101−Nが取り付けられている向きを示す情報を含むようにしてもよい。なお、マイクロホン101−1〜101−Nの向きは、会話支援装置1が備える不図示の方位センサによって取得し、取得した方位に基づく情報と会話支援装置1に組み込まれているマイクロホン101の位置関係に基づいて、マイクロホン101−1〜101−Nが取り付けられている向きを示す情報を推定するようにしてもよい。
音声認識部13は、音響信号取得部12から入力された音響信号に対して音声認識処理を行って発話内容(例えば、単語、文を示すテキスト)を認識する。なお、音声認識部13は、複数の話者による音響信号の場合、話者を判別し、判別した話者毎に発話内容を認識する。また、音声認識部13は、例えば、音響信号取得部12から入力されたNチャネルの音響信号のうち、最も信号レベルが大きな音響信号を取得したマイクロホン101の向きを話者の向きであると例えばMUSIC(MUltiple SIgnal Classification)法によって推定するようにしてもよい。そして、音声認識部13は、話者を示す情報と話者の向きを示す情報と認識データとを、画像処理部14に出力する。
音声認識部13は、例えば、音響モデルである隠れマルコフモデル(HMM:Hidden Markov Model)と単語辞書を備える。
音声認識部13は、例えば、音響信号について予め定めた時間間隔(例えば、10ms)毎に音響特徴量を算出する。音響特徴量は、例えば、34次のメル周波数ケプストラム(MFCC;Mel−Frequency Cepstrum Coefficients)、静的メル尺度対数スペクトル(static MSLS:Mel−Scale Log Spectrum)、デルタMSLS及び1個のデルタパワーの組である特性ベクトル(feature vector)、静的メル尺度対数スペクトル(MSLS:Mel−Scale Log Spectrum)、デルタMSLS及び1個のデルタパワーの組等である。音声認識部13は、算出した音響特徴量から音響モデルを用いて音韻を定め、定めた音韻で構成される音韻列から単語辞書を用いて単語を認識する。
なお、本実施形態の会話支援装置1は、聴覚を支援する装置であるため、使用者である話者は、相手の発話が聞き取りづらい。このため、例えば、話者が2人の場合、第1話者Sp1が発話した場合、まず、第1話者Sp1の発話に基づく文字データが画像表示部15上に表示される。次に、第2話者Sp2は、画像表示部15上に表示された文字データに対する返答を発話する。その後、第1話者Sp1は、画像表示部15上に表示された文字データに対する返答を発話する。このように、2人の話者が同時に発話を行わない場合、図1に示したように、音響信号取得部12から入力された音響信号に対して音響定位処理や音響分離処理を行わなくても、音響信号の特徴量や最も信号レベルの大きなマイクロホン101の音響信号から、どの話者が発話しているのかを判別することができ、かつ発話内容を認識することができる。
画像パターン生成部141は、入力部16から入力された画面上の座標情報に基づいて、後述するメニュー画像を生成し、生成したメニュー画像を画像合成部143に出力する。画像パターン生成部141は、入力部16から入力された画面上の座標情報に基づいて、メニュー画面において、使用者によって選択された内容に従って画面パターンの画像を生成し、生成した画面パターンの画像を画像合成部143に出力する。なお、画面パターンの画像とは、後述するように、話者の人数に応じた表示画像である。
表示画像生成部142は、音声認識部13から入力された話者毎の認識データに対応する文字データを生成し、生成した話者毎の文字データを画像合成部143に出力する。表示画像生成部142は、音声認識部13から入力された話者の向きを示す情報に基づいて、話者毎の向きを話者毎の向きを示す画像を生成し、生成した話者毎の向きを示す画像を画像合成部143に出力する。
画像合成部143は、画像パターン生成部141が生成したメニュー画像を画像表示部15上に表示させる。画像合成部143は、画像パターン生成部141が生成した表示画像において、表示画像生成部142から入力された話者毎の文字データを発話した話者以外の表示領域に表示するように画像を合成する。また、画像合成部143は、表示画像生成部142から入力された話者毎の向きを示す画像を、各話者の表示領域に表示するように画像を合成する。画像合成部143は、合成した画像を画像表示部15上に表示させる。
なお、画像合成部143は、表示画像において、話者毎の文字データを発話した話者の表示領域に表示するように画像を合成してもよい。
画像表示部15には、画像合成部143が出力した画像が表示される。画像表示部15は、例えば液晶表示装置、有機EL(エレクトロルミネッセンス)表示装置、電子インク表示装置等である。
次に、収音部11のマイクロホン101について図2〜図4を用いて説明する。図2は、本実施形態に係るマイクロホン101が本体201に組み込まれている場合の例を説明する図である。図3は、本実施形態に係るマイクロホン101がカバー202に組み込まれている場合の例を説明する図である。図4は、本実施形態に係る話者が接話型マイクロホンを使用する場合の例を説明する図である。なお、図2〜図4に示したマイクロホン101の個数、配置は一例であり、これに限られない。また、図2〜図4において、符号201が示す画像は、会話支援装置1の本体を示す画像である。本体201の形状は、縦長の長方形に限られず、正方形、横長の長方形、円形、楕円形、多角形であってもよい。
図2に示す例では、本体201の周辺部にマイクロホン101が8個組み込まれている。8個のマイクロホン101のうちマイクロホン101−1〜101−4が、紙面に向かった右の長辺に沿って取り付けられ、残りのマイクロホン101−5〜101−8が、紙面に向かった左の長辺に沿って取り付けられている。
図3に示す例では、本体201に取り外し可能なカバー202の周辺部にマイクロホン101が8個組み込まれている。各マイクロホン101と本体201との接続は、有線または無線で接続されるようにしてもよい。図2と同様に、マイクロホン101−1〜101−4が、紙面に向かった右の長辺に沿って取り付けられ、残りのマイクロホン101−5〜101−8が、紙面に向かった左の長辺に沿って取り付けられている。なお、カバー202にマイクロホン101を組み込む例を接続したが、他の例として本体201を保護するバンパー等にマイクロホン101を組み込んでもよい。
図4に示す例では、4人の話者がそれぞれ接話型のマイクロホン101−1〜101−4を使用する例である。各マイクロホン101と本体201との接続は、有線または無線で接続されるようにしてもよい。また、マイクロホン101の位置は、話者に応じた位置であり、話者が2人の場合、話者の配置は、紙面に向かって本体201の左右または上下になることが望ましい。また、話者が4人の場合、話者の配置は、図4に示すように紙面に向かって本体201の右上、右下、左下、左上になることが望ましい。
次に、入力部16によって選択されるメニュー画面について説明する。図5は、本実施形態に係るメニュー画像301の一例を説明する図である。
図5において、メニュー画像301は、使用者が表示画面の選択や切り替えを行うときに画像表示部15に表示される。メニュー画像301には、話者の選択メニュー領域311、話者1人目(第1話者)〜話者4人目(第4話者)がそれぞれ発話する言語の選択メニュー領域312〜315、及び画面の回転選択メニュー領域316を含む。なお、図5に示したメニュー画像301は一例であり、図5のように全てのメニュー画像を1つのメニューとして表示してもよく、または、項目毎に複数のメニュー画像に分けて表示するようにしてもよい。
話者の選択メニュー領域311は、会話支援装置1を利用して会話を行う話者の人数に応じて、話者のうちいずれかの人が入力部16を操作して選択する。話者の選択メニュー領域311において、例えば、「話者2人(緑色)」は、話者が2人であり、2人目の話者に対応する表示色が緑色であることを表している。なお、図5に示した例では、話者1人目〜話者4人目に対応する表示色が固定されている例を示したが、表示色は、複数の話者が同じ色合いにならず、視覚的に判別可能な範囲で選択できるようにしてもよい。この場合、例えば、1人目の話者は、「話者1人(赤色)」を入力部16によって操作して、表示色を変更するようにしてもよい。例えば、1人目の話者によって赤色が選択された後、画像パターン生成部141は、この赤色と隣接しても視覚的に識別可能な色を、他の話者の対応する話者の選択メニュー領域311に表示するようにしてもよい。
話者1人目が発話する言語の選択メニュー領域312には、話者1人目が使用する言語を、入力部16を操作して選択するためのメニュー画像である。同様に、話者2人目〜第4人目が発話する言語の選択メニュー領域313〜315には、話者2人目〜話者4人目が使用する言語を、入力部16を操作して選択するためのメニュー画像である。なお、図5に示した例では、話者が使用する言語の例として、日本語、英語、フランス語、中国語の4カ国語から選択する例を示したが、言語数はこれに限られない。また、図5に示した例では、話者の選択メニュー領域311、話者1人目(第1話者)〜話者4人目(第4話者)がそれぞれ発話する言語の選択メニュー領域312〜315を全て日本語で表示する例を示したが、これに限られない。例えば、話者1人目が発話する言語の選択メニュー領域312のうち「話者1人目:言語 日本語」を日本語で表示し、「話者1人目:言語 英語」を英語で表示し、「話者1人目:言語 フランス語」をフランス語で表示し、「話者1人目:言語 中国語」を中国語で表示するようにしてもよい。
画面の回転選択メニュー領域316は、画面に表示される画像が回転しないように固定させる指示、画面の向きの90度回転させる指示、画面の向きの反転(180度回転)させる指示が含まれる。画面に表示される画像が回転しないように固定させる指示とは、例えば会話支援装置1が備える不図示の本体の回転を検出するセンサの検出出力に応じて、画面の向きを回転させる機能を有している場合であっても、表示画面が回転しないように固定する指示である。また、画面の向きの90度回転させる指示、画面の向きの反転(180度回転)させる指示は、話者の人数や配置に応じて、話者にとって画像表示部15上に表示される画像が最も見やすいように画像の表示向きを回転させたり反転させたりする指示である。
例えば、会話支援装置1に不図示のプロジェクタが接続された場合、画像表示部15上に表示される画像がプロジェクタを介してスクリーンに表示される。この場合、会話支援装置1を回転させたりすると、このスクリーンに表示される画像も回転してしまうため、発話者にとって、自分が見るべき表示領域がわかりづらくなる場合もある。これを防止するため、画面に表示される画像が回転しないように固定させる。
次に、図6〜図8を用いて、画像パターン生成部141が生成する画面パターンの画像の例を説明する。図6は、本実施形態に係る話者が2人の場合に画像表示部15上に表示される画面パターンの画像の例を説明する図である。図7は、本実施形態に係る話者が3人の場合に画像表示部15上に表示される画面パターンの画像の例を説明する図である。図8は、本実施形態に係る話者が4人の場合に画像表示部15上に表示される画面パターンの画像の例を説明する図である。なお、図6〜図8に示した配置及び配色等は一例であり、これに限られない。また、図6〜図8において、画像301A〜画像301Cは、画像表示部15上に表示される画面パターンの画像である。また、各話者に対応する色は、図5に示したメニュー画像のように、話者1人目が赤色、話者2人目が緑色、話者3人目が青色、話者4人目が黄色である。
なお、以下に示した例では、各話者に対応する表示領域を異なる色で区分けした例を示したが、これに限られない。各話者に対応する表示領域は、例えば異なる柄や、話者毎に対応するアイコン、話者毎に対応する擬人化した画像であるアバター等によって、見分けられるようにしてもよい。この場合、領域等を色で識別しなくても話者に対応する表示領域を話者が識別することができるので、画像表示部15に白黒の画像表示装置や電子インク表示装置を用いることができ、消費電力を低減することができる。
図6に示すように、話者が2人の場合、画像301Aは、紙面に向かって上下に分割され、例えば上側の領域に話者1人目に提示する情報の表示領域が割り当てられ、下側の領域に話者2人目に提示する情報の表示領域が割り当てられる。
話者1人目に提示される情報の表示領域の第1提示画像321Aには、後述するように第2話者が発話した発話内容のテキストが表示される文字表示領域の第1文字提示画像322Aを備えている。第1文字提示画像322Aの色は、例えば白色である。また、第1文字提示画像322Aには、後述するように第1話者の向きを示す方位画像323Aが含まれる。図6に示した例は、第1話者は、紙面に対して、上側の正面にいる例である。
話者2人目に提示される情報の表示領域の第2提示画像331Aには、第1話者が発話した発話内容のテキストが表示される文字表示領域の第2文字提示画像332A、及び第2話者の向きを示す方位画像333Aが含まれる。図6に示した例は、第2話者は、紙面に対して、右下にいる例である。第2文字提示画像332Aの色は、例えば白色である。
図7に示すように、話者が3人の場合、画像301Bは3分割され、例えば左上側の領域に話者1人目に提示する情報の表示領域が割り当てられ、左下側の領域に話者2人目に提示する情報の表示領域が割り当てられ、右側の領域に話者3人目に提示する情報の表示領域が割り当てられる。
また、第1話者〜第3話者に対応する表示領域の第1提示画像321B〜第3提示画像341Bそれぞれには、自分を含まない他の発話した発話内容のテキストが表示される文字表示領域の第1文字提示画像322B〜第3文字提示画像342B、及び自分の向きを示す方位画像323B〜324Bが含まれる。第1文字提示画像322B〜第3文字提示画像342Bの色は、例えば白色である。
一例として、話者3人目に提示される情報の表示領域の第3提示画像341Bの第3文字提示画像342Bには、第1話者及び第2話者が発話した発話内容のテキストが表示される。また、方位画像343Bは、第3話者の向きを表す。
図8に示すように、話者が4人の場合、画像301Cは4分割され、例えば左上側の領域に話者1人目に提示する情報の表示領域が割り当てられ、左下側の領域に話者2人目に提示する情報の表示領域が割り当てられる。また、右下側の領域に話者3人目に提示する情報の表示領域が割り当てられ、右上側の領域に話者4人目に提示する情報の表示領域が割り当てられる。
また、第1話者〜第4話者に対応する表示領域の第1提示画像321C〜第4提示画像351Cそれぞれには、自分を含まない他の発話した発話内容のテキストが表示される文字表示領域の第1文字提示画像322C〜第4文字提示画像352C、及び自分の向きを示す方位画像323C〜353Cが含まれる。第1文字提示画像322C〜第4文字提示画像352Cの色は、例えば白色である。
一例として、話者4人目に提示される情報の表示領域の第4提示画像351Cの第4文字提示画像352Cには、第1話者〜第3話者が発話した発話内容のテキストが表示される。また、方位画像353Cは、第4話者の向きを表す。
なお、各話者は、例えば図8において、自分の方向を画像表示部15に設けられているタッチパネル式の入力部16を操作することで初期の話者方向を入力するようにしてもよい。この場合、会話支援装置1は、入力された初期の話者方向に応じた報告に発話内容のテキストを表示させ続けるようにしてもよい。
なお、図6〜図8に示した例のように、画像パターン生成部141は、例えば、自分を含まない他の発話した発話内容のテキストが表示される文字表示領域の画像の大きさが均等になるように、各表示領域を分割する。または、画像パターン生成部141は、会話支援装置1が備える不図示の傾き検出センサの検出結果に基づいて、装置がテーブルなどの上に傾けて置かれていることを検出し、検出された傾きの角度に応じて、文字表示領域の画像の大きさの比を演算し、演算した比に基づく文字表示領域の画像の大きさに応じて分割する各領域の大きさを決定するようにしてもよい。
なお、2〜4分割された領域のうち、どの領域がどの話者に対応するかは、予め画像パターン生成部141に記憶されている。画像パターン生成部141は、入力部16から入力された指示に応じて、どの領域がどの話者に対応するかを切り替えるようにしてもよい。例えば、図8において、第2話者と第4話者の位置が入れ替わった場合、例えば第2話者は、画像表示部15がタッチパネル式の入力部16において、第2提示画像331Cを第4提示画像351Cの領域に移動させるように操作することで、第2提示画像331Cと第4提示画像351Cとを入れ替えるようにしてもよい。これにより、話者の位置が途中で入れ替わった場合であっても、本実施形態によれば、それまでの会話内容の表示を維持したままの画面を見ることができるので、話者に対する利便性が向上する。
次に、会話支援装置1が行う処理手順を説明する。図9は、本実施形態に係る会話支援装置1が行う処理手順のフローチャートである。
(ステップS1)話者は、図5に示したメニュー画像301において、入力部16を操作することで、使用者人数を選択する。次に、各話者は、図5に示したメニュー画像301において、入力部16を操作することで、使用する言語を選択する。次に、入力部16は、話者によって選択された画面上の座標情報を、画像処理部14に出力する。
(ステップS2)画像パターン生成部141は、入力部16から入力された画面上の座標情報に基づいて、メニュー画面において、使用者によって選択された内容に従って画面パターンの画像を生成し、生成した画面パターンの画像を画像合成部143に出力する。次に、画像合成部143は、画像パターン生成部141が生成したメニュー画像を画像表示部15上に表示させる。
(ステップS3)音響信号取得部12は、例えば入力部16によって認識開始が指示されたことが検出された後、またはステップS1が行われたタイミング等で、収音部11のN個のマイクロホン101によって収録されたN個の音響信号の取得を開始する。次に、音響信号取得部12は、フーリエ変換したN個の音響信号を音声認識部13に出力する。
(ステップS4)音声認識部13は、音響信号取得部12から入力された音響信号に対して、話者毎に音声認識処理を行って発話内容を認識する。次に、音声認識部13は、話者毎に話者の向きを、例えば、話者の発話時に最も信号レベルが大きい音響信号を取得したマイクロホン101の向きに基づいて推定する。次に、音声認識部13は、話者を示す情報と話者の向きを示す情報と認識データとを、画像処理部14に出力する。
(ステップS5)表示画像生成部142は、音声認識部13から入力された話者毎の認識データに対応する文字データを生成し、生成した話者毎の文字データを画像表示部15に出力する。表示画像生成部142は、音声認識部13から入力された話者の向きを示す情報に基づいて、話者毎の向きを話者毎の向きを示す情報の画像を生成し、生成した話者毎の向きを示す情報の画像を画像合成部143に出力する。
(ステップS6)画像合成部143は、画像パターン生成部141が生成した表示画像において、表示画像生成部142から入力された話者毎の文字データを発話した話者以外の表示領域に表示するように画像を合成する。次に、画像合成部143は、表示画像生成部142から入力された話者毎の向きを示す情報の画像を、各話者の表示領域に表示するように画像を合成する。次に、画像合成部143は、合成した画像を画像表示部15上に表示させる。
以上で、会話支援装置1が行う処理を終了する。
<実験結果の説明>
ここで、本実施形態に係る会話支援装置1を用いて行った実験結果の例を説明する。図10は、実験環境を説明するための図である。
図10に示すように、会話支援装置1は、テーブル401の上に傾けて置かれている。また、会話支援装置1は、一方の長手方向がテーブル401に接するように置かれている。実験は、所定の広さを有する部屋で行った。また、話者は第1話者Sp1と第2話者Sp2の2人であり、第1話者Sp1と第2話者Sp2とは椅子402に着席した状態である。
図11は、会話を始める前の画像表示部15上に表示される画像501である。画像501において、紙面に向かって上方向の第1提示画像521が第1話者Sp1に提示される領域であり、紙面に向かって下方向の第2提示画像531が第2話者Sp2に提示される領域である。図10における会話支援装置1の画像表示部15上において、第1話者Sp1及び第2話者Sp2から見て左側に第1提示画像521が表示され、右側に第2提示画像531が表示される。図11に示した図は、第1話者Sp1または第2話者Sp2によって、話者の人数として2人が選択された後に画像表示部15に表示される画像である(ステップS2)。また、第1提示画像521は第1文字提示画像522を備え、第2提示画像531は第2文字提示画像532を備えている。
図12は、第1話者Sp1が「こんばんは」と発話した後に画像表示部15上に表示される画像である。図12に示すように、第2文字提示画像532には、第1話者Sp1の発話を認識した文字を示す画像534Aである「こんばんは」が画像処理部14によって表示される。この時点で、第2話者Sp2は、まだ発話を行っていないため、第2話者Sp2の向きが不明である。このため、図12に示すように、画像534Aである「こんばんは」は、初期方向に向けて画像処理部14によって表示される。また、第1文字提示画像522には、第1話者Sp1の向きを示す方位画像523が画像処理部14によって表示される。なお、方位画像523において、矢印の矢の先の向きが第1話者Sp1の向きである。
図13は、図12の後に第2話者Sp2が「こんばんは」と発話した後に画像表示部15上に表示される画像である。この時点で、第2話者Sp2が発話を行ったため、音声認識部13は、第2話者Sp2の向きを推定する。そして、第2文字提示画像532には、第2話者Sp2の向きを示す方位画像533が画像処理部14によって表示される。この結果、第2文字提示画像532に表示される画像534Aは、第2話者Sp2の向きに合わせて表示が表示画像生成部142によって回転されて表示される。
さらに、第1文字提示画像522には、第2話者Sp2の発話を認識した文字を示す画像524Aである「こんばんは」が、第1話者Sp1の向きに応じた方向に画像処理部14によって表示される。
図14は、第1話者Sp1が4回発話し、第2話者Sp2が3回発話した後に画像表示部15上に表示される画像である。
第1文字提示画像522には、第2話者Sp2の発話を認識した文字の画像524A〜524Cが表示されている。そして、図14に示すように、画像524A〜524Cは、第1話者Sp1にとって画像表示部15の奥から手前に向かって順次、表示される。また、第2文字提示画像532には、第1話者Sp1の発話を認識した文字の画像534A〜534Dが表示されている。そして、図14に示すように、画像534A〜534Dは、第2話者Sp2にとって画像表示部15の奥から手前に向かって順次、表示される。図14において、発話順番は、例えば、画像534A−>画像524A−>画像534B−>画像524B−>画像534C−>画像524C−>画像534Dの順番である。
なお、表示画像生成部142は、例えば第1文字提示画像522が認識された文字に対応する画像で埋め尽くされたか否かを判別し、第1文字提示画像522が認識された文字に対応する画像で埋め尽くされたと判別した場合、古い発話に対応する画像から消去するようにしてもよく、または画像をスクロールするようにしてもよい。そして、第1話者Sp1は、消去された発話に対応する画像を見たいときに、画像表示部15上の第1文字提示画像522の過去に表示された文字の画像を呼び出すように、画像表示部15上に設けられているタッチパネルの入力部16を操作することで、過去の発話も参照することができるように、画像処理部14が処理するようにしてもよい。
なお、図12〜図14において、第1文字提示画像522に表示される画像の大きさが全て等しい例を示したが、これに限られない。例えば、最新の発話を認識した結果の画像を、例えば第1文字提示画像522の中央に大きく表示させ、過去の発話に基づく画像を小さく表示するようにしてもよい。第2文字提示画像532に表示させる画像についても同様である。
また、図12〜図14では、各会話に対応する文字を1行に収まるように表示画像生成部142が、文字サイズを決定するようにしてもよい。または、表示画像生成部142は、所定の文字サイズで認識された文字に対応する画像を数行に渡って表示するようにしてもよい。この場合、音声認識部13は、認識した認識データに文節を示す情報を含めて画像処理部14に出力するようにしてもよい。これにより、表示画像生成部142は、認識された文が所定の文字サイズでは1行に収まらないと判別した場合、音声認識部13から入力された文節を示す情報を用いて、文の中において文節の切れ目の位置で折り返すようにしてもよい。
また、例えば、図14に示した例において、認識された文字に対応する画像524A〜524Cは、第2話者Sp2に対応する色で表示するようにしてもよい。同様に、認識された文字に対応する画像534A〜534Dは、第1話者Sp1に対応する色で表示するようにしてもよい。
次に、話者が3人の場合に画像表示部15上に表示される画像の例を説明する。図15は、話者が3人の場合に画像表示部15上に表示される画像601の例を説明する図である。
画像601は、図7に示した画像301Bに対応し、各符号621、622、623、631、632、633、641、642、及び643それぞれは、図7の符号321B、322B、323B、331B、332B、333B、341B、342B、及び343Bに対応する。
図15に示した例では、まず第1話者が「こんにちは」と発話する。これにより、第2文字提示画像632に認識された文字に対応する画像634Aが表示され、第3文字提示画像642に認識された文字に対応する画像644Aが表示される。この画像634Aと画像644Aは、第1話者に対応した色、例えば赤色で表示されるようにしてもよい。または第1話者が発話したことを示す情報を、画像634A及び画像644Aに、表示画像生成部142が付加してもよい。第1話者が発話したことを示す情報とは、名前、第1話者に対応するアバター、第1話者に対応するアイコン、第1話者に対応した色のマーク(例えば赤丸)等である。これにより、どの発話者による発話結果が認識されているのかを、視覚的に認識することを支援できる。
次に、第2話者が「やあ!」と発話する。これにより、第1文字提示画像622に認識された文字に対応する画像625Bが表示され、第3文字提示画像642に認識された文字に対応する画像645Bが表示される。この場合も、画像625Bと画像645Bは、第2話者に対応した色、例えば緑色で表示されるようにしてもよい。
以上のように、本実施形態に係る会話支援装置1では、2以上の使用者の音声信号を入力する音声入力部(収音部11、音響信号取得部12)と、音声入力部に入力された音声信号を認識する音声認識部13と、音声認識部によって認識された認識結果が表示される表示部(画像表示部15)と、使用者毎に対応する表示領域を表示部(画像表示部15)の画像表示領域(321A、322A、331A、332A、321B、322B、331B、332B、341B、342B、321C、322C、331C、332C、341C、342C、351C、352C)に設定する画像処理部14と、を備える。
この構成により、本実施形態の会話支援装置1では、発話者が複数であっても、それぞれの音声を認識して聴覚を支援することができる。また、音響信号取得部12が取得した音響信号に対して音響定位処理や音響分離処理を行わないため、装置の演算量を削減することができ、装置の機能部を削減することができる。
また、本実施形態に係る会話支援装置1では、使用者の音源方向を推定する音源推定部(音響信号取得部12)を備え、画像処理部14は、音源推定部によって推定された音源方向に基づく表示角度で、音声認識部によって認識された認識結果を画像表示部15の使用者毎に対応する前記表示領域に表示させる。
この構成により、本実施形態の会話支援装置1では、図13〜図15のように話者の向きに応じた角度で文字データを表示することができる。この結果、本実施形態の会話支援装置1では、使用者が認識された結果が見やすくなるため、使用者の利便性を向上することができる。
また、本実施形態に係る会話支援装置1では、画像処理部14は、音源推定部(音響信号取得部12)によって推定された音源方向に基づく画像を、画像表示部15の使用者毎に対応する表示領域に表示させる。
この構成により、本実施形態の会話支援装置1では、図13〜図15のように話者の向きを示す画像523、533、623,633、643を画像表示部15上に表示させることができるので、使用者は、自分の表示領域を判別しやすくなる。
なお、本実施形態では、例えば話者が4人の場合、メニューから選択された人数に応じた表示領域を図8のように表示させる例を説明したが、これに限られない。会話支援装置1は、例えば、会話開始前に4人の話者(第1話者Sp1〜第4話者Sp4)の音声を登録する。そして、4人の話者が各々所定の位置にいる場合、会話支援装置1の音声認識部13は、4人の話者によって順次発話が行われたとき、発話された音声を用いて発話者の位置を推定する。そして、画像処理部14は、音声認識部13によって推定された各発話者の位置に基づいて、各画像表示位置を決定、または再配置するようにしてもよい。
例えば、4人の話者(第1話者Sp1〜第4話者Sp4)が図4のような位置にいるとする。ここで、第1話者Sp1〜第4話者Sp4それぞれは、マイクロホン101−1〜101−4を使用しているとする。
音声認識部13は、順次発話された各発話者の音声認識を行い、第1話者Sp1の表示領域を図8において第4提示画像351Cの右上に配置し、第2話者Sp2の表示領域を図8において第3提示画像341Cの右下に配置し、第3話者Sp3の表示領域を図8において第2提示画像331Cの左下に配置し、第4話者Sp4の表示領域を図8において第1提示画像321Cの左上に配置する。このように、複数の話者によって同時に発話が行われず、また会話支援装置1を使用する環境に雑音が少ない場合は、本実施形態の会話支援装置1のように、音源定位処理や音源分離処理を行わなくても、上述した処理を行うことができる。
以上のように、本実施形態に係る会話支援装置1では、使用者の位置を推定する位置推定部(音声認識部13)を備え、画像処理部14は、位置推定部によって推定された使用者の位置に応じた位置に、使用者毎に対応する表示領域を表示部の画像表示領域に設定または再配置する。
この構成によって、本実施形態の会話支援装置1では、各話者の一番近い位置に表示位置が配置されるため、他の話者の発話内容が認識された文字データ(認識結果)が話者にとって見やすくなる。
[第2実施形態]
図16は、本実施形態に係る会話支援装置1Aの構成を表すブロック図である。図16に示すように、会話支援装置1Aは、収音部11、音響信号取得部12、音声認識部13A、画像処理部14、画像表示部15、入力部16、音源定位部21(音源推定部)、音源分離部22、言語情報検出部23、及び翻訳部24を備える。また、画像処理部14は、画像パターン生成部141、表示画像生成部142、及び画像合成部143を備える。なお、図1で説明した会話支援装置1と同じ機能を有する機能部には同じ符号を用いて、説明を省略する。
音源定位部21は、音響信号取得部12から入力された入力信号に基づいて、音源の方位角を推定し、推定した方位角を示す方位角情報とNチャネルの音響信号を音源分離部22に出力する。音源定位部21が推定する方位角は、例えば、収音部11が備えるN個のマイクロホンの位置の重心点から、当該N個のマイクロホンのうち予め定めた1個のマイクロホンへの方向を基準とした、水平面内の方向である。例えば、音源定位部21は、GSVD−MUSIC(Generalized Singular Value Decomposition−Multiple Signal Classification;一般化特異値展開を用いたMUSIC)法を用いて方位角を推定する。
なお、方位角の推定には、WDS−BF(Weighted Delay and Sum Beam Forming;重み付き遅延和ビームフォーミング)法、MUSIC法等の他の音源方向推定方式を用いてもよい。
音源分離部22は、音源定位部21が出力したNチャネルの音響信号を取得し、取得したNチャネルの音響信号を、例えばGHDSS(Geometric High−order Decorrelation−based Source Separation)法を用いて話者毎の音響信号に分離する。GHDSS方については、後述する。または、音源分離部22は、例えば独立成分分析(Independent Component Analysis;ICA)法を用いて、音源分離処理を行ってもよい。音源分離部22は、分離した話者毎の音響信号と音源定位部21から入力された方位角情報とを、言語情報検出部23に出力する。
なお、音源分離部22は、例えば自部に記憶されている室内の伝達関数を用いて、雑音と話者の音響信号とを分離した後、話者毎の音響信号を分離するようにしてもよい。音源分離部22は、例えばNチャネルの音響信号毎に音響特徴量を算出し、算出した音響特徴量及び音源定位部21から入力された方位角情報に基づいて、話者毎の音響信号に分離するようにしてもよい。
言語情報検出部23は、音源分離部22から入力された話者毎の音響信号毎に、周知の手法によって話者毎の言語を検出する。言語情報検出部23は、検出した話者毎の言語を示す情報、音源分離部22から入力された話者毎の音響信号及び方位角情報を音声認識部13Aに出力する。言語情報検出部23は、例えば言語データベースを参照して、参照した結果に基づいて話者毎の言語を検出する。言語データベースは、会話支援装置1Aが備えていてもよく、有線または無線のネットワークを介して接続されていてもよい。
音声認識部13Aは、言語情報検出部23から入力された話者毎の言語を示す情報、話者毎の音響信号及び方位角情報に基づいて、音響信号取得部12から入力された音響信号に対して音声認識処理を行って発話内容(例えば、単語、文を示すテキスト)を認識する。音声認識部13Aは、発話内容、話者を示す情報、話者の向きを示す情報と認識データ、及び、話者毎の言語を示す情報を翻訳部24に出力する。
翻訳部24は、音声認識部13Aから入力された発話内容、話者を示す情報、話者毎の言語を示す情報に基づいて、必要に応じて発話内容を翻訳し、翻訳した発話内容を示す情報を音声認識部13Aから入力された情報に加えて、または置き換えて、画像処理部14に出力する。具体的には、話者が第1話者Sp1と第2話者Spの2人であり、第1話者Sp1の使用言語が日本語、第2話者Sp2の使用言語が英語の場合を、図14を用いて説明する。この場合、第2文字提示画像532に表示される画像534A〜534Dが、第1話者Sp1が発話した日本語から第2話者Sp2の使用言語である英語に翻訳して表示されるように、翻訳部24は発話内容を翻訳する。また、第1文字提示画像522に表示される画像524A〜524Cが、第2話者Sp2が発話した英語から第1話者Sp1の使用言語である日本語に翻訳して表示されるように、翻訳部24は発話内容を翻訳する。
<GHDSS法>
ここで、音源分離部22で用いられるGHDSS法の概略について説明する。GHDSS法は、GC(幾何拘束に基づく音源分離)法と、HDSS(High−order Dicorrelation−based Source Separation;高次元無相関化に基づく音源分離)法を統合した手法である。GHDSS法は、1種のブラインド分離処理(blind deconvolution)である。GHDSS法は、分離行列(separation matrix)[V(ω)]を逐次に算出し、入力音声ベクトル[x(ω)]に算出した分離行列[V(ω)]を乗算して音源ベクトル[u(ω)]を推定することで、音源毎の音響信号に分離する手法である。分離行列[V(ω)]は、各音源から収音部11が備える各マイクロホン101までに伝達関数を要素として有する伝達関数[H(ω)]の擬似逆行列(pseudo−inverse matrix)である。入力音声ベクトル[x(ω)]は、各チャネルの音響信号の周波数領域係数を要素として有するベクトルである。音源ベクトル[u(ω)]は、各音源が発する音響信号の周波数領域係数を要素として有するベクトルである。
GHDSS法は、分離行列[V(ω)]を算出するとき、分離尖鋭度(separation sharpness)JSS、幾何制約度(geometrix constraints)JGCといった2つのコスト関数を、それぞれ最小化するように音源ベクトル[u(ω)]を推定する。
ここで、分離尖鋭度JSSは、1つの音源が他の音源として誤って分離される度合いを表す指標値であり、例えば、次式(1)で表される。
Figure 0006148163
式(2)において、||…||は、フロベニウスノルム(Frobenius norm)を示す。*は、ベクトル又は行列の共役転置(conjugate transpose)を示す。また、diag(…)は、…の対角要素からなる対角行列(diagonal matrix)を示す。
幾何制約度JGCは、音源ベクトル[u(ω)]の誤差の度合いを表す指標値であり、例えば、次式(2)で表される。
Figure 0006148163
なお、式(2)において、[I]は、単位行列を示す。
なお、収音部11が有するマイクロホン101−1〜101−Nによってマイクロホンアレイを構成した場合、話者は、自分が発話する際に、自分が発話することを示す情報を会話支援装置1Aに入力または選択しなくてもよい。この場合、会話支援装置1Aは、マイクロホンアレイを用いて、話者毎の発話に分離することができる。
次に、図16に示した各部を使用する組み合わせの例を説明する。図17は、本実施形態に係るマイクアレイに対応する各部の組み合わせの例を説明する図である。
図17において、マイクロホンアレイ1とは、図2に示したように会話支援装置1Aにマイクロホン101のアレイが組み込まれているマイクロホンアレイである。マイクロホンアレイ2とは、図3に示したように、マイクロホン101が有線または無線で会話支援装置1Aに接続されるマイクロホンアレイである。マイクロホンアレイ3とは、図4に示したように、各話者が例えば口元に接話型のマイクロホン101を使用し、マイクロホン101が有線または無線で会話支援装置1Aに接続されるマイクロホンアレイである。
図17の1行目に示すように、マイクロホンアレイ(単にアレイともいう)1〜3の場合、話者の位置等に応じて、音響信号の定位や分離状態が良い場合、会話支援装置1Aは、音源定位部21及び音源分離部22を備えていなくてもよい。また、翻訳を行う必要がない場合や、話者が使用する言語が同一の場合等、会話支援装置1Aは、言語情報検出部23及び翻訳部24を備えていなくてもよい。すなわち、言語情報検出部23及び翻訳部24は、オプションであってもよい。
図17の2行目に示すように、マイクロホンアレイ1及び2の場合、話者の位置等に応じて、音響信号の分離状態が良い場合、会話支援装置1Aは、音源分離部22を備えていなくてもよい。また、翻訳を行う必要がない場合や、話者が使用する言語が同一の場合等、会話支援装置1Aは、言語情報検出部23及び翻訳部24を備えていなくてもよい。
図17の3行目に示すように、マイクロホンアレイ1及び2の場合、話者の位置等に応じて、会話支援装置1Aは、音源定位部21及び音源分離部22を備えていてもよい。また、翻訳を行う必要がない場合や、話者が使用する言語が同一の場合等、会話支援装置1Aは、言語情報検出部23及び翻訳部24を備えていなくてもよい。
図18は、本実施形態に係る音源定位の一例を説明する図である。
図18に示すように4人の話者Sp1〜Sp4が、会話支援装置1Aを囲んでいる。そして、話者Sp1は、自分に最も近い第4提示画像351Cを予め選択し、話者Sp2は、自分に最も近い第1提示画像321Cを予め選択する。話者Sp3は、自分に最も近い第2提示画像331Cを予め選択し、話者Sp4は、自分に最も近い第3提示画像341Cを予め選択する。
話者Sp1が発話を行っていない場合、会話支援装置1Aは、話者Sp1がいる方位を推定することができない。このため、会話支援装置1Aは、まず、会話支援装置1Aの画像表示部15の面に対して360度方向の取得された音響信号に対して音源定位処理を行う。そして、話者Sp1が発話した場合、この発話に基づいて音源定位を行う。この処理によって、話者Sp1の発話方向を推定できるので、会話支援装置1Aは、以後、話者Sp1の音響信号の探索範囲を、話者Sp1に最も近い第4提示画像351C(表示領域)に基づいて、例えばθの角度の範囲に変更するようにしてもよい。これにより、音源定位処理の演算量を削減することができ、さらに音源定位の精度を向上させることができる。同様に、会話支援装置1Aは、話者Sp2が発話した後、話者Sp2の音響信号の探索範囲を、話者Sp2に最も近い第1提示画像321Cに基づいて、例えばθの角度の範囲に変更するようにしてもよい。会話支援装置1Aは、話者Sp3が発話した後、話者Sp3の音響信号の探索範囲を、話者Sp3に最も近い第2提示画像331Cに基づいて、例えばθの角度の範囲に変更するようにしてもよく、話者Sp4が発話した後、話者Sp4の音響信号の探索範囲を、話者Sp4に最も近い第3提示画像341Cに基づいて、例えばθの角度の範囲に変更するようにしてもよい。なお、θ〜θそれぞれの角度は、例えば90度である。
なお、上述した例では、図18を用いて話者が4人の例を説明したが、これに限られない。話者が2人の場合、話者毎の音響信号の探索範囲を、図6のように話者毎の表示領域(321A、331A)に基づいて、例えば360度から180度の角度の範囲に変更するようにしてもよい。あるいは、話者が3人の場合、話者毎の音響信号の探索範囲を、例えば360度から120度の角度の範囲に変更するようにしてもよい。すなわち、会話支援装置1Aは、各話者の探索範囲を、各話者の表示領域に基づいて変更するようにしてもよい。これにより、会話支援装置1Aは、探索範囲を狭くすることができるので、方位の推定精度を向上することができ、かつ会話支援装置1Aの演算量を削減することができる。
また、例えば音声認識部13Aが話者同定を行うようにしてもよい。例えば、認識を開始させる前に、話者毎に音声を会話支援装置1Aに予め登録させる。これにより、例えば話者Sp1が発話した場合、音声認識部13Aは、音源分離部22によって分離された音響信号から話者Sp1の音響信号を同定するようにしてもよい。
また、各話者に提示される画像に表示される言語は、予めメニューから選択された言語に基づくものであってもよい。例えば話者Sp1が、使用言語として日本語をメニューから選択した場合、他の話者がフランス語で発話した結果を翻訳部24が翻訳し、翻訳された結果を第1文字提示画像322Cに表示するようにしてもよい。このため、他の話者が、フランス語、英語、中国語で発話したとしても、会話支援装置1Aは、図18において、第4文字提示画像352Cに他の話者の発話を全て日本語で表示するようにしてもよい。
会話支援装置1Aが行う処理手順を説明する。図19は、本実施形態に係る会話支援装置1Aが行う処理手順のフローチャートである。
(ステップS101〜S103)ステップS101〜S103は、ステップS1〜S3(図9参照)と同様に行う。なお、ステップS101において、各話者は、他の話者の発話を翻訳するか否かをメニュー画像301において、選択するようにしてもよい。
(ステップS104)音源定位部21は、音響信号取得部12から入力された入力信号に基づいて、音源の方位角を推定し、推定した方位角を示す方位角情報とNチャネルの音響信号を音源分離部22に出力する。音源定位部21は、ステップS104終了後、処理をステップS105に進める。
(ステップS105)音源分離部22は、音源定位部21が出力したNチャネルの音響信号を取得し、取得したNチャネルの音響信号を、例えばGHDSS法を用いて話者毎の音響信号に分離する。次に、音源分離部22は、分離した話者毎の音響信号と音源定位部21から入力された方位角情報とを、言語情報検出部23に出力する。音源分離部22は、ステップS105終了後、処理をステップS106に進める。
(ステップS106)言語情報検出部23は、音源分離部22から入力された話者毎の音響信号毎に、周知の手法によって話者毎の言語を検出する。言語情報検出部23は、検出した話者毎の言語を示す情報、音源分離部22から入力された話者毎の音響信号及び方位角情報を音声認識部13Aに出力する。言語情報検出部23は、ステップS106終了後、処理をステップS107に進める。
(ステップS107)音声認識部13Aは、言語情報検出部23から入力された話者毎の言語を示す情報、話者毎の音響信号及び方位角情報に基づいて、音響信号取得部12から入力された音響信号に対して音声認識処理を行って発話内容を認識する。次に、音声認識部13Aは、発話内容、話者を示す情報、話者の向きを示す情報と認識データ、及び、話者毎の言語を示す情報を翻訳部24に出力する。音声認識部13Aは、ステップS107終了後、処理をステップS108に進める。
(ステップS108)翻訳部24は、音声認識部13Aから入力された発話内容、話者を示す情報、話者毎の言語を示す情報に基づいて発話内容を翻訳し、翻訳した発話内容を示す情報を音声認識部13Aから入力された情報に加えて、または置き換えて、画像処理部14に出力する。翻訳部24は、ステップS108終了後、処理をステップS109に進める。
(ステップS109〜S110)ステップS109〜S110は、ステップS5〜S6(図9参照)と同様に行う。
以上で、会話支援装置1Aが行う処理を終了する。
なお、図19に示した例では、会話支援装置1Aが図16の全ての機能部を備え、全ての機能部を使用する例を説明したが、これに限られない。図17に示したようにマイクロホンアレイに応じて、会話支援装置1Aは、使用する機能部と処理とを選択するようにしてもよい。
以上のように、本実施形態に係る会話支援装置1Aでは、使用者の音源方向を推定する音源推定部(音源定位部21)を備え、画像処理部14は、音源推定部によって推定された前記音源方向に基づく表示角度で、音声認識部13Aによって認識された認識結果を表示部(画像表示部15)の前記使用者毎に対応する表示領域に表示させる。
また、本実施形態に係る会話支援装置1Aでは、音声入力部(収音部11、音響信号取得部12)に入力された音声信号を使用者毎に分離する音源分離部22を備え、画像処理部14は、音源分離部によって分離された使用者毎の音声信号のうち、表示領域に対応する使用者以外の認識結果を前記表示部の使用者毎に対応する表示領域に表示させる。
この構成によって、本実施形態の会話支援装置1Aによれば、音源の定位や分離状況が悪い場合であっても、音源定位部21が音源定位処理を行い、音源分離部22が音源分離処理を行うので、話者毎の方位の推定や話者毎の発話の分離を精度よく行うことができる。この結果、本実施形態の会話支援装置1Aによれば、他の話者は、相手の発話を精度良く会話支援装置1A上で視覚的に確認することができるので、話者の聴覚を支援することができる。
また、本実施形態に係る会話支援装置1Aでは、音声認識部13Aによって認識された認識結果を翻訳する翻訳部24を備え、画像処理部14は、翻訳部によって翻訳された翻訳結果を表示部(画像表示部15)の使用者毎に対応する表示領域に表示させる。
また、本実施形態に係る会話支援装置1Aでは、使用者が発話する言語を検出する言語情報検出部23を備え、翻訳部24は、表示領域に対応する使用者以外の認識結果を、言語情報検出部によって検出された言語に翻訳する。
この構成によって、本実施形態の会話支援装置1Aによれば、言語情報検出部23及び翻訳部24を備えるようにしたので、話者毎に使用言語が異なる場合であっても、必要に応じて他の話者の発話を会話支援装置1A上で視覚的に表示することができる。この結果、実施形態の会話支援装置1Aによれば、他の話者は、相手の発話を会話支援装置1A上で視覚的に確認することができるので、話者の聴覚を支援することができる。
なお、本実施形態では、複数の話者が会話支援装置1Aを使用する例を説明したが、これに限られない。会話支援装置1Aを1人の話者が使用するようにしてもよい。例えば、この話者が初期状態において使用言語を日本語として登録し、英語を発話したとき、会話支援装置1Aは、この話者が発話した英語を登録された言語である日本語に翻訳して話者に対応した画像の提示領域に表示させるようにしてもよい。これにより、本実施形態の会話支援装置1Aでは、外国語の学習支援を行う効果が得られる。
また、本実施形態において、話者のうち1人が退席するような場合、退席する話者は、退席時に、退席を示す情報を会話支援装置1Aに入力または選択するようにしてもよい。会話支援装置1Aは、例えば話者が4人から3人に減った場合、図8に示したレイアウトから図7に示したレイアウトに変更するようにしてもよい。
一方、話者が途中から参加する場合、途中参加する話者は参加を示す情報を会話支援装置1Aに入力または選択するようにしてもよい。会話支援装置1Aは、例えば話者が3人から4人に増えた場合、図7に示したレイアウトから図8に示したレイアウトに変更するようにしてもよい。
図20は、本実施形態に係る話者の人数が変化した場合の処理を説明する図である。図20に示す例では、3人の話者Sp1〜Sp3が、会話支援装置1Aを使用している例である。なお、図20では、話者Sp1〜Sp3の発話方向が推定済みである。
例えば、3人の話者Sp1〜Sp3がいる位置が殆ど変化しない場合、音源定位部21によって定位された音響信号に、話者Sp1〜Sp3とは異なる発話方向の音響信号があった場合、会話支援装置1Aは、新たな話者Sp4が会話に参加したと判別するようにしてもよい。図20に示した例では、話者Sp4が、紙面に向かって右斜め上方向から発話している。この場合、会話支援装置1Aは、この新たな話者Sp4の発話方向を推定し、推定した結果に基づいて、図8に示したような4人の話者に対応した表示画面に切り替えるようにしてもよい。この場合、話者Sp4の位置が、話者Sp1とSp3との間であるため、会話支援装置1Aは、話者Sp4に対応する情報の表示領域を、第1提示画像621と第3提示画像641との間に挿入するように、各表示領域を再レイアウトするようにしてもよい。
[第3実施形態]
第1実施形態及び第2実施形態では、会話支援装置1または会話支援装置1Aが1台の例を説明したが、本実施形態では、会話支援装置1または会話支援装置1Aが複数台の例を説明する。複数台の会話支援装置1または会話支援装置1Aは、例えば話者毎に使用されるようにしてもよい。
図21は、本実施形態に係る会話支援装置1Bの構成を表すブロック図である。図21に示すように、会話支援装置1Bは、収音部11、音響信号取得部12B、音声認識部13A、画像処理部14、画像表示部15、入力部16、音源定位部21、音源分離部22、言語情報検出部23、翻訳部24、及び通信部31を備える。また、画像処理部14は、画像パターン生成部141、表示画像生成部142、及び画像合成部143を備える。なお、図16で説明した会話支援装置1Aと同じ機能を有する機能部には同じ符号を用いて、説明を省略する。なお、図21では、会話支援装置1Bが図16に示した会話支援装置1Aを元にした構成の例を説明したが、会話支援装置1Bは、図1に示した会話支援装置1を元にした構成であってもよい。すなわち、用途に応じて、会話支援装置1Bは、音源定位部21、音源分離部22、言語情報検出部23、及び翻訳部24のうち、いくつかの機能部を備えていなくてもよい。
音響信号取得部12Bは、収音部11のM個(Mは、1以上の整数)のマイクロホン101によって収録されたM個の音響信号を取得する。例えば、Mが2の場合、2個のマイクロホン101によって収録された2個の音響信号を取得する。音響信号取得部12Bは、取得したM個の音響信号を音源定位部21及び通信部31に出力する。また、音響信号取得部12Bは、通信部31から入力されたL個(Lは、1以上の整数)の音響信号を取得する。音響信号取得部12Bは、取得したL個の音響信号を音源定位部21に出力する。なお、音響信号取得部12Bは、通信部31から取得した音響信号に端末を識別する識別情報が含まれている場合、この識別情報も音源定位部21に出力するようにしてもよい。
通信部31は、音響信号取得部12Bから入力されたM個の音響信号を、他の会話支援装置1Bに送信する。また、通信部31は、他の会話支援装置1Bから受信したL個の音響信号を音響信号取得部12Bに出力する。例えば、通信部31は、3台の会話支援装置1Bそれぞれから、2個ずつの音響信号を受信した場合、受信した6個(=2個×3台)の音響信号を音響信号取得部12Bに出力する。また、通信部31は、端末を識別する識別情報を音響信号に含めて音響信号取得部12Bに出力するようにしてもよい。
図22は、本実施形態に係る複数の会話支援装置1Bの配置の一例を説明する図である。図22に示す例では、4台の会話支援装置1B−1〜1B−4が、格子状に配置されている。会話支援装置1B−1〜1B−4は、マイクロホン101−1〜101−8のうち、それぞれ2つのマイクロホン101を備えている。例えば会話支援装置1B−1は、マイクロホン101−1及びマイクロホン101−2を備えている。
会話支援装置1B−1〜1B−4の構成は、図21に示した構成である。会話支援装置1B−1〜1B−4それぞれは、各装置が備える通信部31を介して互いに通信を行う。
また、図22に示すように、会話支援装置1B−1〜1B−4のそれぞれの画像表示部15には、提供される情報の表示領域は1つであり、文字提示画像701〜704も1つずつである。会話支援装置1B−1の文字提示画像701には、会話支援装置1B−2〜1B−4の話者が発話した発話内容が認識されたテキストが表示される。会話支援装置1B−2の文字提示画像702には、会話支援装置1B−1、1B−3、1B−4の話者が発話した発話内容が認識されたテキストが表示される。会話支援装置1B−3の文字提示画像703には、会話支援装置1B−1、1B−2、1B−4の話者が発話した発話内容が認識されたテキストが表示される。会話支援装置1B−4の文字提示画像704には、会話支援装置1B−1〜1B−3の話者が発話した発話内容が認識されたテキストが表示される。
すなわち、図22に示したように4台の会話支援装置1B−1〜1B−4を使用する場合、会話支援装置1B−1が収音した音響信号を通信部31と無線通信を介して、他の会話支援装置1B−2〜1B−3に送信する。一方、他の会話支援装置1B−2〜1B−3がそれぞれ収音した音響信号が、各装置の通信部31と無線通信を介して、会話支援装置1B−1に送信される。この結果、会話支援装置1B−1は、会話支援装置1B−2〜1B−3から受信した各音響信号に対して音声認識を行って、音声認識した結果の文字を画像表示部15上に表示する。なお、各会話支援装置1B−1〜1B−4は、他の会話支援装置1Bから受信した音響信号を直接音声認識処理してもよい。
なお、図22では、4台の会話支援装置1B−1〜1B−4を隣接させて設置させる例を説明したが、これに限られない。例えば、各会話支援装置1B−1〜1B−4は、それぞれ各話者の近傍に配置させるようにしてもよい。
図23は、本実施形態に係る各会話支援装置1Bの画像表示部15に表示される画像の一例を説明する図である。なお、図23は、図22に示したように、4台の会話支援装置1B−2〜1B−4のうち、会話支援装置1B−3の画像表示部15上に表示される画像の一例である。
図23において、符号720で示す領域の画像は、話者に対応する画像である。符号720で示す領域の画像には、会話支援装置1B−1に対応する話者を示す画像721、会話支援装置1B−2に対応する話者を示す画像722、会話支援装置1B−3に対応する話者を示す画像723、会話支援装置1B−4に対応する話者を示す画像724が含まれる。画像721は例えば赤色、画像722は例えば緑色、画像723は例えば青色、画像724は例えば黄色である。なお、各会話支援装置1B−1〜1B−4に対応する画像721〜724は色の画像に限られない。例えば、各会話支援装置1B−1〜1B−4に対応するアバター、アイコン、名前等であってもよい。
また、文字提示画像703に表示される画像は、会話支援装置1B−1に対応する話者の発話の認識データに基づく画像731、会話支援装置1B−2に対応する話者の発話の認識データに基づく画像732、及び会話支援装置1B−4に対応する話者の発話の認識データに基づく画像734である。これらの画像731〜734は、画像721〜724に対応する色で表示されてもよく、アバター、アイコン、名前等が付加されて表示されるようにしてもよい。アバター、アイコン、名前の場合は、例えば各画像731〜734の左に付加されて表示されるようにしてもよい。なお、これらの表示処理は、画像処理部14が行う。
また、1台の会話支援装置1Cのみが全ての機能部を備えるようにしてもよい。そして、他の3台の会話支援装置は、収音部11、音響信号取得部12B、通信部31、画像処理部14、及び画像表示部15を備えるようにしてもよい。この場合、全ての機能を備える会話支援装置1Cが、他の会話支援装置1Cからの音響信号を通信によって取得し、音源定位処理、音源分離処理、音声認識処理、画像生成処理等を行うようにしてもよい。そして生成した画像データを各会話支援装置1Cに送信するようにしてもよい。
図24は、本実施形態に係る会話支援装置1Cの構成を表すブロック図である。図24に示すように、会話支援装置1Cは、収音部11、音響信号取得部12C、音声認識部13A、画像処理部14C、画像表示部15、入力部16、音源定位部21、音源分離部22、言語情報検出部23、翻訳部24、及び通信部31Cを備える。なお、図21で説明した会話支援装置1Bと同じ機能を有する機能部には同じ符号を用いて、説明を省略する。なお、図24では、会話支援装置1Cが図21に示した会話支援装置1Bを元にした構成を備える例を説明したが、会話支援装置1Cは、図1に示した会話支援装置1を元にした構成であってもよい。すなわち、用途に応じて、会話支援装置1Cは、音源定位部21、音源分離部22、言語情報検出部23、及び翻訳部24のうち、いくつかの機能部を備えていなくてもよい。
音響信号取得部12Cは、収音部11のM個(Mは、1以上の整数)のマイクロホン101によって収録されたM個の音響信号を取得する。音響信号取得部12Cは、取得したM個の音響信号を音源定位部21に出力する。また、音響信号取得部12Cは、通信部31Cから入力されたL個(Lは、1以上の整数)の音響信号を取得し、取得したL個の音響信号を音源定位部21に出力する。なお、音響信号取得部12Cは、通信部31Cから取得した音響信号に端末を識別する識別情報が含まれている場合、この識別情報も音源定位部21に出力するようにしてもよい。
画像処理部14Cは、翻訳部24が出力した話者を示す情報と話者の向きを示す情報と認識データに基づいて、話者に対応した端末毎の文字データ及び話者の向きを示す画像を生成する。画像処理部14Cは、生成した話者に対応した端末毎の文字データ及び話者の向きを示す画像を通信部31Cに出力する。また、画像処理部14Cは、自装置に対応する話者に対応した端末毎の文字データ及び話者の向きを示す画像を画像表示部15上に表示させる。
通信部31Cは、他の会話支援装置1Cから受信したL個の音響信号を音響信号取得部12Cに出力する。通信部31Cは、画像処理部14Cから入力された話者に対応した端末毎の文字データ及び話者の向きを示す画像を、無線通信を介して、対応する他の会話支援装置1Cに送信する。
例えば、図22において、会話支援装置1B−1を全ての機能部を備える会話支援装置1C−1とした場合、会話支援装置1B−2〜1B−4それぞれを一部の機能部を備える会話支援装置1C−2〜1C−4とする。また、第1話者Sp1が会話支援装置1C−1を使用し、第2話者Sp2が会話支援装置1C−2を使用し、第3話者Sp3が会話支援装置1C−3を使用し、第4話者Sp4が会話支援装置1C−4を使用するとする。
この場合、会話支援装置1C−2〜1C−3は、収音したM個ずつの音響信号を、それぞれ通信部31Cと無線通信を介して、会話支援装置1C−1に送信する。そして、会話支援装置1C−1は、自装置が収音した音響信号、受信した音響信号全てに対して音声認識を行う。
そして、画像処理部14Cは、自装置の画像表示部15上に第1話者Sp1の向きを示す画像と第2話者Sp2〜第4話者Sp4の発話内容を認識した文字データとを表示させる。
画像処理部14Cは、第2話者Sp2の向きを示す画像と第1話者Sp1、第3話者Sp3、第4話者Sp4の発話内容を認識した文字データを生成する。そして、通信部31Cは、生成された第2話者Sp2の向きを示す画像と第1話者Sp1、第3話者Sp3、第4話者Sp4の発話内容を認識した文字データを、無線通信を介して会話支援装置1C−2に送信する。
同様に、画像処理部14Cによって生成された第3話者Sp3の向きを示す画像と第1話者Sp1、第2話者Sp2、第4話者Sp4の発話内容を認識した文字データを、通信部31Cは、無線通信を介して会話支援装置1C−3に送信する。
さらに、画像処理部14Cによって生成された第4話者Sp4の向きを示す画像と第1話者Sp1〜第3話者Sp3の発話内容を認識した文字データを、通信部31Cは、無線通信を介して会話支援装置1C−4に送信する。
以上のように、本実施形態に係る会話支援装置1B、1Cでは、他の会話支援装置との通信を行う通信部31、31Cを備え、音声入力部(収音部11、音響信号取得部12B、12C)は、通信部が受信した他の会話支援装置から受信された音声信号を入力し、音声認識部13Aは、音声入力部から入力された音声信号のうち、表示領域に対応する前記使用者以外の音声信号を認識する。
この構成によって、本実施形態に係る会話支援装置1B、1Cでは、複数台の会話支援装置1Bを用いて音声認識を行うことができる。
[第4実施形態]
第1〜第3実施形態では、各話者に対応する文字提示画像に他の話者の発話内容を認識した認識データに基づく画像の例を説明したが、これに限られない。本実施形態では、他の話者に限らず、自分の発話も含めて発話内容を認識した認識データに基づく画像が表示する例について説明する。
図25は、本実施形態に係る会話支援装置1Dの構成を表すブロック図である。図25に示すように、会話支援装置1Dは、収音部11、音響信号取得部12B、音声認識部13A、画像処理部14D、画像表示部15、入力部16、音源定位部21、音源分離部22、言語情報検出部23、翻訳部24、及び通信部31Dを備える。なお、図21で説明した会話支援装置1Bと同じ機能を有する機能部には同じ符号を用いて、説明を省略する。なお、図25では、会話支援装置1Dが図21に示した会話支援装置1Bを元にした構成を備える例を説明したが、会話支援装置1Dは、図1に示した会話支援装置1を元にした構成であってもよい。すなわち、用途に応じて、会話支援装置1Dは、音源定位部21、音源分離部22、言語情報検出部23、及び翻訳部24のうち、いくつかの機能部を備えていなくてもよい。
画像処理部14Dは、会話支援装置1Dを使用している話者の発話内容が認識された文字データを画像表示部15上に表示させる。画像処理部14Dは、会話支援装置1Dを使用している話者の発話内容が認識された文字データを通信部31Dに出力する。画像処理部14Dは、画像表示部15上に設けられているタッチパネルである入力部16の操作に基づいて、会話支援装置1Dを使用している話者の発話内容が認識された文字データを修正し、修正した文字データを通信部31Dに出力する。
通信部31Dは、画像処理部14Dから入力された会話支援装置1Dを使用している話者の発話内容が認識された文字データを、無線通信を介して、他の会話支援装置1Dに送信する。また、通信部31Dは、画像処理部14Dから入力された修正された文字データを、無線通信を介して、他の会話支援装置1Dに送信する。なお、通信部31Dは、会話支援装置1Dを使用している話者の発話内容が認識された文字データが入力された後、所定の時間、文字データの送信を待機させ、修正された文字データが入力されたか否かを判別するようにしてもよい。そして、通信部31Dは、所定の時間内に修正された文字データが入力されなかった場合、待機させていた文字データを他の会話支援装置1Dに送信するようにしてもよい。一方、通信部31Dは、所定の時間内に修正された文字データが入力された場合、待機されていた文字データは送信せず、入力された修正された文字データのみを他の会話支援装置1Dに送信するようにしてもよい。
図26は、本実施形態に係る会話支援装置1Dの画像表示部15上に表示される画像の一例を説明する図である。図26に示した例は、4台の会話支援装置1Dが使用され、図22における会話支援装置1B−3に対応する位置に配置される会話支援装置1Dの画像表示部15上に表示される画像の例である。以下の例では、図22において、会話支援装置1B−1が会話支援装置1D−1であるとし、会話支援装置1D−1は、第1話者Sp1が使用するとする。以下同様に、会話支援装置1B−2が会話支援装置1D−2であり、会話支援装置1D−2は、第1話者Sp2が使用するとする。会話支援装置1B−3が会話支援装置1D−3であるとし、会話支援装置1D−3は、第3話者Sp3が使用するとする。会話支援装置1B−4が会話支援装置1D−4であるとし、会話支援装置1D−4は、第4話者Sp4が使用するとする。
図26において、画像751は、第3話者Sp3が発話した発話内容が認識された文字データである。画像751は、第3話者Sp3が「きのう かわいさんに あいましたか?」と発話した音響信号を音声認識した結果である。しかしながら、第3話者Sp3は、「かわいさん」を「河合さん」として話しているつもりであるが、認識結果は「川井さん」と表示されている。この画像751が、会話支援装置1D−3の画像表示部15に表示されず、他の会話支援装置1D−1、1D−2、1D−4の各画像表示部15上のみに表示されても、第1話者Sp1、第2話者Sp2、第4話者Sp4は「川井さん」を知らないため、会話が成り立たないこともあり得る。
このため、本実施形態では、自分が発話した発話内容が認識された文字データも画像表示部15上に表示される。
これにより、第3話者Sp3は、画像751を確認し、例えば認識が異なっている箇所の画像752を画像表示部15が備えるタッチパネルの入力部16を操作して選択する。そして、画像処理部14Dは、選択された画像752に対応する他の変換「河合さん」、「河井さん」等を含む画像753を、図26のように例えば選択された画像752の近傍に表示する。これにより、第3話者Sp3は、画像753から所望の「河合さん」を選択する。入力部16は、選択された「河合さん」を示す情報を画像処理部14Dに出力するようにしてもよい。そして、会話支援装置1D−3の通信部31Dは、画像処理部14Dによって修正された文字データを、他の会話支援装置1Dに送信し直すようにしてもよい。
なお、上述した例では、図22のように複数の会話支援装置1Dに適用する例を説明したが、これに限られない。第1、第2実施形態で説明したように1台の会話支援装置1、1Aにも適用するようにしてもよい。
例えば、図8において、会話支援装置1または1Aは、第1文字提示画像322Aに、第1話者Sp1の発話内容を認識した文字データを表示するようにしてもよい。
以上のように、本実施形態の会話支援装置1Dでは、表示部(画像表示部15)に表示された画像の一部を選択する入力部16を備え、画像処理部14Dは、入力部によって選択された画像の一部が認識結果である場合、選択された認識に対応する他の認識候補を表示部に表示させ、認識候補のうち入力部によって選択された候補に認識結果を修正し、修正した認識結果を、通信部31Dを介して他の会話支援装置に送信させる。
この構成によって、使用者の発話内容を、他の使用者に正しく提示することができる。
なお、第1〜第4実施形態では、話者が2〜4人の例を説明したが、これに限られず5人以上であってもよい。この場合、画像パターン生成部141は、人数に合わせた表示パターンを生成するようにする。または、第3実施形態で説明したように、話者毎に会話支援装置を用いることで、5人以上にも対応することができる。
また、複数の会話支援装置(1、1A、1B、1C、1D)を用いる場合、第3、第4実施形態では、1台の会話支援装置(1、1A、1B、1C、1D)の画像表示部15上に、1人分の表示を行う例を示したが、これに限られない。複数の会話支援装置(1、1A、1B、1C、1D)を用いる場合、各会話支援装置(1、1A、1B、1C、1D)に表示する表示パターンは、例えば図6〜図8に示したように、複数の話者に対応した画面であってもよい。例えば、第3、第4実施形態によれば、各会話支援装置(1、1A、1B、1C、1D)の画像表示部15上に図6に示した表示パターンを表示することで、会話支援装置(1、1A、1B、1C、1D)を2台用いて4人の話者に対応することができる。
なお、第1〜第4実施形態では、会話支援装置1、1A、1B、1Dの例としてタブレット端末等を例に説明したが、これに限られない。例えば、テーブル上に画像表示部15を備える装置に会話支援装置1、1A、1B、1Dを適用するようにしてもよい。または、会話支援装置1、1A、1B、1Dを、電子黒板等に適用するようにしてもよい。また、第3実施形態で説明したように、複数の端末で会話支援装置を構成する場合、これらの各端末は、例えば同じ室内に配置されなくてもよい。例えば、複数の会話支援装置1、1A、1B、1Dは、異なる部屋に配置されるようにしてもよい。さらに、複数の会話支援装置1、1A、1B、1Dは、例えば複数の車両などに搭載されていてもよい。また、複数の端末がネットワークを介して接続されている場合、複数の会話支援装置1、1A、1B、1Dは、例えば異なる国や地域に配置されていてもよい。これにより、離れた位置にいる複数の話者の聴覚の支援を行うことができる。
なお、第1〜第4実施形態において、会話支援装置1、1A、1B、1Dは、画像表示領域に表示される話者の発話を認識した文字を示す画像を、例えば、最新の発話に対応する画像を濃く表示し、過去の発話に対応する画像を薄く表示するようにしてもよい。例えば、会話支援装置1、1A、1B、1Dは、最新の発話に対応する画像を太字で表示し、過去の発話に対応する画像を細字で表示させてもよい。または、過去の発話に対応する画像に用いる文字の大きさを、最新の発話に対応する画像に用いる文字の大きさより大きくしてもよい。
また、第1〜第4実施形態において、話者の発話を認識した画像を表示する位置は、例えば図14では、上から下に順番に表示する例を説明したが、これに限られない。図14において、例えば、会話支援装置1、1A、1B、1Dは、最新の発話に対応する画像を、例えば第1提示画像521の第1文字提示画像522の略中心に表示させ、1つ前の発話に対応する画像をその上部に表示させるようにしてもよい。
また、第1〜第4実施形態において、会話支援装置1、1A、1B、1Dは、話者毎の発話量に応じて、例えば話者毎に提示される情報の表示領域(例えば第1提示画像321A)、またはその表示領域内の文字提示画像(例えば第1文字提示画像322A)の明るさを変化させて表示させてもよい。会話支援装置1、1A、1B、1Dは、例えば、発話回数または発話時間を話者毎に検出し、検出した発話回数または発話時間が他の話者より少ない話者の表示領域または文字提示画像を初期状態の輝度より低くするように制御してもよい。または、会話支援装置1、1A、1B、1Dは、検出した発話回数または発話時間が他の話者より多い話者の表示領域または文字提示画像を初期状態の輝度より高くするように制御してもよい。これにより、使用者は、自分の発話時間または発話回数を認識することができる。または、司会者は、この表示を見て、発話回数の少ない、または発話時間が短い話者に、発話を促すことで会議などの進行において有効に活用することもできる。
なお、第1〜第4実施形態では、会話支援装置1、1A、1B、1Dが、音声認識部13または13Aを備える例を説明したが、音声認識部13または13Aは、例えばネットワーク経由で提供されるようにしてもよい。
なお、本発明における会話支援装置1、1A、1B、1Dの機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより上述した各種の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
1、1A、1B、1C、1D…会話支援装置、11…収音部、12、12B、12C…音響信号取得部、13、13A…音声認識部、14、14C、14D…画像処理部、15…画像表示部、16…入力部、21…音源定位部、22…音源分離部、23…言語情報検出部、24…翻訳部、31、31C、31D…通信部、101−1〜101−N、101−M…マイクロホン、141…画像パターン生成部、142…表示画像生成部、143…画像合成部、321A、321B、321C、521、621…第1提示画像、322A、322B、322C、522、622…第1文字提示画像、323A、333A、323B〜324B、323C〜353C、523、533…方位画像、331A、331B、331C、531、631…第2提示画像、332A、332B、332C、532、632…第2文字提示画像、341B、341C、641…第3提示画像、342B、342C、642…第3文字提示画像、351C…第4提示画像、352C…第4文字提示画像、524A〜524C、534A〜534D、634A、644A、625B、645B…発話が認識された文字の画像

Claims (12)

  1. 2以上の使用者の音声信号を入力する音声入力部と、
    前記音声入力部に入力された音声信号を認識する音声認識部と、
    前記音声入力部に入力された音声信号の音源方向を推定する音源推定部と、
    前記音声認識部によって認識された認識結果が表示される表示部と、
    前記使用者毎に対応する表示領域を前記表示部の画像表示領域に設定し、前記音源推定部によって前記音声信号の音源方向が推定される前、前記音声認識部によって認識された結果を予め定められている表示角度で表示させ、前記音源推定部によって前記音声信号の音源方向が推定された後、前記音源方向に基づく表示角度で、前記音声認識部によって認識された認識結果を前記表示部の前記使用者毎に対応する前記表示領域に表示させ、既に音源定位されている話者とは違う方向から音声を検出した場合には、新たな話者が会議に参加していると判断し、その発話内容を隣り合う既に認識されている話者同士のテキスト表示枠の間に表示させる画像処理部と、
    を備えることを特徴とする会話支援装置。
  2. 前記画像処理部は、
    前記使用者毎に対応する表示領域の表示色、柄、当該表示領域に表示されるアイコン、当該表示領域に表示されるアバターのうち少なくとも1つを前記使用者毎に異なるように表示させる、請求項1に記載の会話支援装置。
  3. 前記画像処理部は、
    前記音源推定部によって推定された前記音源方向に基づく画像を、前記表示部の前記使用者毎に対応する前記表示領域に表示させる
    ことを特徴とする請求項1または請求項2に記載の会話支援装置。
  4. 前記音声入力部に入力された音声信号を前記使用者毎に分離する音源分離部を備え、
    前記画像処理部は、
    前記音源分離部によって分離された前記使用者毎の音声信号のうち、前記表示領域に対応する前記使用者以外の前記認識結果を前記表示部の前記使用者毎に対応する表示領域に表示させる
    ことを特徴とする請求項1から請求項のいずれか1項に記載の会話支援装置。
  5. 前記使用者の位置を推定する位置推定部を備え、
    前記画像処理部は、
    前記位置推定部によって推定された前記使用者の位置に応じた位置に、前記使用者毎に対応する表示領域を前記表示部の画像表示領域に設定または再配置する
    ことを特徴とする請求項1から請求項のいずれか1項に記載の会話支援装置。
  6. 前記位置推定部は、
    前記音声入力部に入力された音声信号を用いて前記使用者の位置を推定する
    ことを特徴とする請求項に記載の会話支援装置。
  7. 前記音声認識部によって認識された認識結果を翻訳する翻訳部を備え、
    前記画像処理部は、
    前記翻訳部によって翻訳された翻訳結果を前記表示部の前記使用者毎に対応する前記表示領域に表示させる
    ことを特徴とする請求項1から請求項のいずれか1項に記載の会話支援装置。
  8. 前記使用者が発話する言語を検出する言語情報検出部を備え、
    前記翻訳部は、
    前記表示領域に対応する前記使用者以外の前記認識結果を、前記言語情報検出部によって検出された言語に翻訳する
    ことを特徴とする請求項に記載の会話支援装置。
  9. 他の会話支援装置との通信を行う通信部を備え、
    前記音声入力部は、
    前記通信部が受信した前記他の会話支援装置から受信された音声信号を入力し、
    前記音声認識部は、
    前記音声入力部から入力された音声信号のうち、前記表示領域に対応する前記使用者以外の音声信号を認識する
    ことを特徴とする請求項1から請求項のいずれか1項に記載の会話支援装置。
  10. 前記表示部に表示された画像の一部を選択する入力部を備え、
    前記画像処理部は、
    前記入力部によって選択された画像の一部が認識結果である場合、選択された前記認識に対応する他の認識候補を前記表示部に表示させ、前記認識候補のうち前記入力部によって選択された候補に前記認識結果を修正し、修正した前記認識結果を、前記通信部を介して前記他の会話支援装置に送信させる
    ことを特徴とする請求項に記載の会話支援装置。
  11. 音声入力部が、2以上の使用者の音声信号を入力する音声入力手順と、
    音声認識部が、前記音声入力手順によって入力された音声信号を認識する音声認識手順と、
    音源推定部が、前記音声入力手順によって入力された音声信号の音源方向を推定する音源推定手順と、
    画像処理部が、前記使用者毎に対応する表示領域を、前記音声認識手順によって認識された認識結果が表示される表示部の画像表示領域に設定し、前記音源推定手順によって前記音声信号の音源方向が推定される前、前記音声認識部によって認識された結果を予め定められている表示角度で表示させ、前記音源推定手順によって推定された後、前記音源方向に基づく表示角度で、前記音声認識手順によって認識された認識結果を前記表示部の前記使用者毎に対応する前記表示領域に表示させ、既に音源定位されている話者とは違う方向から音声を検出した場合には、新たな話者が会議に参加していると判断し、その発話内容を隣り合う既に認識されている話者同士のテキスト表示枠の間に表示させる画像処理手順と、
    を含むことを特徴とする会話支援装置の制御方法。
  12. 会話支援装置のコンピュータに、
    2以上の使用者の音声信号を入力する音声入力手順と、
    前記音声入力手順によって入力された音声信号を認識する音声認識手順と、
    前記音声入力手順によって入力された音声信号の音源方向を推定する音源推定手順と、
    前記使用者毎に対応する表示領域を、前記音声認識手順によって認識された認識結果が表示される表示部の画像表示領域に設定し、前記音源推定手順によって前記音声信号の音源方向が推定される前、前記音声認識手順によって認識された結果を予め定められている表示角度で表示させ、前記音源推定手順によって推定された後、前記音源方向に基づく表示角度で、前記音声認識手順によって認識された認識結果を前記表示部の前記使用者毎に対応する前記表示領域に表示させ、既に音源定位されている話者とは違う方向から音声を検出した場合には、新たな話者が会議に参加していると判断し、その発話内容を隣り合う既に認識されている話者同士のテキスト表示枠の間に表示させる画像処理手順と、
    を実行させることを特徴とする会話支援装置のプログラム。
JP2013247460A 2013-11-29 2013-11-29 会話支援装置、会話支援装置の制御方法、及び会話支援装置のプログラム Active JP6148163B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2013247460A JP6148163B2 (ja) 2013-11-29 2013-11-29 会話支援装置、会話支援装置の制御方法、及び会話支援装置のプログラム
US14/524,068 US9691387B2 (en) 2013-11-29 2014-10-27 Conversation support apparatus, control method of conversation support apparatus, and program for conversation support apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013247460A JP6148163B2 (ja) 2013-11-29 2013-11-29 会話支援装置、会話支援装置の制御方法、及び会話支援装置のプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2017042240A Division JP6464465B2 (ja) 2017-03-06 2017-03-06 会話支援装置、会話支援装置の制御方法、及び会話支援装置のプログラム

Publications (2)

Publication Number Publication Date
JP2015106014A JP2015106014A (ja) 2015-06-08
JP6148163B2 true JP6148163B2 (ja) 2017-06-14

Family

ID=53265830

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013247460A Active JP6148163B2 (ja) 2013-11-29 2013-11-29 会話支援装置、会話支援装置の制御方法、及び会話支援装置のプログラム

Country Status (2)

Country Link
US (1) US9691387B2 (ja)
JP (1) JP6148163B2 (ja)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150145109A (ko) * 2014-06-18 2015-12-29 삼성전자주식회사 자동 번역을 위한 장치 및 방법
US20170018282A1 (en) * 2015-07-16 2017-01-19 Chunghwa Picture Tubes, Ltd. Audio processing system and audio processing method thereof
KR101910383B1 (ko) * 2015-08-05 2018-10-22 엘지전자 주식회사 차량 운전 보조 장치 및 이를 구비한 차량
JP6690200B2 (ja) * 2015-11-20 2020-04-28 株式会社Jvcケンウッド 端末装置、通信方法
JP6610195B2 (ja) * 2015-11-20 2019-11-27 株式会社Jvcケンウッド 端末装置、通信方法
US10185840B2 (en) * 2016-08-30 2019-01-22 Google Llc Conditional disclosure of individual-controlled content in group contexts
JP6672114B2 (ja) * 2016-09-13 2020-03-25 本田技研工業株式会社 会話メンバー最適化装置、会話メンバー最適化方法およびプログラム
JP6646001B2 (ja) * 2017-03-22 2020-02-14 株式会社東芝 音声処理装置、音声処理方法およびプログラム
JP2018159759A (ja) * 2017-03-22 2018-10-11 株式会社東芝 音声処理装置、音声処理方法およびプログラム
EP3602544A4 (en) 2017-03-23 2020-02-05 Joyson Safety Systems Acquisition LLC SYSTEM AND METHOD FOR CORRELATION OF MOUTH IMAGES WITH INPUT COMMANDS
JP7197259B2 (ja) * 2017-08-25 2022-12-27 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 情報処理方法、情報処理装置およびプログラム
JP2019057047A (ja) * 2017-09-20 2019-04-11 株式会社東芝 表示制御システム、表示制御方法及びプログラム
JP7038519B2 (ja) * 2017-10-12 2022-03-18 株式会社バンダイナムコエンターテインメント コンテンツ配信システム、コンピュータシステム及びコンテンツ配信方法
JP6916130B2 (ja) * 2018-03-02 2021-08-11 株式会社日立製作所 話者推定方法および話者推定装置
JP7171402B2 (ja) * 2018-03-29 2022-11-15 パナソニックホールディングス株式会社 音声翻訳装置、音声翻訳方法及びそのプログラム
CN110322881A (zh) * 2018-03-29 2019-10-11 松下电器产业株式会社 语音翻译装置、语音翻译方法及其存储介质
DE102018212902A1 (de) * 2018-08-02 2020-02-06 Bayerische Motoren Werke Aktiengesellschaft Verfahren zum Bestimmen eines digitalen Assistenten zum Ausführen einer Fahrzeugfunktion aus einer Vielzahl von digitalen Assistenten in einem Fahrzeug, computerlesbares Medium, System, und Fahrzeug
US10861457B2 (en) * 2018-10-26 2020-12-08 Ford Global Technologies, Llc Vehicle digital assistant authentication
JP7330066B2 (ja) * 2019-03-27 2023-08-21 パナソニックホールディングス株式会社 音声認識装置、音声認識方法及びそのプログラム
CN110196914B (zh) * 2019-07-29 2019-12-27 上海肇观电子科技有限公司 一种将人脸信息录入数据库的方法和装置
KR20210112726A (ko) * 2020-03-06 2021-09-15 엘지전자 주식회사 차량의 좌석별로 대화형 비서를 제공하는 방법
JP7332519B2 (ja) * 2020-03-30 2023-08-23 本田技研工業株式会社 会話支援装置、会話支援システム、会話支援方法およびプログラム
CN115735178A (zh) * 2020-06-30 2023-03-03 美国斯耐普公司 具有对话气泡和翻译的增强现实眼戴器
WO2022039486A1 (ko) * 2020-08-19 2022-02-24 주식회사 아모센스 음성 신호를 처리하기 위한 음성 처리 장치 및 이를 포함하는 음성 처리 시스템
JP7369110B2 (ja) * 2020-09-30 2023-10-25 本田技研工業株式会社 会話支援装置、会話支援システム、会話支援方法およびプログラム
KR20220059629A (ko) * 2020-11-03 2022-05-10 현대자동차주식회사 차량 및 그의 제어방법
EP4260013A2 (en) * 2020-12-09 2023-10-18 Cerence Operating Company Automotive infotainment system with spatially-cognizant applications that interact with a speech interface
JP2023510057A (ja) * 2020-12-18 2023-03-13 テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド 音声テキスト変換方法、システム、装置、機器及びプログラム
KR20240021631A (ko) * 2022-08-10 2024-02-19 엘지전자 주식회사 디스플레이 장치 및 그 동작 방법

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09206329A (ja) 1996-01-31 1997-08-12 Sony Corp 聴力補助装置
US7035804B2 (en) * 2001-04-26 2006-04-25 Stenograph, L.L.C. Systems and methods for automated audio transcription, translation, and transfer
JP3933449B2 (ja) * 2001-11-22 2007-06-20 株式会社東芝 コミュニケーション支援装置
JP3910898B2 (ja) * 2002-09-17 2007-04-25 株式会社東芝 指向性設定装置、指向性設定方法及び指向性設定プログラム
DE602004021716D1 (de) * 2003-11-12 2009-08-06 Honda Motor Co Ltd Spracherkennungssystem
JP4411590B2 (ja) * 2004-01-23 2010-02-10 末雄 杉本 音声可視化方法及び該方法を記憶させた記録媒体
JP4679254B2 (ja) * 2004-10-28 2011-04-27 富士通株式会社 対話システム、対話方法、及びコンピュータプログラム
JP4599244B2 (ja) * 2005-07-13 2010-12-15 キヤノン株式会社 動画データから字幕を作成する装置及び方法、プログラム、並びに記憶媒体
US7830408B2 (en) * 2005-12-21 2010-11-09 Cisco Technology, Inc. Conference captioning
US7843486B1 (en) * 2006-04-10 2010-11-30 Avaya Inc. Selective muting for conference call participants
EP2241077A2 (en) * 2007-12-17 2010-10-20 Koninklijke Philips Electronics N.V. Method of controlling communications between at least two users of a communication system
US9484019B2 (en) * 2008-11-19 2016-11-01 At&T Intellectual Property I, L.P. System and method for discriminative pronunciation modeling for voice search
US20100283829A1 (en) * 2009-05-11 2010-11-11 Cisco Technology, Inc. System and method for translating communications between participants in a conferencing environment
US9197736B2 (en) * 2009-12-31 2015-11-24 Digimarc Corporation Intuitive computing methods and systems
US8818175B2 (en) * 2010-03-08 2014-08-26 Vumanity Media, Inc. Generation of composited video programming
US20110246172A1 (en) * 2010-03-30 2011-10-06 Polycom, Inc. Method and System for Adding Translation in a Videoconference
US8395653B2 (en) * 2010-05-18 2013-03-12 Polycom, Inc. Videoconferencing endpoint having multiple voice-tracking cameras
US9723260B2 (en) * 2010-05-18 2017-08-01 Polycom, Inc. Voice tracking camera with speaker identification
CN103038765B (zh) * 2010-07-01 2017-09-15 诺基亚技术有限公司 用于适配情境模型的方法和装置
JP2012038131A (ja) * 2010-08-09 2012-02-23 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
US8630854B2 (en) * 2010-08-31 2014-01-14 Fujitsu Limited System and method for generating videoconference transcriptions
JP5950509B2 (ja) * 2011-05-24 2016-07-13 シャープ株式会社 表示装置および表示方法
US9246543B2 (en) * 2011-12-12 2016-01-26 Futurewei Technologies, Inc. Smart audio and video capture systems for data processing systems
EP2845191B1 (en) * 2012-05-04 2019-03-13 Xmos Inc. Systems and methods for source signal separation
US8681203B1 (en) * 2012-08-20 2014-03-25 Google Inc. Automatic mute control for video conferencing
US10026329B2 (en) * 2012-11-26 2018-07-17 ISSLA Enterprises, LLC Intralingual supertitling in language acquisition
US9280972B2 (en) * 2013-05-10 2016-03-08 Microsoft Technology Licensing, Llc Speech to text conversion
US9595271B2 (en) * 2013-06-27 2017-03-14 Getgo, Inc. Computer system employing speech recognition for detection of non-speech audio

Also Published As

Publication number Publication date
US20150154957A1 (en) 2015-06-04
US9691387B2 (en) 2017-06-27
JP2015106014A (ja) 2015-06-08

Similar Documents

Publication Publication Date Title
JP6148163B2 (ja) 会話支援装置、会話支援装置の制御方法、及び会話支援装置のプログラム
EP3707716B1 (en) Multi-channel speech separation
US9864745B2 (en) Universal language translator
US9899028B2 (en) Information processing device, information processing system, information processing method, and information processing program
CN104303177B (zh) 执行即时语音翻译的方法及耳机计算装置
US20030125959A1 (en) Translation device with planar microphone array
JP3933449B2 (ja) コミュニケーション支援装置
JP6464465B2 (ja) 会話支援装置、会話支援装置の制御方法、及び会話支援装置のプログラム
US11145222B2 (en) Language learning system, language learning support server, and computer program product
US20140324412A1 (en) Translation device, translation system, translation method and program
US20160212525A1 (en) Sound source localization device, sound processing system, and control method of sound source localization device
JP2014048506A (ja) 単語登録装置及びそのためのコンピュータプログラム
US20180288109A1 (en) Conference support system, conference support method, program for conference support apparatus, and program for terminal
JP2018174439A (ja) 会議支援システム、会議支援方法、会議支援装置のプログラム、および端末のプログラム
JP2017123505A (ja) コンテンツ再生装置、コンテンツ再生方法及びプログラム
KR100593589B1 (ko) 음성인식을 이용한 다국어 통역/학습 장치 및 방법
JP6841309B2 (ja) 電子機器およびプログラム
TWI277947B (en) Interactive speech correcting method
JP5733566B2 (ja) 翻訳装置、翻訳方法及びプログラム
JP2006195094A (ja) 発音学習支援装置
JP2023046590A (ja) 表示方法、表示装置、及び、表示システム
JP2011150657A (ja) 翻訳音声再生装置およびその再生方法
JP6696878B2 (ja) 音声処理装置、ウェアラブル端末、携帯端末、および音声処理方法
JP7279310B2 (ja) 電子機器、学習支援装置、学習支援システム、電子機器の制御方法、学習支援装置の制御方法、電子機器の制御プログラム及び学習支援装置の制御プログラム
JP2005241767A (ja) 音声認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151126

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160426

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160510

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160708

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20161206

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170306

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20170314

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170516

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170518

R150 Certificate of patent or registration of utility model

Ref document number: 6148163

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150