JP2004004239A - 音声認識対話装置およびプログラム - Google Patents

音声認識対話装置およびプログラム Download PDF

Info

Publication number
JP2004004239A
JP2004004239A JP2002158985A JP2002158985A JP2004004239A JP 2004004239 A JP2004004239 A JP 2004004239A JP 2002158985 A JP2002158985 A JP 2002158985A JP 2002158985 A JP2002158985 A JP 2002158985A JP 2004004239 A JP2004004239 A JP 2004004239A
Authority
JP
Japan
Prior art keywords
speaker
concentration
voice
unit
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002158985A
Other languages
English (en)
Other versions
JP3838159B2 (ja
Inventor
Ryosuke Iketani
池谷 亮輔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2002158985A priority Critical patent/JP3838159B2/ja
Publication of JP2004004239A publication Critical patent/JP2004004239A/ja
Application granted granted Critical
Publication of JP3838159B2 publication Critical patent/JP3838159B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

【課題】話者の発話内容に応じた応答を音声出力する音声認識対話装置において、音声認識対話装置のまわりに複数の話者がいる状況下で、時にはある特定の話者とだけ集中して対話をしたり、時には複数の話者と代わる代わる対話できるようにする。
【解決手段】集中度制御部14は、音声認識部13によって認識された話者の発話内容と変移条件テーブル21の内容とに基づいて、上記話者に対する集中度のレベルを決定し、上記レベルと上記話者の識別名とを集中度設定テーブル24に設定する。集中度制御部14は、話者位置特定部11によって特定された上記話者の方向と上記決定したレベルと定義テーブル22の内容とに基づいて、音声入力部10の指向性及び方向を調整する。また、集中度設定テーブル24に設定されている上記話者の集中度のレベルに応じて、他の話者の発話を無効或いは有効にする。
【選択図】   図1

Description

【0001】
【発明の属する技術分野】
本発明は、話者が発話した内容に対する応答を音声出力する音声認識対話装置に関し、特に音声認識対話装置の周囲に複数の話者がいる中で、ある特定の話者とだけ集中して対話をしたり、複数の話者と代わる代わる対話をしたりすることができる音声認識対話装置に関する。
【0002】
【従来の技術】
話者の発話内容に対する応答を音声出力する音声認識対話装置においては、話者の発話内容を高い認識率で認識することが必要になる。認識率を高いものとするため、周囲雑音等の影響を低減し、ある特定の話者の発する音声を良好な品質で取り込むようにした音声認識装置は、従来から提案されている(例えば、特開2000−148184号公報)。
【0003】
図7は、特開2000−148184号公報に記載されている音声認識装置の構成を示すブロック図である。図7を参照すると、マイクロフォンアレイ等の指向特性や感度特性等を可変できる構成とした音声情報入力部70と、音声情報入力部70の指向特性あるいは感度特性等を調整する音声入力制御部71と、音声入力制御部71の制御に基づいて音声情報入力部70より入力された音声信号をA/D変換し、周波数分析を行い、音声の特徴ベクトル列に変換する音声特徴ベクトル抽出部72と、音声特徴ベクトル抽出部72から得られた音声特徴ベクトルによって音声認識を行う音声認識部73と、音声認識部73の認識結果を表示する認識結果表示部74と、カメラ等の撮像装置で構成される画像情報入力部75と、画像情報入力部75から入力された画像情報を解析する画像情報解析部76とを備えている。
【0004】
続いて、特開2000−148184号公報に記載されている音声認識装置の動作について説明する。図7において、画像情報解析部76は、画像情報入力部75から得られる画像データを解析し、画像内の話者の位置を検出する。画像内における話者の位置は、話者の顔画像を抽出し、それを追跡することなどで求めることができる。音声入力制御部71は、画像情報解析部76から送られてくる話者の位置データに基づいて、音声情報入力部70の指向特性や入力特性、方向を制御する。
【0005】
【発明が解決しようとする課題】
しかしながら、前述した従来の音声認識装置を音声認識対話装置に使用した場合、次のような問題が発生する。
【0006】
第1の問題点は、複数の話者が音声認識対話装置のまわりにいる中で、別の方向にいる複数の話者と代わる代わる対話を行うことができないことである。
【0007】
その理由は、ある特定の話者の音声認識率を向上させるために、特定話者のいる方向にマイクロフォンの感度特性や、マイクロフォンの指向特性を調整しており、他の方向にいる話者の音声を捕捉しづらくしてしまうためである。
【0008】
第2の問題点は、複数の話者が音声認識対話装置のまわりにいる中で、同じ方向にいる特定の話者とだけ集中した対話を行うことができないことである。
【0009】
その理由は、話者のいる方向にマイクロフォンの感度特性や、マイクロフォンの指向特性を調整するだけなので、同じ方向からの他の話者が発話した音声も捕捉して音声認識してしまうためである。
【0010】
【発明の目的】
本発明の目的は、複数の話者が音声認識対話装置のまわりにいる中で、時にはある特定の話者とだけ集中して対話をしたり、時には複数の話者と代わる代わる対話をしたりすることが、対話の中で自然に切り替えてできる音声認識対話装置を提供することにある。
【0011】
【課題を解決するための手段】
本発明の音声認識対話装置は、発話された音声情報を分析し得られる話者位置特定情報や照合話者情報や音声認識結果をもとに話者への集中度を管理し制御する話者への集中度制御部(図1の14)と、話者への集中度制御部(図1の14)が集中度を決定する際に必要な情報を格納し参照および更新が行われる話者及び集中度管理のデータベース(図1の20)とを有する。
【0012】
より具体的には、本発明の音声認識対話装置は、
音声情報を取り込む音声入力部(図1の10)と、
発話した話者の方向を特定する話者位置特定部(図1の11)と、
発話した話者を特定する話者照合部(図1の12)と、
前記音声入力部(図1の10)から入力される音声情報を分析し、音声を認識する音声認識部(図1の13)と、
特定話者を示す特定話者識別名と、該特定話者識別名によって示される特定話者に対する集中度のレベルとが設定される集中度設定テーブル(図1の24)と、
該集中度設定テーブル(図1の24)の内容と前記話者照合部(図1の12)で特定された話者とに基づいて前記話者の発話を有効にするか否かを判定し、有効にすると判定した場合は、前記話者の発話に対する前記音声認識部(図1の13)の認識結果に基づいて決定した集中度のレベルと前記話者照合部(図1の12)で特定された話者の識別名とを用いて前記集中度設定テーブル(図1の24)中のレベル及び特定話者識別名を更新し、該更新後の集中度設定テーブル(図1の24)の内容と前記話者位置特定部(図1の11)で特定された話者の方向とに基づいて、前記音声入力部(図1の10)の指向性及び方向を制御する集中度制御部(図1の14)と、
該集中度制御部(図1の14)で有効にすると判定された発話の認識結果に対する応答を音声出力する音声出力部(図1の19)とを備えている。
【0013】
更に、本発明の音声認識対話装置は、所定のイベントが発生したとき、集中度設定テーブル(図1の24)に設定されている特定話者の集中度のレベルを変更できるようにするため、
所定のイベントが発生したことを検出する他イベント管理部(図1の16)を備え、且つ、
前記集中度制御部(図1の14)が、前記他イベント管理部(図1の16)によって前記所定のイベントの発生が検出されたとき、前記集中度設定テーブル(図1の24)に設定されている集中度のレベルを変更する構成を有している。
【0014】
より具体的には、
前記所定のイベントが、前記集中度設定テーブル(図1の24)に特定話者識別名が設定されている特定話者による発話が所定時間なかったことであり、且つ、
前記集中度制御部(図1の14)が、前記他イベント管理部(図1の16)で前記所定のイベントの発生が検出され、且つ、前記集中度設定テーブル(図1の24)に設定されている集中度のレベルが、該集中度設定テーブル(図1の24)に設定されている特定話者識別名によって示される特定話者の発話のみを有効にするほど高いものである場合、前記集中度設定テーブル(図1の24)に設定されている集中度のレベルを、他の話者による発話も有効にするレベルに下げる構成を有する。
【0015】
【作用】
複数の話者と対話をする中で、予め設定しておく集中度の変移条件をもとに、話者への集中度を制御し、集中度のレベルに応じて、マイクロフォンアレイ等の音声入力部(図1の10)の指向性や方向を調整する。また、集中度のレベルに応じて、特定話者以外の話者の発話を無効にする。
【0016】
特定話者に対する集中度のレベルを、特定話者の発話内容のみに基づいて決定すると、特定話者が集中度のレベルを高くする発話を行った後に音声認識対話装置から離れた場合、他の話者の発話が無効にされる状態が続いてしまい、他の話者が、音声認識対話装置と対話を行えなくなってしまう。そこで、他イベント管理部(図1の16)で所定のイベント(例えば、特定話者による発話がない時間が所定時間継続)の発生が検出された場合、集中度制御部(図1の14)が、集中度設定テーブル(図1の24)に設定されている集中度のレベルを、他の話者による発話も有効にするレベルまで下げる。これにより、他の発話者も音声認識対話装置と対話することが可能になる。
【0017】
【発明の実施の形態】
次に本発明の実施の形態について図面を参照して詳細に説明する。図1を参照すると、本発明に係る音声認識対話装置の第1の実施の形態は、音声入力部10と、話者位置特定部11と、話者照合部12と、音声認識部13と、集中度制御部14と、音声入力制御部15と、他イベント管理部16と、対話制御部17と、音声合成部18と、音声出力部19と、話者及び集中度管理のためのデータベース20とから構成されている。
【0018】
音声入力部10は、音声情報を電気信号に変換する機能を有している。また、音声入力部10は、指向性及び方向を変更可能なものであり、例えば、複数のマイクロフォンを円形状に一定の間隔で配置したマイクロフォンアレイにより構成される。
【0019】
話者位置特定部11は、音声入力部10から入力される音声情報を分析し話者の方向を特定する機能を有する。例えば、音声入力部10が、複数のマイクロフォンを円形状に配置したマイクロフォンアレイにより構成されている場合は、最も出力レベルの高いマイクロフォンの方向を話者の方向とする。上記マイクロフォンの方向は、音声認識対話装置の基準方向に対する方向であり、複数のマイクロフォンの内の基準マイクロフォンと出力レベルが最も高いマイクロフォンとの角度と、上記基準方向と上記基準マイクロフォンとの角度とを加算することにより求まる。
【0020】
話者照合部12は、音声入力部10から入力される音声情報を分析し、登録済みの話者の音声情報と照合し話者を特定する機能を有する。
【0021】
音声認識部13は、音声入力部10から入力される音声情報を分析し音声を認識する機能を有する。
【0022】
集中度制御部14は、話者位置特定部11から入力される話者位置特定情報、話者照合部12から入力される照合話者情報、音声認識部13から入力される音声認識結果及び他イベント管理部16からの通知をもとに話者への集中度を制御する機能を有する。
【0023】
より具体的には、集中度制御部14は、以下の機能を有する。
【0024】
・集中度設定テーブル24の内容と話者照合部12からの照合話者情報(話者の識別名)とに基づいて、照合話者情報によって特定される話者の発話を有効にするか否かを判定する機能。
・有効にしないと判定した場合は、音声認識部13から入力される認識結果を棄却する機能。
・有効にすると判定した場合は、音声認識部13に認識結果を対話制御部17に渡す機能。
・有効にすると判定した場合は、音声認識部13の認識結果と変移条件テーブル21の内容とに基づいて集中度のレベルを決定し、この決定した集中度のレベルと話者照合部12からの照合話者情報とに基づいて集中度設定テーブル24の内容を更新する機能。
・更新後の集中度設定テーブル24の内容と、定義テーブル22の内容と、情報テーブル23の内容とに基づいて、音声入力制御部15に対して音声入力部10の方向及び指向性の調整を指示する機能。
【0025】
なお、データベース20中の各テーブル21〜24については、後で詳細に説明する。
【0026】
音声入力制御部15は、集中度制御部14からの指示に従って、音声入力部10のマイクロフォンアレイ等の指向性や方向(音声認識対話装置の基準方向に対する基準マイクロフォンの方向)を調整する機能を有する。
【0027】
他イベント管理部16は、音声入力以外の時間等の他のイベントを管理し、集中度制御部14にイベント発生を通知する機能を有する。
【0028】
対話制御部17は、集中度制御部14から送られてくる音声認識結果及び話者照合情報をもとに対話内容を管理し、次の応答内容を決定する機能を有する。
【0029】
音声合成部18は、対話制御部17より入力される応答内容の合成音声を生成する機能を有する。
【0030】
音声出力部19は、音声合成部18から入力される合成音声を出力する機能を有するものであり、スピーカー等によって構成される。
【0031】
データベース20は、集中度制御部14が、話者への集中度を制御する際に使用する変移条件テーブル21、定義テーブル22、情報テーブル23及び集中度設定テーブル24を備えている。
【0032】
変移条件テーブル21には、特定話者に対する集中度のレベルを変移させる各種の条件が格納されている。各条件は、それぞれ条件内容と、現在の集中度のレベル(現在レベル)と、変移させる集中度のレベル(変移レベル)とを含んでいる。例えば、条件No1は、現在の集中度のレベルが「中」のときに、「ありがとう」或いは「もういいよ」が発話されたら、レベルを「低」に変移させることを示している。また、例えば、条件No7は、現在の集中度のレベルが「高」のときに、30秒間にわたって特定話者による発話がなかった場合、レベルを「中」に変移させることを示している。
【0033】
定義テーブル22には、集中度のレベル毎に、集中度制御部14が行う制御内容が定義されている。例えば、集中度のレベルが「低」の場合には、集中度制御部14は、音声入力部10の指向性を−180度〜180度とし、集中度設定テーブル24に設定されている特定話者以外の音声認識結果も有効にする。また、集中度が「高」の場合には、集中度制御部14は、音声入力部10の方向を特定話者の方向にし、指向性を−45度〜45度とし、集中度設定テーブル24に設定されている特定話者以外の音声認識結果を無効にする。
【0034】
情報テーブル23には、話者照合部12が特定した話者の識別名と話者位置特定部11で特定された方向とが対応付けて登録されている。この図1の例は、音声認識対話装置の基準方向に対して、父親が0度、母親が90度、不明者が180度の位置に存在することを示している。
【0035】
集中度設定テーブル24には、現時点における集中度のレベルと、その対象となる特定話者の識別名とが対応して設定されている。この図1の例は、現時点の集中度のレベルが「高」で、父親が対象となっていることを示している。
【0036】
次に、図1、図2及び図3を参照して本実施の形態の動作について詳細に説明する。
【0037】
先ず、図1及び図2を参照して話者が発話したときの動作を説明する。話者が発話をすると、マイクロフォンアレイ等の音声入力部10を介して入力された音声情報は、それぞれ話者位置特定部11、話者照合部12、音声認識部13へ出力される。話者位置特定部11では、入力された音声情報を分析し話者の音源方向の特定を行い、話者位置特定情報を集中度制御部14へ出力する。話者照合部12では、入力された音声情報を分析し、登録済みの話者の音声情報と照合し話者の特定を行い、照合話者情報を集中度制御部14へ出力する。音声認識部13では、入力された音声情報を分析し音声認識結果を集中度制御部14へ出力する。
【0038】
集中度制御部14では、入力される話者位置特定情報と照合話者情報とをもとに、照合話者の情報テーブル23の位置方向を更新する(図2、S20)。
【0039】
次に、集中度設定テーブル24に設定されている集中度が、集中した対話状態であるか否かを判定する(S21)。判定の結果、集中した対話状態を示すレベル「高」の場合は、照合された話者が、集中度設定テーブル24中の特定話者の識別名と一致するか否かを判定する(S22)。
【0040】
そして、一致しない場合は、入力された音声認識結果を棄却する(S23)。これに対して、一致する場合は、変移条件テーブル21を検索し、現在レベルが集中度設定テーブル24に設定されているレベルと一致し、且つ条件内容が音声認識結果と一致する条件を探す(S24)。なお、ステップS21でレベル「高」でないと判定された場合も、ステップS24の処理が行われる。
【0041】
ステップS24において、該当する条件を探し出すことができなかった場合は、ステップS26の処理を行う。これに対して該当する条件を探し出すことができた場合は、集中度設定テーブル24に設定されている集中度のレベルを、ステップS24で探し出した条件中の変移レベルに変更した後(S25)、ステップS26の処理を行う。ステップS26では、集中度設定テーブル24に設定されている特定話者の識別名を、話者照合部12で特定された話者の識別名に変更する処理が行われる。
【0042】
次に、話者への集中度制御部14は、集中度設定テーブル24と情報テーブル23とを参照し、特定話者の位置方向をマイクロフォンアレイ等の方向の設定情報として音声入力制御部15へ出力すると共に、定義テーブル22を参照し、現在の集中度のレベルに対応して定義されている、マイクロフォンアレイ等の指向性の設定情報を音声入力制御部15へ出力し(S27)、更に、音声認識結果と照合話者情報とを対話制御部17へ出力する(S28)。
【0043】
音声入力制御部15では、話者への集中度制御部14より入力されたマイクロフォンアレイ等の方向、指向性の設定情報をもとに、音声入力部10のマイクロフォンアレイ等の指特性や方向を調整する。
【0044】
対話制御部17では、話者への集中度制御部14より入力された音声認識結果と照合話者情報をもとに、次の応答する内容を決定し、音声合成部18に応答内容を出力する。
【0045】
音声合成部18では、入力された応答内容から合成音声を生成し、スピーカー等の音声出力部19を介して合成音声を出力する。
【0046】
次に、図1及び図3を参照して、他イベント管理部16が、予め定められているイベントの発生を検出した場合の動作を説明する。他イベント管理部16は、予め定められているイベントの発生を検出すると、発生したイベントの種類を集中度制御部14に通知する。
【0047】
これにより、集中度制御部14は、変移条件テーブル21を検索し、現在レベルが集中度設定テーブル24に設定されているレベルと一致し、且つ条件内容が通知されたイベントの種類と一致する条件を探す(図3、S31)。
【0048】
そして、ステップS31において該当する条件を探し出すことができなかった場合は、集中度制御部14は処理を終了する。これに対して、該当する条件を探し出すことができた場合は、集中度制御部14は、集中度設定テーブル24に設定されている集中度のレベルを、探し出した条件中の変移レベルに変更し(S32)、定義テーブル22を参照し、現在の集中度のレベルに対応して定義されている、マイクロフォンアレイ等の指向性の設定情報を音声入力制御部15へ出力し(S33)、その後、処理終了となる。
【0049】
次に、データベース20内の変移条件テーブル21および定義テーブル22の内容が図1に示すものであり、集中度設定テーブル24に集中度のレベルとしてあらゆる方向からの発話を捕捉できる集中度が発散した状態を表す「低」が設定されている場合を例に挙げて本実施の形態の動作を詳細に説明する。
【0050】
例えば、音声認識対話装置の背面、側面にそれぞれ父親、母親がいるような複数の話者が別の方向にいる状況下で、父親が「こんにちは」と発話したとする。
【0051】
この場合、集中度制御部14は、先ず、話者位置特定部11から入力される話者位置特定情報と、話者照合部12から入力される照合話者情報とに基づいて、情報テーブル23中の父親の位置方向を更新する(図2、S20)。その後、集中度制御部14は、変移条件テーブル21中の条件No5に従って、集中度設定テーブル24の集中度のレベルを「中」に変更し、更に、集中度の対象となる特定話者を「父親」に変更する(S21がNo、S24がYes、S25、S26)。その後、集中度制御部14は、定義テーブル22中の集中度のレベル「中」の定義内容に従って、音声入力部10の方向を特定話者である父親のいる背面方向に向けると共に指向性を−90度〜90度に調整する(S27)。更に、集中度制御部14は、ステップS28の処理を行い、これにより、父親が発話した「こんにちは」に対する応答が音声出力部19から出力される。
【0052】
その後、側面にいる母親が「元気?」と変移条件テーブル21の条件内容と一致しない発話を行った場合、集中度制御部14は、情報テーブル23中の母親の位置方向を更新し(S20)、更に、集中度設定テーブル24の集中度をレベル「中」の通常の対話状態を持続したまま、集中度の対象となる特定話者を「母親」に変更する(S21がNo、S24がNo、S26)。その後、集中度制御部14は、音声入力部10の方向を特定話者である母親のいる側面方向に向けると共に、指向性を−90度〜90度に調整する(S27)。更に、集中度制御部14はステップS28の処理を行い、これにより母親が発話した「元気?」に対する応答が音声出力部19から出力される。
【0053】
その後、父親が「元気だよね」等と発話した場合は、集中度制御部14は、ステップS20で情報テーブル23中の父親の位置方向を更新し、ステップS26で集中度設定テーブル24中の集中度の対象となる特定話者を父親に変更し、ステップS27で音声入力部10の方向を、特定話者である父親のいる位置方向に変更する。このように、別の方向にいる父親と母親が代わる代わる音声認識対話装置を相手に対話を行うことができる。
【0054】
このような通常の対話状態中に、父親が音声認識対話装置を自分に集中させた状態で対話をしたいと考えた場合、「よく聞いて」と発話する。これにより、集中度制御部14は、ステップS20において情報テーブル23中の父親の位置方向を変更し、ステップS25において、変移条件テーブル21の条件No4に従って、集中度設定テーブル24の集中度のレベルを「高」に変移させ、ステップS26において、集中度の対象となる特定話者を「父親」に変更し、ステップS27において、音声入力部10の方向を特定話者である父親のいる位置方向に向けると共に指向性を−45度〜45度に調整する。この状況下で、父親が続けて対話を行えば、音声入力部10がまわりの関係のない人の発話や雑音をひろう確率も低減し父親の音声を捕捉しやすくなり音声認識率も向上する。このため、この状況下で母親が何か発話した場合でも、指向性の調整結果により音声入力部10が音声を捕捉する確率が低減する。仮に、音声入力部10が音声を捕捉したとしても話者照合部12で照合される話者は母親となり、現在の集中度設定テーブル24の集中度の対象となる特定話者の父親と一致しないため(S22がNo)、母親の発話内容の音声認識結果は棄却されることになる(S23)。
【0055】
次に、この状況下で、父親が、「昨日のことだけど」等と変移条件テーブル21の条件内容と一致しない発話を行った場合は、ステップS24の判断結果がNoとなるので、集中度設定テーブル24の集中度のレベルが「高」に保たれたままとなり、父親との集中した対話状態を持続される。
【0056】
次に、この状況下で、父親が、集中した対話状態を止めたいと考えた場合、父親は「もういいよ」と発話する。これにより、集中度制御部14は、ステップS25において、変移条件テーブル21中の条件No2に従って、集中度設定テーブル24の集中度のレベルを「低」に変移させ、ステップS27において、定義テーブル22の集中度のレベル「低」の定義内容に基づき、指向性を−180度〜180度に調整する。また、ステップS25において、集中度設定テーブル24中のレベルが「低」に変更されているので、次回から特定話者以外の音声認識結果も棄却されずに有効となる(S21がNo)。
【0057】
また仮に、現在の集中度設定テーブル24の集中度の対象となる特定話者である父親が、集中度のレベルを「高」にしたまま、即ち集中した対話状態にしたままその場を立ち去った場合でも、他イベント管理部16からの通知に基づいて、母親や他の話者が音声認識対話装置と対話を行えるようになる。
【0058】
即ち、他イベント管理部16は、集中度設定テーブル24に設定されている特定話者の発話がない時間が30秒続くというイベントを検出すると、上記イベントの種類を集中度制御部14に通知する。これにより、集中度制御部14は、変移条件テーブル21中の条件No7に基づいて、集中度設定テーブル24中の集中度のレベルを「中」に変更し(図3、S31がYes、S32)、その後、定義テーブル22中のレベル「中」の指向性に基づいて、音声入力制御部15に対して、音声入力部10の指向性−90度〜90度に調整することを指示する(S33)。
【0059】
さらに、集中度設定テーブル24に登録されている特定話者による発話がない時間が30秒続くと、他イベント管理部16は、再度上記イベントの種類を集中度制御部14に通知する。これにより、集中度制御部14は、変移条件テーブル21中の条件No6に基づいて、集中度設定テーブル24中の集中度のレベルを「低」とし(S31がYes、S32)、その後、定義テーブル22中のレベル「低」の指向性に基づいて音声入力制御部15に対して、音声入力部10の指向性を−180度〜180度に調整することを指示する(S33)。以上のように、発話がない時間が30秒続くと、集中度設定テーブル24中のレベルが「高」から「中」へ、或いは「中」から「低」へ変更されるので、特定話者である父親が集中度のレベルを「高」にしたまま、その場を立ち去っても、母親や他の話者が音声認識対話装置と対話することが可能になる。
【0060】
なお、他イベント管理部16は、例えば、次のようにして、集中度設定テーブル24に登録されている特定話者による発話がない時間が30秒続いたことを検出する。
【0061】
他イベント管理部16には、集中度制御部14からクリア信号と、カウント開始信号とが入力されている。クリア信号は、集中度制御部14が、集中度設定テーブル24に設定されている特定話者の発話開始を検出したときに出力する信号であり、カウント開始信号は、集中度制御部14が集中度設定テーブル24に設定されている特定話者の発話終了を検出したときに出力する信号である。他イベント管理部16は、その内部にカウンタを有しており、クリア信号が入力されると、カウンタのカウント値を「0」にすると共にカウント動作を停止し、カウント開始信号が入力されると、カウント動作を開始する。そして、カウント値が30秒に対応する値になると、集中度制御部14に対して発話のない時間が30秒続いたことを通知し、更に、カウント値を「0」にしてカウント動作を再開する。
【0062】
次に、例えば、音声認識対話装置の背面に父親と母親がいるような複数の話者が同じ方向にいる状況下において、父親が「こんにちは」と発話した場合の動作を説明する。なお、変移条件テーブル21、定義テーブル22の内容は図1に示すものであり、集中度設定テーブル24には、集中度のレベルとしてあらゆる方向からの発話を捕捉できる集中度が発散した状態を表す「低」が設定されているとする。
【0063】
父親が「こんにちは」と発話すると、集中度制御部14は、ステップS20において、情報テーブル23中の父親の位置方向を更新し、ステップS25において、変移条件テーブル21の条件No5に従って、集中度設定テーブル24中の集中度のレベルを「中」に変更し、ステップS26において集中度設定テーブル24に集中度の対象となる特定話者として「父親」を設定する。その後、集中度制御部14は、ステップS27において、定義テーブル22の集中度のレベル「中」の定義内容に基づいて、音声入力部10の方向を特定話者である父親のいる背面方向に調整すると共に、指向性を−90度〜90度に調整する。
【0064】
この状況下で、同じ方向にいる母親が「元気?」と発話した場合は、集中度制御部14は、集中度設定テーブル24の集中度をレベル「中」の通常の対話状態にしたまま、集中度の対象となる特定話者を母親に変更する(S24がNo、S26)。集中度設定テーブル24のレベルが「中」のままであるので、音声入力部10は同じ方向を向いたままとなる。この状況下で父親が「元気だよね」等と発話した場合は、現在の集中度設定テーブル24の集中度の対象となる特定話者が父親に変更されるというように、同じ方向にいる父親と母親とが音声認識対話装置と代わる代わる対話を行うことができる。
【0065】
このような対話中に、父親が音声認識対話装置を自分に集中させた状態で対話をしたいと考えた場合、父親は「よく聞いて」と発話する。これにより、集中度制御部14は、ステップS25において、変移条件テーブル21中の条件No4に従って、集中度設定テーブル24中の集中度のレベルが「高」に変更し、ステップS26において、集中度の対象となる特定話者を「父親」に変更する。この状況下で同じ方向にいる母親が何か発話した場合、音声入力部10で音声を捕捉するが話者照合部12で照合される話者は母親となり、現在の集中度設定テーブル24の集中度の対象となる特定話者の父親と一致しないため、母親の発話内容の音声認識結果は棄却されることになり(S21がYes、S22がNo、S23)、父親と集中して対話ができるようになる。また、集中度設定テーブル24の集中度のレベルが「高」の時は、集中度の定義テーブル22の集中度のレベル「高」の定義内容により指向性も−45度〜45度に調整されるため、音声入力部10が別の方向の関係のない人の発話や雑音をひろう確率も低減し父親の音声を捕捉しやすくなり音声認識率も向上する。
【0066】
次に、この状況下で、父親が、「昨日のことだけど」等と集中度の変移条件テーブル21の集中度の条件内容と一致しない発話を行った場合(S24がNo)は、集中度設定テーブル24の集中度のレベルを「高」にしたままの集中した対話状態を持続する。
【0067】
次に、この状況下で、父親が集中した対話状態を止めたいと考えた場合、父親は「もういいよ」と発話する。これにより、集中度制御部14は、ステップS25において、変移条件テーブル21中の条件No2に従って、集中度設定テーブル24中の集中度のレベルを「低」に変更し、ステップS27において音声入力部10の指向性を−180度〜180度に調整する。集中度設定テーブル24の集中度のレベルが、あらゆる方向からの発話も捕捉できる集中度が発散した状態を表す「低」となるので、次回から特定話者以外の音声認識結果も棄却されずに有効とされる(S21がNo)。
【0068】
また仮に、集中度設定テーブル24に識別名が設定されている特定話者である父親が、集中度のレベル「高」の集中した対話状態にしたままその場を立ち去った場合でも、図3の流れ図を用いて既に説明してあるように、発話がない時間が30秒続くと集中度の変移条件テーブル21の条件No7により、集中度設定テーブル24中の集中度のレベルが「中」に変移し、さらに発話がない時間が30秒続くと集中度の変移条件テーブル21の条件No6により、集中度設定テーブル24中の集中度のレベルが「低」に変移するため、母親や他の話者も音声認識対話装置と対話することが可能になる。
【0069】
次に本実施の形態の効果について説明する。
【0070】
本実施の形態では、複数の話者が別の方向や同じ方向にいる状況下で、話者への集中度制御部14で話者への集中度を制御することにより、時にはある特定の話者とだけ集中して対話をし、時には複数の話者と代わる代わる対話をするといった切り換えを、対話の中で自然に行うことができる。
【0071】
また、特定の話者との対話中に、他の関係のない人の発話や雑音を拾ってしまう確率を対話の中で低減させることができる。
【0072】
【発明の他の実施例】
図4は、本発明の第2の実施の形態を示すブロック図である。図4を参照すると、本発明の第2の実施の形態は、図1に示された第1の実施の形態と、画像入力部40が追加されている点、話者位置特定部11の代わりに話者位置特定部41を備えている点、話者照合部12の代わりに話者照合部42を備えている点が相違している。なお、他の図1と同一符号は同一部分を表している。
【0073】
画像入力部40は、360度の範囲の画像情報を取り込む機能を有するものであり、例えば、複数台のCCDカメラ等により実現される。
【0074】
話者位置特定部41は、音声入力部10から入力される音声情報と、画像入力部40から入力される画像情報とに基づいて、発話した話者の方向を特定する機能を有する。
【0075】
話者照合部42は、音声入力部10からの音声情報と画像入力部40からの画像情報とに基づいて話者を特定する機能を有する。
【0076】
次に本実施の形態の動作について説明する。
【0077】
話者位置特定部41は、音声入力部10から音声情報が入力されると、先ず、音声情報に基づいて発話した話者の方向を特定する。その後、話者位置特定部41は、画像入力部40が入力した画像情報に基づいて、音声認識対話装置の周囲にいる全ての話者の方向を求める。その後、画像情報に基づいて求めた各話者の方向の内の、音声情報に基づいて求めた話者の方向に最も近い方向を発話した話者が存在する方向とし、その方向を集中度制御部14に出力する。
【0078】
話者照合部42は、音声入力部10から音声情報が入力されると、音声情報に基づいて発話した話者を特定する。更に、話者照合部42は、画像入力部40を解析し、口元が動いている話者を認識し、この話者の顔の画像と、予め登録されている複数の話者の顔画像とを照合することにより、発話した話者を特定する。音声情報により特定した話者と、画像情報により特定した話者とが一致する場合は、上記話者を示す照合話者情報を集中度制御部14に対して出力し、一致しない場合は、例えば、画像情報により特定した話者を示す照合話者情報を集中度制御部14に対して出力する。
【0079】
上記した動作以外は、第1の実施の形態と同様であるので、ここでは、説明を省略する。
【0080】
上述したように本実施の形態は、マイクロフォンアレイ等の音声入力部10に加え、カメラ等の画像入力部40を備えており、音声情報と画像情報の両方に基づいて、発話した話者の方向、発話した話者を認識しているので、認識精度を高いものにすることができる。
【0081】
図5は、本発明の第3の実施の形態を示すブロック図である。図5を参照すると、本発明の第3の実施の形態は、図1に示された第1の実施の形態の構成に音声モデルデータベース51を追加した点、音声認識部13の代わりに音声認識部52を備えた点、および集中度制御部14の代わりに集中度制御部53を備えた点で異なる。なお、他の図1と同一符号は、同一部分を表している。
【0082】
音声モデルデータベース51には、音声認識対話装置を使用する各話者それぞれの音声モデル、および標準音声モデルが登録されている。これらは、音声認識を行う際に使用される。
【0083】
集中度制御部53は、集中度制御部14が備えている機能に加え、集中度設定テーブル24に設定されている特定話者識別名を音声モデルデータベース51に設定する。
【0084】
音声認識部52は、音声認識を行う際、音声モデルデータベース51中の音声モデルの内、集中度制御部53によって設定されている特定話者識別名と対応する話者の音声モデルを使用して音声認識を行う。このようにすることにより、集中度の対象となる特定話者の音声認識率を向上させることができる効果がある。なお、特定話者識別名が「不明」となっている場合は、音声認識部52は、標準音声モデルを使用して音声認識を行う。
【0085】
図6は本発明に係る音声認識対話装置のハードウェア構成の一例を示すブロック図であり、コンピュータ61と、記録媒体62と、音声入力部63と、音声出力部64と、データベース65とから構成されている。音声入力部63、音声出力部64、データベース65は、それぞれ図1に示した音声入力部10、音声出力部19、データベース20に対応する。記録媒体62は、ディスク、半導体メモリ、その他の記録媒体であり、コンピュータ61を音声認識対話装置の一部として機能させるためのプログラムが記録されている。このプログラムは、コンピュータ61によって読み取られ、その動作を制御することで、コンピュータ61上に図1に示した話者位置特定部11、話者照合部12、音声認識部13、集中度制御部14、音声入力制御部15、他イベント管理部16、対話制御部17、音声合成部18を実現する。
【0086】
【発明の効果】
第1の効果は、複数の話者が音声認識対話装置のまわりにいる中で、特に、別の方向に複数の話者がいる場合でも、時にはある特定の話者とだけ集中して対話をし、時には複数の話者と代わる代わる対話をするといった切り替えを、対話の中で自然に行えるということである。
【0087】
その理由は、話者の発話内容に応じて話者に対する集中度のレベルを決定し、集中度のレベルに応じて、マイクロフォンアレイ等の音声入力部の指向性や方向を調整させることができるためである。
【0088】
第2の効果は、複数の話者が音声認識対話装置のまわりにいる中で、特に、同じ方向に複数の話者がいる場合でも、時にはある特定の話者とだけ集中して対話をし、時には複数の話者と代わる代わる対話をするといった切り替えを、対話の中で自然に行えるということである。
【0089】
その理由は、話者の発話内容に応じて話者に対する集中度のレベルを決定し、集中度のレベルに応じて、特定話者以外の話者の発話を無効にできるためである。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態の構成例を示すブロック図である。
【図2】話者位置特定部11、話者照合部12、音声認識部13から入力があったときの集中度制御部14の処理例を示す流れ図である。
【図3】他イベント管理部16から通知があったときの集中度制御部14の処理例を示す流れ図である。
【図4】本発明の第2の実施の形態の構成例を示すブロック図である。
【図5】本発明の第3の実施の形態の構成例を示すブロック図である。
【図6】音声認識対話装置のハードウェア構成の一例を示すブロック図である。
【図7】従来の技術を説明するためのブロック図である。
【符号の説明】
10 音声入力部
11 話者位置特定部
12 話者照合部
13 音声認識部
14 集中度制御部
15 音声入力制御部
16 他イベント管理部
17 話者制御部
18 音声合成部
19 音声出力部
20 データベース
21 変移条件テーブル
22 定義テーブル
23 情報テーブル
24 集中度設定テーブル
40 画像入力部
41 話者位置特定部
42 話者照合部
51 音声モデルデータベース
52 音声認識部
53 集中度制御部
61 コンピュータ
62 記録媒体
63 音声入力部
64 音声出力部
65 データベース
70 音声入力部
71 音声入力制御部
72 音声特徴ベクトル抽出部
73 音声認識部
74 認識結果表示部
75 画像情報入力部
76 画像情報解析部

Claims (12)

  1. 音声情報を取り込むための音声入力部と、
    発話した話者の方向を特定する話者位置特定部と、
    発話した話者を特定する話者照合部と、
    音声入力部から入力される音声情報を分析し、音声を認識する音声認識部と、
    話者への集中度を制御する話者への集中度制御部と、
    集中度のレベルにあわせて、音声入力部の入力状態を調整する音声入力制御部と、
    話者への集中度制御部が集中度を制御する際に必要な情報を格納し参照および更新が行われる話者及び集中度管理のデータベースとを備えたことを特徴とする音声認識対話装置。
  2. 音声情報を取り込む音声入力部と、
    発話した話者の方向を特定する話者位置特定部と、
    発話した話者を特定する話者照合部と、
    前記音声入力部から入力される音声情報を分析し、音声を認識する音声認識部と、
    特定話者を示す特定話者識別名と、該特定話者識別名によって示される特定話者に対する集中度のレベルとが設定される集中度設定テーブルと、
    該集中度設定テーブルの内容と前記話者照合部で特定された話者とに基づいて前記話者の発話を有効にするか否かを判定し、有効にすると判定した場合は、前記話者の発話に対する前記音声認識部の認識結果に基づいて決定した集中度のレベルと前記話者照合部で特定された話者の識別名とを用いて前記集中度設定テーブル中のレベル及び特定話者識別名を更新し、該更新後の集中度設定テーブルの内容と前記話者位置特定部で特定された話者の方向とに基づいて、前記音声入力部の指向性及び方向を制御する集中度制御部と、
    該集中度制御部で有効にすると判定された発話の認識結果に対する応答を音声出力する音声出力部とを備えたことを特徴とする音声認識対話装置。
  3. 請求項2記載の音声認識対話装置において、
    所定のイベントが発生したことを検出する他イベント管理部を備え、且つ、
    前記集中度制御部が、前記他イベント管理部によって前記所定のイベントの発生が検出されたとき、前記集中度設定テーブルに設定されている集中度のレベルを変更する構成を有することを特徴とする音声認識対話装置。
  4. 請求項3記載の音声認識対話装置において、
    前記所定のイベントが、前記集中度設定テーブルに特定話者識別名が設定されている特定話者による発話が所定時間なかったことであり、且つ、
    前記集中度制御部が、前記他イベント管理部で前記所定のイベントの発生が検出され、且つ、前記集中度設定テーブルに設定されている集中度のレベルが、該集中度設定テーブルに設定されている特定話者識別名によって示される特定話者の発話のみを有効にするほど高いものである場合、前記集中度設定テーブルに設定されている集中度のレベルを、他の話者による発話も有効にするレベルまで下げる構成を有することを特徴とする音声認識対話装置。
  5. 請求項1乃至4記載の何れか1つの音声認識対話装置において、
    前記音声入力部が、指向性を可変できるマイクロフォンアレイから構成されることを特徴とする音声認識対話装置。
  6. 請求項1乃至5記載の何れか1つの音声認識対話装置において、
    前記話者位置特定部が、前記音声入力部が入力した音声情報に基づいて発話した話者の方向を特定する構成を有することを特徴とする音声認識対話装置。
  7. 請求項1乃至6記載の何れか1つの音声認識対話装置において、
    前記話者照合部が、前記音声入力部が入力した音声情報に基づいて発話した話者を特定する構成を有することを特徴とする音声認識対話装置。
  8. 請求項1乃至5記載の何れか1つの音声認識対話装置において、
    画像情報を取り込む画像入力部を備え、且つ、
    前記話者位置特定部が、前記音声入力部が入力した音声情報と前記画像入力部が入力した画像情報とに基づいて発話した話者の方向を特定する構成を有することを特徴とする音声認識対話装置。
  9. 請求項1乃至5記載の何れか1つの音声認識対話装置において、
    画像情報を取り込む画像入力部を備え、且つ、
    前記話者照合部が、前記音声入力部が入力した音声情報と前記画像入力部が入力した画像情報とに基づいて発話した話者を特定する構成を有することを特徴とする音声認識対話装置。
  10. 請求項1乃至5記載の何れか1つの音声認識対話装置において、
    複数の話者それぞれの音声モデルが登録された音声モデルデータベースを備え、
    前記音声認識部が、前記音声モデルデータベースに登録されている各話者の音声モデルの内、前記集中度設定テーブルに特定話者識別子が設定されている特定話者の音声モデルを使用して音声認識を行う構成を有することを特徴とする音声認識対話装置。
  11. 請求項1記載の音声認識対話装置において、
    前記話者及び集中度管理のデータベースは、
    話者への集中度のレベルが変移する条件内容を格納した集中度の変移条件テーブルと、
    集中度のレベル毎の、マイクロフォンアレイ等の指向性や方向等を定義した集中度の定義テーブルと、
    話者が発話したことにより照合される話者とその位置情報を格納する照合話者の情報テーブルと、
    現在設定されている集中度のレベルとその対象となる話者情報を格納する現在の集中度設定テーブルとを備え、
    話者への集中度を制御するための必要な情報を参照および更新できる構成を有することを特徴とする音声認識対話装置。
  12. 音声情報を取り込む音声入力部を備えたコンピュータを音声認識対話装置として機能させるためのプログラムであって、
    前記コンピュータを、
    発話した話者の方向を特定する話者位置特定部、
    発話した話者を特定する話者照合部、
    前記音声入力部から入力される音声情報を分析し、音声を認識する音声認識部、
    特定話者を示す特定話者識別名および該特定話者識別名によって示される特定話者に対する集中度のレベルが設定される集中度設定テーブルの内容と前記話者照合部で特定された話者とに基づいて前記話者の発話を有効にするか否かを判定し、有効にすると判定した場合は、前記話者の発話に対する前記音声認識部の認識結果に基づいて決定した集中度のレベルと前記話者照合部で特定された話者の識別名とを用いて前記集中度設定テーブル中のレベル及び特定話者識別名を更新し、該更新後の集中度設定テーブルの内容と前記話者位置特定部で特定された話者の方向とに基づいて、前記音声入力部の指向性及び方向を制御する集中度制御部、
    該集中度制御部で有効にすると判定された発話の認識結果に対する応答を音声出力する音声出力部として機能させるためのプログラム。
JP2002158985A 2002-05-31 2002-05-31 音声認識対話装置およびプログラム Expired - Fee Related JP3838159B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002158985A JP3838159B2 (ja) 2002-05-31 2002-05-31 音声認識対話装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002158985A JP3838159B2 (ja) 2002-05-31 2002-05-31 音声認識対話装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2004004239A true JP2004004239A (ja) 2004-01-08
JP3838159B2 JP3838159B2 (ja) 2006-10-25

Family

ID=30428952

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002158985A Expired - Fee Related JP3838159B2 (ja) 2002-05-31 2002-05-31 音声認識対話装置およびプログラム

Country Status (1)

Country Link
JP (1) JP3838159B2 (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005354223A (ja) * 2004-06-08 2005-12-22 Toshiba Corp 音源情報処理装置、音源情報処理方法、音源情報処理プログラム
WO2007139040A1 (ja) * 2006-05-25 2007-12-06 Yamaha Corporation 音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、音声データ再生装置、および音声通信システム
JP2010102163A (ja) * 2008-10-24 2010-05-06 Xanavi Informatics Corp 車室内音声対話装置
WO2017065444A1 (ko) * 2015-10-15 2017-04-20 삼성전자(주) 전자기기 및 전자기기의 제어방법
KR20180019752A (ko) * 2008-11-10 2018-02-26 구글 엘엘씨 멀티센서 음성 검출
JP2018129678A (ja) * 2017-02-08 2018-08-16 レノボ・シンガポール・プライベート・リミテッド 情報処理装置、そのマイク使用方法、及びコンピュータが実行するためのプログラム
JP2018180523A (ja) * 2017-04-12 2018-11-15 サウンドハウンド,インコーポレイテッド マン・マシン・ダイアログにおけるエージェント係属の管理
WO2019202966A1 (ja) * 2018-04-16 2019-10-24 ソニー株式会社 信号処理装置および方法、並びにプログラム
JP2020181016A (ja) * 2019-04-23 2020-11-05 コニカミノルタ株式会社 情報処理システム、情報処理装置、端末装置、およびプログラム
JP2022512486A (ja) * 2018-12-12 2022-02-04 深▲せん▼市冠旭電子股▲ふん▼有限公司 スマートスピーカーの再生方法、装置およびスマートスピーカー
US12125484B2 (en) 2021-12-27 2024-10-22 Soundhound Ai Ip, Llc Controlling an engagement state of an agent during a human-machine dialog

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102020102468B3 (de) 2020-01-31 2021-08-05 Robidia GmbH Verfahren zur Steuerung einer Anzeigevorrichtung und Anzeigevorrichtung zur dynamischen Anzeige eines vordefinierten Textes

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005354223A (ja) * 2004-06-08 2005-12-22 Toshiba Corp 音源情報処理装置、音源情報処理方法、音源情報処理プログラム
WO2007139040A1 (ja) * 2006-05-25 2007-12-06 Yamaha Corporation 音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、音声データ再生装置、および音声通信システム
JP2010102163A (ja) * 2008-10-24 2010-05-06 Xanavi Informatics Corp 車室内音声対話装置
KR20180019752A (ko) * 2008-11-10 2018-02-26 구글 엘엘씨 멀티센서 음성 검출
WO2017065444A1 (ko) * 2015-10-15 2017-04-20 삼성전자(주) 전자기기 및 전자기기의 제어방법
JP2018129678A (ja) * 2017-02-08 2018-08-16 レノボ・シンガポール・プライベート・リミテッド 情報処理装置、そのマイク使用方法、及びコンピュータが実行するためのプログラム
US11250844B2 (en) 2017-04-12 2022-02-15 Soundhound, Inc. Managing agent engagement in a man-machine dialog
CN108847226A (zh) * 2017-04-12 2018-11-20 声音猎手公司 管理人机对话中的代理参与
JP2018180523A (ja) * 2017-04-12 2018-11-15 サウンドハウンド,インコーポレイテッド マン・マシン・ダイアログにおけるエージェント係属の管理
WO2019202966A1 (ja) * 2018-04-16 2019-10-24 ソニー株式会社 信号処理装置および方法、並びにプログラム
JPWO2019202966A1 (ja) * 2018-04-16 2021-04-22 ソニー株式会社 信号処理装置および方法、並びにプログラム
JP7279710B2 (ja) 2018-04-16 2023-05-23 ソニーグループ株式会社 信号処理装置および方法、並びにプログラム
JP2022512486A (ja) * 2018-12-12 2022-02-04 深▲せん▼市冠旭電子股▲ふん▼有限公司 スマートスピーカーの再生方法、装置およびスマートスピーカー
JP7270739B2 (ja) 2018-12-12 2023-05-10 深▲せん▼市冠旭電子股▲ふん▼有限公司 スマートスピーカーの再生方法、装置およびスマートスピーカー
JP2020181016A (ja) * 2019-04-23 2020-11-05 コニカミノルタ株式会社 情報処理システム、情報処理装置、端末装置、およびプログラム
US12125484B2 (en) 2021-12-27 2024-10-22 Soundhound Ai Ip, Llc Controlling an engagement state of an agent during a human-machine dialog

Also Published As

Publication number Publication date
JP3838159B2 (ja) 2006-10-25

Similar Documents

Publication Publication Date Title
US11823679B2 (en) Method and system of audio false keyphrase rejection using speaker recognition
US11875820B1 (en) Context driven device arbitration
US11646027B2 (en) Multi-layer keyword detection
US11715482B2 (en) Personalized, real-time audio processing
US10643606B2 (en) Pre-wakeword speech processing
US11922095B2 (en) Device selection for providing a response
JP7536789B2 (ja) 分散システムにおいてユーザの好みに最適化するためのカスタマイズされた出力
US11043231B2 (en) Speech enhancement method and apparatus for same
CN111566729A (zh) 用于远场和近场声音辅助应用的利用超短语音分段进行的说话者标识
US20120290297A1 (en) Speaker Liveness Detection
WO2021030918A1 (en) User-defined keyword spotting
JP6562790B2 (ja) 対話装置および対話プログラム
TW200809768A (en) Method of driving a speech recognition system
EP1494208A1 (en) Method for controlling a speech dialog system and speech dialog system
JP3838159B2 (ja) 音声認識対話装置およびプログラム
TW202223877A (zh) 用戶話音輪廓管理
CN112509598A (zh) 音频检测方法及装置、存储介质
CN117941343A (zh) 多源音频处理系统和方法
KR101809511B1 (ko) 발화자의 연령대 인식 장치 및 방법
JP2001296891A (ja) 音声認識方法および装置
JP2001067098A (ja) 人物検出方法と人物検出機能搭載装置
JP7511374B2 (ja) 発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラム
JP2004318026A (ja) セキュリティペットロボット及びその装置に関する信号処理方法
KR102661005B1 (ko) 다채널 다화자 환경에서 화자별 음원분리장치 및 방법
Ishi et al. Real-time audio-visual voice activity detection for speech recognition in noisy environments

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040426

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060703

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060711

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060724

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090811

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100811

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110811

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110811

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120811

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130811

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees