JP2010197727A - 音声認識装置、ロボット、音声認識方法、プログラム及び記録媒体 - Google Patents

音声認識装置、ロボット、音声認識方法、プログラム及び記録媒体 Download PDF

Info

Publication number
JP2010197727A
JP2010197727A JP2009042596A JP2009042596A JP2010197727A JP 2010197727 A JP2010197727 A JP 2010197727A JP 2009042596 A JP2009042596 A JP 2009042596A JP 2009042596 A JP2009042596 A JP 2009042596A JP 2010197727 A JP2010197727 A JP 2010197727A
Authority
JP
Japan
Prior art keywords
output
sound source
speech
source direction
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2009042596A
Other languages
English (en)
Inventor
Toru Iwazawa
透 岩沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009042596A priority Critical patent/JP2010197727A/ja
Publication of JP2010197727A publication Critical patent/JP2010197727A/ja
Withdrawn legal-status Critical Current

Links

Images

Abstract

【課題】音声認識の精度を向上させる音声認識装置、ロボット、音声認識方法、プログラム及び記録媒体を提供する。
【解決手段】音声を入力する音声入力手段と、入力された音声の到来方向を検出し、音源方向検出結果を出力する音源方向検出手段と、入力された音声に発話区間を検出し、発話区間に対し認識処理を行い、音声認識結果を出力する音声認識手段と、音声認識手段が音声検出中であるか否かを出力する音声検出状態取得手段と、音声検出中でない場合は音源方向検出手段から出力された音源方向検出結果を出力し、音声検出中である場合は音声検出中でなくなるまで音源方向検出結果の出力を抑制する出力判定手段と、出力判定手段から出力された音源方向検出結果、若しくは音声認識手段から出力された音声認識結果の少なくともいずれかに従って動作を行う動作手段と、を備えることを特徴とする。
【選択図】図1

Description

本発明は、音声認識装置、ロボット、音声認識方法、プログラム及び記録媒体に関し、特に音声認識の精度を向上させる音声認識装置、ロボット、音声認識方法、プログラム及び記録媒体に関する。
音声認識に関する技術としては、音源方向検出機能と音声認識機能を搭載したロボットを利用した音声認識手法が提案されている(特許文献1、2参照)。これらは、ロボットがまず音の到来方向を検出し、到来方向を向いた、すなわちマイクを向けた上で、音声認識処理を開始する。
また、音源方向検出機能と音声認識機能を搭載したロボットに、さらに画像処理による顔検出機能を組み合わせた手法が提案されている(特許文献3参照)。これは、ロボットがまず音の到来方向を検出し、到来方向を向くまでは上述した技術と同様であるが、音の到来方向を向いた後で画像処理による顔検出を行い、利用者が前方にいることを確認した上で音声認識処理を開始する。
また、上記のような音声認識機能を搭載したロボットが、自立的に行動する機能を優先させた状態と、音声認識を優先させた状態とを適宜遷移するペットロボットが提案されている(特許文献4参照)。遷移手段は、音声認識手段によって所定の単語(「お話ししよう」等)が認識された場合、自立的に行動する機能を優先させた状態から音声認識を優先させた状態、若しくはその反対へ遷移させる。自立的行動機能と、音声認識とのいずれかを優先させているのは、自律行動中はアクチュエータの動作音などが雑音となったりすることに起因して音声の認識率が低下してしまい、ユーザの発声に対応して速やかに動作させることが出来ないためである(特許文献4、段落0004)。騒音と音声認識に関しては、音声検出頻度過多と判定された場合に音声検出抑制制御を行い、音声検出をされ難くする音声認識システムが提案されている(特許文献5参照)。
特開2007−221300号公報 特開2003−062777号公報 特開2004−283927号公報 特開2003−305677号公報 WO2008/108239
佐藤 他, "パーソナルロボットPaPeRoにおける近接話者方向推定と2マイク音声強調", 人工知能学会AIチャレンジ研究会, Vol.22, pp.41-46, (2005)
しかしながら、上記のような技術には、以下の問題点がある。一般に、音源方向検出機能における処理は、音声と推定される区間の継続時間を利用し、継続時間が閾値を超えたら検出結果を出力する。このため利用者が発話途中に音源方向検出結果が出力される場合がある。この場合、発話中に音の到来方向へ音声認識のマイクを向ける処理が発生するため、音声認識に使用する入力音声が、動作音混入やマイク移動による音質劣化による悪影響を受けてしまう問題があった。このため、音源方向検出により利用者の方角を向かせた後で再度音声認識処理を行う必要があり、音声認識処理を行うために2回の音声入力が必要であった。
上述した騒音と音声認識に関する技術についても以下の問題点がある。例えば特許文献4には、所定の音声が認識された場合だけでなく、所定のセンサが所定の信号を検知した場合においても遷移するようにしても良い(段落0067)、と記載されている。これは例えばユーザからの接触等(段落0071)である。ユーザの発声をトリガとして遷移する場合は、所定の発声であるか認識する必要があるが、所定の発声を認識している途中の判断については特に開示されていない。従って認識中に雑音がある場合の対処が考慮されておらず問題となる。特許文献5記載の音声認識システムは、音声検出頻度に基づく音声検出抑制、動作音制御を特徴とするが、いずれも抑制する制御だけである。音声認識を向上させるための積極的な動作(音源方向検出、音源方向への移動等)については考慮されていない点が問題であり、より音声認識の精度を向上させることが望まれる。
本発明はこのような状況に鑑みてなされたものであり、音源方向検出された音の到来方向への動作を抑制することで、音声認識処理への悪影響を低減し、音声認識の精度を向上させることを目的とする。
本発明に係る音声認識装置は、音声を入力する音声入力手段と、前記入力された音声の到来方向を検出し、音源方向検出結果を出力する音源方向検出手段と、前記入力された音声に発話区間を検出し、前記発話区間に対し認識処理を行い、音声認識結果を出力する音声認識手段と、前記音声認識手段が前記発話区間を検出している状態を示す音声検出中であるか否かを出力する音声検出状態取得手段と、前記音声検出状態取得手段から出力された音声検出状態が音声検出中でない場合は、前記音源方向検出手段から出力された音源方向検出結果を出力し、音声検出中である場合は、音声検出中でなくなるまで前記音源方向検出結果の出力を抑制する出力判定手段と、前記出力判定手段から出力された音源方向検出結果、若しくは前記音声認識手段から出力された音声認識結果の少なくともいずれかに従って動作を行う動作手段と、を備えることを特徴とする。
本発明に係るロボットは、対話型ロボットであって、請求項1から5のいずれか1項に記載の音声認識装置を備え、前記音声認識装置が備える動作手段は、音源方向検出手段が出力する音源方向検出結果の方角を振り向き、かつ音声認識手段が出力する音声認識結果に応じた言動を実行するよう動作させることを特徴とする。
本発明に係る音声認識方法は、音声を入力するステップと、前記入力された音声の到来方向を検出し、音源方向検出結果を出力するステップと、前記入力された音声に発話区間を検出し、前記発話区間に対し認識処理を行い、音声認識結果を動作部に出力する音声認識部が前記発話区間を検出している状態を示す音声検出中であるか否かを出力するステップと、前記音声認識部が音声検出中でない場合は前記出力された音源方向検出結果を前記動作部に出力し、音声検出中である場合は音声検出中でなくなってから前記音源方向検出結果を前記動作部に出力するステップと、前記動作部が、前記音源方向検出結果、若しくは前記音声認識結果の少なくともいずれかに従って動作を行うステップと、を備えることを特徴とする。
本発明に係る音声認識プログラムは、音声を入力する処理と、前記入力された音声の到来方向を検出し、音源方向検出結果を出力する処理と、前記入力された音声に発話区間を検出し、前記発話区間に対し認識処理を行い、音声認識結果を動作部に出力する音声認識部が前記発話区間を検出している状態を示す音声検出中であるか否かを出力する処理と、前記音声認識部が音声検出中でない場合は前記出力された音源方向検出結果を前記動作部に出力し、音声検出中である場合は音声検出中でなくなってから前記音源方向検出結果を前記動作部に出力する処理と、前記動作部が、前記音源方向検出結果、若しくは前記音声認識結果の少なくともいずれかに従って動作を行う処理と、をコンピュータに実行させることを特徴とする。
本発明に係る記録媒体は、上記本発明に係る音声認識プログラムの処理を記録するコンピュータ読取り可能な記録媒体である。
本発明によれば、音源方向検出された音の到来方向への動作を抑制することで、音声認識処理への悪影響を低減し、音声認識の精度を向上させることが出来る。
本発明の第1の実施形態に係る音声認識装置のブロック構成図である。 本発明の第1の実施形態に係る出力判定処理を示すフローチャートである。 本発明の第2の実施形態に係る音声認識装置のブロック構成図である。 本発明の第2の実施形態に係る音声認識期待度判定部7で使用するマトリクスの一例を示す図である。 本発明の第2の実施形態に係る音声認識期待度判定部7で使用するマトリクスの一例を示す図である。 本発明の第2の実施形態に係る出力判定処理を示すフローチャートである。 本発明の実施例として想定するロボットの概略図である。 本発明の実施例として想定するロボットの動作の一例を示す図である。
以下に、本発明の実施形態について図面を用いて詳細に説明する。なお、以下に述べる実施形態は、本発明の好適な実施形態であるから、技術的に好ましい種々の限定が付されているが、本発明の範囲は、以下の説明において特に本発明を限定する旨の記載がない限り、これらの態様に限られるものではない。
〔第1の実施形態〕
(構成)
図1は、本発明の第1の実施形態に係る音声認識装置のブロック構成図である。本実施形態に係る音声認識装置は、音声入力部1と、音源方向検出部2と、音声認識部3と、音声検出状態取得部4と、出力判定部5と、動作部6と、から構成される。
音声入力部1は、マイク等から入力される入力信号(音声データ)を出力する。
音源方向検出部2は、音声入力部1から入力された音声データから音の到来方向を検出し、到来方向を推定し正面からの相対角度を音源方向検出結果として出力する。音源方向検出の方法は様々な手法が提案されているが、例えば非特許文献1に記載の方向推定方法を利用することが可能である。非特許文献1に記載の方向推定方法は、方向推定の原理としては、複数のマイクロホンに入力された信号の時間差に基づいて行うが、音声発生源(例えば人間)と、マイクロホンが同一水平面上に位置せず、距離も十分に遠くない場合も考慮し、近接音場特有の方向推定についても開示されている。近接音場特有の方向推定では、2つのマイクロホンに入力された信号の時間差と、2つのマイクロホンの中心から音源までの水平距離と、音源の高さを用いて音の到来方向を求める。
音声認識部3は、音声入力部1から入力された音声データに対し、人間が発話していると推定される発話区間を検出し、得られた発話区間に対し認識処理を行い、音声認識結果を出力する。音声認識部3は、現在、発話区間を検出しているか否かを示す音声検出状態を保持しているものとする。
音声検出状態取得部4は、音声認識部3が保持する音声検出状態を取得し出力する。
出力判定部5は、音源方向検出部2が出力する音源方向検出結果を受け、音声検出状態が音声検出中でなければ音源方向検出結果を出力し、音声検出中であれば音声検出中でなくなるまで音源方向検出結果の出力を抑制し、音声検出中でなくなった段階で出力する。
動作部6は、音声認識部3もしくは出力判定部5から出力された結果に応じた動作を行う。
ここで、出力判定部5が、音声検出中であるため結果の出力抑制を行うと、音声入力部1からは音声が入力され続けるため、音源方向検出部2からの音源方向検出結果の出力が滞るといった問題が考え得る。この場合は、出力判定部5で出力抑制が開始された時点からの経過時間を示す出力抑制時間を計測し、出力抑制時間が所定の閾値を超えた場合は、音源方向検出結果を音声検出状態に関わらず動作部6に出力しても良い。
また、音源方向検出結果の出力抑制中に新たな音源方向検出結果が出力された場合のように、出力が重複することも考え得る。この場合は、例えば、古い音源方向検出結果を破棄し最新の音源方向検出結果を出力することが考え得る。
(動作処理)
次に、本実施形態に係る出力判定部5の動作処理の一例について詳細に説明する。図2は、本実施形態に係る出力判定処理の一例を示すフローチャートである。
本実施形態は、出力判定部5が、音源方向検出部2から音源方向検出結果が入力された場合に、音声認識部3が音声検出中の状態であれば、終了するまで出力抑制を行い、出力抑制中に音源報告検出部2から新たな音源方向検出結果が入力された場合は最新の結果を使用する例である。
まず、音源方向検出部2から音源方向検出結果が出力されている場合は(ステップS1/Yes)、音声認識部3で音声検出中かどうか判断する(ステップS2)。音声認識部3の状態は、音声検出状態取得部4から音声検出状態が出力される。
音声検出中でなければ(ステップS2/No)、音源方向結果を出力する(ステップS3)。
音声検出中である場合は(ステップS2/No)、既に出力待ちの音源方向検出結果を破棄し(ステップS4)、音源方向検出部2から新たに出力された音源方向検出結果を出力待ちに登録する(ステップS5)。
ステップS1において音源方向検出結果が出力されていない場合は(ステップS1/No)、出力待ちの音源方向検出結果があるか否か判断する(ステップS6)。
出力待ちの音源方向検出結果がある場合は(ステップS6/Yes)。さらに、音声検出状態取得部4からの出力に基づき音声認識部3が音声検出中か否か判断し、検出中でなかった場合(ステップS7/No)、出力待ちであった音源方向検出結果を動作部6に出力し(ステップS8)、出力待ちを解除する(ステップS9)。
上記実施形態により、音源方向検出と音声認識の機能を並行に動作させ、1回の音声入力に対して同時に処理することができ、利用者の方角を向く処理と音声認識結果に対応した反応を1回の音声入力で行える。
また、音源方向検出結果出力時に音声検出中であるか否かを参照し、音声検出中であれば音源方向検出結果の出力を抑制し、雑音を生じる動作を行わないことで、音声認識中に音源方向検出結果が出力された場合に生じる音声認識処理への悪影響を低減することができる。例えば、音源方向検出結果が出力されると、動作部6により音源方向へ向くよう動作するが、この際に発生するモータ音により音声認識に悪影響が出る場合がある。
以上のように、本実施形態によれば、音声検出中の場合は、動作部6への結果出力を抑制し、音の到来方向を向く動作を遅らせることができる。
〔第2の実施形態〕
(構成)
次に、本発明の第2の実施形態に係る音声認識装置について説明する。図3は、本実施形態に係る音声認識装置のブロック構成図である。
本実施形態に係る音声認識装置は、図1に示す第1の実施形態に係る音声認識装置の構成に加え、音声認識期待度判定部7を備え、出力判定部5における出力判定に音声検出状態と音声認識期待度を使用することを特徴とする。
ここでは、例えば集音マイクの指向性により音声の入力角度に応じ音声認識精度が変動するような状況を想定している。
音声認識期待度判定部7は、音源方向検出部2から入力された音源方向検出結果に応じ、音声認識期待度を判定する。音声認識期待度は、音声認識部3において正しい音声認識結果が得られる期待度を示す。本実施形態に係る音声認識期待度は、集音マイクへの音声入力角度に応じ音声認識の期待度を「低」「中」「高」の3段階で表現するものを一例として説明する。集音マイクへの音声入力角度に応じ、とは、例えば、集音マイクの方角を正面とみなし音声入力角度と集音マイクの方角のずれに基づき、音声認識の期待度を出力する。
音声認識期待度が「低」の場合は、出力判定部5は、音声検出の終了を待たずに音源方向検出結果を動作部6に出力する。これは、音声認識部3からの音声認識結果出力を待つよりも、利用者の方角へ集音マイクを向けるよう動作させた方が良いと判断するためである。音源方向検出結果が動作部6に出力されることで、動作部6は、音源方向(利用者の方角)にマイク等を向けるよう動作させることが出来る。
音声認識期待度が「高」の場合は、出力判定部5は、音源方向検出結果を破棄する。これは、音声認識期待度が高いので利用者の方角へ集音マイクを向ける必要がないと判断するためである。
なお、これら音声認識期待度に応じた音源方向検出結果の扱いはあくまで一例であり、本発明はこれに限定されるものではない。例えば、音声認識期待度が「低」の場合には、音源方向検出結果の出力に加え、音声認識部3で行われている認識処理を停止させることも考え得る。
また、音声認識期待度は、集音マイクの指向性によっても異なる。たとえば、集音マイクが無指向性である場合と、鋭角な指向性を持つ(例えば指向性マイクやマイクロホンアレイ)場合とでは音声検出結果に対する音声認識期待度は明らかに異なる。
図4及び図5に、音声認識期待度判定部7で使用するマトリクスの一例を示す。音源方向検出角度θは、集音マイクと音源方向検出方向との角度差を0度から360度の値で示したものである。無指向性のマイクを使用した場合は、マイクの特性上0度から360度で一様な音声認識期待度となる。
図4及び図5は、いずれも指向性の集音マイクを想定したものである。図4に記載のマイクでは集音マイクの正面からのずれがプラスマイナス方向に30度以内であれば音声認識期待度は「高」で、それ以外は「中」としている。図5は図4に記載のマイクよりさらに鋭角な指向性を持つ集音マイクを想定したものであり、集音マイクの正面からプラスマイナス方向に15度以内であれば音声認識期待度は「高」、15度より大きく30度以内であれば「中」、30度より大きければ「低」としている。
(動作処理)
次に、本実施形態に係る出力判定部5の動作について詳細に説明する。図6は、本実施形態に係る出力判定処理の一例を示すフローチャートである。
本実施形態に係る出力判定部5は、音源方向検出部2から音源方向検出結果が出力された場合に(ステップS1/Yes)、音源方向検出結果の音源方向検出角度を利用して音声認識期待度判定部7から出力される音声認識期待度を取得する(ステップS11)。
音声認識期待度が「低」である場合は(ステップS12/Yes)、音源方向検出結果を動作部6に出力する(ステップS13)。音声認識期待度が「高」である場合は(ステップS14/Yes)、出力判定部5は音源方向検出結果を破棄する(ステップS14)。
音声認識期待度が「低」でも「高」でもない場合は(ステップS12/No、ステップS14/No)、図2に示す第1の実施形態のフローチャートに記載のステップS2〜S5と同様の処理を行う(ステップS16〜S19)。
音源方向検出部2から音源方向検出結果が出力されない場合は(ステップS10/No)、図2に示す第1の実施形態のフローチャートに記載のステップS6〜S9と同様の処理を行う(ステップS20〜S23)。
上記実施形態により、音源方向検出結果として得られた音源方向検出角度から音声認識の期待度を推定し、期待度が高い場合は音源方向検出結果を出力せず音源方向を向く動作をさせない、音声認識の期待度が低い場合は直ちに音源方向検出結果を出力し音声検出中か否かにかかわらず音源方向を向く動作をさせるといった処理を行わせることが可能となる。
〔実施例〕
次に、具体的な実施例を用いて本発明の動作を説明する。具体的な実施例として、図7に示すロボット10を想定する。
ロボット10は、可動部100と、音源方向検出用マイク101と、音声認識用マイク102と、を備える。ロボット10は、上記第1の実施形態若しくは第2の実施形態に示す構成を備え、音源方向検出処理と音声認識処理を並行に実行することができるものとする。
本実施例では、音源方向検出結果は、音の継続時間に応じ検出結果が出力されるが、ここでは利用者が発話中にその継続時間に達し、発話中に音源方向検出結果が出力された場合について説明する。
図8に、音声認識部3と出力判定部5から結果出力された場合の動作部6で行われるロボット10の動作の対応表を示す。ロボット10が備える音声認識部3は、前進、後退の2単語を認識し、動作部6は、各々の認識結果に対し10cm前進、10cm後退といった動作を行う。
また、音源方向検出部2から音源方向検出結果が出力された場合は、得られた音源方向検出結果の音源方向検出角度θの方角へ回転するものとする。回転する動作は、ロボット10の可動部100を動作させるため、モータ音の動作が発生し音声認識に悪影響を与える要因となりうる。従って、音声認識中は、音源方向検出結果の出力を抑制し、音の到来方向を向く動作を遅らせる。
ロボット10が、上記第2実施形態に示す音声認識期待度判定部7を備える構成の場合は、図5に示す、指向性マイクを想定したマトリクスに従って、音声認識期待度を判定するものとする。
例えば、ロボット10に対し、音声認識用マイク102より入力角度10度の方角から「前進」と発話し、正しい音源方向と音声認識結果が出力されたと想定する。この場合ロボット10は、音源方向検出結果が破棄されるため、回転動作を行わず、10cm前進する動作のみを行う。
次に、入力角度20度の方角から「前進」と発話し、正しい音源方向と音声認識結果が出力された場合を想定する。この場合ロボット10は、音源方向検出結果が出力されると、音声認識部3が音声検出中である場合は出力抑制される。そして、音声検出が終了した段階で音源方向検出結果が動作部6へ出力される。従って、利用者から見ると、発話中にはロボットは動作せず、発話が終了した段階でロボットが利用者の方角へ音声入力マイク102を向けるよう回転する。そして、音声認識結果に対応した10cm前進する動作を行う。
次に、入力角度135度の方角から「前進」と発話し、音源方向検出結果は正しく出力され、音声認識結果は出力されなかった場合を想定する。この場合ロボット10は、音源方向検出結果が出力されると、音声認識部3が音声検出中であるか否かに関わらず直ちに135度の方角を向く動作をする。従って、音声発話中に音源方向検出結果が出力された場合は、利用者が発話中であってもロボット10が利用者の方角へ音声入力マイク102を向ける回転動作を行う。
なお、上述した各実施形態は、本発明の好適な実施形態であり、上記各実施形態のみに本発明の範囲を限定するものではなく、本発明の要旨を逸脱しない範囲において当業者が上記各実施形態の修正や代用を行い、種々の変更を施した形態を構築することが可能である。
例えば、上述した実施形態における制御動作は、ハードウェア、または、ソフトウェア、あるいは、両者の複合構成によって実行することも可能である。
なお、ソフトウェアによる処理を実行する場合には、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれているコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。
例えば、プログラムは、記録媒体としてのハードディスクやROM(Read Only Memory)に予め記録しておくことが可能である。あるいは、プログラムは、フロッピー(登録商標)ディスク、CD−ROM(Compact Disc Read Only Memory),MO(Magneto optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体に、一時的、あるいは、永続的に格納(記録)しておくことが可能である。
このようなリムーバブル記録媒体は、いわゆるパッケージソフトウエアとして提供することが可能である。
なお、プログラムは、上述したようなリムーバブル記録媒体からコンピュータにインストールする他、ダウンロードサイトから、コンピュータに無線転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送したりし、コンピュータでは、転送されてきたプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることが可能である。
また、上記実施形態で説明した処理動作に従って時系列的に実行されるのみならず、処理を実行する装置の処理能力、あるいは、必要に応じて並列的にあるいは個別に実行するように構築することも可能である。
また、上記実施形態で説明したシステムは、複数の装置の論理的集合構成にしたり、各装置の機能を混在させたりするように構築することも可能である。
本発明によれば、音声認識を要するシステムにおいて、特に利用者がマイクの正面にいない場合に利用者の方角へマイクを向け音声認識を行うシステムといった用途に適用できる。また、音声対話によるコミュニケーションを必要とするキャラクタエージェントやロボットといった用途にも適用可能である。
1 音声入力部
2 音源方向検出部
3 音声認識部
4 音声検出状態取得部
5 出力判定部
6 動作部
7 音声認識期待度判定部
10 ロボット
100 可動部
101 音声認識用マイク
102 音源方向検出用マイク

Claims (9)

  1. 音声を入力する音声入力手段と、
    前記入力された音声の到来方向を検出し、音源方向検出結果を出力する音源方向検出手段と、
    前記入力された音声に発話区間を検出し、前記発話区間に対し認識処理を行い、音声認識結果を出力する音声認識手段と、
    前記音声認識手段が前記発話区間を検出している状態を示す音声検出中であるか否かを出力する音声検出状態取得手段と、
    前記音声検出状態取得手段から出力された音声検出状態が音声検出中でない場合は、前記音源方向検出手段から出力された音源方向検出結果を出力し、音声検出中である場合は、音声検出中でなくなるまで前記音源方向検出結果の出力を抑制する出力判定手段と、
    前記出力判定手段から出力された音源方向検出結果、若しくは前記音声認識手段から出力された音声認識結果の少なくともいずれかに従って動作を行う動作手段と、
    を備えることを特徴とする音声認識装置。
  2. 前記出力判定手段は、前記音源方向検出結果出力を抑制した場合は出力抑制時間を計測し、前記出力抑制時間が予め定めた閾値を超えた際には、前記抑制した音源方向検出結果を出力することを特徴とする請求項1記載の音声認識装置。
  3. 前記音源方向検出結果を入力とし、前記音源方向検出結果に対する音声認識期待度を出力する音声認識期待度判定手段を備え、
    前記出力判定手段は、前記音声検出状態と前記音声認識期待度に基づいて、前記音源方向検出結果を出力するか否か判定することを特徴とする請求項1又は2記載の音声認識装置。
  4. 前記出力判定手段は、前記音源方向検出結果が出力された場合に、前記音声認識期待度判定手段から出力された音声認識期待度が高い場合は、前記音源方向検出結果を出力しないことを特徴とする請求項3記載の音声認識装置。
  5. 前記出力判定手段は、前記音源方向検出結果が出力された場合に、前記音声認識期待度判定手段から出力された音声認識期待度が低い場合は、前記音声検出状態を考慮せず、前記音源方向検出結果を出力することを特徴とする請求項3又は4記載の音声認識装置。
  6. 対話型ロボットであって、
    請求項1から5のいずれか1項に記載の音声認識装置を備え、
    前記音声認識装置が備える動作手段は、音源方向検出手段が出力する音源方向検出結果の方角を振り向き、かつ音声認識手段が出力する音声認識結果に応じた言動を実行するよう動作させることを特徴とするロボット。
  7. 音声を入力するステップと、
    前記入力された音声の到来方向を検出し、音源方向検出結果を出力するステップと、
    前記入力された音声に発話区間を検出し、前記発話区間に対し認識処理を行い、音声認識結果を動作部に出力する音声認識部が前記発話区間を検出している状態を示す音声検出中であるか否かを出力するステップと、
    前記音声認識部が音声検出中でない場合は前記出力された音源方向検出結果を前記動作部に出力し、音声検出中である場合は音声検出中でなくなってから前記音源方向検出結果を前記動作部に出力するステップと、
    前記動作部が、前記音源方向検出結果、若しくは前記音声認識結果の少なくともいずれかに従って動作を行うステップと、
    を備えることを特徴とする音声認識方法。
  8. 音声を入力する処理と、
    前記入力された音声の到来方向を検出し、音源方向検出結果を出力する処理と、
    前記入力された音声に発話区間を検出し、前記発話区間に対し認識処理を行い、音声認識結果を動作部に出力する音声認識部が前記発話区間を検出している状態を示す音声検出中であるか否かを出力する処理と、
    前記音声認識部が音声検出中でない場合は前記出力された音源方向検出結果を前記動作部に出力し、音声検出中である場合は音声検出中でなくなってから前記音源方向検出結果を前記動作部に出力する処理と、
    前記動作部が、前記音源方向検出結果、若しくは前記音声認識結果の少なくともいずれかに従って動作を行う処理と、
    をコンピュータに実行させることを特徴とする音声認識プログラム。
  9. 請求項8記載の音声認識プログラムの処理を記録するコンピュータ読取り可能な記録媒体。
JP2009042596A 2009-02-25 2009-02-25 音声認識装置、ロボット、音声認識方法、プログラム及び記録媒体 Withdrawn JP2010197727A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009042596A JP2010197727A (ja) 2009-02-25 2009-02-25 音声認識装置、ロボット、音声認識方法、プログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009042596A JP2010197727A (ja) 2009-02-25 2009-02-25 音声認識装置、ロボット、音声認識方法、プログラム及び記録媒体

Publications (1)

Publication Number Publication Date
JP2010197727A true JP2010197727A (ja) 2010-09-09

Family

ID=42822508

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009042596A Withdrawn JP2010197727A (ja) 2009-02-25 2009-02-25 音声認識装置、ロボット、音声認識方法、プログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP2010197727A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017509917A (ja) * 2014-02-19 2017-04-06 ノキア テクノロジーズ オサケユイチア 空間音響特性に少なくとも部分的に基づく動作指令の決定
JP2018526622A (ja) * 2015-06-30 2018-09-13 ユウトウ・テクノロジー(ハンジョウ)・カンパニー・リミテッド ロボット音声探索回転システム及び方法
CN109859749A (zh) * 2017-11-30 2019-06-07 阿里巴巴集团控股有限公司 一种语音信号识别方法和装置
US11087755B2 (en) 2016-08-26 2021-08-10 Samsung Electronics Co., Ltd. Electronic device for voice recognition, and control method therefor
WO2023013022A1 (ja) * 2021-08-06 2023-02-09 三菱電機ビルソリューションズ株式会社 設置位置特定システム及び設置位置特定方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017509917A (ja) * 2014-02-19 2017-04-06 ノキア テクノロジーズ オサケユイチア 空間音響特性に少なくとも部分的に基づく動作指令の決定
JP2018526622A (ja) * 2015-06-30 2018-09-13 ユウトウ・テクノロジー(ハンジョウ)・カンパニー・リミテッド ロボット音声探索回転システム及び方法
US11087755B2 (en) 2016-08-26 2021-08-10 Samsung Electronics Co., Ltd. Electronic device for voice recognition, and control method therefor
CN109859749A (zh) * 2017-11-30 2019-06-07 阿里巴巴集团控股有限公司 一种语音信号识别方法和装置
WO2023013022A1 (ja) * 2021-08-06 2023-02-09 三菱電機ビルソリューションズ株式会社 設置位置特定システム及び設置位置特定方法

Similar Documents

Publication Publication Date Title
US10522167B1 (en) Multichannel noise cancellation using deep neural network masking
US11651780B2 (en) Direction based end-pointing for speech recognition
US9324322B1 (en) Automatic volume attenuation for speech enabled devices
EP3432301B1 (en) Low power detection of an activation phrase
TWI502584B (zh) 電腦實施的波束成形方法,波束成形系統及相關之非暫時性電腦可讀媒體
KR102282366B1 (ko) 음성 향상 방법 및 그 장치
US9282399B2 (en) Listen to people you recognize
KR101492758B1 (ko) 배향 감지 녹음 제어 방법, 장치, 및 컴퓨터 판독가능 매체
JP5328744B2 (ja) 音声認識装置及び音声認識方法
JP2010197727A (ja) 音声認識装置、ロボット、音声認識方法、プログラム及び記録媒体
WO2016027680A1 (ja) 音声処理装置、音声処理方法、並びにプログラム
CN111370014A (zh) 多流目标-语音检测和信道融合
TWI711035B (zh) 方位角估計的方法、設備、語音交互系統及儲存介質
JP6681405B2 (ja) 声を受信する処理方法、装置、記憶媒体、携帯端末及びロボット
US10997971B2 (en) Wakeword detection using a secondary microphone
US20210312911A1 (en) Wakeword detection using a secondary microphone
JP6374936B2 (ja) 音声認識方法、音声認識装置及びプログラム
US20190362709A1 (en) Offline Voice Enrollment
CN108665907B (zh) 声音识别装置、声音识别方法、记录介质以及机器人
JP2005229420A (ja) 音声入力装置
CN110310655B (zh) 麦克风信号处理方法、装置、设备及存储介质
JP2004004239A (ja) 音声認識対話装置およびプログラム
CN111103807A (zh) 一种家用终端设备的控制方法及装置
CN112466305B (zh) 饮水机的语音控制方法及装置
JP6275606B2 (ja) 音声区間検出システム、音声始端検出装置、音声終端検出装置、音声区間検出方法、音声始端検出方法、音声終端検出方法およびプログラム

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20120501