JP2004094077A - 音声認識装置及び制御方法並びにプログラム - Google Patents

音声認識装置及び制御方法並びにプログラム Download PDF

Info

Publication number
JP2004094077A
JP2004094077A JP2002257500A JP2002257500A JP2004094077A JP 2004094077 A JP2004094077 A JP 2004094077A JP 2002257500 A JP2002257500 A JP 2002257500A JP 2002257500 A JP2002257500 A JP 2002257500A JP 2004094077 A JP2004094077 A JP 2004094077A
Authority
JP
Japan
Prior art keywords
voice
voice recognition
input
stop
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002257500A
Other languages
English (en)
Inventor
Kentaro Nagatomo
長友 健太郎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2002257500A priority Critical patent/JP2004094077A/ja
Publication of JP2004094077A publication Critical patent/JP2004094077A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】ユーザの音声認識処理の停止指示を適切に処理することによって、ユーザの誤操作による音声の尻切れを低減し、認識精度を向上させるとともに、応答時間が不必要に長くなることを回避する装置及び方法の提供。
【解決手段】マイクロフォンからの音声信号を入力するオーディオ入力部230と、音声認識処理を行い認識結果を出力し、始端検出部225と終端検出部226を有する音声認識処理部220と、ユーザによる操作に基づき、音声認識処理の開始と停止を指示する音声認識処理開始・停止指示部241と、音声認識処理部220による音声認識処理の実行を制御する制御部210を備え、停止の指示が入力され際、音声の終端が検出されるまで、音声認識処理部220での音声認識処理を続行させ、最長、タイムアウトカウンタ211で規定される時間経過した時点で、音声認識処理を停止するように制御する。
【選択図】図2

Description

【0001】
【発明の属する技術分野】
本発明は音声認識装置及び方法とプログラムに関し、特に、入力音声信号の歪み、頭切れ、尻切れ等を低減し、認識精度の向上を図る装置及び方法とプログラムに関する。
【0002】
【従来の技術】
近時、計算機の性能向上と携帯端末への需要の高まりによって、音声認識処理を実現可能な高性能のCPUを搭載した携帯端末が登場しつつある。このような機器での音声認識処理においては、従来の計算機では見られない特有の問題が存在する。
【0003】
第1の問題点として、環境雑音と音声との分離がある。以下に説明する。
【0004】
携帯端末は、例えば屋外など、環境雑音が比較的大きい状況での利用が想定されている。しかしながら、高雑音環境での認識率は、静かな環境に比べて低い。
【0005】
音声認識では、一般的に、まず入力音声から発声区間を切り出す処理を行う。雑音が認識性能を劣化させる原因の一つとして、雑音によって、無音区間と発声区間を間違いやすくなることが挙げられる。これは、さらに2つのケースに分けられる。
【0006】
第1は、無音区間を誤って、発声区間として切り出す場合である。この場合、語頭や語尾の音節を間違えやすくなるが、適切な雑音モデルを用いることで、ある程度、うまく認識することができる。
【0007】
第2は、真の発声区間の先頭や末尾が、無音区間と間違われて切り捨てられる場合である。このケースでは、誤認識は避けられない。
【0008】
そこで、入力音声からユーザの発声区間をより正確に切り出すために、発声の開始/終了タイミングを、ボタンのON(オン)/OFF(オフ)等で手動で指示させる手法(「プッシュ・トゥ・トーク」と呼ばれる)が用いられる。
【0009】
しかしながら、プッシュ・トゥ・トーク方式だけでは、ユーザの誤操作によって、認識性能が大きく劣化することがある。例えば、気の早い(せっかちな)ユーザは、実際に発話が終了するよりも早くボタンをOFF(発生を終了させる)に設定する傾向がある。この操作が行われると、発声区間の尻切れを起こす。
【0010】
前述したように、発声区間が欠けた場合の音声認識の性能劣化の程度は、無音区間が多少残る場合よりも、性質が悪い。そして、上記したユーザの誤操作を、ある程度許容するためには、ユーザのボタン操作以外の手法によって、発声の開始/終了タイミングを知る必要がある。
【0011】
第2の問題点として、ユーザの操作に対する応答時間がある。
【0012】
プッシュ・トゥ・トーク方式のみの場合、ユーザは、ユーザ自身の誤操作による音声認識の低下をある程度許容し、また操作を改善しようと試みる。その一方、プッシュ・トゥ・トーク方式と同時に、それ以外の手法を併用して、発声の開始/終了タイミングを検出する場合、併用される手法が、音声区間の検出を誤った時、ユーザは、これを機械の不都合と捉える。
【0013】
かかる事態が生じないように、いかなる音声区間検出手法を併用するにしろ、ユーザのボタン操作に対する応答時間はできるだけ短く保たなければならない。
【0014】
第3の問題点として、携帯端末の音声入力機能が、必ずしも音声認識に適していないということがある。
【0015】
携帯端末の音声入力機能は、基本的に、録音機能としての利用を主に想定して、最適化が施されている。例えば、多くの端末が入力音声の自動ゲイン調節機能を具備している。この機能は、背景雑音にあわせて入力ゲインを切替え、録音した音声が聞きとりやすいようにするものである。
【0016】
しかしながら、自動ゲイン調節機能は音声と背景雑音のパワーの比を動的に変更するため、パワーの比を重要な情報として利用する音声認識処理には適さない。さらに悪いことに、いくつかの携帯端末では、このような自動ゲイン調節機能をオフに設定するオプションがない。
【0017】
また、携帯端末は、低消費電力化が徹底して図られており、音声入出力ハードウェアは相対的に非力であり、ほとんどの場合、半二重で動作する。音声入力を開始する際に、まず音声出力を停止し、音声入出力ハードウェアの動作モードが、音声入力側に切替えられる。音声入力側への切替えの直後では、音声入出力ハードウェアは、過渡状態に陥り、収束するまでの間に入力された音声は、大きく歪む。録音機能として利用する場合には、これでも十分であるが、音声認識処理には、大きな問題となる。従来技術の問題点をまとめると以下の通りである。
【0018】
第1の問題点は、プッシュ・トゥ・トーク方式のインターフェイスを採用する場合、ユーザが発話途中で誤ってマイクボタンをオフにしてしまった時に正しい認識結果が得られない、ということである。
【0019】
その理由は、ユーザがマイクボタンをオフにした時点で、それがユーザの望む動作であるかどうかに関係なく、音声認識処理は、その時点までに入力された音声に対してのみ行われるためである。
【0020】
第2の問題点は、上記第1の問題点を回避するため、マイクボタンがオフになった場合でも発声が検出されている間は、音声入力を続行するようにした場合、音声入力が停止しなくなる可能性がある、ということである。
【0021】
その理由は、もともとプッシュ・トゥ・トーク方式が必要とされるような高雑音環境においては、ユーザによる発声の検出が雑音によって十分に機能し得ないことが予測されているために、ユーザの明示的な停止指示で音声認識の停止が行われているが、ユーザの明示的な停止指示を無視した場合、音声入力が停止しないことになるためである。
【0022】
第3の問題点は、オーディオ入力部の立ち上がり直後に、認識精度が低下する、ということである。
【0023】
その理由は、マイクロフォンデバイスが立ち上げ直後に、過渡状態に陥り、その間に発声された音声が大きく歪んで入力されるためである。
【0024】
また、いくつかのデバイスのオーディオ入力部は、周辺の環境雑音とのS/N(信号対雑音)比に従って入力ゲインを自動的に調節する機能を具備している。しかしながら、自動ゲイン調節機能も、正しい発声区間の検出を妨げる一因となり得る。
【0025】
その理由は、音声の始端/終端の検出には無声区間(環境雑音のみの区間)と有声区間(音声と環境雑音の和の区間)でのパワーの比が重要であり、過渡状態の不安定な波形や、自動ゲイン調節によって無声区間と有声区間のパワー比が変化した場合、発声区間を的確に判断することは、困難となるためである。
【0026】
なお、音声認識の停止の指示が入力されると、状態情報保持部を参照し、音声認識部が音声認識の処理中である場合には、停止の指示を与えずに、停止フラグをセットし、音声認識部が認識結果を獲得するまで、認識処理の停止を遅延させ、音声認識部が認識結果を獲得すると、獲得した認識結果を出力部に出力して停止フラグを参照し、該停止フラグがセットされている場合に、認識処理を停止することで、入力した音声結果を確実に獲得できるようにした音声認識装置が開示されている(例えば特許文献1参照)。
【0027】
【特許文献1】
特開2000−89789号公報(第3頁、第2図)
【0028】
【発明が解決しようとする課題】
したがって、本発明は、上記問題点に鑑みて創案されたものであって、本発明の目的は、ユーザの音声認識処理の停止指示を適切に処理することによって、ユーザの誤操作による音声の尻切れを低減し、認識精度を向上させるとともに、応答時間が不必要に長くなることを回避する装置及び方法とプログラムを提供することにある。
【0029】
また本発明の他の目的は、音声入力ハードウェアの過渡状態や自動ゲイン調節による入力波形のパワー比への影響を回避し、認識精度を向上させる装置及び方法を提供することにある。
【0030】
【課題を解決するための手段】
前記目的を達成する本発明の1つのアスペクトに係る音声認識装置は、音声入力手段から入力された音声の認識処理を行う音声認識手段と、前記音声入力手段から入力された音声の終端を検出する手段と、前記音声の終端を検出する手段によって音声の終端が検出された場合に、前記音声認識処理手段での音声認識処理を停止させるように制御する手段と、を備えている。
【0031】
かかる構成の本発明によれば、ユーザから音声認識処理を停止する指示を受けても、音声の終端を検出するまで、音声認識処理を継続するように動作するため、ユーザの誤操作による入力信号波形の尻切れを防ぐことができる。
【0032】
本発明に係る音声認識装置は、他のアスペクトにおいて、音声を入力する音声入力部と、ユーザが音声認識処理の停止を指示する操作を行う入力操作部と、前記音声入力部から入力された音声の認識処理を行う音声認識処理部であって、音声の始端を検出する手段と、音声の終端を検出する手段と、を備えた音声認識処理部と、前記入力操作部から音声認識処理の停止の指示が入力された場合に、前記音声認識処理の停止の指示が入力された時点で、音声の始端が検出されており、且つ、音声の終端が検出されていない状態である場合には、前記入力操作部から音声認識処理の停止の指示が入力された時点では前記音声認識処理部での音声認識処理を停止させないように制御する手段と、を含む。
【0033】
本発明に係る音声認識装置においては、前記入力操作部から音声認識処理の停止の指示が入力された場合、前記音声認識処理の停止の指示が入力された時点から、最長、予め定められた待ち時間が経過するまで音声終端の検出を待機し、前記待ち時間が経過した時点で、音声認識処理を停止するように制御する手段を含む構成としてもよい。
【0034】
このように、本発明によれば、ユーザの発声の終了を正しく検出できなかった場合でも、システムの応答時間が不必要に長くなるのを回避するための手段として、音声認識処理の停止指示を受けてから一定時間後に音声認識処理を停止するように動作する。
【0035】
本発明に係る音声認識装置においては、好ましくは、前記待ち時間以内に、前記音声の終端が検出された場合に、前記音声認識処理部での音声認識処理を停止させるように制御する手段を含む。
【0036】
本発明に係る音声認識装置においては、前記待ち時間を、入力音声のパワーと信号対雑音比のうちの少なくとも1つ、及び/又は、認識可能な語彙の性質に応じて、可変させる手段を含む構成としてもよい。
【0037】
本発明に係る音声認識装置においては、入力操作部から音声認識処理の停止の指示が入力された場合、音声の終端の検出条件を徐々に緩和していき、前記待ち時間が経過した時点で、前記音声認識処理を停止するように制御する手段を含む構成としてもよい。
【0038】
本発明に係る音声認識装置においては、前記待ち時間が経過した時点で、前記音声認識処理を停止した際、ユーザにその旨を通知する手段を含む構成としてもよい。
【0039】
本発明に係る音声認識装置においては、前記音声入力部は、前記音声認識装置が起動されている間、常時、活性化されている構成としてもよい。
【0040】
本発明に係る音声認識装置においては、好ましくは、ユーザの発声時よりも前に、前記音声入力部の回路、及び、自動ゲイン調整回路の安定化が行われる構成とされる。
【0041】
本発明に係る音声認識装置においては、音声認識装置が起動してから終了するまでの間、音声認識処理部が停止している時であっても、常に、オーディオ入力部を作動させておく制御が行われ、オーディオ入力部の立ち上がりの過渡状態による入力音声の歪みや自動ゲイン調節機能による入力音声のS/N比の変動を回避することを可能としている。
【0042】
本発明に係る方法は、その一つのアスペクトにおいては、音声の認識処理の停止の指示の入力を受けて音声の認識処理の停止を行う音声認識処理部を有する音声認識装置の制御方法において、音声の認識処理の停止の指示が入力された場合に、音声の終端が検出されたときに音声認識処理を停止させるように制御する工程を含む。
【0043】
本発明に係る方法は、他のアスペクトにおいて、音声を入力する音声入力部と、ユーザが音声認識処理の停止を指示する操作を行う入力操作部と、前記音声入力部から入力された音声の認識処理を行う音声認識処理部と、を有する音声認識装置の制御方法において、前記入力操作部から音声認識処理の停止の指示が入力された場合に、前記音声認識処理の停止の指示が入力された時点で、音声の始端が検出されており、且つ、音声の終端が検出されていない状態である場合には、前記入力操作部から音声認識処理の停止の指示が入力された時点では、前記音声認識処理部での音声認識処理を停止させないように制御する工程を含む。
【0044】
本発明に係る方法においては、前記入力操作部から音声認識処理の停止の指示が入力された場合、前記音声認識処理の停止の指示が入力された時点から、最長、予め定められた待ち時間、音声の終端の検出待ちとし、前記待ち時間が経過した時点で、前記音声認識処理を停止するように制御する工程を含む。
【0045】
【発明の実施の形態】
本発明の好適な実施の形態について説明する。本発明の好適な一実施の形態に係る装置は、マイクロフォン(110)からの音声信号を入力しデジタル音声信号に変換して出力するオーディオ入力部(230)と、オーディオ入力部からの音声を入力して音声認識処理を行い認識結果を出力する音声認識処理部であって、音声の始端と終端を検出する手段(225、226)を備えた音声認識処理部(220)と、音声認識処理の開始と停止をユーザが指示する入力操作部(120、240)と、音声認識処理部(220)による認識結果を出力する出力装置(130、243)と、ユーザによる前記入力操作部の出力を入力し、ユーザによる入力操作部(120)での操作に基づき、音声認識処理の開始と停止を指示する音声認識処理開始・停止指示部(241)と、音声認識処理開始・停止指示部(241)から通知される音声認識処理の開始と停止のそれぞれの指示を受け、音声認識処理部(220)による音声認識処理の実行を制御する制御部(210)と、を備えている。
【0046】
ユーザは、入力操作部(120)を操作して音声認識処理を開始させ、認識対象語を発声し、前記発声が終了した後、入力操作部を操作して、音声認識処理を停止させ、音声認識処理開始・停止指示部(241)から、音声認識処理の停止の指示が、制御部(210)に伝えられる。
【0047】
制御部(210)では、
(a)音声認識処理開始・停止指示部(241)から音声認識処理の停止の指示を受けた際に、音声認識処理部(220)ですでに音声の終端を検出しているか否か調べる処理手段(212)と、
(b)調査の結果、音声の始端を検出する手段(225)で音声の始端が検出された状態において、音声の終端を検出する手段(226)で音声の終端が検出されている場合、音声認識処理部(220)に通知して音声認識処理を停止させる処理手段と、
(c)音声認識処理部(220)における認識候補の有無により、認識結果の出力するか、または棄却を通知する制御を行う処理手段と、
(d)調査の結果、音声の始端を検出する手段(225)で音声の始端が検出された状態において、音声の終端を検出する手段(226)で音声終端が検出されていない場合には、タイマー(211)を所定の待ち時間に初期設定した上で該タイマー(211)による計時を開始させ、音声認識処理部(220)を音声の終端の待ち状態に設定し、待ち状態において、音声終端が検出された場合、音声認識処理部(220)による音声認識処理を停止させ、認識結果を表示させる制御を行う処理手段と、
(e)音声終端が検出されないまま、タイマー(211)でタイムアウトが発生した場合、音声認識処理部(220)における音声認識処理を停止させ、入力音声を棄却した旨を、前記ユーザに通知する制御を行う処理手段と、
を備えている。
【0048】
本発明の一実施の形態において、制御部(210)における上記(a)乃至(e)の処理手段は、音声認識装置を構成するコンピュータのプログラムで処理・機能が実現される。
【0049】
本発明の一実施の形態において、タイマー(211)のタイムアウト時間を一定時間に固定させず、例えば、入力音声のパワーと信号対雑音比、認識可能な語彙の性質に応じて可変させる構成としてもよい。
【0050】
本発明の一実施の形態において、入力操作部から音声認識処理の停止の指示が入力された場合、終端検出手段(226)における音声の終端の検出条件を徐々に緩和していく制御を行ってもよい。そして、タイマー(211)のタイムアウト時間が経過した時点で音声認識処理を停止する。
【0051】
本発明の一実施の形態において、オーディオ入力部(230)は、音声認識装置が起動されている間、常時、活性化されている。すなわち、ユーザの発声時よりも前に、前記音声入力部の回路、及び、自動ゲイン調整回路の安定化が行われる。
【0052】
本発明に係る方法は、その一実施の形態において、ユーザによる入力操作に基づき、音声入力部からの音声の認識処理の開始及び停止を行う音声認識処理部を有する音声認識装置において、ユーザが音声認識処理の停止を指示した場合、音声の終端が検出されたときに、音声認識処理を停止する工程を含む。
【0053】
本発明に係る方法は、その一実施の形態において、音声認識処理部における音声認識処理の停止をユーザが指示するための入力操作部を有する音声認識装置の制御方法として、以下のステップa乃至eを含む。
【0054】
ステップa:ユーザが入力操作部を操作して音声認識処理の停止を指示した場合に、音声認識処理の停止の指示が入力された時点で、音声の終端がすでに検出されているか否か判定する。
【0055】
ステップb:上記ステップaの判定の結果、音声認識処理の停止の指示が入力された時点で、音声の終端がすでに検出されている場合には、音声認識処理部(図2の220)での音声認識処理を停止させる。
【0056】
ステップc:上記ステップaの判定の結果、音声認識処理の停止の指示が入力された時点で、音声の始端が検出されている状態であり、且つ、音声の終端が検出されていない場合、予め定められた所定の待ち時間にタイマー(図2のタイムアウトカウンタ211)を初期設定し、タイマー(図2の211)による計時を開始させ、タイマー(図2の211)でタイムアウトが発生するまで、音声の終端の検出の待ち状態とする。
【0057】
ステップd:タイマー(図2の211)でタイムアウト発生前に、音声の終端が検出された場合、音声認識処理動作を停止し、認識結果が存在する場合には、認識結果を前記ユーザに通知する。
【0058】
ステップe:タイマー(図2の211)でタイムアウト発生時に、なおも、音声の終端が検出されない場合には、音声認識処理動作を停止し、認識棄却通知を、ユーザに行う。
【0059】
【実施例】
上記した本発明の実施の形態についてさらに詳細に説明すべく、本発明の実施例について図面を参照して詳細に説明する。
【0060】
図1は、本発明の一実施例の携帯端末装置の外観の概略を示す図である。図1を参照すると、この実施例の携帯端末装置は、マイクロフォン110と、スイッチボタン120と、ディスプレイ装置130とを少なくとも備えている。スイッチボタン120は、ユーザが音声認識処理開始と停止を指示するためのスイッチボタンである。ユーザは、スイッチボタン120を押下し、押下し続けたままマイクロフォン110に向かって発声し、発声が完了した後、直ちに、スイッチボタン120の押下を止める。音声認識処理が正しく行われた場合、音声認識結果(テキスト)がディスプレイ装置130に反映される。
【0061】
図2は、図1に示した本発明の一実施例の携帯端末装置における音声認識装置の構成を示す図である。図2を参照すると、本実施例は、制御部210と、音声認識処理部220と、オーディオ入力部230と、ユーザインターフェイス部240とを備えている。
【0062】
制御部210は、音声認識処理部220の動作を制御する。制御部210は、タイムアウトカウンタ(「タイマー」という)211、終端検出機能制御部212を備えている。タイムアウトカウンタ211は、指定された時間を計時すると、制御部210のプロセッサ(不図示)に割り込み等でタイムアウトを通知する。終端検出機能制御部212は、予め定められた一定時間ごとに音声認識処理部220の制御インターフェイス222を通じて終端検出部226の動作を制御する。なお、必要に応じて、終端検出部226の動作の制御としては、音声終端を検出するための条件を、順次、緩和する制御等も行われる。
【0063】
音声認識処理部220は、オーディオ入力部230から入力された音声波形をもとに、制御部210の制御に従って、音声認識処理を行い、認識結果を、ユーザインターフェイス部240に返す。音声認識処理部220は、オーディオ入力部230からのデジタル音声信号を受けとって蓄積するリングバッファ221と、制御インターフェイス222と、特徴分析部223と、モデルマッチング部224と、音声の始端を検出する始端検出部225と、音声の終端を検出する終端検出部226を備えている。
【0064】
制御インターフェイス222は、制御部210からの指示に応じて、特徴分析部223と、モデルマッチング部224と、始端検出部225と、終端検出部226の動作を制御する。
【0065】
特徴分析部223は、リングバッファ221から入力された音声信号波形の特徴量を抽出する。モデルマッチング部224は、特徴分析部223で分析され出力される特徴量を受け取り、モデルマッチング部224内の記憶装置(不図示)に記憶保持される音響モデル/単語辞書等を参照して照合を行い、音声認識を行う。
【0066】
始端検出部225と、終端検出部226は、特徴分析部223で分析された特徴量を基に、それぞれ音声始端、音声終端の検出を行う。
【0067】
リングバッファ(サーキュラーバッファ)221は、オーディオ入力部230からの音声信号の波形データを一時的に記憶するバッファであり、例えば読み出しポインタで指し示されるアドレスから蓄積データの読み出しが行われ、書き込みポインタで指し示されるアドレスにデータの書き込みが行われ、ポインタが、最終アドレスに達した場合、例えば先頭アドレスに戻るという具合に、サーキュレートする。制御部210から音声認識処理の開始の指示が音声認識処理部220の制御インターフェイス222に転送された場合、特徴分析部223は、リングバッファ221の読み出しポインタからデータを読み出す。なお、読み出しポインタと書き込みポインタが同一の場合、空である。
【0068】
オーディオ入力部230は、マイクロフォン242からのユーザの発声をアナログ信号で入力し、アナログ・デジタル変換したデジタル音声波形として、音声認識処理部220に渡す。
【0069】
オーディオ入力部230は、自動ゲイン調節部231と、ADコンバータ232を備えている。自動ゲイン調節部231は、入力音声のパワーに従って、オーディオ入力部230の入力ゲインを調節する。ADコンバータ232は、自動ゲイン調節部231でゲイン調節されたアナログ音声信号をデジタル信号に変換する。オーディオ入力部230は、装置がオン時、常時、活性化状態とされている。
【0070】
ユーザインターフェイス部240は、音声認識処理開始/停止指示部241と、マイクロフォン242と、認識処理結果表示部243と、を備えている。
【0071】
音声認識処理開始/停止指示部241は、図1におけるスイッチボタン120に相当しており、発声者であるユーザ本人が、音声認識処理の開始または停止を指示するために用いられる。
【0072】
音声認識処理開始/停止指示部241の出力は、制御部210に供給され、音声認識処理開始、停止の指示は、制御部210に伝えられる。
【0073】
マイクロフォン242は、ユーザの発声を入力し、そのアナログ音声信号をオーディオ入力部230に送出する。
【0074】
認識結果表示部243は、ディスプレイ装置(図1の130)よりなり、音声認識処理部220の出力を表示する。
【0075】
図3は、本発明の一実施例の動作を説明するためのフローチャートである。図3を参照して、本発明の一実施例の動作について説明する。
【0076】
ユーザは、携帯端末の音声認識装置を起動する(ステップA1)。
【0077】
音声認識装置の起動を受け、制御部210は、オーディオ入力部230を用いて、音声波形の取り込みを開始する(ステップA2)。オーディオ入力部230は、音声認識用に占有される(すなわち、録音等には利用されない)。なお、この時点では、まだ音声認識処理部220における音声認識処理動作は、停止しており、特徴分析部223及びモデルマッチング部224による音声認識処理は行われない。このとき、オーディオ入力部230のADコンバータ232から出力されるデジタル信号は、リングバッファ221に書き込まれていくが、特徴分析部223等による読み出しは行われず、バッファが溢れた場合、再び先頭から書き込みが行われる。
【0078】
次に、ユーザが、スイッチボタン120(図1参照)を押下し、音声認識処理開始/停止指示部241から、音声認識処理の開始を、制御部210に通知する(ステップA3)。
【0079】
制御部210は、音声認識処理部220を起動させ、音声認識処理部220による音声認識処理が開始される(ステップA4)。特徴分析部223は、リングバッファ221の読み出しポインタが示すアドレスからデジタル音声信号を所定数セグメント分、読み出し、特徴パラメータの抽出を行う。
【0080】
ユーザは、スイッチボタン120(図1参照)を押下したまま、認識対象語を発声し(ステップA5)、発声が終わった後、速やかに、スイッチボタン120を離す。このスイッチボタン120の操作を受けて、音声認識処理開始/停止指示部241から、音声認識処理の停止の指示が制御部210に伝えられ、制御部210から、音声認識処理部220の動作の停止が指示される(ステップA6)。
【0081】
音声認識処理部220における音声認識処理が停止する(ステップA7)。
【0082】
このとき、認識候補単語が得られていれば(ステップA8のYes)、認識候補単語の結果を、ディスプレイ装置130に出力する(ステップA9)。
【0083】
発声の声が小さすぎたり、大きすぎたり、または、音声認識処理部220が認識できない発声であった場合、音声認識処理部220は、制御部210に、認識候補を一つも返さないことがある。この場合、制御部210は、当該発声の入力は、棄却されたものと判断し、ディスプレイ装置130に、その旨を出力してユーザに通知する(ステップA10)。
【0084】
ユーザが音声認識機能の利用を終了する場合、オーディオ入力部230の占有を解放する(ステップA11)。オーディオ入力部230は、録音等に利用可能とされる。
【0085】
図4は、本発明の一実施例における音声認識処理の停止動作を説明するためのフローチャートである。図4を参照して、本発明の一実施例における音声認識処理の停止動作について説明する。
【0086】
ユーザが、ストップボタン120を離し、音声認識開始/停止指示部241によって、音声認識の停止を指示する(ステップB1)。
【0087】
制御部210の終端検出機能制御部212は、音声認識処理部220の終端検出部226で音声終端を検出しているか否かを調べる(ステップB2)。
【0088】
音声認識処理部220の終端検出部226で、すでに音声終端が検出されている場合、制御部210は、音声認識処理部220に通知して、音声認識処理を停止させ(ステップB3)、認識候補の有無により、結果の表示または棄却の通知を行う(ステップB5、B6)。
【0089】
一方、音声認識処理部220の終端検出部226で、まだ音声終端が検出されていない場合、制御部210の終端検出機能制御部212は、音声認識処理部220の終端検出部226に通知して、音声終端の待ち状態となる。
【0090】
まず、制御部210では、タイムアウトカウンタ211を初期化し、あらかじめ定められたタイムアウト時間(タイマー値)をセットする(ステップB7)。
【0091】
ついで、制御部210は、音声認識処理部220の終端検出部226で音声終端が検出されるまで待ち(ステップB8)、音声認識処理部220の終端検出部226で音声終端が検出されたら、音声認識処理部220における音声認識処理を停止し、音声認識処理結果を表示する(図4ステップB3からB6)。
【0092】
タイムアウトカウンタ211のタイムアウト設定時間が経過しても、音声終端が検出されない、すなわち、音声終端を待っている間に、タイムアウトが発生した場合(ステップB9のYes)、制御部210は、音声終端の有無にかかわらず、強制的に、音声認識処理部220における音声認識処理を停止し(ステップB10)、入力を棄却したことをユーザに通知する(ステップB6)。
【0093】
本実施例において、タイムアウトカウンタ211のタイムアウト設定時間を可変に制御するようにしてもよい。例えば、音声認識処理部220で算出された入力音声のパワー値、SN(信号対雑音)比のうちの少なくとも1つ、及び/又は、認識可能な語彙の性質に応じて、タイムアウトカウンタ211のタイムアウト設定時間を可変させるように制御する構成としてもよい。入力音声のパワー値が相対的に高い場合(SN比が所定値以上の場合)、話者の発声が続くものと予測され、音声終端検出待ち制御用のタイムアウトカウンタ211のタイムアウト設定時間は長く設定される。逆に、入力音声のパワー値が相対的に低い場合(SN比が所定値未満の場合)、発声は終わるか/無いものと予測され、音声終端検出待ち制御用のタイムアウトカウンタ211のタイムアウト設定時間は短く設定される。音声認識処理部220で認識可能な語彙に応じてタイムアウト設定時間を調整してもよい。例えば語彙が明瞭に認識できる場合、話者の発声はしばらく続くものと予測され、音声終端検出待ち制御用のタイムアウトカウンタ211のタイムアウト設定時間は長く設定される。
【0094】
次に、本発明の一実施例における音声認識処理部220の始端検出部225、及び終端検出部226の処理の一例について説明する。
【0095】
入力音声波形には、発声部分の直前に一定時間以上の無音部分の存在を前提とする。
【0096】
入力音声波形を順次監視し、入力音声のパワーあるいはSN比が、予め定められたパワー値、あるいはSN比を上回れば、その時点を音声始端とする。
【0097】
音声始端を検出したとき、その直前の数フレームの無音部分から、背景音のパワーを求め、音声終端の検出のために用いる閾値を設定する。
【0098】
入力音声波形を順次監視し、入力音声のパワー値あるいはSN比が、上記閾値を下回れば、その時点で、音声の終端とする。
【0099】
そして、音声終端を特定した後も、入力音声波形を監視し、予め定められた時間内に、再び、音声始端が検出された場合、先に検出した終端を、キャンセルする。
【0100】
本実施例において、音声認識処理の停止の指示がなされた場合、終端検出部226における音声の終端の検出条件を一定とするのではなく、徐々に、緩和するようにしてもよい。例えば、待ち時間の経過とともに、入力音声のパワー値あるいはSN比と比較される閾値の値を高くすることで、音声の終端の検出条件の緩和が行われる。
【0101】
次に、上記した本実施例の作用効果の一例について説明する。図5(A)は、比較例の作用効果を説明するための図であり、図5(B)は、本発明の作用効果を説明するための図である。
【0102】
本発明は、音声認識処理の停止の指示が入力された場合に、該音声認識処理の停止の指示が入力された時点で、音声の始端が検出されており、且つ、音声終端が検出されていない状態である場合には、音声認識処理の停止の指示が入力された時点では、音声認識処理部220での音声認識処理を停止させないよう制御することを特徴の一つとしている。比較例として、例えば上記特許文献1(特開2000−89789号公報)に記載された発明では、図5(A)に示すように、音声認識停止指示の後に発声された音声は認識の対象とならない。このため、ユーザの意図に反して、音声認識停止指示が行われた場合(例えばユーザがうっかりしてボタンから指を離すタイミングが早すぎる等)、当該発声が正しく認識されることはほとんどなかった。
【0103】
これに対して、本発明によれば、図5(B)に示すように、音声認識処理の停止の指示が入力された後に発声された音声も認識対象とされる。
【0104】
システムの性能調査を行ったところ、あるせっかちな傾向の話者では、ほとんどの発声で尻切れを起こしており、上記比較例の装置では、その認識率(認識成功率)は50%程度であった。
【0105】
これに対して、本発明の音声認識装置では、この話者の認識率は、実に80%〜100%に達した。なお、携帯型の情報端末装置に、本発明の音声認識装置を組み込み、鉄道の経路探索の入力として駅名を音声入力で行い、本発明と、本発明の構成を具備しない比較例との認識率を比較した。
【0106】
比較例の装置では、尻切れを起こしやすい話者は、意識的にゆっくりとスイッチ操作を行わなければならなかった。本発明を実装した装置では、話者は、例えば、多少ぞんざいにスイッチ操作を行っても認識可能となり、操作性、認識率を向上している。
【0107】
また本発明において、タイマー211によるタイムアウト発生時、音声終端が検出されていない場合、音声認識処理を停止させる制御を行っている。
【0108】
このタイムアウト機能を具備しない場合、雑音を拾って誤動作すると、最悪の場合、音声認識処理はいつまでも停止しないことになる。
【0109】
一方、タイムアウト時間の設定が短すぎると、音声認識処理の停止の指示が入力された後に発声された音声の認識率が低下する。タイムアウト時間の設定が長すぎると、ユーザインターフェイスの応答が悪化する。
【0110】
本発明の実装において、タイマー211のタイムアウト時間は、代表値として3秒に設定されている。このタイムアウト設定値で、声認識処理の停止が指示された後に発声された音声の認識率の低下が回避され、ユーザからレスポンスが悪いというコメントはなかった。
【0111】
発声直前に、オーディオ入力部230を立ち上げると、過渡的不安定の影響を受け、入力音声に歪みが生じ、そのため音声認識処理部220での認識精度が低下する。
【0112】
フィードバック制御により増幅器のゲインが可変に自動設定される自動ゲイン調整機能(AGC)が具備されているハードウェア構成の場合、発声直前から自動ゲイン調整機能(AGC)が効き始めると、発声の直前、直後で、ハードウェアの過渡等により、ゲインが大きくなる異なることがある。
【0113】
音声認識処理部220は、オーディオ入力部230のゲイン設定値を知ることができないため、ゲインが変動すると、実際の入力音声のパワーやSN比を取得することができない。音声の始端検出部225、終端検出部226における始端、終端の検出は、パワー値とSN比を用いて行われるため、実際の入力音声のパワーやSN比を取得することができないと、音声の始端、終端の検出の精度が低下する。
【0114】
オーディオ入力部を常時活性化する構成をとらない場合、音声開始ボタンを押下した直後の発声は、例外なく誤認識される。
【0115】
これに対して、本発明によれば、音声開始ボタンを押下した直後の発声も正しく認識される。
【0116】
本発明の構成をとらない場合、オーディオ入力部の自動ゲイン調整機能(AGC)が活性化されていると、音声の始端、終端をただしく検出できないことが多い。この場合、ユーザが、オーディオ入力部の自動ゲイン調整機能(AGC)をオフ状態に切り替える必要があり、不便である。
【0117】
また、現行製品のいくつかのものは、オーディオ入力部の自動ゲイン調整機能(AGC)のオン及びオフをユーザが設定することはできず、常に、自動ゲイン調整機能はオン状態とされている。この場合、音声の始端、終端の検出精度が低くなる。
【0118】
本発明によれば、オーディオ入力部を常時オン状態とすることで、ユーザの発声より可能な限り、早い段階でハードウェアの過渡現象や自動ゲイン調整機能の安定化が行われており、音声認識開始指示の直後には、すでに安定状態に入っている。このため、自動ゲイン調整機能の影響を、音声の始端、終端の検出に支障がでない程度に抑えることができる。
【0119】
上記作用効果を奏する本発明の音声認識装置は、例えばPDA等の携帯型端末に実装して好適とされる。
【0120】
以上本発明を上記実施例に即して説明したが、本発明は、上記実施例の構成にのみ限定されるものでなく、本願特許請求の範囲の請求項の発明の範囲内で当業者であればなし得るであろう各種変形、修正を含むことは勿論である。
【0121】
【発明の効果】
以上説明したように、本発明によれば、下記記載の効果を奏する。
【0122】
本発明の第1の効果は、ユーザが発声中に誤って音声認識処理部に停止を指示した場合でも、それ以降に発声された音声について、認識処理を続行することができる、ということである。
【0123】
本発明の第2の効果は、実際にはユーザの発声は終了しているにもかかわらず、誤って音声認識停止指示が無視された場合、少なくとも、一定時間以内に、音声認識処理が終了することを、ユーザに保証することによって、ユーザビリティを向上することができる、ということである。
【0124】
本発明の第3の効果は、オーディオ入力部の立ち上がりの過渡的不安定状態を回避することができる、ということである。
【0125】
その理由は、音声認識装置が、起動した直後から、終了するまでの間、常に、オーディオ入力部を活性化させているため、音声認識開始指示の直後には、すでに安定状態に入っているためである。
【図面の簡単な説明】
【図1】本発明の一実施例の携帯端末の構成を示す図である。
【図2】本発明の一実施例の携帯端末の構成を示す図である。
【図3】本発明の一実施例の動作を説明するためのフローチャートである。
【図4】本発明の一の実施例における音声認識処理停止の動作を説明するためのフローチャートである。
【図5】(A)、(B)は、比較例と本発明との音声認識の作用効果の相違点を比較して説明するための図である。
【符号の説明】
100 携帯端末
110、242 マイクロフォン
120 スイッチボタン
130 ディスプレイ装置
200 音声認識システム
210 制御部
211 タイムアウトカウンタ
212 終端検出機能制御部
220 音声認識処理部
221 リングバッファ
223 特徴分析部
224 モデルマッチング部
225 始端検出部
226 終端検出部
230 オーディオ入力部
231 自動ゲイン調節部
240 ユーザインターフェイス部
241 音声認識処理開始/停止指示部
243 認識結果表示部

Claims (32)

  1. 音声入力手段から入力された音声の認識処理を行う音声認識手段と、
    前記音声入力手段から入力された音声の終端を検出する手段と、
    前記音声の終端を検出する手段によって音声の終端が検出された場合に、前記音声認識手段による音声認識処理を停止させるように制御する手段と、
    を含む、ことを特徴とする音声認識装置。
  2. 音声を入力する音声入力部と、
    ユーザの所定の操作による、少なくとも音声認識処理の停止の指示を入力する入力操作部と、
    前記音声入力部から入力された音声の認識処理を行う音声認識処理部であって、音声の始端を検出する手段と、音声の終端を検出する手段と、を備えた音声認識処理部と、
    前記入力操作部から音声認識処理の停止の指示が入力された場合に、前記音声認識処理の停止の指示が入力された時点で、音声の始端が検出されており、且つ、音声の終端が検出されていない状態である場合には、前記入力操作部から音声認識処理の停止の指示が入力された時点では、前記音声認識処理部での音声認識処理を停止させないように制御する手段と、
    を含む、ことを特徴とする音声認識装置。
  3. 前記音声認識処理の停止の指示が入力された場合、前記音声認識処理の停止の指示が入力された時点から、最長、予め定められた待ち時間、音声の終端の検出待ちとし、前記待ち時間が経過した時点で、前記音声認識処理を、停止するように制御する手段を含む、ことを特徴とする請求項2記載の音声認識装置。
  4. 前記待ち時間以内に、前記音声の終端が検出された場合に、前記音声認識処理部での音声認識処理を停止させるように制御する手段を含む、ことを特徴とする請求項3記載の音声認識装置。
  5. 前記待ち時間を、入力音声のパワー値と信号対雑音比とのうちの少なくとも1つ、及び/又は、認識可能な語彙の性質に応じて、可変させる手段を含む、ことを特徴とする請求項3又は4記載の音声認識装置。
  6. 前記入力操作部から音声認識処理の停止の指示が入力された場合、音声の終端の検出条件を徐々に緩和していき、前記待ち時間が経過した時点で、前記音声認識処理を停止するように制御する手段を含む、ことを特徴とする請求項3乃至5のいずれか一に記載の音声認識装置。
  7. 前記待ち時間が経過した時点で、前記音声認識処理を停止した際、ユーザにその旨を通知する手段を含む、ことを特徴とする請求項3乃至6のいずれか一に記載の音声認識装置。
  8. 前記音声入力部は、前記音声認識装置が起動されている間、常時、活性化されている、ことを特徴とする請求項2乃至7のいずれか一に記載の音声認識装置。
  9. 前記音声入力部のハードウェア回路、及び、前記音声入力部における、入力信号を増幅するゲインを自動調整する自動ゲイン調整器の安定化が、ユーザの発声時よりも前の時点で行われる、ことを特徴とする請求項8記載の音声認識装置。
  10. 音声認識処理部における音声認識処理の停止を、ユーザが指示するための入力操作部を有する音声認識装置において、
    前記ユーザが前記入力操作部を操作して音声認識処理の停止を指示した場合に、前記音声認識処理の停止の指示が入力された時点で、音声の終端がすでに検出されているか否か判定する手段と、
    前記判定の結果、前記音声認識処理の停止の指示が入力された時点で、音声の終端がすでに検出されている場合、前記音声認識処理部での音声認識処理を停止させる手段と、
    前記判定の結果、前記音声認識処理の停止の指示が入力された時点で、音声の始端が検出されており、且つ、音声の終端が検出されていない場合、予め定められた所定の待ち時間に、タイマーを初期設定し、前記タイマーでの計時を開始させ、前記タイマーでタイムアウトが発生するまで、前記音声認識処理部を、音声の終端の検出待ちに設定する手段と、
    前記タイマーでタイムアウト発生前に音声の終端が検出された場合、前記音声認識処理部の動作を停止し、認識結果が存在する場合に、認識結果を、前記ユーザに通知する手段と、
    前記タイマーでタイムアウト発生時に、なお音声の終端が検出されない場合、前記音声認識処理部の動作を停止し、認識棄却通知を、前記ユーザに行う手段と、
    を含む、ことを特徴とする音声認識装置。
  11. マイクロフォンからのアナログ音声信号を入力しデジタル音声信号に変換して出力するオーディオ入力部と、
    前記オーディオ入力部から出力されるデジタル音声信号を入力して、前記音声信号の特徴の分析処理とパターン照合処理による音声認識処理を行い認識結果を出力する音声認識処理部であって、音声の始端を検出する始端検出手段と、音声の終端を検出する終端検出手段と、を備えた音声認識処理部と、
    音声認識処理の開始及び停止をユーザが指示する入力操作部と、
    前記音声認識処理部による認識結果を出力する出力装置と、
    ユーザによる前記入力操作部の出力を入力し、前記ユーザによる前記入力操作部での操作に基づき、音声認識処理の開始と停止を指示する音声認識処理開始・停止指示部と、
    前記音声認識処理開始・停止指示部から通知される音声認識処理の開始と停止のそれぞれの指示を受け、前記音声認識処理部による音声認識処理の実行を制御する制御部と、
    を備え、
    ユーザは、前記入力操作部から音声認識処理の開始を指示して、前記音声認識処理開始・停止指示部、及び前記制御部を介して、前記音声認識処理部での音声認識処理を開始させ、認識対象語を発声し、前記発声が終了した後、前記入力操作部から音声認識処理の停止を指示し、前記音声認識処理開始・停止指示部を介して、音声認識処理の停止の指示が前記制御部に伝えられ、
    前記制御部は、
    タイマーと、
    前記音声認識処理開始・停止指示部から音声認識処理の停止の指示を受けた際に、前記終端検出手段ですでに音声の終端を検出しているか否か調べ、前記終端検出手段で前記音声の終端が検出されている場合には、前記音声認識処理部に通知して音声認識処理を停止させる手段と、
    前記音声認識処理部における認識候補の有無により、認識結果を出力装置に出力するか、または棄却を通知する制御を行う手段と、
    一方、前記音声認識処理開始・停止指示部から音声認識処理の停止の指示を受けた際に、前記始端検出手段で音声の始端が検出されている状態で、前記終端検出手段で音声の終端が検出されていない場合には、前記タイマーを所定の待ち時間に設定した上で起動し、前記音声認識処理部を、音声の終端の検出待ちに設定し、音声の終端の検出待ち状態において、前記終端検出手段で音声の終端が検出された場合、前記音声認識処理部による音声認識処理を停止させ、認識結果を、前記出力装置に出力させる制御を行う手段と、
    前記終端検出手段で音声の終端が検出されないまま、前記タイマーでタイムアウトが発生した場合、前記音声認識処理部における音声認識処理を停止させ、入力音声を棄却した旨を、前記ユーザに通知する制御を行う手段と、
    を備えている、ことを特徴とする音声認識装置。
  12. 前記オーディオ入力部は、音声認識装置が起動されている間、常時、活性化されている、ことを特徴とする請求項11記載の音声認識装置。
  13. 前記オーディオ入力部は、入力音声のパワーに従って、前記入力音声を増幅するゲインを自動調整する自動ゲイン調節器を備えている、ことを特徴とする請求項11記載の音声認識装置。
  14. 音声の認識処理の停止の指示の入力を受けて音声の認識処理の停止を行う音声認識処理部を有する音声認識装置の制御方法において、
    音声の認識処理の停止の指示が入力された場合に、音声の終端が検出されたときに、前記音声の認識処理を停止させるように制御する工程を含む、ことを特徴とする音声認識装置の制御方法。
  15. 音声を入力する音声入力部と、
    ユーザが音声認識処理の停止を指示する操作を行う入力操作部と、
    前記音声入力部から入力された音声の認識処理を行う音声認識処理部と、
    を有する音声認識装置の制御方法において、
    前記入力操作部から音声認識処理の停止の指示が入力された場合に、前記音声認識処理の停止の指示が入力された時点で、音声の始端が検出されており、且つ、音声の終端が検出されていない状態である場合には、前記入力操作部から音声認識処理の停止の指示が入力された時点では、前記音声認識処理部での音声認識処理を停止させないように制御する工程を、含む、ことを特徴とする音声認識装置の制御方法。
  16. 前記入力操作部から音声認識処理の停止の指示が入力された場合、前記音声認識処理の停止の指示が入力された時点から、最長、予め定められた待ち時間、音声の終端の検出待ちとし、前記待ち時間が経過した時点で、前記音声認識処理を停止するように制御する工程を含む、ことを特徴とする請求項15記載の音声認識装置の制御方法。
  17. 前記待ち時間以内に、音声の終端が検出された場合に、前記音声認識処理部での音声認識処理を停止させるように制御する工程を含む、ことを特徴とする請求項16記載の音声認識装置の制御方法。
  18. 前記待ち時間を、入力音声のパワーと信号対雑音比のうちの少なくとも1つ、及び/又は、認識可能な語彙の性質に応じて、可変させる工程を含む、ことを特徴とする請求項16又は17記載の音声認識装置の制御方法。
  19. 前記入力操作部から音声認識処理の停止の指示が入力された場合、音声の終端の検出条件を徐々に緩和していき、前記待ち時間が経過した時点で、前記音声認識処理を停止するように制御する工程を含む、ことを特徴とする請求項16乃至8のいずれか一に記載の音声認識装置の制御方法。
  20. 前記待ち時間が経過した時点で、前記音声認識処理を停止した際、ユーザにその旨を通知する工程を含む、ことを特徴とする請求項16乃至19のいずれか一に記載の音声認識装置の制御方法。
  21. 前記音声入力部は、前記音声認識装置が起動されている間、常時、活性化されている、ことを特徴とする請求項15乃至20のいずれか一に記載の音声認識装置の制御方法。
  22. ユーザの発声時よりも前に、前記音声入力部のハードウェア回路、及び、前記音声入力部における入力信号を増幅するゲインを自動調整する自動ゲイン調整器の安定化が行われる、ことを特徴とする請求項21記載の音声認識装置の制御方法。
  23. 少なくとも、音声認識処理部における音声認識処理の停止の指示を、ユーザが入力するための入力操作部を有する音声認識装置の制御方法において、
    前記ユーザが前記入力操作部を操作して音声認識処理の停止を指示した場合に、前記音声認識処理の停止の指示が入力された時点で、音声の終端がすでに検出されているか否か判定する工程と、
    前記判定の結果、前記音声認識処理の停止の指示が入力された時点で、音声の終端がすでに検出されている場合、前記音声認識処理部での音声認識処理を停止させる工程と、
    前記判定の結果、前記音声認識処理の停止の指示が入力された時点で、音声の始端が検出されており、且つ、音声の終端が検出されていない場合には、予め定められた所定の待ち時間に、タイマーを初期設定し、前記タイマーでの計時を開始させ、前記タイマーでタイムアウトが発生するまで、前記音声認識処理部を音声の終端の検出の待ち状態に設定する工程と、
    前記タイマーでタイムアウト発生前に、音声の終端が検出された場合、前記音声認識処理部の動作を停止し、認識結果が存在する場合、認識結果を前記ユーザに通知する工程と、
    前記タイマーでタイムアウト発生時に、なお音声の終端が検出されない場合、前記音声認識処理部の動作を停止し、認識棄却通知を、前記ユーザに行う工程と、
    を含む、ことを特徴とする音声認識装置の制御方法。
  24. 音声入力手段から入力された音声の認識処理を行う音声認識手段と、
    前記音声入力手段から入力された音声の終端を検出する手段と、を有する音声認識装置を構成するコンピュータに、
    音声の終端が検出された場合に、前記音声認識手段による音声認識処理を停止させるように制御する処理を実行させるプログラム。
  25. 音声を入力する音声入力部と、
    ユーザが音声認識処理の停止を指示する操作を行う入力操作部と、
    前記音声入力部から入力された音声の認識処理を行う音声認識処理部であって、音声の始端を検出する手段と、音声の終端を検出する手段と、を備えた音声認識処理部と、
    を有する音声認識装置を構成するコンピュータに、
    前記入力操作部から音声認識処理の停止の指示が入力された場合に、前記音声認識処理の停止の指示が入力された時点で、音声の始端が検出された状態であり、且つ、音声の終端が検出されていない場合には、前記入力操作部から音声認識処理の停止の指示が入力された時点では、前記音声認識処理部での音声認識処理を停止させないように制御する処理を実行させるプログラム。
  26. 請求項25記載のプログラムにおいて、
    前記音声認識処理の停止の指示が入力された場合、前記音声認識処理の停止の指示が入力された時点から、最長、予め定められた待ち時間、音声の終端の検出待ちとし、前記待ち時間が経過した時点で、前記音声認識処理を停止するように制御する処理を、前記コンピュータに実行させるプログラム。
  27. 請求項26記載のプログラムにおいて、
    前記待ち時間以内に、前記音声の終端が検出された場合に、前記音声認識処理部での音声認識処理を停止させるように制御する処理を、前記コンピュータに実行させるプログラム。
  28. 請求項26記載のプログラムにおいて、
    前記待ち時間を、入力音声のパワーと信号対雑音比のうちの少なくとも1つ、及び/又は、認識可能な語彙の性質に応じて、可変させる処理を、前記コンピュータに実行させるプログラム。
  29. 請求項26記載のプログラムにおいて、
    前記音声認識処理の停止の指示が入力された場合、音声の終端の検出条件を徐々に緩和していき、前記待ち時間が経過した時点で、前記音声認識処理を停止するように制御する処理を、前記コンピュータに実行させるプログラム。
  30. 請求項26記載のプログラムにおいて、
    前記待ち時間が経過した時点で、前記音声認識処理を停止した際、ユーザにその旨を通知する処理を、前記コンピュータに実行させるプログラム。
  31. 少なくとも、音声認識処理部における音声認識処理の停止の指示を、ユーザが入力するための入力操作部を有する音声認識装置を構成するコンピュータに、
    前記ユーザが入力操作部を操作して音声認識処理の停止を指示した場合に、前記音声認識処理の停止の指示が入力された時点で、音声の終端がすでに検出されているか否か判定する処理と、
    前記判定の結果、前記音声認識処理の停止の指示が入力された時点で、音声の終端がすでに検出されている場合、前記音声認識処理部での音声認識処理を停止させる処理と、
    前記判定の結果、前記音声認識処理の停止の指示が入力された時点で、音声の始端が検出されており、且つ、音声の終端が検出されていない場合、予め定められた所定の待ち時間に、タイマーを初期設定し、前記タイマーでの計時を開始させ、前記タイマーでタイムアウトが発生するまで、前記音声認識処部を、音声の終端の検出待ちに設定する処理と、
    前記タイマーでタイムアウト発生前に音声終端が検出された場合、前記音声認識処理部の動作を停止し、認識結果が存在する場合、認識結果を前記ユーザに通知する処理と、
    前記タイマーでタイムアウト発生時に、なお音声終端が検出されない場合、前記音声認識処理部の動作を停止し、認識棄却通知を、前記ユーザに行う処理と、
    を実行させるプログラム。
  32. 請求項1乃至13のいずれか一に記載の音声認識装置を備えた携帯型情報端末装置。
JP2002257500A 2002-09-03 2002-09-03 音声認識装置及び制御方法並びにプログラム Pending JP2004094077A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002257500A JP2004094077A (ja) 2002-09-03 2002-09-03 音声認識装置及び制御方法並びにプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002257500A JP2004094077A (ja) 2002-09-03 2002-09-03 音声認識装置及び制御方法並びにプログラム

Publications (1)

Publication Number Publication Date
JP2004094077A true JP2004094077A (ja) 2004-03-25

Family

ID=32062386

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002257500A Pending JP2004094077A (ja) 2002-09-03 2002-09-03 音声認識装置及び制御方法並びにプログラム

Country Status (1)

Country Link
JP (1) JP2004094077A (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006251545A (ja) * 2005-03-11 2006-09-21 Fujitsu Ltd 音声対話システム及びコンピュータプログラム
WO2007017993A1 (ja) * 2005-07-15 2007-02-15 Yamaha Corporation 発音期間を特定する音信号処理装置および音信号処理方法
WO2007069377A1 (ja) * 2005-12-14 2007-06-21 Mitsubishi Electric Corporation 音声認識装置
JP2007233148A (ja) * 2006-03-02 2007-09-13 Nippon Hoso Kyokai <Nhk> 発話区間検出装置及び発話区間検出プログラム
JP2008129084A (ja) * 2006-11-16 2008-06-05 Toshiba Tec Corp 音声入力装置及び音声入力方法
JP2008170806A (ja) * 2007-01-12 2008-07-24 Yamaha Corp 発音期間を特定する音信号処理装置およびプログラム
JP2009141942A (ja) * 2007-11-14 2009-06-25 Canon Inc 情報処理装置及び情報処理方法及びプログラム及び記憶媒体
JP2009175178A (ja) * 2008-01-21 2009-08-06 Denso Corp 音声認識装置、プログラム、及び発話信号抽出方法
JP2011039222A (ja) * 2009-08-10 2011-02-24 Nec Corp 音声認識システム、音声認識方法および音声認識プログラム
JP2014505270A (ja) * 2010-12-16 2014-02-27 ネイバー コーポレーション オンライン音声認識を処理する音声認識クライアントシステム、音声認識サーバシステム及び音声認識方法
JP2014170984A (ja) * 2013-03-01 2014-09-18 Casio Comput Co Ltd 通信装置及びプログラム
JP2019049742A (ja) * 2012-08-10 2019-03-28 エイディシーテクノロジー株式会社 音声応答装置
CN110442319A (zh) * 2015-03-08 2019-11-12 苹果公司 对语音触发进行响应的竞争设备
JP7449070B2 (ja) 2019-03-27 2024-03-13 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音声入力装置、音声入力方法及びそのプログラム

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6250800A (ja) * 1985-08-30 1987-03-05 株式会社日立製作所 音声認識装置
JPS62150295A (ja) * 1985-12-24 1987-07-04 松下電器産業株式会社 音声認識方法
JPH01219893A (ja) * 1988-02-29 1989-09-01 Nippon Telegr & Teleph Corp <Ntt> 適応形発声終了検出方法
JP2000089789A (ja) * 1998-09-08 2000-03-31 Fujitsu Ltd 音声認識装置及び記録媒体
JP2001215996A (ja) * 2000-01-31 2001-08-10 Sumitomo Electric Ind Ltd 音声認識装置
JP2001318689A (ja) * 2000-05-08 2001-11-16 Matsushita Electric Ind Co Ltd 音声認識リモコン装置
JP2001343983A (ja) * 2000-05-30 2001-12-14 Atr Onsei Gengo Tsushin Kenkyusho:Kk 音声始端検出方法、音声認識装置における音声区間検出方法および音声認識装置
JP2002108390A (ja) * 2000-09-27 2002-04-10 Sharp Corp 音声認識装置及びコンピュータ読み取り可能な記録媒体

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6250800A (ja) * 1985-08-30 1987-03-05 株式会社日立製作所 音声認識装置
JPS62150295A (ja) * 1985-12-24 1987-07-04 松下電器産業株式会社 音声認識方法
JPH01219893A (ja) * 1988-02-29 1989-09-01 Nippon Telegr & Teleph Corp <Ntt> 適応形発声終了検出方法
JP2000089789A (ja) * 1998-09-08 2000-03-31 Fujitsu Ltd 音声認識装置及び記録媒体
JP2001215996A (ja) * 2000-01-31 2001-08-10 Sumitomo Electric Ind Ltd 音声認識装置
JP2001318689A (ja) * 2000-05-08 2001-11-16 Matsushita Electric Ind Co Ltd 音声認識リモコン装置
JP2001343983A (ja) * 2000-05-30 2001-12-14 Atr Onsei Gengo Tsushin Kenkyusho:Kk 音声始端検出方法、音声認識装置における音声区間検出方法および音声認識装置
JP2002108390A (ja) * 2000-09-27 2002-04-10 Sharp Corp 音声認識装置及びコンピュータ読み取り可能な記録媒体

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4667085B2 (ja) * 2005-03-11 2011-04-06 富士通株式会社 音声対話システム、コンピュータプログラム、対話制御装置及び音声対話方法
JP2006251545A (ja) * 2005-03-11 2006-09-21 Fujitsu Ltd 音声対話システム及びコンピュータプログラム
WO2007017993A1 (ja) * 2005-07-15 2007-02-15 Yamaha Corporation 発音期間を特定する音信号処理装置および音信号処理方法
US8300834B2 (en) 2005-07-15 2012-10-30 Yamaha Corporation Audio signal processing device and audio signal processing method for specifying sound generating period
WO2007069377A1 (ja) * 2005-12-14 2007-06-21 Mitsubishi Electric Corporation 音声認識装置
JPWO2007069377A1 (ja) * 2005-12-14 2009-05-21 三菱電機株式会社 音声認識装置
US8090582B2 (en) 2005-12-14 2012-01-03 Mitsubishi Electric Corporation Voice recognition apparatus
JP4846735B2 (ja) * 2005-12-14 2011-12-28 三菱電機株式会社 音声認識装置
JP2007233148A (ja) * 2006-03-02 2007-09-13 Nippon Hoso Kyokai <Nhk> 発話区間検出装置及び発話区間検出プログラム
JP2008129084A (ja) * 2006-11-16 2008-06-05 Toshiba Tec Corp 音声入力装置及び音声入力方法
JP2008170806A (ja) * 2007-01-12 2008-07-24 Yamaha Corp 発音期間を特定する音信号処理装置およびプログラム
JP2009141942A (ja) * 2007-11-14 2009-06-25 Canon Inc 情報処理装置及び情報処理方法及びプログラム及び記憶媒体
JP2009175178A (ja) * 2008-01-21 2009-08-06 Denso Corp 音声認識装置、プログラム、及び発話信号抽出方法
JP2011039222A (ja) * 2009-08-10 2011-02-24 Nec Corp 音声認識システム、音声認識方法および音声認識プログラム
JP2014505270A (ja) * 2010-12-16 2014-02-27 ネイバー コーポレーション オンライン音声認識を処理する音声認識クライアントシステム、音声認識サーバシステム及び音声認識方法
JP2015179287A (ja) * 2010-12-16 2015-10-08 ネイバー コーポレーションNAVER Corporation オンライン音声認識を処理する音声認識クライアントシステム、音声認識サーバシステム及び音声認識方法
US9318111B2 (en) 2010-12-16 2016-04-19 Nhn Corporation Voice recognition client system for processing online voice recognition, voice recognition server system, and voice recognition method
JP2019049742A (ja) * 2012-08-10 2019-03-28 エイディシーテクノロジー株式会社 音声応答装置
JP2014170984A (ja) * 2013-03-01 2014-09-18 Casio Comput Co Ltd 通信装置及びプログラム
CN110442319A (zh) * 2015-03-08 2019-11-12 苹果公司 对语音触发进行响应的竞争设备
CN110442319B (zh) * 2015-03-08 2024-02-09 苹果公司 对语音触发进行响应的竞争设备
JP7449070B2 (ja) 2019-03-27 2024-03-13 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音声入力装置、音声入力方法及びそのプログラム

Similar Documents

Publication Publication Date Title
US8731914B2 (en) System and method for winding audio content using a voice activity detection algorithm
US10332524B2 (en) Speech recognition wake-up of a handheld portable electronic device
JP3674990B2 (ja) 音声認識対話装置および音声認識対話処理方法
JP2004094077A (ja) 音声認識装置及び制御方法並びにプログラム
US8909537B2 (en) Device capable of playing music and method for controlling music playing in electronic device
US20150221307A1 (en) Transition from low power always listening mode to high power speech recognition mode
EP1561203B1 (en) Method for operating a speech recognition system
WO2017012511A1 (zh) 语音控制方法、装置及投影仪设备
US20050114132A1 (en) Voice interactive method and system
JP2011221544A (ja) 2つのスイッチオフ規準を持つ音声検出装置
JPWO2019138651A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP3553828B2 (ja) 音声蓄積再生方法および音声蓄積再生装置
KR20230116908A (ko) 프리즈 워드
JP3926242B2 (ja) 音声対話システム、音声対話のためのプログラムおよび音声対話方法
JP5375423B2 (ja) 音声認識システム、音声認識方法および音声認識プログラム
JP2017161637A (ja) 発話装置、発話装置の制御方法、制御プログラム、および記録媒体
JP2008048076A (ja) 音声処理装置およびその制御方法
JP2001343983A (ja) 音声始端検出方法、音声認識装置における音声区間検出方法および音声認識装置
JP2019132997A (ja) 音声処理装置、方法およびプログラム
US20090313010A1 (en) Automatic playback of a speech segment for media devices capable of pausing a media stream in response to environmental cues
JP2002108390A (ja) 音声認識装置及びコンピュータ読み取り可能な記録媒体
JPH02103599A (ja) 音声認識装置
US11705102B2 (en) Method and device for eliminating unstable noise
JP6759370B2 (ja) 呼出音認識装置および呼出音認識方法
JP2019020475A (ja) 音声認識装置、音声認識方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041014

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20061023

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061114

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070313