JP3578587B2 - 音声認識装置および音声認識方法 - Google Patents
音声認識装置および音声認識方法 Download PDFInfo
- Publication number
- JP3578587B2 JP3578587B2 JP09529397A JP9529397A JP3578587B2 JP 3578587 B2 JP3578587 B2 JP 3578587B2 JP 09529397 A JP09529397 A JP 09529397A JP 9529397 A JP9529397 A JP 9529397A JP 3578587 B2 JP3578587 B2 JP 3578587B2
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- recognition target
- similarity
- standard
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 37
- 230000004044 response Effects 0.000 claims description 51
- 238000010586 diagram Methods 0.000 description 12
- 238000000605 extraction Methods 0.000 description 8
- 238000001514 detection method Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000009172 bursting Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009751 slip forming Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Description
【発明の属する技術分野】
本発明は、音声認識装置および音声認識方法に関する。
【0002】
【従来の技術】
従来、音声認識の手法として、音声区間検出を行なって音声認識を行なう方法が知られている。音声区間検出を行なって音声認識を行なう方法では、音声のパワー情報などを使用して、認識すべき音声区間の始端と終端を決定し、この音声区間情報に基づいて認識処理を行なうようになっている。図9は音声区間検出を行なって音声認識を行なう方法の処理例を示すフローチャートであり、音声区間検出を行なって音声認識を行なう方法では、認識開始の起動を行なった後(ステップS1)、話者が発声することで音声区間検出を行ない(ステップS2)、その後、音声区間の音声情報と辞書との照合を行ない(ステップS3)、最も類似度の高い認識対象(辞書単語)を認識結果として出力する。この場合、ステップS2において、音声区間の始端はパワー情報によって容易に検出できるが、音声区間の終端は、音声中の破裂性の子音の前の無音や促音の無音とを区別するために、無音が一定時間以上継続する場合に音声区間の終端として判定するようになっている。
【0003】
しかしながら、音声区間の終端を判定するための無音の継続時間は、促音の無音とを区別するために、一般に250〜350m秒程度であり、従って、この方法では、音声入力が終了しても、250〜350m秒程度の時間が経過するまでは認識結果を出力することができず、応答の遅い認識システムとなってしまう。また、応答を速くするために、終端判定のための無音継続時間を短かくすると、発声が終了する前に促音で結果が出力されて、誤った認識結果が出力されるという欠点があった。
【0004】
また、一般的に、ある発声をするときに、話者は「え〜」や「あの〜」といった認識とは無関係な不要語を発声することがよくある。認識対象となる音声に対して、辞書との照合は音声区間の始端から始めるので、「え〜」や「あの〜」という発声が入ると、類似度が著しく悪くなり、誤認識の原因となる。
【0005】
上記各々の欠点を解消する方法として、ワードスポッティング法がある。図10はワードスポッティング法の処理例を示すフローチャートであり、ワードスポッティング法では、認識開始の起動を行なった後(ステップS11)、話者が音声を発声すると、音声区間検出を行なうことなく、発声した音声情報を辞書と照合する(ステップS12)。そして、この照合の結果の類似度が所定の閾値を越えたか否かを判断し(ステップS13)、所定の閾値を越えていないときには、再びステップS12に戻り、音声情報の辞書との照合を継続する。そして、ステップS13において、類似度が所定の閾値を越えたときに、この類似度を与えた認識対象を認識結果として出力する(ステップS14)。このようなワードスポッティング法は、音声区間検出を必要としないので、応答の速いシステムを構築し易く、また、不要語に対しても、発声全体から不要語を取り除いて認識結果を出力するので、良好な認識結果を得ることができるという利点がある。
【0006】
【発明が解決しようとする課題】
しかしながら、ワードスポッティング法にも次のような問題がある。
【0007】
すなわち、ワードスポッティング法では、例えば、電話番号のような数字を認識するときに、例えば「5677」という発声があった場合、図11に示すように、「5(ゴ)」,「6(ロク)」の発声に対して、「5」,「6」の認識結果が出力されるが、「7(ナナ)」,「7(ナナ)」に対しては同じ音が並ぶために、「7」の認識結果が3回出力されてしまう。すなわち、図11に示すように、「ナナナナ」という発声の中において、「ナナ」という音が3ヶ所でスポッティングされるため、「7」の認識結果が1回余分に出力されてしまうという問題があった。
【0008】
本発明は、「ナナナナ」のように音節が連続してなる認識対象(認識単語)に対しても、ワードスポッティング特有の不要な認識結果が出力されないようにすることの可能な音声認識装置および音声認識方法を提供することを目的としている。
【0009】
【課題を解決するための手段】
上記目的を達成するために、請求項1記載の発明は、音声を入力する入力手段と、入力手段から入力された音声から特徴量を抽出する特徴抽出手段と、全ての認識対象の標準的な特徴量が予め格納されている標準辞書と、特徴抽出手段で抽出された入力音声の特徴量を標準辞書に格納されている各認識対象の標準的な特徴量と照合し、各認識対象との類似度を算出する照合手段と、照合手段の照合結果に基づき、類似度が高い認識対象を認識結果として出力する結果出力手段とを有しており、ある認識対象について類似度が最大となった時点からこの類似度の最大値が検出される時点までの期間を、この認識対象の応答時間とするとき、連続する同一の音節によって構成される認識対象が標準辞書に存在するときには、該認識対象の応答時間を、標準辞書に含まれる他の認識対象の応答時間よりも長く設定することを特徴としている。
【0010】
また、請求項2記載の発明は、音声を入力する入力手段と、入力手段から入力された音声から特徴量を抽出する特徴抽出手段と、全ての認識対象の標準的な特徴量が予め格納されている標準辞書と、特徴抽出手段で抽出された入力音声の特徴量を標準辞書に格納されている各認識対象の標準的な特徴量と照合し、各認識対象との類似度を算出する照合手段と、照合手段の照合結果に基づき、類似度が高い認識対象を認識結果として出力する結果出力手段とを有しており、連続する同一の音節によって構成される認識対象が存在するときには、該認識対象に無音区間を付加した認識対象をも標準辞書に設定することを特徴としている。
【0011】
また、請求項3記載の発明は、ワードスポッティング法により音声認識を行なう音声認識方法において、ある認識対象について類似度が最大となった時点からこの類似度の最大値が検出される時点までの期間を、この認識対象の応答時間とするとき、連続する同一の音節によって構成される認識対象が標準辞書に存在するときには、該認識対象の応答時間を、標準辞書に含まれる他の認識対象の応答時間よりも長く設定することを特徴としている。
【0012】
また、請求項4記載の発明は、ワードスポッティング法により音声認識を行なう音声認識方法において、連続する同一の音節によって構成される認識対象が存在するときには、該認識対象に無音区間を付加した認識対象をも標準辞書に設定することを特徴としている。
【0013】
【発明の実施の形態】
以下、本発明の実施形態を図面に基づいて説明する。図1は本発明に係る音声認識装置の構成例を示す図である。図1を参照すると、この音声認識装置は、音声を入力する入力部(例えばマイクロホン)1と、入力部1から入力された音声から特徴量を抽出する特徴抽出部2と、全ての認識対象の標準的な特徴量が予め格納されている標準辞書3と、特徴抽出部1で抽出された入力音声の特徴量を標準辞書3に格納されている各認識対象の標準的な特徴量と照合し、各認識対象との類似度を算出する照合部4と、照合部4の照合結果に基づき、例えば、類似度が最も高い認識対象であって、該類似度(の最大値)が所定の閾値(リジェクト閾値)を越えた認識対象を認識結果として出力する結果出力部5とを有している。
【0014】
ここで、特徴抽出部2,標準辞書3,照合部4,結果出力部5には、例えば、音声区間を必要としないワードスポッティング法による認識技術が用いられる。なお、ワードスポッティング法による認識技術としては、例えば継続時間制御型状態遷移モデルを用いた単語音声認識法を用いることができ、単語音声認識法による認識を行なえば、音声の終了付近で類似度が最大となり、類似度のピーク点を検出することで認識結果を出力することができる。
【0015】
次に、図1の音声認識装置の動作について説明する。音声が入力部1に入力されると、入力された音声は、特徴抽出部2で所定の特徴量に変換される。ここで、特徴量としては、周波数帯域でのパワー値を示すTSPやケプストラム値などが一般的である。
【0016】
特徴抽出部2で得られた入力音声の特徴量は、照合部4において、標準辞書3に予め格納されている各認識対象の標準的な特徴量と比較され、各認識対象の類似度が計算される。そして、結果出力部5は、照合部4の照合結果に基づき、例えば、類似度が最も高い認識対象であって、該類似度(の最大値)が所定の閾値(リジェクト閾値)を越えた認識対象を認識結果として出力する。
【0017】
次に、具体的な動作例について説明する。上記のような構成の音声認識装置において、実際に図2に示すような「ゼロ」という発声が行なわれた時には、この入力音声の特徴量を標準辞書3内の標準的な特徴量と照合して類似度を計算する際、計算された類似度は「ゼロ」という発声が終わったところで最大となる。しかし、この類似度が最大となったか否かは、類似度が最大値となった後、ある時間を経過しないと検出できない。すなわち、類似度が最大値となった後、類似度が最大値に達したか否かは、ある時間を経過しないとわからない。ある認識対象について類似度が最大となった時点からこの類似度の最大値が検出される時点までの期間tiを、本発明では、この認識対象の応答時間(ti)と定義する。
【0018】
この応答時間tiを考慮して、図3に示すように、認識対象となる単語毎に、その単語に対する辞書に応答時間tiの属性を付加することができる。例えば、標準辞書3として、認識対象となる単語毎に、標準的な特徴量とともに、応答時間tiを付加することができる。なお、図3の例では、全ての認識対象について、一率に同じ応答時間ti(=0.2秒)が付加されている場合が示されている。しかしながら、図3の例のように、全ての認識対象について、一率に同じ応答時間ti(=0.2秒)を付加する場合、前述のように、「ナナナナ」のように音節が連続してなる認識対象(認識単語)に対しても、ワードスポッティング特有の不要な認識結果が出力されてしまうという問題が生ずる。すなわち、この場合、「えーとナナナナの…」のように、連続して発声した時は、図4に示すように、「ナナナナ」の発声に対し3回の類似度ピークP1,P2,P3が得られ、「ナナ」の認識結果が3回出力されてしまう。
【0019】
このような問題を回避するため、本発明の第1の実施形態では、ある認識対象について類似度が最大となった時点からこの類似度の最大値が検出される時点までの期間t i を、この認識対象の応答時間 ( t i ) とするとき、連続する同一の音節によって構成される認識対象(認識単語)が標準辞書に存在するときには、その認識単語の応答時間tiを、標準辞書に含まれる他の認識単語の応答時間よりも長く設定するようになっている。
【0020】
ここで、連続する音節によって構成される認識単語の認識結果出力の応答時間tiとしては、実際に測定される(考えられうる)応答時間tiの最大の時間、あるいは、実際に測定される(考えられうる)応答時間tiよりも長い応答時間を設定することができる。
【0021】
しかしながら、辞書に設定される応答時間tiを長くすることは、認識結果の出力がユーザから見て遅くなることになるため、設定される応答時間tiは、最大でも0.5〜0.8秒程度が限界である。また、連続する同一の音節によって構成される認識単語以外の認識単語については、認識結果出力が迅速になされるよう、応答時間tiが短かく設定されるのが良い。
【0022】
図5には、本発明の第1の実施形態による応答時間tiの付加例が示されており、図5の例では、認識対象「7(ナナ)」についての応答時間tiが、他の認識対象の応答時間tiに比べて長く設定されている。すなわち、「0(ゼロ)」や「1(イチ)」などは、応答時間tiが0.2秒に設定されているのに対し、「7(ナナ)」については応答時間tiが0.5秒と長く設定されている。
【0023】
このような設定では、「ゼロ」や「イチ」をそれぞれ発声した時は、応答時間が0.2秒であるので、各々の発声終了後0.2秒で認識結果が出力される。また、これらを例えば「えーとゼロイチの…」のように連続して発声したときも、同様に、「ゼロ」,「イチ」をワードスポッティングした後、0.2秒で認識結果が出力される。また、「ナナ」と発声した時は、応答時間が0.5秒であるので、「ナナ」の発声終了後、0.5秒で認識結果が出力される。また、「えーとナナナナの…」のように、連続して発声した時は、図6に示すように、「ナナナナ」の発声に対し3回の類似度ピークP1,P2,P3が得られる。このとき、2番目の「ナナ」は1番目の「ナナ」や3番目の「ナナ」と異なり、発声に微妙な間(ま)があるため、2番目の「ナナ」の類似度ピークP2は、1番目,3番目の「ナナ」の類似度ピークP1,P3に比べていくらか下がり、このことから、2番目の「ナナ」は不要語であることがわかる。本発明では、認識対象「ナナ」については、応答時間tiを0.5秒と長くすることにより、2番目の類似度ピークP2は1番目の類似度ピークP1に隠れて、その認識結果は出力されなくなる。従って、全体として、1番目の類似度ピークP1と3番目の類似度ピークP3とによる2つの「ナナ」の認識結果だけが出力され、2番目の類似度ピークP2によるものは棄却される。
【0024】
このように、本発明の第1の実施形態では、連続する同一の音節によって構成される認識対象が標準辞書に存在するときには、該認識対象の応答時間を、標準辞書に含まれる他の認識対象の応答時間よりも長く設定することで、「ナナナナ」のように音節が連続してなる認識対象(認識単語)に対しても、ワードスポッティング特有の不要な認識結果が出力されないようにすることができる。
【0025】
また、本発明の第2の実施形態では、連続する同一の音節によって構成される認識対象が存在するときには、該認識対象に無音区間を付加した認識対象をも標準辞書に設定するようになっている。具体的に、qを無音区間とするとき、「ナナ」に無音区間「q」を付加した「ナナq」をも認識対象として辞書に登録するようにしている。
【0026】
図7は、この第2の実施形態の処理例を説明するための図である。図7からわかるように、例えば「えーとナナナナ」の発声について、通常の場合は、「ナナナナ」の2つ目の「ナ」を発声し終えたところで類似度が最大となるところを、辞書に「ナナq」の認識対象をも付加したことによって、すなわち、「ナナq」の辞書を新たに設けたことによって、「ナナ」を発声し終わった後、僅かの時間を置いて類似度が最大となる。従って、「えーとナナナナの…」と発声した場合、「ナナナナ」の部分については、類似度のピークは、認識対象「ナナq」によるピークPaと、その後の認識対象「ナナ」によるピークPbとの2つとなり、類似度のピークが「ナナ」の発声直後「q]の時間分遅れて2回だけ現われ、第1の実施形態と同様に、「ナナ」の認識結果が3回生起するのを有効に防止できる。なお、この第2の実施形態では、「ナナq」をも含めた各認識対象の応答時間は、例えば図3に示すように、全て同じものに設定することができる。このように、1番目の「ナナ」の発声部分と3番目の「ナナ」の発声部分との間の無音区間qを辞書に取り込むことによっても、「ナナ」の認識結果が3回生起するのを有効に防止できる。
【0027】
このように、本発明の音声認識装置においては、「ナナナナ」のように同一の音節が連続してなる認識対象(認識単語)に対しても、ワードスポッティング特有の不要な認識結果が出力されないようにすることができる。
【0028】
図8は図1の音声認識装置のハードウェア構成例を示す図である。図8を参照すると、この音声認識装置は、例えばパーソナルコンピュータ等で実現され、全体を制御するCPU21と、CPU21の制御プログラム等が記憶されているROM22と、CPU21のワークエリア等として使用されるRAM23と、音声を入力する入力装置24と、音声認識結果を出力する結果出力装置(例えば、ディスプレイやプリンタなど)26とを有している。
【0029】
ここで、CPU21は、図1の特徴抽出部2,照合部4などの機能を有している。
【0030】
なお、CPU21におけるこのような特徴抽出部2,照合部4等としての機能は、例えばソフトウェアパッケージ(具体的には、CD−ROM等の情報記録媒体)の形で提供することができ、このため、図8の例では、情報記録媒体30がセットさせるとき、これを駆動する媒体駆動装置31が設けられている。
【0031】
換言すれば、本発明の音声認識装置は、汎用の計算機システムにCD−ROM等の情報記録媒体に記録されたプログラムを読み込ませて、この汎用計算機システムのマイクロプロセッサに音声認識処理を実行させる装置構成においても実施することが可能である。この場合、本発明の音声認識処理を実行するためのプログラム(すなわち、ハードウェアシステムで用いられるプログラム)は、媒体に記録された状態で提供される。プログラムなどが記録される情報記録媒体としては、CD−ROMに限られるものではなく、ROM,RAM,フレキシブルディスク,メモリカード等が用いられても良い。媒体に記録されたプログラムは、ハードウェアシステムに組み込まれている記憶装置、例えばハードディスク装置にインストールされることにより、このプログラムを実行して、上述した本発明の音声認識処理機能を実現する音声認識装置の構築に寄与する。
【0032】
また、本発明の音声認識処理機能を実現するためのプログラムは、媒体の形で提供されるのみならず、通信によって(例えばサーバによって)提供されるものであっても良い。
【0033】
【発明の効果】
以上に説明したように、請求項1,請求項3記載の発明によれば、ワードスポッティング法により音声認識を行なう場合、ある認識対象について類似度が最大となった時点からこの類似度の最大値が検出される時点までの期間を、この認識対象の応答時間とするとき、連続する同一の音節によって構成される認識対象が標準辞書に存在するときには、該認識対象の応答時間を、標準辞書に含まれる他の認識対象の応答時間よりも長く設定するので、同一の音節が連続してなる認識単語に対しても、ワードスポッティング特有の不要な認識結果を出力させないようにすることができる。
【0034】
また、請求項2,請求項4記載の発明によれば、ワードスポッティング法により音声認識を行なう場合、連続する同一の音節によって構成される認識対象が存在するときには、該認識対象に無音区間を付加した認識対象をも標準辞書に設定するので、同一の音節が連続してなる認識単語に対しても、ワードスポッティング特有の不要な認識結果を出力させないようにすることができる。
【図面の簡単な説明】
【図1】本発明に係る音声認識装置の構成例を示す図である。
【図2】応答時間を説明するための図である。
【図3】全ての認識対象について、一率に同じ応答時間ti(=0.2秒)が付加されている場合を示す図である。
【図4】応答時間が図3のように設定されている場合の認識結果の出力例を示す図である。
【図5】本発明の第1の実施形態による応答時間tiの付加例を示す図である。
【図6】応答時間が図5のように設定されている場合の認識結果の出力例を示す図である。
【図7】本発明の第2の実施形態の処理例を説明するための図である。
【図8】本発明の音声認識装置のハードウェア構成例を示す図である。
【図9】音声区間検出を行なって音声認識を行なう方法の処理例を示すフローチャートである。
【図10】ワードスポッティング法の処理例を示すフローチャートである。
【図11】従来の認識結果出力例を説明するための図である。
【符号の説明】
1 入力部
2 特徴抽出部
3 標準辞書
4 照合部
5 結果出力部
Claims (4)
- 音声を入力する入力手段と、入力手段から入力された音声から特徴量を抽出する特徴抽出手段と、全ての認識対象の標準的な特徴量が予め格納されている標準辞書と、特徴抽出手段で抽出された入力音声の特徴量を標準辞書に格納されている各認識対象の標準的な特徴量と照合し、各認識対象との類似度を算出する照合手段と、照合手段の照合結果に基づき、類似度が高い認識対象を認識結果として出力する結果出力手段とを有しており、ある認識対象について類似度が最大となった時点からこの類似度の最大値が検出される時点までの期間を、この認識対象の応答時間とするとき、連続する同一の音節によって構成される認識対象が標準辞書に存在するときには、該認識対象の応答時間を、標準辞書に含まれる他の認識対象の応答時間よりも長く設定することを特徴とする音声認識装置。
- 音声を入力する入力手段と、入力手段から入力された音声から特徴量を抽出する特徴抽出手段と、全ての認識対象の標準的な特徴量が予め格納されている標準辞書と、特徴抽出手段で抽出された入力音声の特徴量を標準辞書に格納されている各認識対象の標準的な特徴量と照合し、各認識対象との類似度を算出する照合手段と、照合手段の照合結果に基づき、類似度が高い認識対象を認識結果として出力する結果出力手段とを有しており、連続する同一の音節によって構成される認識対象が存在するときには、該認識対象に無音区間を付加した認識対象をも標準辞書に設定することを特徴とする音声認識装置。
- ワードスポッティング法により音声認識を行なう音声認識方法において、ある認識対象について類似度が最大となった時点からこの類似度の最大値が検出される時点までの期間を、この認識対象の応答時間とするとき、連続する同一の音節によって構成される認識対象が標準辞書に存在するときには、該認識対象の応答時間を、標準辞書に含まれる他の認識対象の応答時間よりも長く設定することを特徴とする音声認識方法。
- ワードスポッティング法により音声認識を行なう音声認識方法において、連続する同一の音節によって構成される認識対象が存在するときには、該認識対象に無音区間を付加した認識対象をも標準辞書に設定することを特徴とする音声認識方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP09529397A JP3578587B2 (ja) | 1997-03-28 | 1997-03-28 | 音声認識装置および音声認識方法 |
US09/049,371 US6157911A (en) | 1997-03-28 | 1998-03-27 | Method and a system for substantially eliminating speech recognition error in detecting repetitive sound elements |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP09529397A JP3578587B2 (ja) | 1997-03-28 | 1997-03-28 | 音声認識装置および音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH10274993A JPH10274993A (ja) | 1998-10-13 |
JP3578587B2 true JP3578587B2 (ja) | 2004-10-20 |
Family
ID=14133738
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP09529397A Expired - Fee Related JP3578587B2 (ja) | 1997-03-28 | 1997-03-28 | 音声認識装置および音声認識方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US6157911A (ja) |
JP (1) | JP3578587B2 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ATE241195T1 (de) * | 2000-09-29 | 2003-06-15 | Ericsson Telefon Ab L M | Verfahren und einrichtung zur analyse einer folge von gesprochenen nummern |
US8818793B1 (en) * | 2002-12-24 | 2014-08-26 | At&T Intellectual Property Ii, L.P. | System and method of extracting clauses for spoken language understanding |
US8849648B1 (en) * | 2002-12-24 | 2014-09-30 | At&T Intellectual Property Ii, L.P. | System and method of extracting clauses for spoken language understanding |
US7353213B2 (en) | 2003-09-19 | 2008-04-01 | Pitney Bowes Inc. | System and method for preventing duplicate printing in a web browser |
JP4906379B2 (ja) * | 2006-03-22 | 2012-03-28 | 富士通株式会社 | 音声認識装置、音声認識方法、及びコンピュータプログラム |
TWI403304B (zh) | 2010-08-27 | 2013-08-01 | Ind Tech Res Inst | 隨身語能偵知方法及其裝置 |
TWI412019B (zh) | 2010-12-03 | 2013-10-11 | Ind Tech Res Inst | 聲音事件偵測模組及其方法 |
CA3144843A1 (en) * | 2019-12-20 | 2021-06-24 | Rovi Guides, Inc. | Methods to employ compaction in asr service usage |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5023911A (en) * | 1986-01-10 | 1991-06-11 | Motorola, Inc. | Word spotting in a speech recognition system without predetermined endpoint detection |
US5062137A (en) * | 1989-07-27 | 1991-10-29 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for speech recognition |
DE4031421C2 (de) * | 1989-10-05 | 1995-08-24 | Ricoh Kk | Musteranpassungssystem für eine Spracherkennungseinrichtung |
US5199077A (en) * | 1991-09-19 | 1993-03-30 | Xerox Corporation | Wordspotting for voice editing and indexing |
JP2853418B2 (ja) * | 1991-11-08 | 1999-02-03 | 松下電器産業株式会社 | 音声認識方法 |
US5305422A (en) * | 1992-02-28 | 1994-04-19 | Panasonic Technologies, Inc. | Method for determining boundaries of isolated words within a speech signal |
JP2996019B2 (ja) * | 1992-07-22 | 1999-12-27 | 日本電気株式会社 | 音声認識装置 |
JP3581752B2 (ja) * | 1995-10-09 | 2004-10-27 | 株式会社リコー | 音声認識装置及び音声認識方法 |
JP3625002B2 (ja) * | 1996-12-26 | 2005-03-02 | 株式会社リコー | 音声認識装置 |
-
1997
- 1997-03-28 JP JP09529397A patent/JP3578587B2/ja not_active Expired - Fee Related
-
1998
- 1998-03-27 US US09/049,371 patent/US6157911A/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH10274993A (ja) | 1998-10-13 |
US6157911A (en) | 2000-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3789246B2 (ja) | 音声区間検出装置、音声区間検出方法、音声認識装置、音声認識方法および記録媒体 | |
US4829578A (en) | Speech detection and recognition apparatus for use with background noise of varying levels | |
US11037574B2 (en) | Speaker recognition and speaker change detection | |
JP3180655B2 (ja) | パターンマッチングによる単語音声認識方法及びその方法を実施する装置 | |
KR100742888B1 (ko) | 음성 인식 방법 | |
US8731925B2 (en) | Solution that integrates voice enrollment with other types of recognition operations performed by a speech recognition engine using a layered grammar stack | |
JPH08115093A (ja) | 終話検出方法及び装置並びに連続音声認識方法及び装置 | |
JP2006215499A (ja) | 音声処理装置 | |
JP3578587B2 (ja) | 音声認識装置および音声認識方法 | |
JP3069531B2 (ja) | 音声認識方法 | |
JPH11184491A (ja) | 音声認識装置 | |
JPH09166995A (ja) | 音声認識装置及び音声認識方法 | |
JP2002236494A (ja) | 音声区間判別装置、音声認識装置、プログラム及び記録媒体 | |
JP2996019B2 (ja) | 音声認識装置 | |
JP5532880B2 (ja) | 音声認識装置 | |
JPH08263092A (ja) | 応答音声生成方法および音声対話システム | |
JP2011065044A (ja) | 音声処理装置、プログラム | |
JP2006010739A (ja) | 音声認識装置 | |
JP3919314B2 (ja) | 話者認識装置及びその方法 | |
JP3624997B2 (ja) | 音声認識装置 | |
JP2001265387A (ja) | 話者照合装置及び方法 | |
JP2000099070A (ja) | 音声認識装置及びその方法、コンピュータ可読メモリ | |
US8688452B2 (en) | Automatic generation of distractors for special-purpose speech recognition grammars | |
JP2011065043A (ja) | 音高推定装置、プログラム | |
JPH0997095A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040115 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040312 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040713 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040713 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20070723 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080723 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080723 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090723 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |