JP4219603B2 - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP4219603B2
JP4219603B2 JP2002057793A JP2002057793A JP4219603B2 JP 4219603 B2 JP4219603 B2 JP 4219603B2 JP 2002057793 A JP2002057793 A JP 2002057793A JP 2002057793 A JP2002057793 A JP 2002057793A JP 4219603 B2 JP4219603 B2 JP 4219603B2
Authority
JP
Japan
Prior art keywords
recognition
voice
recognition target
waiting time
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002057793A
Other languages
English (en)
Other versions
JP2003255972A (ja
Inventor
道弘 山崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2002057793A priority Critical patent/JP4219603B2/ja
Publication of JP2003255972A publication Critical patent/JP2003255972A/ja
Application granted granted Critical
Publication of JP4219603B2 publication Critical patent/JP4219603B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
この発明は音声信号を入力し認識結果を出力する音声認識装置に関するものである。
【0002】
【従来の技術】
音声認識を行う場合に、入力した音声信号の音声区間を検出し、検出された音声区間に対して認識対象の語彙(以後、認識対象語彙と呼ぶ)との照合を行うものとして、特開昭59−2109797号公報に開示されたものが一般的であり、図5はこのような音声認識装置の構成を示すブロック図である。
【0003】
図5において、11は入力した音声信号の音声区間を検出する音声区間検出手段、12は音声区間検出手段11で検出された音声区間の音声信号に対して音響分析を行う音響分析手段、13は認識対象となる認識対象語彙と各認識対象語彙の接続関係を定義する構文情報とを記憶する認識対象語彙辞書記憶手段、14は認識の最小単位となる音響モデルと各音響モデルの待ち時間情報を記憶する音響モデル記憶手段、15は音響分析手段12による音響分析結果と、認識対象語彙辞書記憶手段13に記憶されている認識対象語彙と、音響モデル記憶手段14に記憶されている音響モデルとを用いて照合を行い、尤度を演算して認識結果を出力する照合手段である。
【0004】
次に動作について説明する。
音声区間検出手段11は入力した音声信号の音声区間を検出する。ここで、音声区間は、例えば、音声信号のパワーの所定の閾値により検出するものとする。図6は音声区間の始終端検出アルゴリズムを説明する図である。音声区間検出手段11は、図6に示すように、入力した音声信号のパワーが所定の閾値以上の区間を音声区間候補として検出し、その音声区間候補間のポーズ区間が所定の闘値、例えば350msec未満ならば、その二つの音声区間候補を一つの音声区間として検出し、音響分析手段12に検出した音声区間の音声信号を出力する。
【0005】
認識対象語彙辞書記憶手段13が記憶している認識対象語彙は、例えば“とうきょうと”、“かながわけん”、“かまくらし”、“けせんぬま”、“ゆくはし”、・・・という単語と、“かながわけん”から“かまくらし”への接続、“とうきょうと”から“まるのうち”への接続等の、各認識対象語彙の接続関係を定義する構文情報である。この認識対象語彙辞書記憶手段13に記憶する認識対象語彙は認識毎に入れ替えてもかまわない。
【0006】
図7はHMM(Hidden Markov Model)の例を示す図であり、ここでは、“かながわけん”“かまくらし”と接続された場合のHMMを示している。図において、各丸印がHMMの各状態を表し音響モデル記憶手段14に記憶され、矢印が遷移を表し認識対象語彙辞書記憶手段13に記憶されている。また、/L1/は語頭(発声前)の無音区間に対応する音響モデルを表わし、/L2/は語尾(発声後)の無音区間に対応する音響モデルを表わし、/L3/は単語間(発声中)の無音区間に対応する音響モデルを表わしている。
【0007】
音響分析手段12は、音声区間検出手段11で検出された音声区間の音声信号を一定長の長さ(フレーム長)で一定周期(フレーム周期)毎に切り出し、この切り出された音声データ(フレーム毎の音声データ)を分析して、音響分析結果である時系列データを照合手段15に出力する。
【0008】
照合手段15は、音響分析手段12による音響分析結果と、認識対象語彙辞書記憶手段13に記憶されている認識対象語彙と、音響モデル記憶手段14で記憶されている音響モデルとを用いて照合を行い、全認識対象語彙の最終状態での尤度を求め、最終状態で最大尤度を取る認識対象語彙を認識結果として出力する。
【0009】
ここで、照合手段15は、例えば以下のような演算をして尤度を求める。
認識対象語彙辞書記憶手段13に記憶している認識対象語彙lのn番目の状態に対応する音響モデルをdic(l,n)とし、時刻(フレーム)tのときに認識対象語彙lがn番目の状態にあったと仮定し、このときの分析結果の1フレーム分の尤度をlklhd(l,t,n)とする。
【0010】
図8は認識対象語彙lに対する認識パスの例を示す図であり、入力された時刻(フレーム)と、ある認識対象語彙lの状態での経路を示している。この経路は複数考えられるが、図8はそのうちの1つの経路を示しており、認識対象語彙lに対してフレームtでの状態がn番目のときの尤度をlklhd(l,t,n)としている。
【0011】
例えば、図8に示すような経路をとった場合の尤度は、以下の式により演算する。音声区間検出手段11で検出された音声区間の長さがTフレームであったとすると、認識対象語彙lのn番目の状態までのある経路に対する累積尤度Lklhd’(l,n)は次式で表される。
【数1】
Figure 0004219603
ここで、k(t)はフレームtに対して割り当てられた状態が何番目であるかを示す。
【0012】
ここで、この入力音声に対する認識対象語彙lのn番目の状態に到達する経路の中で最大尤度となる累積尤度Lklhd(l,n)は、次式で表わされる。
【数2】
Figure 0004219603
また、認識対象語彙lの尤度LK(l)は最終状態をN(l)とすると、
LK(l)=Lklhd(l,N(l)) (3)
となる。各認識対象語彙の尤度中で最大尤度LK(L)を取る認識対象語彙Lを認識結果として出力する。
【数3】
Figure 0004219603
【0013】
このように、図5に示す従来の音声認識装置では、音声区間検出手段11が入力した音声信号の音声区間を検出し、音響分析手段12が、音声区間検出手段11で検出された音声区間の音声信号をフレーム毎に切り出し、この切り出されたフレーム毎の音声データを分析してその分析結果を照合手段15に出力し、照合手段15はフレーム毎に認識対象語彙辞書記憶手段13に記憶されている認識対象語彙と、音響モデル記憶手段14に記憶されている音響モデルとを用いて照合を行い、全認識対象語彙の最終状態での尤度を求め、最終状態で最大尤度を取る認識対象語彙を認識結果として出力している。
【0014】
【発明が解決しようとする課題】
従来の音声認識装置は、以上のように構成されているので、連続した単語を認識させる場合にポーズ等で音声が途切れると、その後に続く音声を認識できず認識精度が劣化するという課題があった。また、これに対処するため、次の音声区間の入力を一定時間待つ方法を用いると、発声から音声認識結果を出力するまでの応答時間が遅くなると共に、音声の後ろに続くポーズ区間の雑音を拾って認識してしまい認識精度が劣化するという課題があった。
【0015】
この発明は上記のような課題を解決するためになされたもので、連続した単語を認識させる場合にポーズ等で音声が途切れても、認識精度を向上させることができる音声認識装置を得ることを目的とする。
【0016】
【課題を解決するための手段】
この発明に係る音声認識装置は、照合手段からの各部分仮説の尤度と、各部分仮説の構文上の位置又は認識対象語彙上の位置とを入力し、最大尤度となる部分仮説の構文上の位置又は認識対象語彙上の位置に対応して次の音声区間までの待ち時間を設定し、最大尤度となる部分仮説が構文上又は認識対象語彙上、後続する語彙が存在しない位置にある最終結果の場合には、待ち時間を0として最終結果を認識結果として出力し、最大尤度となる部分仮説が予めポーズとして指定されている位置にある中間結果の場合には、0より長い次の音声区間までの第1の待ち時間を設定し、音声区間検出手段からの音声区間検出確定通知を受けて、設定した第1の待ち時間未満に次の音声区間が検出された場合には、照合手段に次の音声区間を継続して照合を行うよう指示し、設定した第1の待ち時間未満に次の音声区間が検出されない場合には、中間結果を認識結果として出力する次音声区間待ち判定手段を備えたものである。
【0017】
この発明に係る音声認識装置は、次音声区間待ち判定手段が、最大尤度となる部分仮説が、構文上又は認識対象語彙上、後続する語彙が存在しない位置にある最終結果以外で、かつ中間結果以外の中間状態の場合には、第1の待ち時間より短い次の音声区間までの第2の待ち時間を設定し、設定した第2の待ち時間未満に次の音声区間が検出された場合には、照合手段に次の音声区間を継続して照合を行うよう指示し、設定した第2の待ち時間未満に次の音声区間が検出されない場合には、中間状態を認識結果として出力するか、又は認識結果なしを出力するものである。
【0018】
この発明に係る音声認識装置は、照合手段からの各部分仮説の尤度と、音響モデル記憶手段に記憶されている各音響モデルの待ち時間情報と、認識対象語彙辞書記憶手段に記憶されている各認識対象語彙の接続関係を定義する構文情報とを入力し、最大尤度となる部分仮説の最後の音響モデルの待ち時間情報により、次の音声区間までの待ち時間を設定し、最大尤度となる部分仮説の最後の音響モデルが語尾の無音区間に対応する音響モデルである場合には、待ち時間を0とし、最大尤度となる部分仮説の最後の音響モデルが単語間の無音区間に対応する音響モデルである場合には、0より長い次の音声区間までの第1の待ち時間を設定し、音声区間検出手段からの音声区間検出確定通知を受けて、設定した待ち時間未満に次の音声区間が検出された場合には、照合手段に次の音声区間を継続して照合を行うよう指示し、設定した待ち時間未満に次の音声区間が検出されない場合には、最大尤度となる部分仮説を認識結果として出力する次音声区間待ち判定手段とを備えたものである。
【0019】
この発明に係る音声認識装置は、次音声区間待ち判定手段が、設定した待ち時間未満に次の音声区間が検出されない場合には、最大尤度となる部分仮説が各認識対象語彙の接続関係を定義する構文情報により認識結果として採用可能かを判断して採用可能な場合に、最大尤度となる部分仮説を認識結果として出力するものである。
【0020】
この発明に係る音声認識装置は、次音声区間待ち判定手段が、最大尤度となる部分仮説が認識結果として採用不可能な場合に、次に尤度が高い部分仮説の最後の音響モデルに対応して次の音声区間までの待ち時間を設定するものである。
0021
【発明の実施の形態】
以下、この発明の実施の一形態を説明する。
実施の形態1.
図1はこの発明の実施の形態1による音声認識装置の構成を示すブロック図であり、図において、1は入力した音声信号の音声区間を検出し、検出した音声区間の音声信号を出力すると共に、音声区間を確定したことを示す音声区間確定通知を出力する音声区間検出手段、2は音声区間検出手段1で検出された音声区間の音声信号に対して音響分析を行う音響分析手段、3は認識対象となる認識対象語彙と各認識対象語彙の接続関係を定義する構文情報とを記憶する認識対象語彙辞書記憶手段、4は認識の最小単位となる音響モデルと各音響モデルの待ち時間情報を記憶する音響モデル記憶手段である。
0022
また、図1において、5は音響分析手段2による音響分析結果と、認識対象語彙辞書記憶手段3に記憶されている認識対象語彙と、音響モデル記憶手段4に記憶されている音響モデルとを用いて照合を行い、各認識対象語彙の各状態を示す各部分仮説における尤度を演算し、認識対象語彙辞書記憶手段3に記憶されている各認識対象語彙の接続関係を定義する構文情報から、各部分仮説の構文上の位置又は認識対象語彙上の位置を求める照合手段である。
0023
さらに、図1において、6は照合手段5からの各部分仮説の尤度と、各部分仮説の構文上の位置又は認識対象語彙上の位置とを入力し、最大尤度となる部分仮説の構文上の位置又は認識対象語彙上の位置に対応して次の音声区間までの待ち時間を設定し、音声区間検出手段1からの音声区間検出確定通知を受けて、設定した待ち時間未満に次の音声区間が検出された場合には、照合手段5に次の音声区間を継続して照合を行うよう指示し、設定した待ち時間未満に次の音声区間が検出されない場合には、最大尤度となる部分仮説を認識結果として出力する次音声区間待ち判定手段である。
0024
このように、音響分析手段2、認識対象語彙辞書記憶手段3及び音響モデル記憶手段4は、従来の図5に示す音響分析手段12、認識対象語彙辞書記憶手段13及び音響モデル記憶手段14と同等のものである。
0025
次に動作について説明する。
音声区間検出手段1は、図6に示すように、入力した音声信号のパワーが所定の閾値以上の区間を音声区間候補として検出し、その音声区間候補間のポーズ区間が所定の闘値、例えば350msec未満ならば、その二つの音声区間候補を一つの音声区間として検出し、検出した音声区間の音声信号を音響分析手段2に出力する。また、音声区間検出手段1は、音声区間の開始を検出して、所定の闘値以上の音声信号のパワーが所定時間、例えば50msec続いた時点で音声区間であることを確定し、音声区間確定通知を次音声区間待ち判定手段6に出力する。
0026
音響分析手段2は、従来と同様に、音声区間検出手段1で検出された音声区間の音声信号に対して音響分析を行う。すなわち、音響分析手段2は、音声区間検出手段1が検出した音声区間の音声信号をフレーム長でフレーム周期毎に切り出し、この切り出されたフレーム毎の音声データを分析して、音響分析結果である時系列データを照合手段5に出力する。
0027
従来の照合手段15は最終状態が最大尤度を取る認識対象語彙を認識結果として出力するのに対し、この照合手段5は、認識対象語彙辞書記憶手段3に記憶されている全認識対象語彙のHMMの各状態に対応する音響モデル記憶手段4に記憶されている音響モデルと、音響分析手段2による音響分析結果を用いて、各認識対象語彙の各状態を示す各部分仮説における尤度を演算し、認識対象語彙辞書記憶手段3に記憶されている各認識対象語彙の接続関係を定義する構文情報から、各部分仮説の構文上の位置又は認識対象語彙上の位置を求めて、各部分仮説における尤度と、各部分仮説の構文上の位置又は認識対象語彙上の位置とを次音声区間待ち判定手段6に出力する。
0028
ここで、各部分仮説における尤度の演算では、例えば図7において、/ka/までの部分仮説における尤度、/ka/,/na/までの部分仮説における尤度、/ka/,/na/,/ga/までの部分仮説における尤度というように、順次演算し、/ka/,/na/,/ga/,/wa/,/ke/,/N/,/L3/,/ka/,/ma/,/ku/,/ra/,/si/,/L2/までの部分仮説における尤度を演算していく。
0029
次音声区間待ち判定手段6は、照合手段5から受け取った部分仮説のうち、最大尤度をとる部分仮説の構文上の位置又は認識対象語彙上の位置に対応して、次の音声区間までの待ち時間を設定し、音声区間検出手段1からの音声区間検出確定通知を受けて、設定した待ち時間未満に次の音声区間が検出された場合には、照合手段5に次の音声区間を継続して照合を行うよう指示し、設定した待ち時間未満に次の音声区間が検出されない場合には、最大尤度となる部分仮説を認識結果として出力する。
0030
図2は次音声区間待ち判定手段の判定処理を示すフローチャートであり、ここでは、最大尤度となる部分仮説が構文上又は認識対象語彙上、後続する語彙が存在しない位置にある場合を最終結果とし、認識対象語彙辞書記憶手段3で予めポーズとして指定されている位置にある部分仮説を中間結果とし、それ以外の位置にある部分仮説を中間状態としている。すなわち、図7の例では、最大尤度となる部分仮説が/L2/の位置にある場合には最終結果とし、/L3/の位置にある場合には中間結果とし、/L1/,/L2/,/L3/以外の位置にある場合には中間状態とする。
0031
次音声区間待ち判定手段6は、最大尤度となる部分仮説が構文上又は認識対象語彙上の位置に対応して、照合を行った音声区間の終端から次の音声区間の始端までの待ち時間を設定している。例えば、次音声区間待ち判定手段6は、最大尤度となる部分仮説が、最終結果である場合には、続の音声区間を継続して認識する必要がないために待ち時間を0に設定し、中間結果である場合には待ち時間ThTime1を例えば3秒に設定し、中間状態である場合には待ち時間ThTime2を例えば1秒に設定している。
0032
図2のステップST11において、次音声区間待ち判定手段6は照合手段5から、部分仮説における尤度、部分仮説の構文上の位置又は認識対象語彙上の位置を受け取る。ステップST12において、受け取った各部分仮説における尤度の中で最大尤度となる部分仮説を判定用部分仮説とする。ステップST13において、受け取った各部分仮説の構文上の位置又は認識対象語彙上の位置から、判定用部分仮説が最終結果であるかを判定し、判定用部分仮説が最終結果の場合には、待ち時間が0であるため、ステップST14において、判定用部分仮説を即座に認識結果として出力する。
0033
ステップST13で、判定用部分仮説が最終結果でなければ、ステップST15にいて、判定用部分仮説が中間結果であるかを判定し、中間結果であればステップST16に進み、中間結果でなければ、すなわち、中間状態であれば、ステップST19に進む。判定用部分仮説が中間結果の場合には、ステップST16において、音声区間検出手段1からの音声区間確定通知を受けて、照合を行った音声区間の終端から次の音声区間の始端までの待ち時間がThTime1未満、例えばThTime1=3秒未満であるかをチェックする。
0034
ステップST16で、次の音声区間が検出されないまま待ち時間ThTime1を経過した場合、ステップST17において、タイムアウト処理として中間結果を認識結果として出力する。一方、ステップST16で、ThTime1未満で次音声区間が検出されていれば、ステップST18において、照合手段5に以前の照合状態から継続して認識を行うように指示する。
0035
ここで、中間結果のときに、次の音声区間の待ち時間(ThTime1)を、例えば3秒と長めに設定しているのは、部分仮説が中間結果の場合、もともとポーズ(無音区間)が挿入されることが予想されているため、無音区間が長い可能性が高いためである。
0036
また、ステップST15で、判定用部分仮説が中間状態の場合には、ステップST19において、音声区間検出手段1からの音声区間確定通知を受けて、照合を行った音声区間の終端から次の音声区間の始端までの待ち時間がThTime2未満、例えばThTime2=1秒未満であるかをチェックして、ThTime1未満で次音声区間が検出されていれば、ステップST18において、照合手段5に以前の照合状態から継続して認識を行うように指示する。
0037
ステップST19で、次の音声区間が検出されないまま待ち時間が一定時間ThTime2を経過した場合、ステップST20においてタイムアウト処理を行う。このタイムアウト処理では、前の音声区間での部分仮説の中で認識結果として出力することができる最大尤度のものを認識結果として出力する。また、このタイムアウト処理では、認識結果なしということでリジェクトとしても良い。
0038
ここで、中間状態のときの次の音声区間の待ち時間ThTime2を、中間結果のときの待ち時間ThTime1より短めに設定しているのは、文章や単語の区切り等、予めポーズが想定されている場所に比べて、それ程長いポーズが入らないと想定されるためである。
0039
なお、この実施の形態1では、説明の便宜上、構文上の位置又は認識対象語彙上の位置を、最終結果、中間結果、中間状態の3種類としたが、例えば、図7に示す認識対象語彙“かながわけん”の“かながわ”と“けん”の間に別の待ち時間を設定する等、さらに細かい設定をしても良い。
0040
以上のように、この実施の形態1によれば、最大尤度となる部分仮説の構文上の位置又は認識対象語彙上の位置に対応して、次の音声区間までの待ちの時間を設定することにより、連続した単語を認識させる場合にポーズ等で音声が途切れても、認識精度を向上させることができるという効果が得られる。
0041
また、この実施の形態1によれば、構文の最後まで発声が終了している場合には、発声から音声認識結果を出力するまでの応答時間を早くすることができるという効果が得られる。
0042
実施の形態2.
図3はこの発明の実施の形態2による音声認識装置の構成を示すブロック図である。図において、5aは音響分析手段2による音響分析結果と、認識対象語彙辞書記憶手段3に記憶されている認識対象語彙と、音響モデル記憶手段4に記憶されている音響モデルとを用いて照合を行い、各認識対象語彙の各状態を示す各部分仮説における尤度を演算する照合手段である。
0043
また、図3において、6aは照合手段5aからの部分仮説の尤度と、音響モデル記憶手段4からの各音響モデルの待ち時間情報と、認識対象語彙辞書記憶手段3からの各認識対象語彙の接続関係を定義する構文情報とを入力し、最大尤度となる部分仮説の最後の音響モデルの待ち時間情報により、次の音声区間までの待ち時間を設定し、音声区間検出手段1からの音声区間検出確定通知を受けて、設定した待ち時間未満に次の音声区間が検出された場合には、照合手段5aに次の音声区間を継続して照合を行うよう指示し、設定した待ち時間未満に次の音声区間が検出されない場合には、認識対象語彙辞書記憶手段3からの構文情報により、最大尤度となる部分仮説が認識結果として採用可能かを判断して、認識結果を出力する次音声区間待ち判定手段である。
0044
さらに、図3において、音声区間検出手段1、音響分析手段2、認識対象語彙辞書記憶手段3、音響モデル記憶手段4は実施の形態1の図1に示す構成と同等である。
0045
次に動作について説明する。
上記実施の形態1では、最大尤度となる部分仮説の構文上の位置又は認識対象語彙上の位置に対応して、次の音声区間までの待ち時間を設定していたが、この実施の形態2では、最大尤度となる部分仮説の最後の音響モデルに対応して、次の音声区間までの待ち時間を設定するものである。
0046
例えば、図7において、語頭(発声前)の無音区間に対応する音響モデル/L1/に対しては音声区間の待ち時間を1秒とし、語尾(発声後)の無音区間に対応する音響モデル/L2/に対しては音声区間の待ち時間を0秒とし、単語間(発声中)の無音区間に対応する音響モデル/L3/に対しては音声区間の待ち時間を3秒とし、それ以外の/ka/,/na/等の音響モデルに対しては1秒等とする。また、拗音に対応する音響モデルに対しては例えば2秒とし、さらに、騒音下環境で音声区間検出で誤って無音区間と判断されやすい音響モデル、例えば無声化しやすい「し」、「ひ」、「ふ」、「ち」等に対しては、例えば1.5秒とする。これらの待ち時間は音響モデル記憶手段4に各音響モデルの待ち時間情報として記憶されている。
0047
図4は次音声区間待ち判定手段の判定処理を示すフローチャートである。ステップST21において、次音声区間待ち判定手段6aは照合手段5aから、各部分仮説における尤度を受け取る。ステップST22において、受け取った部分仮説の中で最大尤度を取る部分仮説を判定用部分仮説とする。
0048
ステップST23において、判定用部分仮説の最後の音響モデルpの待ち時間情報を音響モデル記憶手段4から抽出し、抽出した待ち時間情報により、次の音声区間の待ち時間ThTime(p)を設定する。例えば、図7において、最後の音響モデルが/L2/の場合にはThTime(p)=0秒と設定し、/L3/の場合にはThTime(p)=3秒と設定する。
0049
ステップST24において、音声区間検出手段1からの音声区間確定通知を受けて、照合を行った音声区間の終端からの次の音声区間の始端までの待ち時間が、ThTime(p)を超えていないかをチェックする。ステップST24で、待ち時間ThTime(p)未満で次の音声区間が検出されていれば、ステップST25において、照合手段5aに以前の照合状態から継続して認識を行うように指示する。
0050
一方、ステップST24で、次の音声区間が検出されないまま待ち時間ThTime(p)を経過した場合、次のステップST26からステップST29までのタイムアウト処理を行う。このタイムアウト処理として、例えば以下のような処理を行う。
0051
ステップST26において、判定用部分仮説が認識結果として採用できるものであるか判定する。判定用部分仮説が認識結果として採用できるかは、認識対象語彙辞書記憶手段3に各認識対象語彙の接続関係を定義する構文情報として記憶されている。この構文情報としては、例えば図7において、語尾(発声後)の無音区間に対応する音響モデル/L2/に到達している部分仮説だけを認識結果として採用するとか、語尾(発声後)の無音区間に対応する音響モデル/L2/、又は単語間(発声中)の無音区間に対応する音響モデル/L3/に到達している部分仮説を認識結果として採用するというものである。
0052
ステップST26の判定結果で、認識結果として採用可能であれば、ステップST27において、判定用部分仮説を認識結果として出力する。ステップST26の判定結果で、認識結果として採用不可能であれば、ステップST28において、判定用部分仮説の次に尤度が高い部分仮説が存在するかチェックする。
0053
ステップST28で、次に尤度が高い部分仮説が存在していれば、ステップST29において、次に尤度が高い部分仮説を新たな判定部分用部分仮説とし、ステップST23に戻り、上記の処理を繰り返す。一方、ステップST28で、次に尤度が高い部分仮説が存在しなければ、認識結果なしとしてリジェクトし終了する。
0054
ここで、次に尤度が高い部分仮説が存在しない場合があるのは、全ての部分仮説の演算量は膨大になるため、ビームサーチと呼ばれる方法等により、フレーム毎に、最大尤度から一定以上の尤度の差がある部分仮説の演算をしなかったり、最大尤度となる部分仮説から上位n個までの部分仮説の演算しかしないことにより演算量を削減しているからである。
0055
以上のように、この実施の形態2によれば、最大尤度となる部分仮説の最後の音響モデルに対応して、次の音声区間までの待ち時間を設定することにより、連続した単語を認識させる場合にポーズ等で音声が途切れても、認識精度を向上させることができると共に、ポーズや、拗音等で想定される無音区間が異なることに対応でき、無声化しやすい音声を音声区間検出で誤って無音区間とした場合にも対応でき、認識精度を向上させることができるという効果が得られる。
0056
また、この実施の形態2によれば、最大尤度となる部分仮説の最後の音響モデルに対応して次の音声区間までの待ち時間を設定することにより、最大尤度となる部分仮説の構文上の位置又は認識対象語彙上の位置に対応して、次の音声区間待ちの時間を設定するよりも、構文や認識対象語彙を変更する際に、細かく待ち時間を設定する必要がなくなるという効果が得られる。
0057
上記実施の形態1及び実施の形態2の音声認識装置の各手段については、ハードウェア、ソフトウェアのいずれでも構成できることはいうまでもない。また、ソフトウェアによって構成する場合には、そのソフトウェアを記録した媒体が必要となる。
0058
【発明の効果】
以上のように、この発明によれば、照合手段からの各部分仮説の尤度と、各部分仮説の構文上の位置又は認識対象語彙上の位置とを入力し、最大尤度となる部分仮説の構文上の位置又は認識対象語彙上の位置に対応して次の音声区間までの待ち時間を設定し、最大尤度となる部分仮説が構文上又は認識対象語彙上、後続する語彙が存在しない位置にある最終結果の場合には、待ち時間を0として最終結果を認識結果として出力し、最大尤度となる部分仮説が予めポーズとして指定されている位置にある中間結果の場合には、0より長い次の音声区間までの第1の待ち時間を設定し、音声区間検出手段からの音声区間検出確定通知を受けて、設定した第1の待ち時間未満に次の音声区間が検出された場合には、照合手段に次の音声区間を継続して照合を行うよう指示し、設定した第1の待ち時間未満に次の音声区間が検出されない場合には、中間結果を認識結果として出力する次音声区間待ち判定手段を備えるように構成したので、構文の最後まで発声が終了している場合には、発声から音声認識結果を出力するまでの応答時間を早くすることができ、また、連続した単語を認識させる場合にポーズ等で音声が途切れても、認識精度を向上させることができるという効果がある。
0059
この発明によれば、次音声区間待ち判定手段が、最大尤度となる部分仮説が、構文上又は認識対象語彙上、後続する語彙が存在しない位置にある最終結果以外で、かつ中間結果以外の中間状態の場合には、第1の待ち時間より短い次の音声区間までの第2の待ち時間を設定し、設定した第2の待ち時間未満に次の音声区間が検出された場合には、照合手段に次の音声区間を継続して照合を行うよう指示し、設定した第2の待ち時間未満に次の音声区間が検出されない場合には、中間状態を認識結果として出力するか、又は認識結果なしを出力するように構成したので、連続した単語を認識させる場合に中間状態等で音声が途切れても、認識精度を向上させることができるという効果がある。
0060
この発明によれば、照合手段からの各部分仮説の尤度と、音響モデル記憶手段に記憶されている各音響モデルの待ち時間情報と、認識対象語彙辞書記憶手段に記憶されている各認識対象語彙の接続関係を定義する構文情報とを入力し、最大尤度となる部分仮説の最後の音響モデルの待ち時間情報により、次の音声区間までの待ち時間を設定し、最大尤度となる部分仮説の最後の音響モデルが語尾の無音区間に対応する音響モデルである場合には、待ち時間を0とし、最大尤度となる部分仮説の最後の音響モデルが単語間の無音区間に対応する音響モデルである場合には、0より長い次の音声区間までの第1の待ち時間を設定し、音声区間検出手段からの音声区間検出確定通知を受けて、設定した待ち時間未満に次の音声区間が検出された場合には、照合手段に次の音声区間を継続して照合を行うよう指示し、設定した待ち時間未満に次の音声区間が検出されない場合には、最大尤度となる部分仮説を認識結果として出力する次音声区間待ち判定手段とを備えるように構成したので、構文の最後まで発声が終了している場合には、発声から音声認識結果を出力するまでの応答時間を早くすることができ、また、連続した単語を認識させる場合にポーズ等で音声が途切れても、認識精度を向上させることができると共に、ポーズや、拗音等で想定される無音区間が異なることに対応でき、無声化しやすい音声を音声区間検出で誤って無音 区間とした場合にも対応でき、認識精度を向上させることができるという効果がある。
0061
この発明によれば、次音声区間待ち判定手段が、設定した待ち時間未満に次の音声区間が検出されない場合には、最大尤度となる部分仮説が各認識対象語彙の接続関係を定義する構文情報により認識結果として採用可能かを判断して採用可能な場合に、最大尤度となる部分仮説を認識結果として出力するように構成したので、認識精度を向上させることができるという効果がある。
0062
この発明によれば、次音声区間待ち判定手段が、次音声区間待ち判定手段が、最大尤度となる部分仮説が認識結果として採用不可能な場合に、次に尤度が高い部分仮説の最後の音響モデルに対応して次の音声区間までの待ち時間を設定するように構成したので、無声化しやすい音声を音声区間検出で誤って無音区間とした場合にも対応でき、認識精度を向上させることができるという効果がある。
【図面の簡単な説明】
【図1】 この発明の実施の形態1による音声認識装置の構成を示すブロック図である。
【図2】 この発明の実施の形態1による音声認識装置の次音声区間待ち判定手段の判定処理を示すフローチャートである。
【図3】 この発明の実施の形態2による音声認識装置の構成を示すブロック図である。
【図4】 この発明の実施の形態2による音声認識装置の次音声区間待ち判定手段の判定処理を示すフローチャートである。
【図5】 従来の音声認識装置の構成を示すブロック図である。
【図6】 音声区間の始終端検出アルゴリズムを説明する図である。
【図7】 HMMの例を示す図である。
【図8】 認識対象語彙に対する認識パスの例を示す図である。
【符号の説明】
1 音声区間検出手段、2 音響分析手段、3 認識対象語彙辞書記憶手段、4 音響モデル記憶手段、5,5a 照合手段、6,6a 次音声区間待ち判定手段。

Claims (5)

  1. 入力した音声信号の音声区間を検出すると共に、音声区間を確定したことを示す音声区間確定通知を出力する音声区間検出手段と、
    上記音声区間検出手段で検出された音声区間の音声信号に対して音響分析を行う音響分析手段と、
    認識対象となる認識対象語彙と各認識対象語彙の接続関係を定義する構文情報とを記憶する認識対象語彙辞書記憶手段と、
    認識の最小単位となる音響モデルを記憶する音響モデル記憶手段と、
    上記音響分析手段による音響分析結果と、上記認識対象語彙辞書記憶手段に記憶されている認識対象語彙と、上記音響モデル記憶手段に記憶されている音響モデルとを用いて照合を行い、各認識対象語彙の各状態を示す各部分仮説における尤度を演算し、上記認識対象語彙辞書記憶手段に記憶されている各認識対象語彙の接続関係を定義する構文情報から、上記部分仮説の構文上の位置又は認識対象語彙上の位置を求める照合手段と、
    上記照合手段からの上記各部分仮説の尤度と、上記各部分仮説の構文上の位置又は認識対象語彙上の位置とを入力し、最大尤度となる部分仮説の構文上の位置又は認識対象語彙上の位置に対応して次の音声区間までの待ち時間を設定し、最大尤度となる部分仮説が構文上又は認識対象語彙上、後続する語彙が存在しない位置にある最終結果の場合には、待ち時間を0として上記最終結果を認識結果として出力し、最大尤度となる部分仮説が予めポーズとして指定されている位置にある中間結果の場合には、0より長い次の音声区間までの第1の待ち時間を設定し、上記音声区間検出手段からの音声区間検出確定通知を受けて、設定した上記第1の待ち時間未満に次の音声区間が検出された場合には、上記照合手段に次の音声区間を継続して照合を行うよう指示し、設定した上記第1の待ち時間未満に次の音声区間が検出されない場合には、上記中間結果を認識結果として出力する次音声区間待ち判定手段とを備えた音声認識装置。
  2. 次音声区間待ち判定手段は、最大尤度となる部分仮説が、構文上又は認識対象語彙上、後続する語彙が存在しない位置にある最終結果以外で、かつ中間結果以外の中間状態の場合には、第1の待ち時間より短い次の音声区間までの第2の待ち時間を設定し、設定した上記第2の待ち時間未満に次の音声区間が検出された場合には、照合手段に次の音声区間を継続して照合を行うよう指示し、設定した上記第2の待ち時間未満に次の音声区間が検出されない場合には、上記中間状態を認識結果として出力するか、又は認識結果なしを出力することを特徴とする請求項1記載の音声認識装置。
  3. 入力した音声信号の音声区間を検出すると共に、音声区間を確定したことを示す音声区間確定通知を出力する音声区間検出手段と、
    上記音声区間検出手段で検出された音声区間の音声信号に対して音響分析を行う音響分析手段と、
    認識対象となる認識対象語彙と各認識対象語彙の接続関係を定義する構文情報とを記憶する認識対象語彙辞書記憶手段と、
    認識の最小単位となる音響モデルと各音響モデルの待ち時間情報を記憶する音響モデル記憶手段と、
    上記音響分析手段による音響分析結果と、上記認識対象語彙辞書記憶手段に記憶されている認識対象語彙と、上記音響モデル記憶手段に記憶されている音響モデルとを用いて照合を行い、各認識対象語彙の各状態を示す各部分仮説における尤度を演算する照合手段と、
    上記照合手段からの上記各部分仮説の尤度と、上記音響モデル記憶手段に記憶されている各音響モデルの待ち時間情報と、上記認識対象語彙辞書記憶手段に記憶されている各認識対象語彙の接続関係を定義する構文情報とを入力し、最大尤度となる部分仮説の最後の音響モデルの待ち時間情報により、次の音声区間までの待ち時間を設定し、最大尤度となる部分仮説の最後の音響モデルが語尾の無音区間に対応する音響モデルである場合には、 待ち時間を0とし、最大尤度となる部分仮説の最後の音響モデルが単語間の無音区間に対応する音響モデルである場合には、0より長い次の音声区間までの第1の待ち時間を設定し、上記音声区間検出手段からの音声区間検出確定通知を受けて、設定した待ち時間未満に次の音声区間が検出された場合には、上記照合手段に次の音声区間を継続して照合を行うよう指示し、設定した待ち時間未満に次の音声区間が検出されない場合には、上記最大尤度となる部分仮説を認識結果として出力する次音声区間待ち判定手段とを備えた音声認識装置。
  4. 次音声区間待ち判定手段は、設定した待ち時間未満に次の音声区間が検出されない場合には、最大尤度となる部分仮説が各認識対象語彙の接続関係を定義する構文情報により認識結果として採用可能かを判断して採用可能な場合に、上記最大尤度となる部分仮説を認識結果として出力することを特徴とする請求項3記載の音声認識装置。
  5. 次音声区間待ち判定手段は、最大尤度となる部分仮説が認識結果として採用不可能な場合に、次に尤度が高い部分仮説の最後の音響モデルに対応して次の音声区間までの待ち時間を設定することを特徴とする請求項4記載の音声認識装置。
JP2002057793A 2002-03-04 2002-03-04 音声認識装置 Expired - Fee Related JP4219603B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002057793A JP4219603B2 (ja) 2002-03-04 2002-03-04 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002057793A JP4219603B2 (ja) 2002-03-04 2002-03-04 音声認識装置

Publications (2)

Publication Number Publication Date
JP2003255972A JP2003255972A (ja) 2003-09-10
JP4219603B2 true JP4219603B2 (ja) 2009-02-04

Family

ID=28667972

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002057793A Expired - Fee Related JP4219603B2 (ja) 2002-03-04 2002-03-04 音声認識装置

Country Status (1)

Country Link
JP (1) JP4219603B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4297349B2 (ja) * 2004-03-30 2009-07-15 Kddi株式会社 音声認識システム
JP4791857B2 (ja) * 2006-03-02 2011-10-12 日本放送協会 発話区間検出装置及び発話区間検出プログラム
KR101422020B1 (ko) 2007-11-27 2014-07-23 엘지전자 주식회사 음성 인식 방법 및 장치
US10121471B2 (en) * 2015-06-29 2018-11-06 Amazon Technologies, Inc. Language model speech endpointing
CN112466296A (zh) * 2020-11-10 2021-03-09 北京百度网讯科技有限公司 语音交互的处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
JP2003255972A (ja) 2003-09-10

Similar Documents

Publication Publication Date Title
US9002705B2 (en) Interactive device that recognizes input voice of a user and contents of an utterance of the user, and performs a response corresponding to the recognized contents
JP4414088B2 (ja) 音声認識において無音を使用するシステム
JP2007057844A (ja) 音声認識システムおよび音声処理システム
KR20130071490A (ko) 오디오 레코드의 엔드포인트를 자동 감지하는 방법 및 시스템
JPH05204394A (ja) ワードスポッティング法
JPH05197389A (ja) 音声認識装置
JPH08115093A (ja) 終話検出方法及び装置並びに連続音声認識方法及び装置
JP6464005B2 (ja) 雑音抑圧音声認識装置およびそのプログラム
WO2010128560A1 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP4219603B2 (ja) 音声認識装置
JPH10254475A (ja) 音声認識方法
JP4791857B2 (ja) 発話区間検出装置及び発話区間検出プログラム
JP4583772B2 (ja) 音声認識システム、音声認識方法および音声認識用プログラム
KR20050049207A (ko) 대화형 연속 음성인식 시스템 및 이를 이용한 음성끝점검출방법
JP2001343983A (ja) 音声始端検出方法、音声認識装置における音声区間検出方法および音声認識装置
JP6026224B2 (ja) パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体
JP3104900B2 (ja) 音声認識方法
JP2001175276A (ja) 音声認識装置及び記録媒体
JPH1185184A (ja) 音声認識装置
JP3766111B2 (ja) 音声認識装置
JP2001013988A (ja) 音声認識方法及び装置
JP3893911B2 (ja) 音声認識システム
JP3583930B2 (ja) 音声認識装置及びその方法
JPH10240290A (ja) 音声認識処理方法、音声認識システム及び記録媒体
JP4297349B2 (ja) 音声認識システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050301

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070802

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070814

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071012

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20071022

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20071022

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20071022

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080812

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081014

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081112

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111121

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121121

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121121

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131121

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees