JP2002149187A - 音声認識装置および音声認識方法、並びに記録媒体 - Google Patents

音声認識装置および音声認識方法、並びに記録媒体

Info

Publication number
JP2002149187A
JP2002149187A JP2000338458A JP2000338458A JP2002149187A JP 2002149187 A JP2002149187 A JP 2002149187A JP 2000338458 A JP2000338458 A JP 2000338458A JP 2000338458 A JP2000338458 A JP 2000338458A JP 2002149187 A JP2002149187 A JP 2002149187A
Authority
JP
Japan
Prior art keywords
word
speech recognition
score
unit
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2000338458A
Other languages
English (en)
Inventor
Katsuki Minamino
活樹 南野
Koji Asano
康治 浅野
Hiroaki Ogawa
浩明 小川
Lucke Helmut
ルッケ ヘルムート
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2000338458A priority Critical patent/JP2002149187A/ja
Priority to US10/416,092 priority patent/US7240002B2/en
Priority to PCT/JP2001/009711 priority patent/WO2002039426A1/ja
Publication of JP2002149187A publication Critical patent/JP2002149187A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/083Recognition networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 高い音声認識性能を維持しながら、処理の効
率化を図る。 【解決手段】 単語予備選択部13は、単語予備選択を
行う。マッチング部14は、その選択された単語のスコ
アを計算し、そのスコアに基づき、音声認識結果の候補
となる単語列を構成する。また、制御部11は、音声認
識結果の候補となる単語列の単語どうしの単語接続関係
を生成し、単語接続情報記憶部16に供給して記憶させ
る。一方、再評価部15は、単語接続情報記憶部16に
記憶された単語接続関係を、逐次修正し、制御部11
は、その修正後の単語接続関係に基づいて、音声認識結
果となる単語列を確定する。この場合において、単語接
続関係管理部21は、単語接続情報記憶部16に記憶さ
れる単語接続関係としての単語の境界がとり得る時刻を
制限し、単語接続関係管理部22は、単語予備選択部1
3が単語予備選択を行う単語の開始時刻を制限する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識装置およ
び音声認識方法、並びに記録媒体に関し、特に、例え
ば、精度の高い音声認識を、効率的に行うことができる
ようにする音声認識装置および音声認識方法、並びに記
録媒体に関する。
【0002】
【従来の技術】図1は、従来の音声認識装置の一例の構
成を示している。
【0003】ユーザが発した音声は、マイク(マイクロ
フォン)1に入力され、マイク1では、その入力音声
が、電気信号としての音声信号に変換される。この音声
信号は、AD(Analog Digital)変換部2に供給される。
AD変換部2では、マイク1からのアナログ信号の音声
信号がサンプリング、量子化され、ディジタル信号の音
声データに変換される。この音声データは、特徴抽出部
3に供給される。
【0004】特徴抽出部3は、AD変換部2からの音声
データについて、適当なフレームごとに音響処理を施
し、これにより、例えば、MFCC(Mel Frequency Cep
strumCoefficient)等の特徴量を抽出して、マッチング
部4に供給する。なお、特徴抽出部3では、その他、例
えば、スペクトルや、線形予測係数、ケプストラム係
数、線スペクトル対等の特徴量を抽出することが可能で
ある。
【0005】マッチング部4は、特徴抽出部3からの特
徴量を用いて、音響モデルデータベース5、辞書データ
ベース6、および文法データベース7を必要に応じて参
照しながら、マイク1に入力された音声(入力音声)
を、例えば、連続分布HMM法等に基づいて音声認識す
る。
【0006】即ち、音響モデルデータベース5は、音声
認識する音声の言語における個々の音素や音節などの音
響的な特徴を表す音響モデルを記憶している。ここで
は、連続分布HMM法に基づいて音声認識を行うので、
音響モデルとしては、例えば、HMM(Hidden Markov M
odel)が用いられる。辞書データベース6は、認識対象
の各単語(語彙)について、その発音に関する情報(音
韻情報)が記述された単語辞書を記憶している。文法デ
ータベース7は、辞書データベース6の単語辞書に登録
されている各単語が、どのように連鎖する(つながる)
かを記述した文法規則(言語モデル)を記憶している。
ここで、文法規則としては、例えば、文脈自由文法(C
FG)や、統計的な単語連鎖確率(N−gram)など
に基づく規則を用いることができる。
【0007】マッチング部4は、辞書データベース6の
単語辞書を参照することにより、音響モデルデータベー
ス5に記憶されている音響モデルを接続することで、単
語の音響モデル(単語モデル)を構成する。さらに、マ
ッチング部4は、幾つかの単語モデルを、文法データベ
ース7に記憶された文法規則を参照することにより接続
し、そのようにして接続された単語モデルを用いて、特
徴量に基づき、連続分布HMM法によって、マイク1に
入力された音声を認識する。即ち、マッチング部4は、
特徴抽出部3が出力する時系列の特徴量が観測されるス
コア(尤度)が最も高い単語モデルの系列を検出し、そ
の単語モデルの系列に対応する単語列を、音声の認識結
果として出力する。
【0008】つまり、マッチング部4は、接続された単
語モデルに対応する単語列について、各特徴量の出現確
率を累積し、その累積値をスコアとして、そのスコアを
最も高くする単語列を、音声認識結果として出力する。
【0009】スコア計算は、一般に、音響モデルデータ
ベース5に記憶された音響モデルによって与えられる音
響的なスコア(以下、適宜、音響スコアという)と、文
法データベース7に記憶された文法規則によって与えら
れる言語的なスコア(以下、適宜、言語スコアという)
とを総合評価することで行われる。
【0010】即ち、音響スコアは、例えば、HMM法に
よる場合には、単語モデルを構成する音響モデルから、
特徴抽出部3が出力する特徴量の系列が観測される確率
(出現する確率)に基づいて、単語ごとに計算される。
また、言語スコアは、例えば、バイグラムによる場合に
は、注目している単語と、その単語の直前の単語とが連
鎖(連接)する確率に基づいて求められる。そして、各
単語についての音響スコアと言語スコアとを総合評価し
て得られる最終的なスコア(以下、適宜、最終スコアと
いう)に基づいて、音声認識結果が確定される。
【0011】具体的には、あるN個の単語からなる単語
列におけるk番目の単語をwkとして、その単語wkの音
響スコアをA(wk)と、言語スコアをL(wk)と、そ
れぞれ表すとき、その単語列の最終スコアSは、例え
ば、次式にしたがって計算される。
【0012】 S=Σ(A(wk)+Ck×L(wk)) ・・・(1) 但し、Σは、kを1からNに変えてのサメーションをと
ることを表す。また、C kは、単語wkの言語スコアL
(wk)にかける重みを表す。
【0013】マッチング部4では、例えば、式(1)に
示す最終スコアを最も大きくするNと、単語列w1
2,・・・,wNを求めるマッチング処理が行われ、そ
の単語列w1,w2,・・・,wNが、音声認識結果とし
て出力される。
【0014】以上のような処理が行われることにより、
図1の音声認識装置では、例えば、ユーザが、「ニュー
ヨークに行きたいです」と発話した場合には、「ニュー
ヨーク」、「に」、「行きたい」、「です」といった各
単語に、音響スコアおよび言語スコアが与えられ、それ
らを総合評価して得られる最終スコアが最も大きいとき
に、単語列「ニューヨーク」、「に」、「行きたい」、
「です」が、音声認識結果として出力される。
【0015】ところで、上述の場合において、辞書デー
タベース6の単語辞書に、「ニューヨーク」、「に」、
「行きたい」、および「です」の5単語が登録されてい
るとすると、これらの5単語を用いて構成しうる5単語
の並びは、55通り存在する。従って、単純には、マッ
チング部4では、この55通りの単語列を評価し、その
中から、ユーザの発話に最も適合するもの(最終スコア
を最も大きくするもの)を決定しなければならない。そ
して、単語辞書に登録する単語数が増えれば、その単語
数分の単語の並びの数は、単語数の単語数乗通りになる
から、評価の対象としなければならない単語列は、膨大
な数となる。
【0016】さらに、一般には、発話中に含まれる単語
の数は未知であるから、5単語の並びからなる単語列だ
けでなく、1単語、2単語、・・・からなる単語列も、
評価の対象とする必要がある。従って、評価すべき単語
列の数は、さらに膨大なものとなるから、そのような膨
大な単語列の中から、音声認識結果として最も確からし
いものを、計算量および使用するメモリ容量の観点から
効率的に決定することは、非常に重要な問題である。
【0017】計算量およびメモリ容量の効率化を図る方
法としては、例えば、音響スコアを求める過程におい
て、その途中で得られる音響スコアが所定の閾値以下と
なった場合に、そのスコア計算を打ち切るという音響的
な枝刈り手法や、言語スコアに基づいて、スコア計算の
対象とする単語を絞り込む言語的な枝刈り手法がある。
【0018】これらの枝刈り手法によれば、スコア計算
の対象が、所定の判断基準(例えば、上述したような計
算途中の音響スコアや、単語に与えられる言語スコア)
に基づいて絞り込まれることで、計算量の削減を図るこ
とができる。しかしながら、その反面、絞り込みを強く
すると、即ち、判断基準を厳しくすると、本来、音声認
識結果として正しいものまでも枝刈りされてしまい、誤
認識が生じることになる。従って、枝刈り手法による場
合には、音声認識結果として正しいものが枝刈りされな
いように、ある程度のマージンをもたせた絞り込みを行
う必要があり、このため、計算量を大きく削減すること
は困難である。
【0019】また、音響スコアを求める場合に、スコア
計算の対象となっているすべての単語について独立に行
うと、その計算量が大きくなることから、複数の単語に
ついての音響スコアの計算の一部を共通化(共有化)す
る方法が提案されている。この共通化の方法としては、
単語辞書の単語のうち、その先頭の音韻が同一のものに
ついて、その先頭の音韻から、同一になっている音韻ま
では、音響モデルを共通に用い、それ以後の異なる音韻
には、音響モデルを個々に用いることにより、全体とし
て1つの木構造のネットワークを構成し、これを用い
て、音響スコアを求める方法がある。具体的には、例え
ば、いま、単語「秋田」と「曙」を考え、「秋田」の音
韻情報が「akita」であり、「曙」の音韻情報が「akebo
no」であるとすると、単語「秋田」と「曙」の音響スコ
アは、それぞれの先頭から2番目までの音韻a,kについ
ては兼用で計算される。そして、単語「秋田」の残りの
音韻k,i,t,a、および単語「曙」の残りの音韻e,b,o,n,o
については、それぞれ独立に音響スコアが計算される。
【0020】従って、この方法によれば、音響スコアの
計算量を大幅に低減することができる。
【0021】しかしながら、この方法では、音響スコア
の計算が共通化される部分(音響スコアが兼用で計算さ
れる部分)において、その音響スコアの計算の対象とな
っている単語を決定することができない。即ち、上述の
単語「秋田」と「曙」の例でいえば、それぞれの先頭か
ら2番目までの音韻a,kについて音響スコアが計算され
ている間は、その音響スコアが計算されている単語が、
「秋田」であるのか、または「曙」であるのかを同定す
ることができない。
【0022】そして、この場合、「秋田」については、
その3番目の音韻iについて音響スコアの計算が開始さ
れたときに、その計算の対象となっている単語が「秋
田」であることを同定することができ、「曙」について
も、その3番目の音韻eについての音響スコアの計算が
開始されたときに、その計算の対象となっている単語が
「曙」であることを同定することができる。
【0023】従って、音響スコアの計算の一部を共通化
してしまうと、単語の音響スコアの計算の開始時に、そ
の単語を同定することができないため、その単語につい
て、言語スコアを考慮(適用)することができない。そ
の結果、単語の音響スコアの開始前に、上述したような
言語的な枝刈り手法を用いることが困難となり、無駄な
計算が行われることがある。
【0024】さらに、音響スコアの計算の一部を共通化
する場合、単語辞書のすべての単語を対象として、上述
したような木構造のネットワークが構成されるから、こ
れを保持するための大きなメモリ容量が必要となる。
【0025】また、計算量およびメモリ容量の効率化を
図る方法としては、音響スコアを計算する場合に、単語
辞書のすべての単語を対象とするのではなく、その音響
スコアの計算の対象とする単語を予備的に選択(予備選
択)し、その予備選択された単語についてだけ、音響ス
コアを計算する方法がある。ここで、予備選択は、例え
ば、それほど精度の高くない、簡易的な音響モデルや文
法規則を用いて行われる。
【0026】なお、予備選択の方法は、例えば、L. R.
Bahl, S. V. De Gennaro, P. S. Gopalakrishnan and
R. L. Mercer, "A Fast Approximate Acoustic Match f
or Large Vocabulary Speech Recognition", IEEE Tran
s. Speech and Audio Proc.,vol. 1, pp.59-67, 1993等
に記載されている。
【0027】ところで、単語の音響スコアは、音声の特
徴量の系列を用いて計算されるが、その計算に使用する
特徴量の系列の始点や終点が異なれば、求められる音響
スコアも変化する。そして、この変化は、音響スコアと
言語スコアとを総合評価して求められる式(1)の最終
スコアに影響する。
【0028】ある単語に対応する特徴量の系列の始点お
よび終点、即ち、単語どうしの境界(単語境界)は、例
えば、動的計画法(Dynamic Programming)を用いて求め
ることができる。即ち、特徴量の系列の任意の点を、単
語境界の候補とし、音声認識結果の候補となる単語列の
各単語について、その音響スコアと言語スコアとを総合
評価したスコア(以下、適宜、単語スコアという)を、
逐次累積していく。そして、その単語スコアの累積の際
に、最も大きい累積値を与える単語境界の候補を、その
累積値とともに記憶していく。
【0029】これにより、最終的な単語スコアの累積値
が求めらると、最も良い累積値、即ち、最も大きい最終
スコアを与える単語境界も求められる。
【0030】上述のようにして単語境界を求める方法
は、ビタビデコーディング(Viterbi decoding)、あるい
はワンパスデコーディング(One pass decoding)等と呼
ばれ、例えば、中川聖一、「確率モデルによる音声認
識」、電子情報通信学会、pp.20-26、1988年7月1
日等に、その詳細が記載されている。
【0031】
【発明が解決しようとする課題】ところで、上述の予備
選択を効果的に行うには、単語境界をどこにするか、即
ち、特徴量の系列(特徴量系列)のどの点を始点とする
かが非常に重要である。
【0032】具体的には、例えば、図2(A)に示すよ
うな、音声「今日はいい天気ですね」について得られた
特徴量系列において、「今日」と「は」との正しい単語
境界が、時刻t1である場合において、単語「今日」に
続く単語「は」に関して予備選択を行うときに、正しい
時刻t1より先行する時刻t1-1を始点として予備選択を
行うと、その予備選択には、単語「は」の特徴量だけで
なく、その直前の単語「今日」の最後の部分の特徴量が
影響する。一方、正しい時刻t1より後行する時刻t1+1
を始点として予備選択を行うと、その予備選択において
は、単語「は」の最初の部分の特徴量が用いられないこ
とになる。
【0033】従って、いずれにしても、始点を誤ると、
予備選択、ひいては、その後に行われるマッチング処理
に悪影響を与えることとなる。
【0034】なお、図2においては(後述する図4およ
び図6においても同様)、左から右方向が、時間の経過
を表しており、また、音声区間の開始時刻を0として、
音声区間は時刻Tで終了するものとしてある。
【0035】上述した動的計画法を用いる方法では、特
徴量系列の最後、即ち、図2においては、音声区間の終
了時刻Tまでの単語スコア(音響スコアおよび言語スコ
ア)の計算が終了しないと、最終的な単語境界を決定す
ることができないため、予備選択を行う段階では、その
予備選択の始点となる単語境界を一意に決定することは
困難である。
【0036】そこで、単語境界の候補を、音声区間の特
徴量系列を用いた単語スコアの計算が終了するまで保持
しておく方法がある。
【0037】この方法では、例えば、音声区間の開始時
刻0を始点として、単語「今日」の単語スコアを計算し
た場合に、時刻t1-1,t1,t1+1が、単語「今日」の
発話の終点の候補として求まったとすると、この3通り
の時刻t1-1,t1,t1+1が保持され、それぞれを始点
として、次の単語の予備選択が行われる。
【0038】いま、この予備選択によって、時刻t1-1
を始点とした場合には、「は」と「いい」の2単語が、
時刻t1を始点とした場合には、「は」の1単語が、時
刻t1 +1を始点とした場合には、「は」と「いい」の2
単語が、それぞれ得られたとし、さらに、これらの各単
語を対象として単語スコアの計算を行うことにより、図
2(B)乃至図2(G)にそれぞれ示すような結果が得
られたとする。
【0039】即ち、図2(B)は、時刻t1-1を始点と
して、単語「は」の単語スコアの計算を行い、その終点
の候補として、時刻t2が得られた状態を示しており、
図2(C)は、時刻t1-1を始点として、単語「いい」
の単語スコアの計算を行い、その終点の候補として、時
刻t2+1が得られた状態を示している。また、図2
(D)は、時刻t1を始点として、単語「は」の単語ス
コアの計算を行い、その終点の候補として、時刻t2+1
が得られた状態を示しており、図2(E)は、時刻t1
を始点として、単語「は」の単語スコアの計算を行い、
その終点の候補として、時刻t2が得られた状態を示し
ている。さらに、図2(F)は、時刻t1+1を始点とし
て、単語「は」の単語スコアの計算を行い、その終点の
候補として、時刻t2が得られた状態を示しており、図
2(G)は、時刻t1+1を始点として、単語「いい」の
単語スコアの計算を行い、その終点の候補として、時刻
2+2が得られた状態を示している。なお、図2におい
ては、t1-1<t1<t1+1<t2<t 2+1<t2+2となって
いる。
【0040】図2(B)乃至図2(G)のうち、図2
(B)、図2(E)、および図2(F)に示したものに
ついては、いずれも、音声認識結果の候補としての単語
列が、「今日」、「は」で同一あり、さらに、その単語
列の最後「は」の終点も、時刻t2で同一であるから、
その中から最も適切なものを、例えば、時刻t2までの
単語スコアの累積値等に基づいて選び、残りを破棄する
ことが可能である。
【0041】しかしながら、いまの時点では、図2
(B)、図2(E)、または図2(F)のうちから選ん
だものに、図2(C)、図2(D)、図2(G)に示し
たものを加えた中から、正しいものを確定することはで
きないから、これらの4通りの場合を保持しておく必要
がある。そして、この4通りの場合それぞれについて、
再び、予備選択を行っていくことになる。
【0042】従って、この方法では、音声区間の特徴量
系列を用いた単語スコアの計算が終了するまで、多くの
単語境界の候補を保持しながら、単語スコアの計算を行
っていく必要があり、計算量およびメモリ容量の効率化
の観点からは好ましくない。
【0043】なお、この場合、単語境界の候補として、
真に正しい単語境界を保持していれば、原理的には、上
述の動的計画法を用いた場合と同様の正しい単語境界
を、最終的に得ることができるが、その反面、単語境界
の候補として、真に正しい単語境界を保持し損ねると、
その単語境界を始点または終点とする単語を誤認識し、
さらには、それに起因して、その後に続く単語も誤認識
することがある。
【0044】一方、予備選択は、一般に、それほど精度
の高くない、簡易的な音響モデルや文法規則を用いて行
われる。即ち、予備選択は、一般に、単語辞書の単語す
べてを対象として行われるため、精度の高い音響モデル
や文法規則を用いて予備選択を行うと、リアルタイム性
を維持するには、計算量やメモリ容量といったリソース
が多く必要となる。そこで、予備選択は、簡易的な音響
モデルや文法規則を用いることで、大語彙を対象とした
場合でも、比較的少ないリソースで、高速に行うことが
可能となっている。
【0045】しかしながら、予備選択は、ある単語につ
いて、特徴量の系列(特徴量系列)を用いてのマッチン
グ処理が終了し、とりあえず確からしい終点が求められ
た後に、その終点を始点として、その始点に対応する時
刻以後の特徴量系列を用いて行われる。即ち、予備選択
は、連続発話された音声に含まれる単語どうしの境界
(単語境界)が、最終的に確定していない時点で行われ
る。
【0046】従って、予備選択に用いられる特徴量系列
の始点や終点が、対応する単語の始点や終点からずれて
いる場合には、その単語の直前の単語や直後の単語の音
韻の特徴量を含む特徴量系列や、対応する単語の最初や
最後の部分の特徴量が欠けた特徴量系列、即ち、いわば
音響的に安定していない特徴量系列を用いて、予備選択
が行われることになる。
【0047】このため、簡易的な音響モデルを用いる予
備選択では、発話中に含まれる単語が選択されないこと
が起こり得る。そして、予備選択において、正しい単語
が選択されない場合には、その単語についてマッチング
処理が行われないから、音声認識結果は誤ったものとな
る。
【0048】そこで、予備選択において、単語を選択す
るときの音響的または言語的な判断基準を緩くして、選
択される単語の数を多くする方法や、精度の高い音響モ
デルおよび文法規則を用いる方法がある。
【0049】しかしながら、予備選択において、単語を
選択するときの音響的または言語的な判断基準を緩くす
ると、音声認識結果としてそれほど可能性の高くない単
語の多くも、マッチング処理の対象となり、予備選択に
比較して1単語あたりの負荷が重いマッチング処理に要
する計算量やメモリ容量といったリソースが大きく増大
する。
【0050】また、予備選択において、精度の高い音響
モデルおよび文法規則を用いる場合には、予備選択に要
するリソースが大きく増大する。
【0051】本発明は、このような状況に鑑みてなされ
たものであり、高い認識性能を維持しながら、音声認識
処理を、効率的に行うことができるようにするものであ
る。
【0052】
【課題を解決するための手段】本発明の第1の音声認識
装置は、音声認識の対象となっている単語について、ス
コアを計算し、そのスコアに基づいて、音声認識結果の
候補となる単語列を構成する構成手段と、音声認識結果
の候補となる単語列の単語どうしの接続関係を記憶する
記憶手段と、記憶手段に記憶された接続関係を修正する
修正手段と、修正後の接続関係に基づいて、音声認識結
果となる単語列を確定する確定手段と、記憶手段に記憶
される接続関係によって表される単語の境界位置を制限
する単語境界制限手段とを備えることを特徴とする。
【0053】本発明の第1の音声認識方法は、音声認識
の対象となっている単語について、スコアを計算し、そ
のスコアに基づいて、音声認識結果の候補となる単語列
を構成する構成ステップと、音声認識結果の候補となる
単語列の単語どうしの接続関係を記憶する記憶ステップ
と、記憶ステップにおいて記憶された接続関係を修正す
る修正ステップと、修正後の接続関係に基づいて、音声
認識結果となる単語列を確定する確定ステップと、記憶
ステップにおいて記憶される接続関係によって表される
単語の境界位置を制限する単語境界制限ステップとを備
えることを特徴とする。
【0054】本発明の第1の記録媒体は、音声認識の対
象となっている単語について、スコアを計算し、そのス
コアに基づいて、音声認識結果の候補となる単語列を構
成する構成ステップと、音声認識結果の候補となる単語
列の単語どうしの接続関係を記憶する記憶ステップと、
記憶ステップにおいて記憶された接続関係を修正する修
正ステップと、修正後の接続関係に基づいて、音声認識
結果となる単語列を確定する確定ステップと、記憶ステ
ップにおいて記憶される接続関係によって表される単語
の境界位置を制限する単語境界制限ステップとを備える
プログラムが記録されていることを特徴とする。
【0055】本発明の第2の音声認識装置は、音声認識
の対象となっている単語群から、音声認識結果の候補と
なる単語列の、既に求まっている単語に続く1以上の単
語を選択する選択手段と、選択手段において選択された
単語について、スコアを計算し、そのスコアに基づい
て、音声認識結果の候補となる単語列を構成する構成手
段と、音声認識結果の候補となる単語列の中から、音声
認識結果となる単語列を確定する確定手段と、選択手段
において選択される単語の開始位置を制限する開始位置
制限手段とを備えることを特徴とする。
【0056】本発明の第2の音声認識方法は、音声認識
の対象となっている単語群から、音声認識結果の候補と
なる単語列の、既に求まっている単語に続く1以上の単
語を選択する選択ステップと、選択ステップにおいて選
択された単語について、スコアを計算し、そのスコアに
基づいて、音声認識結果の候補となる単語列を構成する
構成ステップと、音声認識結果の候補となる単語列の中
から、音声認識結果となる単語列を確定する確定ステッ
プと、選択ステップにおいて選択される単語の開始位置
を制限する開始位置制限ステップとを備えることを特徴
とする。
【0057】本発明の第2の記録媒体は、音声認識の対
象となっている単語群から、音声認識結果の候補となる
単語列の、既に求まっている単語に続く1以上の単語を
選択する選択ステップと、選択ステップにおいて選択さ
れた単語について、スコアを計算し、そのスコアに基づ
いて、音声認識結果の候補となる単語列を構成する構成
ステップと、音声認識結果の候補となる単語列の中か
ら、音声認識結果となる単語列を確定する確定ステップ
と、選択ステップにおいて選択される単語の開始位置を
制限する開始位置制限ステップとを備えるプログラムが
記録されていることを特徴とする。
【0058】本発明の第1の音声認識装置および音声認
識方法、並びに記録媒体においては、音声認識の対象と
なっている単語について、スコアが計算され、そのスコ
アに基づいて、音声認識結果の候補となる単語列が構成
される。さらに、音声認識結果の候補となる単語列の単
語どうしの接続関係が修正され、その修正後の接続関係
に基づいて、音声認識結果となる単語列が確定される。
この場合において、音声認識結果の候補となる単語列の
単語どうしの接続関係によって表される単語の境界位置
が制限される。
【0059】本発明の第2の音声認識装置および音声認
識方法、並びに記録媒体においては、音声認識の対象と
なっている単語群から、音声認識結果の候補となる単語
列の、既に求まっている単語に続く1以上の単語が選択
され、その選択された単語について、スコアが計算され
る。さらに、そのスコアに基づいて、音声認識結果の候
補となる単語列が構成され、その中から、音声認識結果
となる単語列が確定される。この場合において、音声認
識の対象となっている単語群から選択される単語の開始
位置が制限される。
【0060】
【発明の実施の形態】図3は、本発明が適用される音声
認識装置の構成例を示している。なお、図中、図1にお
ける場合と対応する部分については、同一の符号を付し
てあり、以下では、その説明は、適宜省略する。
【0061】特徴量抽出部3が出力する、ユーザが発し
た音声の特徴量の系列は、フレーム単位で、制御部11
に供給されるようになっており、制御部11は、特徴量
抽出部3からの特徴量を、特徴量記憶部12に供給す
る。
【0062】また、制御部11は、単語接続情報記憶部
16に記憶された単語接続情報を参照し、マッチング部
14や再評価部15を制御する。さらに、制御部11
は、マッチング部14が、前述した図1のマッチング部
4と同様のマッチング処理を行うことにより得られるマ
ッチング処理結果としての音響スコアや言語スコア等に
基づいて、単語接続情報を生成し、その単語接続情報に
よって、単語接続情報記憶部16の記憶内容を更新す
る。また、制御部11は、再評価部15の出力に基づい
て、単語接続情報記憶部16の記憶内容を修正する。さ
らに、制御部11は、単語接続情報記憶部16に記憶さ
れた単語接続情報に基づいて、最終的な音声認識結果を
確定して出力する。
【0063】特徴量記憶部12は、制御部11から供給
される特徴量の系列を、例えば、ユーザの音声の認識結
果が得られるまで記憶する。なお、制御部11は、音声
区間の開始時刻を基準(例えば0)とする、特徴抽出部
3が出力する特徴量が得られた時刻(以下、適宜、抽出
時刻という)を、その特徴量とともに、特徴量記憶部1
2に供給するようになっており、特徴量記憶部12は、
特徴量を、その抽出時刻とともに記憶する。特徴量記憶
部12に記憶された特徴量およびその抽出時刻は、単語
予備選択部13、マッチング部14、および再評価部1
5において、必要に応じて参照することができるように
なっている。
【0064】単語予備選択部13は、マッチング部14
からの要求に応じ、単語接続情報記憶部16、音響モデ
ルデータベース17A、辞書データベース18A、およ
び文法データベース19Aを必要に応じて参照しなが
ら、マッチング部14でマッチング処理の対象とする1
以上の単語を選択する単語予備選択処理を、特徴量記憶
部12に記憶された特徴量を用いて行う。
【0065】マッチング部14は、制御部11からの制
御に基づき、単語接続情報記憶部16、音響モデルデー
タベース17B、辞書データベース18B、および文法
データベース19Bを必要に応じて参照しながら、単語
予備選択部13からの単語予備選択処理の結果得られる
単語を対象としたマッチング処理を、特徴量記憶部12
に記憶された特徴量を用いて行い、そのマッチング処理
の結果を、制御部11に供給する。
【0066】再評価部15は、制御部11からの制御に
基づき、音響モデルデータベース17C、辞書データベ
ース18C、および文法データベース19Cを必要に応
じて参照しながら、単語接続情報記憶部16に記憶され
た単語接続情報の再評価を、特徴量記憶部12に記憶さ
れた特徴量を用いて行い、その再評価結果を、制御部1
1に供給する。
【0067】単語接続情報記憶部16は、制御部11か
ら供給される単語接続情報を、ユーザの音声の認識結果
が得られるまで記憶する。
【0068】ここで、単語接続情報は、最終的な音声認
識結果の候補となる単語列を構成する単語どうしの接続
(連鎖または連接)関係を表すもので、各単語の音響ス
コアおよび言語スコア、並びに各単語に対応する発話の
開始時刻および終了時刻も含んでいる。
【0069】即ち、図4は、単語接続情報記憶部16に
記憶される単語接続情報を、グラフ構造を用いて示して
いる。
【0070】図4の実施の形態において、単語接続情報
としてのグラフ構造は、単語を表すアーク(図4におい
て、○印どうしを結ぶ線分で示す部分)と、単語どうし
の境界を表すノード(図4において○印で示す部分)と
から構成されている。
【0071】ノードは、時刻情報を有しており、この時
刻情報は、そのノードに対応する特徴量の抽出時刻を表
す。上述したように、抽出時刻は、音声区間の開始時刻
を0とする、特徴抽出部3が出力する特徴量が得られた
時刻であるから、図4において、音声区間の開始、即
ち、最初の単語の先頭に対応するノードNode1が有する
時刻情報は0となる。ノードは、アークの始端および終
端となるが、始端のノード(始端ノード)、または終端
のノード(終端ノード)が有する時刻情報は、それぞ
れ、そのノードに対応する単語の発話の開始時刻、また
は終了時刻、つまり単語の境界を表す。
【0072】なお、図4では、左から右方向が、時間の
経過を表しており、従って、あるアークの左右にあるノ
ードのうち、左側のノードが始端ノードとなり、右側の
ノードが終端ノードとなる。
【0073】アークは、そのアークに対応する単語の音
響スコアおよび言語スコアを有しており、このアーク
が、終端ノードとなっているノードを始端ノードとし
て、順次接続されていくことにより、音声認識結果の候
補となる単語の系列が構成されていく。
【0074】即ち、制御部11においては、まず最初
に、音声区間の開始を表すノードNode 1に対して、音声
認識結果として確からしい単語に対応するアークが接続
される。図4の実施の形態では、「今日」に対応するア
ークArc1、「いい」に対応するアークArc6、および「天
気」に対応するArc11が接続されている。なお、音声認
識結果として確からしい単語かどうかは、マッチング部
14において求められる音響スコアおよび言語スコアに
基づいて決定される。
【0075】そして、以下、同様にして、「今日」に対
応するアークArc1の終端である終端ノードNode2、「い
い」に対応するアークArc6の終端である終端ノードNode
7、「天気」に対応するArc11の終端である終端ノードNo
de12それぞれに対して、同様に、確からしい単語に対応
するアークが接続されていく。
【0076】以上のようにしてアークが接続されていく
ことで、音声区間の開始を始点として、左から右方向
に、アークとノードで構成される1以上のパスが構成さ
れて行くが、例えば、そのパスのすべてが、音声区間の
最後(図4の実施の形態では、時刻T)に到達すると、
制御部11において、音声区間の開始から最後までに形
成された各パスについて、そのパスを構成するアークが
有している音響スコアおよび言語スコアが累積され、最
終スコアが求められる。そして、例えば、その最終スコ
アが最も高いパスを構成するアークに対応する単語列
が、音声認識結果として確定されて出力される。
【0077】具体的には、例えば、図4において、ノー
ドNode1から、「今日」に対応するアークArc1、ノード
Node2、「は」に対応するアークArc2、ノードNode3
「いい」に対応するアークArc3、ノードNode4、「天
気」に対応するアークArc4、ノードNode5、「ですね」
に対応するアークArc5、およびノードNode6で構成され
るパスについて、最も高い最終スコアが得られた場合に
は、単語列「今日」、「は」、「いい」、「天気」、
「ですね」が、音声認識結果として出力されることにな
る。
【0078】なお、上述の場合には、音声区間内にある
ノードについて、必ずアークを接続して、音声区間の開
始から最後にまで延びるパスを構成するようにしたが、
このようなパスを構成する過程において、それまでに構
成されたパスについてのスコアから、音声認識結果とし
て不適当であることが明らかであるパスに関しては、そ
の時点で、パスの構成を打ち切る(その後に、アークを
接続しない)ようにすることが可能である。
【0079】また、上述のようなパスの構成ルールに従
えば、1つのアークの終端が、次に接続される1以上の
アークの始端ノードなり、基本的には、枝葉が拡がるよ
うに、パスが構成されて行くが、例外的に、1つのアー
クの終端が、他のアークの終端に一致する場合、つま
り、あるアークの終端ノードと、他のアークの終端ノー
ドとが同一のノードに共通化される場合がある。
【0080】即ち、文法規則としてバイグラムを用いた
場合には、別のノードから延びる2つのアークが、同一
の単語に対応するものであり、さらに、その単語の発話
の終了時刻も同一であるときには、その2つのアークの
終端は一致する。
【0081】図4において、ノードNode7を始端として
延びるアークArc7、およびノードNode13を始端として
延びるアークArc13は、いずれも「天気」に対応するも
のであり、その発話の終了時刻も同一であるため、その
終端ノードは、同一のノードNode8に共通化されてい
る。
【0082】なお、ノードの共通化は行わないようにす
ることも可能であるが、メモリ容量の効率化の観点から
は、行うのが好ましい。
【0083】また、図4では、文法規則としてバイグラ
ムを用いているが、その他、例えば、トライグラム等を
用いる場合も、ノードの共通化は可能である。
【0084】さらに、単語接続情報記憶部16に記憶さ
れている単語接続情報は、単語予備選択部13、マッチ
ング部14、および再評価部15において、必要に応じ
て参照することができるようになっている。
【0085】図3に戻り、音響モデルデータベース17
A,17B、および17Cは、基本的には、図1の音響
モデルデータベース5において説明したような音響モデ
ルを記憶している。
【0086】但し、音響モデルデータベース17Bは、
音響モデルデータベース17Aよりも精度の高い処理が
可能な高精度の音響モデルを記憶しており、音響モデル
データベース17Cは、音響モデルデータベース17B
よりも精度の高い処理が可能なより高精度の音響モデル
を記憶している。即ち、音響モデルデータベース17A
において、各音素や音節について、例えば、前後のコン
テキストに依存しない1パターンの音響モデルだけが記
憶されているとすると、音響モデルデータベース17B
には、各音素や音節について、例えば、前後のコンテキ
ストに依存しない音響モデルの他、単語間にまたがるコ
ンテキストに依存する音響モデル、つまり、クロスワー
ドモデルも記憶されている。そして、音響モデルデータ
ベース17Cには、各音素や音節について、例えば、前
後のコンテキストに依存しない音響モデルおよびクロス
ワードモデルの他、単語内のコンテキストに依存する音
響モデルも記憶されている。
【0087】辞書データベース18A,18B、および
18Cは、基本的には、図1の辞書データベース6にお
いて説明したような単語辞書を記憶している。
【0088】即ち、辞書データベース18A乃至18C
の単語辞書には、同一セットの単語が登録されている。
但し、辞書データベース18Bの単語辞書は、辞書デー
タベース18Aの単語辞書よりも精度の高い処理が可能
な高精度の音韻情報を記憶しており、辞書データベース
18Cの単語辞書は、辞書データベース18Bの単語辞
書よりもさらに精度の高い処理が可能な高精度の音韻情
報を記憶している。即ち、辞書データベース18Aの単
語辞書には、例えば、各単語に対して、1通りの音韻情
報(読み)だけ登録されているとすると、辞書データベ
ース18Bの単語辞書には、例えば、各単語に対して、
複数通りの音韻情報が登録されている。そして、辞書デ
ータベース18Cの単語辞書には、例えば、各単語に対
して、さらに多くの通りの音韻情報が登録されている。
【0089】具体的には、例えば、単語「おはよう」に
対して、辞書データベース18Aの単語辞書には、1通
りの音韻情報「おはよう」だけが、辞書データベース1
8Bの単語辞書には、「おはよう」の他、「おはよー」
や「おはよ」が、辞書データベース18Cの単語辞書に
は、「おはよう」、「おはよー」、および「おはよ」の
他、「はよう」や「はよー」が、それぞれ音韻情報とし
て登録されている。
【0090】文法データベース19A,19B、および
19Cは、基本的には、図1の文法データベース7にお
いて説明したような文法規則を記憶している。
【0091】但し、文法データベース19Bは、文法デ
ータベース19Aよりも精度の高い処理が可能な高精度
の文法規則を記憶しており、文法データベース19C
は、文法データベース19Bよりも精度の高い処理が可
能なより高精度の文法規則を記憶している。即ち、文法
データベース19Aが、例えば、ユニグラム(単語の生
起確率)に基づく文法規則を記憶しているとすると、文
法データベース19Bは、例えば、バイグラム(直前の
単語との関係を考慮した単語の生起確率)を記憶してい
る。そして、文法データベース19Cは、例えば、トラ
イグラム(直前の単語およびそのさらに1つ前の単語と
の関係を考慮した単語の生起確率)や文脈自由文法等に
基づく文法規則を記憶している。
【0092】以上のように、音響モデルデータベース1
7Aには、各音素や音節について、1パターンの音響モ
デルが、音響モデルデータベース17Bには、各音素や
音節について、複数パターンの音響モデルが、音響モデ
ルデータベース17Cには、各音素や音節について、さ
らに多くのパターンの音響モデルが、それぞれ記憶され
ている。また、辞書データベース18Aには、各単語に
ついて、1通りの音韻情報が、辞書データベース18B
には、各単語について、複数通りの音韻情報が、辞書デ
ータベース18Cには、各単語について、さらに多くの
通りの音韻情報が、それぞれ記憶されている。そして、
文法データベース19Aには、簡易な文法規則が、文法
データベース19Bには、精度の高い文法規則が、文法
データベース19Cには、さらに精度の高い文法規則
が、それぞれ記憶されている。
【0093】これにより、音響モデルデータベース17
A、辞書データベース18A、および文法データベース
19Aを参照する単語予備選択部13では、それほど精
度は高くないが、多くの単語を対象として、迅速に、音
響スコアおよび言語スコアを求めることができるように
なっている。また、音響モデルデータベース17B、辞
書データベース18B、および文法データベース19B
を参照するマッチング部14では、ある程度の数の単語
を対象として、迅速に、精度の高い音響スコアおよび言
語スコアを求めることができるようになっている。そし
て、音響モデルデータベース17C、辞書データベース
18C、および文法データベース19Cを参照する再評
価部15では、少ない数の単語を対象として、迅速に、
より精度の高い音響スコアおよび言語スコアを求めるこ
とができるようになっている。
【0094】なお、ここでは、音響モデルデータベース
17A乃至17Cそれぞれに記憶させる音響モデルの精
度について優劣を設けるようにしたが、音響モデルデー
タベース17A乃至17Cには、いずれにも、同一の音
響モデルを記憶させることができ、この場合、音響モデ
ルデータベース17A乃至17Cは、1つの音響モデル
データベースに共通化することができる。同様に、辞書
データベース18A乃至18Cの単語辞書それぞれの記
憶内容や、文法データベース19A乃至19Cそれぞれ
の文法規則も、同一にすることができる。
【0095】次に、図5のフローチャートを参照して、
図3の音声認識装置による音声認識処理について説明す
る。
【0096】ユーザが発話を行うと、その発話としての
音声は、マイク1およびAD変換部2を介することによ
り、ディジタルの音声データとされ、特徴抽出部3に供
給される。特徴抽出部3は、そこに供給される音声デー
タから、音声の特徴量を、フレームごとに順次抽出し、
制御部11に供給する。
【0097】制御部11は、何らかの手法で音声区間を
認識するようになっており、音声区間においては、特徴
抽出部3から供給される特徴量の系列を、各特徴量の抽
出時刻と対応付けて、特徴量記憶部12に供給して記憶
させる。
【0098】さらに、制御部11は、音声区間の開始
後、ステップS1において、音声区間の開始を表すノー
ド(以下、適宜、初期ノードという)を生成し、単語接
続情報記憶部16に供給して記憶させる。即ち、制御部
11は、ステップS1において、図4におけるノードNo
de1を、単語接続情報記憶部16に記憶させる。
【0099】そして、ステップS2に進み、制御部11
は、単語接続情報記憶部16の単語接続情報を参照する
ことで、途中ノードが存在するかどうかを判定する。
【0100】即ち、上述したように、図4に示した単語
接続情報においては、終端ノードに、アークが接続され
ていくことにより、音声区間の開始から最後にまで延び
るパスが形成されて行くが、ステップS2では、終端ノ
ードのうち、まだアークが接続されておらず、かつ、音
声区間の最後にまで到達していないものが、途中ノード
(例えば、図4におけるノードNode8や、Node10,Node
11)として検索され、そのような途中ノードが存在する
かどうかが判定される。
【0101】なお、上述したように、音声区間は何らか
の手法で認識され、さらに、終端ノードに対応する時刻
は、その終端ノードが有する時刻情報を参照することで
認識することができるから、アークが接続されていない
終端ノードが、音声区間の最後に到達していない途中ノ
ードであるかどうかは、音声区間の最後の時刻と、終端
ノードが有する時刻情報とを比較することで判定するこ
とができる。
【0102】ステップS2において、途中ノードが存在
すると判定された場合、ステップS3に進み、制御部1
1は、情報接続情報の中に存在する途中ノードのうちの
1つを、それに接続するアークとしての単語を決定する
ノード(以下、適宜、注目ノードという)として選択す
る。
【0103】即ち、制御部11は、情報接続情報の中に
1つの途中ノードしか存在しない場合には、その途中ノ
ードを、注目ノードとして選択する。また、制御部11
は、情報接続情報の中に複数の途中ノードが存在する場
合には、その複数の途中ノードのうちの1つを注目ノー
ドとして選択する。具体的には、制御部11は、例え
ば、複数の途中ノードそれぞれが有する時刻情報を参照
し、その時刻情報が表す時刻が最も古いもの(音声区間
の開始側のもの)、または最も新しいもの(音声区間の
終わり側のもの)を、注目ノードとして選択する。ある
いは、また、制御部11は、例えば、初期ノードから、
複数の途中ノードそれぞれに至るまでのパスを構成する
アークが有する音響スコアおよび言語スコアを累積し、
その累積値(以下、適宜、部分累積スコアという)が最
も大きくなるパス、または小さくなるパスの終端になっ
ている途中ノードを、注目ノードとして選択する。
【0104】その後、制御部11は、注目ノードが有す
る時刻情報を開始時刻としてマッチング処理を行う旨の
指令(以下、適宜、マッチング処理指令という)を、マ
ッチング部14および再評価部15に出力する。
【0105】再評価部15は、制御部11からマッチン
グ処理指令を受信すると、ステップS4に進み、単語接
続情報記憶部16を参照することにより、初期ノードか
ら注目ノードに至るまでのパス(以下、適宜、部分パス
という)を構成するアークによって表される単語列(以
下、適宜、部分単語列という)を認識し、その部分単語
列の再評価を行う。即ち、部分単語列は、後述するよう
にして、単語予備選択部13が予備選択した単語を対象
に、マッチング部14がマッチング処理を行うことによ
り得られた音声認識結果の候補とする単語列の途中結果
であるが、再評価部15では、その途中結果が、再度、
評価される。
【0106】具体的には、再評価部15は、部分単語列
について、言語スコアおよび音響スコアを再計算するた
め、部分単語列に対応する特徴量の系列を、特徴量記憶
部12から読み出す。即ち、再評価部15は、例えば、
部分パスの先頭のノードである初期ノードが有する時刻
情報が表す時刻から、注目ノードが有する時刻情報が表
す時刻までに対応付けられている特徴量の系列(特徴量
系列)を、特徴量記憶部12から読み出す。さらに、再
評価部15は、音響モデルデータベース17C、辞書デ
ータベース18C、および文法データベース19Cを参
照し、特徴量記憶部12から読み出した特徴量系列を用
いて、部分単語列について、言語スコアおよび音響スコ
アを再計算する。なお、この再計算は、部分単語列を構
成する各単語の単語境界を固定せずに行われる。従っ
て、再評価部15では、部分単語列の言語スコアおよび
音響スコアを再計算することにより、部分単語列につい
て、それを構成する各単語の単語境界の決定が、動的計
画法に基づいて行われることになる。
【0107】再評価部15は、以上のようにして、部分
単語列の各単語の言語スコアおよび音響スコア、並びに
単語境界を新たに得ると、その新たな言語スコアおよび
音響スコアによって、単語接続情報記憶部16の部分単
語列に対応する部分パスを構成するアークが有する言語
スコアおよび音響スコアを修正するとともに、新たな単
語境界によって、単語接続情報記憶部16の部分単語列
に対応する部分パスを構成するノードが有する時刻情報
を修正する。なお、本実施の形態では、再評価部15に
よる単語接続情報の修正は、制御部11を介して行われ
るようになっている。
【0108】即ち、例えば、図6に示すノードNode5
注目ノードとされた場合において、初期ノードNode1
ら注目ノードNode5に至る部分パスのうちの、例えば、
ノードNode3、単語「いい」に対応するアークArc3、ノ
ードNode4、単語「天気」に対応するArc4、およびノー
ドNode5の部分で表される単語列「いい」、「天気」に
注目すると、再評価部15は、ノードNode3に対応する
時刻からノードNode5に対応する時刻までの特徴量系列
を用い、音響モデルデータベース17Cおよび辞書デー
タベース18Cを参照することで、単語「いい」、「天
気」それぞれの単語モデルを構成し、音響スコアを計算
する。さらに、再評価部15は、文法データベース19
Cを参照することで、単語「いい」、「天気」それぞれ
の言語スコアを計算する。具体的には、例えば、文法デ
ータベース19Cに、トライグラムに基づく文法規則が
記憶されている場合には、再評価部15は、単語「い
い」については、その直前の単語「は」と、さらにその
前の単語「今日」を用い、単語が、「今日」、「は」、
「いい」と連鎖する確率を求め、その確率に基づいて言
語スコアを計算する。また、再評価部15は、単語「天
気」については、その直前の単語「いい」と、さらにそ
の前の単語「は」を用い、単語が、「は」、「いい」、
「天気」と連鎖する確率を求め、その確率に基づいて言
語スコアを計算する。
【0109】再評価部15は、以上のようにして求めら
れる音響スコアおよび言語スコアを累積し、その累積値
が最も大きくなるように、単語「いい」と「天気」の単
語境界を決定する。そして、再評価部15は、そのよう
にして求まった音響スコアおよび言語スコアによって、
単語「いい」に対応するアークArc3と、単語「天気」に
対応するArc4がそれぞれ有する音響スコアおよび言語ス
コアを修正するとともに、決定した単語境界によって、
単語「いい」と「天気」の単語境界に対応するノードNo
de4が有する時刻情報を修正する。
【0110】従って、再評価部15では、部分単語列の
各単語どうしの単語境界が、動的計画法に基づいて決定
され、単語接続情報16に記憶された単語接続情報が、
逐次修正されていく。そして、この修正された単語接続
情報を参照して、単語予備選択部13およびマッチング
部14で処理が行われるため、それぞれにおける処理の
精度および信頼性を向上させることができる。
【0111】さらに、再評価部15において単語接続情
報の単語境界が修正されるため、単語接続情報として記
憶しておく単語境界の候補の数を大幅に削減することが
でき、メモリ容量の効率化を図ることができる。
【0112】即ち、従来においては、例えば、前述の図
2で説明したように、単語「今日」と「は」との単語境
界の候補として、時刻t1-1,t1,t1+1の3つを保持
しておく必要があり、また、正しい単語境界である時刻
1を保持し損ねた場合には、その後のマッチング処理
に悪影響を与える。これに対して、再評価部15におい
て単語境界を逐次修正する場合には、例えば、誤った単
語境界である時刻t1- 1の1つだけしか保持しなかった
としても、再評価部15において、その誤った単語境界
である時刻t1-1が、正しい単語境界である時刻t1に修
正されるから、その後のマッチング処理に悪影響を与え
ることはない。
【0113】また、再評価部15では、部分単語列を構
成する単語については、最初と最後の単語を除き、その
前と後に接続する単語それぞれを考慮したクロスワード
モデルを用いて音響スコアを計算し、さらに、言語スコ
アの計算も、その前と後に接続する単語それぞれを考慮
して行うことができ、従って、高精度の処理を行うこと
ができる。
【0114】再評価部15は、以上のようにして、単語
接続情報記憶部16の単語接続情報の修正を終了する
と、その旨を、制御部11を介して、マッチング部14
に供給する。
【0115】マッチング部14は、上述したように、制
御部11からマッチング処理指令を受信した後、再評価
部15から、制御部11を介して、単語接続情報の修正
が終了した旨を受信すると、注目ノード、およびそれが
有する時刻情報を、単語予備選択部13に供給し、それ
ぞれに、単語予備選択処理を要求して、ステップS5に
進む。
【0116】ステップS5では、単語予備選択部13
は、マッチング部14から、単語予備選択処理の要求を
受信すると、注目ノードに接続されるアークとなる単語
の候補を選択する単語予備選択処理を、辞書データベー
ス18Aの単語辞書に登録された単語を対象として行
う。
【0117】即ち、単語予備選択部13は、言語スコア
および音響スコアを計算するのに用いる特徴量の系列の
開始時刻を、注目ノードが有する時刻情報から認識し、
その開始時刻以降の、必要な特徴量の系列を特徴量記憶
部12から読み出す。さらに、単語予備選択部13は、
辞書データベース18Aの単語辞書に登録された各単語
の単語モデルを、音響モデルデータベース17Aの音響
モデルを接続することで構成し、その単語モデルに基づ
き、特徴量記憶部12から読み出した特徴量の系列を用
いて、音響スコアを計算する。
【0118】また、単語予備選択部13は、各単語モデ
ルに対応する単語の言語スコアを、文法データベース1
9Aに記憶された文法規則に基づいて計算する。即ち、
単語予備選択部13は、各単語の言語スコアを、例えば
ユニグラムに基づいて求める。
【0119】なお、単語予備選択部13においては、単
語接続情報を参照することにより、各単語の音響スコア
の計算を、その単語の直前の単語(注目ノードが終端と
なっているアークに対応する単語)に依存するクロスワ
ードモデルを用いて行うことが可能である。
【0120】また、単語予備選択部13においては、単
語接続情報を参照することにより、各単語の言語スコア
の計算を、その単語が、その直前の単語と連鎖する確率
を規定するバイグラムに基づいて行うことが可能であ
る。
【0121】単語予備選択部13は、以上のようにし
て、各単語について音響スコアおよび言語スコアを求め
ると、その音響スコアおよび言語スコアを総合評価した
スコアを、以下、適宜、単語スコアという)を求め、そ
の上位L個を、マッチング処理の対象とする単語とし
て、マッチング部14に供給する。
【0122】なお、ここでは、単語予備選択部13にお
いて、各単語の音響スコアおよび言語スコアを総合評価
した単語スコアに基づいて、単語を選択するようにした
が、単語予備選択部13では、その他、例えば、音響ス
コアだけや、言語スコアだけに基づいて、単語を選択す
るようにすることが可能である。
【0123】また、単語予備選択部13では、特徴量記
憶部12から読み出した特徴量の系列の最初の部分だけ
を用いて、音響モデルデータベース17Aの音響モデル
に基づき、対応する単語の最初の部分の幾つかの音韻を
求め、最初の部分が、その音韻に一致する単語を選択す
るようにすることも可能である。
【0124】さらに、単語予備選択部13では、単語接
続情報を参照して、直前の単語(注目ノードが終端ノー
ドとなっているアークに対応する単語)の品詞を認識
し、その品詞に続く単語の品詞として可能性の高い品詞
の単語を選択するようにすることも可能である。
【0125】即ち、単語予備選択部13における単語の
選択方法は、どのような方法を用いても良く、究極的に
は、単語を、ランダムに選択しても良い。
【0126】マッチング部14は、単語予備選択部13
から、マッチング処理に用いるL個の単語(以下、適
宜、選択単語という)を受信すると、ステップS6にお
いて、その選択単語を対象として、マッチング処理を行
う。
【0127】即ち、マッチング部14は、言語スコアお
よび音響スコアを計算するのに用いる特徴量の系列の開
始時刻を、注目ノードが有する時刻情報から認識し、そ
の開始時刻以降の、必要な特徴量の系列を特徴量記憶部
12から読み出す。さらに、マッチング部14は、辞書
データベース18Bを参照することで、単語予備選択部
13からの選択単語の音韻情報を認識し、その音韻情報
に対応する音響モデルを、音響モデルデータベース17
Bから読み出して接続することで、単語モデルを構成す
る。
【0128】そして、マッチング部14は、上述のよう
にして構成した単語モデルに基づき、特徴量記憶部12
から読み出した特徴量系列を用いて、単語予備選択部1
3からの選択単語の音響スコアを計算する。なお、マッ
チング部14においては、単語接続情報を参照すること
により、単語の音響スコアの計算を、クロスワードモデ
ルに基づいて行うようにすることが可能である。
【0129】さらに、マッチング部14は、文法データ
ベース19Bを参照することで、単語予備選択部13か
らの選択単語の言語スコアを計算する。即ち、マッチン
グ部14は、例えば、単語接続情報を参照することによ
り、単語予備選択部13からの選択単語の直前の単語、
さらには、その前の単語を認識し、バイグラムやトライ
グラムに基づく確率から、単語予備選択部13からの選
択単語の言語スコアを求める。
【0130】マッチング部14は、以上のようにして、
単語予備選択部13からのL個の選択単語すべてについ
て、その音響スコアおよび言語スコアを求め、ステップ
S7に進む。ステップS7では、選択単語それぞれにつ
いて、その音響スコアおよび言語スコアを総合評価した
単語スコアが求められ、その単語スコアに基づいて、単
語接続情報記憶部16に記憶された単語接続情報が更新
される。
【0131】即ち、ステップS7では、マッチング部1
4は、選択単語について単語スコアを求め、例えば、そ
の単語スコアを所定の閾値と比較すること等によって、
注目ノードに接続するアークとしての単語を、選択単語
の中から絞り込む。そして、マッチング部14は、その
絞り込みの結果残った単語を、その音響スコア、言語ス
コア、およびその単語の終了時刻とともに、制御部11
に供給する。
【0132】なお、マッチング部14において、単語の
終了時刻は、音響スコアを計算するのに用いた特徴量の
抽出時刻から認識される。また、ある単語について、そ
の終了時刻としての蓋然性の高い抽出時刻が複数得られ
た場合には、その単語については、各終了時刻と、対応
する音響スコアおよび言語スコアとのセットが、制御部
11に供給される。
【0133】制御部11は、上述のようにしてマッチン
グ部14から供給される単語の音響スコア、言語スコ
ア、および終了時刻を受信すると、マッチング部14か
らの各単語について、単語接続情報記憶部16に記憶さ
れた単語接続情報(図4)における注目ノードを始端ノ
ードとして、アークを延ばし、そのアークを、終了時刻
の位置に対応する終端ノードに接続する。さらに、制御
部11は、各アークに対して、対応する単語、並びにそ
の音響スコアおよび言語スコアを付与するとともに、各
アークの終端ノードに対して、対応する終了時刻を時刻
情報として与える。そして、ステップS2に戻り、以
下、同様の処理が繰り返される。
【0134】以上のように、単語接続情報は、マッチン
グ部14の処理結果に基づいて、逐次更新され、さら
に、再評価部15において逐次修正されるので、単語予
備選択部13およびマッチング部14は、常時、単語接
続情報を利用して処理を行うことが可能となる。
【0135】なお、制御部11は、単語接続情報を更新
する際に、可能であれば、上述したような終端ノードの
共通化を行う。
【0136】一方、ステップS2において、途中ノード
が存在しないと判定された場合、ステップS8に進み、
制御部11は、単語接続情報を参照することで、その単
語接続情報として構成された各パスについて、単語スコ
アを累積することで、最終スコアを求め、例えば、その
最終スコアが最も大きいパスを構成するアークに対応す
る単語列を、ユーザの発話に対する音声認識結果として
出力して、処理を終了する。
【0137】以上のように、単語予備選択部13におい
て、音声認識結果の候補となる単語列の、既に求まって
いる単語に続く1以上の単語が選択され、マッチング部
14において、その選択された単語(選択単語)につい
て、スコアが計算されて、そのスコアに基づき、音声認
識結果の候補となる単語列が構成される。そして、再評
価部15において、音声認識結果の候補となる単語列の
単語どうしの単語接続関係が修正され、制御部11にお
いて、その修正後の単語接続関係に基づいて、音声認識
結果となる単語列が確定される。従って、処理に要する
リソースの増大を抑えながら、精度の高い音声認識を行
うことができる。
【0138】即ち、再評価部15において単語接続情報
の単語境界が修正されるため、注目ノードが有する時刻
情報が、単語境界を表している精度が高くなり、単語予
備選択部13やマッチング部14では、そのような精度
の高い時刻情報が表す時刻以降の特徴量系列を用いて処
理が行われる。従って、単語予備選択部13において選
択する単語の判断基準や、マッチング部14において単
語を絞り込むときの判断基準を強化しても、音声認識結
果として正しい単語が除外されてしまう可能性を極めて
低くすることができる。
【0139】そして、単語予備選択部13において選択
する単語の判断基準を強化した場合には、マッチング部
14においてマッチング処理の対象となる単語数が少な
くなり、その結果、マッチング部14の処理に要する演
算量およびメモリ容量も少なくすることができる。
【0140】さらに、仮に、単語予備選択部13におい
て、正しい音声認識結果としての単語列を構成する単語
のうち、ある時刻から開始する単語が、その時刻に選択
されなかったとしても、その時刻から多少ずれた時刻
(従って、誤った時刻)において選択されれば、再評価
部15において、その誤った時刻が修正され、正しい音
声認識結果としての単語列を得ることができる。即ち、
単語予備選択部13で、正しい音声認識結果としての単
語列を構成する単語の選択漏れがあったとしても、再評
価部15において、その選択漏れを是正して、正しい音
声認識結果としての単語列を得ることができる。
【0141】従って、再評価部15では、マッチング部
14における終了時刻の検出の誤りの他、単語予備選択
部13における単語の選択の誤りも是正することができ
る。
【0142】次に、図7は、本発明を適用した音声認識
装置の第1実施の形態の構成例を示している。なお、図
中、図3における場合と対応する部分については、同一
の符号を付してあり、以下では、その説明は、適宜省略
する。即ち、図7の音声認識装置は、制御部11と単語
接続情報記憶部16との間に、単語接続関係管理部21
が新たに設けられている他は、基本的に、図3における
場合と同様に構成されている。
【0143】従って、図7の実施の形態においては、制
御部11は、単語接続関係管理部21を介して、単語接
続情報記憶部16に対して、マッチング部14からの情
報に基づいて生成した単語接続情報を書き込むが、その
際、単語接続関係管理部21は、その単語接続情報によ
って表される単語の境界位置を制限する。
【0144】即ち、制御部11は、上述したように、マ
ッチング部14から供給される単語の音響スコア、言語
スコア、および終了時刻を受信すると、マッチング部1
4からの各単語について、単語接続情報記憶部16に記
憶された単語接続情報(図4)における注目ノードを始
端ノードとして、アークを延ばし、そのアークを、終了
時刻の位置に対応する終端ノードに接続する。さらに、
制御部11は、各アークに対して、対応する単語、並び
にその音響スコアおよび言語スコアを付与するととも
に、各アークの終端ノードに対して、対応する終了時刻
を時刻情報として与える。
【0145】その際、単語接続関係管理部21は、注目
ノードを始点ノードとして延ばされるアークの終端ノー
ドの位置(単語の終了時刻)を制限する。
【0146】即ち、例えば、いま、図8(A)に示すよ
うに、特徴抽出部3において、時間TSごとに特徴量が
抽出され、制御部11に供給されるとすると、制御部1
1は、この時間TSを最小単位とした終了時刻を終端ノ
ードとする単語すべてに対応するアークを、単語接続情
報として、単語接続情報記憶部16に書き込む。
【0147】従って、例えば、図8(A)に示すよう
に、「今日はいい天気ですね」と発話された場合におい
て、単語「今日」と「は」との間の境界位置の候補、即
ち、単語「今日」の終了時刻の候補として、例えば、図
8(B)に示すように、時間T Sごとの連続する7つの
時刻(タイミング)a,b,c,d,e,f,gが得ら
れたときには、この7つの時刻a乃至gそれぞれを終端
ノードとする単語「今日」に対応するアークが、単語接
続情報として記憶されることになる。
【0148】即ち、単語の境界位置(つまり、単語の終
了時刻)は、特徴抽出部3において特徴量が得られるタ
イミングで設定することができるため、終端ノードとす
ることができるタイミング(以下、適宜、ノード記憶タ
イミングという)も、図8(C)に矢印で示すように、
時間TSを最小単位としたタイミングとなり、その結
果、上述のような時間TSごとの連続する7つの時刻a
乃至gそれぞれを終端ノードとするアークが、単語接続
情報として記憶されることがある。
【0149】しかしながら、このように、多数のアーク
が、単語接続情報として記憶されるのは、単語接続情報
記憶部16の記憶容量や、処理時間等の観点から効率的
ではない。
【0150】そこで、単語接続関係管理部21は、終端
ノードの位置(単語の終了時刻)を、特徴抽出部3から
特徴量が供給されるタイミングを間引いたタイミングに
制限する。
【0151】即ち、単語接続関係管理部21は、終端ノ
ードの位置を、例えば、図8(D)に示すように、時間
3TSごとのタイミングに制限する。
【0152】ここで、単語接続関係管理部21によって
制限された、終端ノードの位置としてとり得る位置(タ
イミング)を、以下、適宜、新ノード記憶タイミングと
いう。
【0153】この場合、制御部11において、単語「今
日」の終了時刻の候補として、図8(B)に示したよう
に、時間TSごとの連続する7つの時刻a乃至gが得ら
れたとしても、単語接続関係管理部21において、終端
ノードの位置は、2つの時刻cとfに制限されることと
なり、その結果、単語接続情報記憶部16として必要な
記憶容量を低減することができる。さらに、この場合、
その後に注目ノードとされる途中ノードが少なくなるこ
とから、処理の高速化を図ることができる。
【0154】ところで、上述のように、単語接続関係管
理部21において、終端ノードの位置を制限した場合に
は、正しい単語境界が得られないことがある。即ち、図
8の実施の形態においては、図8(A)に示すように、
単語「今日」と「は」との間の正しい単語境界は、時刻
dであるが、終端ノードの位置は、図8(D)に示した
ように、時刻cとfに制限され、正しい単語境界の時刻
dを、終端ノードとして得ることができない。
【0155】従って、誤った境界位置である時刻cまた
はfを、正しい境界位置として、その後の処理が行われ
る場合には、認識性能が低下することになる。
【0156】しかしながら、図7の音声認識装置では、
図3の音声認識装置について説明したように、再評価部
15が、単語接続情報の単語境界を修正するため、ある
程度の境界位置の誤りは、正しい境界位置に修正され
る。その結果、上述したように、終端ノードの位置を、
ある程度制限しても、認識性能の低下を防止することが
できる。
【0157】即ち、図9は、終端ノードの位置を制限し
て行った音声認識処理のシミュレーション結果を示して
いる。
【0158】図9において、「時間間隔」の欄は、終端
ノードの位置の制限条件を表しており、そこに記載して
ある数字は、特徴抽出部3から特徴量が供給される時間
間隔TSに対する、終端ノードの位置として許可するタ
イミングの時間間隔を表す。即ち、「時間間隔」の欄の
数字#iは、終端ノードの位置を、時間i×TSごとの
時刻に制限したことを表す。従って、例えば、「時間間
隔」の欄における「1」は、終端ノードの位置を制限し
ない場合を表し、また、例えば、「時間間隔」の欄にお
ける「2」は、終端ノードの位置を、時間2TSごとの
時刻に制限した場合を表す。
【0159】また、「単語正解率」の欄は、音声の認識
率を表す。
【0160】なお、シミュレーションでは、特徴抽出部
3から特徴量が供給される時間間隔TSを、10msと
した。
【0161】また、シミュレーションでは、音声認識の
対象とする単語数を2万語とし、10人の話者それぞれ
による20の発話、即ち、延べ200発話を対象に、音
声認識を行った。さらに、文法としては、トライグラム
を用いた。
【0162】図9のシミュレーション結果から、終端ノ
ードの位置を、時間TS乃至4TSそれぞれごとの時刻に
制限しても、ほとんど同様の認識性能が得られているこ
とが分かる。
【0163】なお、上述のように、シミュレーション
は、200発話しか対象にしていないため、「単語正解
率」の欄の認識率における0.5%乃至1%程度の上下
差は、誤差の範囲内である。
【0164】ところで、例えば、図8(A)と同様の図
10(A)に示すように、「今日はいい天気ですね」と
発話された場合において、単語「今日」と「は」との間
の境界位置の候補、即ち、単語「今日」の終了時刻の候
補として、例えば、図10(B)に示すように、時間T
Sだけ離れた2つの連続する時刻(タイミング)dとe
が得られたとする。
【0165】即ち、マッチング部14において、例え
ば、図10(A)に示した、時間TSごとの時刻a乃至
gそれぞれを終了時刻とした単語「今日」の単語スコア
が計算され、その単語スコアによる、上述した絞り込み
によって、時刻dとeをそれぞれ終了時刻とする単語
「今日」が残ったとする。
【0166】この場合、単語接続関係管理部21におい
て、終端ノードの位置を、例えば、図10(C)に示す
ように、時間3TSごとのタイミングに制限すると、時
刻dとeは、いずれも、その制限されたタイミング、即
ち、新ノード記憶タイミングの位置にないため、時刻d
とeをそれぞれ終了時刻とするアークは、いずれも、単
語接続情報記憶部16に記憶されないことになる。
【0167】即ち、図10(B)の実施の形態では、単
語「今日」の終了時刻として正しい時刻dと、その時刻
に近い時刻eが得られているのにもかかわらず、いずれ
の時刻も、ノードとして記憶されない。
【0168】そして、このように、正しい終了時刻付近
にノードが記憶されない場合には、再評価部15の処理
によっても、単語どうしの間の境界位置を、正しい位置
に修正することが困難となり、この場合、音声認識性能
が劣化することになる。
【0169】そこで、制御部11は、マッチング部14
を制御することにより、マッチング部14が計算した単
語スコアを補正させ、その補正後の単語スコア(以下、
適宜、補正スコアという)に基づいて、音声認識結果の
候補となる単語列の単語の境界位置の候補の仮決定(絞
り込み)を行わせる。
【0170】即ち、例えば、いま、時刻xを終了時刻と
する単語の音響スコアと言語スコアを、それぞれA
(x)とL(x)と表すとともに、時刻xの前と後に隣
接する時刻を、それぞれx-1とx+1と表すこととする
と、マッチング部14は、時刻xを終了時刻とする単語
の補正スコアを求めるのに用いる音響スコアA’(x)
と言語スコアL’(x)(以下、適宜、それぞれを、補
正音響スコアA’(x)と補正言語スコアL’(x)と
いう)を、次式にしたがって求める。
【0171】 A’(x)=max{A(x-1),A(x),A(x+1)} L’(x)=max{L(x-1),L(x),L(x+1)} ・・・(2)
【0172】ここで、式(2)において、max{}
は、カッコ{}内の最大値を意味する。また、式(2)
における音響スコアA(x-1),A(x),A(x+1
それぞれには、各音響スコアを計算する時間長に依存し
ないように、何らかの正規化が施されるものとする。
【0173】式(2)によれば、ある時刻xを終了時刻
とする単語の音響スコアが、その時刻の音響スコア、そ
の時刻の前と後にそれぞれ隣接する時刻x-1とx+1を終
了時刻とする単語の音響スコアのうちの最も大きいもの
に補正される。さらに、言語スコアについても、同様の
補正が行われる。その結果、直感的には、ある時刻xを
終了時刻とする単語の単語スコアは、その時刻xを含
む、その時刻xに近い時刻を終了時刻とする単語の単語
スコアのうちの最も大きいものに補正されることにな
る。
【0174】従って、図10(B)に示したように、補
正前の単語スコアによる絞り込みによって、時刻dとe
をそれぞれ終了時刻とする単語「今日」が残る場合とい
うのは、時刻dとeをそれぞれ終了時刻とする単語「今
日」の単語スコアが所定の閾値以上であり、かつ他の時
刻を終了時刻とする単語「今日」の単語スコアが所定の
閾値未満である場合であるから、時刻dの直前の時刻c
を終了時刻とする単語「今日」の単語スコアは、時刻d
を終了時刻とする単語「今日」の単語スコアより小さ
く、また、時刻eの直後の時刻fを終了時刻とする単語
「今日」の単語スコアは、時刻eを終了時刻とする単語
「今日」の単語スコアより小さい。
【0175】その結果、時刻cを終了時刻とする単語
「今日」の単語スコアは、その時刻cの直後の時刻dを
終了時刻とする単語「今日」の単語スコアに補正され、
また、時刻fを終了時刻とする単語「今日」の単語スコ
アも、その時刻fの直前の時刻eを終了時刻とする単語
「今日」の単語スコアに補正される。
【0176】これにより、時刻cとfをそれぞれ終了時
刻とする単語「今日」の補正後の単語スコア(補正スコ
ア)は、いずれも、所定の閾値以上となる。従って、そ
のような補正スコアに基づいて、絞り込みを行うことに
より、図10(D)に示すように、時刻dとeをそれぞ
れ終了時刻とする単語「今日」だけでなく、時刻cとf
をそれぞれ終了時刻とする単語「今日」も残ることにな
る。
【0177】この場合、単語接続関係管理部21におい
て、終端ノードの位置を、図10(C)と同様の図10
(E)に示すように、時間3TSごとのタイミングに制
限しても、単語「今日」の終了時刻として正しい時刻d
に近い時刻cとfが得られ、この時刻cとfそれぞれ
が、ノードとして記憶されることになる。
【0178】従って、正しい終了時刻dに近い時刻cと
fが、ノードとして記憶されるので、上述した再評価部
15の処理によって、単語どうしの間の境界位置が、正
しい位置に修正されることになる。
【0179】次に、図11のフローチャートを参照し
て、図7の音声認識装置による音声認識処理について説
明する。
【0180】図7の音声認識装置では、ステップS11
乃至S16において、図5のステップS1乃至S6にお
ける場合とそれぞれ同様の処理が行われる。
【0181】そして、ステップS16において、図5の
ステップS6で説明したように、マッチング部14が、
単語予備選択部13からの選択単語すべてについて、そ
れぞれの音響スコアおよび言語スコアを求めた後は、ス
テップS17に進み、マッチング部14は、式(2)に
したがい、各単語の音響スコアと言語スコアを、他の時
刻を終了時刻とする同一単語の音響スコアと言語スコア
によって、それぞれ補正する。さらに、マッチング部1
4は、補正後の音響スコアと言語スコアから、補正後の
単語スコア(補正スコア)を計算する。そして、マッチ
ング部14は、ステップS18に進み、その補正スコア
によって、単語の絞り込みを行い、これにより、単語の
境界位置の候補を、特に位置を制限することなく決定
(仮決定)する。
【0182】その後、マッチング部14は、ステップS
18における絞り込みの結果残った単語を、その音響ス
コア、言語スコア、およびその単語の終了時刻ととも
に、制御部11に供給する。
【0183】制御部11は、上述のようにしてマッチン
グ部14から供給される単語の音響スコア、言語スコ
ア、および終了時刻を受信すると、そのうちの各単語に
ついての終了時刻を、単語接続関係管理部21に供給す
る。
【0184】単語接続関係管理部21は、ステップS1
9において、単語の境界候補となっている終了時刻を、
新ノード記憶タイミングで間引き、即ち、新ノード記憶
タイミングの位置にない終了時刻を削除し、残った終了
時刻を、単語の境界候補となる時刻として、最終的に決
定する。単語接続関係管理部21は、このようにして最
終的に残った終了時刻を、制御部11に返し、制御部1
1は、ステップS20において、単語接続関係管理部2
1から終了時刻が返された単語に関して、単語接続情報
記憶部16に記憶された単語接続情報を、単語接続関係
管理部21を介して更新する。
【0185】即ち、ステップS20では、図5のステッ
プS7で説明した場合と同様に、単語接続関係管理部2
1から終了時刻が返された各単語について、単語接続情
報記憶部16に記憶された単語接続情報(図4)におけ
る注目ノードを始端ノードとして、アークを延ばし、そ
のアークを、終了時刻の位置に対応する終端ノードに接
続する。さらに、制御部11は、各アークに対して、対
応する単語、並びにその音響スコアおよび言語スコアを
付与するとともに、各アークの終端ノードに対して、対
応する終了時刻を時刻情報として与える。
【0186】その後は、ステップS12に戻り、以下、
同様の処理が繰り返される。
【0187】そして、ステップS12において、途中ノ
ードが存在しないと判定されると、ステップS21に進
み、図5のステップS8における場合と同様に、制御部
11は、単語接続情報を参照することで、その単語接続
情報として構成された各パスについて、単語スコアを累
積することで、最終スコアを求め、例えば、その最終ス
コアが最も大きいパスを構成するアークに対応する単語
列を、ユーザの発話に対する音声認識結果として出力し
て、処理を終了する。
【0188】以上のように、単語接続関係管理部21に
おいて、終端ノードの位置を、特徴抽出部3から特徴量
が供給されるタイミングを間引いたタイミング(新ノー
ド記憶タイミング)に制限するようにしたので、単語接
続情報記憶部16の記憶容量や処理時間等を低減するこ
とができ、処理の効率化を図ることができる。
【0189】さらに、終端ノードの位置を制限しても、
再評価部15によって、その位置が、正しい単語の境界
の位置に修正されるため、認識性能の劣化を防止するこ
とができる。なお、図7の実施の形態では、単語予備選
択部13を設けて、音声認識装置を構成するようにした
が、音声認識装置は、単語予備選択部13を設けずに構
成することも可能である。
【0190】次に、図12は、本発明を適用した音声認
識装置の第2実施の形態の構成例を示している。なお、
図中、図3における場合と対応する部分については、同
一の符号を付してあり、以下では、その説明は、適宜省
略する。即ち、図12の音声認識装置は、単語予備選択
部13とマッチング部14との間に、単語接続関係管理
部22が新たに設けられている他は、基本的に、図3に
おける場合と同様に構成されている。
【0191】従って、図12の実施の形態においては、
マッチング部14が単語予備選択処理の要求とともに出
力する注目ノード、およびそれが有する時刻情報は、単
語接続関係管理部22を介して、単語予備選択部13に
供給されることとなるが、その際、単語接続関係管理部
22は、マッチング部14からの注目ノードの時刻情
報、つまり、選択単語の開始位置(開始時刻)を制限す
る。
【0192】即ち、例えば、いま、図13(A)に示す
ように、特徴抽出部3において、時間TSごとに特徴量
が抽出され、制御部11に供給されるとすると、制御部
11は、この時間TSを最小単位とした終了時刻を終端
ノードとする単語すべてに対応するアークを、単語接続
情報として、単語接続情報記憶部16に書き込む。
【0193】従って、例えば、図13(A)に示すよう
に、「今日はいい天気ですね」と発話された場合におい
て、単語「今日」と「は」との間の境界位置の候補、即
ち、単語「今日」の終了時刻の候補として、時間TS
との連続する7つの時刻a,b,c,d,e,f,gが
得られたときには、この7つの時刻a乃至gそれぞれ
が、終端ノードとして、単語接続情報記憶部16に記憶
されることになる。
【0194】その結果、この7つの終端ノードa乃至g
は、その後、順次、注目ノードとされるから、単語予備
選択部13は、7つの終端ノードa乃至gそれぞれを、
単語の開始位置として、単語予備選択処理を行うことと
なる。
【0195】しかしながら、このように、多数の時刻を
開始位置として単語予備選択を行うのは、処理時間等の
観点から効率的ではない。
【0196】そこで、単語接続関係管理部22は、マッ
チング部14から単語予備選択部13に供給される注目
ノードの位置(単語の開始時刻)を、特徴抽出部3から
特徴量が供給されるタイミングを間引いたタイミングに
制限する。
【0197】即ち、単語接続関係管理部22は、注目ノ
ードの位置を、例えば、図13(B)に示すように、時
間2TSごとのタイミングに制限する。これにより、単
語予備選択部13において、単語予備選択処理が開始さ
れるタイミング(単語の開始時刻)は、時間2TSごと
のタイミングに制限される。
【0198】具体的には、単語接続関係管理部22は、
マッチング部14から供給される注目ノードの位置が、
単語の開始時刻としてとり得る位置(以下、適宜、許可
位置という)である場合には、その注目ノードを、その
まま単語予備選択部13に供給し、マッチング部14か
ら供給される注目ノードの位置が、単語の開始時刻とし
てとり得ない位置(以下、適宜、不許可位置という)で
ある場合(制限されている場合)には、その注目ノード
の時刻情報を、単語予備選択部13に供給せずに一時保
持する。
【0199】その結果、単語予備選択部13では、許可
位置のみを開始位置として単語予備選択が行われるの
で、単語予備選択処理に要する処理時間の短縮化等を図
ることができる。
【0200】ところで、上述のように、単語予備選択部
13において、許可位置のみを開始位置として単語予備
選択が行われる場合には、不許可位置を開始位置とする
単語予備選択結果が得られないから、このままでは、不
許可位置を開始位置とする単語が、マッチング処理部1
4において処理の対象とされることがなくなってしまう
ことになる。
【0201】しかしながら、マッチング部14が単語予
備選択処理の要求とともに出力する注目ノードの時刻情
報は、いまの場合、時間TSを最小単位とするものであ
り、マッチング部14から単語予備選択部13に対して
は、許可位置のみならず、不許可位置を開始位置とする
単語予備選択処理が要求される場合がある。
【0202】従って、不許可位置を開始位置とする単語
が、単語予備選択結果として、マッチング部14に供給
されず、その結果、まったく処理の対象とされないこと
は、認識性能の劣化を招くことになる。
【0203】そこで、単語接続関係管理部22は、マッ
チング部14から、不許可位置を開始位置とする単語の
単語予備選択処理の要求があった場合には、不許可位置
を開始位置とする単語を補完し、マッチング部14に供
給するようになっている。
【0204】即ち、単語接続関係管理部22は、例え
ば、図13(A)に示した時間TSごとの時刻a乃至g
のうちの、図13(B)に示した時間2TSごとの時刻
b,d,fに、単語予備選択処理が開始されるタイミン
グ(単語の開始時刻)を制限する場合において、その時
刻以外の時刻(不許可位置)cやeを開始位置とする単
語予備選択処理の要求があったときには、その時刻cや
eに近い許可位置を開始位置とする単語予備選択処理の
結果得られた単語(選択単語)によって、不許可位置で
ある時刻cやeを開始位置とする単語予備選択結果とし
ての単語を補完する。
【0205】具体的には、単語接続関係管理部22は、
例えば、不許可位置である時刻cについては、図13
(C)に示すように、その前後の許可位置の時刻bとd
をそれぞれ開始位置とする単語予備選択処理の結果得ら
れた単語の集合を、時刻cを開始位置とする単語予備選
択結果として補完し、マッチング部14に供給する。ま
た、単語接続関係管理部22は、例えば、不許可位置で
ある時刻eについては、図13(C)に示すように、そ
の前後の許可位置の時刻dとfをそれぞれ開始位置とす
る単語予備選択処理の結果得られた単語の集合を、時刻
eを開始位置とする単語予備選択結果として補完し、マ
ッチング部14に供給する。
【0206】以上のように、単語予備選択部13におい
て、実際に、単語予備選択処理が行われるのは、許可位
置を開始時刻とする単語についてだけであるが、マッチ
ング部14には、許可位置を開始時刻とする単語予備選
択結果としての単語だけでなく、不許可位置を開始時刻
とする単語予備選択結果としての単語も補完されて供給
される。従って、単語予備選択処理に要するコストを低
減しながら、認識性能の劣化を防止することができる。
【0207】なお、上述のように、単語接続関係管理部
22は、マッチング部14から、不許可位置を開始時刻
とする単語予備選択処理の要求があった場合には、上述
のように、その不許可位置を開始時刻とする単語を補完
して、マッチング部14に単語予備選択結果として供給
することから、その補完のために、例えば、単語予備選
択部13からの許可位置を開始時刻とする単語予備選択
結果としての単語を、一時記憶しておくようにする必要
がある。
【0208】また、単語接続関係管理部22において、
不許可位置を開始時刻とする単語の補完に用いられる単
語予備選択結果が記憶されていない場合には、単語接続
関係管理部22は、例えば、不許可位置に近い許可位置
を開始時刻とする単語予備選択処理を、単語予備選択部
13に要求し、その要求に対応して単語予備選択部13
から供給される、許可位置を開始時刻とする単語予備選
択結果によって、不許可位置を開始時刻とする単語を補
完するようになっている。
【0209】次に、図14のフローチャートを参照し
て、図12の音声認識装置による音声認識処理について
説明する。
【0210】図12の音声認識装置では、ステップS3
1乃至S34において、図5のステップS1乃至S4に
おける場合とそれぞれ同様の処理が行われる。
【0211】そして、ステップS34において、図5の
ステップS4で説明したように、再評価部15が、単語
接続情報記憶部16の単語接続情報を修正し、マッチン
グ部14が、その修正が終了した旨を、制御部11を介
して受信すると、マッチング部14は、上述したよう
に、注目ノード、およびそれが有する時刻情報を、単語
予備選択処理の要求とともに出力する。
【0212】マッチング部14が注目ノードおよび時刻
情報とともに出力する単語予備選択処理の要求は、単語
接続関係管理部22で受信される。
【0213】単語接続関係管理部22は、単語予備選択
処理の要求を受信すると、ステップS35において、マ
ッチング部14からの単語予備選択処理の要求が、許可
位置を開始時刻とするものであるかどうかを判定する。
ステップS35において、単語予備選択処理の要求が、
許可位置を開始時刻とするものであると判定された場
合、単語接続関係管理部22は、その単語予備選択処理
の要求を、単語予備選択部13に供給して、ステップS
36に進む。ステップS36では、図5のステップS5
における場合と同様にして、単語予備選択部13が単語
予備選択処理を行い、その結果得られる単語(選択単
語)を、単語接続関係管理部22に供給する。単語接続
関係管理部22は、単語予備選択部13からの選択単語
(これは、許可位置を開始時刻とするもの)を一時記憶
するとともに、単語予備選択結果として、マッチング部
14に供給し、ステップS38に進む。
【0214】一方、ステップS35において、単語予備
選択処理の要求が、許可位置を開始時刻とするものでな
いと判定された場合、即ち、不許可位置を開始時刻とす
るものである場合、ステップS37に進み、単語接続関
係管理部22は、不許可位置の前後の許可位置を開始時
刻とする単語予備選択結果を、単語予備選択部13から
既に得ている単語予備選択結果の中から得て、それを、
不許可位置を開始時刻とする単語予備選択結果として補
完する。そして、単語接続関係管理部22は、その補完
によって得られた不許可位置を開始時刻とする単語予備
選択結果を、マッチング部14に供給し、ステップS3
8に進む。
【0215】その後は、ステップS38乃至S40にお
いて、図5のステップS6乃至S8における場合とそれ
ぞれ同様の処理が行われる。
【0216】なお、上述の場合においては、不許可位置
を開始位置とする単語予備選択結果としての単語を、そ
の不許可位置の前後の許可位置を開始位置とする単語予
備選択結果によって補完するようにしたが、この補完
は、例えば、図15(A)に示すように、不許可位置x
0からある程度の範囲内にある複数の許可位置x1
2,x3,x4,x5,x6を開始位置とする単語予備選
択結果によって行うことが可能である。
【0217】さらに、このように、不許可位置x0を開
始位置とする単語予備選択結果としての単語を、その不
許可位置x0から広い範囲にある複数の許可位置x1乃至
6を開始位置とする単語予備選択結果によって補完す
る場合には、その複数の許可位置x1乃至x6それぞれに
対して、不許可位置からの距離に応じた重みを付し、そ
の重みに基づいて、不許可位置x0を開始位置とする単
語を補完することが可能である。
【0218】この場合、例えば、図15(B)に示すよ
うな、不許可位置x0からの距離が遠くなるほど小さく
なる重みを採用することが可能である。即ち、この場
合、不許可位置x0についての補完には、不許可位置x0
からの距離が近い、例えば、許可位置x3やx4を開始位
置とする単語予備選択結果としての単語が多く用いられ
る。また、不許可位置x0からの距離が遠い、例えば、
許可位置x1やx6を開始位置とする単語予備選択結果と
しての単語については、少ない数を用いて、補完が行わ
れる。なお、このような重みを採用する場合、補完に
は、ある許可位置を開始位置とする単語予備選択結果と
しての単語すべてではなく、そのうちの一部の単語が用
いられることとなるが、この一部の単語は、例えば、単
語予備選択処理において得られる単語スコアに基づいて
選択することが可能である。即ち、補完に用いる一部の
単語は、例えば、単語スコアの高い順に選択するように
することが可能である。
【0219】以上のように、単語予備選択処理を開始す
るタイミングを、許可位置のみに制限し、また、マッチ
ング部14において、不許可位置からの単語予備選択処
理が要求された場合には、単語予備選択結果となる単語
を補完するようにしたので、認識性能を劣化させること
なく、処理量を大幅に低減することができる。
【0220】なお、図12の実施の形態においては(後
述する図16の実施の形態においても同様)、再評価部
15を設けて音声認識装置を構成するようにしたが、音
声認識装置は、再評価部15を設けずに構成することが
可能である。
【0221】次に、図16は、本発明を適用した音声認
識装置の第3実施の形態の構成例を示している。なお、
図中、図12における場合と対応する部分については、
同一の符号を付してあり、以下では、その説明は、適宜
省略する。即ち、図16の音声認識装置は、1つの単語
予備選択部13に替えて、2つの単語予備選択部13A
および13Bが設けられている他は、基本的に、図12
における場合と同様に構成されている。
【0222】但し、図16の実施の形態においては、辞
書データベース18Aに登録されている単語が、音韻数
の長い単語と、短い単語の2つのカテゴリに分類されて
おり、単語予備選択部13Aは、音韻数の長い単語を対
象とした単語予備選択処理を行い、単語予備選択部13
Bは、音韻数の短い単語を対象とした単語予備選択処理
を行うようになっている。
【0223】また、単語接続関係管理部22は、単語予
備選択部13Aが単語予備選択処理を開始するタイミン
グと、単語予備選択部13Bが単語予備選択処理を開始
するタイミングとを、異なる条件で制限するようになっ
ている。
【0224】即ち、単語接続関係管理部22は、単語予
備選択部13Aが単語予備選択処理を開始するタイミン
グの間隔を、比較的長くなるように制限するとともに、
単語予備選択部13Aが単語予備選択処理を開始するタ
イミングの間隔を、比較的短くなるように制限する。
【0225】この場合、単語予備選択処理において、音
韻数の短い単語の検出漏れが生じることを防止して、処
理効率を向上させることができる。
【0226】即ち、単語予備選択処理を開始するタイミ
ングを、その間隔が長くなるように制限した場合、単語
予備選択処理のコストは低減する。しかしながら、例え
ば、助詞等の音韻数が短い単語は、一般に、その発話時
間も短いことから、このような単語については、単語予
備選択処理を開始するタイミングを、その間隔が長くな
るように制限すると、そのタイミングと、単語の発話開
始時刻とのずれが、その単語の発話時間に対して大きく
なりやすくなり、その結果、単語予備選択処理におい
て、検出されにくくなる。一方、音韻数が多く、発話時
間が長い単語は、一般に、その発話時間も長いことか
ら、このような単語については、単語予備選択処理を開
始するタイミングを、その間隔が長くなるように制限し
ても、そのタイミングと、単語の発話開始時刻とのずれ
が、その単語の発話時間に対して、それほど大きくはな
らず、その結果、単語予備選択処理においても、それほ
ど検出されにくくなることはない。
【0227】従って、上述のように、音韻数の短い単語
については、単語予備選択処理を開始するタイミング
を、その間隔が短くなるようにするとともに、音韻数の
長い単語については、単語予備選択処理を開始するタイ
ミングを、その間隔が長くなるようにすることで、音韻
数の短い単語の検出漏れによる認識性能の劣化を防止し
ながら、処理効率を向上させることができる。
【0228】なお、図16の実施の形態においては、辞
書データベース18Aに登録されている単語を2つのカ
テゴリに分け、2つの単語予備選択部13Aおよび13
Bを設けるようにしたが、単語を分類するカテゴリ数、
および単語予備選択部の数は、3以上とすることが可能
である。
【0229】また、図16の実施の形態では、単語を、
その音韻数によって分類するようにしたが、その他、例
えば、単語が発話されるときの平均時間を求め、その平
均時間によって、単語を分類することも可能である。さ
らに、単語を、その重要度に基づいて分類し、重要度の
高いものほど、単語予備選択処理を開始するタイミング
の間隔が短くなるにすることも可能である。ここで、単
語の重要度は、例えば、各単語の使用頻度や発話履歴等
の情報を収集し、その情報に基づいて設定することが可
能である。
【0230】次に、図17は、本発明を適用した音声認
識装置の第4実施の形態の構成例を示している。なお、
図中、図3、図7、または図12における場合と対応す
る部分については、同一の符号を付してあり、以下で
は、その説明は、適宜省略する。即ち、図17の音声認
識装置は、図7の単語接続関係管理部21と図12の単
語接続関係管理部22が新たに設けられている他は、基
本的に、図3における場合と同様に構成されている。
【0231】従って、図17の実施の形態では、単語接
続関係管理部21において、単語接続情報として記憶さ
れる終端ノードの位置が制限されるとともに、単語接続
関係管理部22において、単語予備選択処理の開始タイ
ミングが制限される。
【0232】即ち、図8(A)と同様の図18(A)に
示すように、特徴抽出部3において特徴量が得られるタ
イミングの間隔が、時間TSである場合において、単語
接続関係管理部21は、終端ノードの位置を、例えば、
図18(B)に示すように、時間2TSごとのタイミン
グに制限する。さらに、単語接続関係管理部22は、単
語予備選択処理の開始タイミングを、例えば、図18
(C)に示すように、時間4TSごとのタイミングに制
限する。
【0233】この場合、単語接続関係管理部21におい
て、終端ノードの位置が、時間2T Sごとのタイミング
に制限されることから、マッチング部14においては、
時間2TSごとのタイミングで、単語予備選択処理が要
求されうる。しかしながら、単語予備選択処理の開始タ
イミングは、単語接続関係管理部22において、時間4
Sごとのタイミングに制限される。
【0234】従って、この場合も、終端ノードの位置が
とり得る位置の中に、予備選択処理の開始タイミングと
してとり得ない位置(不許可位置)が存在する。そこ
で、単語接続関係管理部22は、不許可位置を開始時刻
とする単語予備選択処理の要求については、図18
(D)に示すように、許可位置(ここでは、時間4TS
ごとのタイミング)を開始時刻とする単語予備選択処理
の処理結果によって補完を行うようになっている。
【0235】次に、図19のフローチャートを参照し
て、図17の音声認識装置による音声認識処理について
説明する。
【0236】図17の音声認識装置では、ステップS5
1乃至S54において、図5のステップS1乃至S4に
おける場合とそれぞれ同様の処理が行われる。
【0237】そして、ステップS54において、図5の
ステップS4で説明したように、再評価部15が、単語
接続情報記憶部16の単語接続情報を修正し、マッチン
グ部14が、その修正が終了した旨を、制御部11を介
して受信すると、マッチング部14は、上述したよう
に、注目ノード、およびそれが有する時刻情報を、単語
予備選択処理の要求とともに出力する。
【0238】マッチング部14が注目ノードおよび時刻
情報とともに出力する単語予備選択処理の要求は、単語
接続関係管理部22で受信される。
【0239】単語接続関係管理部22は、単語予備選択
処理の要求を受信すると、ステップS55において、マ
ッチング部14からの単語予備選択処理の要求が、許可
位置を開始時刻とするものであるかどうかを判定する。
ステップS55において、単語予備選択処理の要求が、
許可位置を開始時刻とするものであると判定された場
合、単語接続関係管理部22は、その単語予備選択処理
の要求を、単語予備選択部13に供給して、ステップS
56に進む。ステップS56では、図5のステップS5
における場合と同様にして、単語予備選択部13が単語
予備選択処理を行い、その結果得られる単語(選択単
語)を、単語接続関係管理部22に供給する。単語接続
関係管理部22は、単語予備選択部13からの選択単語
(これは、許可位置を開始時刻とするもの)を一時記憶
するとともに、単語予備選択結果として、マッチング部
14に供給し、ステップS58に進む。
【0240】一方、ステップS55において、単語予備
選択処理の要求が、許可位置を開始時刻とするものでな
いと判定された場合、即ち、不許可位置を開始時刻とす
るものである場合、ステップS57に進み、単語接続関
係管理部22は、不許可位置の前後の許可位置を開始時
刻とする単語予備選択結果を、単語予備選択部13から
既に得ている単語予備選択結果の中から得て、それを、
不許可位置を開始時刻とする単語予備選択結果として補
完する。そして、単語接続関係管理部22は、その補完
によって得られた不許可位置を開始時刻とする単語予備
選択結果を、マッチング部14に供給し、ステップS5
8に進む。
【0241】ステップS58では、図5のステップS6
で説明したように、マッチング部14が、単語予備選択
部13からの単語予備選択結果としての選択単語すべて
について、それぞれの音響スコアおよび言語スコアを求
め、ステップS59に進み、マッチング部14は、式
(2)にしたがい、各単語の音響スコアと言語スコア
を、他の時刻を終了時刻とする同一単語の音響スコアと
言語スコアによって、それぞれ補正する。さらに、マッ
チング部14は、補正後の音響スコアと言語スコアか
ら、補正後の単語スコア(補正スコア)を計算する。そ
して、マッチング部14は、ステップS60に進み、そ
の補正スコアによって、単語の絞り込みを行い、これに
より、単語の境界位置の候補を、特に位置を制限するこ
となく決定(仮決定)する。
【0242】その後、マッチング部14は、ステップS
60における絞り込みの結果残った単語を、その音響ス
コア、言語スコア、およびその単語の終了時刻ととも
に、制御部11に供給する。
【0243】制御部11は、上述のようにしてマッチン
グ部14から供給される単語の音響スコア、言語スコ
ア、および終了時刻を受信すると、そのうちの各単語に
ついての終了時刻を、単語接続関係管理部21に供給す
る。
【0244】単語接続関係管理部21は、ステップS6
1において、単語の境界候補となっている終了時刻を、
新ノード記憶タイミングで間引き、即ち、新ノード記憶
タイミングの位置にない終了時刻を削除し、残った終了
時刻を、単語の境界候補となる時刻として、最終的に決
定する。単語接続関係管理部21は、このようにして最
終的に残った終了時刻を、制御部11に返し、制御部1
1は、ステップS62において、図5のステップS7で
説明した場合と同様に、単語接続関係管理部21から終
了時刻が返された単語に関して、単語接続情報記憶部1
6に記憶された単語接続情報を、単語接続関係管理部2
1を介して更新する。
【0245】その後は、ステップS52に戻り、以下、
同様の処理が繰り返される。
【0246】そして、ステップS52において、途中ノ
ードが存在しないと判定されると、ステップS63に進
み、図5のステップS8における場合と同様に、制御部
11は、単語接続情報を参照することで、ユーザの発話
に対する音声認識結果を確定して出力し、処理を終了す
る。
【0247】以上のように、単語接続関係管理部21と
22の両方によってタイミングを制限する場合には、認
識性能を維持しながら、処理効率を、より向上させるこ
とができる。
【0248】即ち、本件発明者が行ったシミュレーショ
ンによれば、単語接続関係管理部21において、単語接
続情報として記憶される終端ノードの位置を、時間4T
Sごとの時刻に制限するとともに、単語接続関係管理部
22において、単語予備選択処理の開始タイミングを、
時間8TSごとの時刻に制限した場合において、そのよ
うな制限を行わない場合の認識率をほぼ維持しながら、
演算量を約15%低減することができた。
【0249】ここで、図18の実施の形態においては、
単語接続関係管理部22による制限のタイミングを、単
語接続関係管理部21による制限のタイミングの2倍の
時間間隔に同期させるようにしたが、単語接続関係管理
部21と22によるタイミングの制限は、独立に行うこ
とが可能である。また、単語接続関係管理部21によっ
て制限するタイミングの間隔は、固定である必要はな
く、可変にすることが可能である。単語接続関係管理部
22によって制限するタイミングの間隔についても同様
である。
【0250】なお、上述した各実施の形態における音声
認識装置は、例えば、音声によってデータベースの検索
を行う場合や、各種の機器の操作を行う場合、各機器へ
のデータ入力を行う場合、音声対話システム等に適用可
能である。より具体的には、例えば、音声による地名の
問合せに対して、対応する地図情報を表示するデータベ
ース検索装置や、音声による命令に対して、荷物の仕分
けを行う産業用ロボット、キーボードの代わりに音声入
力によりテキスト作成を行うディクテーションシステ
ム、ユーザとの会話を行うロボットにおける対話システ
ム等に適用可能である。
【0251】次に、上述した一連の処理は、ハードウェ
アにより行うこともできるし、ソフトウェアにより行う
こともできる。一連の処理をソフトウェアによって行う
場合には、そのソフトウェアを構成するプログラムが、
汎用のコンピュータ等にインストールされる。
【0252】そこで、図20は、上述した一連の処理を
実行するプログラムがインストールされるコンピュータ
の一実施の形態の構成例を示している。
【0253】プログラムは、コンピュータに内蔵されて
いる記録媒体としてのハードディスク105やROM1
03に予め記録しておくことができる。
【0254】あるいはまた、プログラムは、フロッピー
(登録商標)ディスク、CD-ROM(Compact Disc Read Onl
y Memory),MO(Magneto optical)ディスク,DVD(Digita
l Versatile Disc)、磁気ディスク、半導体メモリなど
のリムーバブル記録媒体111に、一時的あるいは永続
的に格納(記録)しておくことができる。このようなリ
ムーバブル記録媒体111は、いわゆるパッケージソフ
トウエアとして提供することができる。
【0255】なお、プログラムは、上述したようなリム
ーバブル記録媒体111からコンピュータにインストー
ルする他、ダウンロードサイトから、ディジタル衛星放
送用の人工衛星を介して、コンピュータに無線で転送し
たり、LAN(Local Area Network)、インターネットとい
ったネットワークを介して、コンピュータに有線で転送
し、コンピュータでは、そのようにして転送されてくる
プログラムを、通信部108で受信し、内蔵するハード
ディスク105にインストールすることができる。
【0256】コンピュータは、CPU(Central Processing
Unit)102を内蔵している。CPU102には、バス1
01を介して、入出力インタフェース110が接続され
ており、CPU102は、入出力インタフェース110を
介して、ユーザによって、キーボードや、マウス、マイ
ク等で構成される入力部107が操作等されることによ
り指令が入力されると、それにしたがって、ROM(Read O
nly Memory)103に格納されているプログラムを実行
する。あるいは、また、CPU102は、ハードディスク
105に格納されているプログラム、衛星若しくはネッ
トワークから転送され、通信部108で受信されてハー
ドディスク105にインストールされたプログラム、ま
たはドライブ109に装着されたリムーバブル記録媒体
111から読み出されてハードディスク105にインス
トールされたプログラムを、RAM(Random Access Memor
y)104にロードして実行する。これにより、CPU10
2は、上述したフローチャートにしたがった処理、ある
いは上述したブロック図の構成により行われる処理を行
う。そして、CPU102は、その処理結果を、必要に応
じて、例えば、入出力インタフェース110を介して、
LCD(Liquid CryStal Display)やスピーカ等で構成され
る出力部106から出力、あるいは、通信部108から
送信、さらには、ハードディスク105に記録等させ
る。
【0257】ここで、本明細書において、コンピュータ
に各種の処理を行わせるためのプログラムを記述する処
理ステップは、必ずしもフローチャートとして記載され
た順序に沿って時系列に処理する必要はなく、並列的あ
るいは個別に実行される処理(例えば、並列処理あるい
はオブジェクトによる処理)も含むものである。
【0258】また、プログラムは、1のコンピュータに
より処理されるものであっても良いし、複数のコンピュ
ータによって分散処理されるものであっても良い。さら
に、プログラムは、遠方のコンピュータに転送されて実
行されるものであっても良い。
【0259】
【発明の効果】本発明の第1の音声認識装置および音声
認識方法、並びに記録媒体によれば、音声認識の対象と
なっている単語について、スコアが計算され、そのスコ
アに基づいて、音声認識結果の候補となる単語列が構成
される。さらに、音声認識結果の候補となる単語列の単
語どうしの接続関係が修正され、その修正後の接続関係
に基づいて、音声認識結果となる単語列が確定される。
この場合において、音声認識結果の候補となる単語列の
単語どうしの接続関係によって表される単語の境界位置
が制限される。従って、処理効率を向上させることが可
能となる。
【0260】本発明の第2の音声認識装置および音声認
識方法、並びに記録媒体によれば、音声認識の対象とな
っている単語群から、音声認識結果の候補となる単語列
の、既に求まっている単語に続く1以上の単語が選択さ
れ、その選択された単語について、スコアが計算され
る。さらに、そのスコアに基づいて、音声認識結果の候
補となる単語列が構成され、その中から、音声認識結果
となる単語列が確定される。この場合において、音声認
識の対象となっている単語群から選択される単語の開始
位置が制限される。従って、処理効率を向上させること
が可能となる。
【図面の簡単な説明】
【図1】従来の音声認識装置の一例の構成を示すブロッ
ク図である。
【図2】単語どうしの境界の候補を保持する必要性を説
明する図である。
【図3】本発明が適用される音声認識装置の構成例を示
すブロック図である。
【図4】単語接続情報を説明するための図である。
【図5】図3の音声認識装置の処理を説明するためのフ
ローチャートである。
【図6】再評価部15の処理を説明するための図であ
る。
【図7】本発明を適用した音声認識装置の第1実施の形
態の構成例を示すブロック図である。
【図8】単語接続関係管理部21の処理を説明するため
の図である。
【図9】シミュレーション結果を示す図である。
【図10】単語スコアを補正することによる効果を説明
するための図である。
【図11】図7の音声認識装置による音声認識処理を説
明するフローチャートである。
【図12】本発明を適用した音声認識装置の第2実施の
形態の構成例を示すブロック図である。
【図13】単語接続関係管理部22の処理を説明するた
めの図である。
【図14】図12の音声認識装置による音声認識処理を
説明するフローチャートである。
【図15】単語予備選択結果としての単語の補完方法を
説明するための図である。
【図16】本発明を適用した音声認識装置の第3実施の
形態の構成例を示すブロック図である。
【図17】本発明を適用した音声認識装置の第4実施の
形態の構成例を示すブロック図である。
【図18】単語接続関係管理部21と22の処理を説明
するための図である。
【図19】図17の音声認識装置による音声認識処理を
説明するフローチャートである。
【図20】本発明を適用したコンピュータの一実施の形
態の構成例を示すブロック図である。
【符号の説明】
1 マイク, 2 AD変換部, 3 特徴抽出部,
11 制御部, 12特徴量記憶部, 13 単語予備
選択部, 14 マッチング部, 15 再評価部,
16 単語接続情報記憶部, 17A乃至17C 音響
モデルデータベース, 18A乃至18C 辞書データ
ベース, 19A乃至19C 文法データベース, 2
1,22 単語接続関係管理部, 101 バス, 1
02CPU, 103 ROM, 104 RAM, 105
ハードディスク, 106出力部, 107 入力部,
108 通信部, 109 ドライブ, 110入出
力インタフェース, 111 リムーバブル記録媒体
───────────────────────────────────────────────────── フロントページの続き (72)発明者 小川 浩明 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 (72)発明者 ヘルムート ルッケ 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 Fターム(参考) 5D015 BB01 HH04 HH12 HH23

Claims (23)

    【特許請求の範囲】
  1. 【請求項1】 入力された音声に対して、その音声認識
    結果の尤度を表すスコアを計算し、そのスコアに基づい
    て、前記音声を認識する音声認識装置であって、 音声認識の対象となっている単語について、前記スコア
    を計算し、そのスコアに基づいて、前記音声認識結果の
    候補となる単語列を構成する構成手段と、 前記音声認識結果の候補となる単語列の単語どうしの接
    続関係を記憶する記憶手段と、 前記記憶手段に記憶された前記接続関係を修正する修正
    手段と、 修正後の前記接続関係に基づいて、前記音声認識結果と
    なる単語列を確定する確定手段と、 前記記憶手段に記憶される前記接続関係によって表され
    る単語の境界位置を制限する単語境界制限手段とを備え
    ることを特徴とする音声認識装置。
  2. 【請求項2】 前記構成手段は、入力された音声の特徴
    量を抽出する抽出手段から供給される前記特徴量に基づ
    いて、前記スコアを計算し、 前記単語境界制限手段は、前記特徴量が供給されるタイ
    ミングを間引いたタイミングに、前記単語の境界位置を
    制限することを特徴とする請求項1に記載の音声認識装
    置。
  3. 【請求項3】 前記構成手段が計算した前記単語のスコ
    アを補正するスコア補正手段と、 その補正後のスコアに基づいて、前記音声認識結果の候
    補となる単語列の単語の境界位置の候補を仮決定する仮
    決定手段とをさらに備え、 前記単語境界制限手段は、前記仮決定手段において得ら
    れた前記単語の境界位置の候補を対象として、前記単語
    の境界位置を制限することを特徴とする請求項1に記載
    の音声認識装置。
  4. 【請求項4】 前記スコア補正手段は、所定の境界位置
    を境界とする単語のスコアを、その境界位置に近い他の
    境界位置を境界とする単語のスコアに補正することを特
    徴とする請求項3に記載の音声認識装置。
  5. 【請求項5】 音声認識の対象となっている単語群か
    ら、前記音声認識結果の候補となる単語列の、既に求ま
    っている単語に続く1以上の単語を選択する選択手段を
    さらに備え、 前記構成手段は、前記選択手段において選択された単語
    を対象に、前記スコアを計算することを特徴とする請求
    項1に記載の音声認識装置。
  6. 【請求項6】 前記選択手段において選択される単語の
    開始位置を制限する開始位置制限手段をさらに備えるこ
    とを特徴とする請求項5に記載の音声認識装置。
  7. 【請求項7】 前記構成手段は、入力された音声の特徴
    量を抽出する抽出手段から供給される前記特徴量に基づ
    いて、前記スコアを計算し、前記開始位置制限手段は、
    前記特徴量が供給されるタイミングを間引いたタイミン
    グに、前記単語の開始位置を制限することを特徴とする
    請求項6に記載の音声認識装置。
  8. 【請求項8】 前記開始位置制限手段は、前記単語境界
    制御手段によって制限された単語の境界位置としてとり
    得る位置を間引いた位置に、単語の開始位置を制限する
    ことを特徴とする請求項6に記載の音声認識装置。
  9. 【請求項9】 前記開始位置制限手段によって前記単語
    の開始位置とすることが許可されていない不許可位置を
    開始位置とする単語であって、前記構成手段において前
    記スコアの計算の対象とするものを補完する補完手段を
    さらに備えることを特徴とする請求項6に記載の音声認
    識装置。
  10. 【請求項10】 前記補完手段は、前記開始位置制限手
    段によって前記単語の開始位置とすることが許可されて
    いる許可位置であって、前記不許可位置に近い位置を開
    始位置とする単語によって、その不許可位置を開始位置
    とする単語を補完することを特徴とする請求項9に記載
    の音声認識装置。
  11. 【請求項11】 前記補完手段は、前記許可位置に対し
    て、前記不許可位置からの距離に応じた重みを付し、そ
    の重みに基づいて、前記不許可位置を開始位置とする単
    語を補完することを特徴とする請求項10に記載の音声
    認識装置。
  12. 【請求項12】 音声認識の対象となっている単語群
    は、2以上のカテゴリに分類されており、 前記選択手段は、各カテゴリごとの単語群から、単語を
    選択し、 前記開始位置制限手段は、前記選択手段において選択さ
    れる単語の開始位置を、前記カテゴリごとに異なる条件
    にしたがって制限することを特徴とする請求項6に記載
    の音声認識装置。
  13. 【請求項13】 入力された音声に対して、その音声認
    識結果の尤度を表すスコアを計算し、そのスコアに基づ
    いて、前記音声を認識する音声認識方法であって、 音声認識の対象となっている単語について、前記スコア
    を計算し、そのスコアに基づいて、前記音声認識結果の
    候補となる単語列を構成する構成ステップと、 前記音声認識結果の候補となる単語列の単語どうしの接
    続関係を記憶する記憶ステップと、 前記記憶ステップにおいて記憶された前記接続関係を修
    正する修正ステップと、 修正後の前記接続関係に基づいて、前記音声認識結果と
    なる単語列を確定する確定ステップと、 前記記憶ステップにおいて記憶される前記接続関係によ
    って表される単語の境界位置を制限する単語境界制限ス
    テップとを備えることを特徴とする音声認識方法。
  14. 【請求項14】 入力された音声に対して、その音声認
    識結果の尤度を表すスコアを計算し、そのスコアに基づ
    いて、前記音声を認識する音声認識処理を、コンピュー
    タに行わせるプログラムが記録されている記録媒体であ
    って、 音声認識の対象となっている単語について、前記スコア
    を計算し、そのスコアに基づいて、前記音声認識結果の
    候補となる単語列を構成する構成ステップと、 前記音声認識結果の候補となる単語列の単語どうしの接
    続関係を記憶する記憶ステップと、 前記記憶ステップにおいて記憶された前記接続関係を修
    正する修正ステップと、 修正後の前記接続関係に基づいて、前記音声認識結果と
    なる単語列を確定する確定ステップと、 前記記憶ステップにおいて記憶される前記接続関係によ
    って表される単語の境界位置を制限する単語境界制限ス
    テップとを備えるプログラムが記録されていることを特
    徴とする記録媒体。
  15. 【請求項15】 入力された音声に対して、その音声認
    識結果の尤度を表すスコアを計算し、そのスコアに基づ
    いて、前記音声を認識する音声認識装置であって、 音声認識の対象となっている単語群から、前記音声認識
    結果の候補となる単語列の、既に求まっている単語に続
    く1以上の単語を選択する選択手段と、 前記選択手段において選択された単語について、前記ス
    コアを計算し、そのスコアに基づいて、前記音声認識結
    果の候補となる単語列を構成する構成手段と、 前記音声認識結果の候補となる単語列の中から、前記音
    声認識結果となる単語列を確定する確定手段と、 前記選択手段において選択される単語の開始位置を制限
    する開始位置制限手段とを備えることを特徴とする音声
    認識装置。
  16. 【請求項16】 前記構成手段は、入力された音声の特
    徴量を抽出する抽出手段から供給される前記特徴量に基
    づいて、前記スコアを計算し、 前記開始位置制限手段は、前記特徴量が供給されるタイ
    ミングを間引いたタイミングに、前記単語の開始位置を
    制限することを特徴とする請求項15に記載の音声認識
    装置。
  17. 【請求項17】 前記開始位置制限手段によって前記単
    語の開始位置とすることが許可されていない不許可位置
    を開始位置とする単語であって、前記構成手段において
    前記スコアの計算の対象とするものを補完する補完手段
    をさらに備えることを特徴とする請求項15に記載の音
    声認識装置。
  18. 【請求項18】 前記補完手段は、前記開始位置制限手
    段によって前記単語の開始位置とすることが許可されて
    いる許可位置であって、前記不許可位置に近い位置を開
    始位置とする単語によって、その不許可位置を開始位置
    とする単語を補完することを特徴とする請求項17に記
    載の音声認識装置。
  19. 【請求項19】 前記補完手段は、前記許可位置に対し
    て、前記不許可位置からの距離に応じた重みを付し、そ
    の重みに基づいて、前記不許可位置を開始位置とする単
    語を補完することを特徴とする請求項18に記載の音声
    認識装置。
  20. 【請求項20】 音声認識の対象となっている単語群
    は、2以上のカテゴリに分類されており、 前記選択手段は、各カテゴリごとの単語群から、単語を
    選択し、 前記開始位置制限手段は、前記選択手段において選択さ
    れる単語の開始位置を、前記カテゴリごとに異なる条件
    にしたがって制限することを特徴とする請求項15に記
    載の音声認識装置。
  21. 【請求項21】 前記音声認識結果の候補となる単語列
    の単語どうしの接続関係を記憶する記憶手段と、 前記接続関係を修正する修正手段とをさらに備え、 前記確定手段は、修正後の前記接続関係に基づいて、前
    記音声認識結果となる単語列を確定することを特徴とす
    る請求項15に記載の音声認識装置。
  22. 【請求項22】 入力された音声に対して、その音声認
    識結果の尤度を表すスコアを計算し、そのスコアに基づ
    いて、前記音声を認識する音声認識方法であって、 音声認識の対象となっている単語群から、前記音声認識
    結果の候補となる単語列の、既に求まっている単語に続
    く1以上の単語を選択する選択ステップと、 前記選択ステップにおいて選択された単語について、前
    記スコアを計算し、そのスコアに基づいて、前記音声認
    識結果の候補となる単語列を構成する構成ステップと、 前記音声認識結果の候補となる単語列の中から、前記音
    声認識結果となる単語列を確定する確定ステップと、 前記選択ステップにおいて選択される単語の開始位置を
    制限する開始位置制限ステップとを備えることを特徴と
    する音声認識方法。
  23. 【請求項23】 入力された音声に対して、その音声認
    識結果の尤度を表すスコアを計算し、そのスコアに基づ
    いて、前記音声を認識する音声認識処理を、コンピュー
    タに行わせるプログラムが記録されている記録媒体であ
    って、 音声認識の対象となっている単語群から、前記音声認識
    結果の候補となる単語列の、既に求まっている単語に続
    く1以上の単語を選択する選択ステップと、 前記選択ステップにおいて選択された単語について、前
    記スコアを計算し、そのスコアに基づいて、前記音声認
    識結果の候補となる単語列を構成する構成ステップと、 前記音声認識結果の候補となる単語列の中から、前記音
    声認識結果となる単語列を確定する確定ステップと、 前記選択ステップにおいて選択される単語の開始位置を
    制限する開始位置制限ステップとを備えるプログラムが
    記録されていることを特徴とする記録媒体。
JP2000338458A 2000-11-07 2000-11-07 音声認識装置および音声認識方法、並びに記録媒体 Withdrawn JP2002149187A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2000338458A JP2002149187A (ja) 2000-11-07 2000-11-07 音声認識装置および音声認識方法、並びに記録媒体
US10/416,092 US7240002B2 (en) 2000-11-07 2001-11-07 Speech recognition apparatus
PCT/JP2001/009711 WO2002039426A1 (fr) 2000-11-07 2001-11-07 Dispositif de reconnaissance vocale

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000338458A JP2002149187A (ja) 2000-11-07 2000-11-07 音声認識装置および音声認識方法、並びに記録媒体

Publications (1)

Publication Number Publication Date
JP2002149187A true JP2002149187A (ja) 2002-05-24

Family

ID=18813665

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000338458A Withdrawn JP2002149187A (ja) 2000-11-07 2000-11-07 音声認識装置および音声認識方法、並びに記録媒体

Country Status (3)

Country Link
US (1) US7240002B2 (ja)
JP (1) JP2002149187A (ja)
WO (1) WO2002039426A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006031278A (ja) * 2004-07-14 2006-02-02 Nec Corp 音声検索システムおよび方法ならびにプログラム

Families Citing this family (146)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
JP2002149187A (ja) * 2000-11-07 2002-05-24 Sony Corp 音声認識装置および音声認識方法、並びに記録媒体
US7389228B2 (en) 2002-12-16 2008-06-17 International Business Machines Corporation Speaker adaptation of vocabulary for speech recognition
US7324940B1 (en) * 2003-02-28 2008-01-29 Lumen Vox, Llc Speech recognition concept confidence measurement
US8392193B2 (en) * 2004-06-01 2013-03-05 Verizon Business Global Llc Systems and methods for performing speech recognition using constraint based processing
US7873149B2 (en) * 2004-06-01 2011-01-18 Verizon Business Global Llc Systems and methods for gathering information
JP4541781B2 (ja) * 2004-06-29 2010-09-08 キヤノン株式会社 音声認識装置および方法
US8924212B1 (en) 2005-08-26 2014-12-30 At&T Intellectual Property Ii, L.P. System and method for robust access and entry to large structured data using voice form-filling
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
KR100654183B1 (ko) * 2005-11-07 2006-12-08 한국전자통신연구원 음성 인식을 이용한 문자 입력 시스템 및 그 방법
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US7856503B2 (en) * 2006-10-19 2010-12-21 International Business Machines Corporation Method and apparatus for dynamic content generation
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
DE112008001334B4 (de) * 2007-07-02 2016-12-15 Mitsubishi Electric Corp. Spracherkennungsvorrichtung
KR100925479B1 (ko) * 2007-09-19 2009-11-06 한국전자통신연구원 음성 인식 방법 및 장치
US8103503B2 (en) * 2007-11-01 2012-01-24 Microsoft Corporation Speech recognition for determining if a user has correctly read a target sentence string
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
KR101587866B1 (ko) * 2009-06-03 2016-01-25 삼성전자주식회사 음성 인식용 발음사전 확장 장치 및 방법
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US20110224982A1 (en) * 2010-03-12 2011-09-15 c/o Microsoft Corporation Automatic speech recognition based upon information retrieval methods
DE102010012622B4 (de) * 2010-03-24 2015-04-30 Siemens Medical Instruments Pte. Ltd. Binaurales Verfahren und binaurale Anordnung zur Sprachsteuerung von Hörgeräten
EP2522012A1 (en) * 2010-05-27 2012-11-14 Nuance Communications, Inc. Efficient exploitation of model complementariness by low confidence re-scoring in automatic speech recognition
US9262397B2 (en) 2010-10-08 2016-02-16 Microsoft Technology Licensing, Llc General purpose correction of grammatical and word usage errors
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8855997B2 (en) * 2011-07-28 2014-10-07 Microsoft Corporation Linguistic error detection
KR20130014893A (ko) * 2011-08-01 2013-02-12 한국전자통신연구원 음성 인식 장치 및 방법
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US20130073286A1 (en) * 2011-09-20 2013-03-21 Apple Inc. Consolidating Speech Recognition Results
US9691381B2 (en) * 2012-02-21 2017-06-27 Mediatek Inc. Voice command recognition method and related electronic device and computer-readable medium
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
SG11201502379UA (en) * 2012-09-27 2015-05-28 Nec Corp Dictionary creation device for monitoring text information, dictionary creation method for monitoring text information, and dictionary creation program for monitoring text information
US20150234937A1 (en) * 2012-09-27 2015-08-20 Nec Corporation Information retrieval system, information retrieval method and computer-readable medium
EP3809407A1 (en) 2013-02-07 2021-04-21 Apple Inc. Voice trigger for a digital assistant
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
JP2016521948A (ja) 2013-06-13 2016-07-25 アップル インコーポレイテッド 音声コマンドによって開始される緊急電話のためのシステム及び方法
CN103399906B (zh) * 2013-07-29 2015-07-29 百度在线网络技术(北京)有限公司 在进行输入时基于社会关系提供候选词的方法和装置
JP6235280B2 (ja) * 2013-09-19 2017-11-22 株式会社東芝 音声同時処理装置、方法およびプログラム
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
JP6526608B2 (ja) * 2016-09-06 2019-06-05 株式会社東芝 辞書更新装置およびプログラム
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US20180240466A1 (en) * 2017-02-17 2018-08-23 Intel Corporation Speech Decoder and Language Interpreter With Asynchronous Pre-Processing
JP2018159759A (ja) * 2017-03-22 2018-10-11 株式会社東芝 音声処理装置、音声処理方法およびプログラム
JP6646001B2 (ja) 2017-03-22 2020-02-14 株式会社東芝 音声処理装置、音声処理方法およびプログラム
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN112242144A (zh) * 2019-07-17 2021-01-19 百度在线网络技术(北京)有限公司 基于流式注意力模型的语音识别解码方法、装置、设备以及计算机可读存储介质
CN112131866A (zh) * 2020-09-25 2020-12-25 马上消费金融股份有限公司 一种分词方法、装置、设备及可读存储介质

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4481593A (en) * 1981-10-05 1984-11-06 Exxon Corporation Continuous speech recognition
US4489435A (en) * 1981-10-05 1984-12-18 Exxon Corporation Method and apparatus for continuous word string recognition
US4713778A (en) * 1984-03-27 1987-12-15 Exxon Research And Engineering Company Speech recognition method
US4718092A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition activation and deactivation method
US4713777A (en) * 1984-05-27 1987-12-15 Exxon Research And Engineering Company Speech recognition method having noise immunity
US4980918A (en) * 1985-05-09 1990-12-25 International Business Machines Corporation Speech recognition system with efficient storage and rapid assembly of phonological graphs
JPH0760318B2 (ja) * 1986-09-29 1995-06-28 株式会社東芝 連続音声認識方式
US5794194A (en) 1989-11-28 1998-08-11 Kabushiki Kaisha Toshiba Word spotting in a variable noise level environment
JP3004023B2 (ja) * 1989-11-28 2000-01-31 株式会社東芝 音声認識装置
JP2880436B2 (ja) * 1995-10-24 1999-04-12 株式会社エイ・ティ・アール音声翻訳通信研究所 音声認識装置
JP3058125B2 (ja) 1997-06-27 2000-07-04 日本電気株式会社 音声認識装置
US7490092B2 (en) * 2000-07-06 2009-02-10 Streamsage, Inc. Method and system for indexing and searching timed media information based upon relevance intervals
JP2002149187A (ja) * 2000-11-07 2002-05-24 Sony Corp 音声認識装置および音声認識方法、並びに記録媒体
US7706616B2 (en) * 2004-02-27 2010-04-27 International Business Machines Corporation System and method for recognizing word patterns in a very large vocabulary based on a virtual keyboard layout

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006031278A (ja) * 2004-07-14 2006-02-02 Nec Corp 音声検索システムおよび方法ならびにプログラム
JP4595415B2 (ja) * 2004-07-14 2010-12-08 日本電気株式会社 音声検索システムおよび方法ならびにプログラム

Also Published As

Publication number Publication date
US20050075877A1 (en) 2005-04-07
US7240002B2 (en) 2007-07-03
WO2002039426A1 (fr) 2002-05-16

Similar Documents

Publication Publication Date Title
JP2002149187A (ja) 音声認識装置および音声認識方法、並びに記録媒体
JP4465564B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
JP4802434B2 (ja) 音声認識装置及び音声認識方法、並びにプログラムを記録した記録媒体
JP4543294B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
US6961701B2 (en) Voice recognition apparatus and method, and recording medium
US10176802B1 (en) Lattice encoding using recurrent neural networks
US7725319B2 (en) Phoneme lattice construction and its application to speech recognition and keyword spotting
JP4301102B2 (ja) 音声処理装置および音声処理方法、プログラム、並びに記録媒体
EP1936606B1 (en) Multi-stage speech recognition
JP7200405B2 (ja) 音声認識のためのコンテキストバイアス
US20060200347A1 (en) User adaptive speech recognition method and apparatus
US20110218805A1 (en) Spoken term detection apparatus, method, program, and storage medium
WO2002101719A1 (en) Voice recognition apparatus and voice recognition method
KR101424496B1 (ko) 음향 모델 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
JP4600706B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
JP4475628B2 (ja) 会話制御装置、会話制御方法並びにこれらのプログラム
JP4600705B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
JP4696400B2 (ja) 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
JP3550350B2 (ja) 音声認識方法及びプログラム記録媒体
JPH10198392A (ja) 音声認識方法
JP2002149188A (ja) 自然言語処理装置および自然言語処理方法、並びに記録媒体
EP1594120B1 (en) Method for building hidden Markov speech models
JP2005134442A (ja) 音声認識装置および方法、記録媒体、並びにプログラム
JPH0962290A (ja) 音声認識装置
JP2005326497A (ja) 音声認識方法、音声認識装置、音声認識プログラム、記録媒体

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20080108