JP2880436B2 - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JP2880436B2 JP2880436B2 JP7275866A JP27586695A JP2880436B2 JP 2880436 B2 JP2880436 B2 JP 2880436B2 JP 7275866 A JP7275866 A JP 7275866A JP 27586695 A JP27586695 A JP 27586695A JP 2880436 B2 JP2880436 B2 JP 2880436B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- section
- speech recognition
- phrase
- state stack
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Description
【0001】
【発明の属する技術分野】本発明は音声認識装置に関
し、特に、発声音声中におけるポーズ(無音区間)又は
冗長語などの無音区間等を検出して連続的に音声認識を
実行する音声認識装置に関する。なお、本明細書では、
ポーズと冗長語並びに韻律的な情報等を手がかりとする
区切りとを含むものを無音区間等という。
し、特に、発声音声中におけるポーズ(無音区間)又は
冗長語などの無音区間等を検出して連続的に音声認識を
実行する音声認識装置に関する。なお、本明細書では、
ポーズと冗長語並びに韻律的な情報等を手がかりとする
区切りとを含むものを無音区間等という。
【0002】
【従来の技術】近年、連続音声認識の研究が盛んに行わ
れ、いくつかの研究機関で文音声認識システムが構築さ
れている。これらのシステムの多くは丁寧に発声された
音声を入力対象にしている。しかしながら、人間同士の
コミュニケーションでは、「あのー」、「えーと」など
に代表される冗長語や、一時的に発声音声が無い無音区
間等の状態のポーズである言い淀みや言い誤り及び言い
直しなどが頻繁に出現する。
れ、いくつかの研究機関で文音声認識システムが構築さ
れている。これらのシステムの多くは丁寧に発声された
音声を入力対象にしている。しかしながら、人間同士の
コミュニケーションでは、「あのー」、「えーと」など
に代表される冗長語や、一時的に発声音声が無い無音区
間等の状態のポーズである言い淀みや言い誤り及び言い
直しなどが頻繁に出現する。
【0003】図9は、図2に示す例文「きれいな黒い髪
の女の子を見た」を従来例の連続音声認識装置で音声認
識処理を実行するときの音声認識動作をスタック形式で
示す図である。従来例の連続音声認識装置の音声認識動
作について図9を参照して説明する。まず、図9の状態
スタック201に示すように、「きれいな」という発声
音声の系列が認識されて文字として積まれる。次に、状
態スタック201における「きれいな」という文字は音
声認識用辞書に載っているので、状態スタック202に
示すように形容詞句を表す「adj」という文字に変換
される。次に、「黒い」という発声音声の系列が認識さ
れて状態スタック203に示すように文字として積ま
れ、状態スタック203における「黒い」は音声認識辞
書に載っているので状態スタック204に示すように形
容詞句を表す「adj」という文字に変換される。
の女の子を見た」を従来例の連続音声認識装置で音声認
識処理を実行するときの音声認識動作をスタック形式で
示す図である。従来例の連続音声認識装置の音声認識動
作について図9を参照して説明する。まず、図9の状態
スタック201に示すように、「きれいな」という発声
音声の系列が認識されて文字として積まれる。次に、状
態スタック201における「きれいな」という文字は音
声認識用辞書に載っているので、状態スタック202に
示すように形容詞句を表す「adj」という文字に変換
される。次に、「黒い」という発声音声の系列が認識さ
れて状態スタック203に示すように文字として積ま
れ、状態スタック203における「黒い」は音声認識辞
書に載っているので状態スタック204に示すように形
容詞句を表す「adj」という文字に変換される。
【0004】次に、「髪の」という発声音声の系列が認
識されて状態スタック205に示すようにさらに文字と
して積まれ、状態スタック205における「髪の」とい
う文字は音声認識辞書に載っているので状態スタック2
06に示すように名詞句を表す「NP」という文字に変
換される。さらに、状態スタック206において、形容
詞句の「adj」と名詞句の「NP」とは名詞句の「N
P」になるという構文規則が適用されて、「黒い」が変
換された形容詞句の「adj」と「髪の」が変換された
名詞句の「NP」とは、状態スタック207に示すよう
に名詞句の「NP」に変換される。すなわち、状態スタ
ック207における名詞句の「NP」は「黒い髪の」を
表す。
識されて状態スタック205に示すようにさらに文字と
して積まれ、状態スタック205における「髪の」とい
う文字は音声認識辞書に載っているので状態スタック2
06に示すように名詞句を表す「NP」という文字に変
換される。さらに、状態スタック206において、形容
詞句の「adj」と名詞句の「NP」とは名詞句の「N
P」になるという構文規則が適用されて、「黒い」が変
換された形容詞句の「adj」と「髪の」が変換された
名詞句の「NP」とは、状態スタック207に示すよう
に名詞句の「NP」に変換される。すなわち、状態スタ
ック207における名詞句の「NP」は「黒い髪の」を
表す。
【0005】ここで、状態スタック207において、形
容詞句の「adj」と名詞句の「NP」とは名詞句の
「NP」になるという構文規則を適用するかしないか2
つの選択枝がある。ここで、構文規則を適用すると「き
れいな」は「髪の」に係ることになり、構文規則を適用
しないと「きれいな」は「髪の」に係らない構文構造の
ままで係り受け関係の決定は以降の音声認識処理に持ち
越されることになる。従って、このような場合、従来例
の連続音声認識装置では、文字を積む装置を2つに分離
して以降の音声認識を実行する。すなわち、一方の装置
は、状態スタック207に構文規則を適用した状態スタ
ック208に示す状態で以降の音声認識処理を実行し、
他方の装置は、状態スタック207のままの状態で以降
の音声認識処理を実行する。ここで、一方の装置の状態
スタック208における名詞句の「NP」は「きれいな
黒い髪の」を表す。
容詞句の「adj」と名詞句の「NP」とは名詞句の
「NP」になるという構文規則を適用するかしないか2
つの選択枝がある。ここで、構文規則を適用すると「き
れいな」は「髪の」に係ることになり、構文規則を適用
しないと「きれいな」は「髪の」に係らない構文構造の
ままで係り受け関係の決定は以降の音声認識処理に持ち
越されることになる。従って、このような場合、従来例
の連続音声認識装置では、文字を積む装置を2つに分離
して以降の音声認識を実行する。すなわち、一方の装置
は、状態スタック207に構文規則を適用した状態スタ
ック208に示す状態で以降の音声認識処理を実行し、
他方の装置は、状態スタック207のままの状態で以降
の音声認識処理を実行する。ここで、一方の装置の状態
スタック208における名詞句の「NP」は「きれいな
黒い髪の」を表す。
【0006】一方の装置において、状態スタック209
に示すように「きれいな黒い髪の」を表示する名詞句
「NP」の上に、「女の子を」という発声音声の系列が
認識されて文字として積まれ、状態スタック209にお
ける「女の子を」の文字は音声認識辞書に載っているの
で状態スタック210に示すように名詞句を表す「N
P」という文字に変換される。次に状態スタック210
において、名詞句の「NP」と名詞句の「NP」は名詞
句の「NP」になるという構文規則が適用されて、状態
スタック210の「きれいな黒い髪の」が変換された名
詞句の「NP」と「女の子を」が変換された名詞句の
「NP」は状態スタック211に示すように名詞句の
「NP」に変換される。ここで、状態スタック211の
名詞句「NP」は「きれいな黒い髪の女の子」を表す。
そして、「見た」という発声音声の系列が認識されて状
態スタック212に示すように文字として積まれ、状態
スタック212における「見た」は音声認識用辞書に載
っているので状態スタック213に示すように動詞句を
表す「VP」に変換され、状態スタック214に示すよ
うに1つの文章として認識される。すなわち、「きれい
な」が「髪に」に係る構造の認識結果が得られる。
に示すように「きれいな黒い髪の」を表示する名詞句
「NP」の上に、「女の子を」という発声音声の系列が
認識されて文字として積まれ、状態スタック209にお
ける「女の子を」の文字は音声認識辞書に載っているの
で状態スタック210に示すように名詞句を表す「N
P」という文字に変換される。次に状態スタック210
において、名詞句の「NP」と名詞句の「NP」は名詞
句の「NP」になるという構文規則が適用されて、状態
スタック210の「きれいな黒い髪の」が変換された名
詞句の「NP」と「女の子を」が変換された名詞句の
「NP」は状態スタック211に示すように名詞句の
「NP」に変換される。ここで、状態スタック211の
名詞句「NP」は「きれいな黒い髪の女の子」を表す。
そして、「見た」という発声音声の系列が認識されて状
態スタック212に示すように文字として積まれ、状態
スタック212における「見た」は音声認識用辞書に載
っているので状態スタック213に示すように動詞句を
表す「VP」に変換され、状態スタック214に示すよ
うに1つの文章として認識される。すなわち、「きれい
な」が「髪に」に係る構造の認識結果が得られる。
【0007】他方の装置において、「女の子を」という
発声音声の系列が認識されて状態スタック221に示す
ように文字として積まれ、「女の子を」の文字は状態ス
タック222に示すように名詞句を表す「NP」という
文字に変換される。次に状態スタック222において、
構文規則が適用されて、「黒い髪の」が変換された名詞
句の「NP」と「女の子を」が変換された名詞句の「N
P」は状態スタック223に示すように名詞句の「N
P」に変換される。ここで、状態スタック223の名詞
句「NP」は「黒い髪の女の子」を表す。そして、さら
に構文規則が適用されて、「きれいな」が変換された形
容詞句の「adj」と「黒い髪の女の子を」が変換され
た名詞句の「NP」は状態スタック224に示すように
名詞句の「NP」に変換される。すなわち、「きれい
な」が「女の子を」に係る構造として認識される。次
に、「見た」という発声音声の系列が認識されて状態ス
タック225に示すように文字として積まれ、状態スタ
ック225における「見た」は状態スタック226に示
すように動詞句を表す「VP」に変換され、状態スタッ
ク227に示すように1つの文章として認識される。す
なわち、「きれいな」が「女の子を」に係る構造の認識
結果が得られる。
発声音声の系列が認識されて状態スタック221に示す
ように文字として積まれ、「女の子を」の文字は状態ス
タック222に示すように名詞句を表す「NP」という
文字に変換される。次に状態スタック222において、
構文規則が適用されて、「黒い髪の」が変換された名詞
句の「NP」と「女の子を」が変換された名詞句の「N
P」は状態スタック223に示すように名詞句の「N
P」に変換される。ここで、状態スタック223の名詞
句「NP」は「黒い髪の女の子」を表す。そして、さら
に構文規則が適用されて、「きれいな」が変換された形
容詞句の「adj」と「黒い髪の女の子を」が変換され
た名詞句の「NP」は状態スタック224に示すように
名詞句の「NP」に変換される。すなわち、「きれい
な」が「女の子を」に係る構造として認識される。次
に、「見た」という発声音声の系列が認識されて状態ス
タック225に示すように文字として積まれ、状態スタ
ック225における「見た」は状態スタック226に示
すように動詞句を表す「VP」に変換され、状態スタッ
ク227に示すように1つの文章として認識される。す
なわち、「きれいな」が「女の子を」に係る構造の認識
結果が得られる。
【0008】
【発明が解決しようとする課題】以上詳述したように、
図2の例文を従来例の連続音声認識装置で認識すると、
「きれいな」が「髪の」に係る構造の認識結果と、「き
れいな」が「女の子を」に係る構造の認識結果の2つの
異なる構造の認識結果が得られ、統語解析における係り
受け関係の曖昧性が解消できないという問題点があっ
た。また、その結果さらに長い発話を扱うと曖昧性が増
していくという問題点があった。
図2の例文を従来例の連続音声認識装置で認識すると、
「きれいな」が「髪の」に係る構造の認識結果と、「き
れいな」が「女の子を」に係る構造の認識結果の2つの
異なる構造の認識結果が得られ、統語解析における係り
受け関係の曖昧性が解消できないという問題点があっ
た。また、その結果さらに長い発話を扱うと曖昧性が増
していくという問題点があった。
【0009】本発明の目的は以上の問題点を解決し、統
語解析における係り受け関係の曖昧性を解消することの
できる音声認識装置を提供することにある。
語解析における係り受け関係の曖昧性を解消することの
できる音声認識装置を提供することにある。
【0010】
【課題を解決するための手段】本発明に係る請求項1記
載の音声認識装置は、入力された発声音声を音声認識し
て音声認識結果を出力する音声認識手段を備えた音声認
識装置において、入力された発声音声に基づいてポーズ
と冗長語と句又は節の境界とのうちの少なくとも1つを
検出して検出信号を出力する検出手段を備え、上記音声
認識手段は、上記検出信号に基づいて、上記ポーズと冗
長語と句又は節の境界とのうちの少なくとも1つによっ
て分割された複数の音声区間からなる入力された発声音
声の各音声区間について音声認識処理をした後、異なる
音声区間に属する語、句又は節の間の係り受け関係を決
定して、上記入力された発声音声の音声認識をすること
を特徴とする。
載の音声認識装置は、入力された発声音声を音声認識し
て音声認識結果を出力する音声認識手段を備えた音声認
識装置において、入力された発声音声に基づいてポーズ
と冗長語と句又は節の境界とのうちの少なくとも1つを
検出して検出信号を出力する検出手段を備え、上記音声
認識手段は、上記検出信号に基づいて、上記ポーズと冗
長語と句又は節の境界とのうちの少なくとも1つによっ
て分割された複数の音声区間からなる入力された発声音
声の各音声区間について音声認識処理をした後、異なる
音声区間に属する語、句又は節の間の係り受け関係を決
定して、上記入力された発声音声の音声認識をすること
を特徴とする。
【0011】
【0012】また、請求項2記載の音声認識装置は、請
求項1記載の音声認識装置において、上記検出手段は、
上記発声音声のパワーが、所定の時間の範囲だけ、所定
のしきい値以下である第1の条件と、上記発声音声のゼ
ロクロスの数が、所定の時間の間において、所定のしき
い値以上である第2の条件とのうち少なくとも1つの条
件が満足することを検出することにより上記ポーズを検
出することを特徴とする。
求項1記載の音声認識装置において、上記検出手段は、
上記発声音声のパワーが、所定の時間の範囲だけ、所定
のしきい値以下である第1の条件と、上記発声音声のゼ
ロクロスの数が、所定の時間の間において、所定のしき
い値以上である第2の条件とのうち少なくとも1つの条
件が満足することを検出することにより上記ポーズを検
出することを特徴とする。
【0013】さらに、請求項3記載の音声認識装置は、
請求項1記載の音声認識装置において、上記検出手段
は、上記ポーズと冗長語と句又は節の境界とのうちの少
なくとも1つを、それぞれの予め決められた言語モデル
に一致するか否かを判断することにより検出することを
特徴とする。
請求項1記載の音声認識装置において、上記検出手段
は、上記ポーズと冗長語と句又は節の境界とのうちの少
なくとも1つを、それぞれの予め決められた言語モデル
に一致するか否かを判断することにより検出することを
特徴とする。
【0014】
【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。 <第1の実施形態>図1は、本発明に係る第1の実施形
態である連続音声認識装置81のブロック図である。第
1の実施形態の連続音声認識装置81は、SSS(Succ
essive State Splitting:逐次状態分割法)−LR(le
ft-to-right rightmost derivation型、すなわち最右
導出型)不特定話者連続音声認識装置であって、隠れマ
ルコフ網(以下、HM網という。)メモリ11に格納さ
れた隠れマルコフモデル(以下、HMMという。)のネ
ットワークを用いて音素照合処理を音素照合部4で実行
しその結果である音声認識スコアを音素コンテキスト依
存型LRパーザ(以下、LRパーザという。)5に送
り、これに応答してLRパーザ5が入力された発声音声
の1つの文に対して連続音声認識を実行して音素予測デ
ータを音素照合部4に送って音声認識処理を行う。第1
の実施形態は特に、バッファメモリ3から出力される特
徴パラメータの時系列に基づいてポーズや冗長語並びに
韻律的な情報等を手がかりとする区切りを含む無音区間
等を検出してその検出信号をLRパーザ5に出力する無
音区間等検出部30を備え、LRパーザ5は、無音区間
等検出部30から入力された検出信号で示された区切り
単位の音声区間のデータを読み込んで、当該音声区間に
対してHMM−LR法を用いた区間制限付きHMM−L
R処理を実行し、最後の区切り単位の末端まで到達する
と入力された発声音声の1つの文に対して区間制限無し
HMM−LR処理を実行することにより音声認識結果デ
ータを出力することを特徴とする。
る実施形態について説明する。 <第1の実施形態>図1は、本発明に係る第1の実施形
態である連続音声認識装置81のブロック図である。第
1の実施形態の連続音声認識装置81は、SSS(Succ
essive State Splitting:逐次状態分割法)−LR(le
ft-to-right rightmost derivation型、すなわち最右
導出型)不特定話者連続音声認識装置であって、隠れマ
ルコフ網(以下、HM網という。)メモリ11に格納さ
れた隠れマルコフモデル(以下、HMMという。)のネ
ットワークを用いて音素照合処理を音素照合部4で実行
しその結果である音声認識スコアを音素コンテキスト依
存型LRパーザ(以下、LRパーザという。)5に送
り、これに応答してLRパーザ5が入力された発声音声
の1つの文に対して連続音声認識を実行して音素予測デ
ータを音素照合部4に送って音声認識処理を行う。第1
の実施形態は特に、バッファメモリ3から出力される特
徴パラメータの時系列に基づいてポーズや冗長語並びに
韻律的な情報等を手がかりとする区切りを含む無音区間
等を検出してその検出信号をLRパーザ5に出力する無
音区間等検出部30を備え、LRパーザ5は、無音区間
等検出部30から入力された検出信号で示された区切り
単位の音声区間のデータを読み込んで、当該音声区間に
対してHMM−LR法を用いた区間制限付きHMM−L
R処理を実行し、最後の区切り単位の末端まで到達する
と入力された発声音声の1つの文に対して区間制限無し
HMM−LR処理を実行することにより音声認識結果デ
ータを出力することを特徴とする。
【0015】ここで、上記SSSにおいては、音素の特
徴空間上に割り当てられた確率的定常信号源(状態)の
間の確率的な遷移により音声パラメータの時間的な推移
を表現した確率モデルに対して、尤度最大化の基準に基
づいて個々の状態をコンテキスト方向又は時間方向へ分
割するという操作を繰り返すことによって、モデルの精
密化を逐次的に実行する。
徴空間上に割り当てられた確率的定常信号源(状態)の
間の確率的な遷移により音声パラメータの時間的な推移
を表現した確率モデルに対して、尤度最大化の基準に基
づいて個々の状態をコンテキスト方向又は時間方向へ分
割するという操作を繰り返すことによって、モデルの精
密化を逐次的に実行する。
【0016】図1において、話者の発声音声はマイクロ
ホン1に入力されて音声信号に変換された後、特徴抽出
部2に入力される。特徴抽出部2は、入力された音声信
号をA/D変換した後、例えばLPC分析を実行し、対
数パワー、16次ケプストラム係数、Δ対数パワー及び
16次Δケプストラム係数を含む34次元の特徴パラメ
ータを抽出する。抽出された特徴パラメータの時系列は
バッファメモリ3を介して音素照合部4に入力される。
ホン1に入力されて音声信号に変換された後、特徴抽出
部2に入力される。特徴抽出部2は、入力された音声信
号をA/D変換した後、例えばLPC分析を実行し、対
数パワー、16次ケプストラム係数、Δ対数パワー及び
16次Δケプストラム係数を含む34次元の特徴パラメ
ータを抽出する。抽出された特徴パラメータの時系列は
バッファメモリ3を介して音素照合部4に入力される。
【0017】音素照合部4に接続されるHM網メモリ1
1内のHM網は、各状態をノードとする複数のネットワ
ークとして表され、各状態はそれぞれ以下の情報を有す
る。 (a)状態番号 (b)受理可能なコンテキストクラス (c)先行状態、及び後続状態のリスト (d)出力確率密度分布のパラメータ (e)自己遷移確率及び後続状態への遷移確率
1内のHM網は、各状態をノードとする複数のネットワ
ークとして表され、各状態はそれぞれ以下の情報を有す
る。 (a)状態番号 (b)受理可能なコンテキストクラス (c)先行状態、及び後続状態のリスト (d)出力確率密度分布のパラメータ (e)自己遷移確率及び後続状態への遷移確率
【0018】なお、第1の実施形態において、HM網
は、各分布がどの話者に由来するかを特定する必要があ
るため、所定の話者混合HM網を変換して作成する。こ
こで、出力確率密度関数は34次元の対角共分散行列を
もつ混合ガウス分布であり、各分布はある特定の話者の
サンプルを用いて学習されている。
は、各分布がどの話者に由来するかを特定する必要があ
るため、所定の話者混合HM網を変換して作成する。こ
こで、出力確率密度関数は34次元の対角共分散行列を
もつ混合ガウス分布であり、各分布はある特定の話者の
サンプルを用いて学習されている。
【0019】音素照合部4は、LRパーザ5からの音素
照合要求に応じて音素照合処理を実行する。このとき
に、LRパーザ5からは、音素照合区間及び照合対象音
素とその前後の音素から成る音素コンテキスト情報が渡
される。音素照合部4は、受け取った音素コンテキスト
情報に基づいてそのようなコンテキストを受理すること
ができるHM網上の状態を、先行状態リストと後続状態
リストの制約内で連結することによって、1つのモデル
が選択される。そして、このモデルを用いて音素照合区
間内のデータに対する尤度が計算され、この尤度の値が
音素照合スコアとしてLRパーザ5に返される。このと
きに用いられるモデルは、HMMと等価であるために、
尤度の計算には通常のHMMで用いられている前向きパ
スアルゴリズムをそのまま使用する。
照合要求に応じて音素照合処理を実行する。このとき
に、LRパーザ5からは、音素照合区間及び照合対象音
素とその前後の音素から成る音素コンテキスト情報が渡
される。音素照合部4は、受け取った音素コンテキスト
情報に基づいてそのようなコンテキストを受理すること
ができるHM網上の状態を、先行状態リストと後続状態
リストの制約内で連結することによって、1つのモデル
が選択される。そして、このモデルを用いて音素照合区
間内のデータに対する尤度が計算され、この尤度の値が
音素照合スコアとしてLRパーザ5に返される。このと
きに用いられるモデルは、HMMと等価であるために、
尤度の計算には通常のHMMで用いられている前向きパ
スアルゴリズムをそのまま使用する。
【0020】一方、無音区間等検出部30は、バッファ
メモリ3から出力される特徴パラメータの時系列に基づ
いてポーズや冗長語並びに韻律的な情報等を手がかりと
する区切りを含む無音区間等を検出して、その検出信号
をLRパーザ5に出力する。ここで、無音区間等検出部
30は、冗長語については予め内部メモリに格納された
冗長語の音素モデルと比較照合することにより冗長語と
して認識する一方、無音区間であるポーズについては以
下の2つの条件のうちの1つが満足するときにポーズと
して検出する。 (第1の検出条件)パワーが所定のしきい値レベル以下
である時間t0が例えば以下の範囲の値のとき。好まし
くは、50ミリ秒≦t0≦3秒。より好ましくは、50
ミリ秒≦t0≦500ミリ秒。 (第2の検出条件)入力された音声信号がゼロ電位と交
差するゼロクロスの数が所定のしきい値以上である時間
t1が例えば以下の範囲の値のとき。好ましくは、50
ミリ秒≦t1≦3秒。より好ましくは、50ミリ秒≦t
1≦500ミリ秒。さらに、韻律的な情報等を手がかり
とする区切りとは、具体的には、イントネーションが急
激に上昇又は下降するときは、句又は節の境界であると
推測される。これについては、入力される特徴パラメー
タのうち基本周波数が所定の傾斜の度合い以上で急激に
上昇し又は下降して変化したことを検出することにより
当該区切り又は境界と判別する。
メモリ3から出力される特徴パラメータの時系列に基づ
いてポーズや冗長語並びに韻律的な情報等を手がかりと
する区切りを含む無音区間等を検出して、その検出信号
をLRパーザ5に出力する。ここで、無音区間等検出部
30は、冗長語については予め内部メモリに格納された
冗長語の音素モデルと比較照合することにより冗長語と
して認識する一方、無音区間であるポーズについては以
下の2つの条件のうちの1つが満足するときにポーズと
して検出する。 (第1の検出条件)パワーが所定のしきい値レベル以下
である時間t0が例えば以下の範囲の値のとき。好まし
くは、50ミリ秒≦t0≦3秒。より好ましくは、50
ミリ秒≦t0≦500ミリ秒。 (第2の検出条件)入力された音声信号がゼロ電位と交
差するゼロクロスの数が所定のしきい値以上である時間
t1が例えば以下の範囲の値のとき。好ましくは、50
ミリ秒≦t1≦3秒。より好ましくは、50ミリ秒≦t
1≦500ミリ秒。さらに、韻律的な情報等を手がかり
とする区切りとは、具体的には、イントネーションが急
激に上昇又は下降するときは、句又は節の境界であると
推測される。これについては、入力される特徴パラメー
タのうち基本周波数が所定の傾斜の度合い以上で急激に
上昇し又は下降して変化したことを検出することにより
当該区切り又は境界と判別する。
【0021】そして、LRパーザ5は、無音区間等検出
部30から入力された検出信号で示された区切り単位の
音声区間のデータを読み込んで、当該音声区間に対して
HMM−LR法を用いた区間制限付きHMM−LR処理
を実行し、最後の区切り単位の末端まで到達すると入力
された発声音声の1つの文に対して区間制限無しHMM
−LR処理を実行することにより音声認識結果データを
出力する。ここで、区間制限付きHMM−LR処理と
は、1つの区切り単位の音声区間内に限って実行するH
MMを用いたLRパーザ5による音声認識処理のことで
あり、区間制限無しHMM−LR処理とは、区間を限定
せず、入力された発声音声の1つの文に対して、異なる
区切り単位の音声区間に属する語、句又は節にLRテー
ブルメモリ13内の構文規則を適用して実行するHMM
を用いたLRパーザ5による音声認識処理のことであ
る。ここで、音声区間とは図5に示すように入力された
発声音声の1つの文のうちの無音区間等(図5において
は括弧を付して示している。)によって分割された1つ
の区間のことをいい、区切り単位とは図5において括弧
を付して示すように音声区間と当該音声区間の後にある
無音区間等とからなる1単位のことをいう。また、本明
細書において、無音区間等とはポーズと冗長語並びに韻
律的な情報等を手がかりとする区切りとを含むものをい
い、ポーズ単位とは図5に示すようにポーズによって分
割された区切り単位のことをいう。
部30から入力された検出信号で示された区切り単位の
音声区間のデータを読み込んで、当該音声区間に対して
HMM−LR法を用いた区間制限付きHMM−LR処理
を実行し、最後の区切り単位の末端まで到達すると入力
された発声音声の1つの文に対して区間制限無しHMM
−LR処理を実行することにより音声認識結果データを
出力する。ここで、区間制限付きHMM−LR処理と
は、1つの区切り単位の音声区間内に限って実行するH
MMを用いたLRパーザ5による音声認識処理のことで
あり、区間制限無しHMM−LR処理とは、区間を限定
せず、入力された発声音声の1つの文に対して、異なる
区切り単位の音声区間に属する語、句又は節にLRテー
ブルメモリ13内の構文規則を適用して実行するHMM
を用いたLRパーザ5による音声認識処理のことであ
る。ここで、音声区間とは図5に示すように入力された
発声音声の1つの文のうちの無音区間等(図5において
は括弧を付して示している。)によって分割された1つ
の区間のことをいい、区切り単位とは図5において括弧
を付して示すように音声区間と当該音声区間の後にある
無音区間等とからなる1単位のことをいう。また、本明
細書において、無音区間等とはポーズと冗長語並びに韻
律的な情報等を手がかりとする区切りとを含むものをい
い、ポーズ単位とは図5に示すようにポーズによって分
割された区切り単位のことをいう。
【0022】文脈自由文法データベースメモリ20内の
所定の文脈自由文法(CFG)は公知の通り予め自動的
に変換されてLRテーブルを作成してLRテーブルメモ
リ13に格納される。LRパーザ5は、例えば音素継続
時間長モデルを含む話者モデルメモリ12と上記LRテ
ーブルとを参照して、入力された音素予測データについ
て左から右方向に、後戻りなしに処理する。構文的にあ
いまいさがある場合は、スタックを分割してすべての候
補の解析が平行して処理される。LRパーザ5は、LR
テーブルメモリ13内のLRテーブルから次にくる音素
を予測して音素予測データを音素照合部4に出力する。
これに応答して、音素照合部4は、その音素に対応する
HM網メモリ11内の情報を参照して照合し、その尤度
を音声認識スコアとしてLRパーザ5に戻し、順次音素
を連接していくことにより、連続音声の認識を行ってい
る。
所定の文脈自由文法(CFG)は公知の通り予め自動的
に変換されてLRテーブルを作成してLRテーブルメモ
リ13に格納される。LRパーザ5は、例えば音素継続
時間長モデルを含む話者モデルメモリ12と上記LRテ
ーブルとを参照して、入力された音素予測データについ
て左から右方向に、後戻りなしに処理する。構文的にあ
いまいさがある場合は、スタックを分割してすべての候
補の解析が平行して処理される。LRパーザ5は、LR
テーブルメモリ13内のLRテーブルから次にくる音素
を予測して音素予測データを音素照合部4に出力する。
これに応答して、音素照合部4は、その音素に対応する
HM網メモリ11内の情報を参照して照合し、その尤度
を音声認識スコアとしてLRパーザ5に戻し、順次音素
を連接していくことにより、連続音声の認識を行ってい
る。
【0023】以上のように構成された第1の実施形態の
連続音声認識装置81において、特徴抽出部2と音素照
合部4とLRパーザ5とは、例えばデジタル電子計算機
で構成される。
連続音声認識装置81において、特徴抽出部2と音素照
合部4とLRパーザ5とは、例えばデジタル電子計算機
で構成される。
【0024】図6は、図1の連続音声認識装置81のL
Rパーザ5において実行される音声認識処理を示すフロ
ーチャートである。以下、図6を参照して音声認識処理
について説明する。
Rパーザ5において実行される音声認識処理を示すフロ
ーチャートである。以下、図6を参照して音声認識処理
について説明する。
【0025】図6に示すように、ステップS1において
は、HMM作業域の初期化、並びにLRパーザ5の初期
化を実行する。具体的には、状態スタック0のセルを1
個作成する。ここで、連続音声認識装置81において用
いるセルは、従来のHMM−LR法の音声認識の解析に
必要な情報を保持するデータ構造、すなわち状態スタッ
クを有するLR作業域と、音声認識スコアと確率テーブ
ルとからなるHMM作業域とを有する。
は、HMM作業域の初期化、並びにLRパーザ5の初期
化を実行する。具体的には、状態スタック0のセルを1
個作成する。ここで、連続音声認識装置81において用
いるセルは、従来のHMM−LR法の音声認識の解析に
必要な情報を保持するデータ構造、すなわち状態スタッ
クを有するLR作業域と、音声認識スコアと確率テーブ
ルとからなるHMM作業域とを有する。
【0026】そして、ステップS2において、無音区間
等検出部30から入力された検出信号で示された区切り
単位の音声区間のデータを読み込む。さらに、ステップ
S3において、音声データが読み込まれた区切り単位の
音声区間に対してHMM−LR法を用いた区間制限付き
HMM−LR処理を実行する。ステップS4において、
複数の区切り単位のうち最後の区切り単位の末端まで到
達したか否かが判断され、最後の区切り単位の末端まで
到達していないときは(ステップS4においてNO)ス
テップS2に進み、ステップS2,S3の処理を繰り返
す。一方、ステップS4において、最後の区切り単位の
末端まで到達しているときは(ステップS4においてY
ES)ステップS5に進み、区間制限無しHMM−LR
処理を実行して音声認識処理を終了する。
等検出部30から入力された検出信号で示された区切り
単位の音声区間のデータを読み込む。さらに、ステップ
S3において、音声データが読み込まれた区切り単位の
音声区間に対してHMM−LR法を用いた区間制限付き
HMM−LR処理を実行する。ステップS4において、
複数の区切り単位のうち最後の区切り単位の末端まで到
達したか否かが判断され、最後の区切り単位の末端まで
到達していないときは(ステップS4においてNO)ス
テップS2に進み、ステップS2,S3の処理を繰り返
す。一方、ステップS4において、最後の区切り単位の
末端まで到達しているときは(ステップS4においてY
ES)ステップS5に進み、区間制限無しHMM−LR
処理を実行して音声認識処理を終了する。
【0027】次に、図1の第1の実施形態の連続音声認
識装置81の音声認識動作を図2に示す例文を用いて説
明する。図2は、文の構造解析すなわち統語解析におけ
る係り受け関係の曖昧性を含む一例文である。図2の例
文を文字列のみを認識して解析しようとすると、図2の
例文の上に矢印で示した第1の係り受け関係と例文の下
に矢印で示した第2の係り受け関係の少なくとも2つの
係り受け関係の曖昧性が残る。すなわち、「きれいな」
が「女の子」に係る第1の係り受け関係の「きれいな女
の子」であるのか、「きれいな」が「髪」に係る第2の
係り受け関係の「きれいな髪」であるのかが不明であ
る。本発明者らは、無音区間であるポーズを利用するこ
とにより上述の2つの係り受け関係のうちのいずれか1
つに決定できることを見いだした。すなわち、「きれい
な」と「黒い」との間に無音区間であるポーズ(図2に
おいては、「きれいな」と「黒い」との間に「△」で示
している。)があれば、「きれいな」が「女の子」に係
る第1の係り受け関係であると決定でき、「髪の」と
「女の子を」との間にポーズ(図2においては、「髪
の」と「女の子を」との間に「△」で示している。)が
あれば、「きれいな」が「髪」に係る第2の係り受け関
係であると決定できる。本発明は上述のポーズと係り受
け関係との間の規則を利用して、統語解析における係り
受け関係の曖昧性を取り除いて音声認識処理を実行して
いる。
識装置81の音声認識動作を図2に示す例文を用いて説
明する。図2は、文の構造解析すなわち統語解析におけ
る係り受け関係の曖昧性を含む一例文である。図2の例
文を文字列のみを認識して解析しようとすると、図2の
例文の上に矢印で示した第1の係り受け関係と例文の下
に矢印で示した第2の係り受け関係の少なくとも2つの
係り受け関係の曖昧性が残る。すなわち、「きれいな」
が「女の子」に係る第1の係り受け関係の「きれいな女
の子」であるのか、「きれいな」が「髪」に係る第2の
係り受け関係の「きれいな髪」であるのかが不明であ
る。本発明者らは、無音区間であるポーズを利用するこ
とにより上述の2つの係り受け関係のうちのいずれか1
つに決定できることを見いだした。すなわち、「きれい
な」と「黒い」との間に無音区間であるポーズ(図2に
おいては、「きれいな」と「黒い」との間に「△」で示
している。)があれば、「きれいな」が「女の子」に係
る第1の係り受け関係であると決定でき、「髪の」と
「女の子を」との間にポーズ(図2においては、「髪
の」と「女の子を」との間に「△」で示している。)が
あれば、「きれいな」が「髪」に係る第2の係り受け関
係であると決定できる。本発明は上述のポーズと係り受
け関係との間の規則を利用して、統語解析における係り
受け関係の曖昧性を取り除いて音声認識処理を実行して
いる。
【0028】図3は、図2の例文において第1の係り受
け関係を有する場合の連続音声認識装置81の音声認識
動作をスタック形式で示す図である。以下に第1の係り
受け関係を有する場合の音声認識動作を図3を参照して
説明する。まず、図3の状態スタック51に示すよう
に、LRパーザ5で「きれいな」という発声音声の系列
が認識されて文字として積まれ、次に「きれいな」の認
識処理の直後でポーズが無音区間等検出部30によって
検出されて、検出信号が当該検出部30からLRパーザ
5に入力されて「きれいな」という文字の上にポーズを
表示する「△」として積まれる。次に、状態スタック5
1における「きれいな」という文字は音声認識用辞書に
載っているので、状態スタック52に示すように形容詞
句を表す「adj」という文字に変換される。次に、L
Rパーザ5で「黒い」という発声音声の系列が認識され
て状態スタック53に示すようにポーズを表示する
「△」の上に文字として積まれ、状態スタック53にお
ける「黒い」は音声認識辞書に載っているので状態スタ
ック54に示すように形容詞句を表す「adj」という
文字に変換される。ここで、状態スタック54において
「きれいな」が変換された形容詞句の「adj」と「黒
い」が変換された形容詞句の「adj」とには、間にポ
ーズを表示する「△」が積まれているので構文規則は適
用されない。
け関係を有する場合の連続音声認識装置81の音声認識
動作をスタック形式で示す図である。以下に第1の係り
受け関係を有する場合の音声認識動作を図3を参照して
説明する。まず、図3の状態スタック51に示すよう
に、LRパーザ5で「きれいな」という発声音声の系列
が認識されて文字として積まれ、次に「きれいな」の認
識処理の直後でポーズが無音区間等検出部30によって
検出されて、検出信号が当該検出部30からLRパーザ
5に入力されて「きれいな」という文字の上にポーズを
表示する「△」として積まれる。次に、状態スタック5
1における「きれいな」という文字は音声認識用辞書に
載っているので、状態スタック52に示すように形容詞
句を表す「adj」という文字に変換される。次に、L
Rパーザ5で「黒い」という発声音声の系列が認識され
て状態スタック53に示すようにポーズを表示する
「△」の上に文字として積まれ、状態スタック53にお
ける「黒い」は音声認識辞書に載っているので状態スタ
ック54に示すように形容詞句を表す「adj」という
文字に変換される。ここで、状態スタック54において
「きれいな」が変換された形容詞句の「adj」と「黒
い」が変換された形容詞句の「adj」とには、間にポ
ーズを表示する「△」が積まれているので構文規則は適
用されない。
【0029】次に、LRパーザ5で「髪の」という発声
音声の系列が認識されて状態スタック55に示すように
「黒い」が変換された形容詞句の「adj」の上に文字
として積まれ、状態スタック55における「髪の」とい
う文字は音声認識辞書に載っているので状態スタック5
6に示すように名詞句を表す「NP」という文字に変換
される。さらに、状態スタック56において、形容詞句
の「adj」と名詞句の「NP」とは名詞句の「NP」
になるという構文規則が適用されて、「黒い」が変換さ
れた形容詞句の「adj」と「髪の」が変換された名詞
句の「NP」とは状態スタック57に示すように名詞句
の「NP」に変換される。すなわち、状態スタック57
における名詞句の「NP」は「黒い髪の」を表す。次
に、「女の子を」という発声音声の系列が認識されて状
態スタック58に示すように「黒い髪の」を表す名詞句
の「NP」の上に文字として積まれ、状態スタック58
における「女の子を」の文字は音声認識辞書に載ってい
るので状態スタック59に示すように名詞句を表す「N
P」という文字に変換される。
音声の系列が認識されて状態スタック55に示すように
「黒い」が変換された形容詞句の「adj」の上に文字
として積まれ、状態スタック55における「髪の」とい
う文字は音声認識辞書に載っているので状態スタック5
6に示すように名詞句を表す「NP」という文字に変換
される。さらに、状態スタック56において、形容詞句
の「adj」と名詞句の「NP」とは名詞句の「NP」
になるという構文規則が適用されて、「黒い」が変換さ
れた形容詞句の「adj」と「髪の」が変換された名詞
句の「NP」とは状態スタック57に示すように名詞句
の「NP」に変換される。すなわち、状態スタック57
における名詞句の「NP」は「黒い髪の」を表す。次
に、「女の子を」という発声音声の系列が認識されて状
態スタック58に示すように「黒い髪の」を表す名詞句
の「NP」の上に文字として積まれ、状態スタック58
における「女の子を」の文字は音声認識辞書に載ってい
るので状態スタック59に示すように名詞句を表す「N
P」という文字に変換される。
【0030】次に状態スタック59において、名詞句の
「NP」と名詞句の「NP」は名詞句の「NP」になる
という構文規則が適用されて、状態スタック59の「黒
い髪の」が変換された名詞句の「NP」と「女の子を」
が変換された名詞句の「NP」は状態スタック60に示
すように名詞句の「NP」に変換される。ここで、状態
スタック60の名詞句の「NP」は「黒い髪の女の子」
を表す。そして、LRパーザ5で「見た」という発声音
声の系列が認識されて状態スタック61に示すように
「黒い髪の女の子」を表す名詞句の「NP」の上に文字
として積まれ、状態スタック61における「見た」は音
声認識用辞書に載っているので状態スタック62に示す
ように動詞句を表す「VP」に変換される。
「NP」と名詞句の「NP」は名詞句の「NP」になる
という構文規則が適用されて、状態スタック59の「黒
い髪の」が変換された名詞句の「NP」と「女の子を」
が変換された名詞句の「NP」は状態スタック60に示
すように名詞句の「NP」に変換される。ここで、状態
スタック60の名詞句の「NP」は「黒い髪の女の子」
を表す。そして、LRパーザ5で「見た」という発声音
声の系列が認識されて状態スタック61に示すように
「黒い髪の女の子」を表す名詞句の「NP」の上に文字
として積まれ、状態スタック61における「見た」は音
声認識用辞書に載っているので状態スタック62に示す
ように動詞句を表す「VP」に変換される。
【0031】そして、最後のポーズ単位の末端まで到達
していると判断されて、ポーズを表示する「△」の前後
に位置する「きれいな」を表す形容詞句の「adj」と
「黒い髪の女の子を」を表す名詞句の「NP」とに、形
容詞句の「adj」と名詞句の「NP」とは名詞句の
「NP」になるという構文規則が適用されて状態スタッ
ク63に示すように名詞句の「NP」に変換される。こ
こで、状態スタック63の名詞句の「NP」は、「きれ
いな」が「女の子を」に係る構造の「きれいな黒い髪の
女の子を」を表す。さらに、状態スタック64に示すよ
うに文章を表す「S」に変換されて、「きれいな」が
「女の子を」に係るような構造の音声認識結果のみが出
力される。以上のようにポーズを表示する「△」の前後
に位置する「きれいな」を表す形容詞句の「adj」と
「黒い髪の女の子を」を表す名詞句の「NP」との間の
構文規則の適用を最後のポーズ単位の末端まで到達して
から実行するので、「きれいな」が「女の子を」に係る
構造の音声認識結果のみを出力することができる。以上
のように第1の実施形態では、複数の音声区間からなる
入力された発声音声の1つの文の各音声区間の音声認識
を実行した後、区間を限定せず、入力された発声音声の
1つの文に対して異なる音声区間に属する語、句又は節
の間にLRテーブルメモリ13内の構文規則を適用して
異なる音声区間に属する語、句又は節の間の係り受け関
係を決定している。
していると判断されて、ポーズを表示する「△」の前後
に位置する「きれいな」を表す形容詞句の「adj」と
「黒い髪の女の子を」を表す名詞句の「NP」とに、形
容詞句の「adj」と名詞句の「NP」とは名詞句の
「NP」になるという構文規則が適用されて状態スタッ
ク63に示すように名詞句の「NP」に変換される。こ
こで、状態スタック63の名詞句の「NP」は、「きれ
いな」が「女の子を」に係る構造の「きれいな黒い髪の
女の子を」を表す。さらに、状態スタック64に示すよ
うに文章を表す「S」に変換されて、「きれいな」が
「女の子を」に係るような構造の音声認識結果のみが出
力される。以上のようにポーズを表示する「△」の前後
に位置する「きれいな」を表す形容詞句の「adj」と
「黒い髪の女の子を」を表す名詞句の「NP」との間の
構文規則の適用を最後のポーズ単位の末端まで到達して
から実行するので、「きれいな」が「女の子を」に係る
構造の音声認識結果のみを出力することができる。以上
のように第1の実施形態では、複数の音声区間からなる
入力された発声音声の1つの文の各音声区間の音声認識
を実行した後、区間を限定せず、入力された発声音声の
1つの文に対して異なる音声区間に属する語、句又は節
の間にLRテーブルメモリ13内の構文規則を適用して
異なる音声区間に属する語、句又は節の間の係り受け関
係を決定している。
【0032】図4は、図2の例文において第2の係り受
け関係を有する場合の連続音声認識装置81の音声認識
動作をスタック形式で示す図である。以下に第2の係り
受け関係を有する場合の音声認識動作を図4を参照して
説明する。まず、図4の状態スタック151に示すよう
に、LRパーザ5で「きれいな」という発声音声の系列
が認識されて文字として積まれる。次に、状態スタック
151における「きれいな」という文字は音声認識用辞
書に載っているので、状態スタック152に示すように
形容詞句を表す「adj」という文字に変換される。次
に、LRパーザ5で「黒い」という発声音声の系列が認
識されて状態スタック153に示すように「きれいな」
を表す形容詞句の「adj」の上に文字として積まれ、
状態スタック153における「黒い」は音声認識辞書に
載っているので状態スタック154に示すように形容詞
句を表す「adj」という文字に変換される。
け関係を有する場合の連続音声認識装置81の音声認識
動作をスタック形式で示す図である。以下に第2の係り
受け関係を有する場合の音声認識動作を図4を参照して
説明する。まず、図4の状態スタック151に示すよう
に、LRパーザ5で「きれいな」という発声音声の系列
が認識されて文字として積まれる。次に、状態スタック
151における「きれいな」という文字は音声認識用辞
書に載っているので、状態スタック152に示すように
形容詞句を表す「adj」という文字に変換される。次
に、LRパーザ5で「黒い」という発声音声の系列が認
識されて状態スタック153に示すように「きれいな」
を表す形容詞句の「adj」の上に文字として積まれ、
状態スタック153における「黒い」は音声認識辞書に
載っているので状態スタック154に示すように形容詞
句を表す「adj」という文字に変換される。
【0033】次に、LRパーザ5で「髪の」という発声
音声の系列が認識されて状態スタック155に示すよう
に「黒い」を表す形容詞句の「adj」の上に文字とし
て積まれ、次に「髪の」の認識処理の直後でポーズが無
音区間等検出部30によって検出されて、検出信号が当
該検出部30からLRパーザ5に入力されてポーズを表
示する「△」として「髪の」の文字の上に積まれる。そ
して、状態スタック155における「髪の」という文字
は音声認識辞書に載っているので状態スタック156に
示すように名詞句を表す「NP」という文字に変換され
る。
音声の系列が認識されて状態スタック155に示すよう
に「黒い」を表す形容詞句の「adj」の上に文字とし
て積まれ、次に「髪の」の認識処理の直後でポーズが無
音区間等検出部30によって検出されて、検出信号が当
該検出部30からLRパーザ5に入力されてポーズを表
示する「△」として「髪の」の文字の上に積まれる。そ
して、状態スタック155における「髪の」という文字
は音声認識辞書に載っているので状態スタック156に
示すように名詞句を表す「NP」という文字に変換され
る。
【0034】さらに、状態スタック156において、形
容詞句の「adj」と名詞句の「NP」とは名詞句の
「NP」になるという構文規則が適用されて、「黒い」
が変換された形容詞句の「adj」と「髪の」が変換さ
れた名詞句の「NP」とは状態スタック157に示すよ
うに名詞句の「NP」に変換される。すなわち、状態ス
タック157における名詞句の「NP」は「黒い髪の」
を表す。さらに、状態スタック157において、形容詞
句の「adj」と名詞句の「NP」とは名詞句の「N
P」になるという構文規則が適用されて、「きれいな」
が変換された形容詞句の「adj」と「黒い髪の」を表
す名詞句の「NP」とは状態スタック158に示すよう
に名詞句の「NP」に変換される。これによって、「き
れいな」が「髪の」にかかる構造として認識される。
容詞句の「adj」と名詞句の「NP」とは名詞句の
「NP」になるという構文規則が適用されて、「黒い」
が変換された形容詞句の「adj」と「髪の」が変換さ
れた名詞句の「NP」とは状態スタック157に示すよ
うに名詞句の「NP」に変換される。すなわち、状態ス
タック157における名詞句の「NP」は「黒い髪の」
を表す。さらに、状態スタック157において、形容詞
句の「adj」と名詞句の「NP」とは名詞句の「N
P」になるという構文規則が適用されて、「きれいな」
が変換された形容詞句の「adj」と「黒い髪の」を表
す名詞句の「NP」とは状態スタック158に示すよう
に名詞句の「NP」に変換される。これによって、「き
れいな」が「髪の」にかかる構造として認識される。
【0035】次に、「女の子を」という発声音声の系列
が認識されて状態スタック159に示すようにポーズを
表示する「△」の上に文字として積まれ、状態スタック
159における「女の子を」の文字は音声認識辞書に載
っているので状態スタック160に示すように名詞句を
表す「NP」という文字に変換される。ここで、状態ス
タック160において「きれいな黒い髪の」を表す名詞
句の「NP」と「女の子を」が変換された名詞句の「N
P」とには、間にポーズを表示する「△」が積まれてい
るので構文規則は適用されない。そして、「見た」とい
う発声音声の系列が認識されて状態スタック161に示
すように「女の子を」が変換された名詞句の「NP」の
上に文字として積まれ、状態スタック161における
「見た」は音声認識用辞書に載っているので状態スタッ
ク162に示すように動詞句を表す「VP」に変換され
る。
が認識されて状態スタック159に示すようにポーズを
表示する「△」の上に文字として積まれ、状態スタック
159における「女の子を」の文字は音声認識辞書に載
っているので状態スタック160に示すように名詞句を
表す「NP」という文字に変換される。ここで、状態ス
タック160において「きれいな黒い髪の」を表す名詞
句の「NP」と「女の子を」が変換された名詞句の「N
P」とには、間にポーズを表示する「△」が積まれてい
るので構文規則は適用されない。そして、「見た」とい
う発声音声の系列が認識されて状態スタック161に示
すように「女の子を」が変換された名詞句の「NP」の
上に文字として積まれ、状態スタック161における
「見た」は音声認識用辞書に載っているので状態スタッ
ク162に示すように動詞句を表す「VP」に変換され
る。
【0036】そして、LRパーザ5で最後のポーズ単位
の末端まで到達していると判断されて、状態スタック1
62におけるポーズを表示する「△」の前後に位置する
「きれいな黒い髪の」を表す名詞句の「NP」と「女の
子を」を表す名詞句の「NP」とにLRテーブルメモリ
13内の構文規則が適用されて、状態スタック163に
示すように名詞句の「NP」に変換されて、さらに状態
スタック164に示すように文章を表す「S」の文字に
変換されて、「きれいな」が「黒い髪の」に係るような
構造の音声認識結果のみが出力される。
の末端まで到達していると判断されて、状態スタック1
62におけるポーズを表示する「△」の前後に位置する
「きれいな黒い髪の」を表す名詞句の「NP」と「女の
子を」を表す名詞句の「NP」とにLRテーブルメモリ
13内の構文規則が適用されて、状態スタック163に
示すように名詞句の「NP」に変換されて、さらに状態
スタック164に示すように文章を表す「S」の文字に
変換されて、「きれいな」が「黒い髪の」に係るような
構造の音声認識結果のみが出力される。
【0037】以上の第1の実施形態の連続音声認識装置
81は、無音区間等を検出して検出信号を出力する無音
区間等検出部30を備え、LRパーザ5は、無音区間等
検出部30から入力された検出信号で示された区切り単
位の音声区間のデータを読み込んで、当該音声区間に対
してHMM−LR法を用いた区間制限付きHMM−LR
処理を実行し、最後の区切り単位の末端まで到達すると
入力された発声音声の1つの文に対して区間制限無しH
MM−LR処理を実行することにより音声認識結果デー
タを出力する。これによって、各区切り単位の音声区間
内における係り受け関係を決定した後、異なる区切り単
位の音声区間に属する語、句又は節の間の係り受け関係
を決定できるので、統語解析における係り受け関係の曖
昧性を解消することができる。
81は、無音区間等を検出して検出信号を出力する無音
区間等検出部30を備え、LRパーザ5は、無音区間等
検出部30から入力された検出信号で示された区切り単
位の音声区間のデータを読み込んで、当該音声区間に対
してHMM−LR法を用いた区間制限付きHMM−LR
処理を実行し、最後の区切り単位の末端まで到達すると
入力された発声音声の1つの文に対して区間制限無しH
MM−LR処理を実行することにより音声認識結果デー
タを出力する。これによって、各区切り単位の音声区間
内における係り受け関係を決定した後、異なる区切り単
位の音声区間に属する語、句又は節の間の係り受け関係
を決定できるので、統語解析における係り受け関係の曖
昧性を解消することができる。
【0038】<第2の実施形態>図7は、本発明に係る
第2の実施形態である連続音声認識装置82のブロック
図である。図7の第2の実施形態の連続音声認識装置8
2は、図1の第1の実施形態の連続音声認識装置81の
隠れマルコフ網メモリ11に代えて隠れマルコフ網メモ
リ11aを備え、かつ無音区間等検出部30を除いて構
成される。第2の実施形態の連続音声認識装置82にお
いては、ポーズや冗長語並びに韻律的な情報等を手がか
りとする区切りなどの無音区間等をHMMでモデル化し
たモデルが隠れマルコフ網メモリ11aに格納され、当
該モデルを用いて無音区間等の検出を音素照合部4で行
っている。
第2の実施形態である連続音声認識装置82のブロック
図である。図7の第2の実施形態の連続音声認識装置8
2は、図1の第1の実施形態の連続音声認識装置81の
隠れマルコフ網メモリ11に代えて隠れマルコフ網メモ
リ11aを備え、かつ無音区間等検出部30を除いて構
成される。第2の実施形態の連続音声認識装置82にお
いては、ポーズや冗長語並びに韻律的な情報等を手がか
りとする区切りなどの無音区間等をHMMでモデル化し
たモデルが隠れマルコフ網メモリ11aに格納され、当
該モデルを用いて無音区間等の検出を音素照合部4で行
っている。
【0039】図8は、図7の連続音声認識装置82にお
いて実行される音声認識処理を示すフローチャートであ
る。以下、図8を参照して第2の実施形態の連続音声認
識装置82の音声認識処理について説明する。まず、ス
テップS10においては、HMM作業域の初期化、並び
にLRパーザ5の初期化を実行する。具体的には、状態
スタック0のセルを1個作成する。そして、ステップS
11において、例えば、特徴パラメータの処理単位であ
る音声フレーム(例えば20ミリ秒)毎に音声データの
読み込みを行い、ステップS12において区間制限付き
HMM−LR処理を実行する。次にステップS13にお
いて無音区間等を検出したか否かが判断され、無音区間
等を検出していない場合はステップS11に進みステッ
プS11,S12の処理が繰り返され、無音区間等を検
出した場合はステップS14に進む。
いて実行される音声認識処理を示すフローチャートであ
る。以下、図8を参照して第2の実施形態の連続音声認
識装置82の音声認識処理について説明する。まず、ス
テップS10においては、HMM作業域の初期化、並び
にLRパーザ5の初期化を実行する。具体的には、状態
スタック0のセルを1個作成する。そして、ステップS
11において、例えば、特徴パラメータの処理単位であ
る音声フレーム(例えば20ミリ秒)毎に音声データの
読み込みを行い、ステップS12において区間制限付き
HMM−LR処理を実行する。次にステップS13にお
いて無音区間等を検出したか否かが判断され、無音区間
等を検出していない場合はステップS11に進みステッ
プS11,S12の処理が繰り返され、無音区間等を検
出した場合はステップS14に進む。
【0040】ステップS14において、すべての音声区
間の音声認識処理が終了したか否かが判断され、すべて
の音声区間の処理が終了していないときは(ステップS
14においてNO)ステップS11に進み、ステップS
11,S12,S13の処理を繰り返し、すべての音声
区間の処理が終了したと判断されると(ステップS14
においてYES)ステップS15に進み、入力された発
声音声の1つの文に対して区間制限無しHMM−LR処
理を実行して音声認識処理を終了する。
間の音声認識処理が終了したか否かが判断され、すべて
の音声区間の処理が終了していないときは(ステップS
14においてNO)ステップS11に進み、ステップS
11,S12,S13の処理を繰り返し、すべての音声
区間の処理が終了したと判断されると(ステップS14
においてYES)ステップS15に進み、入力された発
声音声の1つの文に対して区間制限無しHMM−LR処
理を実行して音声認識処理を終了する。
【0041】以上の第2の実施形態の連続音声認識装置
82は、無音区間等の検出を隠れマルコフ網メモリ11
aに格納されたHMMでモデル化した無音区間等のモデ
ルを使用して音素照合部4で行い、LRパーザ5は、音
声データを読み込んで、1つの音声区間に対してHMM
−LR法を用いた区間制限付きHMM−LR処理を実行
し、各音声区間についての処理が終了すると入力された
発声音声の1つの文に対して区間制限無しHMM−LR
処理を実行することにより音声認識結果データを出力す
る。これによって、各区切り単位の音声区間内における
係り受け関係を決定した後、異なる音声区間に属する
語、句又は節の間の係り受け関係を決定できるので、統
語解析における係り受け関係の曖昧性を解消することが
できる。
82は、無音区間等の検出を隠れマルコフ網メモリ11
aに格納されたHMMでモデル化した無音区間等のモデ
ルを使用して音素照合部4で行い、LRパーザ5は、音
声データを読み込んで、1つの音声区間に対してHMM
−LR法を用いた区間制限付きHMM−LR処理を実行
し、各音声区間についての処理が終了すると入力された
発声音声の1つの文に対して区間制限無しHMM−LR
処理を実行することにより音声認識結果データを出力す
る。これによって、各区切り単位の音声区間内における
係り受け関係を決定した後、異なる音声区間に属する
語、句又は節の間の係り受け関係を決定できるので、統
語解析における係り受け関係の曖昧性を解消することが
できる。
【0042】以上の第1と第2の実施形態においては、
入力された発声音声の1つの文に対して区間制限無しH
MM−LR処理を実行することにより音声認識結果デー
タを出力するようにした。しかしながら、本発明はこれ
に限らず、入力された発声音声の1つの句又は節等の1
つのシーケンスの発声音声に対して区間制限無しHMM
−LR処理を実行するようにしてもよいし、連続音声認
識装置のスイッチがオンされてからオフされるまでの間
に入力される発声音声に対して区間制限無しHMM−L
R処理を実行するようにしてもよい。以上のように構成
しても第1と第2の実施形態と同様に動作し同様の効果
を有する。
入力された発声音声の1つの文に対して区間制限無しH
MM−LR処理を実行することにより音声認識結果デー
タを出力するようにした。しかしながら、本発明はこれ
に限らず、入力された発声音声の1つの句又は節等の1
つのシーケンスの発声音声に対して区間制限無しHMM
−LR処理を実行するようにしてもよいし、連続音声認
識装置のスイッチがオンされてからオフされるまでの間
に入力される発声音声に対して区間制限無しHMM−L
R処理を実行するようにしてもよい。以上のように構成
しても第1と第2の実施形態と同様に動作し同様の効果
を有する。
【0043】以上の第1と第2の実施形態においては、
HMM−LR法を用いた音声認識装置について述べてい
るが、本発明はこれに限らず、ニューラルネットワーク
を用いた音声認識装置など他の種類の音声認識装置に適
用することができる。
HMM−LR法を用いた音声認識装置について述べてい
るが、本発明はこれに限らず、ニューラルネットワーク
を用いた音声認識装置など他の種類の音声認識装置に適
用することができる。
【0044】
【発明の効果】本発明に係る請求項1記載の音声認識装
置によれば、入力された発声音声に基づいてポーズと冗
長語と句又は節の境界とのうちの少なくとも1つを検出
して検出信号を出力する検出手段を備え、上記音声認識
手段は、上記検出信号に基づいて、上記ポーズと冗長語
と句又は節の境界とのうちの少なくとも1つによって分
割された複数の音声区間からなる入力された発声音声の
各音声区間について音声認識処理をした後、異なる音声
区間に属する語、句又は節の間の係り受け関係を決定し
て、上記入力された発声音声の音声認識をしている。こ
れによって、統語解析における係り受け関係の曖昧性を
解消できる。
置によれば、入力された発声音声に基づいてポーズと冗
長語と句又は節の境界とのうちの少なくとも1つを検出
して検出信号を出力する検出手段を備え、上記音声認識
手段は、上記検出信号に基づいて、上記ポーズと冗長語
と句又は節の境界とのうちの少なくとも1つによって分
割された複数の音声区間からなる入力された発声音声の
各音声区間について音声認識処理をした後、異なる音声
区間に属する語、句又は節の間の係り受け関係を決定し
て、上記入力された発声音声の音声認識をしている。こ
れによって、統語解析における係り受け関係の曖昧性を
解消できる。
【0045】
【0046】また、請求項2記載の音声認識装置は、請
求項1記載の音声認識装置において、上記検出手段は、
上記発声音声のパワーが、所定の時間の範囲だけ、所定
のしきい値以下である第1の条件と、上記発声音声のゼ
ロクロスの数が、所定の時間の間において、所定のしき
い値以上である第2の条件とのうち少なくとも1つの条
件が満足することを検出することにより上記ポーズを検
出している。これによって、上記ポーズに基づいて統語
解析における係り受け関係を決定でき、統語解析におけ
る係り受け関係の曖昧性を解消できる。
求項1記載の音声認識装置において、上記検出手段は、
上記発声音声のパワーが、所定の時間の範囲だけ、所定
のしきい値以下である第1の条件と、上記発声音声のゼ
ロクロスの数が、所定の時間の間において、所定のしき
い値以上である第2の条件とのうち少なくとも1つの条
件が満足することを検出することにより上記ポーズを検
出している。これによって、上記ポーズに基づいて統語
解析における係り受け関係を決定でき、統語解析におけ
る係り受け関係の曖昧性を解消できる。
【0047】さらに、請求項3記載の音声認識装置は、
請求項1記載の音声認識装置において、上記検出手段
は、上記ポーズと冗長語と句又は節の境界とのうちの少
なくとも1つを、それぞれの予め決められた言語モデル
に一致するか否かを判断することにより検出している。
これによって、音声認識過程で上記ポーズと冗長語と句
又は節の境界とのうちの少なくとも1つを検出でき、統
語解析における係り受け関係の曖昧性を解消できる。
請求項1記載の音声認識装置において、上記検出手段
は、上記ポーズと冗長語と句又は節の境界とのうちの少
なくとも1つを、それぞれの予め決められた言語モデル
に一致するか否かを判断することにより検出している。
これによって、音声認識過程で上記ポーズと冗長語と句
又は節の境界とのうちの少なくとも1つを検出でき、統
語解析における係り受け関係の曖昧性を解消できる。
【図1】 本発明に係る第1の実施形態である連続音声
認識装置のブロック図である。
認識装置のブロック図である。
【図2】 図1の連続音声認識装置81の音声認識動作
を説明するために用いた第1と第2の2つの係り受け関
係を有する一例文を示す図である。
を説明するために用いた第1と第2の2つの係り受け関
係を有する一例文を示す図である。
【図3】 図1の連続音声認識装置81の音声認識動作
の一例をスタック形式で示す図である。
の一例をスタック形式で示す図である。
【図4】 図1の連続音声認識装置81の音声認識動作
の図3とは異なる例をスタック形式で示す図である。
の図3とは異なる例をスタック形式で示す図である。
【図5】 図2の例文の音声区間、ポーズ(無音区間
等)及びポーズ単位(区切り単位)を示す図である。
等)及びポーズ単位(区切り単位)を示す図である。
【図6】 図1の連続音声認識装置81のLRパーザ5
によって実行される音声認識処理を示すフローチャート
である。
によって実行される音声認識処理を示すフローチャート
である。
【図7】 本発明に係る第2の実施形態である連続音声
認識装置82のブロック図である。
認識装置82のブロック図である。
【図8】 図7の連続音声認識装置82のLRパーザ5
によって実行される音声認識処理を示すフローチャート
である。
によって実行される音声認識処理を示すフローチャート
である。
【図9】 従来例の連続音声認識装置の音声認識動作を
スタック形式で示す図である。
スタック形式で示す図である。
1…マイクロホン、 2…特徴抽出部、 3…バッファメモリ、 4…音素照合部、 5…LRパーザ、 11,11a…隠れマルコフ網メモリ、 12…話者モデルメモリ、 13…LRテーブルメモリ、 20…文脈自由文法データベースメモリ、 30…無音区間等検出部。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭61−285570(JP,A) 特開 平7−261782(JP,A) 日本音響学会講演論文集(平成7年9 月)1−2−12,p.23〜24 情報処理学会技術研究報告[音声言語 情報処理]6−5,p.27〜34(平成7 年5月) (58)調査した分野(Int.Cl.6,DB名) G10L 3/00 561 G10L 3/00 531 JICSTファイル(JOIS)
Claims (3)
- 【請求項1】 入力された発声音声を音声認識して音声
認識結果を出力する音声認識手段を備えた音声認識装置
において、 入力された発声音声に基づいてポーズと冗長語と句又は
節の境界とのうちの少なくとも1つを検出して検出信号
を出力する検出手段を備え、 上記音声認識手段は、上記検出信号に基づいて、上記ポ
ーズと冗長語と句又は節の境界とのうちの少なくとも1
つによって分割された複数の音声区間からなる入力され
た発声音声の各音声区間について音声認識処理をした
後、異なる音声区間に属する語、句又は節の間の係り受
け関係を決定して、上記入力された発声音声の音声認識
をすることを特徴とする音声認識装置。 - 【請求項2】 上記検出手段は、上記発声音声のパワー
が、所定の時間の範囲だけ、所定のしきい値以下である
第1の条件と、上記発声音声のゼロクロスの数が、所定
の時間の間において、所定のしきい値以上である第2の
条件とのうち少なくとも1つの条件が満足することを検
出することにより上記ポーズを検出することを特徴とす
る請求項1記載の音声認識装置。 - 【請求項3】 上記検出手段は、上記ポーズと冗長語と
句又は節の境界とのうちの少なくとも1つを、それぞれ
の予め決められた言語モデルに一致するか否かを判断す
ることにより検出することを特徴とする請求項1記載の
音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7275866A JP2880436B2 (ja) | 1995-10-24 | 1995-10-24 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7275866A JP2880436B2 (ja) | 1995-10-24 | 1995-10-24 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH09114484A JPH09114484A (ja) | 1997-05-02 |
JP2880436B2 true JP2880436B2 (ja) | 1999-04-12 |
Family
ID=17561527
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP7275866A Expired - Lifetime JP2880436B2 (ja) | 1995-10-24 | 1995-10-24 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2880436B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002039426A1 (fr) * | 2000-11-07 | 2002-05-16 | Sony Corporation | Dispositif de reconnaissance vocale |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7031923B1 (en) | 2000-03-06 | 2006-04-18 | International Business Machines Corporation | Verbal utterance rejection using a labeller with grammatical constraints |
JP4105841B2 (ja) * | 2000-07-11 | 2008-06-25 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声認識方法、音声認識装置、コンピュータ・システムおよび記憶媒体 |
JP2006171096A (ja) * | 2004-12-13 | 2006-06-29 | Ntt Docomo Inc | 連続入力音声認識装置および連続入力音声認識方法 |
-
1995
- 1995-10-24 JP JP7275866A patent/JP2880436B2/ja not_active Expired - Lifetime
Non-Patent Citations (2)
Title |
---|
情報処理学会技術研究報告[音声言語情報処理]6−5,p.27〜34(平成7年5月) |
日本音響学会講演論文集(平成7年9月)1−2−12,p.23〜24 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002039426A1 (fr) * | 2000-11-07 | 2002-05-16 | Sony Corporation | Dispositif de reconnaissance vocale |
US7240002B2 (en) | 2000-11-07 | 2007-07-03 | Sony Corporation | Speech recognition apparatus |
Also Published As
Publication number | Publication date |
---|---|
JPH09114484A (ja) | 1997-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zissman et al. | Automatic language identification | |
US20180254036A1 (en) | Speech recognition method and apparatus | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
US7974843B2 (en) | Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer | |
JP3126985B2 (ja) | 音声認識システムの言語モデルのサイズを適応させるための方法および装置 | |
JP3162994B2 (ja) | 音声のワードを認識する方法及び音声のワードを識別するシステム | |
EP0849723A2 (en) | Speech recognition apparatus equipped with means for removing erroneous candidate of speech recognition | |
JPH07219578A (ja) | 音声認識方法 | |
JP3459712B2 (ja) | 音声認識方法及び装置及びコンピュータ制御装置 | |
JP3535292B2 (ja) | 音声認識システム | |
US20040006469A1 (en) | Apparatus and method for updating lexicon | |
Zhang et al. | Improved context-dependent acoustic modeling for continuous Chinese speech recognition | |
EP1213706B1 (en) | Method for online adaptation of pronunciation dictionaries | |
JP2880436B2 (ja) | 音声認識装置 | |
JP2886117B2 (ja) | 音声認識装置 | |
JP2871557B2 (ja) | 音声認識装置 | |
US6772116B2 (en) | Method of decoding telegraphic speech | |
JP2871420B2 (ja) | 音声対話システム | |
JP2905686B2 (ja) | 音声認識装置 | |
JP4962962B2 (ja) | 音声認識装置、自動翻訳装置、音声認識方法、プログラム、及びデータ構造 | |
JPH07261785A (ja) | 音声認識方法及び音声認識装置 | |
JPH10171490A (ja) | 連続音声認識装置 | |
JP2852210B2 (ja) | 不特定話者モデル作成装置及び音声認識装置 | |
JPH08314490A (ja) | ワードスポッティング型音声認識方法と装置 | |
CN113506561B (zh) | 文本拼音的转换方法及装置、存储介质及电子设备 |