JPH10254481A - 音声認識方法 - Google Patents
音声認識方法Info
- Publication number
- JPH10254481A JPH10254481A JP9060238A JP6023897A JPH10254481A JP H10254481 A JPH10254481 A JP H10254481A JP 9060238 A JP9060238 A JP 9060238A JP 6023897 A JP6023897 A JP 6023897A JP H10254481 A JPH10254481 A JP H10254481A
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- node
- speech
- word dictionary
- grammar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
と,単語辞書に必要なメモリ量の削減を可能にする。 【解決手段】 単語辞書13を木構造ではなく,ネットワ
ーク構造で記述し,音声認識部11では,単語履歴情報の
代わりに音素履歴情報(音素グラフ)を保存して,文候
補作成部16では,この音素履歴情報(音素グラフ)から
時間を逆向きにたどることにより,上位の文候補を複数
個作成する。
Description
とを用い,音声を自動認識する音声認識方法に関する。
を参照して説明する。図6は従来方法を説明するための
ブロック図である。
は,パラメータに変換される。音声認識部61では,学
習などによって得られた音素モデル64を用い,文法6
2と単語辞書63から参照モデルを作成し,入力音声と
のマッチングが図られる。この途中結果は単語履歴保存
部65に保存される。文候補作成部66では,この単語
履歴を参照して,尤度の高い文候補を複数出力する。
すようなネットワーク文法で書かれており,ここでは,
「姓」,「姓」+「助詞」+…,「姓」+「名」,
「姓」+「名」+「助詞」+…,「会社名」+「助詞」
+…などが文法上正しいことが示されている。図7
(A)のネットワークにおいて,数字はノード番号を表
している。黒丸のノードは終端のノードである。
ようになっており,ノード情報71としてアークへのポ
インタ情報を持つ。アークのデータ構造は,図7(C)
に示すようになっており,アーク情報72は,文法要素
と,次のアークへのポインタと,前のノードの番号と,
次のノードの番号からなる。
1の構造は,図7(D)に示すように,ノード情報71
に続いて,第1のアーク情報72−1,それからポイン
トされる第2のアーク情報72−2,それからポイント
される第3のアーク情報72−3となっている。
木構造で書かれている。この例は「姓」の単語辞書の例
であり,姓の音素列として,o,oka,oki,n
a,naka,naki,mia,miiが存在するこ
とが示されている。
音素モデル64をつなぎ合わせて参照モデルを作りだ
し,入力音声とのマッチングを各時刻で行っていく。こ
の過程で,文法のネットワークが次に変わるときに,マ
ッチング結果を単語履歴保存部65に保存していく。単
語履歴保存部65では,図9(A)のような単語履歴の
表に,図9(B)のようなリストを挿入したものを記憶
する。すなわち,単語履歴の表に記述する情報は,その
時刻までの尤度と,認識結果の単語と,この単語の前の
文法ノードの番号と,前の文法ノードの時刻である。こ
のとき,ある時刻のある文法ノードに到達する仮説は複
数あるので,尤度順に仮説の履歴を保存していく。
した後,文候補作成部66で,この表を音声の最終の時
刻からつなぎ合わせて,全ての可能な候補を作成し,尤
度の高い順に並べることで上位数個の文候補を作成して
いく。
書63は,図8のように品詞毎に木構造の形式で作成し
ていた。このため,図8のように末端に行くに従って探
索すべき単語のノード数が大きくなり,探索は効率的で
はなかった。また,この単語辞書63を格納するメモリ
も非常に大きなものが必要であった。
格納情報を共通の接尾辞について併合し,従来の探索区
間を大幅に削減して認識時間を削減するとともに,単語
辞書に必要なメモリの削減を可能にすることを目的とす
る。
構造ではなく,ネットワーク構造で記述し,音声認識部
では,単語履歴情報の代わりに音素履歴情報(音素グラ
フ)を保存して,文候補作成部では,この音素履歴情報
(音素グラフ)から時間を逆向きにたどることにより,
上位の文候補を複数個作成する。
構造で記述することで,探索すべきノードの数を大幅に
削減することができる。
て図面を参照して説明する。図1は,本発明の概要説明
図である。
は,パラメータに変換され,音声認識部11では,学習
などによって得られた音素モデル14を用い,文法12
と単語辞書13から参照モデルを作成し,入力音声との
マッチングが図られる。
技術として説明した図7と全く同じである。単語辞書1
3は,本発明では図1(B)のように,ネットワーク文
法で記述される。各ノードに付されている数字はノード
番号を表している。黒丸のノードは終端のノードであ
る。
構造の例を示している。図2(A)のネットワークは,
従来技術として説明した図8の姓の単語辞書と同様な情
報を表すものである。単語辞書13におけるノードのデ
ータ構造は,図2(B)に示すようになっており,ノー
ド情報21は,アークへのポインタと音素履歴表の番号
からなる。アークのデータ構造は,図2(C)に示すよ
うになっており,アーク情報22は,音素と,次のアー
クへのポインタと,前のノードの番号と,次のノードの
番号からなる。
1の構造は,図2(D)に示すようになっている。ま
ず,ノード情報21として,第1のアーク情報22−1
へのポインタと,音素履歴表の番号1が設定されてい
る。第1のアーク情報22−1は,音素“o”,第2の
アーク情報22−2へのポインタ,前のノードの番号
1,次のノードの番号4からなる。第2のアーク情報2
2−2は,音素“n”,第3のアーク情報22−3への
ポインタ,前のノードの番号1,次のノードの番号2か
らなる。第3のアーク情報22−3は,音素“m”,次
のアークがないことを示す情報“NULL”,前のノー
ドの番号1,次のノードの番号3からなる。
ング処理が移るときに,音素履歴保存部15に保存され
る。音素履歴保存部15では,図3(A)のような音素
履歴の表(テーブル)に,図3(B)のようなリストを
挿入したものを記憶する。すなわち,音素履歴の表に記
述する情報は,その時刻までの尤度31と,認識結果の
音素32と,この単語の前の音素ノードの番号33と,
現在の文法ノードの番号34と,一つ前の文法ノードの
番号35と,一つ前のノードの時刻36である。一つ前
の文法ノードの番号35は,文法ノードを遷移するとき
に記入される。このとき,ある時刻のある音素ノードに
到達する仮説は複数あるので,図3(B)に示すリスト
を使って,尤度順に仮説の履歴を保存していく。
えば,図2(A)に示すような単語辞書において,第1
候補の音素列がo→k→iであったとする。第4(A)
のように,時刻3における音素ノードの番号4の欄か
ら,図4(B)のリストがポイントされる。このリスト
では,時刻3までの尤度31として値“100”が設定
され,認識結果の音素32として“o”が設定され,前
の音素ノードの番号33として“1”が設定され,現在
の文法ノードの番号34として“1”が設定され,,一
つ前の文法ノードの番号35として“0”が設定され,
一つ前のノードの時刻36として“0”が設定されてい
る。
ける音素ノードの番号5の欄から,図4(C)のリスト
がポイントされる。このリストでは,時刻6までの尤度
31として値“200”が設定され,認識結果の音素3
2として“k”が設定され,前の音素ノードの番号33
として“4”が設定され,現在の文法ノードの番号34
として“1”が設定され,,一つ前の文法ノードの番号
35として“0”が設定され,一つ前のノードの時刻3
6として“3”が設定されている。
ける音素ノードの番号6の欄から,図4(D)のリスト
がポイントされる。設定内容の詳細については,図4
(C)の場合などと同様である。
した後,文候補作成部16で,この音声履歴の表を参照
し,音声の最終の時刻から音素一つ一つをつなぎ合わせ
て,全ての可能な候補を作成し,尤度の高い順に並べる
ことで上位数個の文候補を作成していく。
るためのHMMの説明図である。音声認識部11におけ
る尤度の計算には,HMM(Hidden Markov Model)など
が用いられる。ここでは,HMMを用いた場合の尤度計
算について説明する。HMMでは,通常,音素ごとに図
5(A)に示すような構造のモデルが作られている。H
MMは,状態とアークで構成されている。各状態は,音
素内部の細かな事象を表す。例えば“t”という発声で
あれば,発声前の口を閉じた状態,“t”の破裂部分の
発声の状態,後の母音への渡りの状態などの事象を表し
ている。
率(aij)と,入力音声がその事象に近いかどうかを計
算するための関数(bij(x))が保存されている。パ
ターンのマッチングは,図5(B)のように,入力音声
と音素HMMの状態間の経路の尤度が最大となる経路を
見つけることで実現される。ここで用いている尤度と
は,この経路の値を指している。
ネット,DPマッチングなどでも同様の計算が実現でき
る。音声認識部11における前向きの探索アルゴリズム
と,文候補作成部16における後向きの探索アルゴリズ
ムの例を,以下に説明する。
ークの最初のノードに設定する。 (2)各文法のノードに対して,以下の(2.1), (2.2)の
処理を行う。
て,単語辞書内のネットワークの最初に候補を渡す。 (2.2) もし,複数の候補が同じ辞書ネットワークの最初
に到達した場合には,音素履歴の表に記入し,最大の尤
度のものだけ残す。 (3)すべての辞書ネットワークの内部に対して,以下
の(3.1), (3.2)の処理を行う。
上の候補に対して,以下の(3.1.1), (3.1.2)の処理を行
う。 (3.1.1) 時刻を一つ進めてマッチングを行い,候補の尤
度を計算する。
い場合には,枝刈りを行う。 (3.2) すべての辞書ネットワークのノード上の候補に対
して,以下の(3.2.1), (3.2.2)の処理を行う。
を送る。もし,複数の候補が同じノードにたどりついた
場合には,尤度が最大の候補のみ残して,音素履歴の表
に記入する。
ば,この候補を文法ネットワークへ送り出す。以上の動
作を時刻が入力パターンの長さになるまで繰り返す。
ノードから,音素履歴の表を時間の逆向きにたどること
で,上位から複数個の候補を作成する。戻るのに必要な
情報はすべて音素履歴の表の中に記入してある。
作成して評価を行った結果,従来のシステムではメモリ
が不足し実行できないものが,本手法を用いることによ
って,5位までの候補に対して97%の認識率を達成す
ることができた。
単語辞書をネットワーク構造にすることによって従来の
探索区間を大幅に削減し,必要なメモリの削減を行うこ
とができる。
す図である。
Mの説明図である。
Claims (1)
- 【請求項1】 認識対象となる単語を記憶する単語辞書
と文法情報の記憶手段とを持ち,入力音声を認識する音
声認識方法において,単語辞書のデータ構造をネットワ
ーク構造とし,文法と単語辞書から入力音声の音素とマ
ッチングする音素系列の履歴情報を保存し,保存した音
声系列の履歴情報をたどることにより複数の候補を認識
結果として出力することを特徴とする音声認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP06023897A JP3535688B2 (ja) | 1997-03-14 | 1997-03-14 | 音声認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP06023897A JP3535688B2 (ja) | 1997-03-14 | 1997-03-14 | 音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH10254481A true JPH10254481A (ja) | 1998-09-25 |
JP3535688B2 JP3535688B2 (ja) | 2004-06-07 |
Family
ID=13136407
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP06023897A Expired - Fee Related JP3535688B2 (ja) | 1997-03-14 | 1997-03-14 | 音声認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3535688B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002108389A (ja) * | 2000-09-29 | 2002-04-10 | Matsushita Electric Ind Co Ltd | 音声による個人名称検索、抽出方法およびその装置と車載ナビゲーション装置 |
US7240008B2 (en) | 2001-10-03 | 2007-07-03 | Denso Corporation | Speech recognition system, program and navigation system |
WO2017016126A1 (zh) * | 2015-07-29 | 2017-02-02 | 百度在线网络技术(北京)有限公司 | 语音识别语法树的构图方法、装置、终端设备及存储介质 |
-
1997
- 1997-03-14 JP JP06023897A patent/JP3535688B2/ja not_active Expired - Fee Related
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002108389A (ja) * | 2000-09-29 | 2002-04-10 | Matsushita Electric Ind Co Ltd | 音声による個人名称検索、抽出方法およびその装置と車載ナビゲーション装置 |
US7240008B2 (en) | 2001-10-03 | 2007-07-03 | Denso Corporation | Speech recognition system, program and navigation system |
WO2017016126A1 (zh) * | 2015-07-29 | 2017-02-02 | 百度在线网络技术(北京)有限公司 | 语音识别语法树的构图方法、装置、终端设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP3535688B2 (ja) | 2004-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5327054B2 (ja) | 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム | |
JP4465564B2 (ja) | 音声認識装置および音声認識方法、並びに記録媒体 | |
US5502791A (en) | Speech recognition by concatenating fenonic allophone hidden Markov models in parallel among subwords | |
US5241619A (en) | Word dependent N-best search method | |
JPH01137297A (ja) | 音声認識装置 | |
JP2000075895A (ja) | 連続音声認識用n最良検索方法 | |
JP2009518677A (ja) | 莫大な語彙を有する音声認識システム | |
JPS62231995A (ja) | 音声認識方法 | |
JPH0981183A (ja) | 音声モデルの作成方法およびこれを用いた音声認識装置 | |
EP0562138A1 (en) | Method and apparatus for the automatic generation of Markov models of new words to be added to a speech recognition vocabulary | |
JP2002539482A (ja) | 見本音声を決定するための方法及び装置 | |
JP4600706B2 (ja) | 音声認識装置および音声認識方法、並びに記録媒体 | |
Seide et al. | Towards an automated directory information system. | |
JPH10254481A (ja) | 音声認識方法 | |
JP4595415B2 (ja) | 音声検索システムおよび方法ならびにプログラム | |
Hanazawa et al. | An efficient search method for large-vocabulary continuous-speech recognition | |
Schukat-Talamazzini et al. | ISADORA| A Speech Modelling Network Based on Hidden Markov Models | |
JP3532248B2 (ja) | 学習音声パタンモデル使用音声認識装置 | |
JPH1097275A (ja) | 大語彙音声認識装置 | |
Nakagawa et al. | The syntax-oriented speech understanding system-SPOJUS-SYNO. | |
JP4600705B2 (ja) | 音声認識装置および音声認識方法、並びに記録媒体 | |
Sugamura et al. | Speech processing technologies and telecommunications applications at NTT | |
JPH11190999A (ja) | 音声スポッティング装置 | |
US20070271096A1 (en) | Voice Recognition Method And System Based On The Contexual Modeling Of Voice Units | |
JPH11184493A (ja) | 音声認識装置および方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040309 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040312 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: R3D02 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090319 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090319 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100319 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |