JP3535688B2 - Voice recognition method - Google Patents

Voice recognition method

Info

Publication number
JP3535688B2
JP3535688B2 JP06023897A JP6023897A JP3535688B2 JP 3535688 B2 JP3535688 B2 JP 3535688B2 JP 06023897 A JP06023897 A JP 06023897A JP 6023897 A JP6023897 A JP 6023897A JP 3535688 B2 JP3535688 B2 JP 3535688B2
Authority
JP
Japan
Prior art keywords
phoneme
node
grammar
information
word dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP06023897A
Other languages
Japanese (ja)
Other versions
JPH10254481A (en
Inventor
泰浩 南
貞▲煕▼ 古井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP06023897A priority Critical patent/JP3535688B2/en
Publication of JPH10254481A publication Critical patent/JPH10254481A/en
Application granted granted Critical
Publication of JP3535688B2 publication Critical patent/JP3535688B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 【0001】 【発明の属する技術分野】この発明は,単語辞書と文法
とを用い,音声を自動認識する音声認識方法に関する。 【0002】 【従来の技術】従来までの音声認識方法を,図6〜図9
を参照して説明する。図6は従来方法を説明するための
ブロック図である。 【0003】音響分析部60を介して入力された音声
は,パラメータに変換される。音声認識部61では,学
習などによって得られた音素モデル64を用い,文法6
2と単語辞書63から参照モデルを作成し,入力音声と
のマッチングが図られる。この途中結果は単語履歴保存
部65に保存される。文候補作成部66では,この単語
履歴を参照して,尤度の高い文候補を複数出力する。 【0004】ここで,文法62は,通常図7(A)に示
すようなネットワーク文法で書かれており,ここでは,
「姓」,「姓」+「助詞」+…,「姓」+「名」,
「姓」+「名」+「助詞」+…,「会社名」+「助詞」
+…などが文法上正しいことが示されている。図7
(A)のネットワークにおいて,数字はノード番号を表
している。黒丸のノードは終端のノードである。 【0005】ノードのデータ構造は,図7(B)に示す
ようになっており,ノード情報71としてアークへのポ
インタ情報を持つ。アークのデータ構造は,図7(C)
に示すようになっており,アーク情報72は,文法要素
と,次のアークへのポインタと,前のノードの番号と,
次のノードの番号からなる。 【0006】例えば,図7(A)に示す1番目のノード
1の構造は,図7(D)に示すように,ノード情報71
に続いて,第1のアーク情報72−1,それからポイン
トされる第2のアーク情報72−2,それからポイント
される第3のアーク情報72−3となっている。 【0007】一方,単語辞書63は,図8に示すように
木構造で書かれている。この例は「姓」の単語辞書の例
であり,姓の音素列として,o,oka,oki,n
a,naka,naki,mia,miiが存在するこ
とが示されている。 【0008】音声認識部61では,この2つの構造から
音素モデル64をつなぎ合わせて参照モデルを作りだ
し,入力音声とのマッチングを各時刻で行っていく。こ
の過程で,文法のネットワークが次に変わるときに,マ
ッチング結果を単語履歴保存部65に保存していく。単
語履歴保存部65では,図9(A)のような単語履歴の
表に,図9(B)のようなリストを挿入したものを記憶
する。すなわち,単語履歴の表に記述する情報は,その
時刻までの尤度と,認識結果の単語と,この単語の前の
文法ノードの番号と,前の文法ノードの時刻である。こ
のとき,ある時刻のある文法ノードに到達する仮説は複
数あるので,尤度順に仮説の履歴を保存していく。 【0009】音声認識部61でこの単語履歴の表を作成
した後,文候補作成部66で,この表を音声の最終の時
刻からつなぎ合わせて,全ての可能な候補を作成し,尤
度の高い順に並べることで上位数個の文候補を作成して
いく。 【0010】 【発明が解決しようとする課題】従来方法では,単語辞
書63は,図8のように品詞毎に木構造の形式で作成し
ていた。このため,図8のように末端に行くに従って探
索すべき単語のノード数が大きくなり,探索は効率的で
はなかった。また,この単語辞書63を格納するメモリ
も非常に大きなものが必要であった。 【0011】本発明は,音声認識に用いる単語辞書への
格納情報を共通の接尾辞について併合し,従来の探索区
間を大幅に削減して認識時間を削減するとともに,単語
辞書に必要なメモリの削減を可能にすることを目的とす
る。 【0012】 【課題を解決するための手段】本発明は,単語辞書を木
構造ではなく,ネットワーク構造で記述し,音声認識部
では,単語履歴情報の代わりに音素履歴情報(音素グラ
フ)を保存して,文候補作成部では,この音素履歴情報
(音素グラフ)から時間を逆向きにたどることにより,
上位の文候補を複数個作成する。詳しくは,本発明は,
音素ノードをアークで結ぶネットワーク構造のデータ構
造で,認識対象となる単語を記憶する単語辞書と,文法
ノードをアークで結ぶネットワーク構造のデータ構造
で,文法を記憶する文法情報の記憶手段とを持ち,前記
単語辞書と前記文法情報の記憶手段とを用いて入力音声
を認識する音声認識方法であって,前記文法情報の記憶
手段と前記単語辞書から前記ネットワーク構造のデータ
をたどることにより,入力音声の音素とマッチングする
音素系列の履歴情報として,各入力音声の音素の時刻ま
での尤度と,認識結果の音素と,この単語の前の音素ノ
ードの番号と,現在の文法ノードの番号と,一つ前の文
法ノードの番号と,一つ前のノードの時刻とを保存する
ステップと,保存した前記音素系列の履歴情報を参照
し,入力音声の最終時刻から開始時刻に向かって音素一
つ一つをつなぎ合わせて可能な認識候補を作成し,認識
候補を尤度の高い順に並べることにより複数の候補を認
識結果として出力するステップとを有することを特徴と
する。 【0013】本発明によれば,単語辞書をネットワーク
構造で記述することで,探索すべきノードの数を大幅に
削減することができる。 【0014】 【発明の実施の形態】以下,本発明の実施の形態につい
て図面を参照して説明する。図1は,本発明の概要説明
図である。 【0015】音響分析部10を介して入力された音声
は,パラメータに変換され,音声認識部11では,学習
などによって得られた音素モデル14を用い,文法12
と単語辞書13から参照モデルを作成し,入力音声との
マッチングが図られる。 【0016】このときの文法12のデータ構造は,従来
技術として説明した図7と全く同じである。単語辞書1
3は,本発明では図1(B)のように,ネットワーク文
法で記述される。各ノードに付されている数字はノード
番号を表している。黒丸のノードは終端のノードであ
る。 【0017】図2は,本発明における単語辞書のデータ
構造の例を示している。図2(A)のネットワークは,
従来技術として説明した図8の姓の単語辞書と同様な情
報を表すものである。単語辞書13におけるノードのデ
ータ構造は,図2(B)に示すようになっており,ノー
ド情報21は,アークへのポインタと音素履歴表の番号
からなる。アークのデータ構造は,図2(C)に示すよ
うになっており,アーク情報22は,音素と,次のアー
クへのポインタと,前のノードの番号と,次のノードの
番号からなる。 【0018】例えば,図2(A)に示す1番目のノード
1の構造は,図2(D)に示すようになっている。ま
ず,ノード情報21として,第1のアーク情報22−1
へのポインタと,音素履歴表の番号1が設定されてい
る。第1のアーク情報22−1は,音素“o”,第2の
アーク情報22−2へのポインタ,前のノードの番号
1,次のノードの番号4からなる。第2のアーク情報2
2−2は,音素“n”,第3のアーク情報22−3への
ポインタ,前のノードの番号1,次のノードの番号2か
らなる。第3のアーク情報22−3は,音素“m”,次
のアークがないことを示す情報“NULL”,前のノー
ドの番号1,次のノードの番号3からなる。 【0019】認識の途中結果は,音素から音素へマッチ
ング処理が移るときに,音素履歴保存部15に保存され
る。音素履歴保存部15では,図3(A)のような音素
履歴の表(テーブル)に,図3(B)のようなリストを
挿入したものを記憶する。すなわち,音素履歴の表に記
述する情報は,その時刻までの尤度31と,認識結果の
音素32と,この単語の前の音素ノードの番号33と,
現在の文法ノードの番号34と,一つ前の文法ノードの
番号35と,一つ前のノードの時刻36である。一つ前
の文法ノードの番号35は,文法ノードを遷移するとき
に記入される。このとき,ある時刻のある音素ノードに
到達する仮説は複数あるので,図3(B)に示すリスト
を使って,尤度順に仮説の履歴を保存していく。 【0020】図4は,音素履歴の表の作成例を示す。例
えば,図2(A)に示すような単語辞書において,第1
候補の音素列がo→k→iであったとする。第4(A)
のように,時刻3における音素ノードの番号4の欄か
ら,図4(B)のリストがポイントされる。このリスト
では,時刻3までの尤度31として値“100”が設定
され,認識結果の音素32として“o”が設定され,前
の音素ノードの番号33として“1”が設定され,現在
の文法ノードの番号34として“1”が設定され,,一
つ前の文法ノードの番号35として“0”が設定され,
一つ前のノードの時刻36として“0”が設定されてい
る。 【0021】また,2番目のリストとして,時刻6にお
ける音素ノードの番号5の欄から,図4(C)のリスト
がポイントされる。このリストでは,時刻6までの尤度
31として値“200”が設定され,認識結果の音素3
2として“k”が設定され,前の音素ノードの番号33
として“4”が設定され,現在の文法ノードの番号34
として“1”が設定され,,一つ前の文法ノードの番号
35として“0”が設定され,一つ前のノードの時刻3
6として“3”が設定されている。 【0022】また,3番目のリストとして,時刻9にお
ける音素ノードの番号6の欄から,図4(D)のリスト
がポイントされる。設定内容の詳細については,図4
(C)の場合などと同様である。 【0023】音声認識部11でこの音素履歴の表を作成
した後,文候補作成部16で,この音声履歴の表を参照
し,音声の最終の時刻から音素一つ一つをつなぎ合わせ
て,全ての可能な候補を作成し,尤度の高い順に並べる
ことで上位数個の文候補を作成していく。 【0024】図5は,音声認識部における尤度を計算す
るためのHMMの説明図である。音声認識部11におけ
る尤度の計算には,HMM(Hidden Markov Model)など
が用いられる。ここでは,HMMを用いた場合の尤度計
算について説明する。HMMでは,通常,音素ごとに図
5(A)に示すような構造のモデルが作られている。H
MMは,状態とアークで構成されている。各状態は,音
素内部の細かな事象を表す。例えば“t”という発声で
あれば,発声前の口を閉じた状態,“t”の破裂部分の
発声の状態,後の母音への渡りの状態などの事象を表し
ている。 【0025】各状態には,状態を遷移するための遷移確
率(aij)と,入力音声がその事象に近いかどうかを計
算するための関数(bij(x))が保存されている。パ
ターンのマッチングは,図5(B)のように,入力音声
と音素HMMの状態間の経路の尤度が最大となる経路を
見つけることで実現される。ここで用いている尤度と
は,この経路の値を指している。 【0026】これ以外の尤度計算法,例えばニューラル
ネット,DPマッチングなどでも同様の計算が実現でき
る。音声認識部11における前向きの探索アルゴリズム
と,文候補作成部16における後向きの探索アルゴリズ
ムの例を,以下に説明する。 【0027】〔前向きの探索アルゴリズム〕 (1)まず,初期化を行う。一つの候補を文法ネットワ
ークの最初のノードに設定する。 (2)各文法のノードに対して,以下の(2.1), (2.2)の
処理を行う。 【0028】(2.1) 文法ノード上のすべての候補に対し
て,単語辞書内のネットワークの最初に候補を渡す。 (2.2) もし,複数の候補が同じ辞書ネットワークの最初
に到達した場合には,音素履歴の表に記入し,最大の尤
度のものだけ残す。 (3)すべての辞書ネットワークの内部に対して,以下
の(3.1), (3.2)の処理を行う。 【0029】(3.1) すべての辞書ネットワークのノード
上の候補に対して,以下の(3.1.1), (3.1.2)の処理を行
う。 (3.1.1) 時刻を一つ進めてマッチングを行い,候補の尤
度を計算する。 【0030】(3.1.2) もし,候補の尤度が十分に高くな
い場合には,枝刈りを行う。 (3.2) すべての辞書ネットワークのノード上の候補に対
して,以下の(3.2.1), (3.2.2)の処理を行う。 【0031】(3.2.1) ネットワークの次のノードに候補
を送る。もし,複数の候補が同じノードにたどりついた
場合には,尤度が最大の候補のみ残して,音素履歴の表
に記入する。 【0032】(3.2.2) もし,ノードが終端ノードであれ
ば,この候補を文法ネットワークへ送り出す。以上の動
作を時刻が入力パターンの長さになるまで繰り返す。 【0033】〔後向きの探索アルゴリズム〕文法の終端
ノードから,音素履歴の表を時間の逆向きにたどること
で,上位から複数個の候補を作成する。戻るのに必要な
情報はすべて音素履歴の表の中に記入してある。 【0034】この方法を用いて電話番号案内システムを
作成して評価を行った結果,従来のシステムではメモリ
が不足し実行できないものが,本手法を用いることによ
って,5位までの候補に対して97%の認識率を達成す
ることができた。 【0035】 【発明の効果】以上説明したように,本発明によれば,
単語辞書をネットワーク構造にすることによって従来の
探索区間を大幅に削減し,必要なメモリの削減を行うこ
とができる。
Description: BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech recognition method for automatically recognizing speech using a word dictionary and grammar. 2. Description of the Related Art Conventional speech recognition methods are shown in FIGS.
This will be described with reference to FIG. FIG. 6 is a block diagram for explaining a conventional method. [0003] The voice input through the acoustic analysis unit 60 is converted into parameters. The speech recognition unit 61 uses the phoneme model 64 obtained by learning or the like to
2 and a word dictionary 63, a reference model is created, and matching with the input speech is achieved. This intermediate result is stored in the word history storage unit 65. The sentence candidate creating unit 66 outputs a plurality of sentence candidates with high likelihood by referring to the word history. Here, the grammar 62 is usually written in a network grammar as shown in FIG. 7 (A).
"Last name", "Last name" + "Particle" + ..., "Last name" + "First name",
"Last name" + "First name" + "Particle" + ..., "Company name" + "Particle"
+ ... etc. are shown to be grammatically correct. FIG.
In the network of (A), numbers represent node numbers. The black circle node is the terminal node. [0005] The data structure of a node is as shown in FIG. 7 (B), and has pointer information to an arc as node information 71. The data structure of the arc is shown in Fig. 7 (C).
The arc information 72 includes a grammar element, a pointer to the next arc, the number of the previous node,
It consists of the number of the next node. For example, as shown in FIG. 7D, the structure of the first node 1 shown in FIG.
Next, there are first arc information 72-1, second arc information 72-2 pointed from it, and third arc information 72-3 pointed from it. On the other hand, the word dictionary 63 is written in a tree structure as shown in FIG. This example is an example of a word dictionary of "last name", and o, oka, oki, n
It is shown that a, Naka, Naka, Mia, and Mii exist. The speech recognition section 61 creates a reference model by connecting the phoneme models 64 from these two structures, and performs matching with the input speech at each time. In this process, when the grammar network changes next, the matching result is stored in the word history storage unit 65. The word history storage unit 65 stores a table in which a list as shown in FIG. 9B is inserted in a word history table as shown in FIG. 9A. That is, the information described in the word history table is the likelihood up to that time, the word of the recognition result, the number of the grammar node before this word, and the time of the previous grammar node. At this time, since there are a plurality of hypotheses reaching a certain grammar node at a certain time, the history of the hypotheses is stored in order of likelihood. After the speech recognition unit 61 creates this word history table, the sentence candidate creation unit 66 connects the tables from the last time of the speech to create all possible candidates, and calculates the likelihood. By arranging them in descending order, several top sentence candidates are created. [0010] In the conventional method, the word dictionary 63 is created in the form of a tree structure for each part of speech as shown in FIG. Therefore, as shown in FIG. 8, the number of nodes of the word to be searched increases toward the end, and the search is not efficient. Also, a very large memory was required to store the word dictionary 63. According to the present invention, information stored in a word dictionary used for speech recognition is merged with respect to a common suffix, so that the conventional search section is greatly reduced to reduce the recognition time and the memory required for the word dictionary. The purpose is to enable reduction. According to the present invention, a word dictionary is described not in a tree structure but in a network structure, and a speech recognition unit stores phoneme history information (phoneme graph) instead of word history information. Then, the sentence candidate creation unit traces the time in the reverse direction from the phoneme history information (phoneme graph),
Create multiple top sentence candidates. Specifically, the present invention
Data structure of network structure connecting phoneme nodes with arcs
And a grammar that stores words to be recognized.
Data structure of network structure connecting nodes with arcs
Having grammar information storage means for storing grammar,
Input speech using a word dictionary and a storage unit for the grammatical information
A speech recognition method for recognizing grammar information, comprising:
Means and data of the network structure from the word dictionary
To match the phoneme of the input speech
The phoneme sequence history information includes the time of the phoneme of each input voice.
, The phoneme of the recognition result, and the phoneme
Number, the current grammar node number, and the previous sentence
Saves the number of the modulo node and the time of the previous node
Refer to step and saved history information of the phoneme sequence
Then, the phoneme from the last time to the start time of the input voice
Create possible recognition candidates by connecting each one, and recognize
Multiple candidates are recognized by arranging candidates in descending order of likelihood.
And outputting the result as a recognition result.
I do. According to the present invention, the number of nodes to be searched can be significantly reduced by describing the word dictionary in a network structure. Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 is a schematic explanatory diagram of the present invention. The speech input through the acoustic analysis unit 10 is converted into parameters, and the speech recognition unit 11 uses a phoneme model 14 obtained by learning or the like to generate a grammar 12
Then, a reference model is created from the word dictionary 13 and matching with the input speech is achieved. The data structure of the grammar 12 at this time is exactly the same as that of FIG. Word dictionary 1
3 is described by a network grammar in the present invention as shown in FIG. The number assigned to each node indicates a node number. The black circle node is the terminal node. FIG. 2 shows an example of the data structure of the word dictionary according to the present invention. The network in FIG.
This represents the same information as the surname word dictionary of FIG. 8 described as the related art. The data structure of the nodes in the word dictionary 13 is as shown in FIG. 2B, and the node information 21 includes a pointer to an arc and the number of a phoneme history table. The data structure of the arc is as shown in FIG. 2C, and the arc information 22 includes a phoneme, a pointer to the next arc, the number of the previous node, and the number of the next node. For example, the structure of the first node 1 shown in FIG. 2A is as shown in FIG. First, as node information 21, first arc information 22-1
And a phoneme history table number 1 are set. The first arc information 22-1 includes a phoneme "o", a pointer to the second arc information 22-2, the number of the previous node, and the number 4 of the next node. Second arc information 2
2-2 comprises a phoneme "n", a pointer to the third arc information 22-3, the number of the previous node, and the number 2 of the next node. The third arc information 22-3 includes a phoneme "m", information "NULL" indicating that there is no next arc, the number of the previous node, and the number 3 of the next node. The intermediate result of the recognition is stored in the phoneme history storage unit 15 when the matching process shifts from phoneme to phoneme. The phoneme history storage unit 15 stores a table in which a list as shown in FIG. 3B is inserted into a phoneme history table as shown in FIG. That is, the information described in the phoneme history table includes the likelihood 31 up to that time, the phoneme 32 of the recognition result, the number 33 of the phoneme node before this word,
The number 34 of the current grammar node, the number 35 of the previous grammar node, and the time 36 of the previous node. The number 35 of the previous grammar node is entered when transiting the grammar node. At this time, since there are a plurality of hypotheses reaching a certain phoneme node at a certain time, the history of the hypotheses is stored in the order of likelihood using the list shown in FIG. FIG. 4 shows an example of creating a phoneme history table. For example, in a word dictionary as shown in FIG.
It is assumed that the candidate phoneme sequence is o → k → i. 4th (A)
4B, the list of FIG. 4B is pointed from the column of the phoneme node number 4 at time 3. In this list, a value “100” is set as the likelihood 31 until time 3, “o” is set as the phoneme 32 of the recognition result, “1” is set as the number 33 of the previous phoneme node, and the current “1” is set as the number 34 of the grammar node, and “0” is set as the number 35 of the immediately preceding grammar node.
“0” is set as the time 36 of the immediately preceding node. As the second list, the list shown in FIG. 4C is pointed out from the column of the phoneme node number 5 at time 6. In this list, the value “200” is set as the likelihood 31 until time 6, and the phoneme 3 of the recognition result is set.
“K” is set as 2 and the previous phoneme node number 33
Is set to “4”, and the current grammar node number 34
Is set, “0” is set as the number 35 of the immediately preceding grammar node, and the time 3 of the immediately preceding node is set.
“3” is set as 6. As the third list, the list of FIG. 4D is pointed from the column of the phoneme node number 6 at the time 9. See Figure 4 for details of the settings.
This is the same as (C). After the phoneme history table is created by the speech recognition unit 11, the sentence candidate creation unit 16 refers to the speech history table and connects the phonemes one by one from the last time of the speech. All possible candidates are created and arranged in descending order of likelihood to create several top sentence candidates. FIG. 5 is an explanatory diagram of an HMM for calculating the likelihood in the speech recognition unit. HMM (Hidden Markov Model) or the like is used for the calculation of the likelihood in the speech recognition unit 11. Here, the likelihood calculation when the HMM is used will be described. In the HMM, a model having a structure as shown in FIG. 5A is usually created for each phoneme. H
MM is composed of states and arcs. Each state represents a detailed event inside the phoneme. For example, if the utterance is “t”, it indicates events such as a state in which the mouth before the utterance is closed, a state in which the rupture portion of the “t” is uttered, and a state in which the vowel crosses over. Each state stores a transition probability (a ij ) for transitioning between states and a function (b ij (x)) for calculating whether or not the input voice is close to the event. The pattern matching is realized by finding a path that maximizes the likelihood of the path between the input speech and the state of the phoneme HMM as shown in FIG. The likelihood used here indicates the value of this route. Similar calculations can be realized by other likelihood calculation methods such as a neural network and DP matching. An example of the forward search algorithm in the speech recognition unit 11 and the backward search algorithm in the sentence candidate creation unit 16 will be described below. [Forward search algorithm] (1) First, initialization is performed. One candidate is set as the first node of the grammar network. (2) The following processes (2.1) and (2.2) are performed for each grammar node. (2.1) For all candidates on the grammar node, pass the candidate to the beginning of the network in the word dictionary. (2.2) If multiple candidates arrive at the beginning of the same dictionary network, enter them in the phoneme history table and leave only those with the highest likelihood. (3) The following processes (3.1) and (3.2) are performed inside all dictionary networks. (3.1) The following processes (3.1.1) and (3.1.2) are performed on all the candidates on the nodes of the dictionary network. (3.1.1) Match by advancing the time by one, and calculate the likelihood of the candidate. (3.1.2) If the likelihood of the candidate is not sufficiently high, pruning is performed. (3.2) The following processes (3.2.1) and (3.2.2) are performed on the candidates on all dictionary network nodes. (3.2.1) Send the candidate to the next node in the network. If a plurality of candidates reach the same node, only the candidate with the highest likelihood is left and entered in the phoneme history table. (3.2.2) If the node is a terminal node, send this candidate to the grammar network. The above operation is repeated until the time reaches the length of the input pattern. [Backward Search Algorithm] From the terminal node of the grammar, a plurality of candidates are created from the top by tracing the phoneme history table in the reverse direction of time. All the information needed to return is entered in the phoneme history table. As a result of preparing and evaluating a telephone number guidance system using this method, the conventional system has a shortage of memory and cannot be executed. A recognition rate of 97% could be achieved. As described above, according to the present invention,
By making the word dictionary a network structure, the conventional search section can be greatly reduced, and the required memory can be reduced.

【図面の簡単な説明】 【図1】本発明の概要説明図である。 【図2】本発明における単語辞書のデータ構造の例を示
す図である。 【図3】音素履歴の表の構成例を示す図である。 【図4】音素履歴の表の作成例を示す図である。 【図5】音声認識部における尤度を計算するためのHM
Mの説明図である。 【図6】従来方法の説明図である。 【図7】文法の例を示す図である。 【図8】従来の姓の単語辞書の例を示す図である。 【図9】従来の単語履歴の表の構成例を示す図である。 【符号の説明】 10 音響分析部 11 音声認識部 12 文法 13 単語辞書 14 音素モデル 15 音素履歴保存部 16 文候補作成部
BRIEF DESCRIPTION OF THE DRAWINGS FIG. 1 is a schematic explanatory diagram of the present invention. FIG. 2 is a diagram illustrating an example of a data structure of a word dictionary according to the present invention. FIG. 3 is a diagram showing a configuration example of a phoneme history table. FIG. 4 is a diagram showing an example of creating a phoneme history table. FIG. 5 is an HM for calculating likelihood in a speech recognition unit.
It is explanatory drawing of M. FIG. 6 is an explanatory diagram of a conventional method. FIG. 7 is a diagram illustrating an example of a grammar. FIG. 8 is a diagram showing an example of a conventional surname word dictionary. FIG. 9 is a diagram showing a configuration example of a conventional word history table. [Description of Signs] 10 acoustic analysis unit 11 speech recognition unit 12 grammar 13 word dictionary 14 phoneme model 15 phoneme history storage unit 16 sentence candidate creation unit

フロントページの続き (56)参考文献 特開 平8−123471(JP,A) 特開 平8−115099(JP,A) 青江, 森本, 長谷,トライ構造に おける共通接尾辞の圧縮アルゴリズム, 電子情報通信学会論文誌 D−II,日 本,1992年 4月25日,Vol.J75− D−II, No.4,Pages 770−779 野田, 松永, 嵯峨山,単語グラフ を用いた大語彙連続音声認識における近 似演算手法の検討,電子情報通信学会技 術研究報告[音声],日本,1997年 1 月17日,Vol.96, No.449, SP96−102,Pages 53−58 花沢, 南, 古井,連続音声認識の ためのネットワーク構造を用いた効率的 探索方法,日本音響学会平成9年度春季 研究発表会講演論文集 −I−,日本, 1997年 3月17日,2−6−4,Pag es 51−52 (58)調査した分野(Int.Cl.7,DB名) G10L 15/00 - 15/28 JICSTファイル(JOIS)Continuation of the front page (56) References JP-A-8-123471 (JP, A) JP-A-8-115099 (JP, A) Aoe, Morimoto, Hase, Compression algorithm of common suffix in trie structure, electronic information Transactions of the Communication Society D-II, Japan, April 25, 1992, Vol. J75-D-II, No. 4, Pages 770-779 Noda, Matsunaga, Sagayama, A Study on Similarity Calculation Method for Large Vocabulary Continuous Speech Recognition Using Word Graph, IEICE Technical Report [Speech], Japan, January 17, 1997 Date, Vol. 96, no. 449, SP96-102, Pages 53-58 Hanazawa, Minami, Furui, Efficient Search Method Using Network Structure for Continuous Speech Recognition, Proceedings of the Acoustical Society of Japan, Spring Meeting 1997-I-, Japan , March 17, 1997, 2-6-4, Pages 51-52 (58) Fields investigated (Int. Cl. 7 , DB name) G10L 15/00-15/28 JICST file (JOIS)

Claims (1)

(57)【特許請求の範囲】 【請求項1】 音素ノードをアークで結ぶネットワーク
構造のデータ構造で,認識対象となる単語を記憶する単
語辞書と,文法ノードをアークで結ぶネットワーク構造
のデータ構造で,文法を記憶する文法情報の記憶手段と
を持ち,前記単語辞書と前記文法情報の記憶手段とを用
いて入力音声を認識する音声認識方法であって前記文法情報の記憶手段と前記単語辞書から前記ネット
ワーク構造のデータをたどることにより,入力音声の音
素とマッチングする音素系列の履歴情報として,各入力
音声の音素の時刻までの尤度と,認識結果の音素と,こ
の単語の前の音素ノードの番号と,現在の文法ノードの
番号と,一つ前の文法ノードの番号と,一つ前のノード
の時刻とを保存するステップと, 保存した前記音素系列の履歴情報を参照し,入力音声の
最終時刻から開始時刻に向かって音素一つ一つをつなぎ
合わせて可能な認識候補を作成し,認識候補を尤度の高
い順に並べることにより複数の候補を認識結果として出
力するステップとを有する ことを特徴とする音声認識方
法。
(57) [Claims] [Claim 1] A network connecting phoneme nodes with arcs
A word dictionary that stores words to be recognized in a structured data structure, and a network structure that connects grammar nodes with arcs
Having a grammar information storage means for storing a grammar, and using the word dictionary and the grammar information storage means.
A speech recognition method of recognizing an input voice you are, the net from the word dictionary storage means of the grammar information
By following the work structure data, the sound of the input
As the history information of the phoneme sequence that matches the element,
The likelihood of the phoneme of the speech up to the time, the phoneme of the recognition result,
The number of the phoneme node before the word of
Number, previous grammar node number, and previous node
And referring to the stored history information of the phoneme sequence,
Connect each phoneme from the last time to the start time
In addition, possible recognition candidates are created, and the recognition candidates are identified with high likelihood.
Multiple candidates as recognition results.
Speech recognition method characterized by a step of force.
JP06023897A 1997-03-14 1997-03-14 Voice recognition method Expired - Fee Related JP3535688B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP06023897A JP3535688B2 (en) 1997-03-14 1997-03-14 Voice recognition method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP06023897A JP3535688B2 (en) 1997-03-14 1997-03-14 Voice recognition method

Publications (2)

Publication Number Publication Date
JPH10254481A JPH10254481A (en) 1998-09-25
JP3535688B2 true JP3535688B2 (en) 2004-06-07

Family

ID=13136407

Family Applications (1)

Application Number Title Priority Date Filing Date
JP06023897A Expired - Fee Related JP3535688B2 (en) 1997-03-14 1997-03-14 Voice recognition method

Country Status (1)

Country Link
JP (1) JP3535688B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002108389A (en) * 2000-09-29 2002-04-10 Matsushita Electric Ind Co Ltd Method and device for retrieving and extracting individual's name by speech, and on-vehicle navigation device
JP4104313B2 (en) 2001-10-03 2008-06-18 株式会社デンソー Voice recognition device, program, and navigation system
CN105161095B (en) * 2015-07-29 2017-03-22 百度在线网络技术(北京)有限公司 Method and device for picture composition of speech recognition syntax tree

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
花沢, 南, 古井,連続音声認識のためのネットワーク構造を用いた効率的探索方法,日本音響学会平成9年度春季研究発表会講演論文集 −I−,日本,1997年 3月17日,2−6−4,Pages 51−52
野田, 松永, 嵯峨山,単語グラフを用いた大語彙連続音声認識における近似演算手法の検討,電子情報通信学会技術研究報告[音声],日本,1997年 1月17日,Vol.96, No.449, SP96−102,Pages 53−58
青江, 森本, 長谷,トライ構造における共通接尾辞の圧縮アルゴリズム,電子情報通信学会論文誌 D−II,日本,1992年 4月25日,Vol.J75−D−II, No.4,Pages 770−779

Also Published As

Publication number Publication date
JPH10254481A (en) 1998-09-25

Similar Documents

Publication Publication Date Title
US5241619A (en) Word dependent N-best search method
US5805772A (en) Systems, methods and articles of manufacture for performing high resolution N-best string hypothesization
JP2000075895A (en) N best retrieval method for continuous speech recognition
US11450320B2 (en) Dialogue system, dialogue processing method and electronic apparatus
US5819221A (en) Speech recognition using clustered between word and/or phrase coarticulation
Boite et al. A new approach towards keyword spotting.
US20070038451A1 (en) Voice recognition for large dynamic vocabularies
JP3535688B2 (en) Voice recognition method
Ney et al. Dynamic programming search strategies: From digit strings to large vocabulary word graphs
JP4595415B2 (en) Voice search system, method and program
Seide et al. Towards an automated directory information system.
JP2871420B2 (en) Spoken dialogue system
JP2871557B2 (en) Voice recognition device
Chen et al. Large vocabulary word recognition based on tree-trellis search
JP3265864B2 (en) Voice recognition device
Hanazawa et al. An efficient search method for large-vocabulary continuous-speech recognition
JP3914709B2 (en) Speech recognition method and system
JP2905674B2 (en) Unspecified speaker continuous speech recognition method
JP3042455B2 (en) Continuous speech recognition method
JP3873418B2 (en) Voice spotting device
JP3532248B2 (en) Speech recognition device using learning speech pattern model
Kao et al. A low cost dynamic vocabulary speech recognizer on a GPP-DSP system
JP3315565B2 (en) Voice recognition device
JPH1097275A (en) Large-vocabulary speech recognition system
JP3503862B2 (en) Speech recognition method and recording medium storing speech recognition program

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040309

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040312

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D02

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090319

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090319

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100319

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees