JPS60179799A - Voice recognition equipment - Google Patents

Voice recognition equipment

Info

Publication number
JPS60179799A
JPS60179799A JP59036447A JP3644784A JPS60179799A JP S60179799 A JPS60179799 A JP S60179799A JP 59036447 A JP59036447 A JP 59036447A JP 3644784 A JP3644784 A JP 3644784A JP S60179799 A JPS60179799 A JP S60179799A
Authority
JP
Japan
Prior art keywords
cumulative
phoneme
distance
transition
storage means
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP59036447A
Other languages
Japanese (ja)
Inventor
文雄 前原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP59036447A priority Critical patent/JPS60179799A/en
Publication of JPS60179799A publication Critical patent/JPS60179799A/en
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 産業上の利用分野 本発明は音声認識装置に関する。[Detailed description of the invention] Industrial applications The present invention relates to a speech recognition device.

従来例の構成とその問題点 従来、音声認識装置では入力音声信号を分析することに
よって得られるn次元の特徴ベクトル系列(& 1. 
a 2 、・・・・・・aI)に対し辞書としてあらか
じめ装置内に登録しであるP個の標準パターンベクトル
系列(”1 t ”2 t ””” b)) ””” 
(b* +’2+・・・・bU) の中からこれと距離
の最も近いもの、もしくは最も類似性の太きいものをも
って認識結果としているが、このとき入力ベクトル系列
(al。
Configuration of conventional example and its problems Conventionally, a speech recognition device uses an n-dimensional feature vector series (&1.
P standard pattern vector sequences ("1 t "2 t """ b)) """ that are registered in advance in the device as a dictionary for a 2 , ... aI)
(b*+'2+...bU) The closest one or the one with the greatest similarity is used as the recognition result.In this case, the input vector series (al.

a 2 、・−、al)と標準パターンベクトル系列の
うちの1つ、例えば(b′、bL・・・・・・、b、4
1(但し1 2’ 7=1〜P)の比較に際して(a 1. a 2 、・
・・・・。
a 2 ,...-, al) and one of the standard pattern vector series, e.g. (b', bL..., b, 4
1 (however, 1 2' 7 = 1 ~ P), (a 1. a 2 , ・
....

a工l の1要素ベクトルa iと(bl 、 bl 
、 、;、・、。
The one-element vector ai of a and (bl, bl
、 、;、・、。

 2 bM)の中の1要素ベクトルbこの市街距離、もしくは
ユークリッド距離を計算し、これを確からしさの尺度と
し、これをもとに2つのベクトル系列の総距離を、グイ
ナミノクプログラミングや線形伸縮などの手法を用いて
計算するものが大部分である。
Calculate the city distance or Euclidean distance of the one-element vector b in 2 bM), use this as a measure of certainty, and use Guinaminok programming or linear expansion/contraction to calculate the total distance of the two vector series based on this. Most of the calculations are performed using methods such as

但し、市街距離、ユークリッド距離は次式で与えられる
However, the city distance and Euclidean distance are given by the following formula.

ai =(ai 、1 、ai 、2.−− 、 ai
 、N’1bt=(bt 、bt ・・・・、b盃、N
lとするときm m’1 m2+ ”l、m−Σ l al、r ”!、rl(市街距離)
−1 7t、m−Σ (a1’ r ”富、r)2(ユ 9リ
パr=1 距離) 以下、確からしさの値の尺度として上記のような距離尺
度を用いた場合を例として説明する。
ai = (ai, 1, ai, 2.--, ai
, N'1bt=(bt , bt ..., b cup, N
When l, m m'1 m2+ "l, m-Σ l al, r"! , rl (city distance)
−1 7t, m−Σ (a1′ r ” wealth, r) 2 (Yu 9 r par r = 1 distance) Below, we will explain the case where the above distance scale is used as a measure of the certainty value as an example. .

上記の原理にもとすく音声認識装置の一つとして、日本
語ワードプロセノザ−への入力を目的として、仮名キー
の入力の代りに、音節単位に区切って発声したもの、例
えば「ア」、「力」、「イ」。
Based on the above principle, one of the speech recognition devices is to input words into a Japanese word processor by dividing them into syllables instead of inputting kana keys, such as ``a'', ``power'', etc. ","stomach".

「ハ」、「す」、を認識する単音節認識や、連続音声を
音節単位に分割して、音節単位で認識を行うものが用い
られる。
Single syllable recognition, which recognizes "ha" and "su", and methods that divide continuous speech into syllable units and perform recognition on a syllable basis are used.

ところで上記のような音節型認識装置を日本語ワードプ
ロセッサー(以下ワープロと略す)の入力として用いる
時、ワープロの持つ、カナ漢字変換のだめの単語辞書1
文章辞書もしくは単語辞書と言語処理機能の組合せなど
を用いて音節認識における誤りを訂正するものが有る。
By the way, when using the above-mentioned syllable type recognition device as input to a Japanese word processor (hereinafter abbreviated as word processor), the word processor has a word dictionary 1 that cannot be used for kana-kanji conversion.
There is a method that corrects errors in syllable recognition using a combination of a sentence dictionary or a word dictionary and a language processing function.

すなわち、音節認識部において、音節単位のパターンと
してあらかじめ登録されているP個の標埠パターンと入
力パラメータベクトル列との比較に際して、最小距離を
与える標準パターン1つを選ぶ代りに、距離の小さいも
の1個(■は正の整数)を選択し、例えば入力音声がl
個(工は正の整数)の音節から成るとすると、IxJ個
の音節候補マトリックスとその各々についての標準パタ
ーンとの距離d□7.(但し1+]は1≦1≦I。
That is, when the syllable recognition unit compares the input parameter vector sequence with the P marker patterns registered in advance as patterns for each syllable, instead of selecting one standard pattern that provides the minimum distance, it selects the one with the smaller distance. Select one (■ is a positive integer), for example, if the input audio is
(where t is a positive integer) syllables, the distance between IxJ syllable candidate matrices and the standard pattern for each of them is d□7. (However, 1+] is 1≦1≦I.

1≦j≦■ なる整数)を用いて、11通りの構成可能
文章の各々について累積距離Sr(、)を工 S −Σ d r(1)1.r(1) +=1 (但しr(1)はiの関数で1の各段において1≦j≦
■ なる】のうちの1つに対応する。)として計算し、
このうち累積距離の小さいものからN個の文章を選びだ
し、あらかじめ記憶されでいる文章辞書(一般のカナ漢
字変換に使われるものが流用可能)を検索し、一致した
ものを文章認識結果とするものが有る。この場合、累積
距離計算のだめの加算回数は11回である。この間の動
作を具体例によってさらに説明する。
1≦j≦■), calculate the cumulative distance Sr(,) for each of the 11 possible sentences. r(1) +=1 (where r(1) is a function of i and 1≦j≦ in each stage of 1
■ Corresponds to one of the following. ),
Select N sentences from those with the smallest cumulative distance, search a pre-memorized sentence dictionary (the one used for general kana-kanji conversion can be used), and use the matching sentences as sentence recognition results. There is something. In this case, the number of additions required for cumulative distance calculation is 11. The operation during this time will be further explained using a specific example.

第1図は、I−6,T−4とした場合の例で、1つの音
節入力に対して4つの音節候補を出力し文章中の音節数
が5の場合で、正しい発声は、「あたらしい」とする。
Figure 1 shows an example of I-6 and T-4, where four syllable candidates are output for one syllable input and the number of syllables in the sentence is five. ”.

第1音節(i=1)では、音節候補として(ア7゛ハタ
)(下段は距13 62 63 71 離を表わす)が得られたことを示す。I−5゜T=4の
時生成可能な文章は「あだたちい」。
For the first syllable (i=1), it is shown that (A7゛hata) (the lower row represents a distance of 13 62 63 71 distance) was obtained as a syllable candidate. The sentence that can be generated when I-5°T=4 is ``Adachii''.

「あただちび」・・・・・「たささいし」で■1−45
−1024通り存在する。
"Atada Chibi"... "Tasasaishi" ■1-45
-1024 types exist.

誤りの訂正には、1024通りの文章中から、先に述べ
た、累積距離の小さいものN個(Nは正の整数)を用い
、あらかじめ記憶されている文章辞書との比較を行う。
For error correction, the aforementioned N sentences (N is a positive integer) with the smallest cumulative distance are used from among the 1024 sentences and compared with a pre-stored sentence dictionary.

第1図の例では 第1候補 (あだたぢい) 累積距離 822 (あだ
だしい) 8θ 3 (あたらちい)87 4 (あたらしい)〃91 となり、辞書中に「あたらしい」という文章のみが存在
するとすると誤りが訂正できる。実際文章中では第1〜
3候補の様な例は存在しないことは明らかであるので誤
り訂正が可能である。
In the example in Figure 1, the first candidate (adatashii) has a cumulative distance of 822 (adadashii) 8θ 3 (atarachii) 87 4 (new) 〃91, and the only sentence in the dictionary is ``new''. If it exists, the error can be corrected. In fact, in the text, the first
It is clear that there are no examples like the three candidates, so error correction is possible.

ところで、この方法では累積距離の計算に際して工1通
りの組合せに対して、これを行う必要が有り、割算量が
膨大であり、処理に時間がかかるという欠点を有する。
By the way, this method has the disadvantage that it is necessary to perform this calculation for each combination of steps when calculating the cumulative distance, and the amount of division is enormous and the processing takes time.

発明の目的 本発明は上記欠点に鑑み、複数の音韻もしくは音節認識
候補を用いて、文章辞書検索により誤りの訂正を行なう
場合における計算回数の減少を目的とする。
OBJECTS OF THE INVENTION In view of the above drawbacks, the present invention aims to reduce the number of calculations when correcting errors by searching a text dictionary using a plurality of phoneme or syllable recognition candidates.

発明の構成 本発明は、この目的を達成するために、入力された音節
の各段において、前段迄の累積距離のうち小さいものN
個を選択して記憶する累積距離記憶手段とその遷移状態
を記憶する遷移記憶手段を′設け、累積距離記憶手段に
記憶されているN個の累積距離と現役における各候補音
節との総距離を計算し、その内の距離の小さいものN個
を選択し、これを新たに累積距離記憶手段に記憶すると
共に、選択された候補とその時の累積距離の順位を遷移
情報として遷移N記憶手段に記憶し、音声入力終了後、
前記遷移N記憶手段の遷移を逆にたどることにより複数
個の文章認識候補を得、文章辞書とのマツチングに供す
るように構成している。
Structure of the Invention In order to achieve this object, the present invention calculates, in each stage of an input syllable, the smallest cumulative distance N to the previous stage.
A cumulative distance storage means for selecting and storing the selected syllables and a transition storage means for storing the transition state thereof are provided, and the total distance between the N cumulative distances stored in the cumulative distance storage means and each candidate syllable in active use is The calculation is performed, N items with the smallest distances are selected, and these are newly stored in the cumulative distance storage means, and the ranks of the selected candidates and the cumulative distances at that time are stored as transition information in the transition N storage means. Then, after finishing voice input,
The structure is such that a plurality of sentence recognition candidates are obtained by retracing the transitions in the transition N storage means and are matched with a sentence dictionary.

実施例の説明 以下、本発明の一実施例について図面を参照し外から説
明する。
DESCRIPTION OF EMBODIMENTS An embodiment of the present invention will be described from the outside with reference to the drawings.

第2図は本発明の一実施例における音声認識装置のブロ
ック図である。同図において1は、入力音声をパラン〜
り分析してN次元のパラメータベクトル列(a 1 、
 a 2 、・・・・、aIlに遂次変換するパラメー
タ分析部で、フィルタバ7り、7−IJ工変換器、線形
予線系数型分析器々とにより構成される。
FIG. 2 is a block diagram of a speech recognition device in one embodiment of the present invention. In the same figure, 1 is the input audio
The N-dimensional parameter vector sequence (a 1 ,
This is a parameter analysis section that sequentially converts a2, .

2は標準パターン記憶部で、あらかじめパラメータ分析
された音声を音節標準パターン(b11 bl、・・・・・・、b))・・・・・、 (b¥、す
、・・・・・・、bi)トbて記憶する。
Reference numeral 2 is a standard pattern storage unit, which stores the voice whose parameters have been analyzed in advance into a syllable standard pattern (b11 bl,..., b))..., (b\,su,... , bi) and memorize it.

3は比較部で、前記入力パラメータベクトル列(a 1
 、 a 2 、・・・・、allと前記パターン記憶
部3に記憶されている標準パターンとの距離を計算する
Reference numeral 3 denotes a comparison unit which compares the input parameter vector sequence (a 1
, a 2 , . . . , all and the standard pattern stored in the pattern storage section 3 are calculated.

4は判定部で、比較部3で得られた距離のうち、小さい
ものから1個(工は正の整数)を選択する。
Reference numeral 4 denotes a determining unit, which selects one of the distances obtained by the comparison unit 3 from the smallest distance (factor is a positive integer).

これをd09.とする。但し1≦1≦■で、第1番目に
出現した音節を示し、1≦j≦Iで、距離が第1番目に
小さいことを示す添字である。
This is d09. shall be. However, 1≦1≦■ indicates the first appearing syllable, and 1≦j≦I indicates the first smallest distance.

6は累積距離記憶部でi番目の音節の処理に先立って発
声された(i−1)個の音節の累積距離5i−In(但
し1≦n≦Nで最終的にN個の文章を文章認識候補とし
て辞書マツチングに供する。)を記憶する。
6 is the cumulative distance storage unit, which is the cumulative distance 5i-In of the (i-1) syllables uttered prior to processing the i-th syllable (however, if 1≦n≦N, the final N sentences are ) is stored for dictionary matching as a recognition candidate.

6は累積距離計算部で、上記累積距離記憶部に記憶され
ている累積距離5i−1,nと、上記判定部4により得
られる距離d□、jのすべての組合せT十N通りに関し
て和S1 をめる。
Reference numeral 6 denotes a cumulative distance calculation unit which calculates a sum S1 for all T1N combinations of the cumulative distances 5i-1,n stored in the cumulative distance storage unit and the distances d□,j obtained by the determination unit 4. I put it on.

1、n すなわち S、f =S+d、、 ・・・・・・・・・ (1)1
、n ” ’+” 1+1 但し1.n、]は、1≦i≦I、1≦n≦N。
1, n i.e. S, f = S + d, ...... (1) 1
, n ” '+” 1+1 However, 1. n, ] is 1≦i≦I, 1≦n≦N.

1≦j≦1とする。1≦j≦1.

7は選択部で、上記累積距離部によって計算された(N
十J)個の累積距@ S、i のうち距離の1、n 小さいものから順にN個を第き音節における累積距離S
1.n(1≦n≦N)として累積距離記憶部5に記憶す
る。
7 is a selection section, which is calculated by the cumulative distance section (N
10 J) cumulative distances @ S, i of the distances 1, n N in order from the smallest to the cumulative distance S in the syllable
1. It is stored in the cumulative distance storage unit 5 as n (1≦n≦N).

8は遷移記憶部で、上記累積距離Si、nのnの各々に
ついて、その場合の(i 、n)の組合せを要素とする
ベクトル ”よ、n−(+t、nl )を遷移情報とし
て記憶する。但しくj、、n、 )は、1≦j、≦工。
Reference numeral 8 denotes a transition storage unit, which stores, as transition information, a vector ``y, n-(+t, nl) whose elements are the combination of (i, n) in that case, for each n of the above-mentioned cumulative distances Si, n. .However, j,, n, ) is 1≦j,≦k.

1≦nt≦Nのうちの1つの組合せとする。One combination of 1≦nt≦N.

9は遷移トレース部で、遷移記憶部8に記憶されている
遷移情報r、n−(!t+J )をもとにこれを逆にト
レースすることにより、第N候補迄の文章認識候補を出
力する。10は文章辞書であり、使用に供されるすべて
の文章が記憶されている。
Reference numeral 9 denotes a transition tracing unit, which outputs sentence recognition candidates up to the Nth candidate by tracing the transition information r, n−(!t+J) stored in the transition storage unit 8 in reverse. . Reference numeral 10 is a text dictionary in which all texts to be used are stored.

11は辞書マツチング部で、遷移トレース部9により得
られたN個の文章候補を文章辞書10内の文章と順次比
較し、一致したものを最終認識結果λして出力する。
Reference numeral 11 denotes a dictionary matching section which sequentially compares the N sentence candidates obtained by the transition tracing section 9 with the sentences in the sentence dictionary 10, and outputs the matched ones as the final recognition result λ.

次に上記のように構成された装置の動作について第1図
に示す具体例を用いて説明する。
Next, the operation of the apparatus configured as described above will be explained using a specific example shown in FIG.

全5音節より成る文章「あたらしい」が発声されたとす
る。パラメータ分析部1におけるパラメータ分析、比較
部2における標準パターンとのパターン比較の後、判定
部4の出力として第1図に示すマトリックスが順次出現
するとする。今この中から累積距離の小さい文章のうち
4つ(N=4)を選択する場合について説明する、判定
部で与えられる距離を第1図中()内の数字で示す。
Assume that the sentence ``Atarashi'' consisting of all five syllables is uttered. It is assumed that after parameter analysis in the parameter analysis section 1 and pattern comparison with a standard pattern in the comparison section 2, the matrices shown in FIG. 1 appear sequentially as the output of the determination section 4. Now, a case will be explained in which four (N=4) of sentences with small cumulative distances are selected from among these sentences.The distances given by the determination section are shown by numbers in parentheses in FIG.

第3図は本発明の入力音節の各段における処理を説明す
る図である。同図においてマ) IJノクス35なるマ
トリックス全体の音節の配置は第1図のものと同一であ
る。
FIG. 3 is a diagram illustrating the processing at each stage of input syllables according to the present invention. In the same figure, the arrangement of syllables in the entire matrix IJ Nox 35 is the same as that in FIG.

同図において先づi=1の時点で音節「あ」が入力する
。このとき判定部4の出力には、4つの認識候補「あ」
「か」「ば」「た」とその距離(dl、1.dl、2.
dl、3.dl、4)=(13,52,6s、7s)が
現れる。
In the figure, the syllable "a" is first input at the time i=1. At this time, the output of the determination unit 4 includes four recognition candidates "A".
"Ka", "Ba", "Ta" and their distances (dl, 1.dl, 2.
dl, 3. dl, 4) = (13, 52, 6s, 7s) appears.

1−1段目では、初期値として距離d12.(1≦1≦
4)の小さいもの4つをその″1.寸累積距離として累
積距離記憶部6(第2図)に記憶する。すなわち Sl
、n=d1’; 、 (1≦j≦N)とする0又遷移情
報としてrl、n= (1、n)すなわちrl 、1−
(1,1)rl、2=(1,2)rl、3−(1,3)
rl、4−(1,4)を遷移記憶部4に記憶する。21
゜23.25,27.29に1−1〜5段における累積
距離記憶部の内容を、又22 、24 、26 、28
゜30に遷移記憶部8(第2図)の遷移情報の内容を示
す。i=2段目において、音節「た」が発声された時、
判定部4(第2図)の出力として(た。
In the 1-1st stage, the initial value is the distance d12. (1≦1≦
4) are stored in the cumulative distance storage unit 6 (FIG. 2) as their "1." cumulative distances. That is, Sl
, n=d1'; , rl, n= (1, n), i.e. rl, 1-, as zero or transition information with (1≦j≦N)
(1,1)rl, 2=(1,2)rl, 3-(1,3)
rl, 4-(1, 4) is stored in the transition storage section 4. 21
゜23.25, 27.29 the contents of the cumulative distance storage section in stages 1-1 to 5, and 22, 24, 26, 28
30 shows the contents of the transition information in the transition storage section 8 (FIG. 2). i = When the syllable "ta" is uttered in the second row,
As the output of the determination unit 4 (FIG. 2):

か、だ、さ)が得られ、距離として(d2,11d2,
2゜d2,3.d2,4”” (19、32、53、6
2)が得られたとする。この時累積距離S4.nとして
(Sl、11S1,22S1,31S1,4)と(d2
,1 ”2.2 ld2,31d2,4)のすべての組
合せを累積距離計算部6(第2図)によって上記式(1
)により計算する0この結果を第3図31.32,33
.34に示す。選択部7(第2図)では16通りの34
 、nから距離の小さいもの4つを選択し、これを1−
2段目における累積距離として累積距離記憶部5(第2
・図)に記憶する。第3図の例では (S2,1#S2,2・”2.3182,4)= (S
2,1・S2,1’S3.S’ )=(32,45,6
6,71)2.1 2.2 (第3図の23) が選択される。この時遷移情報r2.nとして、上記4
つの組合せの添字(tl、J)を遷移記憶部8(第2図
)に記憶する、すなわち r2,1=(1,1) r2,2=(2,1) r2,3−(3,1) r2,4=(1,2) となる。
ka, da, sa) is obtained, and the distance is (d2, 11d2,
2°d2,3. d2,4”” (19, 32, 53, 6
Suppose that 2) is obtained. At this time, cumulative distance S4. As n, (Sl, 11S1, 22S1, 31S1, 4) and (d2
, 1 "2.2 ld2, 31d2, 4) by the cumulative distance calculation unit 6 (Fig.
) is calculated by 0. This result is shown in Figure 3.
.. 34. The selection section 7 (Fig. 2) selects 34 out of 16 ways.
, select four with small distances from n and divide them into 1-
The cumulative distance storage unit 5 (second
・Store in Figure). In the example of Figure 3, (S2,1#S2,2・”2.3182,4)=(S
2,1・S2,1'S3. S') = (32, 45, 6
6,71) 2.1 2.2 (23 in Figure 3) is selected. At this time, transition information r2. n, the above 4
The subscripts (tl, J) of the two combinations are stored in the transition storage unit 8 (FIG. 2), i.e., r2,1=(1,1) r2,2=(2,1) r2,3−(3,1 ) r2,4=(1,2).

i=2段目で行ったと同様の動作をi=3.4゜6につ
いても行う、この結果遷移記憶部8(第2図)には第3
図21〜3oに示す様に累積距離Si、n並びに遷移情
報ri、nの値が得られる。
The same operation as performed for i = 2nd stage is also performed for i = 3.4°6. As a result, the transition storage section 8 (Fig. 2) contains the 3rd row.
As shown in FIGS. 21 to 3o, the values of the cumulative distance Si, n and the transition information ri, n are obtained.

遷移トレース部9では、遷移記憶部8に記憶されている
遷移情報rinO値をもとにN=4個の文章候補を決定
する。すなわち第1段目の第n候補の逆トレースは、遷
移情報をrln−(+4.nt)であるとすると、第3
図のマトリックス35内において(i 、 il )の
マトリ、、pス要素に対応する音節を音節認識結果とし
、1〜1段目の遷移情報のうちr(1−IL”tを(i
−1)段目の遷移情報とする。これは、先に遷移ri、
nが、rl 1.nlから決定されたものであることに
よる。
The transition tracing unit 9 determines N=4 sentence candidates based on the transition information rinO value stored in the transition storage unit 8. In other words, if the transition information is rln-(+4.nt), the reverse trace of the n-th candidate in the first stage is
In the matrix 35 shown in the figure, the syllables corresponding to the matrices, , ps elements of (i, il) are taken as the syllable recognition results, and among the transition information in the first to first stages, r(1-IL"t is
-1) Transition information for the row. This first transitions ri,
n is rl 1. This is because it is determined from nl.

具体例を用いて説明すると、例えば文章の第3候補N、
=3を逆トレースによって決定する場合、先づi−5段
目の遷移情報 r、3−(1,3) より i=5段目の音節はマトリックス位置 (t’、+()−(5,1)より「い」と決定でき、J
−3より(i−1)−4段目の遷移情報としてr4,3
−(1,2)となる、従って、4段目の音節はマトリッ
クス位置(i 、 1l)=(4,1)より「い」と決
定できnt=2より3段目でr3,2をトレースする。
To explain using a specific example, for example, the third candidate N of the sentence,
= 3 by reverse tracing, the syllable in the i=5th row is determined by the matrix position (t', +()-(5 , 1), it can be determined that "Yes", and J
From -3, (i-1)-4th stage transition information is r4,3
- (1, 2), therefore, the syllable in the 4th row can be determined as "i" from the matrix position (i, 1l) = (4, 1), and trace r3,2 in the 3rd row from nt = 2. do.

以上の動作を1=1段目迄行い、文章候補として「あた
らちい」を得る。
The above operation is performed until the 1=1st row, and "Atarachii" is obtained as a sentence candidate.

同様の動作をN−1〜4のすべてについて行うと 第1
候補 「あだたちい」 12 # 「あたたしい」 〃3 〃 「あたらちい」 14N 「あたらしい」 なる結果をうる。辞書マツチング部11では上記4つの
候補を文章辞書10内の標準文章と比較し、一致したも
のを文章認識結果とする。上記の例では第1〜第3候補
のような文章は一般の辞書内には存在しないので第4候
補が選択されることは明らかである。
If the same operation is performed for all of N-1 to N-4, the first
Candidate ``Adatachii'' 12 # ``Adatashii'' 〃3〃 〃 ``Atarachii'' 14N ``New'' Get the result. The dictionary matching section 11 compares the four candidates with the standard sentences in the sentence dictionary 10, and takes the matches as the sentence recognition results. In the above example, since sentences such as the first to third candidates do not exist in general dictionaries, it is clear that the fourth candidate is selected.

以上の動作により音節認識の第1候補として、「あたた
ちい」という誤シが生じても、複数候補を選択すること
により誤りの訂正が可能となる。
Even if the above-described operation causes an error in selecting "Attachii" as the first candidate for syllable recognition, the error can be corrected by selecting a plurality of candidates.

上記辞書マツチング部11には、バイナリ−サーチ、ハ
ツシュ関数、D、P、マツチング等を用いる方法が有る
がいずれも公知であるので説明を省略する。又文章辞書
1oの代りに単語辞書を用いてもよく、さらに文法属性
情報を有する単語辞書やい、文法属性情報として品詞情
報、活用情報を用い単語前後の接続関係を決定する文法
解析処理手段を用いることも可能である。文法解析処理
手段については公知のカナ漢字変換技術が流用可能であ
るので説明を省略する。
The dictionary matching section 11 has methods using binary search, hash function, D, P, matching, etc., but since all of these methods are well known, their explanations will be omitted. In addition, a word dictionary may be used instead of the sentence dictionary 1o, and a word dictionary having grammatical attribute information, and a grammatical analysis processing means that uses part-of-speech information and conjugation information as the grammatical attribute information to determine connections before and after words. It is also possible to use As for the grammar analysis processing means, a known kana-kanji conversion technique can be used, so a description thereof will be omitted.

以上の説明から明らかなように上記動作において累積距
離計算の加算回数はNx J X I回となり、前述の
公知例における加算回数11に比し著しく少ない、I=
s 、J=4 、N=4の例をとればNx T x I
 =a。
As is clear from the above explanation, the number of additions in the cumulative distance calculation in the above operation is Nx J
s, J=4, N=4, Nx T x I
=a.

■I=1024 となって10倍以上の差を有する。■I=1024, which is a difference of more than 10 times.

以上のように本実施例によれば出現音韻の第1段目にお
ける累積距離を計算する累積距離計算部6と、このうち
のN個を選択する選択部7、この結果を記憶し次段の累
積距離計算に供するだめの累積距離記憶部5と、その遷
移情報を記憶する遷移記憶部8、音声入力終了後その遷
移情報を逆トレースする遷移トレース部9を設けること
により、与えられた音節マトリックスから文章候補を阜
榊T + I回の加算による累積距離計算によって決定
し、文章辞書とのマツチングに供することにより、効率
的な音韻認識誤り訂正を実現することができる。
As described above, according to the present embodiment, there is a cumulative distance calculation section 6 that calculates the cumulative distance of the first stage of appearing phonemes, a selection section 7 that selects N of the cumulative distances, and a selection section 7 that stores this result and uses the cumulative distance in the next stage. By providing a cumulative distance storage section 5 for calculating cumulative distance, a transition storage section 8 for storing its transition information, and a transition tracing section 9 for back tracing the transition information after voice input is completed, a given syllable matrix can be calculated. Efficient phoneme recognition error correction can be realized by determining sentence candidates from T + I by calculating the cumulative distance and matching with the sentence dictionary.

なお本実施例は、この出力をカナ漢字変換機能と組合せ
出力結果を漢字かなまじり文で出力することが可能であ
る。又本実施例はコンピュータを用いプログラム的にこ
れを行うことが可能である。
Note that in this embodiment, it is possible to combine this output with a kana-kanji conversion function and output the output result in a sentence with a mixture of kanji and kana. Further, this embodiment can be performed programmatically using a computer.

さらに本実施例では、音韻候補選択の尺度として距離を
用いたが、これを類似度、もしくは確からしさを表現す
る値(確率など)としても同様に適用可能である。
Further, in this embodiment, distance is used as a measure for phoneme candidate selection, but it can be similarly applied as a value (probability, etc.) expressing similarity or certainty.

発明の効果 以上のように本発明の音声認識装置は、複数個の音節認
識候補とその時の距離をもとに、音節の各段において累
積距離の小さいものを複数個選択し、その累積距離を記
憶し、次段の累積距離計算に供し、合せてその遷移情報
を記憶し、最終音節入力後、上記遷移情報を逆にトレー
スすることにより複数個の文章候補を決定し、文章辞書
とのマチングに供することにより、音節候補総当りによ
る候補選択に比し、計算量を著しく減少させ、認識性能
の向上を図ることができ、その工業的価値は大なるもの
が有る。
Effects of the Invention As described above, the speech recognition device of the present invention selects a plurality of syllable recognition candidates with a small cumulative distance in each stage of the syllable based on the distance between the plurality of syllable recognition candidates and calculates the cumulative distance. It is stored and used in the next stage of cumulative distance calculation, and the transition information is also stored. After inputting the final syllable, multiple sentence candidates are determined by tracing the transition information in reverse, and matching with the sentence dictionary is performed. Compared to candidate selection by exhaustive syllable candidate selection, the amount of calculation can be significantly reduced and recognition performance can be improved, which has great industrial value.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は本発明の音節認識結果の一例を示す認識図、第
2図は本発明の一実施例における音声認識装置のブロッ
ク図、第3図は本発明の実施例の動作を説明するだめの
説明図である0 1・・・・・・パラメータ分析部、2・・・・・・比較
部、3・・・・・・比較部、4・・・・・・判定部、5
・・・・・・累積距離記憶部、6・・・・・・累積距離
計算部、7・・・・・・選択部、8・・・・・・遷移記
憶部、9・・・・・・遷移トレース部、10・・・・・
・文章辞書、11・・・・・・辞書マツチング部。
FIG. 1 is a recognition diagram showing an example of the syllable recognition results of the present invention, FIG. 2 is a block diagram of a speech recognition device in an embodiment of the present invention, and FIG. 3 is a diagram for explaining the operation of the embodiment of the present invention. 0 1...Parameter analysis section, 2...Comparison section, 3...Comparison section, 4...Judgment section, 5
... Cumulative distance storage unit, 6... Cumulative distance calculation unit, 7... Selection unit, 8... Transition storage unit, 9...・Transition trace part, 10...
・Sentence dictionary, 11...Dictionary matching section.

Claims (2)

【特許請求の範囲】[Claims] (1)入力音声を音韻識別し、前記各音韻毎に複数個の
識別候補とその確からしさの値を出力する音韻識別手段
と、先に出現した音韻の累積確からしさの値の上位複数
個を記憶し、次音韻出現時における累積確からしさの値
の計算に供する累積確からしさ記憶手段と、前記上位複
数個の累積確からしさの値を持つ音韻候補を選択するに
至る遷移を記憶し文章候補選択に供する遷移記憶手段と
を有することを特徴とする音声認識装置。
(1) Phoneme identification means that identifies the phonemes of input speech and outputs a plurality of identification candidates and their likelihood values for each phoneme, and a phoneme identification means that identifies the top plurality of cumulative likelihood values of the phonemes that appeared earlier. a cumulative likelihood storage means for storing and calculating a cumulative likelihood value at the time of the next phoneme appearance; and a sentence candidate selection unit that stores transitions leading to selection of phoneme candidates having the plurality of top cumulative likelihood values. 1. A speech recognition device, comprising: transition storage means for storing data.
(2)入力音声を音韻識別し、前記各音韻毎に1個(工
は正の整数)の識別候補とその距離を出力する音韻識別
手段と、該当音韻の出現に先立って出現した音韻の累積
距離の小さいものN個(Nは正の整数)を記憶する累積
距離記憶手段と、前記累積距離の小さいものN個を選択
するに至る遷移を記憶する遷移記憶手段と、前記音韻識
別手段の出力として与えられる1個の距離と、前記累積
距離記憶手段のN個の累積距離との組合せにより、その
和を計算する累積距離計算手段と、前記累積距離計算手
段による計算結果、そΩ距離が小さいものからN個を選
択し、その距離を前記累積距離記憶手段に記憶し、どの
音韻候補の第何位の累積距離が選択されたかを前記遷移
記憶手段に記憶する選択手段と、音声入力後、前記遷移
記憶手段に記憶されている遷移情報を逆にトレースし、
N個の判別結果候補を出力する遷移トレース手段とを有
する音声認識装置。
(2) A phoneme identification means that identifies the phonemes of the input speech and outputs one identification candidate (factor is a positive integer) and its distance for each phoneme, and an accumulation of phonemes that appeared before the appearance of the corresponding phoneme. an output of the cumulative distance storage means for storing N items having small distances (N is a positive integer); a transition storage means for storing transitions leading to the selection of N items having small cumulative distances; and the output of the phoneme identification means. A cumulative distance calculation means calculates the sum by a combination of one distance given as . a selection means for selecting N items from among them, storing the distance in the cumulative distance storage means, and storing in the transition storage means the number and rank of the cumulative distance of which phoneme candidate was selected; tracing the transition information stored in the transition storage means;
A speech recognition device comprising: transition tracing means for outputting N discrimination result candidates.
JP59036447A 1984-02-27 1984-02-27 Voice recognition equipment Pending JPS60179799A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59036447A JPS60179799A (en) 1984-02-27 1984-02-27 Voice recognition equipment

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59036447A JPS60179799A (en) 1984-02-27 1984-02-27 Voice recognition equipment

Publications (1)

Publication Number Publication Date
JPS60179799A true JPS60179799A (en) 1985-09-13

Family

ID=12470064

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59036447A Pending JPS60179799A (en) 1984-02-27 1984-02-27 Voice recognition equipment

Country Status (1)

Country Link
JP (1) JPS60179799A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06175696A (en) * 1992-09-10 1994-06-24 Internatl Business Mach Corp <Ibm> Device and method for coding speech and device and method for recognizing speech

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59132039A (en) * 1983-01-17 1984-07-30 Nec Corp Evaluating method of kana character string

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59132039A (en) * 1983-01-17 1984-07-30 Nec Corp Evaluating method of kana character string

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06175696A (en) * 1992-09-10 1994-06-24 Internatl Business Mach Corp <Ibm> Device and method for coding speech and device and method for recognizing speech

Similar Documents

Publication Publication Date Title
KR910007531B1 (en) Syllable recognition device
JPH03257596A (en) Highest preference search processing method applying difference of recognized distance
US8942983B2 (en) Method of speech synthesis
JPWO2015118645A1 (en) Voice search apparatus and voice search method
JP5436307B2 (en) Similar document search device
JPS60179799A (en) Voice recognition equipment
JP2009271117A (en) Voice retrieval device and voice retrieval method
KR20190023169A (en) Method for wakeup word selection using edit distance
JP4511274B2 (en) Voice data retrieval device
JP2004309928A (en) Speech recognition device, electronic dictionary device, speech recognizing method, retrieving method, and program
JPS61122781A (en) Speech word processor
JPS62134698A (en) Voice input system for multiple word
JPS61184683A (en) Recognition-result selecting system
JPS63265299A (en) Voice recognition equipment
JPH049320B2 (en)
JPS6147999A (en) Voice recognition system
JP2979912B2 (en) Voice recognition device
JP3369121B2 (en) Voice recognition method and voice recognition device
JPH0652478B2 (en) Recognition device
JPS6283798A (en) Continuous voice recognition equipment
JPS60147797A (en) Voice recognition equipment
JPS6169099A (en) Voice recognition equipment
JPH0588479B2 (en)
JPH10333692A (en) Phonemic table, voice recognizing method, and recording medium in which voice recognizing program has been stored
JPH0554678B2 (en)