JPS5961898A - Recognition equipment - Google Patents

Recognition equipment

Info

Publication number
JPS5961898A
JPS5961898A JP57172787A JP17278782A JPS5961898A JP S5961898 A JPS5961898 A JP S5961898A JP 57172787 A JP57172787 A JP 57172787A JP 17278782 A JP17278782 A JP 17278782A JP S5961898 A JPS5961898 A JP S5961898A
Authority
JP
Japan
Prior art keywords
transition matrix
syllable
candidate
transition
stored
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP57172787A
Other languages
Japanese (ja)
Other versions
JPS6342279B2 (en
Inventor
外川 文雄
充宏 斗谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Computer Basic Technology Research Association Corp
Original Assignee
Computer Basic Technology Research Association Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Computer Basic Technology Research Association Corp filed Critical Computer Basic Technology Research Association Corp
Priority to JP57172787A priority Critical patent/JPS5961898A/en
Publication of JPS5961898A publication Critical patent/JPS5961898A/en
Publication of JPS6342279B2 publication Critical patent/JPS6342279B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 く技術分野〉 本発明は認識装置の改良に関し、更に詳細には例えば文
節等の一区切りの音声等の一区切りの認識すべき情報を
音韻、かな、音節2文節等のより細分化された単位要素
で認識する認識装置の改良に関するものである。
[Detailed Description of the Invention] [Technical Field] The present invention relates to an improvement in a recognition device, and more specifically, the present invention relates to an improvement in a recognition device, and more specifically, for example, a recognition device that recognizes a section of information such as a section of speech such as a phrase, etc. This invention relates to the improvement of a recognition device that recognizes subdivided unit elements.

〈従来技術〉 文節等の一区切りの音声等を音韻、かな、音節等のよ、
!7細分化された単位で認識する場合、従来一般的には
入力された認識すべき一区切りの音声情報等を例えば音
響処理して音韻、音節等の単位毎の特徴ベクトル入カバ
ターンを得ると共に、この入カバターンと予め記憶され
ている標準ノ(ターンとの77チングを行って、入力さ
れた情報を候袖午位列とし1類似度の高いものから出力
し、この出力された候補単位列と文節等の辞書の内容と
を照合して入力された情報に対する文節等の一区切9の
情報を認識している。
<Prior art> The sound of a segment of a phrase, etc., can be expressed as a phoneme, kana, syllable, etc.
! In the case of recognition in 7 subdivided units, conventionally, generally speaking, one section of input speech information to be recognized is processed, for example, by acoustic processing to obtain a cover pattern containing feature vectors for each unit such as phoneme or syllable. Perform 77 checking between the input cover turn and the standard no (turn) stored in advance, and output the input information as a candidate unit sequence in descending order of similarity, and combine this output candidate unit sequence and bunsetsu. The information of a segment 9, such as a phrase, for the input information is recognized by checking the contents of a dictionary such as .

しかし、このような従来の方法によれば、全ての音韻、
音節等の標準パターンと入カバターンとのマツチングを
行なって類似度を算出し、類似度の高いものから順に候
補音節等として出力している。
However, according to such conventional methods, all phonemes,
The degree of similarity is calculated by matching standard patterns such as syllables with the input cover patterns, and the ones with the highest degree of similarity are output as candidate syllables, etc.

したがって、例えば拗音を含む単音節単位で認識する場
合、各音節単位全てについて100種以上の単音節の標
準パターンと入カバターンとの間でマツチングを行う必
要があり、その処理時間が多大なものとなっていた。
Therefore, for example, when recognizing single syllables including syllables, it is necessary to match over 100 types of monosyllable standard patterns and input kabata patterns for each syllable, which takes a lot of processing time. It had become.

また、その後に類似度の高いものから出力される候補単
位列の全てについて辞書照合処理を行なう必要があシ、
その処理時間が長くなり、正しい文節等を認識する確度
が向上せず、結果的に全体の認識に要する処理量が膨大
なものになっていた。
In addition, it is necessary to perform dictionary matching processing on all candidate unit sequences output from those with high similarity after that.
The processing time becomes long, the accuracy of recognizing correct phrases, etc. does not improve, and as a result, the amount of processing required for overall recognition becomes enormous.

く目 的〉 本発明は、上記従来の欠点を除去した認識装置を提供す
ることを目的とし、正しい文節等の〜区切りの認識すべ
き情報を認識する確度を向上させると共に、結果的に全
体の認識に要する処理量を減少させることのできる認識
装置を提供するものである。
Purpose of the present invention: It is an object of the present invention to provide a recognition device that eliminates the above-mentioned drawbacks of the conventional art, and improves the accuracy of recognizing information to be recognized at intervals such as correct phrases, and as a result, improves overall recognition efficiency. The present invention provides a recognition device that can reduce the amount of processing required for recognition.

〈実施例〉 以下、本発明の認識装置を文節等の一区切りの音声入力
を音節等のより細分化された単位要素で認識する場合の
例を実施例として説明する。
<Example> Hereinafter, an example in which the recognition device of the present invention recognizes one segment of audio input such as a phrase using more subdivided unit elements such as syllables will be described as an example.

本発明の実施例によれば、文節等の一区切りの音声等の
認識すべき情報を音韻、かな、音節等のより細分化され
たN個の単位要素で認識する認識装置において、認識対
象となる文節あるいは文章等の文字(単位要素)列につ
いて(N+ 1 )個の文字(単位要素)間の接続関係
である遷移関係を記述した遷移行列を作成する遷移行列
作成手段と、この遷移行列作成手段により作成された遷
移行列にもとすいて、音節(単位要素)ラティス生成時
に、−音節(単位要素)前のどの候補音節(単位要素)
からも遷移しない音節(単位要素)群は認識対象から除
外し、及びまたは候補列作成時に各候補列に対して遷移
行列を参照し、遷移しない音節(単位要素)の組合せを
含む候補列は除外する等の認識処理を行う処理手段とを
備えて、次の高次の辞書照合の際の処理量の削減を図る
ように構成されている。
According to an embodiment of the present invention, in a recognition device that recognizes information to be recognized, such as a segment of speech such as a phrase, using N unit elements that are further divided into phonemes, kana, syllables, etc., the recognition target A transition matrix creation means for creating a transition matrix that describes a transition relationship that is a connection relationship between (N+1) characters (unit elements) for a character (unit element) string of a bunsetsu or sentence, and this transition matrix creation means Based on the transition matrix created by
Exclude groups of syllables (unit elements) that do not transition from the recognition target, and/or refer to the transition matrix for each candidate sequence when creating candidate sequences, and exclude candidate sequences that include combinations of syllables (unit elements) that do not transition. The system is configured to include processing means for performing recognition processing such as , etc., in order to reduce the amount of processing in the next high-level dictionary matching.

まず、本発明の詳細な説明に先立ち、本発明の認識装置
に用いられる単位吸素間の接続関係である遷移関係を示
した遷移行列について説明する。
First, prior to a detailed explanation of the present invention, a transition matrix showing a transition relationship, which is a connection relationship between unit absorptive elements used in the recognition device of the present invention, will be explained.

一般に日本語文章は、全てがな文字で表現した場合、か
な文字列に対応した音節列で表現できる。
In general, Japanese sentences can be expressed as syllable strings corresponding to kana character strings when all Japanese sentences are expressed using kana characters.

例えば文節「地球の」はゝち”“きゅ〃ゝゝうLL 1
1の〃という4個の単音節といわれる単位要素から成9
立っている。2つの音節間の接続関係(゛ち”がらゝゝ
きゅ“ 、″きゅ〃からゝう〃、1うIがらゝゝの”)
を、日本語全て、あるいは特定の分野1話題における文
章等について調べると接続(遷移:以下遷移ということ
ばを使う)しない音節対がある。例えばば行の音節の前
には゛ん〃、″ゲ′以外はこない。またゝゝにゃ“は語
頭にこないし、′へ〃(へと発声するも1  の)は語
尾にこない。
For example, the phrase “Earth’s” is
It consists of four unit elements called ``1'', which are called monosyllables.9
Are standing. Connective relationship between two syllables (“chi” gara ekyu “, “kyu kara ゝu〃, 1u I gara ゝno”)
If you look at sentences in all of Japanese or in one topic in a specific field, there are syllable pairs that do not connect (transition; hereinafter, the term transition is used). For example, before the syllable of the word ``b'', nothing other than ゛〃 or ``ge'' comes.Also, ゝnya'' does not come at the beginning of the word, and ``he〃 (also pronounced as ``he'') does not come at the end of the word.

このような文節を構成する音節の1次の遷移関係を以下
に示す式(1) K従って記述して、第1図に示すよう
な遷移行列M(X、Y)を作成する。
The first-order transition relationship of the syllables constituting such a bunsetsu is written as the following equation (1) K, and a transition matrix M(X, Y) as shown in FIG. 1 is created.

第1図において遷移行列M(X、Y)は単位要素列であ
る文字列の文字Xから次の文字Yへの遷移を記述したも
のであり、単位要素(音節)がN個の場合、(N+I)
X(N+I)の行列であり、ハード的にはROM等に記
憶される。またYO列には各単位要素(1〜N)が節類
に来るか否かを表わし、X0行には各単位要素(1−N
)が部属に来るか否かを表わすデータが書込まれる。
In FIG. 1, the transition matrix M(X, Y) describes the transition from character X to the next character Y in a character string, which is a unit element string, and when there are N unit elements (syllables), ( N+I)
It is a matrix of X(N+I), and is stored in a ROM or the like in terms of hardware. In addition, the YO column shows whether each unit element (1 to N) comes in a clause, and the X0 row shows each unit element (1 to N).
) is written in the category.

例えばゝゝ赤い“という文字列の遷移を遷移行列に書込
んだ例を第2図に示す。遷移行列の要素は0(遷移不可
能)かl(遷移可能)の2値のどちらかで宍現され、1
ビツトで記憶される。なお、第2図においては表記ゝゝ
I”以外の行列要素は全てゝゝ0”てあり、その表示を
省略している。
For example, Figure 2 shows an example in which the transition of the character string "red" is written in the transition matrix.The elements of the transition matrix can be either 0 (transition not possible) or l (transition possible). revealed, 1
It is stored in bits. In FIG. 2, all matrix elements other than the notation "I" are shown as "0", and their display is omitted.

次に遷移行列の作成について、今少し詳細に説明する。Next, the creation of the transition matrix will be explained in a little more detail.

まず遷移行列の作成にあたって遷移行列メモリを0″に
初期セント(M(x、y)==0 )する。
First, when creating a transition matrix, the transition matrix memory is initially set to 0'' (M(x, y)==0).

次に文字列A−= (at 、a2.a3 、・・、a
l)但し、l:列の文字数 とした場合、次式(1) に従って、文字列Aの文字遷移関係を遷移行列M(X、
Y)に書込む。同様に認識対象となる文字列の全てにつ
いて遷移関係を書込み遷移行列(1次)・の作成を完了
する。
Next, the character string A-= (at, a2.a3,..., a
l) However, when l is the number of characters in a string, the character transition relationship of character string A is expressed as a transition matrix M(X,
Write in Y). Similarly, the transition relationships are written for all character strings to be recognized, and the creation of the transition matrix (first order) is completed.

このようにして作成された具体的な遷移行列(1次)M
(X、Y)の例を第3図に示している。この第3図より
明らかなように例えば(X、Y)−(え。
The concrete transition matrix (first order) M created in this way
An example of (X, Y) is shown in FIG. As is clear from FIG. 3, for example, (X, Y)-(Eh).

く)のビット位置がゝゝばであるため、゛え“から゛<
“への遷移が存在し、また(X、Y)−(え、け)のピ
ント位置が0〃であるため、″え〃からゝゝけ〃への遷
移が存在しないことを表わしている。
Since the bit position of
Since there is a transition to ", and the focus position of (X, Y) - (e, ke) is 0, this indicates that there is no transition from ``e'' to ゝke.

上記は1次の遷移であるが、2次遷移、更には一般にM
次へ拡張したM次遷移行列も同様に次式(2)に従って
作成することが出来る。
The above is a first-order transition, but there are also second-order transitions, and more generally M
The M-order transition matrix extended to the next can be similarly created according to the following equation (2).

M次遷移行列: M(XI 、X2.X3.−、XM、
Y)。
M-order transition matrix: M(XI, X2.X3.-, XM,
Y).

(N+1)   次元 M(ai−M、 ai−(M−D、−、ai)=I 、
 (i−+ 〜I+1)・(2)本発明の実施例は、こ
の遷移行列を任意に作成することが出来るように認識す
べき所定の単位要素列について(N+1)個の単位要素
間の接続関係である遷移関係を記述した遷移行列を作成
する遷移行列作成手段を認識装置に備えるよつにしたも
のである。
(N+1) dimension M(ai-M, ai-(MD,-,ai)=I,
(i−+ ~I+1)・(2) The embodiment of the present invention uses connections between (N+1) unit elements for a predetermined unit element sequence to be recognized so that this transition matrix can be arbitrarily created. The recognition device is provided with a transition matrix creation means for creating a transition matrix that describes a transition relationship.

次に本発明の実施例を図面を参照して説明するC第4図
は本発明の一実施例装置の構成を示すブロック図である
Next, an embodiment of the present invention will be described with reference to the drawings. FIG. 4 is a block diagram showing the configuration of an apparatus according to an embodiment of the present invention.

第4図において、1はフロッピーディスク装置であり、
認識対象となる文節あるいは文章等の文字列を記憶した
記憶媒体が装着される。2は文字コード入力端子で1、
外部装置から文字列の文字コードが入力される。また3
はキーボード装置、4は切換スイッチ手段、5は中央処
理装置(CPtJ)、6は文字バッファ、7は文字カウ
ンタ、8は遷移行列メモリ、9は認識処理部、IOは認
識すべき音声情報が入力される入力端子、11は上記c
puに対して遷移行列作成の指示信号を入力するための
一ファンクションキーである。
In FIG. 4, 1 is a floppy disk device,
A storage medium storing character strings such as phrases or sentences to be recognized is attached. 2 is the character code input terminal 1,
The character code of a character string is input from an external device. Also 3
is a keyboard device, 4 is a changeover switch means, 5 is a central processing unit (CPtJ), 6 is a character buffer, 7 is a character counter, 8 is a transition matrix memory, 9 is a recognition processing unit, and IO is the input of voice information to be recognized. input terminal 11 is the above c
This is a function key for inputting an instruction signal for creating a transition matrix to pu.

渚、記の如き構成において、遷移行列メモリ8に所望の
遷移行列情報を書込む場合、まずファンクションキー1
1を操作してCPUに対し1遷移行列作成の指示を行な
い、次に切換スイッチ手段4を操作してキーボード3、
フロッピーディスク装置1あるいはその他の入力手段を
選択し、認識対象となる文字列を単位として入力する。
In the configuration described by Nagisa, when writing desired transition matrix information to the transition matrix memory 8, first press the function key 1.
1 to instruct the CPU to create a 1 transition matrix, and then operate the changeover switch means 4 to select the keyboard 3,
The user selects the floppy disk drive 1 or other input means and inputs the character string to be recognized as a unit.

上記入力手段より入力された文字列はCPt15の制御
の下に第5図の遷移行列作成の処理フローに従って遷移
行列メモリ8へ遷移行列情報を書き込んでいく。
Under the control of the CPt 15, the character string input from the input means writes transition matrix information into the transition matrix memory 8 according to the processing flow for creating a transition matrix shown in FIG.

即ちCPU5は最初遷移行列初期値設定動作を実行して
(ステップn1)、遷移行列メモリ8の記憶内容の全て
を初期値゛0“に設定する。
That is, the CPU 5 first executes the transition matrix initial value setting operation (step n1), and sets all the stored contents of the transition matrix memory 8 to the initial value "0".

次に具体的な遷移行列作成動作に移行しくn2)、入力
手段より入力された文字列はコード化されて文字バッフ
ァ6に一時記憶され、またその文字数は文字カウンタ7
に記憶される(n3)。
Next, proceeding to a specific transition matrix creation operation (n2), the character string input from the input means is encoded and temporarily stored in the character buffer 6, and the number of characters is stored in the character counter 7.
(n3).

次に文字バッファ6に記憶されたコード化された文字列
情報にもとすいて、文字遷移関係が遷移行列メモリ8に
書込まれる(n4)。この動作は上記した式(1)に従
って実行される。具体的には例えば文字バッフ乙6に記
憶されたデータは順次第6図(a)に示す一桁文字バッ
ファ6X 、 6Y及び−文字遅延器6Dより成る遷移
判定手段にシフト入力され、このバッファ6X及び6Y
に内容に対応して遷移行列メモリ8の(x、y)アドレ
スを指定すると共にそのアドレス位置にゝゝ1“全書込
む。従って最初のシフト動作によって第1番目の文字コ
ードがバッファ6Yに入力され、メモリ8のX=O。
Next, character transition relationships are written into the transition matrix memory 8 based on the encoded character string information stored in the character buffer 6 (n4). This operation is performed according to equation (1) above. Specifically, for example, the data stored in the character buffer Otsu 6 is sequentially shifted into a transition determination means consisting of one-digit character buffers 6X, 6Y and a -character delay device 6D shown in FIG. and 6Y
The (x, y) address of the transition matrix memory 8 is specified in accordance with the contents, and all ``1'' is written to that address position.Therefore, the first character code is input to the buffer 6Y by the first shift operation. , X=O in memory 8.

Y=alのアドレス位置が指定され、そのアドレス位置
にゝゝ1“が書込まれる。次のシフト動作により第1番
目の文字コードがバッファ6Xに入力され、第2番目の
文字コードがバッファ6Yに入力され、メモリ8のX=
a 1 、Y=a2のアドレス位置が指定され、そのア
ドレス位置にlゝ1”が書込まれ、alからa2への遷
移関係が書込まれる。以下同様の動作を文字カウンタ7
の記憶内容に対応して実行し、−文字列に対する遷移関
係の書込みを完了する。
The address position of Y=al is specified, and "1" is written to that address position.The next shift operation inputs the first character code to buffer 6X, and the second character code to buffer 6Y. is input into memory 8, X=
The address position of a 1 , Y=a2 is specified, l1'' is written to that address position, and the transition relationship from al to a2 is written.
- Completes the writing of the transition relationship for the character string.

以下、同様の動作を認識対象となる文字列の全てについ
て行ない、遷移行列の作成を完了する(n5 、n6 
)。
Below, similar operations are performed for all character strings to be recognized to complete the creation of the transition matrix (n5, n6
).

また認識対象語を新たに追加する場合には、第5図にお
けるステップnlの初期設定動作を除いて、ステップn
3〜n5の動作を実行して遷移行列にその遷移関係を書
込む。
In addition, when adding a new recognition target word, except for the initial setting operation of step nl in FIG.
3 to n5 are executed and the transition relationship is written in the transition matrix.

以上は1次の遷移であるが、2次遷移、更にはM次の遷
移行列についても、同様に上記した式(2)に従がって
第6図(b) 、 (C)に示す遷移判定手段によって
作成することが出来る。
The above is a first-order transition, but for a second-order transition and even an M-order transition matrix, the transitions shown in FIGS. 6(b) and (C) can be made similarly according to equation (2) above. It can be created by a determining means.

次に上記のようにして作成された遷移行列を用いたー認
識動作について説明する。
Next, a recognition operation using the transition matrix created as described above will be explained.

第7図は上記第4図に示した認識処理部9の詳細ブロッ
ク図である。
FIG. 7 is a detailed block diagram of the recognition processing section 9 shown in FIG. 4 above.

第7図において、文節音声入力部2Iに入力された音声
情報は次段の音響処理・比較部22に入力される。この
音響処理・比較部22は遷移行列メモリ26(第5図の
メモリ8に対応)f:用いた処理部分を除いた部分は従
来公知のものであり、例えば文節音声入力部21に入力
された文節音声信号が音響処理部22により単音節毎に
特徴抽出処理が行なわれ、各単音節毎の特徴パターンが
同処理部22内のバッファに一時記憶される。一方記憶
装置23には各単音節毎の標準パターンPi(i=1〜
N)が記憶されており、この標準パターンPiが順次読
出されて処理・比較部22において該処理部内のバッフ
ァに記憶された入力音声の入力特徴パターンとのマツチ
ング計算が行なわれる。
In FIG. 7, the speech information input to the phrase speech input section 2I is input to the next stage acoustic processing/comparison section 22. This acoustic processing/comparison section 22 includes a transition matrix memory 26 (corresponding to the memory 8 in FIG. 5). The sound processing section 22 performs feature extraction processing on the phrase audio signal for each single syllable, and the feature pattern for each single syllable is temporarily stored in a buffer within the processing section 22. On the other hand, the storage device 23 stores standard patterns Pi (i=1 to
N) is stored, and this standard pattern Pi is sequentially read out and the processing/comparison section 22 performs a matching calculation with the input feature pattern of the input voice stored in the buffer within the processing section.

従来技術によれば、この標準パターンと入力特徴パター
ンとのマツチング計算処理は全て叛の標準パターンにつ
いて行なわれていたが、本発明の実施例((よれば、後
述するように遷移行列メモリ26に記憶された情報にも
とすいて前に候補として認識した音節に接続可能な音節
(最初の場合は先頭に来る可能性のある音節)の標準パ
ターンとのマツチングが計算され、最も近似したものが
第1候補として、また順次近似したものが次候補として
選出され、その結果が候補音節メモリ24に記憶される
。即ち音節ラティス生成時に、−音節前1のどの候補音
節からも遷移しない音節群は認識対象から除外するよう
に処理される。
According to the prior art, the matching calculation process between the standard pattern and the input feature pattern was all performed on the standard pattern of rebellion, but according to the embodiment of the present invention ((as described later), the matching calculation process between the standard pattern and the input feature pattern is Based on the stored information, the syllable previously recognized as a candidate is matched with a standard pattern of connectable syllables (in the first case, the syllable that may come at the beginning), and the closest match is calculated. The first candidate and the sequentially approximated ones are selected as the next candidates, and the result is stored in the candidate syllable memory 24.In other words, when generating a syllable lattice, the syllable group that does not transition from any of the candidate syllables before -syllable 1 is selected as the next candidate. Processed to exclude it from recognition targets.

上記候補音節ラティスメモリ24に記憶された複数個の
イ挾H音%の時系列は候補列作成部25及び遷移行列メ
モリ26より成る候補列出力部27に入力され、該候補
列出力部27において、遷移行列メモリ26の内容を参
照して遷移不可能な音節遷移を含む候補列は除外して、
遷移可能な候補列のみ、信頼度の高い組合せ順に作成さ
れ、この候補列と辞書28に記憶された文節とが辞書照
合部29により照合され、一致すればその結果が文節出
力部30に出力されるように構成されている。
The time series of a plurality of I-H sounds % stored in the candidate syllable lattice memory 24 is input to a candidate string output section 27 consisting of a candidate string creation section 25 and a transition matrix memory 26. , by referring to the contents of the transition matrix memory 26 and excluding candidate sequences containing syllable transitions that cannot be transitioned.
Only transitionable candidate sequences are created in the order of combinations with high reliability, and the dictionary collation unit 29 collates these candidate sequences with phrases stored in the dictionary 28. If they match, the result is output to the phrase output unit 30. It is configured to

次に遷移行列M(X、Y)を用いた音節認識処理につい
て第8図に示す遷移行列を用いた候補音節作成処理ブロ
ック図を参照して説明する。
Next, syllable recognition processing using the transition matrix M(X, Y) will be explained with reference to a block diagram of candidate syllable creation processing using the transition matrix shown in FIG.

本実施例においては、結果として得る候補音節を時系列
順に候補音節ラティスバッファ24に一次記憶する。ま
た上記した遷移行列情報はメモリ26 ニ記憶すれてお
り、音節標準パターンはメモリ23に記憶されている。
In this embodiment, the resulting candidate syllables are temporarily stored in the candidate syllable lattice buffer 24 in chronological order. Further, the above transition matrix information is stored in the memory 26, and the syllable standard pattern is stored in the memory 23.

儀撒補音節ラティス24には認識結果が次表の如く記憶
されていくが、令弟i音節を認識する場合には、以下の
如く処理が実行される。
The recognition results are stored in the complimentary syllable lattice 24 as shown in the following table, and when recognizing the syllable i, the following process is executed.

但 J(i) :第i音節候補数 Sij:第j音節i候補音節番号 令、前音節候補を X−(Sト+、j  l  j=I〜J(i−1)組合
せ数:J(i−I)(z=oのときSt、j=0)とし
た場合、次式(3)に従って直前の複数個(J(i−1
)個)の候補音節について遷移行列の各行の和をとり、
得られた行m (Y)が0である音節は遷移不可能であ
ると指定する。
However, J(i): number of i-th syllable candidates Sij: j-th syllable i candidate syllable number order, previous syllable candidate as i-I) (St when z=o, j=0), the immediately preceding plurality (J(i-1
) candidate syllables, calculate the sum of each row of the transition matrix,
Syllables whose resulting row m (Y) is 0 are designated as non-transitionable.

m(Y)=VM(,5i−1,j 、 Y )・=・4
3)””M(、fii、−1,1、Y)1M(51−1
,2、Y)+・・1M (Si−1,JG−1) 、Y
)この(3)式においてm(Y) = 0となり、遷移
不可能と指定された音節群は、除外して次の類似比較の
処理を行い、第i音節の候補音節を出力し、候補音節ラ
ティス7に書込む。但し、1=I(節類の音節)のとき
は第0行M (0,Y)によって遷移不可能と指定され
た音節群を除外して類似比較の処理を行なう。
m(Y)=VM(,5i-1,j,Y)・=・4
3)””M(,fii,-1,1,Y)1M(51-1
,2,Y)+...1M (Si-1,JG-1),Y
) In this formula (3), m(Y) = 0, and the syllable group designated as impossible to transition is excluded and the next similarity comparison process is performed to output the candidate syllable of the i-th syllable. Write to lattice 7. However, when 1=I (syllable of clause class), the syllable group designated as non-transitionable by the 0th row M (0, Y) is excluded and the similarity comparison process is performed.

以上を繰返して、−文節音声の候補音節ラティスの作成
を完了する。
By repeating the above steps, the creation of the candidate syllable lattice of the -phrasal speech is completed.

今、−文節音声として「国民は」を入力した場合、音響
処理部22により音節毎に特徴抽出が行なわれ、その音
節毎の特徴パターンyiが入カバターン時系列バッファ
31に記憶される。次に遷移行列を用いた候補音節作成
処理に移り、最初に第1音節の特徴パターンy1が入カ
バターンバッファ32に読み込まれ、次にステップn3
に移行して前候補音節群によ9式(3)にしたがって遷
移行列の行を指定する。最初の場合はステップn4に2
いて第0行のM(0,Y)が指定されその内容がバッフ
ァ尚3に一時記憶され、ステップn5の生起音節の指定
が成される。
Now, when "Kokuminwa" is input as the -bunsetsu speech, the acoustic processing unit 22 extracts features for each syllable, and the feature pattern yi for each syllable is stored in the input pattern time series buffer 31. Next, the process moves on to candidate syllable creation processing using the transition matrix. First, the feature pattern y1 of the first syllable is read into the input cover turn buffer 32, and then step n3
Then, the rows of the transition matrix are specified using the previous candidate syllable group according to Equation 9 (3). In the first case, 2 in step n4.
Then, M(0, Y) in the 0th line is specified, its contents are temporarily stored in buffer 3, and the occurring syllable is specified in step n5.

次にステップn6に移行して入カバターンバッファ32
に記憶された第1音節y1の特徴パターンがロードされ
、この特徴パターンylと音節標準パターンメモリ23
に記憶された標準パターンの内バッファ33によって生
起音節と指定されて順次標準パターンバッファ34に読
出される標準パターンとの間で類似比較か行なわれ(ス
テップn7)、その結果にもとすいて候補音節が出力さ
れ(ステップn8)、その結果が候補音節ラティス24
に書か!しる。この実施例においては第1音節候補とし
てゝl K OL+ 、 11 Go” 11 B □
“が記憶される。
Next, proceeding to step n6, the input cover turn buffer 32
The feature pattern of the first syllable y1 stored in is loaded, and this feature pattern yl and the syllable standard pattern memory 23
Among the standard patterns stored in the buffer 33, a similarity comparison is made between standard patterns that are designated as occurring syllables and sequentially read out to the standard pattern buffer 34 (step n7), and the results are used as candidate syllables. The syllables are output (step n8), and the result is the candidate syllable lattice 24.
Write it! Sign. In this example, the first syllable candidates are ゝl K OL+, 11 Go'' 11 B □
“is memorized.

次にステップn2に戻り、第2音節特徴パターンy2が
パン7732に入力され、ステップn3に移行して、候
補音節ラティス24の第1候補音節にもとすいて11 
K O” 11 G OLL 、 11 B □ LL
に対応した各行のM(’Sl、l〜3.Y)が指定され
、ステップn4において、その遷移行列の和(OR)が
作成されてその結九がバッファ33に一時記憶され、ス
テン7”n50那廐升簡の指定が成される。
Next, the process returns to step n2, and the second syllable feature pattern y2 is input to the pan 7732, and the process proceeds to step n3, where it is added to the first candidate syllable of the candidate syllable lattice 24.
K O” 11 G OLL, 11 B □ LL
M('Sl, l~3.Y) of each row corresponding to is specified, and in step n4, the sum (OR) of the transition matrices is created and the result is temporarily stored in the buffer 33. The designation of the n50 Nashokan was made.

次にステップn6に移行し、以下同様のステップn6〜
n9i実行して第2候補音節11 K U rJ 、 
11 cu”をメモリ24に記憶する。
Next, the process moves to step n6, and similar steps n6 to
n9i is executed and the second candidate syllable 11 K U rJ,
11 cu” is stored in the memory 24.

以上の動作を繰返して一文節の候補音節ラティスの作成
を完了する。
By repeating the above operations, the creation of a candidate syllable lattice for one phrase is completed.

以上のようにして候補音節ラティス24に候補列が記憶
されることになるが、遷移行列を用いない場合の従来方
式の場合と本方式の場合の実例を入力音声「国民は」に
ついて次表に示す。
Candidate strings are stored in the candidate syllable lattice 24 as described above.The following table shows examples of the conventional method and the present method when no transition matrix is used for the input speech "Kokumin wa". show.

上記の例から明らかなように、本方式による方が正しい
文字列が候補列の上位に上がっている様子がわかる。
As is clear from the above example, it can be seen that the correct character strings rise to the top of the candidate strings using this method.

以上の遷移行列は1次遷移であるが、2次遷移、更には
一般的なM次遷移まで同じ手法で拡張することができる
Although the above transition matrix is a first-order transition, it can be extended to a second-order transition and even a general M-order transition using the same method.

なおM次の遷移行列の作成は上述の式(2)に従い、前
候補音節(M音節前まで)からの音節指定は次に示す式
(4)Kよって行なうことが出来る。
Note that the M-order transition matrix can be created according to the above equation (2), and the syllable designation from the previous candidate syllable (up to M syllables) can be performed according to the following equation (4)K.

即ちM次遷移行列M(Xi 、X2 、・、XM、Y)
への拡張の場合、前音節候補列を (−X I 、X2、−、XM) = (31−M、j
l si−(M−t)、j2°°Si−+、jM1jl
”I−J (i −M ) j2=1〜J (i−(M−1)) jM=l〜J(i−I) 組合せの数:J(i−M)・J (i−(M−1))・
・づ(i−1)(t≦0のとき sz、j=o) とした場合、 音節指定は j+ =I−J(i−M) j2=I〜J (i−(M−1) ) j M=I〜J(i−1) によって行なうことになる0 なお、Mの次数を大きくとれば、生成音節の限定が強く
なり、効果はより大きくなる。
That is, M-order transition matrix M(Xi, X2, ., XM, Y)
In the case of expansion to
l si−(M−t), j2°°Si−+, jM1jl
"I-J (i-M) j2=1~J (i-(M-1)) jM=l~J(i-I) Number of combinations: J(i-M)・J (i-(M -1))・
・If zu(i-1) (sz, j=o when t≦0), the syllable specification is j+ =I-J(i-M) j2=I~J (i-(M-1)) j M=I~J(i-1) 0 Note that if the order of M is increased, the syllables to be generated will be more limited, and the effect will be greater.

次に上記候補列出力部27で実行されている遷移行列を
用いた候補音節列作成動作について、第9図に示す遷移
行列を用いた候補列作成の処理ブロック図を参照して説
明するO 上記第7図に示した音響処理・比較部22から出力され
た複数個の候補音節の時系列を記憶する候補音節ラティ
スメモリ24の内容をもとに、候補音節列作成部41に
おいて信頼度の高い順に候補列が作成され、その結果が
候補音節列バ・ンファ42に一次記憶される。この候補
音節列ノ(・ノファ42に記憶された候補音節列は遷移
行列参照部43においてメモリ26に記憶された遷移行
列:M(X、Y)を参照して、遷移可能か不可能かを次
式(5)によって判定部44において判定し、可能な候
補列のみ候補音節列書込み部45を介して候補音節列用
カバソファ46に記憶していく。
Next, the operation of creating a candidate syllable string using a transition matrix, which is executed by the candidate string output unit 27, will be explained with reference to the processing block diagram of creating a candidate string using a transition matrix shown in FIG. Based on the contents of the candidate syllable lattice memory 24 that stores the time series of a plurality of candidate syllables output from the acoustic processing/comparison section 22 shown in FIG. Candidate sequences are created in order, and the results are temporarily stored in the candidate syllable sequence buffer 42. The candidate syllable string stored in the candidate syllable string ノ(・nofa 42) is determined in the transition matrix reference unit 43 whether transition is possible or not by referring to the transition matrix: M(X, Y) stored in the memory 26. The determination unit 44 makes a determination using the following equation (5), and only possible candidate sequences are stored in the candidate syllable sequence cover sofa 46 via the candidate syllable sequence writing unit 45.

令弟j番目の候補音節列を Aj=(at 、a2 、”’、al )但し、a弓第
i番目の音節番号 I:列の音節数 とした場合、判定部44による遷移行列M(X、Y)を
用いた候補列否定は M(al 、 O)=0   (i=I+1 )のいず
九か一つが成立した場合に成される。
The candidate syllable string of the j-th younger brother is Aj = (at, a2, "', al). However, when the i-th syllable number I of the a-bow is the number of syllables in the string, the transition matrix M (X , Y) is performed when any one of M(al, O)=0 (i=I+1) holds true.

この(5)式において、いずれか一つが成立した遷移不
可能な音節列を含んだ候補音節列は除外され、次の候補
音節列VCついて同様の判定を行ない、遷移可能な候補
音節列のみが出力バンファ46に記憶される。
In this equation (5), candidate syllable strings that include non-transitionable syllable strings in which any one of them is true are excluded, and the same determination is made for the next candidate syllable string VC, and only candidate syllable strings that are transitionable are excluded. It is stored in the output buffer 46.

今、−文節音声として「国民は」を久方した場合、音響
処理・比較部22の処理により候補音節ラティスメモリ
24に次表の如き候補音節が時系列に記憶される。
Now, when "Kokuminwa" is used as a -bunsetsu sound, candidate syllables as shown in the following table are stored in chronological order in the candidate syllable lattice memory 24 through processing by the acoustic processing/comparison section 22.

このメモ!j2417こ記憶された音節ラティスを基に
、信頼度の高い順に候補列が作成され、遷移行列:M(
X、Y)’r参照して作成された候補列が遷移可能なも
ののみが出力され、この例の場合には候補音1歓列が次
の如く出力される。
This memo! Based on the 2417 stored syllable lattices, candidate sequences are created in descending order of reliability, and a transition matrix: M(
Only transitionable candidate sequences created by referring to X, Y)'r are output, and in this example, candidate sound 1 sequence is output as follows.

遷移行列を参照しない従来方式によれば信頼度の最も高
い候補列としてr GOKUP I NWA J が出
力されることになるが、本方式によれば、この候補列の
音節の遷移例えば’KtJ“から@PI“が遷移不可能
であると遷移行列: M(X、Y)を用いて判断され、
以後の辞書照合処理から除外される。
According to the conventional method that does not refer to the transition matrix, r GOKUP I NWA J would be output as the candidate string with the highest reliability, but according to this method, the syllable transition of this candidate string, for example, from 'KtJ'' to It is determined that @PI” is not transitionable using the transition matrix: M(X, Y),
Excluded from subsequent dictionary matching processing.

以上の遷移行列は1次遷移であるが、2次遷移、更には
一般的なM次遷移まで同じ手法で拡張することができる
Although the above transition matrix is a first-order transition, it can be extended to a second-order transition and even a general M-order transition using the same method.

なおM次の遷移行列の作成は上述の式(2)に従い候補
音節列の否定は次に示す式(6)によって行うことが出
来る。
Note that the M-order transition matrix can be created using the above equation (2), and the candidate syllable string can be negated using the following equation (6).

即ち、M次遷移行列: M(XI 、X2 +”’+X
M 、Y)−の拡張の場合、第j候補列f:Aj−(a
t 、a2.・・・。
That is, M-order transition matrix: M(XI,X2+”'+X
In the case of expansion of M, Y)-, the j-th candidate column f:Aj-(a
t, a2. ....

ai)とすると M(ai−M、ai(M−1)l”’、ai)=0  
(i=I〜I+I)  −(6)(但し t≦O,t〉
Iのときaz=o)のいずれか一つが成立した場合に否
定が成される。
ai), then M(ai-M, ai(M-1)l''', ai)=0
(i=I~I+I) −(6) (however, t≦O, t〉
If any one of az=o) is true when I, negation is made.

なお、Mの次数を大きくとれば、候補音節列の限定が強
くなり、効果はより大きくなる。
Note that if the degree of M is increased, the candidate syllable string becomes more limited, and the effect becomes greater.

以上のようにして、候補列作成時に、各候補列に対して
行列Mを参照し、遷移しない音節の組合せを含む候補列
は除外されることになるん上記した認識装置の認識対象
は文節に限らず、音節、単語、文華でもよく、また細分
化された単位は音節に限らず、音韻、単語でもよい。
As described above, when creating a candidate string, the matrix M is referred to for each candidate string, and candidate strings that include combinations of syllables that do not transition are excluded. However, the subdivided units are not limited to syllables, but may also be phonemes or words.

またアルファベット等の文字列あるいはFORTRAN
言語等のプログラム言語の文字列でもよい。
Also, character strings such as alphabets or FORTRAN
It may be a character string of a programming language such as a language.

一般に認識対象語を構成する細分化した単位の遷移関係
の存在する文字列ヤあれば、本発明を適用することが出
来る。
In general, the present invention can be applied to any character string in which there is a transition relationship between subdivided units constituting a recognition target word.

〈効 果〉 以上の如く、本発明によれば、確度高く正しい候補列を
抽出することが出来るため、正しい文節等を認識する確
度が高くなり、結果的に高次の辞書照合等の処理量を減
少させることが出来ると共に、認識すべき情報の種類、
内容、話題、分野等に応じて、その都度必要に応じて話
題、分野別等の遷移行列を認識装置において作成するこ
とが出来るため、遷移行列を用いた認識処理の効果をよ
り大きくすることが可能である。
<Effects> As described above, according to the present invention, since it is possible to extract correct candidate sequences with high accuracy, the accuracy of recognizing correct phrases, etc. is increased, and as a result, the amount of processing such as high-level dictionary matching is reduced. In addition to reducing the number of types of information that should be recognized,
Since the recognition device can create transition matrices by topic, field, etc. as needed each time, depending on the content, topic, field, etc., it is possible to further increase the effectiveness of recognition processing using transition matrices. It is possible.

なお、本発明において、話題毎の文章や文節について作
成したような同次数の異なる種類の遷移行列:Mi、M
jから、それらの和をとって合成することによ・シ、簡
単に新しい遷移行列:M(M=MiUMj)を作成する
ことが出来る。
In addition, in the present invention, transition matrices of different types with the same degree, such as those created for sentences and clauses for each topic: Mi, M
A new transition matrix: M (M=MiUMj) can be easily created from j by summing and composing them.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は1次遷移行列を示す図、第2図は文字列の遷移
を書込んだ遷移行列例を示す図、第3図は文節文字列の
遷移行列例を示す図、第4図は本発明を実施した認識装
置の一実施例の構成を示すブロン2図、第5図は本発明
に係る遷移行列作成の処理フ(ロー図、第6図は遷移判
定手段の具体例を示すブロック図、第7図は遷移行列を
用いた認識処理部の詳細ブロック図、第8図は遷移行列
を用いた候補音節作成の処理フロー図、第9図は遷移行
列を用いた候補列作成の処理ブロック図である。 1・・・フロンピーディスク装置、3・・・キーボード
、4・・・切換スイッチ手段、5・・・中央処理装置(
CPLI)、8・・・遷移行列メモリ、9・・・認識処
理部、II・・・遷移行列作成指示ファンクションキー
0 代理人 弁理士 福 士 愛 彦(他2名)a81 中 ■ 74 図 第5 図 6D x        Y y、      Xxy Xt     Xxy     Y 第 7図
Figure 1 shows a linear transition matrix, Figure 2 shows an example of a transition matrix in which character string transitions are written, Figure 3 shows an example of a transition matrix for bunsetsu character strings, and Figure 4 shows an example of a transition matrix in which character string transitions are written. Figure 5 is a process flow diagram for creating a transition matrix according to the present invention, and Figure 6 is a block diagram showing a specific example of a transition determination means. Figure 7 is a detailed block diagram of the recognition processing unit using a transition matrix, Figure 8 is a process flow diagram for creating candidate syllables using a transition matrix, and Figure 9 is a process for creating a candidate string using a transition matrix. It is a block diagram. 1... Floppy disk device, 3... Keyboard, 4... Changeover switch means, 5... Central processing unit (
CPLI), 8... Transition matrix memory, 9... Recognition processing unit, II... Transition matrix creation instruction function key 0 Agent Patent attorney Yoshihiko Fukushi (and 2 others) a81 Medium ■ 74 Figure 5 Figure 6D x Y y, Xxy Xt Xxy Y Figure 7

Claims (1)

【特許請求の範囲】 1、一区切りの認識すべき情報をより細分化されたN個
の単位要素で認識する認識装置において、認識すべき所
定の単位贋素列について(N+I)個の単位要素間の接
続関係である遷移関係を記述した遷移行列を作成する遷
移行列作成手段と、該遷移行列作成手段により作成され
た遷移行列にもとすいて認識処理する処理手段とを備え
たことを特徴とする認識装置。 2 一区切りの認識すべき情報は単語あるいは文節単位
の音声情報であり、単位製素列は単語あるいは文節単位
の文字列であるところの特許請求の範囲第1項記載の認
識装置。
[Scope of Claims] 1. In a recognition device that recognizes one section of information to be recognized using N unit elements that are further subdivided, for a predetermined unit false sequence to be recognized, (N+I) unit elements are recognized. The present invention is characterized by comprising: a transition matrix creating means for creating a transition matrix that describes a transition relationship that is a connection relation; and a processing means for performing recognition processing on the transition matrix created by the transition matrix creating means. recognition device. 2. The recognition device according to claim 1, wherein the information to be recognized in one section is speech information in units of words or phrases, and the unit element string is character strings in units of words or phrases.
JP57172787A 1982-09-30 1982-09-30 Recognition equipment Granted JPS5961898A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57172787A JPS5961898A (en) 1982-09-30 1982-09-30 Recognition equipment

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57172787A JPS5961898A (en) 1982-09-30 1982-09-30 Recognition equipment

Publications (2)

Publication Number Publication Date
JPS5961898A true JPS5961898A (en) 1984-04-09
JPS6342279B2 JPS6342279B2 (en) 1988-08-22

Family

ID=15948341

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57172787A Granted JPS5961898A (en) 1982-09-30 1982-09-30 Recognition equipment

Country Status (1)

Country Link
JP (1) JPS5961898A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5991499A (en) * 1982-11-18 1984-05-26 伊福部 達 Voice recognition system

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5629299A (en) * 1979-07-16 1981-03-24 Western Electric Co Voice identifier

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5629299A (en) * 1979-07-16 1981-03-24 Western Electric Co Voice identifier

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5991499A (en) * 1982-11-18 1984-05-26 伊福部 達 Voice recognition system

Also Published As

Publication number Publication date
JPS6342279B2 (en) 1988-08-22

Similar Documents

Publication Publication Date Title
US6535849B1 (en) Method and system for generating semi-literal transcripts for speech recognition systems
KR100403293B1 (en) Speech synthesizing method, speech synthesis apparatus, and computer-readable medium recording speech synthesis program
Jelinek Continuous speech recognition by statistical methods
Lee et al. Golden Mandarin (I)-A real-time Mandarin speech dictation machine for Chinese language with very large vocabulary
US20020099543A1 (en) Segmentation technique increasing the active vocabulary of speech recognizers
CN110570876B (en) Singing voice synthesizing method, singing voice synthesizing device, computer equipment and storage medium
JPS61177493A (en) Voice recognition
CN114746935A (en) Attention-based clock hierarchy variation encoder
JP4738847B2 (en) Data retrieval apparatus and method
JPS5961898A (en) Recognition equipment
JP3059504B2 (en) Part of speech selection system
JPH10269204A (en) Method and device for automatically proofreading chinese document
Hendessi et al. A speech synthesizer for Persian text using a neural network with a smooth ergodic HMM
Lee et al. Special speech recognition approaches for the highly confusing Mandarin syllables based on hidden Markov models
JPS5855995A (en) Voice recognition system
JPH0552506B2 (en)
JPS5958493A (en) Recognition system
JPS5961897A (en) Recognition equipment
JPS62119591A (en) Sentence reciting apparatus
Cherifi et al. Conditional Random Fields Applied to Arabic Orthographic-Phonetic Transcription
JPH04127199A (en) Japanese pronunciation determining method for foreign language word
Kirvan Conversing with computers
Fry Automatic speech recognition
CN113011127A (en) Text phonetic notation method and device, storage medium and electronic equipment
JP2004004354A (en) Device, method and program of voice recognition