JPH0277100A - Preliminary selecting device for speech recognition - Google Patents

Preliminary selecting device for speech recognition

Info

Publication number
JPH0277100A
JPH0277100A JP63227584A JP22758488A JPH0277100A JP H0277100 A JPH0277100 A JP H0277100A JP 63227584 A JP63227584 A JP 63227584A JP 22758488 A JP22758488 A JP 22758488A JP H0277100 A JPH0277100 A JP H0277100A
Authority
JP
Japan
Prior art keywords
preliminary selection
pattern
feature
storage means
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63227584A
Other languages
Japanese (ja)
Inventor
Makoto Okazaki
真 岡崎
Koji Eto
公二 江藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP63227584A priority Critical patent/JPH0277100A/en
Publication of JPH0277100A publication Critical patent/JPH0277100A/en
Priority to US07/821,861 priority patent/US5159637A/en
Pending legal-status Critical Current

Links

Abstract

PURPOSE:To make an effective preliminary selection by deleting distance data corresponding to all feature patterns of a group that a feature pattern for preliminary selection which is selected and outputted belongs to, from a distance data storage means. CONSTITUTION:A preliminary selecting means 4 selects and outputs the feature pattern for preliminary selection which has the shortest distance among distances stored in a distance data temporary storage means 3. A link data storage means 5 is stored previously with the relation between respective feature patterns and all feature patterns in the group that the feature pattern belongs to. Then all the feature patterns of the group that the feature pattern for preliminary selection which is selected and outputted belongs to is outputted from the link data storage means 5 and inputted to the distance data storage means 3, thereby deleting the distance data corresponding to all the feature patterns of the group that the feature pattern for preliminary selection belongs to from the distance data storage means 3. Consequently, a single feature pattern for preliminary selection is obtained for the contents of one input voice and the width of the preliminary selection is never narrowed down.

Description

【発明の詳細な説明】 〔概要〕 音声認識時に1つの入力音声内容に対して複数の特徴パ
タンを有する音声辞書の中から少数の特徴パタンを予備
選択する音声認識用予備選択装置の改良に関し、 予備選択の範囲が狭くならない効果的な予備選択が可能
な予備選択装置を提供することを目的とし、 各人力音声内容に対応する複数の予備選択用特徴パタン
からなる群を予め登録格納する予備選択用特徴パタン記
憶手段と、 入力音声内容から作られた入力特徴パタンと該予備選択
用特徴パタン記憶手段が格納する各予備選択用特徴パタ
ンとの距離を計算する距離計算手段と、 該各予備選択用特徴パタンに対応する距離データを一時
的に格納する距離データ一時格納手段と、該距離データ
一時格納手段に格納されている距離のうち最小距離を示
す予備選択用特徴ツマタンを選択出力する予OMM沢手
段と、 各特徴パタンとその特徴パタンか属する群の全特徴パタ
ンとの関係付けを予め格納するりンクデータ格納手段と
を具備し、 該選択出力された予備選択用特徴パタンか属する群の全
特徴パタンを該リンクデータ格納手段から出力して該距
離データ格納手段に入力し、それにより、該距離データ
格納手段から、選択出力された予備選択用特徴パタンか
属する群の全特徴パタンに対応する距離データを削除す
るように構成する。
[Detailed Description of the Invention] [Summary] Regarding the improvement of a preliminary selection device for speech recognition that preliminarily selects a small number of feature patterns from a speech dictionary having a plurality of feature patterns for one input speech content during speech recognition, The purpose of the present invention is to provide a preliminary selection device capable of effective preliminary selection without narrowing the range of preliminary selection, and a preliminary selection device that registers and stores in advance a group of a plurality of preliminary selection feature patterns corresponding to each human voice content. a distance calculation means for calculating a distance between an input feature pattern created from the input audio content and each preliminary selection feature pattern stored in the preliminary selection feature pattern storage means; a distance data temporary storage means for temporarily storing distance data corresponding to the distance data temporary storage means; and a pre-OMM that selects and outputs a preliminary selection feature pattern indicating the minimum distance among the distances stored in the distance data temporary storage means. link data storage means for storing in advance the relationship between each feature pattern and all feature patterns of the group to which the feature pattern belongs; A feature pattern is outputted from the link data storage means and inputted to the distance data storage means, so that the preliminary selection feature pattern selectively outputted from the distance data storage means corresponds to all feature patterns of the group to which it belongs. Configure to delete distance data.

〔産業上の利用分野〕[Industrial application field]

本発明は、音声認識時に1つの人力音声内容に対して複
数の特徴パタンを有する音声辞書の中から少数の特徴パ
タンを予備選択する予備選択装置の改良に関する。
The present invention relates to an improvement in a preliminary selection device that preliminarily selects a small number of feature patterns from a speech dictionary having a plurality of feature patterns for one human voice content during speech recognition.

近年、音声認識処理技術の進歩とLSI等の技術進歩に
より、多くの音声認識装置が開発されており、マン・マ
シン・インターフェイスに用いる等の応用が考えられて
いる。
In recent years, with advances in speech recognition processing technology and advances in LSI technology, many speech recognition devices have been developed, and applications such as use in man-machine interfaces are being considered.

音声認識装置をマン・マシン・インターフェイスに用い
るためbiは、小型、低コスト、高性能等の要求を満た
す必要がある。特に、同一の内容を示す単語の音声でも
発声毎のゆらぎ、話者による声の違い、発音時の気分、
環境等により、発声時間、リズム、等の時間的要素、声
の大きさ、アクセント等のレベル的要素及び、イントネ
ーション、ホルマント位置の変化等の周波数成分的要素
が異なることがあり、常に一定で安定しているとは限ら
ないので、このような場合でも誤認識を避ける必要があ
る。
Since the voice recognition device is used as a man-machine interface, the bi needs to meet requirements such as small size, low cost, and high performance. In particular, even when the sound of words that express the same content is pronounced, there may be fluctuations in each utterance, differences in voice depending on the speaker, mood at the time of pronunciation, etc.
Depending on the environment, time factors such as utterance time and rhythm, level factors such as voice volume and accent, and frequency component factors such as changes in intonation and formant position may vary, but are always constant and stable. Therefore, it is necessary to avoid misrecognition even in such cases.

このため、高性能化を目的として、音声登録時に複数の
音声を用い、それぞれについて特徴パタンを作り、登録
する方法が提案されている(マルチテンプレート登録方
式)。即ち、同一内容の例えば「1」に対して[イチJ
と短く発音する場合、「イーチ」と長く発音する場合等
のそれぞれに特徴パタンを作成し、登録する。これによ
り、認識時の入力音声の変動により音声リズムが変動す
ることによる誤認識の可能性を少なくできる効果がある
Therefore, for the purpose of improving performance, a method has been proposed in which a plurality of voices are used during voice registration, and characteristic patterns are created and registered for each voice (multi-template registration method). In other words, for example "1" with the same content, [Ichi J
Characteristic patterns are created and registered for each case, such as a short pronunciation of ``,'' and a long pronunciation of ``each''. This has the effect of reducing the possibility of erroneous recognition due to variations in speech rhythm due to variations in input speech during recognition.

しかしながら、この登録方式では1つの人力音声内容に
つき、複数の特徴パタンを作るため、音声辞書に登録さ
れる特徴パタンの数が多くなってしまい、その結果、認
識時には、入力音声により作られた特徴パタンと音声辞
書による特徴パタンとの距離計算量が多くなる。レスポ
ンスの良い応答をするためには高速に計算する必要が生
じており、上記の如く距離計算量が増大することは、そ
の必要性に反するばかりか、小型、低コストの要求に反
してしまうおそれがある。
However, in this registration method, multiple feature patterns are created for one human voice content, so the number of feature patterns registered in the speech dictionary increases, and as a result, during recognition, the features created by the input speech The amount of distance calculation between the pattern and the feature pattern based on the speech dictionary increases. In order to provide a good response, it is necessary to perform calculations at high speed, and increasing the amount of distance calculations as described above not only goes against this necessity, but also runs the risk of going against the demands for small size and low cost. There is.

この問題を解決する方法の1つに、音声辞書に格納され
ている特徴パタンの中の特定のパラメータのみを用いて
、簡易距離を求め、この簡易距離により予備選択を行な
い、予備選択された候補の中で、高精度なマツチングを
行なう予備選択方式がある。
One method to solve this problem is to obtain a simple distance using only specific parameters from the feature patterns stored in the speech dictionary, perform preliminary selection using this simple distance, and select the preselected candidates. Among these methods, there is a preliminary selection method that performs highly accurate matching.

第4図は、本発明の背景となる予備選択方式を含む音声
認識装置のシステム構成を示すプロ・ンク図である。本
発明は、第4図に示したシステム構成の中の、予備選択
処理部405の改良に関する。
FIG. 4 is a diagram showing the system configuration of a speech recognition device including a preliminary selection method which is the background of the present invention. The present invention relates to an improvement of the preliminary selection processing section 405 in the system configuration shown in FIG.

〔従来の技術] 第5図は従来の予備選択装置の一例を示すブロック図で
ある。同図において、従来の予備選択方式によれば、人
力パタンレジスタ501により得られた入力音声による
特徴パタンと、音声辞書メモリ502にあるすべての特
徴パタンとの特定のパラメータを用いて、予備選択用簡
易距離計算部503によって簡易距離を計算し、距離デ
ータ一時スタック用メモリ505、最小距離判定部50
6、カウンタ507によって、上記簡易距離の小さい順
に上位N個の特徴パタンを選出していた。登録パタン番
号データメモリ504はパタン番号を辞書メモリ502
に出力する。最小距離判定部506の出力に得られるパ
タン番号は、距渾データ一時スタ・ンク用メモリ505
に戻されてそのパタン番号が距離データ一時スタック用
メモリ505から削除される。カウンタ507は最小距
離判定部506から出力されるパタン番号をN回計数す
ると、最小距離判定部506からの出力を停止する。最
小距離判定部506からの出力は、予(!li!択結果
としてメモリ508に格納される。
[Prior Art] FIG. 5 is a block diagram showing an example of a conventional preliminary selection device. In the same figure, according to the conventional preliminary selection method, specific parameters of the input voice feature pattern obtained by the manual pattern register 501 and all the feature patterns in the speech dictionary memory 502 are used for preliminary selection. A simple distance calculation unit 503 calculates a simple distance, and a distance data temporary stack memory 505 and a minimum distance determination unit 50
6. The counter 507 selected the top N feature patterns in descending order of the simple distance. The registered pattern number data memory 504 stores the pattern number in the dictionary memory 502.
Output to. The pattern number obtained from the output of the minimum distance determination unit 506 is stored in the distance data temporary stand memory 505.
, and the pattern number is deleted from the distance data temporary stack memory 505. When the counter 507 counts the pattern number output from the minimum distance determination section 506 N times, the counter 507 stops the output from the minimum distance determination section 506. The output from the minimum distance determination unit 506 is stored in the memory 508 as a preliminary (!li! selection result).

ところが、音声辞書メモリ502に前記の様に1つの入
力音声内容に対し複数の特徴パタンを有する場合、従来
の予備選択方式をそのまま適用すると、同し音声内容に
対し、複数の特徴パタンを予(M選択してしまうことが
生じてしまう。
However, when the speech dictionary memory 502 has a plurality of feature patterns for one input speech content as described above, if the conventional preliminary selection method is applied as is, it will not be possible to predict the plurality of feature patterns for the same speech content. M may end up being selected.

〔発明が解決しようとする課題] 従って、この様な場合、N個の特徴パタンを予備選択し
たにもかかわらず、登録音声の内容についてはN個以下
の予0iif選択となってしまい、予備j!沢範囲が狭
(なるといった問題点を生していた。
[Problem to be Solved by the Invention] Therefore, in such a case, even though N feature patterns have been preliminarily selected, N or less pre-selections are made for the content of the registered voice, and the preliminary selection is ! This caused problems such as the narrow area of the river.

本発明は、この様な問題を解決し、予備Jx沢の範囲が
狭くならない効果的な予備選択が可能な予備選択装置を
提供することを目的としている。
SUMMARY OF THE INVENTION An object of the present invention is to solve such problems and provide a preliminary selection device capable of effective preliminary selection without narrowing the range of the preliminary Jx amount.

〔課題を解決するための手段〕[Means to solve the problem]

第1図は本発明の原理ブロック図である。同図において
、本発明による音声認識用予備選択装置は、予備選択用
特徴パタン記憶手段lと、距離計算手段2と、距離デー
タ一時格納手段3と、予備選択手段4と、リンクデータ
格納手段5とを(l!ffえている。
FIG. 1 is a block diagram of the principle of the present invention. In the figure, the preliminary selection device for speech recognition according to the present invention includes a preliminary selection feature pattern storage means 1, a distance calculation means 2, a distance data temporary storage means 3, a preliminary selection means 4, and a link data storage means 5. and (l!ff).

予備選択用特徴パタン記憶手段1は、各入力音声内容に
対応する複数の子61 U tR用特徴パタンかちなる
群を予め登録格納している。
The preliminary selection feature pattern storage means 1 registers and stores in advance a group of a plurality of child 61 U tR feature patterns corresponding to each input voice content.

距離計算手段2は、入力音声内容から作られた人力特徴
パタンと該予備選択用特徴パタン記憶手段1が格納する
各予備選択用特徴パタンとの距^1(を計算する。
The distance calculating means 2 calculates the distance ^1 between the human feature pattern created from the input voice content and each preliminary selection feature pattern stored in the preliminary selection feature pattern storage means 1.

距離データ一時格納手段3は、各予備選択用特徴パタン
に対応する距離データを一時的に格納する。
The distance data temporary storage means 3 temporarily stores distance data corresponding to each preliminary selection feature pattern.

予備選択手段4は、距離データ一時格納手段3に格納さ
れている距離のうら最小距離を示す予(ii#選択用特
徴パタンを選択出力する。
The preliminary selection means 4 selectively outputs a preliminary (ii# selection feature pattern) indicating the minimum distance behind the distance stored in the distance data temporary storage means 3.

リンクデータ格納手段5は、各特徴パタンとその特徴パ
タンか属する群の全特徴パタンとの関係付けを予め格納
する。
The link data storage means 5 stores in advance the relationships between each feature pattern and all feature patterns of the group to which the feature pattern belongs.

選択出力された予備選択用特徴パタンか属する群の全特
徴パタンをリンクデータ格納手段5から出力して距離デ
ータ格納手段3に入力し、それにより、距離データ格納
手段3から、選択出力された予備選択用特徴パタンか属
する群の全特徴パタンに対応する距離データを削除する
ようにした。
All feature patterns of the group to which the selectively output preliminary selection feature pattern belongs are outputted from the link data storage means 5 and inputted to the distance data storage means 3. The distance data corresponding to all feature patterns of the group to which the selection feature pattern belongs is deleted.

(作用〕 予備選択手段4から選択出力れさた予備選択用特徴パタ
ンか属する群は、リンクデータ格納手段5によって特定
され、その特定された特徴パタンに対応する距離データ
が距離データ一時格納手段3から削除されるので、予備
選択手段4の出力には、1つの入力音声内容に対して単
一の予備選択用特徴パタンか得られ、従来の如く複数の
特徴パタンか予備選択されることはなく、したがって予
備選択の幅が狭くなることはない。
(Operation) The group to which the preliminary selection feature pattern selectively output from the preliminary selection means 4 belongs is specified by the link data storage means 5, and the distance data corresponding to the specified feature pattern is stored in the distance data temporary storage means 3. As a result, the output of the preliminary selection means 4 is a single preliminary selection feature pattern for one input audio content, instead of a plurality of characteristic patterns being preliminary selected as in the past. , so the range of preliminary selection is not narrowed.

〔実施例〕〔Example〕

第2図は本発明の実施例による予備選択装置を示すブロ
ック図である。同図において、第1図と同一部分には同
一参照番号を付しである。即ち、予備選択用特徴パタン
記憶手段lは、登録パタン番号データメモリ202 と
、辞書メモリ203 とを01ηえており、距離計算手
段2は予備選択用簡易距離計算部204で構成されてお
り、距離データ一時格納手段3は距離データ一時スタッ
ク用メモリ205で構成されており、予備選択手段4は
最小距離判定部206で構成されている。リンクデータ
格納手段5は、パタン番号−音声番号リンクデータメモ
’J209と、照合部210と、再照合部211 とを
備えている。
FIG. 2 is a block diagram illustrating a preselection device according to an embodiment of the present invention. In this figure, the same parts as in FIG. 1 are given the same reference numerals. That is, the preliminary selection feature pattern storage means 1 includes a registered pattern number data memory 202 and a dictionary memory 203, and the distance calculation means 2 includes a preliminary selection simple distance calculation section 204, which stores distance data. The temporary storage means 3 is composed of a distance data temporary stack memory 205, and the preliminary selection means 4 is composed of a minimum distance determination section 206. The link data storage means 5 includes a pattern number-voice number link data memo 'J209, a collation section 210, and a re-verification section 211.

辞書メモリ203は、複数の特徴パタンとこれに対応す
るパタン番号を含む。
Dictionary memory 203 includes a plurality of characteristic patterns and pattern numbers corresponding thereto.

パタン番号−音声番号リンクデータメモリ209は、パ
タン番号と音声番号をリンクさせるリンクデータを格納
している。
The pattern number-voice number link data memory 209 stores link data that links pattern numbers and voice numbers.

未知入力音声により入力パタンレジスタ201の出力に
得られた1つの人力特徴パタンに対応して、辞書メモリ
203に格納されている特徴パタンの中からN個の特1
枚パタンを予備選択するに際し、予fJM選択用簡易距
離計算部204は、入力特徴パタンと辞書メモリ203
にある全てのパタン番号に対応する特徴パタンとの距離
を計算する。距離データ一時スタンク用メモリ205は
、予備選択用簡易距離計算部204により計算されたデ
ータを計算に用いた特徴パタンのパタン番号と共に一時
的に記憶する。最小距離判定部206は、距離データ一
時スタック用メモリ205に記憶されている距離データ
の中から最も小さい値を示す距離データを捜し、この距
離データに対応するパタン番号を出力する。
Corresponding to one human feature pattern obtained from the output of the input pattern register 201 by unknown input speech, N features are selected from among the feature patterns stored in the dictionary memory 203.
When preliminarily selecting a sheet pattern, the preliminary fJM selection simple distance calculation unit 204 uses the input feature pattern and the dictionary memory 203.
Calculate the distance from the feature pattern corresponding to all pattern numbers in . The distance data temporary storage memory 205 temporarily stores the data calculated by the preliminary selection simple distance calculation unit 204 together with the pattern number of the feature pattern used in the calculation. The minimum distance determining unit 206 searches for distance data indicating the smallest value from among the distance data stored in the distance data temporary stack memory 205, and outputs a pattern number corresponding to this distance data.

リンクデータ格納手段5においては、照合部210が、
最小距離判定部206より出力されたパタン番号に対す
る音声番号を、パタン番号−音声番号リンクデータメモ
リ209から取り出し、その音声番号を再照合部211
に入力する。再照合部211は、入力された音声番号に
対する1つ、又は複数のパタン番号を照合し、パタン番
号を出力する。
In the link data storage means 5, the collation unit 210
The voice number corresponding to the pattern number output from the minimum distance determination unit 206 is retrieved from the pattern number-voice number link data memory 209, and the voice number is retrieved from the re-verification unit 211.
Enter. The re-verification unit 211 verifies one or more pattern numbers against the input voice number and outputs the pattern number.

距離データ一時スタック用メモリ205は、格納してい
る距離データから、再照合部211より出力されたパタ
ン番号に対応したデータを削除する。
The distance data temporary stack memory 205 deletes the data corresponding to the pattern number output from the re-verification unit 211 from the stored distance data.

カウンタ208は、N個のパタン番号をカウントすると
、最小距離判定部206に対して出力を停止させる。N
個のパタン番号は、予備選択結果メモリ207に順次格
納される。
When the counter 208 counts N pattern numbers, it causes the minimum distance determination unit 206 to stop outputting. N
The pattern numbers are sequentially stored in the preliminary selection result memory 207.

こうして、最小距離判定部206から出力されるN個の
パタン番号には、同一の音声番号該対応することはなく
なる。
In this way, the N pattern numbers output from the minimum distance determining section 206 will not correspond to the same voice number.

上記の如く、本発明の実施例では、予備選択時にパタン
番号−音声番号リンクデータを用い、N個の特徴パタン
を予備選択を行なうに際し、最小距離判定部206より
出力されたパタン番号について照合部210と再照合部
211を用いることにより、同一音声番号を有するパタ
ン番号を検出し、再照合部211より出力されたパタン
番号に対応した距離データ一時スタック用メモリ205
に記憶されているデータを削除する。
As described above, in the embodiment of the present invention, the pattern number-voice number link data is used at the time of preliminary selection, and when performing preliminary selection of N feature patterns, the matching unit uses the pattern number output from the minimum distance determination unit 206. 210 and the re-verification unit 211, pattern numbers having the same voice number are detected, and distance data temporary stack memory 205 corresponding to the pattern number output from the re-verification unit 211 is used.
Delete the data stored in.

従って、最小距離判定部206より出力されるパタン番
号は、それを出力する前までに出力されたパタン番号と
同一の音声番号を存することがなくなる。
Therefore, the pattern number output from the minimum distance determining section 206 will not have the same voice number as the pattern number output before outputting it.

第3図は第4図に示したシステム中の本選択処理部40
7の構成を示すブロック図である。同図におついて、本
選択処理部407は、入力パタンレジスタ301 と、
辞書メモリ302と、本選択用距離計算部303と、最
小距離計算部304と、パタン番号−音声番号リンクデ
ータメモリ305と、照合部306とを備えている。
FIG. 3 shows the book selection processing unit 40 in the system shown in FIG.
7 is a block diagram showing the configuration of FIG. In the figure, the main selection processing unit 407 has an input pattern register 301,
It includes a dictionary memory 302, a main selection distance calculation section 303, a minimum distance calculation section 304, a pattern number-voice number link data memory 305, and a collation section 306.

人力パタンレジスタ301 は入力パタンレジスタ20
1 と同一物であり、1つの人力音声に基づいて1つの
特徴パタンを出力する。辞書メモリ302は、第2図に
示した予備選択結果メモリ207から出力されるパタン
番号に基づいて、予備選択されたN個の特徴パタンを出
力する。本選択用距離計算部303は入力パタンレジス
タ301からの特徴パタンと辞書メモリ302からの特
徴パタンとの距離を計算する。最小距離計算部304は
その距離のうち最小距離を判定し、これに対応するパタ
ン番号を出力する。照合部306は入力されたパタン番
号に対応する音声番号をパタン番号−音声番号リンクデ
ータメモリ305から読み出して出力する。
The human pattern register 301 is the input pattern register 20
1 and outputs one feature pattern based on one human voice. The dictionary memory 302 outputs N preliminary selected feature patterns based on the pattern numbers output from the preliminary selection result memory 207 shown in FIG. The main selection distance calculation unit 303 calculates the distance between the feature pattern from the input pattern register 301 and the feature pattern from the dictionary memory 302. The minimum distance calculation unit 304 determines the minimum distance among the distances, and outputs a pattern number corresponding to the minimum distance. The matching unit 306 reads out the voice number corresponding to the input pattern number from the pattern number-voice number link data memory 305 and outputs it.

第4図の音声認識装置のシステム構成において、予備選
択処理部405に第2図に示したものを用い、本選択処
理部407に第3図に示したものを用い、10数字音声
認識に適用し、自動ダイヤル装置を構築した時の実施例
の動作を以下に説明する。 以下に各ブロックの説明を
行なう。
In the system configuration of the speech recognition device shown in Fig. 4, the one shown in Fig. 2 is used for the preliminary selection processing section 405, and the one shown in Fig. 3 is used for the main selection processing section 407, and the system is applied to 10-digit speech recognition. The operation of the embodiment when an automatic dialing device is constructed will be described below. Each block will be explained below.

詩虞U1忠彊A四− 12チヤンネルのバンドパスフィルター(BPF)によ
る帯域分割を行ない、各チャンネルにっいて、整流(絶
対値を取り、LPFにより、平滑)した値を求め、io
ms毎に各チャンネルの値を求める。
Shigo U1 Tadashi A4- Perform band division using a 12-channel band pass filter (BPF), calculate the rectified (absolute value is taken, and smoothed by LPF) value for each channel, and io
The value of each channel is determined every ms.

IoffIs毎に出力される12チャンネル分の出力は
、対数変換された後、12チャンネル分のデータの平均
を求め、その平均値と各チャンネルの値の差を出力とす
る。
The 12 channels' worth of output output for each IoffIs is logarithmically transformed, then the average of the 12 channels' worth of data is determined, and the difference between the average value and the value of each channel is output.

一×1.   部403 人力音声パワーの値が、ある1つの闇値レベルより、大
か小かの判定により、音声区間の始端、終端を検出し、
その区間において特徴抽出部402より出力されたデー
タを蓄える。
1 x 1. Section 403 Detects the start and end of a voice section by determining whether the value of human voice power is greater or less than a certain dark value level,
The data output from the feature extraction unit 402 in that section is stored.

(始端の検出方法) 入力音声パワーが連続して5フレーム(50ms)以上
、しきい値より大であった時、パワーが小から大に変っ
た時点を始端とする。
(Method of Detecting the Starting Edge) When the input audio power is higher than the threshold value for 5 consecutive frames (50 ms) or more, the starting edge is defined as the point in time when the power changes from low to high.

(終端の検出方法) 始端を検出した後、人力音声パワーが連続して30フレ
ーム(300ms)以上闇値より小であった時、パワー
が大から小に変化した時点を終端とする。
(Method for detecting the end) After detecting the start end, when the human voice power is smaller than the dark value for 30 consecutive frames (300 ms) or more, the time point when the power changes from large to small is defined as the end.

■、11由の正大 619部404 始端から終端までの長さの異なる音声区間を時間軸で8
分割し、分割された区間において、平均化を行なう。こ
れにより、12(チャンネル)×8 (フレーム)−9
6’(パラメータ)の特徴パタンを得る。
■, 11 Yu no Seidai 619 parts 404 Voice sections of different lengths from the beginning to the end are 8 on the time axis.
It is divided and averaged in the divided sections. This results in 12 (channels) x 8 (frames) - 9
6' (parameter) characteristic pattern is obtained.

辞14四− 学習用音声を用い、3つのレベルの異なる闇値により、
1回の音声入力に対し、前記音声区間検出部、正規化処
理部を用いて、3つの特徴パタンを作り、記録しである
144 - Using learning audio, with three different levels of darkness values,
For one speech input, three characteristic patterns are created and recorded using the speech section detection section and normalization processing section.

登録する音声内容は、音声番号1に対し°“イチ°゛、
音声番号2に対し“二°′等であり、数字10単語すべ
てを登録しておく。ただし、音声番号10に対しては“
ゼロ°′とする。
The audio content to be registered is “1°” for audio number 1.
For voice number 2, it is "2°', etc., and all 10 numeric words are registered. However, for voice number 10, it is "2°', etc.
Let it be zero°′.

つまり、登録されている特徴パタンの数は30バクンで
ある。
In other words, the number of registered feature patterns is 30.

゛     几   B 405 本発明の適用部であり、その構成は第2図の通りである
゛ 几 B 405 This is an application part of the present invention, and its configuration is as shown in FIG.

本実施例における特徴パタンは12チャンネル×8フレ
ーム−96パラメータになっており、予i選択用距離と
しては、偶数チャンネル(2,4゜6、 8.10.1
2)において各フレームに対し、人力された特徴パタン
と辞書の特徴パタンの既当するパラメータの差の絶対値
を求め、これを合計した値を用いている。
The feature pattern in this example is 12 channels x 8 frames - 96 parameters, and the distance for pre-i selection is even channels (2.4°6, 8.10.1
In 2), for each frame, the absolute value of the difference between the parameters corresponding to the manually generated feature pattern and the feature pattern in the dictionary is determined, and the sum of these values is used.

また、予備選択の選択パタン数Nは10パタンとする。Further, the number N of selection patterns for preliminary selection is assumed to be 10 patterns.

したがって、辞書にある30パタンから、予備選択をす
ることにより、新たにIOパタンの辞書を作ったことに
なる。
Therefore, by making a preliminary selection from the 30 patterns in the dictionary, a new IO pattern dictionary is created.

オffi匹理l汀凹− 子wli!択処理部405により作られた10パタンの
中から、1パタン(1音声)を選出する。その構成は第
3図に示す通りである。
It's off and I'm depressed - child wli! One pattern (one voice) is selected from among the 10 patterns created by the selection processing unit 405. Its configuration is as shown in FIG.

本選択に用いられる距離計算はDP距離を用い、時間的
な変動を考慮した精密な距離を用いる。
The distance calculation used for this selection uses the DP distance, and uses a precise distance that takes into account temporal fluctuations.

非線形マツチングでは、DP(ダイナミック・プログラ
ミング)法が代表的手法である。ゴムのように伸縮しな
がらマツチングの操作を行うことから、ラバー・マツチ
ングとも呼ばれている。
In nonlinear matching, the DP (dynamic programming) method is a typical method. It is also called rubber matching because the matching operation is performed while expanding and contracting like rubber.

DPマツチングは、標準パターンと入カバターンの距離
を計算する際に、両者の時系列情報を1対lに対応づけ
ることなく、2つのパターン間の距離が最も小さくなる
ように入力側を部分的にずらしながら対応づける方式で
ある。
When calculating the distance between a standard pattern and an input pattern, DP matching partially matches the input side so that the distance between the two patterns is minimized, without making a one-to-one correspondence between the time series information of the two patterns. This is a method of matching while shifting.

ダイヤラ409 本選択処理部407より出力された、音声番号を受けそ
れに対応するパルスを回線へ発信する。
Dialer 409 receives the voice number output from main selection processing section 407 and transmits a pulse corresponding to the voice number to the line.

次に、使用者が「1」を発信する時のシステムの動作を
説明する。
Next, the operation of the system when the user issues "1" will be explained.

まず、使用者はマイク401に向って゛イチ°°と発声
する。
First, the user speaks into the microphone 401.

これと同時に音声区間検出部403は“イチ°゛の始端
と終端を検出し、この音声区間において特徴抽出部より
出力されたデータを保存する。
At the same time, the voice section detecting section 403 detects the beginning and end of "I" and stores the data output from the feature extracting section in this voice section.

次に、正規化処理部404は、保存されている音声の特
徴に対し、時間軸の正規化を行ない、96パラメータの
特徴パタンを作る。
Next, the normalization processing unit 404 normalizes the saved audio features on the time axis to create a feature pattern of 96 parameters.

次に予備選択処理部405は、第2図に示した構成によ
り、人力音声により作られた特徴パタンと辞書にある3
0の特徴パタンとに基づいて予備選択用距離を計算し、
その中から10の特徴パタンを選択し、予備選択結果の
辞書408に記録する。
Next, the preliminary selection processing unit 405 uses the configuration shown in FIG.
Calculate a preliminary selection distance based on the feature pattern of 0,
Ten feature patterns are selected from among them and recorded in a dictionary 408 of preliminary selection results.

次に11本選択処理部407は、第3図に示した構成に
より、入力音声により作られた特徴パタンと予備選択結
果の辞書408に含まれる10の特徴パタンとに基づい
て本選択用距離を計算し、その最小値を示す特徴パタン
の持つパタン番号を求め、これに対応する音声番号(1
)を出力する次にダイヤラ409は受けた音声番号(1
)により回線へ「1」の信号を送出する。
Next, the 11 line selection processing unit 407 calculates the main selection distance based on the feature pattern created by the input voice and the 10 feature patterns included in the dictionary 408 of the preliminary selection results, using the configuration shown in FIG. The pattern number of the feature pattern that shows the minimum value is calculated, and the corresponding voice number (1
), the dialer 409 then outputs the received voice number (1
) sends a "1" signal to the line.

ここで、予備選択処理部405の動作を、第2図によっ
てさらに詳細に説明する。
Here, the operation of the preliminary selection processing section 405 will be explained in more detail with reference to FIG.

入力パタンレジスタ201には、入力音声により作られ
た特徴パタンか格納される。
The input pattern register 201 stores characteristic patterns created from input speech.

辞書メモリ203には登録されているIO音声、30パ
タンの特徴バクンが記録されている。
The dictionary memory 203 records registered IO voices and 30 patterns of characteristic bakuns.

登録パタン番号データメモリ202は、例えば、(11
,12,13,21,22,23,・−・・・、01,
02,031 というデータを格納しており、この場合
、上1ケタは音声番号、下1ケタは闇値番号となってお
り、登録時、1つの音声Xl対してXl、X2.X3(
7)3パタンか登録されたことを意味している。
The registered pattern number data memory 202 stores, for example, (11
,12,13,21,22,23,...,01,
02,031 is stored. In this case, the first digit is the voice number and the bottom one is the dark value number. When registering, for one voice Xl, Xl, X2 . X3(
7) This means that 3 patterns have been registered.

予備選択用簡易距離計算部204は偶数チャンネルの全
パラメータを対象とし、入力特徴パタンと辞書の特徴パ
タンとの差分の絶対値を計算し、これを合計した予備選
択用簡易距離を計算する。
The preliminary selection simple distance calculation unit 204 targets all parameters of even channels, calculates the absolute value of the difference between the input feature pattern and the dictionary feature pattern, and calculates the preliminary selection simple distance by summing these values.

入力パタンに対し、各特徴パタンの予備選択用距離は距
離データ一時スタック用メモリ205にパタン番号と共
に記録される。
The preliminary selection distance of each feature pattern with respect to the input pattern is recorded in the distance data temporary stack memory 205 together with the pattern number.

次に、最小距離判定部206はこの距離データの中から
最も小さい値を示す距離を検出し、そのパタン番号を出
力する。
Next, the minimum distance determination unit 206 detects the distance indicating the smallest value from this distance data, and outputs its pattern number.

この時に出力されるパタン番号は、音声番号lに属する
パタン番号+11.12.13)であるとは限らないが
、その候補であるとiみなして、予備選択結果として予
wI選択結果メモリ207に記録する。
The pattern number output at this time is not necessarily the pattern number belonging to voice number l+11.12.13), but it is regarded as a candidate and is stored in the preliminary selection result memory 207 as a preliminary selection result. Record.

また同時に、この出力されたパタン番号、例えば21、
は照合部210に入力され、照合部210はそのパタン
番号21に対応する音声番号2をパタン番号−音声番号
リンクデータメモリ2o9がら読み出して出力する。
At the same time, the output pattern number, for example 21,
is input to the matching section 210, and the matching section 210 reads out the voice number 2 corresponding to the pattern number 21 from the pattern number-voice number link data memory 2o9 and outputs it.

照合部210かち出力された音声番号2は再照合部21
1に入力され、再照合部211は、パタン番号−音声番
号リンクデータメモリ209に格納されているデータを
参照して、その音声番号2に対応するパタン番号(21
,22,231を出力する。
The voice number 2 output from the collation unit 210 is sent to the re-verification unit 21
1, and the re-verification unit 211 refers to the data stored in the pattern number-voice number link data memory 209 to find the pattern number (21) corresponding to the voice number 2.
, 22, 231 are output.

次にこれらのパタン番号+2L22.23)に対応する
特徴パタンを距離データ一時スタック用メモリ205か
ら削除する。
Next, the characteristic patterns corresponding to these pattern numbers +2L22.23) are deleted from the distance data temporary stack memory 205.

そして前と同様に最小距離判定部206により得られた
パタン番号を予備選択結果に加える。
Then, as before, the pattern number obtained by the minimum distance determining section 206 is added to the preliminary selection result.

この様な動作を予備選択結果がloパタンになるまで繰
り返す。
Such operations are repeated until the preliminary selection result becomes the lo pattern.

〔発明の効果〕〔Effect of the invention〕

以上説明した様に、本発明によれば、同一音声番号に対
応するパタン番号を削除する用にしたので、予備選択に
おける選択特徴パタンには同一音声内容の複数のパタン
選択をすることがなくなる効果があり、認識率の向上環
に寄与するところが大きい。
As explained above, according to the present invention, since pattern numbers corresponding to the same voice number are deleted, there is no need to select multiple patterns with the same voice content as selected feature patterns in preliminary selection. This greatly contributes to improving the recognition rate.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は本発明の原理ブロック図、 第2図は本発明の実施例による予備選択装置を示すブロ
ック図、 第3図は本発明による予i選択の後の本選択処理部の構
成の一例を示すブロック図、 第4図は本発明の背景となる音声認識装置のシステム構
成を示す図、 第5図は従来の予備選択装置の一例を示すブロック図で
ある。 第2図に於いて、 1・・・予備選択手段、 2・・・距離計算手段、 3・・・距離データ一時格納手段、 4・・・予備選択手段4. 5・・・リンクデータ格納手段、 201・・・入力パタンレジスタ、 202・・・登録パタン番号データメモリ、203・・
・辞書メモリ、 204・・・予備選択用簡易距離計算部、205・・・
距離データ一時スタック用メモリ、206・・・最小距
離判定部、 207・・・予備選択結果メモリ、 208・・・カウンタ、 209・・・パタン番号−音声番号リンクデータメモリ
、 210・・・照合部、 211・・・再照合部。
FIG. 1 is a block diagram of the principle of the present invention. FIG. 2 is a block diagram showing a preliminary selection device according to an embodiment of the present invention. FIG. 3 is an example of the configuration of a main selection processing section after preliminary i-selection according to the present invention. FIG. 4 is a block diagram showing the system configuration of a speech recognition device which is the background of the present invention. FIG. 5 is a block diagram showing an example of a conventional preliminary selection device. In FIG. 2, 1... Preliminary selection means, 2... Distance calculation means, 3... Distance data temporary storage means, 4... Preliminary selection means 4. 5...Link data storage means, 201...Input pattern register, 202...Registered pattern number data memory, 203...
- Dictionary memory, 204... Simple distance calculation unit for preliminary selection, 205...
Distance data temporary stack memory, 206... Minimum distance determination section, 207... Preliminary selection result memory, 208... Counter, 209... Pattern number-voice number link data memory, 210... Verification section , 211... Re-verification section.

Claims (1)

【特許請求の範囲】 1、各入力音声内容に対応する複数の予備選択用特徴パ
タンからなる群を予め登録格納する予備選択用特徴パタ
ン記憶手段(1)と、 入力音声内容から作られた入力特徴パタンと該予備選択
用特徴パタン記憶手段(1)が格納する各予備選択用特
徴パタンとの距離を計算する距離計算手段(2)と、 該各予備選択用特徴パタンに対応する距離データを一時
的に格納する距離データ一時格納手段(3)と、 該距離データー時格納手段(3)に格納されている距離
のうち最小距離を示す予備選択用特徴パタンを選択出力
する予備選択手段(4)と、各特徴パタンとその特徴パ
タンが属する群の全特徴パタンとの関係付けを予め格納
するリンクデータ格納手段(5)とを具備し、 該選択出力された予備選択用特徴パタンが属する群の全
特徴パタンを該リンクデータ格納手段(6)から出力し
て該距離データ格納手段(3)に入力し、それにより、
該距離データ格納手段(3)から、選択出力された予備
選択用特徴パタンが属する群の全特徴パタンに対応する
距離データを削除するようにしたことを特徴とする音声
認識用予備選択装置。
[Claims] 1. Preliminary selection feature pattern storage means (1) for registering and storing in advance a group of a plurality of preliminary selection feature patterns corresponding to each input audio content; and an input made from the input audio content. distance calculation means (2) for calculating the distance between the feature pattern and each preliminary selection feature pattern stored in the preliminary selection feature pattern storage means (1); Distance data temporary storage means (3) for temporarily storing distance data; and preliminary selection means (4) for selectively outputting a preliminary selection feature pattern indicating the minimum distance among the distances stored in the distance data temporary storage means (3). ), and link data storage means (5) for storing in advance the relationship between each feature pattern and all feature patterns of the group to which the feature pattern belongs, and a link data storage means (5) for storing in advance the relationship between each feature pattern and all feature patterns of the group to which the selected and outputted feature pattern for preliminary selection belongs. output all feature patterns from the link data storage means (6) and input them to the distance data storage means (3), thereby
A preliminary selection device for speech recognition, characterized in that distance data corresponding to all feature patterns of a group to which the selectively outputted preliminary selection feature pattern belongs is deleted from the distance data storage means (3).
JP63227584A 1988-07-27 1988-09-13 Preliminary selecting device for speech recognition Pending JPH0277100A (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP63227584A JPH0277100A (en) 1988-09-13 1988-09-13 Preliminary selecting device for speech recognition
US07/821,861 US5159637A (en) 1988-07-27 1992-01-16 Speech word recognizing apparatus using information indicative of the relative significance of speech features

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63227584A JPH0277100A (en) 1988-09-13 1988-09-13 Preliminary selecting device for speech recognition

Publications (1)

Publication Number Publication Date
JPH0277100A true JPH0277100A (en) 1990-03-16

Family

ID=16863206

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63227584A Pending JPH0277100A (en) 1988-07-27 1988-09-13 Preliminary selecting device for speech recognition

Country Status (1)

Country Link
JP (1) JPH0277100A (en)

Similar Documents

Publication Publication Date Title
US6751595B2 (en) Multi-stage large vocabulary speech recognition system and method
JPS62231997A (en) Voice recognition system and method
JPS62217295A (en) Voice recognition system
US5159637A (en) Speech word recognizing apparatus using information indicative of the relative significance of speech features
JPH0277100A (en) Preliminary selecting device for speech recognition
JPS6131880B2 (en)
KR100449912B1 (en) Apparatus and method for detecting topic in speech recognition system
KR100281581B1 (en) Korean Continuous Number Speech Recognition Using Simultaneous Articulation Model
Kim et al. A study on the improvement of speaker recognition system by voiced detection
JP2577891B2 (en) Word voice preliminary selection device
JP3515143B2 (en) Pattern registration device
Pattanayak et al. Significance of single frequency filter for the development of children's KWS system.
JPS58159598A (en) Monosyllabic voice recognition system
JPH0228160B2 (en)
JPH04260100A (en) Voice recognizing device
JP3063856B2 (en) Finding the minimum value of matching distance value in speech recognition
JPH0449719B2 (en)
JPH0816186A (en) Voice recognition device
JPS59189398A (en) Continuous voice recognition system
JPS63173100A (en) Keyword extractor
JP2004157919A (en) Input device, and voice input method, device and program
JPH0876789A (en) System and device for voice recognition unspecified speaker word
JPH0277099A (en) Voice recognition device
JPH0416899A (en) Speech recognition device
JPH0313600B2 (en)