JPS58121100A - Word voice recognition system - Google Patents

Word voice recognition system

Info

Publication number
JPS58121100A
JPS58121100A JP57004272A JP427282A JPS58121100A JP S58121100 A JPS58121100 A JP S58121100A JP 57004272 A JP57004272 A JP 57004272A JP 427282 A JP427282 A JP 427282A JP S58121100 A JPS58121100 A JP S58121100A
Authority
JP
Japan
Prior art keywords
word
input
recognition
section
circuit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP57004272A
Other languages
Japanese (ja)
Inventor
貞煕 古井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP57004272A priority Critical patent/JPS58121100A/en
Publication of JPS58121100A publication Critical patent/JPS58121100A/en
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 〈発明の背景〉 この発明は複数の入力装置から入力された多種の単語音
声を同時に認識できる単語音声sIm方式%式% 従来この単飴音声認識方式は、各単瞼儂準パターンをス
ペクトルパラメータの時系列の形で蓄えていたため、単
@数が大きくなるとこれを蓄えるための記憶容量が膨大
となシ、複数の入力装置からの音声を同時に認識できる
ように複数の1鍼回路を設けた場合には、個々の認識回
路でiIgwlcできる単語の数は小さく抑えられてし
まうという欠点があった。
[Detailed Description of the Invention] <Background of the Invention> The present invention is a word speech sIm method that can simultaneously recognize various word sounds input from a plurality of input devices. Since the semi-patterns were stored in the form of a time series of spectral parameters, the storage capacity required to store them was enormous as the number of single @ became large. When one acupuncture circuit is provided, there is a drawback that the number of words that can be iIgwlc by each recognition circuit is kept small.

〈発明の概景〉 この発明はこれらの欠点を解決するため、各半時標準パ
ターンを擬音iI裸準パターンと単語辞書の組合せによ
って蓄えることによシ記憶容量を削減して、災に多棟の
単語のセットが標準パターンとして蓄えられるようにし
、装置を使用する時にどの単語セットを認識対象とする
かを指定することにより、一つの装置で等価的に多数の
語いが認識できるようにし喪ものである。
<Overview of the Invention> In order to solve these drawbacks, this invention reduces the storage capacity by storing each half-time standard pattern by a combination of an onomatopoeic iI bare quasi-pattern and a word dictionary. By storing a set of words as a standard pattern and specifying which word set is to be recognized when using the device, it is possible to equivalently recognize a large number of words with one device. It is something.

〈実施例〉 第1図はこの発明の実施例を示し、複数の入力回路2に
入力される。+ia!臓部選択回路2には入力端子1!
〜1nよシ少ない数の認識回路141〜14mが接続さ
れている。%−識回路141〜14mはスペクトルパラ
メータ抽出部3、擬音韻標準パターン畜槓部4、スペク
トル距離計算部5、単語辞畳蓄槓部6、アドレス指定部
7、時間正規化スペクトルマツチング部8及び単語判定
部9よシなる。これらmm回路14t 〜14mでそれ
ぞれ!i1gvjtされた単#tiMll結釆出力イン
ターフエイス部10を通じてlli!1111M乗出力
端子11へ出力される。認鐵部遇択回路2、認識回路1
41〜14m1出力インタ一7エイス部10は制御部1
2によ多制御される。制御部12には制御信号入力端子
13よ多制御信号が与えられる。
<Embodiment> FIG. 1 shows an embodiment of the present invention, in which input is made to a plurality of input circuits 2. +ia! Internal organ selection circuit 2 has input terminal 1!
A smaller number of recognition circuits 141 to 14m than 1n are connected. The %-sensing circuits 141 to 14m include a spectral parameter extraction section 3, an onomatopoeic standard pattern accumulation section 4, a spectral distance calculation section 5, a word dictionary accumulation section 6, an address specification section 7, and a time normalized spectrum matching section 8. and the word determination section 9. These mm circuits are 14t to 14m each! lli! through the i1gvjt single #tiMll connection output interface unit 10! It is output to the 1111M power output terminal 11. Approved steel department selection circuit 2, recognition circuit 1
41 to 14m1 output interface 7 eighth section 10 is control section 1
It is controlled by 2. The control section 12 is supplied with multiple control signals through a control signal input terminal 13 .

この単諸曾声認誠方式では、使用に際してあらかじめ各
擬fM標準パターン蓄積部4に、各擬音−のスペクトル
パラメータセットを蓄えておく。
In this single-onomatopoeia recognition method, a spectral parameter set for each onomatopoeic sound is stored in each pseudo-fM standard pattern storage section 4 in advance before use.

このスペクトルパラメータは、相関係数、ケプストラム
、帯域通過フィルタ出力パワー等でおり、擬tWt襟準
パターンの作成法については、例えは管材、古井、箱出
の発明による特願昭55−139094号明細壷に記載
した方法を用いることができる。この方法では、1人ま
たは複数の話者の音声から抽出した多数のスペクトルパ
ラメータのセットから、クラスタリングの手法によって
代六的なセットを数10ないし200f!II類程度遍
択し、*f韻襟準パターン蓄積部4に蓄積する。丈に単
飴辞薔蓄積部6には、各認歇対象率附を、襞f−標準パ
ターンを示す記号の連続した系列として蓄積しておく。
These spectral parameters include correlation coefficients, cepstrums, band-pass filter output powers, etc. For a method of creating a quasi-tWt collar pattern, see, for example, Japanese Patent Application No. 139094/1985 invented by Tube, Furui, and Hakode. The method described on the jar can be used. In this method, from a large number of sets of spectral parameters extracted from the speech of one or more speakers, a clustering method is used to generate a set of spectral parameters ranging from several tens to 200 f! Class II patterns are selected and stored in the *f rhyme quasi-pattern storage section 4. In the storage unit 6, each recognition target rate is stored as a continuous series of symbols indicating the fold f-standard pattern.

この方法にも例えば上述の管材、古井、箱出の発明の明
#l沓記載の方法を用いることができる。
For this method, for example, the method described in the invention of the above-mentioned tube material, Furui, and Hakode, can be used.

一般にigw&対象単語が多数であっても、−臓動作を
行うべき各時点においては、入力音声に対して候補とす
べき単語の機知は、全認識対破単飴の一部である場合が
多い。例えば、あるサービスにおいて月日、−日、地名
岬を認識対象とする場合でも、発声者が月日を発声すべ
き時点で、−日までを候補の中に含めて認識製作を村な
う必蓋は必ずしもない。そこでこの発明の率l!音声認
識方式では、単語辞書を蓄積しておく際に、それらを各
時点で認識対象とすべき単語のグループに分割し、各グ
ループに対してそれが単語辞書中の何番目から何番目ま
での系列であるかを示す表を作p1アドレス指定部7に
蓄えておく。
In general, even if there are a large number of igw & target words, at each point in time when a gut action should be performed, the wit of the words that should be candidates for the input speech is often a part of the total recognition vs. breaking single candy. . For example, in a certain service, even if month, day, -day, and place name Cape are to be recognized, at the time when the speaker should say month and day, it is necessary to include up to -day among the candidates and perform recognition production. There is not necessarily a lid. Therefore, the rate of this invention! In the speech recognition method, when storing word dictionaries, they are divided into groups of words to be recognized at each point in time, and for each group, the number of words in the word dictionary is determined. A table indicating whether it is a series or not is created and stored in the p1 address designation section 7.

<m繊動作〉 このようにして、擬音−標準パターン、単語辞書及び革
飴グループを示す表を蓄積したのち、未知単語音声のM
誠に移る。例えば、電話音声の音声M誠によって航空券
の座席予約を行うサービスシステムを例に上げて説明を
行うと、まず利用者からの電話の着信を検出すると、シ
ステムは合成音声によって座席予約サービスであること
を告げたのち、決められた順序に従って合成音で質問を
行い、この質問に対する利用者の応答の単語音声を一部
する。このとき、例えば「どこからですか」と質問した
際には、地名の単語グループのみを認識対象(単語の候
補)とすればよく、「何日ですか」と質問した際には日
付の率飴グループのみを認識対象とすれはよいことは、
前述の通りである。
<M fiber movement> After accumulating the onomatopoeic standard patterns, word dictionaries, and tables showing leather candy groups in this way, the M fiber movement of unknown word sounds is
Move to Makoto. For example, to explain a service system that uses voice M-Makoto to reserve a seat on an airline ticket, first, when an incoming call from a user is detected, the system uses a synthesized voice to reserve a seat. After telling the user, questions are asked in a predetermined order using synthesized voices, and part of the user's response to the question is recorded. At this time, for example, when asking the question "Where are you from?", you only need to recognize the word group of place names (word candidates), and when asking "What day is it?" It is good to only recognize groups.
As mentioned above.

そこで合成音で質問を行ったらたソちに、システムは制
御信号入力端子13に認識動作開始信号を入力し、制御
部12によって、認識(9)路141〜14rnの伺れ
があき状態になっているかを判定し、紹繊部遺択回路2
により、音声入力端子11〜ln中の音声が入力された
ものを、認誠部遺択回路2を通じてあき状態になってい
る認識回路に接続する。次に制御信号入力端子13に、
ilI!!繊対象とすべき単讃グループ名(グループ査
号)を入力し、つまシ1誠すべき候補単語セットを指定
し、上述のようにして選択された′wgg(ロ)路のア
ドレス指に部7にこの憧を入力して、このグループ名(
グループ査号)と、アドレス指定部7に蓄えられている
衆を用いるととKよシ、単語辞書中の認識対象とすべき
系列のアドレス範囲を指定する、こののちに音声入力端
子から、未知単at声の波形を入力する。音声入力端子
に入力される音響波形は、電話回線を通ったものであっ
てもよく、マイクロホンからとったものであってもよい
。音声入力端子から入力され友音声波形は、上述のよう
にして選択され九酩臓回路中のスペク抽出入ラメータ抽
出部3に送られ、例えばl Qmg程度の短い時間毎に
スペクトル分析され、その分析結果について、短時間毎
にスペクトル距離計算部5で擬g@l/A準パターン蓄
&s4から続出した各擬音−パターンとのスペクトル距
離が計算される。この計xFi米と単飴辞書蓄積部6に
蓄えられている指定されたアドレス範囲内、つまシ指定
された候補単語セットの擬音−パターン系列とを用いて
、音声の時間伸縮を吸収するスペクトルマツチングを時
間正規化スペクトルマツチング部8で行い、入力音声と
各系列との類似の度合いを単語判定部9に入力する。単
語判定部9では、最も類似の度合いが大きい系列を選択
し、その単語名(単語番号)を−織紬釆として、關繊結
釆出力インターンエイス部lOを経て酩靴結釆出力端子
11に出力する。
Immediately after asking a question using a synthesized voice, the system inputs a recognition operation start signal to the control signal input terminal 13, and the control unit 12 sets the recognition path 141 to 14rn to a blank state. The selection circuit 2
As a result, the voice input terminals 11 to ln are connected to the idle recognition circuit through the authentication section selection circuit 2. Next, to the control signal input terminal 13,
ilI! ! Enter the name of the single group to be targeted (group code), specify the candidate word set to be targeted, and add the part to the address finger of the ``wgg (ro) path selected as described above. Enter this yearning in 7 and enter this group name (
If you use the address range stored in the address specifying section 7, specify the address range of the series to be recognized in the word dictionary. Input the waveform of a single AT voice. The acoustic waveform input to the audio input terminal may be one that has passed through a telephone line or may be one that has been taken from a microphone. The voice waveform input from the voice input terminal is selected as described above and sent to the spectrum extraction input parameter extraction section 3 in the nine-tone circuit, where it is subjected to spectrum analysis at short time intervals of, for example, lQmg. As for the result, the spectral distance calculation unit 5 calculates the spectral distance from each onomatopoeic pattern that successively follows from the pseudo g@l/A quasi-pattern storage &s4 at short intervals. Using this total xFi rice and the onomatopoeia-pattern series of the specified candidate word set within the specified address range stored in the candy dictionary storage unit 6, a spectral pine tree that absorbs the time expansion and contraction of speech is used. The matching is performed by a time normalized spectrum matching unit 8, and the degree of similarity between the input speech and each sequence is input to a word determining unit 9. The word determination section 9 selects the series with the highest degree of similarity, and outputs the word name (word number) as -oritsumugi-kama to the futsu-yuibutsu output terminal 11 via the silk-tie button output intern ace section 1O. Output.

不特定話者を対象とするl1lI!繊の場合のように、
各認識対象単語に対して複数の代表系列が蓄えられてい
る場合には、類似の度合いが大きい複数の系列をとシ田
し、その単語名に関する多数決による決定を行えば、M
軸度の高い単鎖決定を行うことができる。
l1lI for unspecified speakers! As in the case of fibers,
If multiple representative sequences are stored for each recognition target word, select multiple sequences with a high degree of similarity and make a decision based on majority vote regarding the word name.
Highly axial single-strand determination can be performed.

このような構成になっているから、この発明の方式によ
れば、各単語音声は擬f−パターン名(記号)を単位と
する記号系列で表現されるので、その記憶Stは、スペ
クトルパラメータを蓄積する従来の方式に比べ、大幅に
少なくてすみ、このため複数の谷&Iim回路ごとに多
数の単語の標準の形式を蓄え、多数の単語を認識対象と
することが可能となる。この多数の認識対象単語の中か
ら、各時点ごとに、その時に対象とすべき単語のセット
を任意に設定できるので、複数の入力装置(入力回路)
から入力された音声を、その時点であき状態にある任意
の認識回路に入力して、設定した単語セットを対象とし
九M繊動作を行うことが口J能となる。このため各認識
回路で認識できる率時の種類がそれぞれKついて固定さ
れる従来の方式に比べて、この発明の方式によれば一つ
のmR装置を複数の入力装置からの音声に対して極めて
効幕的に用いることができる。
With such a configuration, according to the method of the present invention, each word sound is expressed as a symbol sequence whose units are pseudo f-pattern names (symbols), so the memory St stores spectral parameters. Compared to the conventional method of storing data, it requires significantly less data, and therefore it is possible to store standard forms of many words in each of the plurality of valley & Iim circuits, and to recognize many words. From among this large number of recognition target words, it is possible to arbitrarily set a set of words to be recognized at each time point, so multiple input devices (input circuits)
Inputting the input voice into any recognition circuit that is idle at that time, and performing the 9M-sensing motion with the set word set as the target becomes a kuji-noh. Therefore, compared to the conventional method in which the types of rate times that can be recognized by each recognition circuit are fixed at K, the method of the present invention allows one mR device to be extremely effective against audio from multiple input devices. It can be used theatrically.

〈発明の効果〉 以上説明したように、この発明による単鎖音声1緘方式
によれば、複数の認識回路のそれぞれが対象とする候補
単語のセットを各時点で指示して複数の入力装置からの
音声を過室あき状態にある認識回路でIl!1鐵できる
ので、多数の利用者が電話機あるいはマイクロホンを通
じて入力した音声を昭織するような場合に多数の語いを
対象とすることができ、しかもその処理能率を大きく高
めることができるため、利用者が待ち状態におかれる確
率を小さくすることができる。またこの発明による単語
1M!鍼方式によれば、マツチングに必要な距離(類似
度)計算が、入力音声と擬音韻標準パターンとの計算だ
けでよいので、従来の各単語ごとに標準の形式としてス
ペクトルパラメータ系列を蓄えておく方式に比べて計算
量が大幅に減少できる利点がある。
<Effects of the Invention> As explained above, according to the single-chain speech one selection method according to the present invention, a set of candidate words to be targeted by each of a plurality of recognition circuits is instructed at each time point, and a set of candidate words to be targeted by each of a plurality of recognition circuits is specified at each time point. The voice of Il! is detected by the recognition circuit in the overloaded state. Since it is possible to use one iron, it is possible to target a large number of words when recording the voice input by many users through telephones or microphones, and the processing efficiency can be greatly increased. It is possible to reduce the probability that a person will be placed in a waiting state. Another word 1M created by this invention! According to the acupuncture method, the distance (similarity) calculation required for matching is only a calculation between the input speech and the onomatopoeic standard pattern, so a spectral parameter series is stored in a standard format for each word as in the past. This method has the advantage of significantly reducing the amount of calculation compared to the conventional method.

【図面の簡単な説明】[Brief explanation of the drawing]

図はこの発明による単語音声認識方式の基本的な構成を
示すブロック図である。 11〜1n:音声入力端子、2:酩諏部選択(ロ)路、
3ニスベクトルパラメ一タ抽出部、4:擬−fIII#
1襟準パターン蓄積部、5ニスベクトル距離計算部、6
:単語辞誉畜槓部、7:アドレス指定部、8:時間正規
化スペクトルマツチング部、9:単語判定部、xo:關
織結釆出力インター7エイス部、11:g陳結果出力端
子、12:制御部、13:制御信号入力端子、141〜
14m:認識回路。 特許出願人  日本電信電話公社 代理人 草野 車
The figure is a block diagram showing the basic configuration of the word speech recognition method according to the present invention. 11 to 1n: audio input terminal, 2: drinking section selection (b) path,
3: Varnish vector parameter extraction unit, 4: Pseudo-fIII#
1 collar semi-pattern storage section, 5 varnish vector distance calculation section, 6
: word dictionary storage section, 7: address specification section, 8: time normalization spectrum matching section, 9: word judgment section, xo: Guanori connection output interface 7-8 section, 11: gchen result output terminal, 12: Control unit, 13: Control signal input terminal, 141~
14m: Recognition circuit. Patent Applicant Nippon Telegraph and Telephone Public Corporation Agent Kuruma Kusano

Claims (1)

【特許請求の範囲】[Claims] (1)複数の入力装置から入力され友音声を認識する線
繊装置において、複数の認識回路と、ヒれら%鰯lII
Ig回路ととに設けられ、擬音韻標準パターンとこれを
指示する記号列で表視した複数個の候補単語セットを含
む単@辞書と、複数の入力装置から入力された音声を上
記認識回路の何れかへ供給するーlI!部選択回路とを
具備し、装置への入力検出に従ってあき状態にある認識
回路を選択し、その−識回路に認識すべき候補単語セッ
トを指定し、そのセット内の候補単語から、入力音声に
最も類似した標準パタンの単語を選択し、これを認識結
果として出力する単語音声wtllI方式。
(1) In a line-based device that recognizes voice input from multiple input devices, multiple recognition circuits and
The Ig circuit is provided with a dictionary containing a plurality of candidate word sets represented by onomatopoeic standard patterns and symbol strings indicating the same, and speech input from a plurality of input devices is connected to the recognition circuit. Supply it to someone! selects a recognition circuit in an idle state according to input detection to the device, specifies a set of candidate words to be recognized in the recognition circuit, and selects a set of candidate words to be recognized from the set of candidate words in the input speech. A word voice wtllI method that selects the word with the most similar standard pattern and outputs it as a recognition result.
JP57004272A 1982-01-14 1982-01-14 Word voice recognition system Pending JPS58121100A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57004272A JPS58121100A (en) 1982-01-14 1982-01-14 Word voice recognition system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57004272A JPS58121100A (en) 1982-01-14 1982-01-14 Word voice recognition system

Publications (1)

Publication Number Publication Date
JPS58121100A true JPS58121100A (en) 1983-07-19

Family

ID=11579901

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57004272A Pending JPS58121100A (en) 1982-01-14 1982-01-14 Word voice recognition system

Country Status (1)

Country Link
JP (1) JPS58121100A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH078304A (en) * 1993-06-25 1995-01-13 Hiroshima Kasei Ltd Shoes

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH078304A (en) * 1993-06-25 1995-01-13 Hiroshima Kasei Ltd Shoes

Similar Documents

Publication Publication Date Title
US6219407B1 (en) Apparatus and method for improved digit recognition and caller identification in telephone mail messaging
JP4085924B2 (en) Audio processing device
CN108010513B (en) Voice processing method and device
US20020082841A1 (en) Method and device for processing of speech information
AU2684100A (en) Speaker recognition
US20010056345A1 (en) Method and system for speech recognition of the alphabet
CN113744742B (en) Role identification method, device and system under dialogue scene
JPS60158498A (en) Pattern collation system
JPS58121100A (en) Word voice recognition system
JP4486235B2 (en) Voice recognition device
JP2003029776A (en) Voice recognition device
JPH1125112A (en) Method and device for processing interactive voice, and recording medium
JPS6126079B2 (en)
JP2003177788A (en) Audio interactive system and its method
JP2000122678A (en) Controller for speech recogniging equipment
JPS6361300A (en) Voice recognition system
JP2980382B2 (en) Speaker adaptive speech recognition method and apparatus
JP2002252705A (en) Method and device for detecting talker id
JP2007060079A (en) Call center system and call connection control method of the system
JPS61180297A (en) Speaker collator
Vysotsky VoiceDialingSM—The first speech recognition based service delivered to customer's home from the telephone network
JPS63125998A (en) Voice input/output unit
JPS63303550A (en) Voice recognizing device
Rabiner Telecommunications applications of speech processing
JPS61278896A (en) Speaker collator