JPH06289899A - Speech recognition device - Google Patents
Speech recognition deviceInfo
- Publication number
- JPH06289899A JPH06289899A JP5074107A JP7410793A JPH06289899A JP H06289899 A JPH06289899 A JP H06289899A JP 5074107 A JP5074107 A JP 5074107A JP 7410793 A JP7410793 A JP 7410793A JP H06289899 A JPH06289899 A JP H06289899A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- neural network
- unit
- data
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
Description
【0001】[0001]
【産業上の利用分野】本発明は、話者が発する単語音声
を認識し、その結果を出力する音声認識装置に関するも
のである。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a voice recognition device for recognizing a word voice uttered by a speaker and outputting the result.
【0002】[0002]
【従来の技術】従来のニューラルネット部を用いて単語
音声を認識する音声認識装置では、単語音声の音声特徴
データを予めニューラルネット部に学習させ、認識時に
は音声の特徴データがニューラルネット部に渡され、学
習済み単語との一致度が認識結果として出力されるよう
になっていた。2. Description of the Related Art In a conventional voice recognition device for recognizing a word voice using a neural network unit, the voice feature data of the word voice is learned in advance in a neural network unit, and the voice feature data is passed to the neural network unit during recognition. Then, the degree of coincidence with the learned word is output as the recognition result.
【0003】[0003]
【発明が解決しようとする課題】従来の音声認識装置で
は、ニューラルネット部の学習後に話者の発音が経時変
化した場合、単語の認識ミスが生じやすかった。そし
て、認識を行うニューラルネット部の学習データを入力
し直して学習をやり直さない限り、認識ミスが改善され
ることはなかった。また、その際に雑音や特異な発音を
含む不良データを学習させると、かえって認識精度を低
下させるおそれがあった。In the conventional voice recognition device, when the pronunciation of the speaker changes with time after learning of the neural network unit, a word recognition error is likely to occur. Then, unless the learning data of the neural network part for recognition is input again and learning is performed again, the recognition error is not improved. In addition, learning bad data including noise and peculiar pronunciation at that time may rather reduce the recognition accuracy.
【0004】本発明はこのような従来の問題点を解決
し、話者の発音の変化に対応して高い認識精度を維持し
うる音声認識装置の提供を目的とする。An object of the present invention is to solve the above conventional problems and to provide a voice recognition device capable of maintaining high recognition accuracy in response to changes in the pronunciation of a speaker.
【0005】[0005]
【課題を解決するための手段】本発明は上記目的を達成
するため、特定・不特定話者が発声する単語音声を認識
するニューラルネットを用いた音声認識装置において、
音声信号を入力するための音声入力部と、前記音声信号
からその特徴を抽出する音声信号特徴抽出部と、ニュー
ラルネットの学習用データ記憶部と、認識結果を表示し
ユーザからその正誤を受け取る外部インタフェース部
と、抽出した音声特徴データと学習済みの各単語の音声
特徴データとの一致の度合いを数字で出力し、かつ与え
られた音声特徴データを学習するニューラルネット部
と、前記ニューラルネット部が出力する一致度から認識
結果を判定する認識結果判定部と、上記データの流れを
制御し、前記ニューラルネット部に学習を行わせる音声
認識・学習制御部とを備えたことを特徴とする。In order to achieve the above object, the present invention provides a voice recognition device using a neural network for recognizing word voices uttered by specific and unspecified speakers,
A voice input unit for inputting a voice signal, a voice signal feature extraction unit for extracting the features from the voice signal, a learning data storage unit for the neural network, a recognition result display, and the correctness received from the user External The interface unit, a neural network unit that outputs the degree of coincidence between the extracted voice feature data and the voice feature data of each learned word by numbers, and learns the given voice feature data, and the neural network unit. It is characterized in that it is provided with a recognition result judging unit for judging a recognition result from the output coincidence degree, and a voice recognition / learning control unit for controlling the flow of the data and for making the neural network unit perform learning.
【0006】[0006]
【作用】本発明によれば、音声認識装置に組み込まれた
ニューラルネット部に、認識をミスした音声特徴データ
を、そのつど自動的に学習させるものである。また、不
良データの学習を防ぐため、学習はその音声特徴データ
が学習済みのデータにある程度一致している場合のみ実
行される。According to the present invention, the neural network unit incorporated in the voice recognition device is made to automatically learn the voice feature data for which recognition has been missed. Further, in order to prevent the learning of defective data, the learning is executed only when the voice feature data matches the learned data to some extent.
【0007】したがって、話者の発音が経時変化して
も、その音声特徴データを、そのつど学習させることに
よって話者の発音の変化に対応し、高い認識精度を保ち
続けることができる。Therefore, even if the pronunciation of the speaker changes with time, by learning the voice feature data each time, it is possible to respond to the change in the pronunciation of the speaker and maintain high recognition accuracy.
【0008】[0008]
【実施例】図1は本発明の一実施例における音声認識装
置の機能ブロック図であり、図1において、1は話者が
発声した音声を入力するための音声入力部、2は前記音
声入力部1により入力された音声信号から、その音声特
徴データを算出する音声信号特徴抽出部、3は音声特徴
データを入力とし、学習した各単語の音声特徴データと
の一致の度合いを出力するニューラルネット部、4はニ
ューラルネット部3から認識結果を受け取り、一致度の
上位3つの単語を算出する認識結果判定部、5はニュー
ラルネット部3に学習させた単語の音声特徴データを記
憶しておく学習用データ記憶部、6は学習用データ記憶
部5から認識結果を受け取り、それを表示し、ユーザか
ら結果の正誤を入力してもらう外部インタフェース部、
7は外部インタフェース部6から認識結果の正誤情報を
受け取り、ニューラルネット部3に学習させるかどうか
を決定する音声認識・学習制御部である。1 is a functional block diagram of a voice recognition apparatus according to an embodiment of the present invention. In FIG. 1, 1 is a voice input section for inputting a voice uttered by a speaker, and 2 is the voice input. A voice signal feature extraction unit for calculating voice feature data from the voice signal input by the unit 1, and a neural network for receiving the voice feature data as an input and outputting the degree of matching with the voice feature data of each learned word. A learning unit 4 receives a recognition result from the neural network unit 3 and calculates a top 3 words with a high degree of coincidence. A learning unit 5 stores voice feature data of the words learned by the neural network unit 3. An external interface unit for receiving a recognition result from the learning data storage unit 5, displaying the recognition result, and allowing the user to input the correctness of the result,
Reference numeral 7 denotes a voice recognition / learning control unit that receives correctness / incorrectness information of the recognition result from the external interface unit 6 and determines whether the neural network unit 3 should perform learning.
【0009】図2は図1の音声認識装置の回路ブロック
図であり、8はマイクロホン、9はリードオンリメモリ
(以下、ROMと略称する)、10は中央処理装置(以下、
CPUと略称する)、11はランダムアクセスメモリ(以
下、RAMと略称する)、12はモニター、13はキーボー
ドである。FIG. 2 is a circuit block diagram of the voice recognition apparatus of FIG. 1, where 8 is a microphone and 9 is a read-only memory.
(Hereinafter, abbreviated as ROM), 10 is a central processing unit (hereinafter,
Reference numeral 11 is a random access memory (hereinafter abbreviated as RAM), 12 is a monitor, and 13 is a keyboard.
【0010】ここで上記図1に示した音声入力部1はマ
イクロホン8により、学習用データ記憶部5はRAM11
により、音声信号特徴抽出部2とニューラルネット部3
と認識結果判定部4と音声認識・学習制御部7は、CP
U10がROM9およびRAM11とデータの授受を行いな
がらROM9に記憶されたプログラムを実行することに
より、外部インタフェース部6はモニター12とキーボー
ド13により、それぞれ実現されている。The voice input section 1 shown in FIG. 1 is a microphone 8 and the learning data storage section 5 is a RAM 11 shown in FIG.
The voice signal feature extraction unit 2 and the neural network unit 3
The recognition result determination unit 4 and the voice recognition / learning control unit 7
The external interface unit 6 is realized by the monitor 12 and the keyboard 13 as the U 10 executes the program stored in the ROM 9 while exchanging data with the ROM 9 and the RAM 11.
【0011】上記のように構成された本発明の一実施例
における音声認識装置に、「たなか」という単語の音声
が、初期の学習時とは異なる発音で与えられた場合につ
いて、以下、この動作を図3のフローチャートに基づき
説明する。なお、ニューラルネット部3は(表1)に示す
学習用データを既に学習しているものとする。一単語に
つき、2つのデータがあり、1つのデータの大きさは27
0バイトで、45個の数値よりなる。This operation will be described below in the case where the voice recognition device in the embodiment of the present invention configured as described above is given a voice of the word "tanaka" with a pronunciation different from that at the time of initial learning. Will be described with reference to the flowchart of FIG. It is assumed that the neural network unit 3 has already learned the learning data shown in (Table 1). There are two data for each word, and the size of one data is 27.
It is 0 bytes and consists of 45 numbers.
【0012】[0012]
【表1】 [Table 1]
【0013】ステップ(S1)で、音声信号特徴抽出部2
は音声入力部1から入力された入力音声信号に対する音
声特徴抽出を行う。In step (S1), the voice signal feature extraction unit 2
Performs voice feature extraction for the input voice signal input from the voice input unit 1.
【0014】ステップ(S2)では、抽出された音声特徴
データをニューラルネット部3に入力し、出力として学
習済みの各単語との一致度を得る。得られた一致度が大
きい順に上位3つの単語が認識結果判定部4によって算
出される。上記例では、(表2)に示すように、「たな
か」は第2位で、「とくだ」が第1位となったとする。In step (S2), the extracted voice feature data is input to the neural network unit 3, and the degree of coincidence with each learned word is obtained as an output. The recognition result determination unit 4 calculates the top three words in the descending order of the degree of matching. In the above example, as shown in (Table 2), it is assumed that "Tanaka" is in second place and "Tokuda" is in first place.
【0015】[0015]
【表2】 [Table 2]
【0016】ステップ(S3)では、外部インタフェース
部6が認識結果をモニター12に出力し、ユーザがそれを
見て、認識結果が正しい場合はyesを、認識結果が誤っ
ている場合は正しい答えをキーボード13に入力する。上
記例では、認識結果が誤っているため(no)、ユーザは
「たなか」と入力する。In step (S3), the external interface unit 6 outputs the recognition result to the monitor 12, and the user looks at it and gives a yes when the recognition result is correct and a correct answer when the recognition result is incorrect. Input on the keyboard 13. In the above example, since the recognition result is incorrect (no), the user inputs “tanaka”.
【0017】ステップ(S4)では、音声認識・学習制御
部7が外部インタフェース部6からユーザの入力を受け
取り、入力がyesであれば処理を終了する。入力がnoの
場合は、ユーザが入力した正解単語が認識の第3位以内
に入っていれば、ステップ(S5)に進み、入って入なけ
れば処理を終了する。これは、雑音が混じった不良デー
タや、発音が大きく乱れたデータが学習用データに混入
することを防ぐためである。上記例では、「たなか」は
第2位になっているため正常データとみなし、ステップ
(S6)に進む。In step (S4), the voice recognition / learning control unit 7 receives the user's input from the external interface unit 6, and if the input is yes, the process is terminated. When the input is no, if the correct word input by the user is within the third rank for recognition, the process proceeds to step (S5), and if not entered, the process ends. This is to prevent defective data containing noise and data with greatly disturbed pronunciation from being mixed into the learning data. In the above example, since "Tanaka" is in the second place, it is regarded as normal data and the step
Proceed to (S6).
【0018】ステップ(S5)では、学習用データ記憶部
5の学習用データの中の古い音声特徴データを今回誤認
識した音声特徴データに更新し、RAM11に記憶する。
上記例では、(表1)の学習用データ中の「たなか」の音
声特徴データの古い方(No.3)を消去し、今回誤認識した
「たなか」のデータを記録する。つまり、(表3)に変更
後の学習用データを示し、No.3に新しいデータが挿入さ
れ、もとのNo.3はNo.4になる。In step (S5), the old voice feature data in the learning data in the learning data storage unit 5 is updated to the voice feature data that was erroneously recognized this time, and is stored in the RAM 11.
In the above example, the older one (No. 3) of the voice feature data of "Tanaka" in the learning data of (Table 1) is erased, and the data of "Tanaka" which is erroneously recognized this time is recorded. In other words, (Table 3) shows the changed learning data, new data is inserted in No. 3, and the original No. 3 becomes No. 4.
【0019】[0019]
【表3】 [Table 3]
【0020】また、ステップ(S6)では、更新された学
習用データをニューラルネット部3に学習させ、学習し
たニューラルネットを保存する。ニューラルネット部の
初期の学習では数千回の学習回数が必要だが、学習用デ
ータの一部更新のみの場合では百回程度の回数で十分に
学習が収束し、学習にかかる時間も実用範囲内であり、
学習したデータを正確に認識できるようになることが実
験によって明らかになっている。上記例では、ニューラ
ルネット部は「たなか」の発音の変化を学習するため、
後に「たなか」の発音が同様に変化しても正しく認識す
ることができるようになる。In step (S6), the neural network unit 3 is made to learn the updated learning data, and the learned neural net is stored. The initial learning of the neural network part requires several thousand times of learning, but if only part of the learning data is updated, about 100 times of learning is sufficient for the learning to converge, and the time required for learning is within the practical range. And
Experiments have revealed that the learned data can be accurately recognized. In the above example, the neural network unit learns the change in the pronunciation of "Tanaka",
Later, even if the pronunciation of "tanaka" changes, it will be possible to correctly recognize it.
【0021】以上のように、従来の音声認識装置にニュ
ーラルネット部の学習機能と正常データの判別機能を加
えることによって、ユーザが誤りを指摘するだけで装置
は正常データのみを自動的に学習し、話者の発音が経時
変化しても高い認識精度を保つことが可能となる。As described above, by adding the learning function of the neural network section and the function of discriminating normal data to the conventional voice recognition device, the device automatically learns only normal data when the user points out an error. , It is possible to maintain high recognition accuracy even if the pronunciation of the speaker changes over time.
【0022】[0022]
【発明の効果】以上説明したように本発明の音声認識装
置は、特別な操作を必要とせずに話者の発音の変化を自
動的に学習することによって、高い認識精度を得ること
ができる。As described above, the voice recognition apparatus of the present invention can obtain high recognition accuracy by automatically learning the change in the pronunciation of the speaker without requiring any special operation.
【図面の簡単な説明】[Brief description of drawings]
【図1】本発明の一実施例における音声合成装置の機能
ブロック図である。FIG. 1 is a functional block diagram of a voice synthesizer according to an embodiment of the present invention.
【図2】図1の回路ブロック図である。FIG. 2 is a circuit block diagram of FIG.
【図3】図1の動作を説明するフローチャートである。3 is a flowchart illustrating the operation of FIG.
1…音声入力部、 2…音声信号特徴抽出部、 3…ニ
ューラルネット部、 4…認識結果判定部、 5…学習
用データ記憶部、 6…外部インタフェース部、7…音
声認識・学習制御部、 8…マイクロホン、 9…RO
M、 10…CPU、 11…RAM、 12…モニター、
13…キーボード。DESCRIPTION OF SYMBOLS 1 ... Voice input part, 2 ... Voice signal feature extraction part, 3 ... Neural net part, 4 ... Recognition result determination part, 5 ... Learning data storage part, 6 ... External interface part, 7 ... Voice recognition / learning control part, 8 ... Microphone, 9 ... RO
M, 10 ... CPU, 11 ... RAM, 12 ... Monitor,
13 ... keyboard.
Claims (1)
認識するニューラルネットを用いた音声認識装置におい
て、 音声信号を入力するための音声入力部と、前記音声信号
からその特徴を抽出する音声信号特徴抽出部と、ニュー
ラルネットの学習用データ記憶部と、認識結果を表示し
ユーザからその正誤を受け取る外部インタフェース部
と、抽出した音声特徴データと学習済みの各単語の音声
特徴データとの一致の度合いを数字で出力し、かつ与え
られた音声特徴データを学習するニューラルネット部
と、前記ニューラルネット部が出力する一致度から認識
結果を判定する認識結果判定部と、上記データの流れを
制御し、前記ニューラルネット部に学習を行わせる音声
認識・学習制御部とを備えたことを特徴とする音声認識
装置。1. A voice recognition apparatus using a neural network for recognizing a word voice uttered by a specific / unspecified speaker, and a voice input unit for inputting a voice signal, and a feature thereof is extracted from the voice signal. The voice signal feature extraction unit, the learning data storage unit of the neural network, the external interface unit that displays the recognition result and receives the correctness from the user, the extracted voice feature data and the voice feature data of each learned word A neural network unit that outputs the degree of coincidence as a number and learns given voice feature data, a recognition result determination unit that determines a recognition result from the degree of coincidence output by the neural network unit, and a flow of the data. A voice recognition device comprising: a voice recognition / learning control unit that controls the neural network unit to perform learning.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5074107A JPH06289899A (en) | 1993-03-31 | 1993-03-31 | Speech recognition device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5074107A JPH06289899A (en) | 1993-03-31 | 1993-03-31 | Speech recognition device |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH06289899A true JPH06289899A (en) | 1994-10-18 |
Family
ID=13537644
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP5074107A Pending JPH06289899A (en) | 1993-03-31 | 1993-03-31 | Speech recognition device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH06289899A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017107098A (en) * | 2015-12-10 | 2017-06-15 | 株式会社リクルートライフスタイル | Voice translation system and control method thereof and voice translation program |
JP2023503008A (en) * | 2019-11-18 | 2023-01-26 | グーグル エルエルシー | Automated mining of real-world audio training data |
-
1993
- 1993-03-31 JP JP5074107A patent/JPH06289899A/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017107098A (en) * | 2015-12-10 | 2017-06-15 | 株式会社リクルートライフスタイル | Voice translation system and control method thereof and voice translation program |
JP2023503008A (en) * | 2019-11-18 | 2023-01-26 | グーグル エルエルシー | Automated mining of real-world audio training data |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7228275B1 (en) | Speech recognition system having multiple speech recognizers | |
US5428707A (en) | Apparatus and methods for training speech recognition systems and their users and otherwise improving speech recognition performance | |
JP3880163B2 (en) | Method and system for displaying a variable number of alternative words during speech recognition | |
US5832063A (en) | Methods and apparatus for performing speaker independent recognition of commands in parallel with speaker dependent recognition of names, words or phrases | |
JP4588069B2 (en) | Operator recognition device, operator recognition method, and operator recognition program | |
US20050033575A1 (en) | Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer | |
JPS603699A (en) | Adaptive automatically dispersing voice recognition | |
US7966177B2 (en) | Method and device for recognising a phonetic sound sequence or character sequence | |
JPH10133684A (en) | Method and system for selecting alternative word during speech recognition | |
JP2008309856A (en) | Speech recognition device and conference system | |
US7035800B2 (en) | Method for entering characters | |
KR101566013B1 (en) | Method and system for improvement of the pronunciation accuracy and expressiveness during language beginners reading an e-book aloud | |
CN114783424A (en) | Text corpus screening method, device, equipment and storage medium | |
US20010056345A1 (en) | Method and system for speech recognition of the alphabet | |
JP4216361B2 (en) | Speech recognition system for numbers | |
JP3083660B2 (en) | Voice recognition device | |
JPH06289899A (en) | Speech recognition device | |
JPH10187184A (en) | Method of selecting recognized word at the time of correcting recognized speech and system therefor | |
US6141661A (en) | Method and apparatus for performing a grammar-pruning operation | |
JP2002215184A (en) | Speech recognition device and program for the same | |
JPH064264A (en) | Voice input/output system | |
JPH0432900A (en) | Sound recognizing device | |
JPH08335094A (en) | Voice input method and device for executing this method | |
JP2005227555A (en) | Voice recognition device | |
JPH0654503B2 (en) | Pattern recognition device |