JPH04106596A - Voice recognition and output device - Google Patents
Voice recognition and output deviceInfo
- Publication number
- JPH04106596A JPH04106596A JP2222562A JP22256290A JPH04106596A JP H04106596 A JPH04106596 A JP H04106596A JP 2222562 A JP2222562 A JP 2222562A JP 22256290 A JP22256290 A JP 22256290A JP H04106596 A JPH04106596 A JP H04106596A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- memory
- output
- speech
- stored
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000015572 biosynthetic process Effects 0.000 abstract description 29
- 238000003786 synthesis reaction Methods 0.000 abstract description 29
- 238000010586 diagram Methods 0.000 description 6
- 238000000034 method Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
【発明の詳細な説明】
(産業上の利用分野)
本発明は、音声認識機能を有し、その認識結果に対応し
た情報を出力する音声認識出力装置に関する。DETAILED DESCRIPTION OF THE INVENTION (Field of Industrial Application) The present invention relates to a speech recognition output device that has a speech recognition function and outputs information corresponding to the recognition result.
(従来の技術)
従来、音声認識装置は、ワードプロセッサや音声合成装
置等の出力装置と接続され、認識された音声の内容に応
じて文字や音声の形態で出力を行なうのが一般的であっ
た。(Prior Art) In the past, speech recognition devices were generally connected to output devices such as word processors and speech synthesis devices, and output in the form of text or speech depending on the content of the recognized speech. .
第2図は、従来の音声認識処理フローを示す図である。FIG. 2 is a diagram showing a conventional speech recognition processing flow.
まず、アナログ音声信号2oが音声認識装置30に入力
されると、マイクアンプ21により適切なゲインで増幅
される。そして、その後、アナログローパスフィルタ2
2によって折り返し歪を防ぐための帯域制限が行なわれ
る。以上の処理を受けたアナログ音声信号は、A/D変
換器23によってディジタル音声信号に変換される。そ
して、次のバンドパスフィルタ24による周波数分析で
最終的な音声データ表現であるスペクトルに変換される
。また、このとき、音声信号のパワーも演算される。First, when the analog voice signal 2o is input to the voice recognition device 30, it is amplified by the microphone amplifier 21 with an appropriate gain. And after that, analog low pass filter 2
2 performs band limitation to prevent aliasing distortion. The analog audio signal that has undergone the above processing is converted into a digital audio signal by the A/D converter 23. Then, in the next frequency analysis by the bandpass filter 24, it is converted into a spectrum which is the final voice data expression. At this time, the power of the audio signal is also calculated.
以上のように、スペクトルに変換された音声は、パワー
情報等を用いて音声区間を検出する音声区間検出器25
により真の音声区間の始端及び終端が求められる。その
真の音声区間内のスペクトルデータと予め用意された標
準パターン26とがマツチング部27によりマツチング
される。このマツチングにより非類似度を表わす距離値
が各カテゴリ毎に算出される。その距離値の大小によっ
て最終的な認識結果28が判定され、出力される。As described above, the voice converted into a spectrum is processed by the voice section detector 25 which detects the voice section using power information etc.
The starting and ending points of the true voice section can be found. A matching section 27 matches the spectrum data within the true voice section with a standard pattern 26 prepared in advance. Through this matching, a distance value representing the degree of dissimilarity is calculated for each category. The final recognition result 28 is determined based on the magnitude of the distance value and is output.
次に、出力された認識結果が使用者の意図する処理を実
行するための出力装置29に送られ、認識結果に応じた
出力が行なわれる。例えば、ワードプロセッサであるな
らば、認識語を文字列に変換し、デイスプレィ上に表示
する。又は、プリンタ毎にその文字を出力する。また、
音声翻訳機ならば、その認識語を他国語に翻訳した後、
音声翻訳でその機械語を出力する。Next, the output recognition result is sent to the output device 29 for executing the process intended by the user, and output is performed according to the recognition result. For example, a word processor converts the recognized word into a character string and displays it on the display. Or output the character for each printer. Also,
If it is a voice translator, after translating the recognized word into another language,
Output the machine language using voice translation.
(発明が解決しようとする課題)
しかしながら、上述した従来の技術には、次のような問
題点があった。(Problems to be Solved by the Invention) However, the above-described conventional technology has the following problems.
即ち、音声認識を利用した出力装置では、入力する音声
と出力との情報量は同等である。っまり、大きな情報量
を持つ出力、例えば長いセンテンスやガイダンスを得る
ためには、それだけ発声量を多くしなければならず、発
声者の負担が大きくなるという問題があった。That is, in an output device using voice recognition, the amount of information of input voice and output is equivalent. In other words, in order to obtain an output containing a large amount of information, such as a long sentence or guidance, the amount of vocalization must be increased, which poses a problem in that the burden on the speaker increases.
本発明は以上の点に着目してなされたもので、音声認識
を利用した出力装置の入力音声と出力との情報量が同等
であり、発声負担か大きいという問題点を除去するため
、キーワードのみを入力することにより、連想的に情報
量の大きい内容を出力することが可能な発声負担の少な
い操作性の優れた装置を提供することを目的とするもの
である。The present invention has been made with attention to the above points, and in order to eliminate the problem that the input voice and output of an output device using voice recognition have the same amount of information, and the burden of speaking is large, only keywords can be used. It is an object of the present invention to provide a device which is capable of outputting a large amount of information in an associative manner by inputting information, and is easy to operate with a low burden of vocalization.
(課題を解決するための手段)
本発明の音声認識出力装置は、音声を認識する音声認識
部と、キーワードと出力内容とを対応付ける情報を格納
したメモリとを備え、前記音声認識部により認識された
キーワードに対応した出力内容を前記メモリから出力す
るようにしたことを特徴とするものである。(Means for Solving the Problems) A speech recognition output device of the present invention includes a speech recognition unit that recognizes speech, and a memory that stores information that associates keywords with output contents, The present invention is characterized in that the output content corresponding to the selected keyword is output from the memory.
(作用)
本発明の音声認識出力装置においては、キーワードによ
り音声の入力を行なう。従って、操作者は、センテンス
やガイダンス等の出力内容をフルに発声する必要はない
。この結果、装置の操作性の向上を図ることができる。(Operation) In the speech recognition output device of the present invention, speech is input using keywords. Therefore, the operator does not need to fully utter the output contents such as sentences and guidance. As a result, the operability of the device can be improved.
(実施例)
第1図は、本発明の音声認識出力装置の実施例を示すブ
ロック図である。(Embodiment) FIG. 1 is a block diagram showing an embodiment of the speech recognition output device of the present invention.
図示の装置は、マイク1と、音声認識部2と、リーダ4
と、メモリ5と、音声合成パターンメモリ6と、音声合
成部7と、スピーカ8とから成る。The illustrated device includes a microphone 1, a voice recognition section 2, and a reader 4.
, a memory 5 , a speech synthesis pattern memory 6 , a speech synthesis section 7 , and a speaker 8 .
マイク1は、操作者が音声情報を吹き込むためのもので
ある。The microphone 1 is used by the operator to input audio information.
音声認識部2は、マイク1を通じて入力された音声を標
準パターンと比較することにより音声を認識する。The speech recognition unit 2 recognizes speech by comparing the speech input through the microphone 1 with a standard pattern.
リーダ4は、音声認識部2から認識結果3を受は取り、
メモリ5に格納されたキーワードを探索する。The reader 4 receives the recognition result 3 from the speech recognition unit 2, and
Search for keywords stored in memory 5.
メモリ5は、キーワードに対応して音声合成パターンア
ドレスを格納している。この音声合成パターンアドレス
は、音声合成パターンメモリ6に格納された音声合成パ
ターンのアドレスである。The memory 5 stores speech synthesis pattern addresses corresponding to keywords. This speech synthesis pattern address is the address of the speech synthesis pattern stored in the speech synthesis pattern memory 6.
音声合成パターンメモリ6は、出力内容である音声合成
パターンを格納したメモリである。The speech synthesis pattern memory 6 is a memory that stores speech synthesis patterns that are output contents.
音声合成部7は、音声パターンから音声を合成する。The speech synthesis unit 7 synthesizes speech from the speech pattern.
スピーカ8は、音声合成部7で合成された音声を出力す
る。The speaker 8 outputs the voice synthesized by the voice synthesizer 7.
次に、上述した装置の動作を説明する。Next, the operation of the above-described device will be explained.
まず、キーワードAがマイク1を通して音声認識部2に
入力される。次に、キーワードと各音声合成パターンの
アドレスとの対応が記載されたメモリ5をリーダ4が探
索し、音声認識部2で認識されたキーワードの対応する
音声合成パターンのアドレスを読み出す。そして、その
アドレス指定された音声合成パターンのデータが音声合
成部に送られ、長いセンテンスの合成音9がスピーカか
ら出力される。First, a keyword A is input to the speech recognition section 2 through the microphone 1. Next, the reader 4 searches the memory 5 in which the correspondence between the keyword and the address of each speech synthesis pattern is written, and reads out the address of the speech synthesis pattern corresponding to the keyword recognized by the speech recognition section 2. Then, the data of the addressed speech synthesis pattern is sent to the speech synthesis section, and a long sentence of synthesized speech 9 is output from the speaker.
次に、第2実施例について説明する。Next, a second example will be described.
第1実施例では、キーワードのみの入力であったが、第
2実施例では、キーワードの他にそのキーワードを用い
るシテユエーション(状況)も入力可能としたところに
その特徴がある。これによって、1つのキーワードに対
し、状況に応じた何通りもの出力が可能となった。In the first embodiment, only keywords were input, but in the second embodiment, in addition to keywords, situations in which the keywords are used can also be input. This makes it possible to output a single keyword in multiple ways depending on the situation.
第3図は、本発明の第2実施例を示すブロック図である
。FIG. 3 is a block diagram showing a second embodiment of the present invention.
図示の装置は、音声認識部11と、知識データベース1
5と、音声合成部17とから成る。The illustrated device includes a speech recognition section 11 and a knowledge database 1.
5 and a speech synthesis section 17.
音声認識部11は、入力された音声を標準パターンと比
較することにより音声を認識する。The speech recognition unit 11 recognizes the input speech by comparing it with a standard pattern.
知識データベース15は、キーワードに対応して音声合
成パターンを格納したメモリと、当該メモリに格納され
たキーワードを探索するり−ダ等から成る。The knowledge database 15 consists of a memory that stores speech synthesis patterns corresponding to keywords, and a reader that searches for the keywords stored in the memory.
音声合成部17は、音声パターンから音声を合成する。The speech synthesis unit 17 synthesizes speech from the speech pattern.
次に、上述した装置の動作を説明する。Next, the operation of the above-described device will be explained.
まず、「コーヒー」といつ音声を音声認識部11に入力
し、認識させる。次に、「買物」12、「レストラン」
13、「休憩」14の3つのシチュエーションから1つ
を選択する。尚、このシチュエーションを選択する方法
としては、いかなる方法であってもよい。例えば、プッ
シュホクンや音声入力等が考えられる。また、シチュエ
ーションの入力回数も1回だけでなく、より複雑な状況
に対応するため、複数回入力する場合も考えられる。
シチュエーションの入力が完了した状態でキーワードを
入力すると、知識データベースの探索が行なわれる。こ
の探索により、入力されたキーワードに対する各シチュ
エーションに応じた最適な音声合成パターンのアドレス
が見出される。次に、その探索された音声合成パターン
16が音声合成部17に送られ、スピーカから出力され
る。その出力内容としては、例えば、「買物」と選択し
たときは、「コーヒーはいくらですか。」、「レストラ
ン」では、「コーヒー−杯下さい。」、「休憩」では、
「コーヒーを飲みに行きましょう、」となる。First, the voice ``coffee'' is input to the voice recognition unit 11 and recognized. Next, “Shopping” 12, “Restaurant”
13. Select one from the three situations 14: "Break". Note that any method may be used to select this situation. For example, push-button input, voice input, etc. can be considered. Furthermore, the number of times a situation is input is not limited to once, but may be input multiple times in order to deal with more complex situations.
If a keyword is entered after the situation has been entered, the knowledge database will be searched. Through this search, the address of the optimal speech synthesis pattern corresponding to each situation for the input keyword is found. Next, the searched speech synthesis pattern 16 is sent to the speech synthesis section 17 and output from the speaker. For example, when you select ``Shopping,'' the output is ``How much is the coffee?'' When you select ``Restaurant,'' ``Coffee, please.'' When you select ``Break,'' the output is,
``Let's go get coffee.''
以上のように、第2実施例では、1つのキーワードに対
して状況に応じた出力が可能となる。As described above, in the second embodiment, it is possible to output one keyword according to the situation.
また、第2実施例の発展形として複数のキーワードを入
力することで、より長いセンテンスを出力するという方
法も考えられる。Further, as an advanced version of the second embodiment, a method of outputting a longer sentence by inputting a plurality of keywords may be considered.
尚、ここで示した出力装置として音声合成翻訳機を例と
して挙げたが、他にもワードプロセッサ、デイスプレィ
装置等の様々なアプリケーションが考えられる。Note that although a speech synthesis translator is used as an example of the output device shown here, various other applications such as a word processor, a display device, etc. can be considered.
(発明の効果)
以上説明したように、本発明の音声認識出力装置によれ
ば、キーワードの音声を入力するだけで、大きな情報量
を持つ出力を得ることができるので、操作者の負担を大
幅に減少することができる。(Effects of the Invention) As explained above, according to the speech recognition output device of the present invention, it is possible to obtain an output with a large amount of information just by inputting the voice of a keyword, which greatly reduces the burden on the operator. can be reduced to
更に、状況に応じた判断機能を付与することによって、
キーワードの音声からセンテンスを推定して出力可能と
することができる。この結果、1つのキーワードに対す
る装置の利用範囲の拡大を図ることができる。Furthermore, by providing a judgment function according to the situation,
Sentences can be estimated and output from the voice of the keyword. As a result, it is possible to expand the scope of use of the device for one keyword.
第1図は本発明の第1実施例を示すブロック図、第2図
は従来の音声認識装置の構成を示すブロック図、第3図
は本発明の第2実施例を示すブロック図である。
■・・・マイク、2・・・音声認識部、4・・・リーグ
、5・・・メモリ、6・・・音声合成パターンメモリ、
7・・・音声合成部、8・・・スピーカ。FIG. 1 is a block diagram showing a first embodiment of the present invention, FIG. 2 is a block diagram showing the configuration of a conventional speech recognition device, and FIG. 3 is a block diagram showing a second embodiment of the present invention. ■...Microphone, 2...Speech recognition unit, 4...League, 5...Memory, 6...Speech synthesis pattern memory,
7...Speech synthesis section, 8...Speaker.
Claims (1)
モリとを備え、 前記音声認識部により認識されたキーワードに対応した
出力内容を前記メモリから出力するようにしたことを特
徴とする音声認識出力装置。 2、キーワードの意味的情報を知識データベースから探
索し、状況の指定に応じてキーワードから出力内容を推
定するようにしたことを特徴とする請求項1記載の音声
認識出力装置。[Scope of Claims] 1. A voice recognition unit that recognizes voice, and a memory that stores information associating keywords with output content, and output content corresponding to the keywords recognized by the voice recognition unit is stored in the memory. A speech recognition output device characterized by outputting from. 2. The speech recognition output device according to claim 1, wherein the semantic information of the keyword is searched from a knowledge database, and the output content is estimated from the keyword according to the specification of the situation.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2222562A JPH04106596A (en) | 1990-08-27 | 1990-08-27 | Voice recognition and output device |
EP19910114073 EP0472193A3 (en) | 1990-08-23 | 1991-08-22 | Translation device based on voice recognition and voice synthesis |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2222562A JPH04106596A (en) | 1990-08-27 | 1990-08-27 | Voice recognition and output device |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH04106596A true JPH04106596A (en) | 1992-04-08 |
Family
ID=16784404
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2222562A Pending JPH04106596A (en) | 1990-08-23 | 1990-08-27 | Voice recognition and output device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH04106596A (en) |
-
1990
- 1990-08-27 JP JP2222562A patent/JPH04106596A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2848458B2 (en) | Language translation system | |
JP2007514992A (en) | Audio dialogue system and voice browsing method | |
JPS61255469A (en) | Language generating device | |
KR100467590B1 (en) | Apparatus and method for updating a lexicon | |
JPS6318458A (en) | Method and apparatus for extracting feeling information | |
US20060136195A1 (en) | Text grouping for disambiguation in a speech application | |
JPH04106596A (en) | Voice recognition and output device | |
KR101982490B1 (en) | Method for searching keywords based on character data conversion and apparatus thereof | |
JPS5941226B2 (en) | voice translation device | |
JP2003162524A (en) | Language processor | |
JP2006065651A (en) | Program, apparatus and method for retrieving trademark name | |
JP2001092482A (en) | Speech synthesis system and speech synthesis method | |
JP2005151037A (en) | Unit and method for speech processing | |
JPH04167069A (en) | Dictionary division type speech translating machine | |
JPH10161847A (en) | Document data speech conversion system | |
JPH07152756A (en) | Document processor | |
JPS63189967A (en) | Method and device for inputting abstract to slip | |
JPH06215024A (en) | Device and method for processing natural language | |
JP2730308B2 (en) | Natural language analysis method | |
JP3121530B2 (en) | Voice recognition device | |
JPH1078955A (en) | Kana-to-kanji conversion system | |
JPH10134068A (en) | Method and device for supporting information acquisition | |
JPH0350669A (en) | Information processor | |
JPS62293472A (en) | Voice translator | |
KR20040083921A (en) | A portable Interpretation system and method |