JPH07210193A - Voice conversation device - Google Patents

Voice conversation device

Info

Publication number
JPH07210193A
JPH07210193A JP6001472A JP147294A JPH07210193A JP H07210193 A JPH07210193 A JP H07210193A JP 6001472 A JP6001472 A JP 6001472A JP 147294 A JP147294 A JP 147294A JP H07210193 A JPH07210193 A JP H07210193A
Authority
JP
Japan
Prior art keywords
unit
voice
phoneme
syllable
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP6001472A
Other languages
Japanese (ja)
Other versions
JP3465334B2 (en
Inventor
Kenji Matsui
謙二 松井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP00147294A priority Critical patent/JP3465334B2/en
Publication of JPH07210193A publication Critical patent/JPH07210193A/en
Application granted granted Critical
Publication of JP3465334B2 publication Critical patent/JP3465334B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

PURPOSE:To provide a voice conversation device capable of storing a new word into a machine while performing voice conversation. CONSTITUTION:By providing a phoneme/syllable recognition part 3 performing voice recognition and outputting a phoneme or syllable line, a phoneme/syllable lattice candidate storage part 4 storing the output, a voice synthesis part 5 synthesizing a sound signal from a phoneme/syllable lattice, a voice output part 6, a word dictionary 8 storing a phonetic symbol and a meaning of a word and a conversation control part 7, this device compares the last recognition result in the phoneme/syllable lattice candidate storage part with the latest recognition result being the output of the phoneme/syllable recognition part 3, and replaces the extremely different phoneme/syllable or phoneme group/ syllable group to the candidates different from the last time to output to the voice synthesis part 5, and judges a synthesis voice outputting immediately before as the right answer, and stores the phoneme/syllable lattice in the word dictionary 8, and the acquisition of language are realized by the voice conversation.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、音声を用いて機器と対
話を行いながら制御を行う音声対話装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a voice dialogue device for controlling voice equipment while interacting with the equipment.

【0002】[0002]

【従来の技術】音声を用いて機器と対話を行いながら制
御を行う音声対話装置は、おしゃべり人形などの玩具か
ら電話を用いた銀行の残高照会などまで序々にその用途
を拡大しつつある。
2. Description of the Related Art The use of voice interaction devices for performing control while interacting with devices using voice is gradually expanding from toys such as chattering dolls to bank balance inquiry using a telephone.

【0003】図4は、従来の音声対話装置の構成例であ
る。同図において、音声入力部1は音声を電気信号に変
換する部分、音声分析部2は音声信号をFFTやLPC
分析により周波数スペクトルやケプストラムなどの音声
特徴情報に変換する部分、音素/音節認識部3は前記音
声分析部の音声特徴情報を基に音声認識を行い音素ある
いは音節列を出力する部分、対話制御部12は音声対話
を管理し前記音素/音節認識部の出力から制御語を認識
し次の動作を判断する部分、キーボード部13は音声で
は入力出来ない情報を入力するための部分、音声合成部
7は音素/音節ラティスから音声信号を合成する部分、
音声出力部8は前記音声合成部の出力を音響信号に変換
する部分、単語辞書10は単語の発音記号や意味を記憶
する部分である。
FIG. 4 shows an example of the configuration of a conventional voice dialog device. In the figure, a voice input unit 1 converts a voice into an electric signal, and a voice analysis unit 2 converts the voice signal into an FFT or LPC.
A part that is converted into speech feature information such as a frequency spectrum or a cepstrum by analysis, a phoneme / syllable recognition unit 3 performs speech recognition based on the speech feature information of the speech analysis unit, and outputs a phoneme or a syllable string, a dialogue control unit. Reference numeral 12 is a portion for managing voice dialogue, recognizing a control word from the output of the phoneme / syllable recognition portion to judge the next operation, keyboard portion 13 is a portion for inputting information that cannot be input by voice, and voice synthesizing portion 7 Is the part that synthesizes the speech signal from the phoneme / syllable lattice,
The voice output unit 8 is a unit that converts the output of the voice synthesis unit into an acoustic signal, and the word dictionary 10 is a unit that stores phonetic symbols and meanings of words.

【0004】例として上記の音声対話装置によるスケジ
ュール管理システムを考える。先ず、対話管理部12が
「予定をどうぞ」というテキストを音声合成部7に送
り、音声合成部7と音声出力部8により合成音で「予定
をどうぞ」と問いかける。これに対しユーザーが「13
時ミーティング」と言うと音声入力部1および音声分析
部2によりこの声が音声特徴情報に変換され音素/音節
認識部3で音素/音節ラティスに変換され対話制御部1
2がそれぞれ「13時」、「ミーティング」という単語
を単語辞書10を参照して認識し、次の動作として、
「ミーティングの相手をキーボードで入力してくださ
い」というテキストを音声合成部7に送る。音声合成部
7と音声出力部8はこのテキストを合成音で問いかけ
る。ユーザーはキーボード部13で「まつした」と入力
すると、対話制御部12は「13時、まつしたさんとミ
ーティングですね?」というテキストを生成し、ユーザ
ーが「はい」と言うと、対話制御部はこの「13時、ま
つしたさんとミーティング。」という内容をデータベー
スに格納する。
As an example, consider a schedule management system using the above-described voice interaction device. First, the dialogue management unit 12 sends the text "Please schedule" to the voice synthesis unit 7, and the voice synthesis unit 7 and the voice output unit 8 inquire as "Please schedule" with a synthetic voice. In response to this, the user
Speaking of "time meeting", this voice is converted into voice feature information by the voice input unit 1 and the voice analysis unit 2, converted into phoneme / syllable lattices by the phoneme / syllable recognition unit 3, and the dialogue control unit 1 is used.
2 recognizes the words "13:00" and "meeting" with reference to the word dictionary 10, and as the next operation,
The text “Please input the meeting partner with the keyboard” is sent to the voice synthesizer 7. The voice synthesizer 7 and the voice output unit 8 inquire about this text with a synthetic voice. When the user inputs "Matsushita" on the keyboard unit 13, the dialogue control unit 12 generates the text "A meeting with Matsushita-san at 13:00?", And when the user says "Yes", the dialogue control unit Stores the content of "Meeting with Matsushita-san at 13:00" in the database.

【0005】この従来例の問題点は、「まつした」と言
うような固有名詞の入力の場合、通常単語辞書10に無
く音声認識が出来ないのでキーボードなどに依存すると
いう点である。すなわち、現状では人間が音声で用いる
ことの出来る単語の数は制限され、機械が人間のように
対話を通じて新しい言葉を学習するということは困難で
ある。従って、音声対話技術が適用できるためには限ら
れた単語で制御が出来る場合のみで、それ以外はキーボ
ードなどの入力手段が必要になる。
The problem with this conventional example is that when a proper noun such as "Matsushita" is input, it is usually not in the word dictionary 10 and voice recognition cannot be performed, so that it depends on a keyboard or the like. That is, at present, the number of words that humans can use in speech is limited, and it is difficult for machines to learn new words through dialogue like humans. Therefore, in order to be able to apply the voice interaction technology, it is only possible to control with a limited number of words, and in other cases, input means such as a keyboard is required.

【0006】[0006]

【発明が解決しようとする課題】上記、従来例で説明し
たように、現状の音声対話装置では人間が音声で用いる
ことの出来る単語の数は制限され、機械が人間のように
対話を通じて新しい言葉を学習するということは困難で
ある。従って、名前など固有名詞の入力にはキーボード
などの入力手段が必要である。
As explained in the above-mentioned conventional example, the number of words that a human can use in a voice is limited in the current voice dialog device, and the machine can use a new word through a dialogue like a human. Is difficult to learn. Therefore, an input means such as a keyboard is required for inputting proper nouns such as names.

【0007】本発明の目的は、上記従来の音声対話装置
の課題に鑑み、機械が人間のように対話を通じて新しい
言葉を学習するということが出来る音声対話装置の提供
を目的とするものである。
An object of the present invention is to provide a voice dialogue system in which a machine can learn a new word through dialogue like a human being in view of the above problems of the conventional voice dialogue system.

【0008】[0008]

【課題を解決するための手段】本発明による音声対話装
置は、音声を電気信号に変換する音声入力部と、前記音
声入力部からの音声信号をFFTやLPC分析により周
波数スペクトルやケプストラムなどの音声特徴情報に変
換する音声分析部と、前記音声分析部の出力を基に音声
認識を行い音素あるいは音節列を出力する音素/音節認
識部と、前記音素/音節認識部の出力を記憶する音素/
音節ラティス候補記憶部と、音素/音節ラティスから音
声信号を合成する音声合成部と、前記音声合成部の出力
を音響信号に変換する音声出力部と、単語の発音記号や
意味を記憶する単語辞書と、音声対話を管理し「はい」
・「いいえ」などの制御語が入力されるべき時は前記音
素/音節認識部の出力から制御語を認識し次の動作を判
断し制御語では無い新しい単語が初めて入力されるべき
時は前記音素/音節ラティス候補記憶部の内容のうち最
も尤度の高い音素/音節ラティスを選択し前記音声合成
部に出力し、また新しい単語が言い直されて入力される
べき時は前記音素/音節ラティス候補記憶部の中の前回
の認識結果と前記音素/音節認識部の出力である最新の
認識結果との比較を行い最も異なる音素/音節あるいは
音素群/音節群を前回と異なる候補に置き換え前記音声
合成部に出力し、かつ制御語として「はい」などの肯定
語が入力されると直前に出力した合成音声を正解と判断
しその音素/音節ラティスを前記単語辞書に記憶させる
対話制御部を具備するものである。
A voice interactive apparatus according to the present invention comprises a voice input unit for converting voice into an electric signal, and a voice signal from the voice input unit such as a frequency spectrum or a cepstrum by FFT or LPC analysis. A voice analysis unit for converting into characteristic information, a phoneme / syllabic recognition unit for performing voice recognition based on the output of the voice analysis unit and outputting a phoneme or a syllable string, and a phoneme for storing the output of the phoneme / syllable recognition unit /
Syllable lattice candidate storage unit, voice synthesizing unit for synthesizing voice signal from phoneme / syllable lattice, voice output unit for converting output of the voice synthesizing unit into acoustic signal, and word dictionary for storing phonetic symbols and meanings of words And manage the voice dialogue, "Yes"
・ When a control word such as “No” should be input, the control word is recognized from the output of the phoneme / syllable recognition unit, the next operation is judged, and when a new word that is not a control word is input for the first time, The phoneme / syllable lattice with the highest likelihood is selected from the contents of the phoneme / syllable lattice candidate storage unit and output to the speech synthesis unit, and when a new word should be reworded and input, the phoneme / syllable lattice is selected. The previous recognition result in the candidate storage unit is compared with the latest recognition result output from the phoneme / syllable recognition unit, and the most different phoneme / syllable or phoneme group / syllable group is replaced with a candidate different from the previous one. When an affirmative word such as “Yes” is input as a control word to the synthesizing section, the synthesized speech output immediately before is determined as the correct answer, and the phoneme / syllable lattice is stored in the word dictionary. Is shall.

【0009】また、本発明は前記音声入力部に接続され
て入力音声の単位時間当たりのパワーを分析するパワー
分析部と、その分析結果を記憶するパワー分析結果記憶
部と、前記パワー分析結果記憶部の中の前回の分析結果
と前記パワー分析部の出力である最新の分析結果との比
較を行うパワー比較部と、新しい単語が言い直されて入
力されるべき時は前記パワー比較部の出力から最もパワ
ー値の異なる音素/音節あるいは音素群/音節群を前回
と異なる候補に置き換え前記音声合成部に出力する対話
制御部をさらに具備するものである。
The present invention also relates to a power analysis unit connected to the voice input unit for analyzing the power of the input voice per unit time, a power analysis result storage unit for storing the analysis result, and the power analysis result storage. Output of the power analysis unit and a power comparison unit that compares the previous analysis result of the power analysis unit with the latest analysis result that is output from the power analysis unit To a speech element / syllable or a phoneme group / syllable group having the most different power value from the above to a candidate different from the previous one, and a dialogue control section for outputting to the speech synthesis section is further provided.

【0010】また、本発明は前記音声入力部に接続され
て入力音声のピッチ周波数を分析するピッチ分析部と、
その分析結果を記憶するピッチ分析結果記憶部と、前記
ピッチ分析結果記憶部の中の前回の分析結果と前記ピッ
チ分析部の出力である最新の分析結果との比較を行うピ
ッチ比較部と、新しい単語が言い直されて入力されるべ
き時は前記ピッチ比較部の出力から最もピッチ周波数の
異なる音素/音節あるいは音素群/音節群を前回と異な
る候補に置き換え前記音声合成部に出力する対話制御部
をさらに具備するものである。
The present invention also includes a pitch analysis unit connected to the voice input unit for analyzing the pitch frequency of the input voice,
A pitch analysis result storage unit that stores the analysis result, a pitch comparison unit that compares the previous analysis result in the pitch analysis result storage unit and the latest analysis result that is the output of the pitch analysis unit, and a new one. When a word is to be rephrased and input, a dialogue control unit which replaces a phoneme / syllable or a phoneme group / syllable group having the most different pitch frequency with a candidate different from the previous one from the output of the pitch comparison unit and outputs to the speech synthesis unit Is further provided.

【0011】[0011]

【作用】本発明では、音声入力部と音声分析部と音素/
音節認識部と音素/音節ラティス候補記憶部と音声合成
部と音声出力部と単語辞書と対話制御部を具備すること
により、新しい単語が入力された場合でも音素や音節ラ
ティス候補列に変換しユーザーに再合成して確認を要求
し、もし間違っていれば再度発声させて前回の候補とは
異なる認識候補を再度提示でき、ユーザーの確認ととも
にその音素あるいは音節列を単語辞書に新たに書き込む
ことにより新しい単語の獲得が可能になる。
In the present invention, the voice input unit, the voice analysis unit and the phoneme /
By including a syllable recognition unit, a phoneme / syllable lattice candidate storage unit, a voice synthesis unit, a voice output unit, a word dictionary, and a dialogue control unit, even when a new word is input, it is converted into a phoneme or syllable lattice candidate sequence and the user Re-synthesize and request confirmation, and if wrong, utter again and present a recognition candidate different from the previous candidate again, and write the phoneme or syllable string newly in the word dictionary with user confirmation. New words can be acquired.

【0012】さらに入力音声の単位時間当たりのパワー
を分析するパワー分析部とパワー分析結果記憶部と、前
回の分析結果と最新の分析結果との比較を行うパワー比
較部を具備することにより、新しい単語が言い直されて
入力されるべき時は前記パワー比較部の出力から最もパ
ワー値の異なる音素/音節あるいは音素群/音節群を前
回と異なる候補に置き換えることでより正確な候補の修
正が可能になる。
Further, by providing a power analysis section for analyzing the power per unit time of the input voice, a power analysis result storage section, and a power comparison section for comparing the previous analysis result and the latest analysis result, When a word should be reworded and input, it is possible to correct the candidate more accurately by replacing the phoneme / syllable or phoneme group / syllable group with the most different power value from the output of the power comparison unit with a candidate different from the previous time. become.

【0013】さらに入力音声のピッチ周波数を分析する
ピッチ分析部とその分析結果を記憶するピッチ分析結果
記憶部と前回の分析結果と最新の分析結果との比較を行
うピッチ比較部を具備することにより、新しい単語が言
い直されて入力されるべき時は前記ピッチ比較部の出力
から最もピッチ周波数の異なる音素/音節あるいは音素
群/音節群を前回と異なる候補に置き換えることでより
正確な候補の修正が可能になる。
By further comprising a pitch analysis section for analyzing the pitch frequency of the input voice, a pitch analysis result storage section for storing the analysis result, and a pitch comparison section for comparing the previous analysis result and the latest analysis result. , When a new word should be reworded and input, the more accurate correction of the candidate by replacing the phoneme / syllable or the phoneme group / syllable group having the most different pitch frequency from the output of the pitch comparison unit with a candidate different from the previous one. Will be possible.

【0014】[0014]

【実施例】以下、本発明の実施例について図面を参照し
て説明する。
Embodiments of the present invention will be described below with reference to the drawings.

【0015】図1は本発明の一実施例における音声対話
装置の構成を示すものである。同図において、音声入力
部1は、音声を電気信号に変換する部分、音声分析部2
は音声入力部1からの音声信号をFFTやLPC分析に
より周波数スペクトルやケプストラムなどの音声特徴情
報に変換する部分。音素/音節認識部3は前記音声分析
部2の出力を基に音声認識を行い音素あるいは音節列を
出力する部分。音素/音節ラティス候補記憶部4は前記
音素/音節認識部3の出力を記憶する部分。音声合成部
5は音素/音節ラティスから音声信号を合成する部分。
音声出力部6は前記音声合成部5の出力を音響信号に変
換する部分。単語辞書8は単語の発音記号や意味を記憶
する部分。対話制御部7は音声対話を管理する部分であ
る。
FIG. 1 shows the configuration of a voice dialog device according to an embodiment of the present invention. In the figure, a voice input unit 1 is a unit that converts voice into an electric signal, and a voice analysis unit 2
Is a portion that converts the audio signal from the audio input unit 1 into audio feature information such as frequency spectrum and cepstrum by FFT or LPC analysis. The phoneme / syllable recognition unit 3 is a unit that performs voice recognition based on the output of the voice analysis unit 2 and outputs a phoneme or a syllable string. The phoneme / syllable lattice candidate storage unit 4 is a unit that stores the output of the phoneme / syllable recognition unit 3. The voice synthesis unit 5 is a unit that synthesizes a voice signal from the phoneme / syllable lattice.
The voice output unit 6 is a unit that converts the output of the voice synthesis unit 5 into an acoustic signal. The word dictionary 8 is a part that stores the phonetic symbols and meanings of words. The dialogue control unit 7 is a part that manages a voice dialogue.

【0016】上記のように構成された本実施例の音声対
話装置について以下にその動作を説明する。
The operation of the speech dialogue system of the present embodiment having the above-mentioned configuration will be described below.

【0017】従来例と同様に上記の音声対話装置による
スケジュール管理システムを考える。先ず、本発明によ
る対話制御部7が「予定をどうぞ」というテキストを音
声合成部5に送り、音声合成部5と音声出力部6により
合成音で「予定をどうぞ」と問いかける。これに対しユ
ーザーが「13時ミーティング」と言うと音声入力部1
および音声分析部2によりこの声が音声特徴情報に変換
され音素/音節認識部3で音素/音節ラティスに変換さ
れ対話制御部4がそれぞれ「13時」、「ミーティン
グ」という単語を単語辞書8を参照して認識し、次の動
作として、「ミーティングの相手をどうぞ。」というテ
キストを音声合成部5に送る。音声合成部5と音声出力
部6は「ミーティングの相手をどうぞ」と合成音で問い
かける。ユーザーが「まつした」と発声すると、音声入
力部1、音声分析部2により「まつした」と言う音声が
音声特徴情報に変換され音素/音節認識部3で音素/音
節ラティスに変換される。この時対話制御部7はこの言
葉「まつした」が人の名前であり単語辞書8に無い単語
であることを対話の進行から認識している。対話制御部
7は、音素/音節ラティス候補記憶部4が空いているこ
とを確認して音素/音節認識部3の結果を音素/音節ラ
ティス候補記憶部4に格納すると同時に認識候補ラティ
スのなかで最も尤度の高い候補を用いて例えば「13
時、まつしかさんとミーティングですね?」というテキ
ストを生成する。ここでは候補が「まつしか」であった
ことを意味する。ユーザーが「まつした」と再度言う
と、前回と同様に音声入力部1、音声分析部2により
「まつした」と言う音声が音声特徴情報に変換され音素
/音節認識部3で音素/音節ラティスに変換される。対
話制御部7は音素/音節認識部3の結果から「まつし
か」以外で最も尤度の高い候補をさがす。ここではそれ
が「まつした」であったと仮定する。対話制御部7は再
び「13時、まつしたさんとミーティングですね?」と
いうテキストを生成する。ユーザーが「はい」と言う
と、対話制御部7はこの「13時、まつしたさんとミー
ティング。」という内容をデータベースに格納し、同時
に「まつした」という単語を単語辞書8に格納する。ま
た同時にこのシステムは「まつした」という単語が人の
名前であることを理解しそのことも単語辞書8に書き込
む。
Consider a schedule management system using the above-described voice interaction device as in the conventional example. First, the dialogue control unit 7 according to the present invention sends the text "Please schedule" to the voice synthesizing unit 5, and the voice synthesizing unit 5 and the voice output unit 6 inquire as "Please schedule" with a synthetic sound. On the other hand, when the user says "13:00 meeting", the voice input unit 1
The voice analysis unit 2 converts this voice into voice feature information, and the phoneme / syllable recognition unit 3 converts it into a phoneme / syllable lattice, and the dialogue control unit 4 converts the words “13:00” and “meeting” into the word dictionary 8. By referring to and recognizing, as the next operation, the text “Please have a meeting partner.” Is sent to the voice synthesizer 5. The voice synthesis unit 5 and the voice output unit 6 inquire with a synthesized voice, "Please have a meeting partner." When the user utters "Matsushita", the voice input unit 1 and the voice analysis unit 2 convert the voice "Matsushita" into voice feature information, and the phoneme / syllable recognition unit 3 converts it into phoneme / syllable lattice. At this time, the dialogue control unit 7 recognizes from the progress of the dialogue that the word "Matsushita" is a person's name and is not in the word dictionary 8. The dialogue control unit 7 confirms that the phoneme / syllable lattice candidate storage unit 4 is empty and stores the result of the phoneme / syllable recognition unit 3 in the phoneme / syllable lattice candidate storage unit 4 and at the same time in the recognition candidate lattice. Using the candidate with the highest likelihood, for example, "13
Sometimes you have a meeting with Matsushika-san? Produces the text ". Here, it means that the candidate was "Matsushika". When the user says "Matsushita" again, as in the previous time, the voice "Matsushita" is converted into voice feature information by the voice input unit 1 and the voice analysis unit 2, and the phoneme / syllable recognition unit 3 makes a phoneme / syllable lattice. Is converted to. From the result of the phoneme / syllable recognition unit 3, the dialogue control unit 7 searches for a candidate with the highest likelihood other than “Matsushika”. Here it is assumed that it was "Matsushita". The dialogue control unit 7 again generates the text "Meeting with Matsushita-san at 13:00?" When the user says "Yes", the dialogue control unit 7 stores the content "Meeting with Matsushita-san at 13:00" in the database, and at the same time stores the word "Matsushita" in the word dictionary 8. At the same time, the system understands that the word "Matsushita" is a person's name, and also writes it in the word dictionary 8.

【0018】このようにして新しい単語「まつした」が
音声対話により獲得できた。次に図2を用いて本発明に
よる第2の実施例を説明する。図2において、パワー分
析部9は入力音声の単位時間当たりのパワーを分析する
部分。パワー分析結果記憶部10はパワー分析部9の分
析結果を格納する部分。パワー比較部11は前回の分析
結果と最新の分析結果との比較を行う部分である。
In this way, the new word "Matsushita" was acquired by the voice dialogue. Next, a second embodiment according to the present invention will be described with reference to FIG. In FIG. 2, a power analysis unit 9 is a part that analyzes the power of the input voice per unit time. The power analysis result storage unit 10 is a part that stores the analysis result of the power analysis unit 9. The power comparison unit 11 is a unit that compares the previous analysis result with the latest analysis result.

【0019】上記のように構成された本発明による第2
の実施例の音声対話装置について以下にその動作を説明
する。
The second aspect of the present invention configured as described above
The operation of the voice dialogue apparatus of the embodiment will be described below.

【0020】第1の実施例と同様に上記の音声対話装置
によるスケジュール管理システムを考える。先ず、本発
明による対話管理部7が「予定をどうぞ」というテキス
トを音声合成部5に送り、音声合成部5と音声出力部6
により合成音で「予定をどうぞ」と問いかける。これに
対しユーザーが「13時ミーティング」と言うと音声入
力部1および音声分析部2によりこの声が音声特徴情報
に変換され音素/音節認識部3で音素/音節ラティスに
変換され対話制御部7がそれぞれ「13時」、「ミーテ
ィング」という単語を単語辞書8を参照して認識し、次
の動作として、「ミーティングの相手をどうぞ。」とい
うテキストを音声合成部5に送る。音声合成部5と音声
出力部6は「ミーティングの相手をどうぞ」と合成音で
問いかける。ユーザーが「まつした」と発声すると、音
声入力部1、音声分析部2により「まつした」と言う音
声が音声特徴情報に変換され音素/音節認識部3で音素
/音節ラティスに変換される。これと同時にパワー分析
部9がパワー値を分析しパワー分析結果記憶部10に格
納する。この時対話制御部7はこの言葉「まつした」が
人の名前であり単語辞書8に無い単語であることを対話
の進行から認識している。対話制御部7は、音素/音節
ラティス候補記憶部4が空いていることを確認して音素
/音節認識部3の結果を音素/音節ラティス候補記憶部
4に格納すると同時に認識候補ラティスのなかで最も尤
度の高い候補を用いて例えば「13時、まつしかさんと
ミーティングですね?」というテキストを生成する。こ
こでは候補が「まつしか」であったことを意味する。ユ
ーザーが「まつした」と再度言うと、前回と同様に音声
入力部1、音声分析部2により「まつした」と言う音声
が音声特徴情報に変換され音素/音節認識部3で音素/
音節ラティスに変換される。またパワー分析部9がパワ
ー値を再度分析しパワー比較部11がパワー分析部の出
力とパワー分析結果格納部10の前回の値を比較しその
結果を対話制御部7に送る。対話制御部7は音素/音節
認識部3の結果とパワー比較部11の比較結果から最も
パワー値に差のある音節を入れ換えて「まつしか」以外
で最も尤度の高い候補をさがす。図4はこのパワーの違
いを示す例である。ここでは「た」の部分が最も違いが
鮮明であるので対話制御部7は「まつしか」のうち
「か」の部分を次の候補に入れ換える。ここではそれが
「まつした」であったと仮定する。対話制御部7は再び
「13時、まつしたさんとミーティングですね?」とい
うテキストを生成する。ユーザーが「はい」と言うと、
対話制御部7はこの「13時、まつしたさんとミーティ
ング。」という内容をデータベースに格納し、同時に
「まつした」という単語を単語辞書8に格納する。また
同時にこのシステムは「まつした」という単語が人の名
前であることを理解しそのことも単語辞書8に書き込
む。
Consider a schedule management system using the above-described voice interactive apparatus as in the first embodiment. First, the dialogue management unit 7 according to the present invention sends the text “Please schedule” to the voice synthesis unit 5, and the voice synthesis unit 5 and the voice output unit 6 are provided.
Asks "Please have a plan" with a synthetic voice. On the other hand, when the user says “13:00 meeting”, the voice input unit 1 and the voice analysis unit 2 convert this voice into voice feature information, the phoneme / syllable recognition unit 3 converts it into phoneme / syllable lattice, and the dialogue control unit 7 Recognizes the words "meeting" and "meeting" with reference to the word dictionary 8 and sends the text "Please have a meeting partner." To the speech synthesizer 5 as the next operation. The voice synthesis unit 5 and the voice output unit 6 inquire with a synthesized voice, "Please have a meeting partner." When the user utters "Matsushita", the voice input unit 1 and the voice analysis unit 2 convert the voice "Matsushita" into voice feature information, and the phoneme / syllable recognition unit 3 converts it into phoneme / syllable lattice. At the same time, the power analysis unit 9 analyzes the power value and stores it in the power analysis result storage unit 10. At this time, the dialogue control unit 7 recognizes from the progress of the dialogue that the word "Matsushita" is a person's name and is not in the word dictionary 8. The dialogue control unit 7 confirms that the phoneme / syllable lattice candidate storage unit 4 is empty and stores the result of the phoneme / syllable recognition unit 3 in the phoneme / syllable lattice candidate storage unit 4 and at the same time in the recognition candidate lattice. Using the candidate with the highest likelihood, for example, the text “13:00, you have a meeting with Matsuka-san?” Is generated. Here, it means that the candidate was "Matsushika". When the user says "Matsushita" again, as in the previous time, the voice "Matsushita" is converted into the voice feature information by the voice input unit 1 and the voice analysis unit 2, and the phoneme / phoneme / syllabic unit recognition unit 3
Converted to syllable lattice. Further, the power analysis unit 9 analyzes the power value again, the power comparison unit 11 compares the output of the power analysis unit with the previous value of the power analysis result storage unit 10, and sends the result to the dialogue control unit 7. The dialogue control unit 7 replaces the syllable having the largest power value difference from the result of the phoneme / syllable recognition unit 3 and the comparison result of the power comparison unit 11 to search for a candidate with the highest likelihood other than “Matsushika”. FIG. 4 is an example showing this difference in power. Here, since the difference in "ta" is the clearest, the dialogue control unit 7 replaces the "ka" in "Matsushika" with the next candidate. Here it is assumed that it was "Matsushita". The dialogue control unit 7 again generates the text "Meeting with Matsushita-san at 13:00?" If the user says yes,
The dialogue control unit 7 stores the content “Meeting with Matsushita-san at 13:00” in the database, and at the same time stores the word “Matsushita” in the word dictionary 8. At the same time, the system understands that the word "Matsushita" is a person's name, and also writes it in the word dictionary 8.

【0021】このようにしてパワー情報を用いることに
より、より正確に新しい単語「まつした」が決定可能と
なる。
By using the power information in this way, the new word "Matsushita" can be more accurately determined.

【0022】このことは、パワーの代わりにピッチ情報
を用いても可能であり、図3に示す本発明による第3の
実施例が可能である。図3において、ピッチ分析部12
は入力音声のピッチを分析する部分。ピッチ分析結果記
憶部13はピッチ分析部12の分析結果を格納する部
分。ピッチ比較部14は前回の分析結果と最新の分析結
果との比較を行う部分である。
This can be done by using pitch information instead of power, and the third embodiment according to the present invention shown in FIG. 3 is possible. In FIG. 3, the pitch analysis unit 12
Is the part that analyzes the pitch of the input voice. The pitch analysis result storage unit 13 is a unit that stores the analysis result of the pitch analysis unit 12. The pitch comparison unit 14 is a unit that compares the previous analysis result with the latest analysis result.

【0023】上記のように構成された本発明による第3
の実施例の音声対話装置は、第2の実施例と同様の動作
を行う。
The third aspect of the present invention configured as described above
The voice interaction device of the second embodiment performs the same operation as that of the second embodiment.

【0024】また、ピッチとパワー両方を組み合わせる
ことにより、より正確な推定が可能になる。
Further, by combining both pitch and power, more accurate estimation becomes possible.

【0025】[0025]

【発明の効果】以上のように本発明によれば、音素/音
節認識手段と推定される音素/音節ラティスを音声合成
し問返す動作を連続する対話制御手段を具備することに
より機械が新しい言葉を音声対話により獲得することを
可能にせしめる。また、言い直されて入力される単語と
前回の発声の単語とのパワー値の比較により適切な音節
の候補を置き換えることによってより正確な候補の推定
が可能になる。 さらに、ピッチ情報あるいはピッチと
パワー情報を用いればより正確に推定ができ未知の単語
獲得がよりスムーズにおこなえる。
As described above, according to the present invention, the machine is provided with a new word by providing the dialogue control means for continuously performing the speech synthesis of the phoneme / syllabic lattice presumed to be the phoneme / syllable recognition means and the question-and-answer operation. Can be acquired by voice dialogue. In addition, by comparing the power value of the word that is reworded and input with the word of the previous utterance, and replacing an appropriate syllable candidate, more accurate estimation of the candidate becomes possible. Further, if pitch information or pitch and power information is used, more accurate estimation can be performed and unknown words can be acquired more smoothly.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明第1の実施例における音声対話装置のブ
ロック図
FIG. 1 is a block diagram of a voice dialog device according to a first embodiment of the present invention.

【図2】本発明第2の実施例における音声対話装置のブ
ロック図
FIG. 2 is a block diagram of a voice dialog device according to a second embodiment of the present invention.

【図3】本発明第3の実施例における音声対話装置のブ
ロック図
FIG. 3 is a block diagram of a voice dialog device according to a third embodiment of the present invention.

【図4】「マツシタ」と言う単語の2回の発声における
パワーの違いの様子を示す図
FIG. 4 is a diagram showing a difference in power between two vocalizations of the word “Matsushita”.

【図5】従来の音声対話装置のブロック図FIG. 5 is a block diagram of a conventional voice dialog device.

【符号の説明】[Explanation of symbols]

1 音声入力部(手段) 2 音声分析部(手段) 3 音素/音節認識部(手段) 4 音素/音節ラティス候補記憶部(手段) 5 音声合成部(手段) 6 音声出力部(手段) 7 対話制御部(手段) 8 単語辞書 9 パワー分析部(手段) 10 パワー分析結果記憶部(手段) 11 パワー比較部(手段) 12 ピッチ分析部(手段) 13 ピッチ分析結果記憶部(手段) 14 ピッチ比較部(手段) 1 voice input unit (means) 2 voice analysis unit (means) 3 phoneme / syllable recognition unit (means) 4 phoneme / syllable lattice candidate storage unit (means) 5 voice synthesis unit (means) 6 voice output unit (means) 7 dialogue Control unit (means) 8 Word dictionary 9 Power analysis unit (means) 10 Power analysis result storage unit (means) 11 Power comparison unit (means) 12 Pitch analysis unit (means) 13 Pitch analysis result storage unit (means) 14 Pitch comparison Department (means)

Claims (3)

【特許請求の範囲】[Claims] 【請求項1】音声を電気信号に変換する音声入力部と、
前記音声入力部からの音声信号をFFTやLPC分析に
より周波数スペクトルやケプストラムなどの音声特徴情
報に変換する音声分析部と、前記音声分析部の出力を基
に音声認識を行い音素あるいは音節列を出力する音素/
音節認識部と、前記音素/音節認識部の出力を記憶する
音素/音節ラティス候補記憶部と、音素/音節ラティス
から音声信号を合成する音声合成部と、前記音声合成部
の出力を音響信号に変換する音声出力部と、単語の発音
記号や意味を記憶する単語辞書と、音声対話を管理し
「はい」・「いいえ」などの制御語が入力されるべき時
は前記音素/音節認識部の出力から制御語を認識し次の
動作を判断し制御語では無い新しい単語が初めて入力さ
れるべき時は前記音素/音節ラティス候補記憶部の内容
のうち最も尤度の高い音素/音節ラティスを選択し前記
音声合成部に出力し、また新しい単語が言い直されて入
力されるべき時は前記音素/音節ラティス候補記憶部の
中の前回の認識結果と前記音素/音節認識部の出力であ
る最新の認識結果との比較を行い最も異なる音素/音節
あるいは音素群/音節群を前回と異なる候補に置き換え
前記音声合成部に出力し、かつ制御語として「はい」な
どの肯定語が入力されると直前に出力した合成音声を正
解と判断しその音素/音節ラティスを前記単語辞書に記
憶させる対話制御部を具備することを特徴とする音声対
話装置。
1. A voice input unit for converting voice into an electric signal,
A voice analysis unit that converts a voice signal from the voice input unit into voice feature information such as a frequency spectrum and a cepstrum by FFT or LPC analysis, and performs voice recognition based on the output of the voice analysis unit and outputs a phoneme or a syllable string. Phoneme
A syllable recognition unit, a phoneme / syllable lattice candidate storage unit that stores the output of the phoneme / syllable recognition unit, a speech synthesis unit that synthesizes a speech signal from the phoneme / syllabic lattice, and an output of the speech synthesis unit as an acoustic signal. A voice output unit for conversion, a word dictionary for storing phonetic symbols and meanings of words, and a phoneme / syllable recognition unit for managing a voice dialogue and inputting a control word such as “Yes” or “No”. When a new word that is not a control word should be input for the first time by recognizing the control word from the output and recognizing the next operation, the phoneme / syllable lattice with the highest likelihood is selected from the contents of the phoneme / syllable lattice candidate storage unit. When it is output to the speech synthesizer and a new word should be reworded and input, the previous recognition result in the phoneme / syllable lattice candidate storage and the output of the phoneme / syllable recognizer are the latest. Recognition result of A comparison is performed and the most different phoneme / syllable or phoneme group / syllable group is replaced with a candidate different from the previous one, and the result is output to the speech synthesis unit, and when a positive word such as "Yes" is input as a control word, the synthesis output immediately before is output. A speech dialogue apparatus comprising: a dialogue control unit that judges a voice as a correct answer and stores the phoneme / syllable lattice in the word dictionary.
【請求項2】前記音声入力部に接続されて入力音声の単
位時間当たりのパワーを分析するパワー分析部と、その
分析結果を記憶するパワー分析結果記憶部と、前記パワ
ー分析結果記憶部の中の前回の分析結果と前記パワー分
析部の出力である最新の分析結果との比較を行うパワー
比較部と、新しい単語が言い直されて入力されるべき時
は前記パワー比較部の出力から最もパワー値の異なる音
素/音節あるいは音素群/音節群を前回と異なる候補に
置き換え前記音声合成部に出力する対話制御部を具備す
ることを特徴とする請求項1に記載の音声対話装置。
2. A power analysis unit connected to the voice input unit for analyzing the power of input voice per unit time, a power analysis result storage unit for storing the analysis result, and a power analysis result storage unit. The power comparison unit that compares the previous analysis result with the latest analysis result that is the output of the power analysis unit, and when a new word should be reworded and input, the most power is output from the power comparison unit. The speech dialogue system according to claim 1, further comprising: a dialogue control unit that replaces a phoneme / syllable or a phoneme group / syllable group having different values with a candidate different from the previous time and outputs the candidate to the speech synthesis unit.
【請求項3】前記音声入力部に接続されて入力音声のピ
ッチ周波数を分析するピッチ分析部と、その分析結果を
記憶するピッチ分析結果記憶部と、前記ピッチ分析結果
記憶部の中の前回の分析結果と前記ピッチ分析部の出力
である最新の分析結果との比較を行うピッチ比較部と、
新しい単語が言い直されて入力されるべき時は前記ピッ
チ比較部の出力から最もピッチ周波数の異なる音素/音
節あるいは音素群/音節群を前回と異なる候補に置き換
え前記音声合成部に出力する対話制御部を具備すること
を特徴とする請求項1または2に記載の音声対話装置。
3. A pitch analysis unit connected to the voice input unit for analyzing the pitch frequency of an input voice, a pitch analysis result storage unit for storing the analysis result, and a previous pitch analysis result storage unit for storing the pitch analysis result. A pitch comparison unit that compares the analysis result and the latest analysis result that is the output of the pitch analysis unit,
When a new word should be reworded and input, the phoneme / syllable or the phoneme group / syllable group having the most different pitch frequency from the output of the pitch comparison unit is replaced with a candidate different from the previous one, and the dialogue control is performed. The voice dialog device according to claim 1 or 2, further comprising a section.
JP00147294A 1994-01-12 1994-01-12 Voice interaction device and voice interaction method Expired - Fee Related JP3465334B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP00147294A JP3465334B2 (en) 1994-01-12 1994-01-12 Voice interaction device and voice interaction method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP00147294A JP3465334B2 (en) 1994-01-12 1994-01-12 Voice interaction device and voice interaction method

Publications (2)

Publication Number Publication Date
JPH07210193A true JPH07210193A (en) 1995-08-11
JP3465334B2 JP3465334B2 (en) 2003-11-10

Family

ID=11502409

Family Applications (1)

Application Number Title Priority Date Filing Date
JP00147294A Expired - Fee Related JP3465334B2 (en) 1994-01-12 1994-01-12 Voice interaction device and voice interaction method

Country Status (1)

Country Link
JP (1) JP3465334B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012150658A1 (en) * 2011-05-02 2012-11-08 旭化成株式会社 Voice recognition device and voice recognition method
CN106710597A (en) * 2017-01-04 2017-05-24 广东小天才科技有限公司 Recording method and device of voice data
CN110264993A (en) * 2019-06-27 2019-09-20 百度在线网络技术(北京)有限公司 Phoneme synthesizing method, device, equipment and computer readable storage medium

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012150658A1 (en) * 2011-05-02 2012-11-08 旭化成株式会社 Voice recognition device and voice recognition method
CN106710597A (en) * 2017-01-04 2017-05-24 广东小天才科技有限公司 Recording method and device of voice data
CN110264993A (en) * 2019-06-27 2019-09-20 百度在线网络技术(北京)有限公司 Phoneme synthesizing method, device, equipment and computer readable storage medium

Also Published As

Publication number Publication date
JP3465334B2 (en) 2003-11-10

Similar Documents

Publication Publication Date Title
Juang et al. Automatic speech recognition–a brief history of the technology development
Rudnicky et al. Survey of current speech technology
EP2126900B1 (en) Method and system for creating entries in a speech recognition lexicon
KR100383353B1 (en) Speech recognition apparatus and method of generating vocabulary for the same
US20030033152A1 (en) Language independent and voice operated information management system
US11763797B2 (en) Text-to-speech (TTS) processing
JP2003316386A (en) Method, device, and program for speech recognition
JP2002304190A (en) Method for generating pronunciation change form and method for speech recognition
JPH11506845A (en) Automatic control method of one or more devices by voice dialogue or voice command in real-time operation and device for implementing the method
JPH0916602A (en) Translation system and its method
WO2007063827A1 (en) Voice quality conversion system
JP2001188781A (en) Device and method for processing conversation and recording medium
JPH10198396A (en) Method of and system for recognizing phrase defined by user without depending upon speaker
WO2006083020A1 (en) Audio recognition system for generating response audio by using audio data extracted
WO2004047075A1 (en) Voice processing device and method, recording medium, and program
US20040006469A1 (en) Apparatus and method for updating lexicon
JP2003163951A (en) Sound signal recognition system, conversation control system using the sound signal recognition method, and conversation control method
JP3465334B2 (en) Voice interaction device and voice interaction method
US11172527B2 (en) Routing of communications to a device
US10854196B1 (en) Functional prerequisites and acknowledgments
JPH08335096A (en) Text voice synthesizer
JP3277579B2 (en) Voice recognition method and apparatus
JP2005157166A (en) Apparatus and method for speech recognition, and program
JP2000242295A (en) Voice recognition device and voice interactive device
Sugamura et al. Speech processing technologies and telecommunications applications at NTT

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees