JPH0518118B2 - - Google Patents

Info

Publication number
JPH0518118B2
JPH0518118B2 JP59103625A JP10362584A JPH0518118B2 JP H0518118 B2 JPH0518118 B2 JP H0518118B2 JP 59103625 A JP59103625 A JP 59103625A JP 10362584 A JP10362584 A JP 10362584A JP H0518118 B2 JPH0518118 B2 JP H0518118B2
Authority
JP
Japan
Prior art keywords
input
voice
time
response
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP59103625A
Other languages
Japanese (ja)
Other versions
JPS60247697A (en
Inventor
Hiroyuki Senbon
Yoichi Takebayashi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Tokyo Shibaura Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tokyo Shibaura Electric Co Ltd filed Critical Tokyo Shibaura Electric Co Ltd
Priority to JP59103625A priority Critical patent/JPS60247697A/en
Publication of JPS60247697A publication Critical patent/JPS60247697A/en
Publication of JPH0518118B2 publication Critical patent/JPH0518118B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔発明の技術分野〕 本発明は音声入力による情報処理システムに用
いられる音声対話装置に関する。
DETAILED DESCRIPTION OF THE INVENTION [Technical Field of the Invention] The present invention relates to a voice dialogue device used in an information processing system using voice input.

〔発明の技術的背景とその問題点〕[Technical background of the invention and its problems]

近年、音声認識、合成技術の発達が目覚まし
く、例えば連続音声認識や不特定話者を対象とし
た音声認識が可能となり、また一方、精度の高い
音声合成が可能となつている。
BACKGROUND ART In recent years, speech recognition and synthesis technology has made remarkable progress. For example, it has become possible to perform continuous speech recognition and speech recognition for unspecified speakers, and it has also become possible to perform highly accurate speech synthesis.

この様な技術を用いて電話公衆回線による各種
のサービスを行なう電話音声応答サービス、例え
ば銀行における預金残高の照会等が開発されてお
り、その有用性が注目されている。ところでこの
種のシステムのユーザは不特定多数であり、例え
ば老人、子供のようにシステムに不慣れな人もい
れば1日に何回も利用する熟練した人もいる。こ
れにもかかわらず、従来のシステムでは音声応答
の内容(様式)が固定的であり、又ユーザが音声
を入力した時から音声応答が出力されるまでの時
間や音声応答の速度も一定である為、全てのユー
ザにとつて扱い易いものとは云えず、人間と機械
との対話が円滑になされていなかつた。例えば電
話による銀行の預金残高照会サービスにおいて
は、ユーザが口座番号「123…」を電話口で音声
入力する場合「ピー」という入力要求信号音が聞
えると先ず「1」と云う。すると10秒程度経つと
後に「1」という確認のための音声応答が聞え
る。続いてユーザが「2」と云う。…という様に
この種のシステムに慣れたユーザにとつては応答
時間が冗長で苛立しさが生じたり、或いは慣れて
いないユーザにとつては応答内容が分り難いとい
う欠点があつた。
Telephone voice response services have been developed using such technology to provide various services over telephone public telephone lines, such as checking deposit balances at banks, and their usefulness is drawing attention. By the way, the users of this type of system are an unspecified number of people, and there are people who are not familiar with the system, such as elderly people and children, and there are also experienced people who use the system many times a day. Despite this, in conventional systems, the content (format) of the voice response is fixed, and the time from when the user inputs voice until the voice response is output and the speed of the voice response are also constant. Therefore, it could not be said that it was easy for all users to use, and interaction between humans and machines was not smooth. For example, in a bank account balance inquiry service by telephone, when a user inputs an account number "123..." by voice over the telephone, the user first says "1" when an input request signal sound of "beep" is heard. Then, after about 10 seconds, you will hear a confirmation voice response saying "1". Then the user says "2". For users who are accustomed to this type of system, the response time is lengthy and irritating, and for users who are not accustomed to it, the response content is difficult to understand.

〔発明の目的〕[Purpose of the invention]

本発明の目的は、人間と機械との対話を円滑に
行なうことが可能となる音声対話装置を提供する
ことにある。
An object of the present invention is to provide a voice dialogue device that enables smooth dialogue between humans and machines.

〔発明の概要〕[Summary of the invention]

本発明は、音声信号の入力を要求する信号を出
力する入力要求手段と、この入力要求手段により
入力要求信号が出力された後に、音声信号を入力
する入力手段と、この入力手段により入力された
音声信号を認識する認識手段と、前記入力要求手
段により入力要求信号が出力された時点から前記
入力手段による音声信号の入力が検出された時点
までの時間T1を計測する計測手段と、前記認識
手段による音声信号の認識結果に対応した音声応
答信号を出力する出力手段と、この出力手段によ
り音声応答信号を出力する際に、前記計測手段に
より計測された時間T1に基づいて、前記入力手
段による音声信号の入力が終了したことが検出さ
れた時点から前記音声応答信号を出力する時点ま
での時間T3、あるいは前記音声応答信号の出力
にかかる時間T4を可変制御する制御手段とを具
備したことを特徴とするものである。
The present invention provides an input requesting means for outputting a signal requesting input of an audio signal, an input means for inputting an audio signal after the input requesting means outputs an input request signal, and an input means for inputting an audio signal input by the input means. a recognition means for recognizing an audio signal; a measuring means for measuring a time T1 from the time when the input request signal is output by the input request means to the time when the input of the audio signal is detected by the input means; and the recognition means output means for outputting a voice response signal corresponding to the recognition result of the voice signal by the input means; It is characterized by comprising a control means for variably controlling the time T3 from the time when it is detected that the input of the signal has ended to the time when the voice response signal is output, or the time T4 required for outputting the voice response signal. That is.

〔発明の効果〕〔Effect of the invention〕

本発明によれば、各ユーザに応じて適切な応答
を与えることが可能になる為に、人間と機械の対
話を円滑に行うことができ、ユーザにとつては実
用性が向上する。
According to the present invention, since it becomes possible to give an appropriate response according to each user, interaction between a human and a machine can be carried out smoothly, and practicality for the user is improved.

〔発明の実施例〕[Embodiments of the invention]

以下、図面を参照しながら本発明の実施例につ
いて説明する。
Embodiments of the present invention will be described below with reference to the drawings.

第1図は本発明の第1の実施例の概略構成図、
第2図は音声入力要求Pと音声入力R1と音声応
答R2のタイミングを模式化した模式図、第3図
は本発明の第1の実施例の処理フロー図である。
この第1の実施例は音声入力要求が出力されてか
らユーザにより音声が入力されるまでの時間を測
定し、その時間に応じて音声応答を制御して出力
するものである。第1図の点線内の各ブロツクは
音声認識応答装置を構成し、この入出力は図示し
ないサービス端末に接続されている。例えばユー
ザがサービス端末である電話器より所定の電話番
号を入力すると受話器を通して「預金残高照会サ
ービスを行ないます。ピーという信号音が聞えた
ら口座番号を1つずつ順に答えて下さい」という
応答が音声応答出力部7より送られる。この時点
からの音声入力と応答のやりとりに本発明が適用
される。先ず第1図の音声入力開始要求部8より
音声入力要求信号Pが図示しない端末へ出力され
るが、これは同時にタイミング測定部3にも送ら
れる(第3図ステツプ11)。タイミング測定部3
はこの音声入力要求信号Pを入力した時点を測定
する。ユーザ側では音声入力要求信号である「ピ
ー」という信号音を聞くと、「1」という音声を
受話器より入力する(第3図ステツプ12)。この
入力音声R1は分析器1に入力されるとA/D変
換、スペクトル分析処理などが行なわれて、入力
された音声信号が特徴パラメータの系列(音声パ
ターン)に変換される(第3図ステツプ13)。音
声区間検出部2では、分析器1より出力された特
徴パラメータ系列(音声パターン)のエネルギー
情報を利用して音声パターン中の始端と終端を検
出し音声区間を切り出すものである(第3図ステ
ツプ14)。この音声区間検出部は音声パターンの
始端、終端を検出した時点でその始端信号、終端
信号を各々タイミング測定部3へ送る。タイミン
グ測定部3ではこの始端信号を入力した時点を測
定すると共に、先程の音声入力要求信号Pを入力
した時点から始端信号を入力した時点までの時間
T1を計算する(第2図T1、第3図ステツプ15)。
一方、音声区間検出部2は切り出した音声パター
ン(特徴パラメータ系列)を音声認識部4へ送
る。音声認識部4では入力した音声パターンに対
して予め辞書メモリ5に登録された音声辞書を利
用してその認識を行なうものである(第3図ステ
ツプ16)。この認識は例えば類似度計算法によつ
て行われる。この音声認識部4による音声パター
ンの認識結果はタイミング測定部3により計算さ
れたT1と共に音声応答制御部6へ送られる。こ
の音声応答制御部6はT1の長さに基いて(第3
図ステツプ17)音声応答R2を制御して出力する
ものであるが、この制御の方法には以下の3通り
がある。
FIG. 1 is a schematic configuration diagram of a first embodiment of the present invention,
FIG. 2 is a schematic diagram illustrating the timing of the voice input request P, voice input R1 , and voice response R2, and FIG. 3 is a processing flow diagram of the first embodiment of the present invention.
In this first embodiment, the time from when a voice input request is output to when voice is input by the user is measured, and the voice response is controlled and output according to the measured time. Each block within the dotted line in FIG. 1 constitutes a voice recognition response device, whose input and output are connected to a service terminal (not shown). For example, when a user enters a predetermined phone number from a telephone, which is a service terminal, a voice response is heard through the handset saying, "We will perform a bank balance inquiry service. When you hear a beep, please answer your account numbers one by one." It is sent from the response output section 7. The present invention is applied to the exchange of voice input and responses from this point on. First, the audio input request signal P is outputted from the audio input start requesting section 8 in FIG. 1 to a terminal (not shown), and is also sent to the timing measuring section 3 at the same time (step 11 in FIG. 3). Timing measurement section 3
measures the point in time when this audio input request signal P is input. When the user hears the signal tone ``beep'' which is the voice input request signal, the user inputs the voice ``1'' from the receiver (step 12 in FIG. 3). When this input audio R 1 is input to the analyzer 1, A/D conversion, spectrum analysis processing, etc. are performed, and the input audio signal is converted into a series of characteristic parameters (speech pattern) (Figure 3). Step 13). The speech section detection unit 2 uses the energy information of the feature parameter series (speech pattern) output from the analyzer 1 to detect the start and end of the speech pattern and cut out the speech section (steps in Figure 3). 14). When the voice section detection section detects the start and end of the voice pattern, it sends the start and end signals to the timing measurement section 3, respectively. The timing measurement unit 3 measures the time when this start signal is input, and also measures the time from the time when the audio input request signal P is input to the time when the start signal is input.
Calculate T 1 (T 1 in Figure 2, Step 15 in Figure 3).
On the other hand, the speech section detection section 2 sends the extracted speech pattern (feature parameter series) to the speech recognition section 4. The speech recognition unit 4 recognizes the input speech pattern using a speech dictionary registered in advance in the dictionary memory 5 (step 16 in FIG. 3). This recognition is performed, for example, by a similarity calculation method. The voice pattern recognition result by the voice recognition section 4 is sent to the voice response control section 6 together with T 1 calculated by the timing measurement section 3 . This voice response control section 6 is based on the length of T1 (the third
Figure Step 17) The voice response R2 is controlled and output, and there are three methods for this control:

(i) 音声応答制御部6はタイミング測定部3より
T1と共に終端信号を入力した時点データを入
力する。そして音声応答制御部6はT1の長さ
に応じて終端信号の入力時点から音声応答R2
を出力する時点までの時間T3(第2図T3)の長
さを可変制御する。つまりT1が予め定められ
た時間長より短い場合は、ユーザが「ピー」と
いう信号音が聞えるとただちに音声を発声した
ことになり、ユーザがシステムに熟練している
か又は急いでいるものと思われる。このため応
答音声も早めに端末へ出力する必要が有り(第
3図ステツプ18)、T3の時間長を既定の長さよ
り短くする。又、T1が予め定められた時間長
より長い場合は、ユーザが「ピー」という信号
音が聞こえた後、かなり経つてから音声を発声
したことになり、ユーザがシステムに慣れてい
ないか又は時間的に余裕があるものと思われ
る。このため応答音声も遅めに端末へ出力する
必要が有り(第3図ステツプ19)、T3の時間長
を既定の長さより長くする。
(i) The voice response control section 6 receives the signal from the timing measurement section 3.
Input the data at the time when the termination signal is input together with T1 . Then, the voice response control unit 6 responds to the voice response R2 from the input point of the termination signal according to the length of T1 .
The length of time T 3 (T 3 in FIG. 2) up to the point in time when the output is output is variably controlled. In other words, if T 1 is shorter than the predetermined length of time, it means that the user uttered the sound as soon as he heard the beep, which suggests that the user is skilled with the system or is in a hurry. It will be done. Therefore, it is necessary to output the response voice to the terminal as soon as possible (step 18 in Figure 3), and the time length of T3 is made shorter than the predetermined length. Also, if T 1 is longer than the predetermined time length, it means that the user uttered the voice a long time after hearing the "beep" signal tone, indicating that the user is not familiar with the system or It seems that there is plenty of time. For this reason, it is necessary to output the response voice to the terminal later (step 19 in FIG. 3), and the time length of T3 is made longer than the predetermined length.

(ii) 音声応答制御部6はT1の長さに応じて音声
応答R2を出力する時間(応答速度)を可変制
御する(第2図T4)。つまりT1が予め定められ
た時間長より短い場合は上述の理由により応答
速度を速くして音声応答R2を出力する。T1
予め定められた時間長より長い場合は上述の理
由により応答速度を遅くしてR2を出力する。
この際に、規則合成方式によつて音声応答R2
が出力される場合には、規則合成の為の種々の
パラメータ(アクセント、ピツチ等)の速度を
制御する。また録音編集方式によつてR2が出
力される場合には、予め録音された発話速度の
異なる単語や音声素片を選択する様にして応答
速度を制御する。
(ii) The voice response control unit 6 variably controls the time (response speed) for outputting the voice response R 2 according to the length of T 1 (T 4 in FIG. 2). That is, if T 1 is shorter than the predetermined time length, the response speed is increased and the voice response R 2 is output for the above-mentioned reason. If T 1 is longer than the predetermined time length, the response speed is slowed down and R 2 is output for the reason described above.
At this time, the voice response R 2 is
is output, the speed of various parameters (accent, pitch, etc.) for rule synthesis is controlled. Further, when R 2 is output by the recording/editing method, the response speed is controlled by selecting words or speech segments that have been recorded in advance and have different speaking speeds.

(iii) 音声応答制御部6はT1の長さに応じて音声
応答R2の内容(表現形式)を制御する(第2
図R2)。例えばユーザが発信音「ピー」が聞え
てから「1」と発声したものとすると、これに
対する認識のための音声応答R2を出力する場
合に、T1の長さが予め定められた時間長より
も短い場合には上述した理由により「1」とい
う応答を出力する。T1が予め定められた時間
より長い場合には上述した理由により「1です
ね、分りました。」という応答を出力する。つ
まり音声応答制御部6は入力された音声パター
ンの認識結果として「1」を音声認識部4より
受け取るが、「1」という確認のための音声応
答の表現形式を変えて出力するものである。
(iii) The voice response control unit 6 controls the content (expression format) of the voice response R2 according to the length of T1 (second
Figure R2 ). For example, if the user utters "1" after hearing the dial tone "beep", when outputting the voice response R 2 for recognition, the length of T 1 is a predetermined time length. If it is shorter than , a response of "1" is output for the reason mentioned above. If T 1 is longer than the predetermined time, a response of "It's 1, I understand" is output for the reason mentioned above. In other words, the voice response control section 6 receives "1" from the voice recognition section 4 as a recognition result of the input voice pattern, but outputs the voice response after changing the expression format for confirmation of "1".

こうして()()()によつてT3,T4
R2の制御方法が決定されると(第3図ステツプ
20)、音声応答出力部7は音声応答制御部6の指
示により音声応答R2を出力する(第3図ステツ
プ21)。
Thus, by ()()(), T 3 , T 4 ,
Once the control method for R 2 is determined (see step 3 in Figure 3)
20), the voice response output section 7 outputs the voice response R2 according to the instruction from the voice response control section 6 (step 21 in FIG. 3).

この様に構成された本実施例では、第2図の模
式図に示すように入力要求信号Pから音声入力
R1までの時間T1に応じて、音声入力R1から音声
応答R2までの時間T3を変化させたり、音声応答
R2の応答時間T4を変化させたり、音声応答R2
表現形式を変化させるので、システムの使用法に
慣れているユーザや、急いでいるユーザには応答
までの時間を短くしたり応答を早口にしたり、内
容を簡潔にしたり出来、システムの使用法に慣れ
ていないユーザや時間的に余裕のあるユーザに
は、応答までの時間を長くしたり、応答をゆつく
りした口調にしたり、内容を丁寧にすることが出
来る。又、上述した音声応答制御部による()
()()の制御を個々に行わずに組合せて行な
うことも可能である。こうすることにより人間と
機械との対話の円滑化を図ることが出来る。
In this embodiment configured in this way, as shown in the schematic diagram of FIG.
Depending on the time T 1 up to R 1 , the time T 3 from audio input R 1 to audio response R 2 can be changed, or the audio response
By changing the response time T4 of R2 and the expression format of the voice response R2 , users who are accustomed to using the system or users who are in a hurry can shorten the response time or For users who are not familiar with how to use the system or who have plenty of time, it is possible to speak quickly or keep the content concise. You can make the content more detailed. Also, () by the voice response control section mentioned above.
It is also possible to control () and () in combination without controlling them individually. By doing this, it is possible to facilitate dialogue between humans and machines.

次に本発明の第2の実施例について図面を参照
して説明する。第4図は本発明の第2の実施例の
概略構成図、第5図は第2の実施例の処理フロー
図である。第2の実施例は第2図に示されるよう
に入力要求信号から音声入力開始までの時間T1
と音声入力R1の発声時間T2とを検出して音声応
答R2の出力を制御するようにしたものである。
第4図に示す構成は、第1図の構成と比較して、
分析部1、音声区間検出部2、タイミング測定部
3、音声認識部4、辞書メモリ5、音声応答制御
部6、音声応答出力部7、音声入力開始要求部8
は同じものであり、これらに発話時間測定部9を
付加したものである。つまり音声区間検出部2は
入力された音声パターンの始端、終端を検出した
時点でこれらの始端信号、終端信号を各々タイミ
ング測定部3へ送ると共に発話時間測定部9へも
送る。発話時間測定部9では始端信号を入力した
時点から終端信号を入力した時点までの時間T2
を求める(第5図ステツプ22)。音声応答制御部
6ではタイミング測定部3により求められたT1
と発話時間測定部9により求められたT2を入力
する。音声応答制御部6ではこのT2を予め定め
られた時間長と比較し(第5図ステツプ23)その
結果、及び上述したT1の時間長の比較結果に応
じて音声応答の出力を制御する。すなわち発声時
間T2が予め定められた時間長より短い場合は、
ユーザがシステムに慣れているか急いでいる為に
早口で発声したものと見なし上述した様に第2図
に示す時間T3,T4を短くしたり音声応答R2の内
容を簡潔なものとする(第5図ステツプ24)。T2
が予め定められた時間長より長い場合は、ユーザ
がシステムに慣れていないか時間的に余裕がある
為にゆつくりと遅口で発声したものと見なし、第
2図に示す時間T3,T4を長くしたり音声応答R2
の内容を丁寧なものとする(第5図ステツプ25)。
Next, a second embodiment of the present invention will be described with reference to the drawings. FIG. 4 is a schematic configuration diagram of a second embodiment of the present invention, and FIG. 5 is a processing flow diagram of the second embodiment. In the second embodiment, as shown in FIG. 2, the time T 1 from the input request signal to the start of voice input is
and the utterance time T2 of the voice input R1 are detected to control the output of the voice response R2 .
The configuration shown in FIG. 4 is compared with the configuration shown in FIG.
Analysis section 1, speech section detection section 2, timing measurement section 3, speech recognition section 4, dictionary memory 5, speech response control section 6, speech response output section 7, speech input start request section 8
are the same, and an utterance time measuring section 9 is added to these. That is, when the voice section detection section 2 detects the start and end of the input voice pattern, it sends these start and end signals to the timing measurement section 3 and also to the speech time measurement section 9, respectively. The speech time measuring section 9 measures the time T 2 from the time when the start signal is input to the time when the end signal is input.
(Step 22 in Figure 5). The voice response control unit 6 uses T 1 determined by the timing measurement unit 3.
and T 2 determined by the speech time measuring section 9 are input. The voice response control unit 6 compares this T2 with a predetermined time length (step 23 in Figure 5) and controls the output of the voice response according to the comparison result and the comparison result of the time length of T1 mentioned above. . In other words, if the utterance time T 2 is shorter than the predetermined time length,
It is assumed that the user speaks quickly because he or she is used to the system or is in a hurry, and as mentioned above, the times T 3 and T 4 shown in Figure 2 are shortened, and the content of the voice response R 2 is made concise. (Step 24 in Figure 5). T2
If it is longer than the predetermined time length, it is assumed that the user is not accustomed to the system or has time to spare, and therefore speaks slowly and slowly. 4 or longer voice response R 2
(Step 25 in Figure 5)

この様に第2の実施例によれば、第2図に示す
時間T1とT2を測定しこの結果に対応して音声応
答R2の出力を制御するので、第1の実施例に比
べて更にユーザの性格や発声の時の情況を良く反
映させた応答が可能となる為に、ユーザと機械の
対話の自然性をより一層高めることが出来る。
As described above, according to the second embodiment, the times T 1 and T 2 shown in FIG. 2 are measured and the output of the voice response R 2 is controlled in accordance with the results. Furthermore, since it is possible to provide a response that better reflects the user's personality and the situation at the time of the utterance, the naturalness of the interaction between the user and the machine can be further enhanced.

上述した第1、第2の実施例においては、音声
入力開始要求信号Pが音声入力開始要求部8より
出力されるものとしたが、これを音声応答出力部
7より出力させ、更に応答音声と入力要求音声を
連続して出力させることも出来る。つまりユーザ
からの発声と機械からの応答を次々と連続させて
行なうものである(第5図フローの点線)。第6
図は入力要求を含んだ応答音声と入力音声のタイ
ミングを模式化した模式図である。この図におい
て、R0,R2,R4,R6は各入力要求を含んだ応答
音声、R1,R3,R5はユーザからの入力音声であ
る。例えば上述した残高照会サービスにおいて、 R0「口座番号の数字を1つずつ順に御願いし
ます」 R1「1」 R2「1ですね。分りました。次の番号を御願
いします」 R3「2」 というものである。この様に応答の出力方法を変
形させた場合にも、第2の実施例と同様に、応答
音声から入力音声までの時間T1,T5,T9、入力
音声の発話時間T2,T6,T10を測定することによ
り、入力音声から応答音声までの時間T3,T7
T11、応答音声の発話時間T2,T6,T10,T12
応答音声の内容R0,R2,R4,R6を変化させるこ
とが出来る。上述した実施例をこの様に変形する
ことにより音声入力と応答がスピーデイに行なわ
れ、更に回線使用のコストが削減でき、経済的価
値が絶大となる。
In the first and second embodiments described above, the voice input start request signal P is output from the voice input start request section 8, but this is output from the voice response output section 7, and is further output as a response voice. It is also possible to output the input request voice continuously. In other words, the user's voice and the machine's response are performed one after another (dotted line in the flowchart in FIG. 5). 6th
The figure is a schematic diagram illustrating the timing of a response voice including an input request and an input voice. In this figure, R 0 , R 2 , R 4 , and R 6 are response voices including each input request, and R 1 , R 3 , and R 5 are input voices from the user. For example, in the balance inquiry service mentioned above, R 0 "Please give me the account number one by one." R 1 "1" R 2 "That's 1. I understand. Please give me the next number." R 3 "2". Even when the response output method is modified in this way, the times from the response voice to the input voice T 1 , T 5 , T 9 and the utterance times of the input voice T 2 , T By measuring 6 , T10 , the time from input voice to response voice T3 , T7 ,
T 11 , utterance time of response voice T 2 , T 6 , T 10 , T 12 ,
The contents R 0 , R 2 , R 4 , and R 6 of the response voice can be changed. By modifying the above-described embodiment in this way, voice input and response can be performed quickly, and the cost of using the line can be further reduced, resulting in tremendous economic value.

尚、本発明は上記実施例に限定されるものでは
ない。例えばタイミング測定部が時間T1とT2
両方を測定してもよい。又、入力要求信号から入
力音声までの時間の履歴の情報、すなわち何回か
の時間測定を行なつてユーザの性格をはつきりと
検出できた後に応答出力を変化させてもよい。更
に発話時間測定は発話速度測定でもよいし応答出
力として音声だけではなくCRT、プリンタ等を
利用して行つてもよい。入力音声の認識処理や音
声合成の方法は従来より知られた種々の方式を適
宜採用すればよい。要するに本発明はその要旨を
逸脱しない範囲で種々変形して実施することがで
きる。
Note that the present invention is not limited to the above embodiments. For example, the timing measuring section may measure both times T1 and T2 . Alternatively, the response output may be changed after the information on the history of the time from the input request signal to the input voice, that is, the time is measured several times to clearly detect the user's personality. Furthermore, the speech time measurement may be performed by measuring the speech rate, or by using not only voice but also a CRT, printer, etc. as a response output. As the input speech recognition process and speech synthesis method, various conventionally known methods may be appropriately adopted. In short, the present invention can be implemented with various modifications without departing from the gist thereof.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は本発明の第1の実施例の概略構成図、
第2図は入力要求と入力音声及び応答音声のタイ
ミングの模式図、第3図は第1の実施例の処理フ
ロー図、第4図は本発明の第2の実施例の概略構
成図、第5図は第2の実施例の処理フロー図、第
6図は会話型の連続入力応答形式のタイミングの
模式図である。 1……分析部、2……音声区間検出部、3……
タイミング測定部、4……音声認識部、5……辞
書メモリ、6……音声応答制御部、7……音声応
答出力部、8……音声入力開始要求部、9……発
話時間測定部。
FIG. 1 is a schematic configuration diagram of a first embodiment of the present invention,
FIG. 2 is a schematic diagram of the timing of an input request, input voice, and response voice; FIG. 3 is a processing flow diagram of the first embodiment; FIG. 4 is a schematic configuration diagram of the second embodiment of the present invention; FIG. 5 is a processing flow diagram of the second embodiment, and FIG. 6 is a schematic diagram of the timing of a conversational continuous input response format. 1... Analysis section, 2... Voice section detection section, 3...
Timing measurement section, 4... Voice recognition section, 5... Dictionary memory, 6... Voice response control section, 7... Voice response output section, 8... Voice input start request section, 9... Speech time measurement section.

Claims (1)

【特許請求の範囲】 1 音声信号の入力を要求する信号を出力する入
力要求手段と、 この入力要求手段により入力要求信号が出力さ
れた後に、音声信号を入力する入力手段と、 この入力手段により入力された音声信号を認識
する認識手段と、 前記入力要求手段により入力要求信号が出力さ
れた時点から前記入力手段による音声信号の入力
が検出された時点までの時間T1を計測する計測
手段と、 前記認識手段による音声信号の認識結果に対応
した音声応答信号を出力する出力手段と、 この出力手段により音声応答信号を出力する際
に、前記計測手段により計測された時間T1に基
づいて、前記入力手段による音声信号の入力が終
了したことが検出された時点から前記音声応答信
号を出力する時点までの時間T3、あるいは前記
音声応答信号の出力にかかる時間T4を可変制御
する制御手段とを具備したことを特徴とする音声
対話装置。
[Scope of Claims] 1. Input requesting means for outputting a signal requesting input of an audio signal; Input means for inputting an audio signal after the input requesting means outputs the input request signal; recognition means for recognizing an input audio signal; measuring means for measuring time T1 from the time when the input request signal is output by the input request means to the time when input of the audio signal by the input means is detected; output means for outputting a voice response signal corresponding to the recognition result of the voice signal by the recognition means; and control means for variably controlling the time T3 from the time when it is detected that the input of the audio signal by the means has ended to the time when the audio response signal is output, or the time T4 required for outputting the audio response signal. A voice dialogue device characterized by:
JP59103625A 1984-05-24 1984-05-24 Voice recognition responder Granted JPS60247697A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59103625A JPS60247697A (en) 1984-05-24 1984-05-24 Voice recognition responder

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59103625A JPS60247697A (en) 1984-05-24 1984-05-24 Voice recognition responder

Publications (2)

Publication Number Publication Date
JPS60247697A JPS60247697A (en) 1985-12-07
JPH0518118B2 true JPH0518118B2 (en) 1993-03-11

Family

ID=14358948

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59103625A Granted JPS60247697A (en) 1984-05-24 1984-05-24 Voice recognition responder

Country Status (1)

Country Link
JP (1) JPS60247697A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009004750A1 (en) * 2007-07-02 2009-01-08 Mitsubishi Electric Corporation Voice recognizing apparatus

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07219582A (en) * 1994-01-28 1995-08-18 Fujitsu Ten Ltd On-vehicle voice recognition device
JPH10111697A (en) * 1996-10-04 1998-04-28 Matsushita Electric Ind Co Ltd Voice response device and voice recognition device
JPH11175082A (en) * 1997-12-10 1999-07-02 Toshiba Corp Voice interaction device and voice synthesizing method for voice interaction
JPH11224095A (en) * 1998-02-06 1999-08-17 Fujitsu Ten Ltd Voice reproduction system
JP3706506B2 (en) * 1999-05-28 2005-10-12 三洋電機株式会社 Communication device with speech speed conversion device
JP3514372B2 (en) * 1999-06-04 2004-03-31 日本電気株式会社 Multimodal dialogue device
JP5380543B2 (en) 2009-09-25 2014-01-08 株式会社東芝 Spoken dialogue apparatus and program
EP3399521B1 (en) 2013-05-31 2020-04-15 Yamaha Corporation Technology for responding to remarks using speech synthesis
JP6343896B2 (en) * 2013-09-30 2018-06-20 ヤマハ株式会社 Voice control device, voice control method and program
CN109564757A (en) 2016-08-17 2019-04-02 索尼公司 Session control and method

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS55153996A (en) * 1979-05-17 1980-12-01 Sharp Kk Voice output type electronic device
JPS58159596A (en) * 1982-03-02 1983-09-21 富士通株式会社 Voice responder
JPS58195950A (en) * 1982-05-11 1983-11-15 Casio Comput Co Ltd Operator guidance controlling system by voice

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS55153996A (en) * 1979-05-17 1980-12-01 Sharp Kk Voice output type electronic device
JPS58159596A (en) * 1982-03-02 1983-09-21 富士通株式会社 Voice responder
JPS58195950A (en) * 1982-05-11 1983-11-15 Casio Comput Co Ltd Operator guidance controlling system by voice

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009004750A1 (en) * 2007-07-02 2009-01-08 Mitsubishi Electric Corporation Voice recognizing apparatus
JP4859982B2 (en) * 2007-07-02 2012-01-25 三菱電機株式会社 Voice recognition device

Also Published As

Publication number Publication date
JPS60247697A (en) 1985-12-07

Similar Documents

Publication Publication Date Title
JP6945695B2 (en) Utterance classifier
US20230230572A1 (en) End-to-end speech conversion
US6775651B1 (en) Method of transcribing text from computer voice mail
KR100383353B1 (en) Speech recognition apparatus and method of generating vocabulary for the same
US7062435B2 (en) Apparatus, method and computer readable memory medium for speech recognition using dynamic programming
JP3968133B2 (en) Speech recognition dialogue processing method and speech recognition dialogue apparatus
US7805310B2 (en) Apparatus and methods for implementing voice enabling applications in a converged voice and data network environment
US6941269B1 (en) Method and system for providing automated audible backchannel responses
KR19980070329A (en) Method and system for speaker independent recognition of user defined phrases
JPH0518118B2 (en)
Lennig Putting speech recognition to work in the telephone network
JP3266157B2 (en) Voice enhancement device
CN109616116B (en) Communication system and communication method thereof
KR20010093325A (en) Method and apparatus for testing user interface integrity of speech-enabled devices
KR20040038419A (en) A method and apparatus for recognizing emotion from a speech
JP2001272991A (en) Voice interacting method and voice interacting device
JPH05257490A (en) Method and device for converting speaking speed
US7092884B2 (en) Method of nonvisual enrollment for speech recognition
JPH0225517B2 (en)
JPH06110650A (en) Speech interaction device
Ward et al. Automatic user-adaptive speaking rate selection
KR20020049061A (en) A method for voice conversion
JPS59216242A (en) Voice recognizing response device
JPH06133039A (en) Automatic guidance device for weather information
JPH08211888A (en) Environment adaptive method and environment adaptive speech recognition device in speech recognition