JP2001022384A - Voice interactive device - Google Patents

Voice interactive device

Info

Publication number
JP2001022384A
JP2001022384A JP11196387A JP19638799A JP2001022384A JP 2001022384 A JP2001022384 A JP 2001022384A JP 11196387 A JP11196387 A JP 11196387A JP 19638799 A JP19638799 A JP 19638799A JP 2001022384 A JP2001022384 A JP 2001022384A
Authority
JP
Japan
Prior art keywords
voice
dictionary
recognition dictionary
output
response
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11196387A
Other languages
Japanese (ja)
Inventor
Takeshi Ono
健 大野
Masayuki Takada
雅行 高田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nissan Motor Co Ltd
Original Assignee
Nissan Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nissan Motor Co Ltd filed Critical Nissan Motor Co Ltd
Priority to JP11196387A priority Critical patent/JP2001022384A/en
Publication of JP2001022384A publication Critical patent/JP2001022384A/en
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

PROBLEM TO BE SOLVED: To reduce an unpleasant feeling and an uneasy feeling making a user feel caused by continuing a long silence time by performing a voice response of a suitable length even when it takes a long time for reading a new recognition dictionary, and it makes the user wait. SOLUTION: Respective dictionary size information are stored beforehand in a recognition dictionary storage 4 together with plural kinds of recognition dictionaries, and when a signal processor 3 reads out newly the recognition dictionary from the storage 4, the device reads out the dictionary size information of the relevant recognition dictionary, and predicts/operates the time required for reading out the recognition dictionary based on the read out dictionary size information. Then, a response voice of an optimum length is constructed based on the predictive time required for reading out the dictionary to be outputted from a speaker 9. Thus, the situation that the long silence time continues when the signal processor 3 reads out newly the recognition dictionary is avoided, and during the reading out time, the response voice is outputted to reduce the unpleasant feeling and uneasy feeling of the user.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、音声対話装置に関
する。
[0001] The present invention relates to a voice interaction device.

【0002】[0002]

【従来の技術】従来、音声入力に対して認識辞書を参照
して音声認識を行い、その認識した音声入力に対応して
さらに別の認識辞書を展開すると共に、ユーザに対して
適切な応答音声を出力して次の音声入力を促す手順を繰
り返すことにより、ユーザが音声入力だけでその必要と
する情報を検索できるようにした音声対話装置が知られ
ている。
2. Description of the Related Art Conventionally, speech recognition is performed on a speech input by referring to a recognition dictionary, and another recognition dictionary is developed in response to the recognized speech input. There is known a spoken dialogue apparatus in which a user can search for necessary information only by voice input by repeating a procedure of prompting the next voice input.

【0003】このような音声対話装置では一般に、入力
音声に対する音声認識処理において、認識対象の語数が
多くなるほど認識率が低下する。そしてその欠点を補う
ために、音声辞書を図4に示すように階層化し、音声入
力を複数回繰り返して階層を進めていき、認識対象語数
を絞り込み認識率を上げるようにしている。例えば、横
浜「そごう」デパートの所在地を確認する場合、次の手
順をとる。
[0003] In such a speech dialogue apparatus, generally, in a speech recognition process for input speech, the recognition rate decreases as the number of words to be recognized increases. In order to compensate for the drawback, the speech dictionary is hierarchized as shown in FIG. 4, and the speech input is repeated a plurality of times to advance the hierarchy, thereby narrowing down the number of words to be recognized and increasing the recognition rate. For example, to confirm the location of the Yokohama Sogo department store, take the following procedure.

【0004】第一階層aの認識辞書には「住所」と「施
設」だけが登録されている。そこで、ユーザが「しせ
つ」と発話すると、この音声入力に対して、装置側では
これを認識辞書中の単語「住所」、「施設」それぞれと
一致度を調べ、一致度が一番高い単語を認識語に決定
し、「施設ですね」といった応答音声を出力し、「施
設」に対する第二階層の認識辞書eに移行し、さらに
「施設名、例えば、駅、デパート、ホテルなどを発話し
てください」と応答音声を出力する。
[0004] Only the "address" and "facility" are registered in the recognition dictionary of the first level a. Then, when the user utters “shisetsu”, the apparatus checks the voice input for the matching degree with each of the words “address” and “facility” in the recognition dictionary, and determines the word having the highest matching degree. Is determined as a recognition word, a response voice such as "facility is output" is output, the processing is shifted to the second-level recognition dictionary e for "facility", and "facility name, e.g. Please answer ".

【0005】これに対して、ユーザが「デパート」と発
話すれば、上記と同様に、第二階層の認識辞書e中に登
録されている各単語と入力音声との一致度を演算し、一
致度の一番高い単語を認識語に決定し、「デパートです
ね」といった応答音声を出力し、「デパート」に対する
第3階層の認識辞書iに移行し、さらに「都道府県名を
発話して下さい」と応答音声を出力する。
[0005] On the other hand, if the user speaks "department store", the degree of coincidence between each word registered in the recognition dictionary e of the second hierarchy and the input voice is calculated, and The word with the highest degree is determined as a recognized word, a response voice such as "department store" is output, and the process moves to the third-level recognition dictionary i for "department store", and then "speak the prefecture name." And a response voice is output.

【0006】以下、同様にして認識辞書の階層を進めて
いき、最終的に第五階層kの認識辞書まで進むと、「デ
パート名を発話して下さい」と応答音声を出力し、これ
に対してユーザが「そごう」と発話し、これに対して認
識辞書中の単語「そごう」との一致度が一番高ければ、
この「そごう」デパートが選択されたものと判断する。
In the same manner, the hierarchy of the recognition dictionary is advanced in the same manner, and when the process finally proceeds to the recognition dictionary of the fifth hierarchy k, a response voice saying "Please speak the department store name" is output. If the user utters “Sogo” and the match with the word “Sogo” in the recognition dictionary is the highest,
It is determined that this “Sogo” department store has been selected.

【0007】こうして、最終的に「横浜市内のそごうデ
パート」が検索対象として音声入力されたものと決定
し、これに対してナビゲーション装置側の地図情報から
該当する施設の所在地を割り出し、またこれを目的地と
したルート探索を実行し、ディスプレイに結果を表示す
ることになる。
[0007] In this way, it is finally determined that "SOGO Department Store in Yokohama" has been inputted as a search target by voice, and the location of the corresponding facility is determined from the map information on the navigation device side. A route search with the destination as is performed, and the result is displayed on the display.

【0008】[0008]

【発明が解決しようとする課題】ところが、このような
従来の音声対話装置では、ある入力音声に対して音声認
識し、それに対してさらに深い階層の認識辞書を読み込
み、次の音声入力に対する音声認識に供しようとする場
合、その認識辞書の読み込み中、応答音声を出力しない
か、応答音声を出力するとしても一定の、しかも短時間
のものであり、新しい認識辞書の読み込み処理中、無音
時間が長く続き、ユーザにとって自分の発した言葉が正
しく認識されず、装置が停止しているのか、それとも認
識されたが辞書を新しく読み込んでいるのか判断しかね
ることが多く、不快感、不安感を抱かせてしまうことが
ある問題点があった。
However, in such a conventional speech dialogue apparatus, speech recognition is performed for a certain input speech, a recognition dictionary of a deeper hierarchy is read in response thereto, and speech recognition for the next speech input is performed. During the reading of the recognition dictionary, no response voice is output, or even if the response voice is output, the response time is constant and short-lived. For a long time, the user does not recognize his / her words correctly and often cannot determine whether the device is stopped or whether the device has been recognized but the dictionary has been newly read, which causes discomfort and anxiety. There was a problem that could be saved.

【0009】本発明はこのような従来の問題点に鑑みて
なされたもので、新しい認識辞書の読み込みに時間がか
かり、ユーザを待たせてしまうような場合でも、適切な
長さの音声応答を行うことによってユーザに長い無音時
間が続くことで抱かせてしまっていた不快感や不安感を
低減することができる音声対話装置を提供することを目
的とする。
The present invention has been made in view of such a conventional problem, and it takes a long time to read a new recognition dictionary, so that a voice response of an appropriate length can be provided even when the user is kept waiting. It is an object of the present invention to provide a voice interactive device that can reduce discomfort and anxiety caused by a user by holding a long silent period.

【0010】[0010]

【課題を解決するための手段】請求項1の発明の音声対
話装置は、音声入力手段と、複数の認識辞書を記憶する
認識辞書記憶手段と、応答音声を記憶する応答音声記憶
手段と、音声出力手段と、制御手段とを備え、前記制御
手段が、前記音声入力手段からの入力音声と前記認識辞
書内の認識対象語との一致度を演算し、その演算結果に
基づいて次の認識辞書を読み出し、かつ適切な応答音声
を選択して前記音声出力手段に出力するよう指示するも
のにおいて、前記認識辞書記憶手段が、前記複数の認識
辞書ごとにその辞書サイズ情報を記憶し、前記制御手段
が、前記認識辞書の読み出しに際して当該認識辞書の前
記辞書サイズ情報を読み出し、読み出した辞書サイズ情
報に基づいて前記認識辞書の読み出しに必要な時間を予
測演算し、その読み出しに必要な予測時間をもとに最適
な長さの応答音声を構築して前記音声出力手段に出力す
るように指示するものである。
According to a first aspect of the present invention, there is provided a speech dialogue apparatus, comprising: a voice input unit; a recognition dictionary storage unit for storing a plurality of recognition dictionaries; a response voice storage unit for storing a response voice; Output means, and control means, wherein the control means calculates the degree of coincidence between the input speech from the voice input means and the recognition target word in the recognition dictionary, and based on the calculation result, the next recognition dictionary And instructing to select an appropriate response voice and output it to the voice output means, wherein the recognition dictionary storage means stores dictionary size information for each of the plurality of recognition dictionaries, Reads the dictionary size information of the recognition dictionary at the time of reading the recognition dictionary, predicts the time required to read the recognition dictionary based on the read dictionary size information, and calculates the read time. Is intended to instruct the building a response voice optimum length based on output to the audio output means estimated time required to put out.

【0011】請求項2の発明の音声対話装置は、請求項
1において、前記制御手段が、前記応答音声の読み上げ
速度を調節して前記最適な長さの応答音声を構築して出
力するよう前記音声出力手段に指示するものである。
According to a second aspect of the present invention, in the first aspect, the control means adjusts a reading speed of the response voice to construct and output the response voice having the optimum length. It instructs the audio output means.

【0012】請求項3の発明の音声対話装置は、請求項
1において、前記制御手段が、前記応答音声のあらかじ
め設定されている所定の位置に無音部分を挿入すること
によって前記最適な長さの応答音声を構築して出力する
よう前記音声出力手段に指示するものである。
According to a third aspect of the present invention, in the first aspect of the present invention, the control means inserts a silent portion into a predetermined position of the response voice so that the optimum length of the response voice is obtained. The voice output means is instructed to construct and output a response voice.

【0013】請求項4の発明の音声対話装置は、請求項
1において、前記制御手段が、長さの異なる複数の前記
応答音声の中から最適な長さの応答音声を選択して出力
するよう前記音声出力手段に指示するものである。
According to a fourth aspect of the present invention, in the first aspect, the control means selects and outputs a response voice having an optimum length from the plurality of response voices having different lengths. It instructs the audio output means.

【0014】請求項5の発明の音声対話装置は、請求項
1〜4において、前記認識辞書記憶手段が、他の装置か
ら要求されるデータを保有するデータ記憶手段と兼用で
あり、前記制御手段が、前記データ記憶手段から前記認
識辞書の読み出しに必要な時間を予測演算するものであ
る。
According to a fifth aspect of the present invention, in the speech dialogue apparatus according to the first to fourth aspects, the recognition dictionary storage means is also used as a data storage means for holding data requested from another apparatus, and the control means Predicts and calculates the time required to read the recognition dictionary from the data storage means.

【0015】請求項6の発明の音声対話装置は、請求項
1〜4において、前記認識辞書記憶手段が、前記制御手
段にネットワークによって接続され、前記制御手段が、
前記認識辞書の読み出しに必要な時間を前記ネットワー
クの負荷をも考慮して予測演算するものである。
According to a sixth aspect of the present invention, in the first aspect, the recognition dictionary storage unit is connected to the control unit via a network, and the control unit is
The time required for reading the recognition dictionary is predicted and calculated in consideration of the load on the network.

【0016】[0016]

【発明の効果】請求項1の発明の音声対話装置では、認
識辞書記憶手段に複数種の認識辞書それぞれと共にそれ
ぞれの辞書サイズ情報を記憶させておき、制御手段が新
たに認識辞書を読み出す際には、当該認識辞書の辞書サ
イズ情報を読み出し、読み出した辞書サイズ情報に基づ
いて当該認識辞書の読み出しに必要な時間を予測演算
し、その読み出しに必要な予測時間をもとに最適な長さ
の応答音声を構築して音声出力手段に出力するように指
示する。
According to the first aspect of the present invention, a plurality of types of recognition dictionaries are stored together with the respective dictionary size information in the recognition dictionary storage means. Reads the dictionary size information of the recognition dictionary, calculates the time required for reading the recognition dictionary based on the read dictionary size information, and calculates the optimal length based on the predicted time required for the reading. It instructs a response voice to be constructed and output to the voice output means.

【0017】これにより、制御手段が新たに認識辞書を
読み出す際に、従来のように長らく無音時間が続く事態
を避け、その読み出し時間中、応答音声を出力させるこ
とができ、ユーザに不快感や不安感を抱かせないように
することができる。
Thus, when the control unit reads a new recognition dictionary, it is possible to avoid a situation in which silence continues for a long time as in the prior art, and to output a response voice during the reading time. You can avoid anxiety.

【0018】請求項2の発明の音声対話装置では、制御
手段が新たに認識辞書を読み出す際には、応答音声の読
み上げ速度を調節して最適な長さの応答音声を構築して
出力するよう音声出力手段に指示することにより、請求
項1の発明の効果に加えて、連続性の高い自然な応答音
声を出力させることができる。
According to the second aspect of the present invention, when the control unit reads a new recognition dictionary, the control unit adjusts the reading speed of the response voice to construct and output a response voice having an optimum length. By instructing the voice output means, in addition to the effect of the first aspect of the present invention, a highly continuous natural response voice can be output.

【0019】請求項3の発明の音声対話装置では、制御
手段が新たに認識辞書を読み出す際には、応答音声のあ
らかじめ設定されている所定の位置に無音部分を挿入す
ることによって最適な長さの応答音声を構築して出力す
るよう音声出力手段に指示することにより、請求項1の
発明の効果に加えて、合成音声の音質を変化させること
なく自然な応答音声を出力することができる。
According to the third aspect of the present invention, when the control unit reads a new recognition dictionary, the control unit inserts a silent portion at a predetermined position of the response voice to thereby obtain an optimum length. By instructing the voice output means to construct and output the response voice of (1), it is possible to output a natural response voice without changing the sound quality of the synthesized voice in addition to the effect of the first aspect of the present invention.

【0020】請求項4の発明の音声対話装置では、制御
手段が長さの異なる複数の応答音声の中から最適な長さ
の応答音声を選択して出力するよう音声出力手段に指示
することにより、請求項1の発明の効果に加えて、音質
を変化させることなく、また連続性の高い自然な応答音
声を出力させることができる。
In the voice dialogue apparatus according to the fourth aspect of the invention, the control means instructs the voice output means to select and output a response voice having an optimum length from a plurality of response voices having different lengths. In addition to the effects of the first aspect of the present invention, it is possible to output a natural sound with high continuity without changing the sound quality.

【0021】請求項5の発明の音声対話装置では、認識
辞書記憶手段が他の装置から要求されるデータを保有す
るデータ記憶手段、例えば、ナビゲーション装置におけ
る地図情報の記憶手段などと兼用であり、制御手段がそ
のようなデータ記憶手段から認識辞書の読み出しに必要
な時間を予測演算するようにしたことにより、請求項1
〜4の発明それぞれの効果に加えて、他システムと連携
した装置にあっても、新たに認識辞書を読み出すのに必
要な時間を正確に予測し、その予測時間に応じて最適な
長さの応答音声を出力することができる。
In the speech dialogue apparatus according to the fifth aspect of the present invention, the recognition dictionary storage means is also used as a data storage means for holding data requested from another apparatus, for example, a map information storage means in a navigation apparatus. 2. The control device according to claim 1, wherein the control means predicts and calculates the time required for reading the recognition dictionary from the data storage means.
In addition to the effects of the inventions of the fourth to fourth aspects, even in a device linked to another system, the time required to read a new recognition dictionary is accurately predicted, and the optimum length of the readout is determined according to the predicted time. A response voice can be output.

【0022】請求項6の発明の音声対話装置では、制御
手段がネットワークによって接続されている認識辞書記
憶手段から新たに認識辞書を読み出すのに必要な時間を
そのネットワークの負荷をも考慮して予測演算すること
により、請求項1〜4の発明それぞれの効果に加えて、
新たに認識辞書を読み出すのに必要な時間をそのネット
ワークの負荷をも考慮して正確に予測し、その予測時間
に応じて最適な長さの応答音声を出力することができ
る。
According to the speech dialogue apparatus of the present invention, the time required for the control means to newly read the recognition dictionary from the recognition dictionary storage means connected by the network is predicted in consideration of the load on the network. By calculating, in addition to the respective effects of the inventions of claims 1 to 4,
The time required to read a new recognition dictionary can be accurately predicted in consideration of the load on the network, and a response voice having an optimum length can be output according to the predicted time.

【0023】[0023]

【発明の実施の形態】以下、本発明の実施の形態を図に
基づいて詳説する。図1は本発明の第1の実施の形態の
音声対話装置の機能構成を示している。図1に示す音声
対話装置において、マイク1は音声入力のためのもので
あり、A/Dコンバータ2はマイク1からの音声入力を
A/D変換し、デジタル信号にして信号処理装置3に入
力する。信号処理装置3は本装置を全体的に制御し、ま
た必要な演算処理を実行するCPU3Aと必要な容量の
内部メモリ3Bとを備えている。外部記憶装置4は図4
に示したような階層的な構造の音声認識辞書、応答音声
データを含み、その他必要な諸情報を記憶する。スイッ
チ6は音声入力機能の開始/停止スイッチである。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Embodiments of the present invention will be described below in detail with reference to the drawings. FIG. 1 shows a functional configuration of the voice interaction apparatus according to the first embodiment of the present invention. In the voice interaction apparatus shown in FIG. 1, the microphone 1 is for voice input, and the A / D converter 2 converts the voice input from the microphone 1 from analog to digital, converts it into a digital signal, and inputs the digital signal to the signal processing apparatus 3. I do. The signal processing device 3 controls the entire device and includes a CPU 3A for executing necessary arithmetic processing and an internal memory 3B having a required capacity. The external storage device 4 is shown in FIG.
And a voice recognition dictionary having a hierarchical structure as shown in FIG. 3 and response voice data, and other necessary information are stored. The switch 6 is a start / stop switch for the voice input function.

【0024】D/Aコンバータ7は信号処理装置3が後
述する処理により選択、編集した応答音声データをD/
A変換する。このD/Aコンバータ7の音声信号出力は
増幅器8によって増幅し、スピーカ9から可聴音にして
出力する。
The D / A converter 7 converts the response voice data selected and edited by the signal processing
A conversion is performed. The audio signal output of the D / A converter 7 is amplified by the amplifier 8 and output from the speaker 9 as an audible sound.

【0025】次に、上記構成の音声対話装置を用いた音
声応答動作を説明する。図2は本実施の形態の音声対話
装置による音声応答処理を示すフローチャートである。
外部記憶装置4には、従来例と同様、図4に示した階層
構造の認識辞書を格納している。そして、各階層の認識
辞書に対してそれぞれの辞書サイズデータS(byte)も
記憶させてある。
Next, a description will be given of a voice response operation using the voice dialogue apparatus having the above configuration. FIG. 2 is a flowchart showing a voice response process by the voice interaction device of the present embodiment.
The external storage device 4 stores a recognition dictionary having a hierarchical structure shown in FIG. The dictionary size data S (byte) is also stored for the recognition dictionary of each hierarchy.

【0026】音声入力の初期状態では、信号処理装置3
は階層化された音声辞書の最上位の階層の部分音声辞書
aを最初の認識対象とする(ステップS10)。そして
スイッチ6が操作された場合、音声認識処理を開始し
(ステップS11)、ステップS12〜S20の処理を
辞書階層が進むごとに繰り返す。
In the initial state of voice input, the signal processing device 3
Sets the partial speech dictionary a of the highest hierarchy of the hierarchized speech dictionary as the first recognition target (step S10). When the switch 6 is operated, the voice recognition processing is started (step S11), and the processing of steps S12 to S20 is repeated every time the dictionary hierarchy advances.

【0027】ステップS12では、CPU3Aは部分音
声辞書を外部記憶装置4から内部メモリ3Bに読み込み
を開始する。この辞書読み込みの最初には、辞書サイズ
データXを読み込み、メモリ4に保持する。なお、辞書
の読み込み自体は並列処理によって処理するため、この
ステップS12で辞書読み込みの終了を待つ必要はな
く、辞書サイズを読み込んだ時点で次のステップS13
に移行する。
In step S12, the CPU 3A starts reading the partial speech dictionary from the external storage device 4 into the internal memory 3B. At the beginning of the dictionary reading, the dictionary size data X is read and stored in the memory 4. Since the reading of the dictionary itself is processed by parallel processing, there is no need to wait for the completion of the reading of the dictionary in step S12.
Move to

【0028】ステップS13では、CPU3Aは応答音
声の読み上げ速度を調節して出力する。応答音声のメッ
セージ内容は辞書への入力を促すものであり、例えば、
辞書の階層に対応して、「目的とされるのは住所です
か、施設ですか」、「所在地の都道府県名を発話してく
ださい」、「施設の種類を発話してください」、「デパ
ートの名称を発話してください」といったものである。
In step S13, the CPU 3A adjusts the reading speed of the response voice and outputs it. The message content of the response voice prompts entry into the dictionary, for example,
According to the hierarchy of the dictionary, "Is the intended address or facility?", "Speak the name of the state or province where you are located", "Speak the type of facility", "Department store" Please say the name of "."

【0029】このステップS13ではまず、メモリ3B
に記憶されている辞書サイズSから該当辞書の読み込み
に必要な時間Tを予測演算する。辞書サイズをS(byt
e)とすると、読み込みに必要な時間T(msec)
は、外部記憶装置4、CPU3A、内部メモリ3Bのア
クセス速度などによって決まる係数kを用いて、 T=k×S (1) によって算出する。そしてこの係数kは、装置の仕様ご
とにあらかじめメモリ3Bに格納しておくか、セットア
ップ時に登録するものとする。
In this step S13, first, the memory 3B
Of the dictionary required for reading the dictionary from the dictionary size S stored in. Set the dictionary size to S (byt
e), the time required for reading T (msec)
Is calculated using the coefficient k determined by the access speed of the external storage device 4, the CPU 3A, the internal memory 3B, and the like, and T = k × S (1). The coefficient k is stored in advance in the memory 3B for each device specification or registered at the time of setup.

【0030】次にCPU3Aは読み込み必要時間Tに応
じて、読み上げ速度を調節して最適な時間長さの応答音
声を構築して出力する。そのためにまず、CPU3Aは
このステップS13において出力する応答音声のメッセ
ージ内容をメモリ3Bから選択する。このメッセージの
長さがTm(msec)、出力するD/A変換の通常の
周波数がFm(kHz)である場合、実際に出力する周
波数F(kHz)は、 F=Fm×(Tm/T) (2) となる。CPU3Aは周波数FをD/Aコンバータ7に
設定し、応答音声をD/Aコンバータ7、増幅器8、ス
ピーカ9を経て出力する。これにより、応答音声が終了
した時点で認識辞書の読み込みがほぼ完了していること
になる(ステップS14)。
Next, the CPU 3A adjusts the reading speed according to the required reading time T to construct and output a response voice having an optimum time length. For this purpose, first, the CPU 3A selects, from the memory 3B, the message content of the response voice output in step S13. If the length of this message is Tm (msec) and the normal frequency of the output D / A conversion is Fm (kHz), the frequency F (kHz) actually output is: F = Fm × (Tm / T) (2) The CPU 3A sets the frequency F to the D / A converter 7, and outputs a response voice via the D / A converter 7, the amplifier 8, and the speaker 9. As a result, the reading of the recognition dictionary is almost completed when the response voice ends (step S14).

【0031】なお、応答音声の長さを認識辞書の読み込
みに必要な時間Tに応じて調節する別の方法は、応答音
声ごとにあらかじめ設定されている所定の位置に無音部
分を挿入するものである。そのために、応答音声のメッ
セージ内容には、無音部分を挿入することが可能な箇所
に特殊な表記を含めておき、例えば、「駅の△名称を△
発話してください」というように、無音部分を挿入可能
な箇所に△の表記を挿入しておくのである。そして、C
PU3Aは、Tm<Tが成立する場合には無音部分を挿
入するが、無音部分の挿入可能箇所数をN、無音部分1
箇所当たりの長さδTとすると、 δT=(T−Tm)/N (3) の式で求められるδTの長さの無音部分を無音部分挿入
可能箇所△それぞれに挿入する。こうして無音部分を挿
入した応答音声はD/Aコンバータ7、増幅器8、スピ
ーカ9を経て出力する。
Another method of adjusting the length of the response voice according to the time T required for reading the recognition dictionary is to insert a silent portion at a predetermined position set in advance for each response voice. is there. For this purpose, the message content of the response voice includes a special notation at a place where a silent part can be inserted, and, for example, “Enter the name of the station.
"Please speak," and insert a notation in the place where silence can be inserted. And C
The PU 3A inserts a silent part when Tm <T is satisfied, but sets the number of insertable parts of the silent part to N and the silent part 1
Assuming that the length per part is δT, a silent part having a length of δT obtained by the equation of δT = (T−Tm) / N (3) is inserted into each of the silent part insertable points △. The response voice into which the silent portion is inserted is output through the D / A converter 7, the amplifier 8, and the speaker 9.

【0032】ステップS13,S14で応答音声を構築
して出力し、所定の認識辞書を外部記憶装置4から内部
メモリ3Bに読み込んだ後、ステップS15においてユ
ーザの音声入力の取り込み処理を開始する。以下、説明
を簡明にするため、最初に出力された応答音声は、「目
的地の設定方法を発話してください」というものであっ
たとする。
In steps S13 and S14, a response voice is constructed and output, and a predetermined recognition dictionary is read from the external storage device 4 into the internal memory 3B. Then, in step S15, a process of capturing a user's voice input is started. Hereinafter, for the sake of simplicity, it is assumed that the response voice output first is "Please say how to set the destination".

【0033】ここでCPU3Aは、対話開始スイッチ6
が押されるまではA/Dコンバータ2を経て入力されて
くるデジタル信号の平均パワーを演算している。そして
対話開始スイッチ6が押された後、その平均パワーに比
べてデジタル信号の瞬間パワーが所定値以上大きくなっ
たときに、ユーザが発話したと判断し、音声の取り込み
処理を開始するのである。ここで、ユーザは応答音声に
対して、「しせつ」と発話したものとする。
Here, the CPU 3A operates the dialogue start switch 6
Until is pressed, the average power of the digital signal input through the A / D converter 2 is calculated. After the dialogue start switch 6 is pressed, when the instantaneous power of the digital signal becomes larger than the average power by a predetermined value or more, it is determined that the user has spoken, and the voice capturing process is started. Here, it is assumed that the user has spoken “shisetsu” in response to the response voice.

【0034】続いてステップS16では、CPU3Aは
メモリ3Bに読み込んだ部分音声辞書と取り込んだ音声
入力の音声区間部分との一致度を演算する。ここでは、
入力された「しせつ」という音声区間部分と認識辞書の
「住所」、「施設」それぞれとの一致度を演算する。な
お、このステップの処理を行う間も、並列処理によって
音声取り込みは継続されている。
Subsequently, in step S16, the CPU 3A calculates the degree of coincidence between the partial speech dictionary read into the memory 3B and the voice section of the fetched voice input. here,
The degree of coincidence between the input speech section “shisetsu” and each of “address” and “facility” in the recognition dictionary is calculated. Note that even during the processing of this step, the voice capturing is continued by the parallel processing.

【0035】続くステップS17では、入力されるデジ
タル信号の瞬間パワーが所定時間以上継続して所定値以
下になったとき、ユーザの発話が終了したと判断し、入
力の受付を終了する。
In the following step S17, when the instantaneous power of the input digital signal has become equal to or less than a predetermined value for a predetermined time or more, it is determined that the utterance of the user has ended, and the reception of the input is ended.

【0036】ステップS18では、CPU3Aは一致度
の演算終了を待ち、終了後に最も一致度の高い単語を選
択する。ここでは、「施設」の方が一致度が高くなって
いるはずである。そこで、その単語「施設」を音声認識
の結果としてモニタ5に表示する(ステップS19)。
In step S18, the CPU 3A waits for the completion of the calculation of the matching degree, and selects the word having the highest matching degree after the completion. Here, "facility" should have a higher degree of coincidence. Therefore, the word "facility" is displayed on the monitor 5 as a result of the voice recognition (step S19).

【0037】またCPU3Aは、認識した単語が認識辞
書の下の階層の部分音声辞書を示しているかどうかを判
断し、下層の部分音声辞書を示している場合には、新た
に部分音声辞書を設定してステップS12の処理に戻
る。以下、選択された単語がより下層の部分音声辞書を
示さなくなるまでステップS12〜S20の処理を繰り
返す(ステップS20)。
The CPU 3A determines whether or not the recognized word indicates a partial speech dictionary below the recognition dictionary. If the word indicates a partial speech dictionary below the recognition dictionary, a new partial speech dictionary is set. Then, the process returns to step S12. Thereafter, the processing of steps S12 to S20 is repeated until the selected word does not indicate a lower partial speech dictionary (step S20).

【0038】こうして、例えば、「施設」−「駅」−
「神奈川県」−「JR」−「桜木町」と音声認識が進む
と、最終的に「桜木町」の単語を出力することになる
(ステップS21)。
Thus, for example, "facility"-"station"-
When the voice recognition proceeds as "Kanagawa"-"JR"-"Sakuragicho", the word "Sakuragicho" is finally output (step S21).

【0039】こうして、音声対話により1つの単語が決
定されると、この単語を検索キーにして、例えば、ナビ
ゲーション装置における目的地の設定、周辺地理の検索
などに利用することができることになる。
Thus, when one word is determined by voice dialogue, this word can be used as a search key, for example, for setting a destination in a navigation device, searching for a geographical area, and the like.

【0040】なお、認識辞書の読み込みに必要な予測時
間Tに応じて応答音声の長さを最適なものにする方法と
して、次の方法を採用することもできる。すなわち、応
答音声は、読み込もうとする部分音声辞書の辞書サイズ
によって複数種のものが用意され、読み込もうとする部
分音声辞書の読み込みに先立って外部記憶装置4から最
初に読み込んでメモリ3Bに格納し、あるいはセットア
ップ時にあらかじめメモリ3Bに格納しておく。
The following method can be adopted as a method for optimizing the length of the response voice according to the estimated time T required for reading the recognition dictionary. That is, a plurality of types of response voices are prepared depending on the dictionary size of the partial voice dictionary to be read. Prior to reading the partial voice dictionary to be read, the response voice is first read from the external storage device 4 and stored in the memory 3B, Alternatively, it is stored in the memory 3B in advance during setup.

【0041】例えば、図4に示した認識辞書において、
駅名を音声入力させる場合、都道府県によってJRの駅
数は大きく異なり、したがってJRの駅名辞書のサイズ
も都道府県別に大きく異なってくる。そこで、応答音声
として、 A:「駅の名称を発話してください」 B:「駅の名称をはっきりと発話してください」 C:「JRの駅の名称をはっきりと発話してください」 D:「神奈川県のJRの駅の名称をはっきりと発話して
ください」 のように複数種の長さの異なるものを用意しておき、読
み込む部分辞書のサイズ、したがって読み込みの必要な
予測時間に応じて最適な長さの内容のものを選択して出
力するのである。
For example, in the recognition dictionary shown in FIG.
When a station name is input by voice, the number of JR stations greatly differs depending on the prefecture, and therefore, the size of the JR station name dictionary also greatly differs depending on the prefecture. Therefore, as a response voice, A: "Please utter the name of the station" B: "Please utter the name of the station clearly" C: "Please utter the name of the station of JR clearly" D: Prepare different types of different lengths, such as "Please clearly state the name of the JR station in Kanagawa Prefecture", according to the size of the partial dictionary to be read, and therefore the estimated time required for reading The content with the optimal length is selected and output.

【0042】つまり、CPU3Aは、外部記憶装置4か
らの認識辞書の読み込み予測時間Tを演算し、その時間
Tが0<T≦TmaならばAメッセージを、Tma<T≦T
mbならばBメッセージを、Tmb<T≦TmcならばCメッ
セージを、そしてTmc<TならばDメッセージを選択し
て出力するように処理する。あるいは、上記にあって、
Tmc<T≦TmdならばDメッセージを選択し、さらに、
Tmd<Tならば、応答音声の出力速度を第1の実施の形
態のようにして調節するか、あるいは無音部分を挿入し
て出力するように処理するのである。ただし、Tma,T
mb,Tmc,Tmdは装置性能に応じてあらかじめ設定した
値である。これによっても、応答音声の出力が終了した
時点で必要な部分認識辞書の読み込みがほぼ完了してい
るようにすることができる。
That is, the CPU 3A calculates the predicted reading time T of the recognition dictionary from the external storage device 4, and if the time T is 0 <T ≦ Tma, the CPU 3A sends the A message and Tma <T ≦ Tma.
If mb, the B message is selected, if Tmb <T ≦ Tmc, the C message is selected, and if Tmc <T, the D message is selected and output. Or in the above,
If Tmc <T ≦ Tmd, select the D message.
If Tmd <T, the output speed of the response voice is adjusted as in the first embodiment, or processing is performed so that a silent portion is inserted and output. Where Tma, T
mb, Tmc, and Tmd are values set in advance according to the device performance. In this way, it is possible to make the reading of the necessary partial recognition dictionary almost complete at the time when the output of the response voice ends.

【0043】次に、本発明の第2の実施の形態の音声対
話装置について図3に基づいて説明する。第2の実施の
形態の音声対話装置は、ナビゲーション装置10とネッ
トワーク11によって接続され、外部記憶装置4を共用
している点に特徴がある。
Next, a voice interactive device according to a second embodiment of the present invention will be described with reference to FIG. The voice interactive device according to the second embodiment is characterized in that it is connected to the navigation device 10 by a network 11 and shares the external storage device 4.

【0044】ナビゲーション装置10はGPSセンサや
車両の加速度センサからの情報をもとにして自車の現在
位置の絶対位置を検出し、外部記憶装置4に格納されて
いる地図情報から現在位置に対応するその周辺領域の地
図情報をネットワーク11を通じて読み込み、モニタ5
に表示させる。
The navigation device 10 detects the absolute position of the current position of the vehicle based on information from the GPS sensor or the acceleration sensor of the vehicle, and uses the map information stored in the external storage device 4 to correspond to the current position. The map information of the surrounding area is read through the network 11 and the monitor 5
To be displayed.

【0045】そして音声対話装置側は、CPU3Aがネ
ットワーク11を通じて外部記憶装置4にアクセスして
音声認識辞書を読み出して内部メモリ3Bに格納し、音
声認識に利用する。
On the voice interactive device side, the CPU 3A accesses the external storage device 4 through the network 11, reads out the voice recognition dictionary, stores it in the internal memory 3B, and uses it for voice recognition.

【0046】次に、上記の第2の実施の形態による音声
認識処理を説明する。第2の実施の形態の音声対話装置
における音声認識処理のフローチャートは、第1の実施
の形態と同様に図2に示したものである。ただし、ステ
ップS12及びステップS13におけるCPU3Aの処
理内容は、次のようになる。
Next, a speech recognition process according to the second embodiment will be described. The flowchart of the voice recognition process in the voice dialogue device of the second embodiment is the same as that of the first embodiment shown in FIG. However, the processing contents of the CPU 3A in step S12 and step S13 are as follows.

【0047】ステップS12において、CPU3Aは外
部記憶装置4からネットワーク11を介して必要な認識
辞書の読み込みを開始する。この読み込みは、事前情報
の取得と、認識辞書本体の読み込みとの2段階に分けて
行う。
In step S12, the CPU 3A starts reading a necessary recognition dictionary from the external storage device 4 via the network 11. This reading is performed in two stages, that is, the acquisition of prior information and the reading of the recognition dictionary body.

【0048】まず事前情報の取得には、外部記憶装置4
のアクセスが許可されるまでの時間Tnの取得と、認識
辞書サイズ情報の取得が含まれる。CPU3Aは、図示
していないネットワークインタフェースを介してナビゲ
ーション装置10に外部記憶装置4のアクセスの許可を
求める。ナビゲーション装置10はその要求を受けて、
許可するまでの待ち時間Tnを応答する。ナビゲーショ
ン装置10が外部記憶装置4から地図情報をアクセス中
である場合には、このTnはそのアクセスが終了するま
での時間となる。
First, in order to obtain advance information, the external storage device 4
Acquisition of the time Tn until the access is permitted, and acquisition of the recognition dictionary size information are included. The CPU 3A requests the navigation device 10 to permit access to the external storage device 4 via a network interface (not shown). The navigation device 10 receives the request,
The waiting time Tn until permission is returned. When the navigation device 10 is accessing the map information from the external storage device 4, this Tn is the time until the access ends.

【0049】CPU3Aはこの待ち時間Tnを内部メモ
リ3Bに保持する。また読み込もうとしている認識辞書
の辞書サイズS(byte)の情報のみを外部記憶装置4か
ら読み込み、メモリ3Bに保持する。
The CPU 3A holds the waiting time Tn in the internal memory 3B. Only the information of the dictionary size S (byte) of the recognition dictionary to be read is read from the external storage device 4 and stored in the memory 3B.

【0050】認識辞書の読み込み自体は並列処理によっ
て処理されるため、このステップS12で読み込み終了
を待つ必要はなく、事前情報を取得した時点で次のステ
ップS13に進む。
Since the reading of the recognition dictionary itself is processed by parallel processing, there is no need to wait for the completion of the reading in step S12, and the process proceeds to the next step S13 when the advance information is obtained.

【0051】ステップS13においては、CPU3Aは
応答音声の読み上げ速度を調節して出力する。応答音声
のメッセージ内容は辞書への入力を促すものであり、第
1の実施の形態と同様に、「駅の名称を発話してくださ
い」といったものである。
In step S13, the CPU 3A adjusts the reading speed of the response voice and outputs it. The message content of the response voice prompts entry into the dictionary, such as "speak the station name" as in the first embodiment.

【0052】これに対して、メモリ3Bに記憶されてい
る待ち時間Tnと辞書サイズSから読み込みに必要な時
間T(msec)を予測する。
On the other hand, the time T (msec) required for reading is predicted from the waiting time Tn and the dictionary size S stored in the memory 3B.

【0053】T=Tn+k×S (1′) ここで、kは第1の実施の形態と同様の定数であるが、
外部記憶装置4のネットワーク11を介してのアクセス
速度などによって装置ごとに異なる値をとることにな
る。そして、この予測時間Tを用いて、第1の実施の形
態の場合と同様に、読み上げ速度を調節して最適な時間
長さの応答音声を構築して出力する。
T = Tn + k × S (1 ′) where k is a constant similar to that of the first embodiment,
A different value is taken for each device depending on the access speed of the external storage device 4 via the network 11 and the like. Then, using the predicted time T, the reading speed is adjusted to construct and output a response voice having an optimal time length, as in the case of the first embodiment.

【0054】ステップS15以降の処理は、第1の実施
の形態と同様である。これにより、第2の実施の形態の
音声対話装置では、外部記憶装置4を他の装置と共用し
ており、他の装置のアクセス状態に応じて認識辞書の読
み込みの必要な時間が左右されるような環境でも、その
読み込みに必要な時間に応じて応答音声の出力時間を調
節して出力することができ、さらには、ネットワーク1
1により外部記憶装置4に接続されているような環境で
も、そのネットワーク11の特性を考慮に入れて辞書の
読み込みに必要な時間を計算し、応答音声の出力時間を
調節して出力することができ、ユーザに辞書読み込み時
に長い無音時間を与えてしまう問題点を解消することが
できる。
The processing after step S15 is the same as in the first embodiment. As a result, in the voice interactive device according to the second embodiment, the external storage device 4 is shared with another device, and the time required to read the recognition dictionary depends on the access state of the other device. In such an environment, the output time of the response voice can be adjusted and output according to the time required for the reading, and further, the network 1
1, it is possible to calculate the time required to read the dictionary taking into account the characteristics of the network 11 and adjust the output time of the response voice, and output the result, taking into account the characteristics of the network 11. Thus, it is possible to solve the problem that the user is given a long silent time when reading the dictionary.

【0055】なお、第2の実施の形態においても、応答
音声の長さを認識辞書の読み込みに必要な時間Tに応じ
て調節する別の方法として、応答音声ごとにあらかじめ
設定されている所定の位置に無音部分を挿入する方法を
採用することができる。
In the second embodiment, as another method of adjusting the length of the response voice according to the time T required to read the recognition dictionary, a predetermined method preset for each response voice is used. A method of inserting a silent part at a position can be adopted.

【0056】さらには、応答音声は、読み込もうとする
部分音声辞書の辞書サイズによって複数種のものを用意
し、読み込もうとする部分音声辞書の読み込みに先立っ
て外部記憶装置4から最初に読み込んでメモリ3Bに格
納し、あるいはセットアップ時にあらかじめメモリ3B
に格納しておき、読み込む部分辞書のサイズ、したがっ
て読み込みに必要な予測時間に応じて最適な長さの内容
のものを選択して出力する方法を採用することもでき
る。
Further, a plurality of types of response voices are prepared according to the dictionary size of the partial voice dictionary to be read, and the response voice is first read from the external storage device 4 before reading the partial voice dictionary to be read, and is read from the memory 3B. In the memory or in the memory 3B in advance during setup.
And a method of selecting and outputting a content having an optimal length according to the size of the partial dictionary to be read, that is, the estimated time required for reading, can also be adopted.

【0057】このようにして、本発明の音声対話装置に
よれば、新たに認識辞書を読み出す際には、当該認識辞
書の辞書サイズ情報を読み出し、読み出した辞書サイズ
情報に基づいて認識辞書の読み出しに必要な時間を予測
演算し、その読み出しに必要な予測時間をもとに最適な
長さの応答音声を構築して出力させるので、CPU3A
が新たに認識辞書を外部記憶装置4から読み出す際に、
従来のように長らく無音時間が続く事態を避け、その読
み出し時間中、応答音声を出力させることができ、ユー
ザに不快感や不安感を抱かせないようにすることができ
る。
As described above, according to the speech dialogue apparatus of the present invention, when a new recognition dictionary is read, the dictionary size information of the recognition dictionary is read, and the recognition dictionary is read based on the read dictionary size information. The CPU 3A constructs and outputs a response voice having an optimal length based on the prediction time required for the readout, and based on the prediction time required for the readout.
When newly reading the recognition dictionary from the external storage device 4,
It is possible to avoid a situation in which silence continues for a long time as in the related art, and to output a response voice during the readout time, thereby preventing the user from feeling uncomfortable or uneasy.

【0058】そして、CPU3Aは、外部記憶装置4か
ら認識辞書を読み出す際に、応答音声の読み上げ速度を
調節して最適な長さの応答音声にして出力させることに
より、連続性の高い自然な応答音声を出力させることが
できる。
When reading the recognition dictionary from the external storage device 4, the CPU 3A adjusts the reading speed of the response voice to output a response voice having an optimum length, thereby providing a natural response with high continuity. Sound can be output.

【0059】またCPU3Aは、外部記憶装置4から認
識辞書を読み出す際に、応答音声のあらかじめ設定され
ている所定の位置に無音部分を必要なだけ挿入すること
によって最適な長さの応答音声を構築して出力させるこ
とにより、合成音声の音質を変化させることなく自然な
応答音声を出力することができる。
When reading the recognition dictionary from the external storage device 4, the CPU 3A inserts as many silent portions as necessary into the predetermined position of the response voice, thereby constructing a response voice having an optimum length. Thus, a natural response voice can be output without changing the sound quality of the synthesized voice.

【0060】またCPU3Aは、外部記憶装置4から認
識辞書を読み出す際に、その認識辞書のサイズに対応し
た長さの応答音声を選択して出力させることにより、音
質を変化させることなく、また連続性の高い自然な応答
音声を出力させることができる。
Further, when reading the recognition dictionary from the external storage device 4, the CPU 3A selects and outputs a response voice having a length corresponding to the size of the recognition dictionary, thereby changing the sound quality without changing the sound quality. It is possible to output a natural response voice with high performance.

【0061】さらに、本発明の音声対話装置では、外部
記憶装置4が他の装置10から要求されるデータを保有
するデータ記憶手段としても兼用される場合、CPU3
Aがそのような外部記憶装置4から認識辞書を読み出す
のに必要な時間を予測演算することにより、他装置と連
携した装置にあっても、新たに認識辞書を読み出すのに
必要な時間を正確に予測し、その予測時間に応じて最適
な長さの応答音声を出力することができる。
Further, in the voice dialogue apparatus of the present invention, when the external storage device 4 is also used as data storage means for holding data requested from another device 10, the CPU 3
A predicts and calculates the time required for reading the recognition dictionary from such an external storage device 4 so that the time required for newly reading the recognition dictionary can be accurately determined even in a device linked with another device. And a response voice having an optimal length can be output according to the prediction time.

【0062】加えて、本発明の音声対話装置では、ネッ
トワーク11によって接続されている外部記憶装置4か
ら新たに認識辞書を読み出すのに必要な時間をそのネッ
トワーク11の負荷をも考慮して予測演算することによ
り、新たに認識辞書を読み出すのに必要な時間を正確に
予測し、その予測時間に応じて最適な長さの応答音声を
出力することができる。
In addition, in the spoken dialogue apparatus of the present invention, the time required for newly reading out the recognition dictionary from the external storage device 4 connected to the network 11 is calculated by taking the load of the network 11 into consideration. By doing so, it is possible to accurately predict the time required to read a new recognition dictionary, and to output a response voice having an optimum length according to the predicted time.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の第1の実施の形態の構成を示すブロッ
ク図。
FIG. 1 is a block diagram showing a configuration of a first embodiment of the present invention.

【図2】上記の実施の形態による音声認識処理のフロー
チャート。
FIG. 2 is a flowchart of a speech recognition process according to the embodiment.

【図3】本発明の第2の実施の形態の構成を示すブロッ
ク図。
FIG. 3 is a block diagram showing a configuration according to a second embodiment of the present invention.

【図4】一般的な階層構造の音声認識辞書の構造図。FIG. 4 is a structural diagram of a speech recognition dictionary having a general hierarchical structure.

【符号の説明】[Explanation of symbols]

1 マイク 2 A/Dコンバータ 3 信号処理装置 3A CPU 3B メモリ 4 外部記憶装置 5 モニタ 6 スイッチ 7 D/Aコンバータ 8 増幅器 9 スピーカ 10 ナビゲーション装置 11 ネットワーク Reference Signs List 1 microphone 2 A / D converter 3 signal processing device 3A CPU 3B memory 4 external storage device 5 monitor 6 switch 7 D / A converter 8 amplifier 9 speaker 10 navigation device 11 network

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 3/00 571U ──────────────────────────────────────────────────続 き Continued on the front page (51) Int.Cl. 7 Identification symbol FI Theme coat ゛ (Reference) G10L 3/00 571U

Claims (6)

【特許請求の範囲】[Claims] 【請求項1】 音声入力手段と、複数の認識辞書を記憶
する認識辞書記憶手段と、応答音声を記憶する応答音声
記憶手段と、音声出力手段と、制御手段とを備え、前記
制御手段は、前記音声入力手段からの入力音声と前記認
識辞書内の認識対象語との一致度を演算し、その演算結
果に基づいて次の認識辞書を読み出し、かつ適切な応答
音声を選択して前記音声出力手段に出力するよう指示す
る音声対話装置において、 前記認識辞書記憶手段は、前記複数の認識辞書ごとにそ
の辞書サイズ情報を記憶し、 前記制御手段は、前記認識辞書の読み出しに際して当該
認識辞書の前記辞書サイズ情報を読み出し、読み出した
辞書サイズ情報に基づいて前記認識辞書の読み出しに必
要な時間を予測演算し、その読み出しに必要な予測時間
をもとに最適な長さの応答音声を構築して前記音声出力
手段に出力するように指示することを特徴とする音声対
話装置。
1. A speech input means, a recognition dictionary storage means for storing a plurality of recognition dictionaries, a response speech storage means for storing a response speech, a speech output means, and a control means, wherein the control means comprises: Calculating the degree of coincidence between the input voice from the voice input means and the recognition target word in the recognition dictionary, reading the next recognition dictionary based on the calculation result, and selecting an appropriate response voice to output the voice In the voice interactive device for instructing the recognition dictionary to output, the recognition dictionary storage unit stores dictionary size information for each of the plurality of recognition dictionaries, and the control unit reads the recognition dictionary when reading the recognition dictionary. The dictionary size information is read, the time required for reading the recognition dictionary is calculated based on the read dictionary size information, and the optimum length is calculated based on the estimated time required for reading. Speech dialogue system to build a response voice, characterized in that an instruction to output to the sound output unit.
【請求項2】 前記制御手段は、前記応答音声の読み上
げ速度を調節して前記最適な長さの応答音声を構築して
出力するよう前記音声出力手段に指示することを特徴と
する請求項1に記載の音声対話装置。
2. The apparatus according to claim 1, wherein the control unit instructs the voice output unit to adjust a reading speed of the response voice to construct and output the response voice having the optimum length. The speech dialogue device according to 1.
【請求項3】 前記制御手段は、前記応答音声のあらか
じめ設定されている所定の位置に無音部分を挿入するこ
とによって前記最適な長さの応答音声を構築して出力す
るよう前記音声出力手段に指示することを特徴とする請
求項1に記載の音声対話装置。
3. The sound output means to construct and output a response sound of the optimal length by inserting a silent part at a predetermined position of the response sound, the control means being configured to output the response sound. The voice interaction device according to claim 1, wherein the instruction is given.
【請求項4】 前記制御手段は、長さの異なる複数の前
記応答音声の中から最適な長さの応答音声を選択して出
力するよう前記音声出力手段に指示することを特徴とす
る請求項1に記載の音声対話装置。
4. The apparatus according to claim 1, wherein the control unit instructs the voice output unit to select and output a response voice having an optimum length from among the plurality of response voices having different lengths. 2. The voice interaction device according to 1.
【請求項5】 前記認識辞書記憶手段は、他の装置から
要求されるデータを保有するデータ記憶手段と兼用であ
り、 前記制御手段は、前記データ記憶手段から前記認識辞書
の読み出しに必要な時間を予測演算することを特徴とす
る請求項1〜4のいずれかに記載の音声対話装置。
5. The recognition dictionary storage means is also used as a data storage means for holding data required from another device, and the control means is configured to read a time required for reading the recognition dictionary from the data storage means. The speech dialogue device according to any one of claims 1 to 4, wherein the speech dialogue device performs a prediction operation.
【請求項6】 前記認識辞書記憶手段は、前記制御手段
にネットワークによって接続され、 前記制御手段は、前記認識辞書の読み出しに必要な時間
を前記ネットワークの負荷をも考慮して予測演算するこ
とを特徴とする請求項1〜4のいずれかに記載の音声対
話装置。
6. The recognition dictionary storage means is connected to the control means by a network, and the control means predicts and calculates a time required for reading the recognition dictionary in consideration of a load on the network. The voice interaction device according to claim 1, wherein
JP11196387A 1999-07-09 1999-07-09 Voice interactive device Pending JP2001022384A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11196387A JP2001022384A (en) 1999-07-09 1999-07-09 Voice interactive device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11196387A JP2001022384A (en) 1999-07-09 1999-07-09 Voice interactive device

Publications (1)

Publication Number Publication Date
JP2001022384A true JP2001022384A (en) 2001-01-26

Family

ID=16357036

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11196387A Pending JP2001022384A (en) 1999-07-09 1999-07-09 Voice interactive device

Country Status (1)

Country Link
JP (1) JP2001022384A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002304192A (en) * 2001-04-05 2002-10-18 Denso Corp Voice recognition device
JP2007080242A (en) * 2005-08-15 2007-03-29 Kobe Steel Ltd Information processing apparatus and program for same
JP2014119716A (en) * 2012-12-19 2014-06-30 Fujitsu Ltd Interaction control method and computer program for interaction control
JP2014199323A (en) * 2013-03-29 2014-10-23 富士通株式会社 Voice interactive device and interaction control method

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002304192A (en) * 2001-04-05 2002-10-18 Denso Corp Voice recognition device
JP4724943B2 (en) * 2001-04-05 2011-07-13 株式会社デンソー Voice recognition device
JP2007080242A (en) * 2005-08-15 2007-03-29 Kobe Steel Ltd Information processing apparatus and program for same
JP2014119716A (en) * 2012-12-19 2014-06-30 Fujitsu Ltd Interaction control method and computer program for interaction control
JP2014199323A (en) * 2013-03-29 2014-10-23 富士通株式会社 Voice interactive device and interaction control method

Similar Documents

Publication Publication Date Title
US11437041B1 (en) Speech interface device with caching component
KR100812109B1 (en) Natural language interface control system
US9805722B2 (en) Interactive speech recognition system
JP3955880B2 (en) Voice recognition device
TWI281146B (en) Apparatus and method for synthesized audible response to an utterance in speaker-independent voice recognition
US5797116A (en) Method and apparatus for recognizing previously unrecognized speech by requesting a predicted-category-related domain-dictionary-linking word
KR101247578B1 (en) Adaptation of automatic speech recognition acoustic models
US6343270B1 (en) Method for increasing dialect precision and usability in speech recognition and text-to-speech systems
JP4283984B2 (en) Speech recognition apparatus and method
JP3459712B2 (en) Speech recognition method and device and computer control device
JP6111802B2 (en) Spoken dialogue apparatus and dialogue control method
JP2021140134A (en) Method, device, electronic apparatus, computer readable storage medium, and computer program for recognizing speech
JP2002099404A (en) Conversation controlling method and its equipment
JP3000999B1 (en) Speech recognition method, speech recognition device, and recording medium recording speech recognition processing program
JP2001022384A (en) Voice interactive device
JP3249567B2 (en) Method and apparatus for converting speech speed
JP2008116643A (en) Audio generation apparatus
JP3059398B2 (en) Automatic interpreter
JP2002049390A (en) Voice recognition method, server and voice recognition system
JP3513232B2 (en) Information processing apparatus and control method thereof
JP6044490B2 (en) Information processing apparatus, speech speed data generation method, and program
JP2003141113A (en) Translating device, voice translating method and program
JP2002132291A (en) Natural language interaction processor and method for the same as well as memory medium for the same
JP4979336B2 (en) Audio output device
JPH07199989A (en) Speech recognition device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060529

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090414

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090512

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090915