JP2007187799A - Voice interaction apparatus and voice interactive method - Google Patents

Voice interaction apparatus and voice interactive method Download PDF

Info

Publication number
JP2007187799A
JP2007187799A JP2006004761A JP2006004761A JP2007187799A JP 2007187799 A JP2007187799 A JP 2007187799A JP 2006004761 A JP2006004761 A JP 2006004761A JP 2006004761 A JP2006004761 A JP 2006004761A JP 2007187799 A JP2007187799 A JP 2007187799A
Authority
JP
Japan
Prior art keywords
voice
signal
speech
possibility
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006004761A
Other languages
Japanese (ja)
Other versions
JP4752516B2 (en
Inventor
Daisuke Saito
大介 斎藤
Minoru Togashi
実 冨樫
Takeshi Ono
健 大野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nissan Motor Co Ltd
Original Assignee
Nissan Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nissan Motor Co Ltd filed Critical Nissan Motor Co Ltd
Priority to JP2006004761A priority Critical patent/JP4752516B2/en
Publication of JP2007187799A publication Critical patent/JP2007187799A/en
Application granted granted Critical
Publication of JP4752516B2 publication Critical patent/JP4752516B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a voice interaction apparatus capable of alleviating influence of estrangement of voice quality in the voice interaction apparatus which generates a response voice signal by recognizing and understanding an input voice signal. <P>SOLUTION: The voice interaction apparatus adjusts an output voice signal in a response voice output section 140 so that, regarding possibility of response voice signal omission, difference of acoustic characteristics of the voice signal (one among the fundamental frequency, energy value, or amplitude quotient (AQ) value) or difference of speech speed etc. may become lower than a predetermined value. This adjustment is performed by inserting a pause into a connection section of the voice signal, or by reducing change in the speech speed, or by reducing change of the fundamental frequency. <P>COPYRIGHT: (C)2007,JPO&INPIT

Description

本発明は、音声認識機能および音声出力機能を備えた音声対話装置に関する。特に、本発明は、音声出力機能によるシステム音声信号と、ユーザ発話音声信号とを組み合わせて音声出力を行う音声対話装置の性能向上に係る。   The present invention relates to a voice interactive apparatus having a voice recognition function and a voice output function. In particular, the present invention relates to an improvement in the performance of a voice interaction apparatus that outputs a voice by combining a system voice signal by a voice output function and a user utterance voice signal.

近年、音声認識及び音声出力機能を備え、システムすなわち音声対話装置とユーザとの間で音声対話を行うことが可能な音声対話装置が提供されている。音声対話の基本フローでは、ユーザがある目的を達成するためにシステムに向かって音声を入力し、システムは該音声を認識した結果、対応する応答音声を出力する。一度のユーザ発話でタスク達成のための十分な情報が得られた場合にはその旨を提示する音声出力を行って終了するが、ユーザの発話内容が理解できず、再度入力を要する場合や、発話内容の理解には成功しても、タスクの達成に十分な情報が該発話内容に含まれず、更なる情報の入力を要する場合は、複数回(ターン)に亘ってユーザとシステム側とで音声によるインタラクション(対話)を行う。   2. Description of the Related Art In recent years, there has been provided a voice dialogue apparatus that has voice recognition and voice output functions and can perform voice dialogue between a system, that is, a voice dialogue apparatus and a user. In the basic flow of voice interaction, a user inputs a voice toward the system in order to achieve a certain purpose, and the system outputs the corresponding response voice as a result of recognizing the voice. When sufficient information for accomplishing the task is obtained with a single user utterance, it will exit with audio output indicating that, but if the user's utterance content cannot be understood and input is required again, Even if the content of the utterance is successful, information sufficient to accomplish the task is not included in the content of the utterance and it is necessary to input more information. Perform voice interaction.

通常音声対話システムでは、予めナレータによる発話を録音した録音音声や音声合成を用いて音声出力を行う。こうした音声出力手法の中には、録音音声と合成音声を結合して出力する機能を備えたものもある。例えばナビゲーション装置であれば、共通的な言い回し「電話をかけます」「目的地に設定します」等をナレータの録音音声とし、「いち(1)」「に(2)」等の数字や、「東京ディズニーランド」のような施設名称を合成音声とし、「12―2456へ電話します」や「”東京ディズニーランド”を目的地に設定します」等の音声を生成して出力する方法である。   In a normal voice dialogue system, voice output is performed using a recorded voice or voice synthesis in which a narrator's utterance is recorded in advance. Some of these voice output methods have a function of combining and outputting a recorded voice and a synthesized voice. For example, in the case of a navigation device, the common phrases such as “call me” and “set as destination” are the voices recorded by the narrator, and numbers such as “1 (1)” and “(2)” A facility name such as “Tokyo Disneyland” is used as a synthesized voice, and a voice such as “I will call 12-2456” or “I will set“ Tokyo Disneyland ”as the destination” is generated and output.

また、今後大規模な音声対話によるエージェントシステム等を構築する場合や、ナビゲーションシステムと携帯電話等、双方で音声認識・出力機能を持つ機器を協調動作させることを考えた場合、複数の音声出力機能を組み合わせて用いる可能性がある。
別の例として、直前に発話されたユーザ音声の一部断片を切り取り、これを応答音声に挿入した結合音声を生成して提示するシステムがある。これは音声認識に「信頼度」と呼ぶ認識単語の確からしさを示す指標を付与する機能を備えた音声対話装置における応用方法である。認識信頼度に関しては下記「非特許文献1」に詳しく記述されている。
In addition, when constructing an agent system with a large-scale voice interaction in the future, or considering cooperating devices with voice recognition / output functions such as navigation systems and mobile phones, multiple voice output functions May be used in combination.
As another example, there is a system that generates and presents a combined voice in which a part of a user voice spoken immediately before is cut out and inserted into a response voice. This is an application method in a speech dialogue apparatus having a function of giving an index indicating the probability of a recognized word called “reliability” to speech recognition. The recognition reliability is described in detail in “Non-Patent Document 1” below.

ここで、認識単語列に信頼度(Word confidence)を付与して出力する機能を備えた音声認識装置を用いた音声対話の例を以下に説明する。以下は、音声対話によるナビゲーション装置において目的地を設定する場合の例である。ここでは、ユーザが「神奈川県の横浜駅まで」と発話入力した場合に、音声認識装置は「神奈川県」については高い信頼度で認識し、「横浜駅」については低い信頼度で認識されているとする。この時、「神奈川県の“YOKOHAMAEKI”の部分がわかりませんでした」と応答音声を出力する。ここで「神奈川県の」及び「の部分が分かりませんでした」の部分はナレータの音声あるいは音声合成すなわちシステム音声が用いられ、「YOKOHAMAEKI」の部分は、直前のユーザの発話、すなわち「神奈川県の横浜駅」の後半部分である「横浜駅」を切り出してきた音声である。ユーザは、このシステム応答音声から、後半部分が認識できなかったことを理解し、「横浜駅」部分を再度発話する。この時システムが高信頼度で「横浜駅」を認識し、応答として「神奈川県の横浜駅ですね。目的地に設定します」と応答する。   Here, an example of a voice conversation using a voice recognition device having a function of giving a confidence word (Word confidence) to a recognized word string and outputting the same will be described below. The following is an example of setting a destination in a navigation apparatus using voice conversation. Here, when the user utters “To Yokohama Station in Kanagawa Prefecture”, the speech recognition device recognizes “Kanagawa Prefecture” with high reliability and “Yokohama Station” with low reliability. Suppose that At this time, a response voice is output saying, “I could not understand the“ YOKOHAMAEKI ”part of Kanagawa Prefecture”. Here, “Kanagawa” and “I didn't know the part” used Narrator's voice or voice synthesis, that is, system voice, and “YOKOHAMAEKI” was the last user's utterance, ie “Kanagawa This is an audio clip of “Yokohama Station”, which is the latter half of “Yokohama Station”. The user understands from the system response voice that the latter half cannot be recognized, and speaks the “Yokohama Station” portion again. At this time, the system recognizes “Yokohama Station” with high reliability, and responds with “It is Yokohama Station in Kanagawa Prefecture. Set as the destination”.

尚、ユーザ発話中の「横浜駅」部分を切り出すためには、「横浜駅」と言う単語の発話された位置を特定する必要があるが、例えば、認識辞書で“県名”+“ガベージ”+“駅名”という辞書を用意し、“駅名”部分の単語との尤度が最大になる区間を対象区間とする方法等によって抽出が可能である。ここでガベージとは、辞書に登録された単語以外の未知語、間投詞(「の」「が」等)を吸収するために設けられるマッチング対象オブジェクトである。   In order to cut out the “Yokohama Station” portion in the user's utterance, it is necessary to specify the position where the word “Yokohama Station” is uttered. For example, “prefecture name” + “garbage” in the recognition dictionary + A dictionary called “station name” is prepared, and extraction is possible by a method in which a section having the maximum likelihood with the word of the “station name” portion is set as a target section. Here, the garbage is a matching target object provided to absorb unknown words other than words registered in the dictionary and interjections (such as “no” and “ga”).

以上のように、ユーザ音声をシステム音声に挿入した応答を出力することで、ユーザはどの単語が認識され、どの単語が認識されなかったのかを知ることが出来ると共に、仮に「横浜駅」の部分を発話するときに不意の雑音等が発生していたとすると、出力される応答音声にもその雑音が含まれるため、認識されなかった原因について直感的に知ることが出来る。こうした適切な音声フィードバックを介することによりユーザに対してスムーズな対話を提供できる。
Akinobu Lee,Kiyohiso Shikano,and Tatsuya Kawahara,"Real-time word confidence scoring using local posterior probabilities on tree trellis search," In Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP2004)、 Vol.I, pp.793−796, May 2004.
As described above, by outputting a response in which the user voice is inserted into the system voice, the user can know which word is recognized and which word is not recognized. If an unexpected noise or the like is generated when the user speaks, the output response voice also includes the noise, so that the cause of the recognition failure can be intuitively known. A smooth dialogue can be provided to the user through such appropriate audio feedback.
Akinobu Lee, Kiyohiso Shikano, and Tatsuya Kawahara, "Real-time word confidence scoring using local posterior probabilities on tree trellis search," In Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP2004), Vol. I, pp. 793-796, May 2004.

上述したような複数の音声出力機能を合わせて用いる音声対話装置では、複数の種類の「声」が結合されて出力されることになるが、こうした結合音声では、結合前後で声の高さや大きさ、話す速度などによって人の感じる声の特徴、いわゆる「声質」が大きく異なる場合がある。例えば合成音声とナレータの音声の声質は乖離が大きく、前述したユーザの音声とシステム音声とを連結させる技術においては、前者が男性の声、後者が女性の声となるようなケースも考えられ、声質の乖離は顕著なものとなる。   In a spoken dialogue apparatus that uses a plurality of voice output functions as described above, a plurality of types of “voices” are combined and output. Depending on the speaking speed, the characteristics of the voice felt by the person, the so-called “voice quality”, may vary greatly. For example, the voice quality of the synthesized voice and the voice of the narrator is large, and in the technology for connecting the user voice and the system voice described above, the former may be a male voice and the latter may be a female voice. The voice quality divergence becomes remarkable.

こうした声質の乖離を含む音声を提示した時、ユーザの聴覚特性が影響し、声質が変化した直後の音声を聞き落とす可能性が高いことが知られている(例えば、Robert F. Potter, “The Effects of Voice Changes on Orienting and Immediate Cognitive Overload in Radio Listeners” Media Psycology, 2000, Vol.2, pp.147-177)。この聴覚特性とは、普段我々が「音を聴く」時に働くフィルタに相当する機能のことである。すなわち我々は入力される多くの音情報から、自分に必要な刺激信号を選別(フィルタリング)する構造を持っており、車室内のような雑音の大きい環境でも必要な音声(ナビゲーションシステムの音声等)を聴き取ることができる。しかしながら、注目している音の特徴が急激に変化した場合には、このフィルタを作り直さなければならないが、フィルタが適応するまでのタイムラグが生じるため、その間の音が正常にフィルタリングできず、聞き落としが発生するものと考えられる。   It is known that when voices containing such voice quality divergence are presented, there is a high possibility that the voice immediately after the voice quality changes will be missed because of the user's auditory characteristics (for example, Robert F. Potter, “The Effects of Voice Changes on Orienting and Immediate Cognitive Overload in Radio Listeners ”Media Psycology, 2000, Vol.2, pp.147-177). This auditory characteristic is a function equivalent to a filter that normally works when we “listen to sound”. In other words, we have a structure that filters (stimulates) the necessary stimulus signals from a lot of input sound information, and the necessary sounds (such as navigation system sounds) even in noisy environments such as in the passenger compartment. Can be heard. However, if the characteristics of the sound of interest change drastically, this filter must be recreated. However, there is a time lag until the filter adapts, so the sound during that time cannot be filtered normally and is overlooked. Is considered to occur.

例えば、予め用意されているナレータ音声と、ユーザの発話音声とを結合した応答音声を考えた場合、これら両音声の結合部分直後の音声の聞き落としの可能性が高くなってしまう。特に、ユーザの発話が低い信頼度で認識された場合、この低い信頼度の発話音声部分をそのままユーザの録音音声として提示することで、ユーザにとって直感性の高いインタフェースを提供するのが重要な目的である本発明を利用するシステムにおいてこのような聞き落としが発生してしまうと、この手法の有効性が十分に発揮されないと言う問題があった。
本発明は、こうした問題に鑑み、応答音声中での声質の乖離による聞き落としを低減する音声対話装置および音声対話方法の提供を目的とする。
For example, when considering a response voice in which a narrator voice prepared in advance and a user's utterance voice are combined, there is a high possibility that the voice immediately after the combined portion of these two voices will be missed. In particular, when a user's utterance is recognized with low reliability, it is important to provide a user-intuitive interface by presenting the low-reliability utterance voice as it is as the user's recorded voice. If such an oversight occurs in a system using the present invention, there is a problem that the effectiveness of this method is not fully exhibited.
In view of these problems, an object of the present invention is to provide a voice dialogue apparatus and a voice dialogue method that can reduce oversight due to voice quality divergence in response voice.

前記問題を達成するため、本発明においては、声質の乖離を検出する機能を有し、この乖離に基づく聞き落とし可能性の程度を示す聞き落とし可能度を検出し、この聞き落とし可能度が予め定められた値以下となるように出力音声の調整を行うことを基本的手段とした。すなわち、音声入力部から入力された音声信号は音声理解部で認識理解され、この結果として単語列を得る。この単語列による理解結果に基づき複数の音声生成部において生成された音声信号を選択し連結する。次いで上記音声信号の連結に用いた各音声信号の声質の乖離を予め定められたパラメータについて調べ、連結部分を中心に聞き落とし可能度の検出を聞き落とし可能度検出部で行う。この検出結果に基づき音声調整部で聞き落とし可能度を低減するように音声信号の声質調整を行う。   In order to achieve the above-mentioned problem, the present invention has a function of detecting a voice quality divergence, detects the possibility of being missed based on this divergence, and detects the possibility of hearing loss in advance. The basic means is to adjust the output sound so that it is below a predetermined value. That is, the speech signal input from the speech input unit is recognized and understood by the speech understanding unit, and as a result, a word string is obtained. Based on the understanding result by the word string, the voice signals generated in the plurality of voice generation units are selected and connected. Next, the divergence of the voice qualities of the respective audio signals used for the connection of the audio signals is checked with respect to a predetermined parameter, and the possibility of overhearing is detected around the connected portion by the overhearing possibility detecting unit. Based on the detection result, the voice adjustment of the voice signal is performed by the voice adjustment unit so as to reduce the possibility of being overheard.

上記構成により本発明においては、入力音声信号を認識・理解した結果に基づいて声質の異なる音声を結合して応答音声を生成する際に、これら声質の乖離を検出し、この乖離に基づくユーザの聞き落としの可能性を定量化し、この聞き落とし可能度が所定の値以下となるように各結合音声を調整する機能を持たせるようにした。これにより、複数の声質を持つ音声を結合して出力する場合、ユーザに聞き落とされる可能性を抑制した聞き易い音質の音声出力の提示を可能にした。   With the above configuration, in the present invention, when voices with different voice qualities are combined based on the result of recognizing and understanding the input voice signal to generate response voices, the voice quality divergence is detected, and the user's The possibility of overhearing was quantified, and a function to adjust each combined speech so that the overhearing possibility was below a predetermined value was provided. As a result, when voices having a plurality of voice qualities are combined and output, it is possible to present a voice output with easy-to-hear sound quality that suppresses the possibility of being overlooked by the user.

(実施の形態1)
本実施の形態1において、本発明の基本構成を説明する。図1はこの基本構成を示すもので、図1の矢印(a)は入力信号を、矢印(b)は出力信号を示している。図1に示すように、本発明においては、音声入力部110、音声理解部120、応答音声管理部130、応答音声出力部140から構成されている。
(Embodiment 1)
In the first embodiment, the basic configuration of the present invention will be described. FIG. 1 shows this basic configuration. In FIG. 1, an arrow (a) indicates an input signal, and an arrow (b) indicates an output signal. As shown in FIG. 1, the present invention includes a voice input unit 110, a voice understanding unit 120, a response voice management unit 130, and a response voice output unit 140.

以下、図1により本実施の形態1を構成する各部について説明する。
図1において、音声入力部110は使用者の発話音声を入力(a)し、電気信号である音声信号に変換するものであり、例えば図2においてマイクロフォン201とAD変換部202とを組み合わせることで実現される。図1における音声理解部120は、前記音声入力部110から入力された音声信号に対する音声認識を行い、これにより得られた単語列情報を理解結果として取得する音声認識機能を持つものである。応答音声管理部130は、複数の音声生成部130a〜130nを含んでおり、音声理解部120の理解結果に基づき、出力対象となる音声信号(以下、出力対象音声信号)をそれぞれの音声生成部130a〜130nから選択生成し、これら複数の生成された出力対象音声信号を連結し、結合音声信号を出力する機能を持つものである。この音声生成部130a〜130nには、一般的な音声合成方法や、予めナレータによって録音された音声データベースから必要な音声を選択する録音音声再生方法などを用いることができる。
Hereafter, each part which comprises this Embodiment 1 is demonstrated with reference to FIG.
In FIG. 1, a voice input unit 110 inputs (a) a user's uttered voice and converts it into a voice signal that is an electrical signal. For example, in FIG. 2, a microphone 201 and an AD conversion unit 202 are combined. Realized. The speech understanding unit 120 in FIG. 1 has a speech recognition function that performs speech recognition on the speech signal input from the speech input unit 110 and acquires word string information obtained thereby as an understanding result. The response voice management unit 130 includes a plurality of voice generation units 130a to 130n, and based on the understanding result of the voice understanding unit 120, the voice signal to be output (hereinafter, output target voice signal) is output to each voice generation unit. It has a function of selecting and generating from 130a to 130n, connecting these generated output target audio signals, and outputting a combined audio signal. For the voice generation units 130a to 130n, a general voice synthesis method, a recorded voice reproduction method for selecting a necessary voice from a voice database recorded in advance by a narrator, or the like can be used.

応答音声出力部140は、上記結合音声信号の連結に用いた各出力対象音声信号の声質の乖離すなわち声質の差異を検出する機能と、この声質の乖離に基づく連結部分を中心にユーザにおける聞き落とし可能性の程度を示す聞き落とし可能度を算出する聞き落とし可能度検出部141と、この聞き落とし可能度の検出結果に基づき、聞き落とし可能度が所定の値以下となるように、上記の生成された各出力対象音声信号間の声質の乖離が少なくなるように上記の生成された結合音声信号の声質調整を行う音声調整部142とを含むものである。以上、音声理解部120から応答音声出力部140までの各機能は図2における演算装置203と記憶装置204とを組み合わせることで実現することができる。   The response voice output unit 140 detects the voice quality divergence of each output target voice signal used for the connection of the combined voice signals, that is, the voice quality difference, and the user's oversight mainly on the connection portion based on the voice quality divergence. The above-described generation possibility detection unit 141 that calculates the possibility of overhearing that indicates the degree of possibility and the above-described generation so that the overhearing possibility is less than or equal to a predetermined value based on the detection result of the overhearing possibility. And a voice adjustment unit 142 that adjusts the voice quality of the generated combined voice signal so that the difference in voice quality between the output target voice signals is reduced. As described above, each function from the voice understanding unit 120 to the response voice output unit 140 can be realized by combining the arithmetic device 203 and the storage device 204 in FIG.

上記構成を用いた装置の具体的な動作を、対話機能を持つナビゲーション装置における目的地設定のタスクを例として説明する。
この場合、図1における音声理解部120は図3(a)に示すような文法構造の辞書を持つ音声認識機能を備える。図3(a)の文法辞書によれば、県名ノード(401a)には402aに示すよう県名単語が格納されている。更に県名401aに引き続き駅名ノード(404a)が接続されており、405aのような各県に対応する駅名が格納されている(便宜上405aは神奈川県に接続される駅名だけを示しているが、実際には各県毎に駅名が格納されており、対応する県名と接続されている)
。この辞書構成によって、「県名+駅名」の発話が認識可能であり、例えば、「北海道室蘭市」「神奈川県厚木市」のような入力も認識可能に出来る。また、駅名ノード(404a)の前後に「Garbage」と記されたノードがある。これは間投詞や前後の駅名あるいは県名ノードに格納されていない単語、すなわち未知語などを吸収するためのノードであり、これにより例えば「神奈川県の横浜駅まで」等と発話した場合に、“の”や“まで”の部分をGarbageが吸収することにより、結果として単語「神奈川県」と「横浜駅」を正しく得ることが可能である。
A specific operation of the apparatus using the above configuration will be described by taking a destination setting task in a navigation apparatus having an interactive function as an example.
In this case, the voice understanding unit 120 in FIG. 1 has a voice recognition function having a grammatical dictionary as shown in FIG. According to the grammar dictionary of FIG. 3A, a prefecture name word is stored in the prefecture name node (401a) as indicated by 402a. Further, the station name node (404a) is connected to the prefecture name 401a, and the station name corresponding to each prefecture such as 405a is stored (for convenience, 405a shows only the station name connected to Kanagawa prefecture, Actually, the station name is stored for each prefecture and connected to the corresponding prefecture name)
. With this dictionary structure, an utterance of “prefecture name + station name” can be recognized, and for example, inputs such as “Muroran City, Hokkaido” and “Atsugi City, Kanagawa Prefecture” can also be recognized. In addition, there is a node labeled “Garbage” before and after the station name node (404a). This is a node that absorbs interjections, words before and after the station name or prefecture name node, that is, an unknown word, and so on. For example, if you say "To Yokohama Station in Kanagawa" Garbage absorbs the parts of “to” and “to”, and as a result, the words “Kanagawa Prefecture” and “Yokohama Station” can be obtained correctly.

ただし、上記構成の辞書を持つと、全国の県名及び駅を対象単語として待ち受けるため、単語を展開するために多くのメモリを必要とする。そこで、必要メモリを削減する方法を図3(b)及び図3(c)示した。この手法は発話音声を複数段階に分けて認識する方法であり、先ず第1段階の認識にて図3(b)の辞書のみを展開して県名部分を認識し、この認識結果に基づき、対応する県についての駅名が格納された図3(c)の辞書を展開して駅名を認識する。この手法により一度に展開する辞書は、県名辞書か単独県下の駅名辞書であるため、消費するメモリは飛躍的に小さくすることが出来る。   However, having a dictionary with the above configuration waits for prefecture names and stations throughout the country as target words, so a large amount of memory is required to expand the words. Therefore, a method for reducing the required memory is shown in FIGS. This method is a method for recognizing speech speech in a plurality of stages. First, in the first stage recognition, only the dictionary of FIG. 3 (b) is expanded to recognize the prefecture name part, and based on this recognition result, The station name is recognized by developing the dictionary in FIG. 3C in which the station name for the corresponding prefecture is stored. A dictionary developed at once by this method is a prefecture name dictionary or a station name dictionary of a single prefecture, so that the memory consumed can be drastically reduced.

次に、目的地設定タスクにおいて、応答音声管理部130は前記音声理解部120の理解結果に基づき、ユーザに対する応答音声を生成する。この時、応答音声管理部130は図1に示したように複数の音声生成部130a〜130nを持っており、この中から適切な音声生成部130a〜130nの生成した音声信号を選択する。複数の音声入力手段からそれぞれ一つ以上の音声生成結果を取得し、これらを連結する機能も有する。具体的には、「(を)目的地に設定します」、「渋滞のためルートを再計算します」といったナビゲーション機能に関する出力音声信号を録音データとして保持した音声生成部130a、「(に)電話をします」、「(から)電話です」「(を)ダウンロードします」といった外部通信機能に関する出力音声信号を録音データとして保持した音声生成部130b、前記音声理解部120が理解対象とする「神奈川県」、「横浜駅」といった県名、施設名、または「日本太郎(さん)」、「横浜花子(さん)」といったユーザの登録データや携帯電話のアドレス帳データ等に含まれる氏名等を合成音声として生成する音声生成部130c等を持ち、これらを組み合わせた結合音声「神奈川県、横浜駅 + ‥を目的地に設定します」、「日本太郎さんに電話をします」等を生成する。   Next, in the destination setting task, the response voice management unit 130 generates a response voice for the user based on the understanding result of the voice understanding unit 120. At this time, the response voice management unit 130 has a plurality of voice generation units 130a to 130n as shown in FIG. 1, and selects a voice signal generated by the appropriate voice generation units 130a to 130n from these. It also has a function of acquiring one or more voice generation results from a plurality of voice input means and connecting them. Specifically, an audio generation unit 130a that holds an output audio signal related to a navigation function such as “() is set as the destination” and “recalculates route due to traffic jam” as recording data, “(ni) The voice generation unit 130b that holds the output voice signal related to the external communication function such as “I will make a phone call”, “I am a (from) phone”, “I will download ()” as the recording data, and the voice understanding unit 120 is the object of understanding. Prefectural and facility names such as “Kanagawa” and “Yokohama Station”, or names included in user registration data and mobile phone address book data such as “Taro Nihon” and “Hanako Yokohama” Has a voice generation unit 130c, etc., which generates voice as a synthesized voice, and combines these voices into a combined voice “Kanagawa Prefecture, Yokohama Station + ...... is set as the destination”, “Nippon Taro I'll call you. "

ただし、ここでの結合音声は後述の応答音声出力部140にて調整を受けることを前提とするため、必ずしもこの時点で実際の結合音声データとして生成する必要は無く、音声生成部130a〜130nから得られる音声データへのインデックスとその連結順序が参照できる形式で準備されていれば良い。   However, since the combined voice here is premised on being adjusted by a response voice output unit 140 described later, it is not always necessary to generate the combined voice data as actual combined voice data at this time. It suffices if the index to the obtained audio data and the connection order thereof can be referred to in a format that can be referenced.

ここで、複数の音声生成機能を有する理由について説明する。音声出力の品質を向上させるには、全ての音声応答文をナレータによる録音音声として統一しておくべきであろうが、パターン数が膨大であること、データの更新によって新規対話が増加する場合に再度録音しなおさなければならない等、実用上困難な場合が多い。このため、ナレータの音声と音声合成とを組み合わせて用いることが一般的である。これによって少なくともナレータと合成音声の2種類の声質がシステム上に存在することになる。また、例えばナビゲーション装置と携帯電話等の複数機器を接続して用いるシステム等を考えると、それぞれの機器が個別に音声認識・出力機能を持つ可能性があり、これを統合・協調して用いる場合にも、やはり複数の声質が存在することになる。こうしたシステム構築上の問題とは別に、ユーザビリティーの観点からあえて音声出力を複数持たせることも考えられる。例えばナビゲーション関係の機能は女性のナレータ音声とし、電話・ダウンロード接続などのネットワーク関係の機能は男性のナレータ音声としてそれぞれ出力する構成とすることで、ユーザは出力音声の男女の違いからナビゲーション機能かネットワーク機能かを瞬時に判断することができるため、使い勝手が向上する。   Here, the reason for having a plurality of sound generation functions will be described. In order to improve the quality of voice output, all voice response sentences should be unified as recorded voices by Narrator. However, when the number of patterns is enormous and new dialogs increase due to data update It is often difficult in practice, such as having to re-record. For this reason, it is common to use a narrator's voice and voice synthesis in combination. As a result, at least two kinds of voice qualities, narrator and synthesized voice, exist on the system. In addition, for example, when considering a system that uses a navigation device and a plurality of devices such as a mobile phone connected, there is a possibility that each device may have a voice recognition / output function individually. However, there are still multiple voice qualities. Apart from these system construction problems, it is also possible to have multiple audio outputs from the viewpoint of usability. For example, navigation-related functions are configured to output female narrator voices, and network-related functions such as telephone / download connections are configured to output male narrator voices. Usability is improved because it can be instantly determined whether it is a function or not.

応答音声出力部140においては内蔵の聞き落とし可能度検出部141により、前記応答音声管理部130において結合音声信号を生成した場合に、連結対象となるそれぞれの音声信号における「声質の差異(声質の乖離)」として検出し、該差異から聞き落とし可能度を決定する。ここで、算出する声質の差異としては、下記の音声信号の音響的特徴の乖離を示すパラメータの少なくとも一つを含み
基本周波数
音声エネルギー値
AQ(Amplitude Quotient)値
発話速度
等を用いることができる、声質の差異を示すこれらパラメータの算出の仕方は以下の通りである。
1. 基本周波数は、F0(エフゼロ)とも呼ばれる。これは声帯振動によって発生する周波数であり、「声の高さ」を数値化したものである。一般的な成人男性では150Hz前後、女性では250Hzから300Hz程度と言われている。尚、声の高さの指標として「ピッチ」という言葉が用いられる場合もあるが、これは有声音声での音声波形の1周期分の時間長であり、ピッチの逆数がF0に相当する。F0は、音声波形に対しLPC逆フィルタを通して残差波形を求め、これに低域通過フィルタを通した後、自己相関関数
In the response voice output unit 140, when the combined voice signal is generated in the response voice management unit 130 by the built-in overhearing possibility detection unit 141, “voice quality difference (voice quality ) ”And determine the possibility of oversight from the difference. Here, the difference in voice quality to be calculated includes at least one of parameters indicating the divergence of the acoustic characteristics of the following audio signal, and the fundamental frequency audio energy value
AQ (Amplitude Quotient) value speech rate and the like can be used, and the method of calculating these parameters indicating the difference in voice quality is as follows.
1. The fundamental frequency is also called F0 (F zero). This is a frequency generated by vocal fold vibration, and is a numerical value of “voice pitch”. It is said that it is around 150 Hz for general adult men and about 250 to 300 Hz for women. Note that the word “pitch” may be used as an index of voice pitch, but this is the time length of one cycle of the speech waveform in voiced speech, and the reciprocal of the pitch corresponds to F0. F0 obtains the residual waveform through the LPC inverse filter for the speech waveform, passes through this through the low-pass filter, and then the autocorrelation function

Figure 2007187799
を求め、これを下記(数2)式
Figure 2007187799
Is calculated by the following formula (2)

Figure 2007187799
によって正規化した複数のピーク値の平均値(平均F0値)、或いは最大F0値と平均F0値との差分、あるいは複数のピーク値からパワーが50msの区間で6dB以上落ちないピーク値等として検出する。
2. 音声エネルギー値は、音声の大きさ、すなわち声量に関する指標として用いる。例えば(数3)式のように、音圧の自乗の区間平均値として算出する。
Figure 2007187799
Detected as an average value (average F0 value) of multiple peak values normalized by, a difference between the maximum F0 value and the average F0 value, or a peak value that does not drop more than 6 dB in a section where the power is 50 ms from the multiple peak values To do.
2. The voice energy value is used as an index related to the volume of the voice, that is, the voice volume. For example, it is calculated as a section average value of the square of the sound pressure as shown in the equation (3).

Figure 2007187799
尚、該音声エネルギー値の平方根をとったものをpとし、(数4)式
Figure 2007187799
Note that p is a value obtained by taking the square root of the voice energy value, and Equation 4

Figure 2007187799
として求められる「平均音圧」として扱ってもよい。
Figure 2007187799
May be treated as “average sound pressure”.

応答音声出力部においては、結合音声信号に含まれる複数の出力音声信号の声質の乖離を、前記の音響的特長の乖離として検出する機能を有しており、かつこの乖離が大きい場合には聞き落し可能度が大きいと判断し、この判断に基づき聞き落とし可能度が所定の値よりも小さくなるように複数の出力対象音声信号における基本周波数或いは音声エネルギーの少なくとも何れかを加工する機能を有している。
3. AQ(Amplitude Quotient)値は、ホルマントの影響を除いた声帯音源波形のピークツーピーク値と、その微分波形の最大ネガティブピークの比として定義される値で、声の柔らかさに関する指標と言われており、文献:P.Alku、T.Baeckstroem、and E.Vilkman、”Normalized amplitude quotient for parametrization of the glottal flow”、J.Acoust.Soc.Am.,vol.112,no.2,pp.701−710,2002に詳細に記述されている。
4. 発話速度は、例えば単位時間当たりの出力音素数、あるいは単位時間当たりのモーラ数として検出される。なお、モーラとは一定の時間的長さをもった音の分節単位のことで、「拍」とも呼ばれる。基本的に母音(「ア」等)、子音+母音(「カ」等)、半母音+母音(「ヤ」等)、子音+半母音+母音(「シャ」等)の組み合わせがある。モーラ数算出のため、音声生成部は、各音声に対応するテキストデータを保持しておく必要がある。尚、音声合成の場合はその機能自体に単語列(音素列)の入力を含むため、該入力文字列からモーラ数を算出できる。
The response voice output unit has a function of detecting the voice quality divergence of the plurality of output voice signals included in the combined voice signal as the divergence of the acoustic features, and if the divergence is large, the response voice output unit It has a function of processing at least one of the fundamental frequency and the sound energy in the plurality of output target audio signals so that the possibility of dropping is determined to be large based on this determination, and the possibility of being dropped is smaller than a predetermined value. ing.
3. The AQ (Amplitude Quotient) value is a value defined as the ratio of the peak-to-peak value of the vocal cord sound source waveform excluding the influence of the formant and the maximum negative peak of the differential waveform, and is said to be an index related to the softness of the voice. And literature: P.I. Alku, T .; Baeckstrom, and E.M. Vilkman, “Normalized amplified quota for parametricization of the global flow”, J. Am. Acoustic. Soc. Am. , Vol. 112, no. 2, pp. 701-710, 2002.
4). The speech rate is detected as, for example, the number of output phonemes per unit time or the number of mora per unit time. A mora is a segmental unit of sound having a certain length of time, and is also called a “beat”. There are basically combinations of vowels (such as “A”), consonants + vowels (such as “ka”), semi-vowels + vowels (such as “ya”), consonants + semi-vowels + vowels (such as “sha”). In order to calculate the number of mora, the voice generation unit needs to hold text data corresponding to each voice. In the case of speech synthesis, since the function itself includes input of a word string (phoneme string), the number of mora can be calculated from the input character string.

上記4指標の少なくとも一つを抽出して、その差異を比較した結果に基づき、聞き落とし可能度を算出する。ここで聞き落とし可能度は、前記声質の差異そのもの、すなわち図4(a)のような正比例の関係としても良いし、一つ以上の所定の閾値を設けて該閾値を上回るか否かで聞き落とし可能度を判断してもよい。図4(b)は、3種類の閾値a,b,c(横軸)を設け、これら各閾値に基づき、聞き落とし可能度をA,B,C(縦軸)のように決定する例である。   Based on the result of comparing at least one of the four indices and comparing the difference, the degree of missed hearing is calculated. Here, the possibility of being overlooked may be the difference in voice quality itself, that is, a direct proportional relationship as shown in FIG. 4 (a), or whether one or more predetermined thresholds are set and whether or not the threshold is exceeded. You may judge drop possibility. FIG. 4B shows an example in which three types of threshold values a, b, and c (horizontal axis) are provided, and the possibility of overhearing is determined as A, B, and C (vertical axis) based on these threshold values. is there.

応答音声出力部140の音声調整部142は、上記聞き落とし可能度が所定の値より大きい場合に、音声聞き落とし可能度抑圧のため音声信号の上記乖離を示す何れかの項目について声質調整を行う。
音声信号の声質調整方法としては、
A.各音声生成部130a〜130n出力音声信号の結合部境界にポーズ(所定の時間長の無音信号)を挿入する
B.連結対象の音声の基本周波数、音声エネルギー値、発話速度を加工する
等の方法を用いることができる。
前者のポーズを挿入する方法(A)に対しては、挿入するポーズ長の例を図5に示す。図5(a)は前述した図4(a)の方法で聞き落とし可能度を決定した場合の挿入ポーズ長の対応を示している。この方法では、聞き落とし可能度(横軸)の増加に伴い挿入するポーズの信号長(縦軸)が増加するように対応させている。ただし、挿入信号長の最大値を図5(a)中の“A”の値に制限している。“A”の値は、例えば1.5秒等とする。実際にはポーズ時間と聞き落としの関係から実験等により決定されることが好ましい。一方、前述した図4(b)の方法で聞き落とし可能度を決定した場合の挿入されるポーズ長の対応を図5(b)に示す。聞き落とし可能度がA,B,Cそれぞれの場合に挿入ポーズ長がα、β、γのように設定される。尚、より簡単な方法として、聞き落とし可能度の閾値を一つのみとし、該閾値を越える場合に一定のポーズ時間を一律で挿入するようにしても良い。
The voice adjustment unit 142 of the response voice output unit 140 performs voice quality adjustment on any item indicating the above divergence of the voice signal in order to suppress the voice drop-off possibility when the above-mentioned drop-off possibility is larger than a predetermined value. .
As a voice quality adjustment method of the audio signal,
A. B. Insert a pause (silent signal of a predetermined time length) at the boundary of the coupling parts of the output voice signals 130a to 130n. Methods such as processing the fundamental frequency, voice energy value, and speech rate of the speech to be connected can be used.
An example of the pose length to be inserted is shown in FIG. 5 for the former method (A) of inserting a pose. FIG. 5 (a) shows the correspondence of the insertion pose length when the possibility of overhearing is determined by the method of FIG. 4 (a) described above. In this method, the signal length (vertical axis) of the pause to be inserted is increased with an increase in the possibility of overhearing (horizontal axis). However, the maximum value of the insertion signal length is limited to the value “A” in FIG. The value of “A” is, for example, 1.5 seconds. Actually, it is preferably determined by an experiment or the like from the relationship between the pause time and the oversight. On the other hand, FIG. 5B shows the correspondence of the inserted pose length when the possibility of oversight is determined by the method of FIG. 4B described above. The insertion pause lengths are set as α, β, and γ when the possibility of hearing is A, B, and C, respectively. Note that as a simpler method, only one threshold may be used for the possibility of overhearing, and a fixed pause time may be uniformly inserted when the threshold is exceeded.

ポーズ挿入の具体例を図6に示す。図6は応答音声管理部130が音声、(a)「目的地を」及び(b)「に設定します」をナレータ音声から選択し、音声(c)「横浜駅」を合成音声として生成し、これを(a)+(c)+(b)の順に連結した「目的地を+横浜駅+に設定します」という応答音声を生成する場合を示している。聞き落とし可能度検出部141はナレータ音声(a),(b)と(c)の声質の乖離(声質の差異)を計算した結果、例えば図4(b)の“A”と得られる。続いて図5(b)を参照して、挿入するポーズの信号長を“α”と決定する。その結果、図6の右部分に示すように、音声信号(a)及び(c)の間、及び音声信号(c)と音声信号(b)の間にポーズ(p1)及び(p2)を応答音声出力部において挿入する。よって最終的に図6(d)に示すような音声信号へと加工され、出力される。   A specific example of pose insertion is shown in FIG. FIG. 6 shows that the response voice management unit 130 selects voice (a) “Destination” and (b) “Set to” from the narrator voice, and generates voice (c) “Yokohama Station” as synthesized voice. This shows a case where a response voice of “the destination is set to + Yokohama station +” is generated by connecting these in the order of (a) + (c) + (b). As a result of calculating the voice quality divergence (voice quality difference) between the narrator voices (a), (b) and (c), the overhearing possibility detecting unit 141 obtains, for example, “A” in FIG. Subsequently, referring to FIG. 5B, the signal length of the pause to be inserted is determined as “α”. As a result, as shown in the right part of FIG. 6, pauses (p1) and (p2) are responded between the audio signals (a) and (c) and between the audio signals (c) and (b). Inserted at the audio output unit. Therefore, it is finally processed into an audio signal as shown in FIG.

尚、この例ではポーズを無音信号として示したが、このほかにも、例えば、非定常信号である「ホワイトノイズ」や、「後ろに接続される音声の基本周波数に相当する周波数の定常信号」等としても良い。また、聞き落とし可能度が所定の値より大きい場合に、結合音声信号の結合境界に、聞き落とし可能度に正比例する時間長の定常信号あるいは非定常信号あるいは無音信号を挿入してもよい。特に後者の場合、次に出力される信号の直前でヒトの聴覚フィルタを自動的に作り変える作用(すなわち耳を準備させる効果)が期待できるため、より聞き落としの可能度を低減できるといえる。   In this example, the pause is shown as a silence signal. However, other than this, for example, “white noise” which is a non-stationary signal or “a stationary signal having a frequency corresponding to the fundamental frequency of the audio connected behind”. And so on. Further, when the possibility of overhearing is greater than a predetermined value, a stationary signal, a non-stationary signal, or a silence signal having a time length that is directly proportional to the overhearing possibility may be inserted into the coupling boundary of the combined audio signal. In particular, in the latter case, it is possible to expect an effect of automatically recreating a human auditory filter immediately before the next output signal (that is, an effect of preparing an ear), so it can be said that the possibility of being overheard can be further reduced.

後者の結合部の声質制御(B)については、具体的には結合対象の音声すなわち出力対象音声信号の基本周波数、音声エネルギー値、AQ値、発話速度の差異に基づき聞き落とし可能度を算出し、該可能度を低減するように、基本周波数、音声エネルギー、発話速度の変換を行う方法の具体例を示す。尚、基本周波数、音声エネルギー、発話速度変換法については、それぞれ公知のピッチ変換技術、ボリューム加工技術、話速変換技術を適用することができる。   Regarding the voice quality control (B) of the latter combining part, specifically, the possibility of overhearing is calculated based on the difference of the fundamental frequency, the speech energy value, the AQ value, and the speech rate of the speech to be combined, that is, the output target speech signal. A specific example of a method of converting the fundamental frequency, voice energy, and speech rate so as to reduce the possibility will be described. For the fundamental frequency, voice energy, and speech rate conversion method, known pitch conversion technology, volume processing technology, and speech speed conversion technology can be applied, respectively.

以下の例では、基本周波数、音声エネルギー、AQ値、発話速度の差異を直接聞き落とし可能度と解釈し、該差異を解消するように基本周波数、音声エネルギー、発話速度を変更する(AQ値の差異の解消は基本周波数の加工によって行うものとする)。ただし、前述したように、ユーザビリティーの観点から、敢えて声質を変化させて出力する場合も考えられるため、この場合は前述のAの方法(ポーズの挿入)で対処するのが好ましい。すなわち、応答音声出力部は、前記結合音声信号に含まれる複数の出力対象音声信号の声質の乖離を、音声信号の音響的特徴の乖離として検出する機能を備え、且つこの乖離が大きい場合には、聞き落とし可能度が大きいと判断する機能と、この聞き落とし可能度が所定の値より大きい場合に、該聞き落とし可能度が所定の値よりも小さくなるように、複数の出力音声信号における基本周波数或いは音声エネルギーの少なくともいずれかを加工する機能を有するようにしている。また、同様に、応答音声出力部は、結合音声信号に含まれる複数の出力対象音声信号における声質の乖離を、発話速度の乖離として検出する機能を備え、且つ該乖離が大きい場合に、聞き落とし可能度が大きいと判断する機能と、該聞き落とし可能度が所定の値より大きい場合に、該聞き落とし可能度が所定の値より小さくなるように、複数の出力音声信号のうちの少なくとも一つについて、発話速度を調整する機能を有している。   In the following example, the difference in fundamental frequency, speech energy, AQ value, and speech rate is interpreted as the possibility of being overheard directly, and the fundamental frequency, speech energy, speech rate are changed so as to eliminate the difference (the AQ value The difference is resolved by processing the fundamental frequency). However, as described above, from the viewpoint of usability, there may be a case where the voice quality is changed and output. Therefore, in this case, it is preferable to deal with the above-described method A (pause insertion). That is, the response voice output unit has a function of detecting voice quality divergences of a plurality of output target audio signals included in the combined audio signal as divergences of acoustic characteristics of the audio signals, and when this divergence is large A function for determining that the possibility of overhearing is large, and a basic function in a plurality of output audio signals so that the overhearing possibility is smaller than a predetermined value when the overhearing possibility is larger than a predetermined value. A function of processing at least one of frequency and voice energy is provided. Similarly, the response voice output unit has a function of detecting voice quality divergence in a plurality of output target audio signals included in the combined voice signal as utterance speed divergence, and when the divergence is large, it is overlooked. A function for determining that the possibility is high, and at least one of the plurality of output audio signals so that the possibility of overhearing becomes smaller than a predetermined value when the overhearing possibility is larger than a predetermined value. Has a function of adjusting the speech rate.

図7は、図6同様、(a)「目的地を」及び(b)「に設定します」をナレータ音声から選択し、音声(c)「横浜駅」を合成音声として生成し、これを(a)+(c)+(b)の順に連結した「目的地を+横浜駅+に設定します」という応答音声を生成する場合を示している。各音声について基本周波数を抽出した結果、
(a)=(b)=170Hz,
(c)=150Hz
と検出された。この差異120Hzを直接聞き落とし可能度と算出し、この差異を解消するように上記応答音声の基本周波数のシフト操作を行う。図7の例では(a)(b)をシフトし基本周波数を(c)の150Hzにそろえた(a‘)(b’)を得ている。この処理の後、(a’)+(c)+(b’)と音声を連結して出力する。
As in FIG. 6, (a) “Destination” and (b) “Set to” are selected from the narrator voice, and voice (c) “Yokohama Station” is generated as a synthesized voice. This shows a case where a response voice “The destination is set to + Yokohama station +” connected in the order of (a) + (c) + (b) is generated. As a result of extracting the fundamental frequency for each voice,
(A) = (b) = 170 Hz,
(C) = 150 Hz
It was detected. The difference 120 Hz is directly calculated as the possibility of being overlooked, and the fundamental frequency of the response voice is shifted so as to eliminate this difference. In the example of FIG. 7, (a) and (b ') are obtained by shifting (a) and (b) and aligning the fundamental frequency to 150 Hz of (c). After this process, (a ′) + (c) + (b ′) and voice are connected and output.

図8は図6同様の結合音声について、音声エネルギーの差異に基づく聞き落とし可能度を検出する。この例では、(a)=(b)18dB、(c)=38dBとして得られている。この差異の20dBを聞き落とし可能度と捉え、解消するようにエネルギーのシフトを行う。具体的には、予め所定のエネルギーを設定し、各音声について、この所定のエネルギーになるよう加工を行う。図8の例では、各音声のエネルギーを30dBに揃うように調整した(a’)(b’)(c’)を取得し、これを前記の(a’)+(c)+(b’)と同様に連結して出力する。   FIG. 8 detects the possibility of overhearing based on the difference in voice energy for the combined voice similar to FIG. In this example, (a) = (b) 18 dB and (c) = 38 dB are obtained. The difference of 20 dB is regarded as the possibility of being overlooked, and the energy is shifted so as to be eliminated. Specifically, predetermined energy is set in advance, and each voice is processed so as to have this predetermined energy. In the example of FIG. 8, (a ′) (b ′) (c ′) obtained by adjusting the energy of each voice so as to be equal to 30 dB is obtained, and this is obtained as (a ′) + (c) + (b ′). ) And output in the same manner as

図9は図6同様の結合音声について、応答音声出力部140は、出力対象音声信号における性質の乖離を発話速度の乖離として聞き落とし可能度を検出する。ここで、聞き落とし可能度が所定の値より大きい場合に、この聞き落とし可能度が所定の値より小さくなるように、複数の出力対象音声信号のうちの少なくとも一つについて発話速度を調整する。この例では、(a)=(b)=6モーラ/秒、(c)=12モーラ/秒と検出され、差異の6モーラが聞き落とし可能度となる。これを解消するため、(c)について話速変換を行い、(a)、(b)に等しい6モーラ/秒の音声(c’)を取得する。これを前記同様(a’)+(c)+(b’)の配列として連結し出力する。   In FIG. 9, for the combined speech similar to FIG. 6, the response speech output unit 140 detects the possibility of being overlooked by regarding the divergence of the utterance speed as the divergence of the speech speed. Here, when the possibility of overhearing is greater than a predetermined value, the speech rate is adjusted for at least one of the plurality of output target audio signals so that the degree of overhearing is less than the predetermined value. In this example, (a) = (b) = 6 mora / second and (c) = 12 mora / second are detected, and the difference of 6 mora is the possibility of being overlooked. In order to solve this problem, speech speed conversion is performed for (c), and 6 mora / s voice (c ') equal to (a) and (b) is acquired. This is connected and output as an array of (a ′) + (c) + (b ′) as described above.

上述した処理手順の流れを図10のフローチャートを用いて説明する。
先ず、入力されたユーザの音声信号はステップ:S101において認識され、理解した内容として単語列を抽出する。この理解内容に基づいた単語列から、応答すべき出力音声信号を複数の音声生成部130a〜130nから取得する(ステップ:S102)。例えば図10においては生成された音声信号(a)、(b)の2つが取得されている。この取得された音声信号に対して、その連結順序を決定する(ステップ:S103)。図10の例では(b)+(a)の連結順序としている。
The flow of the processing procedure described above will be described with reference to the flowchart of FIG.
First, the input voice signal of the user is recognized in step S101, and a word string is extracted as the understood content. Output speech signals to be answered are obtained from the plurality of speech generation units 130a to 130n from the word string based on this understanding (step: S102). For example, in FIG. 10, two generated audio signals (a) and (b) are acquired. The connection order is determined for the acquired audio signal (step: S103). In the example of FIG. 10, the connection order is (b) + (a).

次に、音声信号(a)、(b)それぞれについて、上述した基本周波数、音声エネルギー、AQ値、発話速度などの指標に基づく声質の差異を算出する(ステップ:S104)。ここで得られた声質の差異は、図4に示した声質の差異と聞き落とし可能度の対応関係を用いて、聞き落とし可能度を算出する(ステップ:S105)。さらに、この算出された聞き落とし可能度が図4に示したような所定の閾値(TH)を越えるか否かを判断する(ステップ:S106)。この場合、閾値は一つでも良いし、図4(b)のA,B,Cのように複数設定しても良い。ここで、閾値を0に近い値に設定すると、声質の差異に対して厳しくなり、加工対象が増加する可能性が大きくなる。従って、実態を実験等により把握して閾値の所定値を設定することが好ましい。ここで聞き落とし可能度が閾値を上回る場合(ステップ:S106:NO)はステップ:S107へ、また、下回る場合(ステップ:S106:YES)はステップ:S109へ移行する。   Next, for each of the voice signals (a) and (b), a difference in voice quality based on the above-described indices such as the fundamental frequency, voice energy, AQ value, and speech rate is calculated (step: S104). As for the voice quality difference obtained here, the degree of hearing loss is calculated using the correspondence relationship between the voice quality difference and the degree of hearing loss shown in FIG. 4 (step: S105). Further, it is determined whether or not the calculated possibility of overhearing exceeds a predetermined threshold (TH) as shown in FIG. 4 (step: S106). In this case, the threshold value may be one, or a plurality of threshold values may be set as A, B, and C in FIG. Here, when the threshold value is set to a value close to 0, it becomes severe with respect to the difference in voice quality, and the possibility that the number of objects to be processed increases. Therefore, it is preferable to set the predetermined threshold value by grasping the actual situation through experiments or the like. Here, when the overhearing possibility exceeds the threshold (step: S106: NO), the process proceeds to step: S107, and when below (step: S106: YES), the process proceeds to step: S109.

上記聞き落とし可能度が閾値を上回る場合においては、加工対象とする音声信号の選択を行う(ステップ:S107)。図10においては音声信号(b)が選択されたとしている。この選択に関しては、複数の生成された音声信号の何れか一つを常に選択するようにしても良いし、あるいは予め基準となる声質を保持し、この基準から声質が乖離する音声は全て聞き落とし可能度があると判断し、加工対象としても良い。また、基本周波数を変更して差異を解消する手法を用いる場合には、周波数シフト量が大きくなるにつれ音声信号自体に歪みが生じ、音質が劣化する可能性がある。そこで例えば周波数シフト量の最大値を設定しておき、基本周波数の差異が該最大値を超える場合には、一方の音声信号を他方に揃えるのではなく、双方の音声信号を加工対象として選択し、基本周波数の加工を行うのが好ましい。この加工処理は上記の各手法(ポーズの挿入、基本周波数のシフト、音声エネルギーのシフト、話速変換等)を用いて加工を行い音声信号(b’)を取得する(ステップ:S108)。音声信号(b’)を取得後はステップ:S104に戻り、再度差異を検出し、聞き落とし可能度を検証する。ただし、上述した基本周波数のシフトの場合は、音声歪みのことも考慮し、基本周波数の乖離が極度に大きく、双方の音声を基本周波数シフト量の最大値(装置の限界値)までシフトしても乖離を吸収できない場合に、最大値までのシフトで処理を中止するようにしても良い。この場合、聞き落とし可能度の値は最適化されていないが加工処理を中止している旨のフラグ等何らかのマークを付してステップ:S106のループから抜け出す処理が必要である。聞き落とし可能度が閾値以下となった場合(ステップ:S106:YES)、ステップ:S103で求めた連結順序(b’)+(a)と、ステップ:S108で求めた加工音声結果(挿入ポーズを含む)を用いて、音声信号を連結する(ステップ:S109)。これにより生成された音声信号を出力しユーザに提示する(ステップ:S110)。   When the above-mentioned possibility of overhearing exceeds a threshold value, an audio signal to be processed is selected (step: S107). In FIG. 10, it is assumed that the audio signal (b) is selected. Regarding this selection, any one of a plurality of generated audio signals may always be selected, or a reference voice quality is retained in advance, and all voices whose voice quality deviates from this reference are overlooked. It may be determined that there is a possibility and may be processed. In addition, when using a method of changing the fundamental frequency to eliminate the difference, the sound signal itself may be distorted as the frequency shift amount increases, and the sound quality may be deteriorated. Therefore, for example, if the maximum value of the frequency shift amount is set and the difference in the fundamental frequency exceeds the maximum value, one audio signal is not aligned with the other, but both audio signals are selected as processing targets. Preferably, the fundamental frequency is processed. This processing is performed using each of the above methods (pause insertion, fundamental frequency shift, speech energy shift, speech speed conversion, etc.) to obtain a speech signal (b ') (step: S108). After obtaining the audio signal (b ′), the process returns to step S104, where the difference is detected again, and the possibility of overhearing is verified. However, in the case of the fundamental frequency shift described above, the distortion of the fundamental frequency is extremely large considering the audio distortion, and both voices are shifted to the maximum value of the fundamental frequency shift amount (the limit value of the device). If the deviation cannot be absorbed, the process may be stopped by shifting to the maximum value. In this case, it is necessary to perform a process of getting out of the loop of step S106 with some mark such as a flag indicating that the processing process is stopped although the value of the possibility of overhearing is not optimized. When the overhearing possibility is equal to or less than the threshold (step: S106: YES), the connection order (b ′) + (a) obtained in step: S103 and the processed voice result (insert pose is obtained in step: S108). Are included (step: S109). The voice signal thus generated is output and presented to the user (step: S110).

以上述べた構成およびその処理手段により、複数の声質を含むような音声信号を連結してユーザに提示する場合に、その個々の音声信号における声質の乖離に基づく聞き落とし可能度を判断し、その可能度を抑制するように連結対象となる音声を加工あるいはポーズの挿入してユーザに提示するため、聞き落しが発生し難く、より円滑な対話が遂行できる音声対話装置を提供することができる。   When the voice signal including a plurality of voice qualities is concatenated and presented to the user by the above-described configuration and processing means, the possibility of overhearing based on the voice quality divergence in each voice signal is determined, and Since the voice to be connected is processed or inserted with a pose so as to suppress the possibility and presented to the user, it is possible to provide a voice dialogue apparatus that is less likely to be overheard and can perform a smoother dialogue.

(実施の形態2)
本実施の形態2においては、システム側で生成された出力音声(以下システム音声)とユーザの発話した音声(以下ユーザ音声)とを連結した出力音を用いてユーザに応答音声を提示する方法での本発明の適用形態について説明する。すなわち、前記応答音声管理部は、合成音声信号あるいは予め録音された音声信号であるシステム音声信号を生成するシステム音声生成部と、ユーザが発話した音声の少なくとも一部をユーザ音声信号として抽出するユーザ音声抽出部とを有し、且つ前記システム音声生成部出力と前記ユーザ音声抽出部出力とを結合して前記結合音声信号を応答音声信号として生成する機能を有している。
(Embodiment 2)
In the second embodiment, a response sound is presented to the user using an output sound obtained by connecting an output sound (hereinafter, system sound) generated on the system side and a sound spoken by the user (hereinafter, user sound). The application form of the present invention will be described. That is, the response voice management unit includes a system voice generation unit that generates a system voice signal that is a synthesized voice signal or a pre-recorded voice signal, and a user that extracts at least part of the voice spoken by the user as a user voice signal. And a function of generating the combined audio signal as a response audio signal by combining the output of the system audio generation unit and the output of the user audio extraction unit.

図11は本実施の形態2による装置構成を示すブロック図である。本実施の形態2においても実施の形態1の場合と同様に、構成要素は、音声入力部110、音声理解部220、応答音声管理部230、応答音声出力部240から構成されており、装置構成、各機能共に基本部分は共通であるので、以下には本実施形態2の特徴部分について説明する。   FIG. 11 is a block diagram showing an apparatus configuration according to the second embodiment. In the second embodiment, as in the case of the first embodiment, the constituent elements include a voice input unit 110, a voice understanding unit 220, a response voice management unit 230, and a response voice output unit 240. Since the basic part is common to each function, the characteristic part of the second embodiment will be described below.

音声理解部(図11:220)は、前記音声入力部から得られた音声信号に対応する単語列音声認識を行い、該音声に対応する単語列を選択する音声認識機能と、この単語列に含まれる複数の単語情報を用いて現在のシステムの理解状態を決定する機能を有している。ここで、上記音声認識機能は認識した単語列に含まれる各単語について認識信頼度を付与し、上記の理解結果として出力する機能、及び認識時の各単語の認識位置の記録機能を持つことが好ましい。前者の信頼度は理解候補として出力された単語の確からしさであり、同時に出現した候補単語との認識尤度の近さから算出する方法、単語事後確率等から算出する方法等が提案されている。本実施の形態2では信頼度に対する所定の閾値を設定し、閾値を上回る単語に関しては認識成功として処理を進め、下回る単語に対しては認識の自信が無いとして、聞き返し等の処理を行う。後者(単語の認識位置)は文法辞書との照合処理時において取得可能である。例えば、認識辞書で“県名”+“ガベージ”+“駅名”という辞書を用意し、「○○県の××駅」を照合する場合、発話“○○駅”と、辞書の“駅名”とが最大尤度で合致するときに、該駅名が認識単語として出力されるため、そのときのマッチング位置が“○○駅”の音声区間として取得可能である。ただし、雑音等の影響で誤認識が生じる場合にはこの音声区間も間違って選択されている可能性が高い。本実施の形態2の例における対話装置では、このように音声区間に誤認識ある場合も、ユーザ音声をそのまま提示する構成としている。これによってユーザはシステムが音声区間を誤って理解していることを直感的に知ることが出来るため、以降の対話が円滑になる。   The speech understanding unit (FIG. 11: 220) performs speech recognition of a word sequence corresponding to the speech signal obtained from the speech input unit, and selects a word sequence corresponding to the speech, It has a function to determine the understanding state of the current system using a plurality of word information included. Here, the voice recognition function has a function of giving recognition reliability to each word included in the recognized word string and outputting the result as the understanding result, and a function of recording a recognition position of each word at the time of recognition. preferable. The former reliability is the probability of a word output as an understanding candidate, and a method of calculating from the closeness of recognition likelihood with a candidate word that appears at the same time, a method of calculating from a word posterior probability, etc. have been proposed. . In the second embodiment, a predetermined threshold value for the reliability is set, and the processing proceeds as recognition success for words exceeding the threshold value, and processing such as listening is performed assuming that there is no confidence in recognition for words below the threshold value. The latter (word recognition position) can be acquired at the time of collation processing with the grammar dictionary. For example, when preparing a dictionary of “prefecture name” + “garbage” + “station name” in the recognition dictionary and matching “XX station of XX prefecture”, the utterance “XX station” and the “station name” of the dictionary Since the station name is output as a recognition word when the two match with the maximum likelihood, the matching position at that time can be acquired as the speech section of “XX station”. However, if erroneous recognition occurs due to the influence of noise or the like, there is a high possibility that this voice segment is also selected incorrectly. In the dialogue apparatus in the example of the second embodiment, the user voice is presented as it is even when the voice section is erroneously recognized as described above. As a result, the user can intuitively know that the system misunderstood the speech section, so that the subsequent dialogue becomes smooth.

この具体例を図12に示す。図12(a)はユーザ音声「神奈川県の横浜駅に行く」の波形を示したものである。図3(a)に示す辞書で認識した場合、「神奈川県」+「の(ガベージ)」+「横浜駅」+「に行く(ガベージ)」が認識され、理解結果として、図12に示す理解結果(1)のように、
「神奈川県(信頼度高)」&「横浜駅(信頼度高)」が得られる場合や、
理解結果(2)のように、
「神奈川県(信頼度高)」&「横浜駅(信頼度低)」
が得られる場合が考えられる。この場合の応答については後述する。そしてこの時同時に、音声区間について、
「神奈川県」:A1〜A2
「の(ガベージ)」:A2〜A3
「横浜駅」:A3〜A4
「に行く(ガベージ)」:A4〜A5
が得られている。
A specific example is shown in FIG. FIG. 12A shows the waveform of the user voice “Go to Yokohama Station in Kanagawa”. When the dictionary shown in FIG. 3A is recognized, “Kanagawa” + “no (garbage)” + “Yokohama station” + “go to (garbage)” is recognized, and the understanding result shown in FIG. As in result (1),
When "Kanagawa (high reliability)"&"Yokohama Station (high reliability)" is obtained,
Like understanding result (2),
"Kanagawa (high reliability)"&"Yokohama Station (low reliability)"
May be obtained. The response in this case will be described later. At the same time,
"Kanagawa": A1 to A2
"No (garbage)": A2-A3
"Yokohama Station": A3-A4
"Go to (garbage)": A4-A5
Is obtained.

一方、図12(b)は背景雑音が存在する場合であり、時刻B1を境に背景雑音の振幅が大きくなっている。この状況で同様の発話を行った波形が図12(c)であるが、これを同様の辞書で認識させた場合「神奈川県」が区間C1〜C2で認識されるものの、その後の音声信号については雑音に埋もれて正しく切り出せず(区間C2〜C3のように判定され)、認識結果も正しく得られない可能性が高い。例えば理解結果として、図12(c)の理解結果(3)のように、
「神奈川県(信頼度高)」&「○○○(信頼度低)」
(ただし○○○は横浜駅とは音素的に大きく異なる単語)
が得られる場合が考えられる。この場合の応答例については後述する。
On the other hand, FIG. 12B shows a case where background noise exists, and the amplitude of the background noise increases from time B1. FIG. 12C shows the waveform of the same utterance in this situation. When this is recognized by a similar dictionary, “Kanagawa” is recognized in the sections C1 to C2, but the subsequent audio signal Is buried in noise and cannot be cut out correctly (determined as in sections C2 to C3), and there is a high possibility that the recognition result cannot be obtained correctly. For example, as an understanding result, as an understanding result (3) in FIG.
"Kanagawa (high reliability)"&"XX (low reliability)"
(However, XX is a word that is phonemeically different from Yokohama Station.)
May be obtained. A response example in this case will be described later.

応答音声管理部230は、システム音声信号を生成するシステム音声生成部231と、ユーザ音声信号を抽出するユーザ音声抽出部232とから構成され、前記音声理解部220における音声信号の理解内容に基づき、システム音声信号とユーザ音声信号とを組み合わせた結合音声を生成する機能を持つ。具体的には、前記音声理解部220において信頼度が高いと判断された単語についてはシステム音声信号を選択し、信頼度が低いと判断された単語についてはユーザ音声信号を選択し、これら両音声信号を結合する機能を有している。   The response voice management unit 230 includes a system voice generation unit 231 that generates a system voice signal and a user voice extraction unit 232 that extracts a user voice signal. Based on the understanding contents of the voice signal in the voice understanding unit 220, It has a function of generating a combined voice combining a system voice signal and a user voice signal. Specifically, a system voice signal is selected for a word that is determined to have high reliability in the voice understanding unit 220, and a user voice signal is selected for a word that is determined to be low in reliability. It has a function to combine signals.

システム音声生成部231としては、一般的な音声合成方法や、ナレータ音声による録音音声再生方法等が用いられる。ユーザ音声抽出部232は、前記音声理解部220の持つ認識位置の記録機能を用いて、各認識単語に対応する区間の音声信号を切り出してくる機能を持つ。   As the system voice generation unit 231, a general voice synthesis method, a recorded voice playback method using narrator voice, or the like is used. The user voice extraction unit 232 has a function of cutting out a voice signal in a section corresponding to each recognized word using the recognition position recording function of the voice understanding unit 220.

前述した図12の例を考えると、理解結果(1)の場合は「神奈川県」「横浜駅」双方の単語の信頼度が高いため、両単語について、対応するシステム音声を選択し、応答例(1)「“神奈川県(システム音声)”の“横浜駅(システム音声)”を目的地に設定します」等の応答音声を生成する。
一方、理解結果(2)の場合は、「神奈川県」は信頼度が高いものの、「横浜駅」の信頼度が十分出ないため、音声区間A3〜A4のユーザ音声を抽出し、応答例(2)「“神奈川県(システム音声)”の“よこはまえき(ユーザ音声)”の部分が分かりませんでした」等の応答音声を生成する。
更に、理解結果3の場合は、「神奈川県」は信頼度が高いものの、それ以降「の横浜駅に行く」の部分については、まったく信頼度が得られない。従って、「神奈川県」についてはシステム音声を選択し、それ以降の部分については、区間C2〜C3のユーザ音声を抽出し、応答例(3)「“神奈川県”(システム音声)の“の横浜駅に行く”(ユーザ音声)の部分が分かりませんでした。もう一度お願いします」等の応答音声を生成する。下記の応答音声出力部240は、応答例(2)及び(3)の場合に機能するもので、応答例(1)の場合のように、全て高信頼度で認識された場合は応答音声出力部240に搭載されている機能を使用することなく音声信号は出力される。すなわち、応答音声出力部240は、結合音声信号に含まれる複数の出力対象音声信号の声質の乖離を、音声信号の音響的特徴の乖離として検出する機能を備え、この乖離が大きい場合、聞き落とし可能度が大きいと判断し、聞き落とし可能度が予め定められた値以下となるように前記音響的特徴の調整を行う機能を有している。
Considering the example of FIG. 12 described above, in the case of the understanding result (1), since the word reliability of both “Kanagawa Prefecture” and “Yokohama Station” is high, the corresponding system voice is selected for both words, and the response example (1) Generate a response voice such as “I will set“ Yokohama Station (system voice) ”in“ Kanagawa (system voice) ”as the destination”.
On the other hand, in the case of the understanding result (2), although “Kanagawa Prefecture” has high reliability, “Yokohama Station” does not have sufficient reliability, so the user voices in the voice sections A3 to A4 are extracted and the response example ( 2) Generate a response voice such as “I didn't understand“ Yokohama Eki (user voice) ”in“ Kanagawa (system voice) ”.
Furthermore, in the case of the understanding result 3, although “Kanagawa Prefecture” has high reliability, the reliability of “going to Yokohama Station” is not obtained at all thereafter. Therefore, the system voice is selected for “Kanagawa Prefecture”, the user voices in the sections C2 to C3 are extracted for the subsequent sections, and the response example (3) “Yokohama of“ Kanagawa Prefecture ”(system voice) A response voice such as “I don't know the part of (user voice) going to the station. Please try again” is generated. The following response voice output unit 240 functions in the case of response examples (2) and (3), and when all are recognized with high reliability as in the case of response example (1), a response voice output is performed. The audio signal is output without using the function installed in the unit 240. That is, the response voice output unit 240 has a function of detecting voice quality divergences of a plurality of output target audio signals included in the combined audio signal as divergences of acoustic characteristics of the audio signals. It is determined that the possibility is high, and has a function of adjusting the acoustic feature so that the overhearing possibility is not more than a predetermined value.

応答音声出力部240の聞き落とし可能度検出部241は応答音声管理部230で選択・抽出されたシステム音声及びユーザ音声の声質の差異を求め、聞き落とし可能度を算出する機能を持ち、音声調整部242は該聞き落とし可能度を抑制するようにシステム音声もしくはユーザ音声を加工し、出力する機能を持つ。   The missed voice detection unit 241 of the response voice output unit 240 has a function of calculating the degree of missed voice by obtaining a difference in voice quality between the system voice and the user voice selected / extracted by the response voice management unit 230, and adjusting the voice. The unit 242 has a function of processing and outputting the system voice or the user voice so as to suppress the possibility of being overheard.

以下上記システムの具体的な動作について具体的な処理の流れを、図13のフローチャートにより説明する。
入力音声はユーザからの入力音声に対して認識処理が行われる(ステップ:S201)。この該認識処理の結果として、理解内容(Wn,Cn)を取得する。ここでWnは理解した単語、Cnは該単語の信頼度、nは理解した単語の通し番号の数(n=1...N)、Snはn番目の単語の時間軸上における開始位置、Enはその終了位置である(ステップ:S202)。次いで、理解単語全て(Wn)について、信頼度(Cn)と信頼度閾値(TH)との比較を行う(ステップ:S203)。閾値より大きい、すなわち信頼度が高い場合(ステップ:S203YES)にはステップ:S204へ、閾値より小さい、すなわち信頼度が低い場合(ステップ:S203NO)にはステップ:S205へ移行する。信頼度の高かった理解単語(Wn(a))については、対応するシステム音声(SWn)をシステム音声生成部231から選択し取得する(ステップ:S204)。信頼度の低かった理解単語(Wn(b))については、対応する音声区間Sn,Enを取得し、該区間におけるユーザの音声信号(UWn)を抽出する(ステップ:S205)。このようにして得られたシステム音声(SWn)とユーザ音声以外の補足音声部分(SWx)をシステム音声生成部231より取得する(ステップ:S206)。例えば「が分かりません」「を目的地にします」等の応答音声が補足システム音声に相当する。以上のようにして得られた応答音声用の音声信号、すなわち、上記のシステム音声(SWn)、ユーザ音声(UWn)および補足システム音声(SWx)について、その連結順序を決定する(ステップ:S207)。
Hereinafter, a specific processing flow of the specific operation of the system will be described with reference to the flowchart of FIG.
The input voice is subjected to recognition processing for the input voice from the user (step: S201). As a result of the recognition process, the understanding content (Wn, Cn) is acquired. Here, Wn is the understood word, Cn is the reliability of the word, n is the number of serial numbers of the understood word (n = 1... N), Sn is the starting position on the time axis of the nth word, En Is the end position (step: S202). Next, the reliability (Cn) is compared with the reliability threshold (TH) for all the understanding words (Wn) (step: S203). If it is larger than the threshold, that is, the reliability is high (step: S203 YES), the process proceeds to step S204. If it is smaller than the threshold, that is, the reliability is low (step: S203 NO), the process proceeds to step: S205. For the understanding word (Wn (a)) with high reliability, the corresponding system voice (SWn) is selected and acquired from the system voice generator 231 (step: S204). For the understanding word (Wn (b)) with low reliability, the corresponding speech sections Sn, En are acquired, and the user's speech signal (UWn) in the section is extracted (step: S205). The system voice generation unit 231 acquires the system voice (SWn) and the supplementary voice part (SWx) other than the user voice obtained in this way (step: S206). For example, response voices such as “I don't know” or “I want to go to my destination” correspond to supplementary system voices. The connection order of the voice signals for response voice obtained as described above, that is, the system voice (SWn), user voice (UWn) and supplementary system voice (SWx) is determined (step: S207). .

次いで、上記のシステム音声(SWn)、ユーザ音声(UWn)、補足システム音声(SWx)それぞれの音声信号について基本周波数、音声エネルギー、AQ値、発話速度の少なくとも何れかについて評価を行い、その差異を算出する(ステップ:S208)。ただし、これら指標を算出する前に、音声以外の雑音状況について簡易的に推定する処理を含めることが好ましい。すなわち、ユーザ音声に雑音が酷く混入するような情況、マイクのボリュームや、取り付け位置、ユーザの音声の大きさ、雑音の大きさ等の関係で入力信号がオーバーフローしてしまうような情況(すなわち音が割れているような状況)では、基本周波数やAQ値、発話速度等について正しく評価できない可能性があり、むしろ、この異常状態を直接ユーザに提示するべきである。従って、このような状況を検出した場合には後述の音声信号加工処理にて例外処理(加工の中止処理)を行う。尚、雑音の推定手法については、各種フィルタを通し、音声周波数帯を強調あるいは抑圧した信号のスペクトルから判断する方法、雑音を事前知識として与える方法等、公知の手法を用いることができる。また、オーバーフローに関しては、入力信号を監視することで検出可能である。   Next, the system voice (SWn), the user voice (UWn), and the supplementary system voice (SWx) are each evaluated for at least one of the fundamental frequency, voice energy, AQ value, and speech rate. Calculate (step: S208). However, before calculating these indices, it is preferable to include a process of simply estimating a noise situation other than speech. In other words, the situation in which noise is terribly mixed into the user's voice, the situation in which the input signal overflows due to the relationship between the volume of the microphone, the mounting position, the loudness of the user's voice, the loudness of the noise, etc. In such a situation, the fundamental frequency, the AQ value, the speech rate, etc. may not be correctly evaluated. Rather, this abnormal state should be directly presented to the user. Accordingly, when such a situation is detected, exception processing (processing stop processing) is performed in the audio signal processing described later. As a noise estimation method, a known method such as a method of judging from a spectrum of a signal that emphasizes or suppresses a voice frequency band through various filters, a method of giving noise as prior knowledge, or the like can be used. Further, the overflow can be detected by monitoring the input signal.

一方、発話速度の算出については、本実施の形態2における特有の処理であるが、雑音が含まれない場合であっても発話速度についての考慮が必要である。すなわち、システム音声(SWn)及び補足システム音声(SWx)については実施の形態1同様、予め出力する音声に対応する単語列を保持しておくことでモーラ数が算出できる(音声合成であれば、合成の命令に用いる単語列から算出可能)が、ユーザ音声(UWn)については、信頼度が低い場合、そもそもモーラ数が正しく判断できない可能性がある。そこで、理解単語(Wn(b))が検出されたときの他の候補単語のモーラ数を比較し、その分散が低い場合はそのままUWnのモーラ数を用いるか、あるいは前記候補単語の平均モーラ数とし、一方分散が大きい場合は、例えば文献(川本
真一他, “動的尺度を用いた発話速度の推定,” 電気関係学会北陸支部連合大会講演論文集, F-69, p.369, Oct 1999)、あるいは文献(特開平7−295588 発話速度推定方法)のような公知の方法を用いて直接発話速度を推定することが好ましい。
On the other hand, the calculation of the speech rate is a process unique to the second embodiment, but it is necessary to consider the speech rate even when noise is not included. That is, for the system voice (SWn) and the supplementary system voice (SWx), the number of mora can be calculated by holding a word string corresponding to the voice to be output in advance as in the first embodiment (if speech synthesis, If the user speech (UWn) is low in reliability, the number of mora may not be determined correctly in the first place. Therefore, the number of mora of other candidate words when the understanding word (Wn (b)) is detected is compared, and if the variance is low, the number of mora of UWn is used as it is, or the average number of mora of the candidate words On the other hand, if the variance is large, for example, literature (Shinichi Kawamoto et al., “Estimation of speech rate using dynamic scales,” Proceedings of the Hokuriku Branch Joint Conference of Electrical Engineering, F-69, p.369, Oct 1999 It is preferable to directly estimate the speech rate using a known method such as literature (Japanese Patent Laid-Open No. 7-295588, speech rate estimation method).

ステップ:S208で算出した声質の差異に基づき、図4で示したような対応関係を参照して、聞き落とし可能度の算出を行い(ステップ:S209)、得られた聞き落とし可能度が所定の閾値(HT)を超えるか否かの判定を行う(ステップ:S210)。閾値を越える場合(ステップ:S210NO)はステップ:S211へ、超えない場合(ステップ:S210YES)はステップ:S213へ移行する。前者の場合、すなわち閾値を越える場合は加工対象とする音声信号の選択を行う(ステップ:S211)。この例ではシステム音声(SWx)及び補足システム音声(SWx)が選択されている。この選択操作に続いて選択された音声信号の加工処理(ポーズの挿入、基本周波数のシフト、音声エネルギーのシフト、話速変換等)が行われ、加工された音声信号SWn’、SWx’を求める(ステップ:S212)。加工処理の後、ステップ208に戻り、再度声質の差異を算出する。例えば一回目の差異算出にて基本周波数の算出を行い、次の処理では音声エネルギーの差異を算出する等とすることで、複数の指標についての差異に基づく聞き落とし可能度軽減の加工を施すことができる。尚、前述したように、ユーザ音声部分に雑音が多く含まれている状況、入力信号のオーバーフローの状況を検出した場合には、例外処理として加工を行わずに出力する方法を取ることが好ましい。   Step: Based on the difference in voice quality calculated in S208, referring to the correspondence as shown in FIG. 4, the degree of hearing loss is calculated (step: S209). It is determined whether or not the threshold value (HT) is exceeded (step: S210). If the threshold is exceeded (step: S210 NO), the process proceeds to step: S211. If not (step: S210 YES), the process proceeds to step: S213. In the former case, that is, when the threshold value is exceeded, an audio signal to be processed is selected (step: S211). In this example, system sound (SWx) and supplementary system sound (SWx) are selected. Subsequent to this selection operation, the selected voice signal is processed (pause insertion, fundamental frequency shift, voice energy shift, speech speed conversion, etc.) to obtain the processed voice signals SWn ′ and SWx ′. (Step: S212). After the processing, the process returns to step 208 to calculate the voice quality difference again. For example, the fundamental frequency is calculated in the first difference calculation, and in the next process, the difference in voice energy is calculated. Can do. Note that, as described above, when a situation in which a lot of noise is included in the user voice portion or an overflow situation of the input signal is detected, it is preferable to take an exception processing without outputting.

以上の処理を実行し、加工後の音声を含む出力音声(SWn’、SWx’、UWn)の聞き落とし可能度が閾値以下となると、加工の結果および結合順序に基づき音声信号の結合を行う。すなわち、ステップ:S207で取得した結合順序に基づき、音声信号を結合し、(SWn’+UWn+SWx’)を得る(ステップ:S213)。最後に、以上のようにして得られた結合音声を応答音声として出力(ステップ:S214)して一連の処理を終了する。   When the above processing is executed and the possibility of overhearing the output sound (SWn ′, SWx ′, UWn) including the processed sound is equal to or less than the threshold value, the sound signals are combined based on the processing result and the combination order. That is, based on the combination order acquired in step S207, the audio signals are combined to obtain (SWn '+ UWn + SWx') (step: S213). Finally, the combined voice obtained as described above is output as a response voice (step: S214), and the series of processes is terminated.

上述した一連の構成及び処理により、ユーザの音声とシステム音声とを結合して出力する場合に、聞き落しが発生するのを抑制するように加工した音声を提示することが出来るようになる。   With the above-described series of configuration and processing, when the user's voice and the system voice are combined and output, it is possible to present the voice processed so as to suppress the occurrence of oversight.

(実施の形態3)
本実施の形態3は、音声理解部において信頼度が高いと判断された単語については対応する単語の音声合成を行い、信頼度が低いと判断された単語についてはユーザ音声を音素認識した結果の音素列を用いて音声合成するものである。
本実施の形態3の基本的構成は実施の形態2と共通であり、図14に示す音声入力部110、音声理解部220、応答音声管理部330、応答音声出力部340の各部から構成される。
各機能も基本的な部分は第2実施形態共通である。以下には異なる部分(応答音声管理部330、及び応答音声出力部340)について説明する。
応答音声管理部330は、システム音声用の出力単語列あるいは音素列(以下システム音素列)を生成するシステム音声生成部331と、ユーザ音声を抽出するユーザ音声抽出部332と、該ユーザ音声抽出部332によって抽出されたユーザ音声に対して、音素認識を行いユーザ音素列を取得する音素認識部333とから構成され、音声理解部220の理解内容に基づき、システム音素列及びユーザ音素列を組み合わせた結合音素列を生成する機能を持つ。
(Embodiment 3)
In the third embodiment, speech synthesis of the corresponding word is performed for a word that is determined to have high reliability by the speech understanding unit, and user speech is recognized as a result of phoneme recognition for a word that is determined to have low reliability. Speech synthesis is performed using phoneme strings.
The basic configuration of the third embodiment is the same as that of the second embodiment, and includes the voice input unit 110, the voice understanding unit 220, the response voice management unit 330, and the response voice output unit 340 shown in FIG. .
The basic parts of each function are also common to the second embodiment. Hereinafter, different parts (response voice management unit 330 and response voice output unit 340) will be described.
The response voice management unit 330 includes a system voice generation unit 331 that generates an output word string or a phoneme string (hereinafter referred to as system phoneme string) for system voice, a user voice extraction unit 332 that extracts user voice, and the user voice extraction unit A phoneme recognition unit 333 that performs phoneme recognition on the user speech extracted by 332 and obtains a user phoneme sequence, and combines the system phoneme sequence and the user phoneme sequence based on the understanding content of the speech understanding unit 220 Has a function to generate a combined phoneme sequence.

音素認識部333は、一般的に音素タイプライタ、あるいはサブワード認識と呼ばれる簡便かつ計算負荷の小さい認識方法であり、入力信号に対して、「a」「ka」「N」のような音素単位の認識を行うものである。音素認識については、例えば非特許文献(大脇浩, 榑松明, ハラルド シンガー, 鷹見淳一(ATR), “音素配列構造の制約を用いた音素タイプライタ,” 信学技報, SP93-113,
pp.71-78,1993)等で紹介されている。応答音声出力部340は音声合成部341で構成されており、応答音声管理部330から得られた結合音素列を入力として音声合成を実行し、この応答音声信号を出力する応答音声出力部340を介して出力する。
The phoneme recognizing unit 333 is a simple recognition method called “phoneme typewriter” or “subword recognition” that is simple and has a low calculation load. Recognition. Regarding phoneme recognition, for example, non-patent literature (Hiroshi Owaki, Akira Matsushima, Harald Singer, Junichi Takami (ATR), “Phoneme typewriter using constraints on phoneme array structure,” IEICE Tech. Bulletin, SP93-113,
pp.71-78, 1993). The response speech output unit 340 includes a speech synthesis unit 341. The response speech output unit 340 outputs the response speech signal by executing speech synthesis using the combined phoneme sequence obtained from the response speech management unit 330 as an input. Output via.

図15に具体的な動作例を示す。図15(a)は図12(a)と同じ発話入力及び理解結果(1)および(2)、図15(b)は図12(c)と同じ発話入力及び理解結果(3)が得られる状況である。
理解結果(1)の場合、「神奈川県」及び「横浜駅」双方の信頼度が高いため、双方の単語に対応する音素列「kanagawaken」及び「yokohamaeki」を取得し、応答例1の合成音声「kanagawaken no yokohamaeki wo mokutekichinisetteishimasu(神奈川県の横浜駅を目的地に設定します)」が出力される。
FIG. 15 shows a specific operation example. 15A provides the same utterance input and understanding results (1) and (2) as in FIG. 12A, and FIG. 15B provides the same utterance input and understanding results (3) as in FIG. 12C. Is the situation.
In the case of the understanding result (1), since the reliability of both “Kanagawa Prefecture” and “Yokohama Station” is high, the phoneme strings “kanakawaken” and “yokohamaeki” corresponding to both words are acquired, and the synthesized speech of the response example 1 "Kanagawaken no yokohamaekiwo mokutekikichinisetteishishima (sets Yokohama Station in Kanagawa Prefecture as the destination)" is output.

理解結果(2)の場合、「神奈川県」の信頼度は高く、「横浜駅」の信頼度は低い。従って、「神奈川県」については対応する音素列「kanagawaken」を取得する。一方「横浜駅」の部分は、対応するユーザ音声を抽出し、音素認識処理を行う。この結果として、例えば「okoameeki(おこあめえき)」が得られる。この二つを組み合わせ、応答例(2)の合成音声「kanagawaken no “okoameeki” nobubunga wakarimasenndeshita (神奈川県の“okoameeki”の部分がわかりませんでした)」が出力される。   In the case of the understanding result (2), the reliability of “Kanagawa Prefecture” is high, and the reliability of “Yokohama Station” is low. Accordingly, for “Kanagawa Prefecture”, the corresponding phoneme string “kanagawaken” is acquired. On the other hand, the portion of “Yokohama Station” extracts the corresponding user voice and performs phoneme recognition processing. As a result, for example, “okameeki” is obtained. Combining these two, the synthesized speech “kanagawakenno“ okameeki ”nobubunga wakaramaendendita (the part of“ okameeki ”in Kanagawa Prefecture was not understood)” of the response example (2) is output.

理解結果(3)の場合、「神奈川県」は高信頼度で得られるものの、それ以降「の横浜駅に行く」の部分(区間C2〜C3)について、雑音のために十分な信頼度が得られない。そこで、区間(C2〜C3)について音素認識を行う。認識結果として、「akuoeomokeueiko」のような入力音声とは大きく乖離した結果が得られる。これと「神奈川県」に対応する音素列「kanagawaken」とを組み合わせ、「kanagawaken no “akuoeomokeueiko” nobubunga wakarimasenndeshita (神奈川県の“akuoeomokeueiko”の部分がわかりませんでした)」が出力される。   In the case of the understanding result (3), “Kanagawa” is obtained with high reliability, but after that, the part “going to Yokohama Station” (sections C2 to C3) has sufficient reliability due to noise. I can't. Therefore, phoneme recognition is performed for the section (C2 to C3). As a recognition result, a result greatly deviating from the input voice such as “akuooomokeueiko” is obtained. This is combined with the phoneme sequence “kanagawaken” corresponding to “Kanagawa Prefecture”, and “Kanagawaken no” is an “output” of “Akuooomoe Keiko” nobubunga wakaimaendendishita.

この音素認識の不確かさがそのままユーザに提示されるため、ユーザは何処がどのくらい分からなかったのかを知ることができ、以降の対話が円滑になる。ただし、上記の出力を全て同じ音声合成器を用いて生成する場合、「kanagawakeN no okoameeki nobubunngawakarimasenndeshita(神奈川県のおこあめえきの部分がわかりませんでした)」のように、そのまま連結した音素を出力すると、どの部分が分からないのかが正確に伝わらない可能性も考えられるので、例えば”okoameeki”の直前にポーズを挿入するなどの処理を施すことが好ましい。   Since the uncertainty of the phoneme recognition is presented to the user as it is, the user can know where and how much he / she did not know, and the subsequent dialogue becomes smooth. However, if all of the above outputs are generated using the same speech synthesizer, the phoneme that is concatenated will be output as it is, such as “Kanagawa Neno okamekie nobunbungawa kawara masendendita (I did not know the part of Kanagawa Prefecture's name). Since there is a possibility that it is not possible to accurately tell which part is unknown, for example, it is preferable to perform a process such as inserting a pose immediately before “okomeeki”.

以下、これらの処理の具体的な流れを、図16のフロー図を用いて説明する。先ず、ユーザ音声に対して認識処理を行い(ステップ:S301)、次いで、この認識処理の結果として、理解内容(Wn,Cn)を取得する(ステップ:S302)。ここでWnは理解した単語、Cnは該単語の信頼度、nは理解した単語の通し番号の数(n=1...N)、Snはn番目の単語の時間軸上での開始位置、Enは同じく時間軸上での終了位置である。この取得された理解内容の理解単語全て(Wn)について、信頼度(Cn)と信頼度閾値(TH)との比較を行う(ステップ:S303)。ここで閾値より大きい、すなわち信頼度が高い場合(ステップ:S303YES)にはステップ:S304へ、閾値より小さい、すなわち信頼度が低い場合(ステップ:S303NO)にはステップ:S305へ移行する。   Hereinafter, the specific flow of these processes will be described with reference to the flowchart of FIG. First, a recognition process is performed on the user voice (step: S301), and then an understanding content (Wn, Cn) is acquired as a result of the recognition process (step: S302). Here, Wn is the understood word, Cn is the reliability of the word, n is the number of serial numbers of the understood word (n = 1... N), Sn is the starting position of the nth word on the time axis, En is also the end position on the time axis. The reliability (Cn) is compared with the reliability threshold (TH) for all the understanding words (Wn) of the acquired understanding content (step: S303). If it is larger than the threshold, that is, if the reliability is high (step: S303 YES), the process proceeds to step: S304. If it is smaller than the threshold, that is, the reliability is low (step: S303: NO), the process proceeds to step: S305.

信頼度の高い理解単語(Wn(a))に対してはシステム音素列(Spn)を取得する(ステップ:S304)。また、信頼度の低い理解単語(Wn(b))については対応する音声区間Sn、およびEnを取得し、当該区間におけるユーザの音声信号(UWn)を抽出する(ステップ:S305)。このようにして抽出したユーザ音声信号(UWn)に対して音素認識を実行し(ステップ:S306)、続いてこの音素認識結果(UPn)を取得する(ステップ:S307)。さらに上記システム音素列(SPn)とユーザ音素列(UPn)以外の補足部分の音素列(SPx)取得を行う(ステップ:S308)。例えば「が分かりません」「を目的地にします」等の音素列がこれに相当する。このようにして上記システム音素列(SPn)、ユーザ音素列(UPn)および補足システム音素列(SPx)が取得されたところで、これ等各音素列について、(例えばSPn⇒UPn⇒SPx)のようにその連結順序を決定する(ステップ:S309)。以上、各処理が完了したところで連結音順序に沿った連結音素列に基づいて音声合成を行い、出力する(ステップ:S310)。   A system phoneme string (Spn) is acquired for an understanding word (Wn (a)) with high reliability (step: S304). For the understanding word (Wn (b)) with low reliability, the corresponding speech sections Sn and En are acquired, and the user's speech signal (UWn) in the section is extracted (step: S305). Phoneme recognition is performed on the user voice signal (UWn) extracted in this way (step: S306), and then this phoneme recognition result (UPn) is acquired (step: S307). Furthermore, the phoneme string (SPx) of the supplemental part other than the system phoneme string (SPn) and the user phoneme string (UPn) is acquired (step: S308). For example, a phoneme string such as “I don't know” or “I'm going to my destination” corresponds to this. When the system phoneme string (SPn), the user phoneme string (UPn), and the supplementary system phoneme string (SPx) are acquired in this way, each of these phoneme strings (for example, SPn → UPn → SPx) is obtained. The connection order is determined (step: S309). As described above, when each processing is completed, speech synthesis is performed based on the connected phoneme sequence in the connected sound sequence, and output (step: S310).

以上説明した一連の構成及び処理手段により、全ての出力音声を同一の音声合成手法を用いて再生できるため、声質に差異を生じることがない。従って聞き落としの可能性を大きく抑制することが可能となる。
尚、本実施の形態3では、音声合成のみを用いて出力音声を生成する場合について説明したが、システム音声としてナレータの録音音声を使う音声生成方法と組み合わせ、実施の形態1あるいは実施の形態2の場合と同様に、聞き落とし可能度検出に基づく音声の加工を行う処理を付加しても良い。
With the series of configurations and processing means described above, all output speech can be reproduced using the same speech synthesis method, so there is no difference in voice quality. Therefore, it is possible to greatly suppress the possibility of oversight.
In the third embodiment, the case where the output voice is generated by using only the voice synthesis has been described. However, the first or second embodiment is combined with the voice generation method using the voice recorded by the narrator as the system voice. As in the case of, processing for processing speech based on detection of the possibility of overhearing may be added.

:実施の形態1の基本的構成を示したブロック図。: A block diagram showing a basic configuration of the first embodiment. :実施の形態1の装置構成を示すブロック図。: A block diagram showing a device configuration of the first embodiment. 音声認識における認識辞書例を示した辞書構成図。The dictionary block diagram which showed the example of the recognition dictionary in speech recognition. 声質の差異と聞き落とし可能度との対応図。Correspondence diagram of difference in voice quality and possibility of oversight. 聞き落とし可能度とポーズ挿入時間の対応図。Correspondence diagram of the possibility of overhearing and pause insertion time. ポーズを挿入した結合音声生成の場合の音声波形図。The audio | voice waveform figure in the case of the joint audio | voice production | generation which inserted the pause. 基本周波数シフトを介した結合音声生成の場合の音声波形図。The audio | voice waveform figure in the case of the joint audio | voice production | generation via a fundamental frequency shift. 音声エネルギーシフトを介した結合音声生成の場合の音声波形図。The audio | voice waveform figure in the case of the joint audio | voice production | generation via an audio | voice energy shift. 話速変換を介した結合音声生成の場合の音声波形図。FIG. 6 is a speech waveform diagram in the case of combined speech generation via speech speed conversion. 実施の形態1における処理の流れを示したフロー図。FIG. 3 is a flowchart showing a flow of processing in the first embodiment. 実施の形態2の基本構成を示すブロック図。FIG. 3 is a block diagram illustrating a basic configuration of a second embodiment. 実施の形態2の理解結果と応答例を示す波形図。The wave form diagram which shows the understanding result and response example of Embodiment 2. FIG. 実施の形態2における処理の流れを示したフロー図。FIG. 5 is a flowchart showing a processing flow in the second embodiment. 実施の形態3の基本的な構成を示したブロック図。FIG. 4 is a block diagram showing a basic configuration of a third embodiment. 実施の形態3の理解結果と応答例を示した図。The figure which showed the understanding result of Embodiment 3, and the example of a response. 実施の形態3における処理の流れを示したフロー図。FIG. 9 is a flowchart showing a flow of processing in the third embodiment.

符号の説明Explanation of symbols

110:音声入力部 120、220:音声理解部
130、230,330:応答音声管理部
130a〜130n:音声生成部
140、240、340:応答音声出力部
141,241:聞き落とし可能度検出部
142、242:音声調整部 201:マイクロフォン
202:AD変換部 203:演算装置
204:記憶装置 231,331:システム音声生成部
232、332:ユーザ音声抽出部 333:音素認識部
341:音声合成部
110: voice input unit 120, 220: voice understanding unit 130, 230, 330: response voice management unit 130a to 130n: voice generation unit 140, 240, 340: response voice output unit 141, 241: missed possibility detection unit 142 242: Speech adjustment unit 201: Microphone 202: AD conversion unit 203: Computing device 204: Storage device 231 and 331: System speech generation unit 232, 332: User speech extraction unit 333: Phoneme recognition unit 341: Speech synthesis unit

Claims (22)

少なくとも一つ以上の音声を音声信号として取得する音声入力部と、
該音声信号に対応する単語列情報を理解結果として取得する音声理解部と、
出力音声を生成する少なくとも二つ以上の音声生成部と、
前記音声理解部における理解結果に基づき、前記複数の音声生成部から出力対象音声信号を選択し、該出力対象音声信号を連結させた結合音声信号を応答音声信号として生成する応答音声管理部と、
前記結合音声信号を出力する応答音声出力部と、
を具備し、
前記応答音声出力部は、前記結合音声信号を構成している前記生成された各出力対象音声信号間の声質の乖離を検出する機能と、該乖離に基づく聞き落とし可能性の程度を検出する聞き落とし可能度検出部と、該聞き落とし可能性の程度を示す聞き落とし可能度が所定の値以下となるように前記生成された各音声信号間の声質の乖離が少なくなるように前記生成された結合音声信号を調整する音声調整部と
を備えることを特徴とする音声対話装置。
A voice input unit for acquiring at least one voice as a voice signal;
A speech understanding unit that acquires word string information corresponding to the speech signal as an understanding result;
At least two or more sound generation units for generating output sound;
A response speech management unit that selects an output target speech signal from the plurality of speech generation units based on an understanding result in the speech understanding unit, and generates a combined speech signal obtained by connecting the output target speech signals as a response speech signal;
A response voice output unit for outputting the combined voice signal;
Comprising
The response audio output unit detects a voice quality divergence between the generated output target audio signals constituting the combined audio signal, and a listening detection that detects a degree of possibility of being missed based on the divergence. The drop possibility detection unit and the generated voice quality difference between the generated voice signals so that the drop possibility indicating the degree of the drop possibility is less than or equal to a predetermined value. A voice interactive apparatus comprising: a voice adjusting unit that adjusts a combined voice signal.
請求項1に記載の音声対話装置において、
前記応答音声管理部は、合成音声信号あるいは予め録音された音声信号であるシステム音声信号を生成するシステム音声生成部と、ユーザが発話した音声の少なくとも一部をユーザ音声信号として抽出するユーザ音声抽出部とを有し、且つ前記システム音声生成部出力と前記ユーザ音声抽出部出力とを結合して前記結合音声信号を応答音声信号として生成する機能を有していることを特徴とする音声対話装置。
The spoken dialogue apparatus according to claim 1, wherein
The response voice management unit generates a system voice signal that is a synthesized voice signal or a pre-recorded voice signal, and a user voice extraction that extracts at least part of the voice spoken by the user as a user voice signal And a function of generating the combined voice signal as a response voice signal by combining the output of the system voice generation unit and the output of the user voice extraction unit. .
請求項1または請求項2に記載の音声対話装置において、
前記音声理解部は前記音声入力部からの音声信号に対応する単語列を認識し、該単語毎の認識信頼度を付与して前記理解結果として出力する機能を有し、
前記応答音声管理部は前記音声信号の理解結果に基づき前記信頼度が高いと判断された単語については前記システム音声信号を選択し、前記信頼度が低いと判断された単語については前記ユーザ音声信号を選択し、且つ該システム音声信号と該ユーザ音声信号とを組み合わせた前記結合音声信号を生成する機能を有することを特徴とする音声対話装置。
The voice interaction apparatus according to claim 1 or 2,
The speech understanding unit has a function of recognizing a word string corresponding to a speech signal from the speech input unit, giving a recognition reliability for each word, and outputting the result as an understanding result,
The response voice management unit selects the system voice signal for a word determined to have high reliability based on an understanding result of the voice signal, and the user voice signal for a word determined to have low reliability. And a function of generating the combined voice signal obtained by combining the system voice signal and the user voice signal.
請求項1乃至請求項3のいずれかに記載の音声対話装置において、
前記応答音声出力部は、前記結合音声信号に含まれる複数の出力対象音声信号の声質の乖離を、音声信号の音響的特徴の乖離として検出する機能を備え、該乖離が大きい場合、前記聞き落とし可能度が大きいと判断し、該聞き落とし可能度が予め定められた値以下となるように前記音響的特徴の調整を行う機能を有すること、を特徴とする音声対話装置。
The voice interactive apparatus according to any one of claims 1 to 3,
The response voice output unit has a function of detecting a voice quality divergence of a plurality of output target voice signals included in the combined voice signal as a divergence of acoustic characteristics of the voice signal. A spoken dialogue apparatus characterized by having a function of determining that the possibility is high and adjusting the acoustic characteristic so that the possibility of overhearing is equal to or less than a predetermined value.
請求項4に記載の音声対話装置において、
前記音響的特徴は、基本周波数、エネルギー値、AQ値(Amplitude Quotient)の少なくとも何れかであること、を特徴とする音声対話装置。
The voice interactive apparatus according to claim 4,
The acoustic dialogue device is characterized in that the acoustic feature is at least one of a fundamental frequency, an energy value, and an AQ value (Amplitude Quotient).
請求項1乃至請求項3の何れかに記載の音声対話装置において、
前記応答音声出力部は、前記結合音声信号に含まれる複数の出力対象音声信号の声質の乖離を、発話速度の乖離として検出する機能を備え、該発話速度の乖離が大きい場合に、聞き落とし可能度が大きいと判断し、該聞き落とし可能度が予め定められた値以下となるように前記発話速度の乖離を低減する機能を有すること、を特徴とする音声対話装置。
The voice interaction apparatus according to any one of claims 1 to 3,
The response voice output unit has a function of detecting voice quality divergence of a plurality of output target audio signals included in the combined voice signal as utterance speed divergence, and can be overlooked when the utterance speed divergence is large A speech dialogue apparatus characterized by having a function of reducing the utterance speed deviation so that the degree of missed voice is determined to be less than or equal to a predetermined value.
請求項1乃至6に記載の音声対話装置において、
前記応答音声出力部は、前記聞き落とし可能度が所定の値より大きい場合に、前記結合音声信号の結合部境界に所定時間長の定常信号あるいは非定常信号あるいは無音信号を挿入すること、を特徴とする音声対話装置。
The spoken dialogue apparatus according to any one of claims 1 to 6,
The response voice output unit inserts a stationary signal, a non-stationary signal, or a silence signal having a predetermined time length at a coupling unit boundary of the coupled voice signal when the possibility of overhearing is greater than a predetermined value. Voice dialogue device.
請求項7に記載の音声対話装置において、
前記応答音声出力部は、前記聞き落とし可能度が所定の値より大きい場合に、前記結合音声信号の結合部境界に、前記聞き落とし可能度に正比例する時間長の定常信号あるいは非定常信号あるいは無音信号を挿入する機能を有すること、を特徴とする音声対話装置。
The voice interactive apparatus according to claim 7, wherein
The response voice output unit has a stationary signal or non-stationary signal or silence of a duration that is directly proportional to the possibility of hearing at the boundary of the combined voice signal when the possibility of hearing is greater than a predetermined value. A spoken dialogue apparatus characterized by having a function of inserting a signal.
請求項1乃至3に記載の音声対話装置において、
前記応答音声出力部は、前記結合音声信号に含まれる複数の出力対象音声信号の声質の乖離を、音声信号の音響的特徴の乖離として検出する機能を備え、且つ該乖離が大きい場合には、聞き落とし可能度が大きいと判断する機能と、
該聞き落とし可能度が所定の値より大きい場合に、該聞き落とし可能度が所定の値よりも小さくなるように、複数の出力音声信号における基本周波数或いは音声エネルギーの少なくともいずれかを加工する機能を有すること、を特徴とする音声対話装置。
The voice interaction device according to claim 1, wherein
The response audio output unit has a function of detecting a deviation in voice quality of a plurality of output target audio signals included in the combined audio signal as a deviation in acoustic characteristics of the audio signal, and when the deviation is large, A function that determines that the possibility of being overlooked is large,
A function of processing at least one of a fundamental frequency and audio energy in a plurality of output audio signals so that the overhearing possibility is smaller than a predetermined value when the overhearing possibility is larger than a predetermined value; A voice interactive apparatus characterized by comprising:
請求項1乃至3に記載の音声対話装置において、
前記応答音声出力部は、前記結合音声信号に含まれる複数の出力対象音声信号における声質の乖離を、発話速度の乖離として検出する機能を備え、且つ該乖離が大きい場合に、聞き落とし可能度が大きいと判断する機能と、
該聞き落とし可能度が所定の値より大きい場合に、該聞き落とし可能度が所定の値より小さくなるように、複数の出力音声信号のうちの少なくとも一つについて、発話速度を調整する機能を有すること、を特徴とする音声対話装置。
The voice interaction device according to claim 1, wherein
The response voice output unit has a function of detecting a voice quality divergence in a plurality of output target voice signals included in the combined voice signal as a utterance speed divergence. The ability to determine that
A function of adjusting a speech rate for at least one of a plurality of output audio signals so that the possibility of overhearing is smaller than a predetermined value when the overhearing possibility is larger than a predetermined value; A voice interactive apparatus characterized by that.
少なくとも一つ以上の音声を音声信号として取得する音声入力部と、
該音声信号に対応する単語列を理解結果として取得する音声理解部と、
ユーザが発話した音声の少なくとも一部をユーザ音声として抽出するユーザ音声抽出部と、
前記理解結果に基づき応答音声信号を決定する応答音声管理部と、
該応答音声信号を出力する応答音声出力部と、
を具備し、
前記応答音声管理部は、前記音声理解部で認識された単語列あるいは音素列を生成するシステム音声生成部と、前記抽出されたユーザ音声を音素認識して音素列を抽出する音素認識部とを有し、
前記ユーザ音声の音素列と、前記音声理解部の理解結果に基づく前記システム音声生成部出力の音素列とを組み合わせた出力音素列を生成する機能とを持ち、
前記応答音声出力部は、前記出力音素列に基づき音声合成により出力音声を生成する機能を有すること、を特徴とする音声対話装置。
A voice input unit for acquiring at least one voice as a voice signal;
A speech understanding unit that acquires a word string corresponding to the speech signal as an understanding result;
A user voice extraction unit that extracts at least part of voice spoken by the user as user voice;
A response voice management unit that determines a response voice signal based on the understanding result;
A response voice output unit for outputting the response voice signal;
Comprising
The response voice management unit includes: a system voice generation unit that generates a word string or a phoneme string recognized by the voice understanding unit; and a phoneme recognition unit that recognizes the extracted user voice and extracts a phoneme string. Have
Having a function of generating an output phoneme sequence that combines the phoneme sequence of the user speech and the phoneme sequence of the system speech generation unit output based on the understanding result of the speech understanding unit;
The response speech output unit has a function of generating an output speech by speech synthesis based on the output phoneme string.
少なくとも一つ以上の音声を音声信号として取得し、
該音声信号に対応する単語列情報の理解結果を取得し、
出力音声を少なくとも二つ以上生成し、
前記理解結果に基づき、前記複数の出力対象音声信号を選択し、該出力対象音声信号を連結させた結合音声信号を応答音声信号として生成し、
前記結合音声信号を出力する、
音声対話方法であって、
前記結合音声信号を構成している前記生成された各音声信号間の声質の乖離に基づく聞き落とし可能性の程度を示す聞き落とし可能度を検出し、該聞き落とし可能度が所定の値以下となるように前記生成された各音声信号間の声質の乖離が少なくなるように前記生成された結合音声信号を調整することを特徴とする音声対話方法。
Obtain at least one or more sounds as audio signals,
Obtaining an understanding result of word string information corresponding to the voice signal;
Generate at least two output sounds,
Based on the understanding result, the plurality of output target audio signals are selected, and a combined audio signal obtained by connecting the output target audio signals is generated as a response audio signal;
Outputting the combined audio signal;
A voice interaction method,
Detecting the possibility of being overlooked indicating the degree of possibility of being overlooked based on a voice quality divergence between the generated audio signals constituting the combined audio signal, and the overhearing possibility is less than or equal to a predetermined value A voice dialogue method comprising adjusting the generated combined voice signal so that a difference in voice quality between the generated voice signals is reduced.
請求項12に記載の音声対話方法において、
合成音声信号あるいは予め録音された音声信号であるシステム音声信号を生成し、ユーザが発話した音声の少なくとも一部をユーザ音声信号として抽出し、且つ前記システム音声信号と前記ユーザ音声信号とを結合した前記結合音声信号を応答音声信号として生成すること、を特徴とする音声対話方法。
The voice interaction method according to claim 12,
A system voice signal, which is a synthesized voice signal or a pre-recorded voice signal, is generated, at least a part of the voice spoken by the user is extracted as a user voice signal, and the system voice signal and the user voice signal are combined Generating the combined voice signal as a response voice signal.
請求項12または請求項13に記載の音声対話方法において、
前記音声信号に対応する単語列を認識し、該単語列に含まれる単語毎の認識信頼度を付与して前記理解結果として出力し、
前記音声信号の理解結果に基づき前記信頼度が高い認識単語については前記システム音声信号を選択し、前記信頼度が低い認識単語については前記ユーザ音声信号を選択し、該システム音声信号と該ユーザ音声信号とを組み合わせた前記結合音声信号を生成すること、を特徴とする音声対話方法。
The voice interaction method according to claim 12 or 13,
Recognizing a word string corresponding to the voice signal, giving a recognition reliability for each word included in the word string, and outputting as the understanding result;
Based on the understanding result of the speech signal, the system speech signal is selected for a recognized word with high reliability, the user speech signal is selected for a recognized word with low reliability, and the system speech signal and the user speech are selected. Generating the combined voice signal in combination with a signal.
請求項12乃至請求項14のいずれかに記載の音声対話方法において、
前記結合音声信号に含まれる複数の出力対象音声信号の声質の乖離を、音声信号の音響的特徴の乖離として検出し、該乖離が大きい場合、前記聞き落とし可能度が大きいと判断し、該聞き落とし可能度が予め定められた値以下となるように前記音響的特徴を調整すること、を特徴とする音声対話方法。
The voice interaction method according to any one of claims 12 to 14,
The voice quality divergence of the plurality of output target audio signals included in the combined audio signal is detected as the divergence of the acoustic characteristics of the audio signal. If the divergence is large, it is determined that the possibility of being overlooked is high, and the listening Adjusting the acoustic feature such that the drop possibility is equal to or less than a predetermined value.
請求項15に記載の音声対話方法において、
前記音響的特徴は、基本周波数、エネルギー値、AQ値(Amplitude Quotient)の少なくとも何れかであること、を特徴とする音声対話方法。
The voice interaction method according to claim 15,
The audio interaction method is characterized in that the acoustic feature is at least one of a fundamental frequency, an energy value, and an AQ value (Amplitude Quotient).
請求項12乃至請求項14の何れかに記載の音声対話方法において、
前記結合音声に含まれる複数の出力対象音声信号の声質の乖離を、発話速度の乖離として検出し、該発話速度の乖離が大きい場合に、聞き落とし可能度が大きいと判断し、該聞き落とし可能度が予め定められた値以下となるように前記発話速度の乖離を低減すること、を特徴とする音声対話方法。
The voice interaction method according to any one of claims 12 to 14,
Voice quality divergence of multiple output target audio signals included in the combined speech is detected as utterance speed divergence, and when the utterance speed divergence is large, it is judged that the possibility of being overheard is large, and the oversight is possible A voice interaction method characterized by reducing the divergence of the utterance speed so that the degree is equal to or less than a predetermined value.
請求項12乃至17に記載の音声対話方法において、
前記聞き落とし可能度が所定の値より大きい場合に、前記結合音声信号の結合部境界に所定時間長の定常信号あるいは非定常信号あるいは無音信号を挿入すること、
を特徴とする音声対話方法。
The voice interaction method according to any one of claims 12 to 17,
Inserting a stationary signal, a non-stationary signal, or a silence signal having a predetermined time length at the boundary of the coupled audio signal when the possibility of overhearing is greater than a predetermined value;
A voice dialogue method characterized by the above.
請求項18に記載の音声対話方法において、
前記聞き落とし可能度が所定の値より大きい場合に、前記結合音声信号の結合部境界に聞き落とし可能度の前記所定の値に正比例する時間長の定常信号あるいは非定常信号あるいは無音信号を挿入すること、を特徴とする音声対話方法。
The voice interaction method according to claim 18.
When the overhearing possibility is larger than a predetermined value, a stationary signal, a non-stationary signal, or a silent signal having a length of time that is directly proportional to the predetermined value of the overhearing possibility is inserted into a boundary of the combined voice signal. A voice dialogue method characterized by that.
請求項12乃至14に記載の音声対話方法において、
前記結合音声信号に含まれる複数の出力対象音声信号の声質の乖離を、音声信号の音響的特徴の乖離として検出し、且つ該乖離が大きい場合には、聞き落とし可能度が大きいと判断し、
該聞き落とし可能度が所定の値より大きい場合に、該聞き落とし可能度が所定の値よりも小さくなるように、複数の出力音声信号における基本周波数或いは音声エネルギーの少なくともいずれかを加工することを特徴とする音声対話方法。
15. The voice interaction method according to claim 12, wherein:
Detecting a voice quality divergence of a plurality of output target audio signals included in the combined audio signal as a divergence of acoustic characteristics of the audio signal, and if the divergence is large, determining that the possibility of being overheard is high;
Processing at least one of a fundamental frequency and audio energy in a plurality of output audio signals so that the overhearing possibility is smaller than a predetermined value when the overhearing possibility is larger than a predetermined value; A featured voice interaction method.
請求項12乃至14に記載の音声対話方法において、
前記結合音声信号に含まれる複数の出力対象音声信号における声質の乖離を、発話速度の乖離として検出し、且つ該乖離が大きい場合に、聞き落とし可能度が大きいと判断し、
該聞き落とし可能度が所定の値より大きい場合に、該聞き落とし可能度が所定の値より小さくなるように、複数の出力音声信号のうちの少なくとも一つについて、発話速度を調整することを特徴とする音声対話方法。
15. The voice interaction method according to claim 12, wherein:
Detecting voice quality divergence in a plurality of output target audio signals included in the combined audio signal as utterance speed divergence, and when the divergence is large, determining that the possibility of being overheard is high,
The speech rate is adjusted for at least one of the plurality of output audio signals so that the possibility of overhearing is smaller than a predetermined value when the overhearing possibility is larger than a predetermined value. Voice dialogue method.
少なくとも一つ以上の音声を音声信号として取得し、
該音声信号に対応する単語列を理解結果として取得し、
ユーザが発話した音声の少なくとも一部をユーザ音声として抽出し、
前記理解結果に基づき応答音声信号を決定し、
該応答音声信号を出力し、
前記抽出されたユーザ音声を音素認識して音素列を抽出し、
該音素列と、前記理解結果に基づく音素列とを組み合わせた出力音素列を生成し、
前記出力音素列に基づき音声合成により出力音声を生成すること、を特徴とする音声対話方法。
Obtain at least one or more sounds as audio signals,
Obtaining a word string corresponding to the speech signal as an understanding result;
Extract at least part of the voice spoken by the user as user voice,
A response voice signal is determined based on the understanding result,
Outputting the response voice signal;
Phoneme recognition of the extracted user voice to extract a phoneme string,
Generating an output phoneme sequence combining the phoneme sequence and the phoneme sequence based on the understanding result;
A speech dialogue method comprising generating output speech by speech synthesis based on the output phoneme sequence.
JP2006004761A 2006-01-12 2006-01-12 Voice dialogue apparatus and voice dialogue method Expired - Fee Related JP4752516B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006004761A JP4752516B2 (en) 2006-01-12 2006-01-12 Voice dialogue apparatus and voice dialogue method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006004761A JP4752516B2 (en) 2006-01-12 2006-01-12 Voice dialogue apparatus and voice dialogue method

Publications (2)

Publication Number Publication Date
JP2007187799A true JP2007187799A (en) 2007-07-26
JP4752516B2 JP4752516B2 (en) 2011-08-17

Family

ID=38343024

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006004761A Expired - Fee Related JP4752516B2 (en) 2006-01-12 2006-01-12 Voice dialogue apparatus and voice dialogue method

Country Status (1)

Country Link
JP (1) JP4752516B2 (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010032978A (en) * 2008-07-31 2010-02-12 Hitachi Ltd Voice message creation device and method
JP2010224153A (en) * 2009-03-23 2010-10-07 Toyota Central R&D Labs Inc Speech interaction device and program
JP2011118290A (en) * 2009-12-07 2011-06-16 Yamaha Corp Speech recognition device
JP2014010420A (en) * 2012-07-03 2014-01-20 Seiko Epson Corp Integrated circuit device
WO2015132829A1 (en) * 2014-03-07 2015-09-11 パナソニックIpマネジメント株式会社 Speech interaction device, speech interaction system, and speech interaction method
WO2020189850A1 (en) * 2019-03-19 2020-09-24 Samsung Electronics Co., Ltd. Electronic device and method of controlling speech recognition by electronic device

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02109100A (en) * 1988-10-19 1990-04-20 Fujitsu Ltd Voice input device
JPH0527789A (en) * 1991-07-24 1993-02-05 Matsushita Electric Ind Co Ltd Voice synthesizer
JPH0876796A (en) * 1994-09-06 1996-03-22 Fujitsu Ten Ltd Voice synthesizer
JP2002297179A (en) * 2001-03-29 2002-10-11 Fujitsu Ltd Automatic answering conversation system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02109100A (en) * 1988-10-19 1990-04-20 Fujitsu Ltd Voice input device
JPH0527789A (en) * 1991-07-24 1993-02-05 Matsushita Electric Ind Co Ltd Voice synthesizer
JPH0876796A (en) * 1994-09-06 1996-03-22 Fujitsu Ten Ltd Voice synthesizer
JP2002297179A (en) * 2001-03-29 2002-10-11 Fujitsu Ltd Automatic answering conversation system

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010032978A (en) * 2008-07-31 2010-02-12 Hitachi Ltd Voice message creation device and method
JP2010224153A (en) * 2009-03-23 2010-10-07 Toyota Central R&D Labs Inc Speech interaction device and program
JP2011118290A (en) * 2009-12-07 2011-06-16 Yamaha Corp Speech recognition device
JP2014010420A (en) * 2012-07-03 2014-01-20 Seiko Epson Corp Integrated circuit device
WO2015132829A1 (en) * 2014-03-07 2015-09-11 パナソニックIpマネジメント株式会社 Speech interaction device, speech interaction system, and speech interaction method
JPWO2015132829A1 (en) * 2014-03-07 2017-03-30 パナソニックIpマネジメント株式会社 Voice dialogue apparatus, voice dialogue system, and voice dialogue method
WO2020189850A1 (en) * 2019-03-19 2020-09-24 Samsung Electronics Co., Ltd. Electronic device and method of controlling speech recognition by electronic device
US11094313B2 (en) 2019-03-19 2021-08-17 Samsung Electronics Co., Ltd. Electronic device and method of controlling speech recognition by electronic device
US11854527B2 (en) 2019-03-19 2023-12-26 Samsung Electronics Co., Ltd. Electronic device and method of controlling speech recognition by electronic device

Also Published As

Publication number Publication date
JP4752516B2 (en) 2011-08-17

Similar Documents

Publication Publication Date Title
US7627471B2 (en) Providing translations encoded within embedded digital information
US8768701B2 (en) Prosodic mimic method and apparatus
US20060210028A1 (en) System and method for personalized text-to-voice synthesis
US8645131B2 (en) Detecting segments of speech from an audio stream
JP4752516B2 (en) Voice dialogue apparatus and voice dialogue method
WO2013182118A1 (en) Transmission method and device for voice data
EP1703492A1 (en) System and method for personalised text-to-voice synthesis
US20160210982A1 (en) Method and Apparatus to Enhance Speech Understanding
JP2012163692A (en) Voice signal processing system, voice signal processing method, and voice signal processing method program
JP6599828B2 (en) Sound processing method, sound processing apparatus, and program
JP2005070430A (en) Speech output device and method
JP2019215449A (en) Conversation auxiliary apparatus, conversation auxiliary method, and program
KR102088216B1 (en) Method and device for reducing crosstalk in automatic speech translation system
TW201403587A (en) Control using temporally and/or spectrally compact audio commands
JP2001056696A (en) Method and device for voice storage and reproduction
US11563708B1 (en) Message grouping
JP2005338454A (en) Speech interaction device
JP2009162879A (en) Utterance support method
JP3219892B2 (en) Real-time speech speed converter
JP6044490B2 (en) Information processing apparatus, speech speed data generation method, and program
JP4979336B2 (en) Audio output device
JP2010175717A (en) Speech synthesizer
JP2007086592A (en) Speech output device and method therefor
JP2015215503A (en) Voice recognition method, voice recognition device and voice recognition program
US11610596B2 (en) Adjustment method of sound output and electronic device performing the same

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081126

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20101001

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101026

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20101028

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101102

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101221

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110426

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110509

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140603

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees