JP6375605B2 - Voice control device, voice control method and program - Google Patents

Voice control device, voice control method and program Download PDF

Info

Publication number
JP6375605B2
JP6375605B2 JP2013198219A JP2013198219A JP6375605B2 JP 6375605 B2 JP6375605 B2 JP 6375605B2 JP 2013198219 A JP2013198219 A JP 2013198219A JP 2013198219 A JP2013198219 A JP 2013198219A JP 6375605 B2 JP6375605 B2 JP 6375605B2
Authority
JP
Japan
Prior art keywords
pitch
answer
utterance
data
ending
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013198219A
Other languages
Japanese (ja)
Other versions
JP2015064481A (en
Inventor
松原 弘明
弘明 松原
純也 浦
純也 浦
川▲原▼ 毅彦
毅彦 川▲原▼
久湊 裕司
裕司 久湊
克二 吉村
克二 吉村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to JP2013198219A priority Critical patent/JP6375605B2/en
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to US14/892,624 priority patent/US9685152B2/en
Priority to CN201480031099.XA priority patent/CN105247609B/en
Priority to EP14803435.8A priority patent/EP3007165B1/en
Priority to CN201910272063.5A priority patent/CN109887485A/en
Priority to PCT/JP2014/064631 priority patent/WO2014192959A1/en
Priority to EP18178496.8A priority patent/EP3399521B1/en
Publication of JP2015064481A publication Critical patent/JP2015064481A/en
Priority to US15/375,984 priority patent/US10490181B2/en
Application granted granted Critical
Publication of JP6375605B2 publication Critical patent/JP6375605B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrophonic Musical Instruments (AREA)
  • Machine Translation (AREA)

Description

本発明は、音声制御装置、音声制御方法およびプログラムに関する。 The present invention relates to a voice control device , a voice control method, and a program.

近年、音声合成技術としては、次のようなものが提案されている。すなわち、利用者の話調や声質に対応した音声を合成出力することによって、より人間らしく発音する技術(例えば特許文献1参照)や、利用者の音声を分析して、当該利用者の心理状態や健康状態などを診断する技術(例えば特許文献2参照)が提案されている。
また、利用者が入力した音声を認識する一方で、シナリオで指定された内容を音声合成で出力して、利用者との音声対話を実現する音声対話システムも提案されている(例えば特許文献3参照)。
In recent years, the following have been proposed as speech synthesis techniques. That is, by synthesizing and outputting speech corresponding to the user's speech tone and voice quality, a technique for sounding more humanly (see, for example, Patent Document 1), analyzing the user's speech, A technique for diagnosing a health condition or the like (see, for example, Patent Document 2) has been proposed.
In addition, a voice dialogue system that recognizes a voice input by a user and outputs a content specified in a scenario by voice synthesis to realize a voice dialogue with the user has been proposed (for example, Patent Document 3). reference).

特開2003−271194号公報JP 2003-271194 A 特許第4495907号公報Japanese Patent No. 4495907 特許第4832097号公報Japanese Patent No. 4832097

ところで、上述した音声合成技術と音声対話システムとを組み合わせて、利用者の音声による発言に対し、なんらかの回答を音声合成により出力する対話システムを想定する。この場合、音声合成によって出力される音声が利用者に不自然な感じ、具体的には、いかにも機械が喋っている感じを与えるときがある、ということが指摘されている。
本発明は、このような事情に鑑みてなされたものであり、その目的の一つは、利用者の音声による発言に対して、あたかも人と対話しているかのように自然な感じの回答を音声合成により出力することが可能な技術を提供することにある。
By the way, it is assumed that a dialogue system that combines the above-described speech synthesis technology and a speech dialogue system and outputs some answer by speech synthesis in response to a speech by a user's voice is assumed. In this case, it has been pointed out that the voice output by the speech synthesis may feel unnatural to the user, specifically giving the machine a feeling of being uttered.
The present invention has been made in view of such circumstances, and one of its purposes is to respond to a user's voice-like speech as if it were interacting with a person. An object of the present invention is to provide a technique capable of outputting by voice synthesis.

本件発明者は、利用者による発言に対する回答を音声合成で出力(返答)するマン・マシンのシステムを検討するにあたって、まず、人同士では、どのような対話がなされるかについて、対話を印象付ける音高(周波数)に着目して考察した。   In examining the man-machine system for outputting (replying) the response to the user's utterance by speech synthesis, the inventor first impresses the conversation as to what kind of dialogue is made between people. We focused on the pitch (frequency).

ここでは、人同士の対話として、一方の人(aとする)による発言(質問、問いを含む)に対し、他方の人(bとする)が回答(相槌を含む)する場合について検討する。この場合において、aが発言したとき、aだけなく、当該発言に対して回答しようとするbも、当該発言のうちの、ある区間における音高を強い印象で残していることが多い。bは、同意や、賛同、肯定などの意で回答するときには、印象に残っている発言の音高に対し、当該回答を特徴付ける部分、例えば語尾や語頭の音高が、所定の関係、具体的には協和音程の関係となるように発声する。当該回答を聞いたaは、自己の発言について印象に残っている音高と当該発言に対する回答を特徴付ける部分の音高とが上記関係にあるので、bの回答に対して心地良く、安心するような好印象を抱くことになる、と、本件発明者は考えた。   Here, as a dialogue between people, a case where the other person (referred to as “b”) answers (including conflicts) to a statement (including a question and a question) by one person (referred to as “a”) will be considered. In this case, when “a” speaks, not only “a” but also “b” trying to reply to the said speech often leaves the pitch in a certain section of the said speech with a strong impression. b, when replying with consent, approval, or affirmation, the pitch of the utterance that remains in the impression, for example, the pitch of the ending or beginning of the sentence Speak to be in a Kyowa pitch. The person a who heard the answer has the above-mentioned relationship between the pitch that remains in the impression about his / her speech and the pitch of the part that characterizes the answer to the person's reply, so that the answer to b is comfortable and reassuring. The present inventor thought that he had a good impression.

例えば、aが「そうでしょ?」と発言したとき、aおよびbは、当該発言のうち、念押しや確認などの意が強く表れる語尾の「しょ」の音高を記憶に残した状態となる。この状態において、bが、当該発言に対して「あ、はい」と肯定的に回答しようとする場合に、印象に残っている「しょ」の音高に対して、回答を特徴付ける部分、例えば語尾の「い」の音高が上記関係になるように「あ、はい」と回答する。   For example, when “a” says “Yes?”, “A” and “b” are in a state of memorizing the pitch of “Sho” at the end of the said utterance that strongly expresses willingness or confirmation. . In this state, when b tries to affirmatively answer “Yes, yes” to the statement, the part characterizing the answer, for example, the ending, Answer “Yes, yes” so that the pitch of “Yes” is in the above relationship.

図3は、このような実際の対話におけるフォルマントを示している。この図において、横軸が時間であり、縦軸が周波数であって、スペクトルは、白くなるにつれて強度が強い状態を示している。
図に示されるように、人の音声を周波数解析して得られるスペクトルは、時間的に移動する複数のピーク、すなわちフォルマントとして現れる。詳細には、「そうでしょ?」に相当するフォルマント、および、「あ、はい」に相当するフォルマントは、それぞれ3つのピーク帯(時間軸に沿って移動する白い帯状の部分)として現れている。
これらの3つのピーク帯のうち、周波数の最も低い第1フィルマントについて着目してみると、「そうでしょ?」の「しょ」に相当する符号A(の中心部分)の周波数はおおよそ400Hzである。一方、符号Bは、「あ、はい」の「い」に相当する符号Bの周波数はおおよそ260Hzである。このため、符号Aの周波数は、符号Bの周波数に対して、ほぼ3/2となっていることが判る。
FIG. 3 shows a formant in such an actual dialogue. In this figure, the horizontal axis is time, the vertical axis is frequency, and the spectrum shows a state where the intensity increases as it becomes white.
As shown in the figure, a spectrum obtained by frequency analysis of human speech appears as a plurality of peaks that move in time, that is, formants. Specifically, a formant corresponding to “Yeah?” And a formant corresponding to “Ah, yes” each appear as three peak bands (white band-like portions moving along the time axis).
When attention is paid to the first filmant having the lowest frequency among these three peak bands, the frequency of the symbol A (the central part) corresponding to “Sho” of “Yeah?” Is approximately 400 Hz. . On the other hand, for the code B, the frequency of the code B corresponding to “Yes” of “A, Yes” is approximately 260 Hz. For this reason, it can be seen that the frequency of the code A is approximately 3/2 with respect to the frequency of the code B.

周波数の比が3/2であるという関係は、音程でいえば、「ソ」に対して同じオクターブの「ド」や、「ミ」に対して1つ下のオクターブの「ラ」などをいい、後述するように、完全5度の関係にある。この周波数の比(音高同士における所定の関係)については、好適な一例であるが、後述するように様々な例が挙げられる。   The relationship that the frequency ratio is 3/2 is the same octave “de” for “so” or “la” one octave lower for “mi”. As will be described later, there is a complete 5 degree relationship. This frequency ratio (predetermined relationship between pitches) is a preferred example, but various examples can be given as will be described later.

図4は、音名(階名)と人の声の周波数との関係について示す図である。この例では、第4オクターブの「ド」を基準にしたときの周波数比も併せて示しており、「ソ」は「ド」を基準にすると、上記のように3/2である。また、第3オクターブの「ラ」を基準にしたときの周波数比についても並列に例示している。   FIG. 4 is a diagram illustrating a relationship between a pitch name (floor name) and a human voice frequency. In this example, the frequency ratio when the fourth octave “do” is used as a reference is also shown, and “so” is 3/2 as described above when “do” is used as a reference. Further, the frequency ratio when the third octave “La” is used as a reference is also illustrated in parallel.

このように人同士の対話では、発言の音高と返答する回答の音高とは無関係ではなく、上記のような関係がある、と考察できる。そして、本件発明者は、多くの対話例を分析し、多くの人による評価を統計的に集計して、この考えがおおよそ正しいことを裏付けた。   In this way, in the dialogue between people, it can be considered that the pitch of the utterance and the pitch of the answer to be answered are not irrelevant but have the above relationship. Then, the present inventor analyzed many dialogue examples and statistically aggregated evaluations by many people to prove that this idea is roughly correct.

さて、人同士の対話は、典型的には、aによる発言と、当該発言に対するbの発言とであるが、bの発言は、必ずしもaの発言に対して具体的な文章で構成された回答だけでなく、上述したような「あ、はい」や、「うんうん」、「そうですね」、「それで」などの相槌も含まれる。さらに、人同士の対話では、このような相槌は、aの発言に対してレスポンス良く返される点は、経験則上、良く知られていることである。
したがって、利用者による発言に対して、回答を音声合成で出力(返答)する対話システムを検討した場合に、回答として相槌をレスポンス良く出力することができるようにすることは重要である。
そこで、当該音声合成について上記目的を達成するために、次のような構成とした。
Now, a dialogue between people is typically an utterance by a and an utterance of b for the utterance, but the utterance of b is not necessarily an answer composed of a specific sentence with respect to the utterance of a. Not only that, but also the “A, Yes”, “Yeah”, “That's right”, “So,” etc. Furthermore, in the dialogue between people, it is well known from a rule of thumb that such a response is returned with good response to the utterance a.
Therefore, when considering a dialogue system that outputs (replies) an answer by speech synthesis in response to a user's utterance, it is important to be able to output the answer as an answer with good response.
Therefore, in order to achieve the above object for the speech synthesis, the following configuration is adopted.

すなわち、上記目的を達成するために、本発明の一態様に係る符号化復号化装置は、音声信号による発言をデジタル信号に変換するA/D変換器と、前記デジタル信号による発言のうち、特定の第1区間の音高を解析する音高解析部と、前記発言に対して相槌を返す場合に、前記発言の意味内容に応じた相槌データを取得する相槌取得部と、取得された相槌データのうち、特定の第2区間の音高を、前記第1区間の音高に対して所定の関係にある音高に変更する音高制御部と、音高が変更された相槌データをアナログ信号に変換して出力するD/A変換器と、を具備することを特徴とする。
この一態様によれば、入力された音声信号による言葉に対して相槌をうつような場合に、当該言葉の意味内容に応じた相槌データを取得するので、相槌をレスポンス良く出力することができる。また音声合成される相槌に、不自然な感じが伴わないようにすることができる。
In other words, in order to achieve the above object, an encoding / decoding device according to an aspect of the present invention includes an A / D converter that converts a speech by a speech signal into a digital signal, and a specification among the speech by the digital signal. A pitch analysis unit that analyzes the pitch of the first section, a conflict acquisition unit that acquires the conflict data according to the meaning content of the statement when the conflict is returned to the statement, and the acquired conflict data A pitch control unit that changes the pitch of a specific second section to a pitch that has a predetermined relationship with the pitch of the first section, and analog signal that has the tone data changed. And a D / A converter for converting the data into an output.
According to this aspect, in the case where there is a conflict with a word based on the input voice signal, the conflict data corresponding to the meaning content of the word is acquired, so that the conflict can be output with good response. In addition, it is possible to prevent an unnatural feeling from being accompanied by speech synthesis.

なお、第1区間は、例えば発言の語尾であり、第2区間は、相槌の語頭または語尾であることが好ましい。上述したように、発言の印象を特徴付ける区間は、当該発言の語尾であり、当該発言に対する回答としての相槌の印象を特徴付ける区間は、当該相槌の語頭または語尾であることが多いからである。
また、所定の関係は、完全1度を除いた協和音程の関係であることが好ましい。ここで、協和とは、複数の楽音が同時に発生したときに、それらが互いに溶け合って良く調和する関係をいい、これらの音程関係を協和音程という。協和の程度は、2音間の周波数比(振動数比)が単純なものほど高い。周波数比が最も単純な1/1(完全1度)と、2/1(完全8度)とを、特に絶対協和音程といい、これに3/2(完全5度)と4/3(完全4度)とを加えて完全協和音程という。5/4(長3度)、6/5(短3度)、5/3(長6度)および8/5(短6度)を不完全協和音程といい、これ以外のすべての周波数比の関係(長・短の2度と7度、各種の増・減音程など)を不協和音程という。
なお、第2区間の音高が、第1区間の音高と同一となる場合には、対話として不自然な感じを伴うと考えられるので、発言の音高と回答の音高との関係において、完全1度が除かれる。
上記態様において、所定の関係として最も望ましい例は、上述したように第2区間の音高が、第1区間の音高に対して5度下の協和音程の関係である、と考えられる。ただし、所定の関係としては、完全1度を除く協和音程に限られず、不協和音程の関係でも良いし、同一を除く、上下1オクターブの範囲内の音高関係でも良い。
In addition, it is preferable that a 1st area is the ending of a speech, for example, and a 2nd area is the beginning or the ending of a conflict. This is because, as described above, the section characterizing the impression of the comment is the ending of the comment, and the section characterizing the impression of the answer as an answer to the comment is often the beginning or ending of the comment.
Moreover, it is preferable that the predetermined relationship is a relationship of Kyowa intervals excluding perfect 1 degree. Here, “Kyowa” means a relationship in which when a plurality of musical sounds are generated at the same time, they are fused and well harmonized, and these pitch relationships are called Kyowa pitches. The degree of cooperation is higher as the frequency ratio (frequency ratio) between two sounds is simpler. The simplest frequency ratios of 1/1 (perfect 1 degree) and 2/1 (perfect 8 degree) are called absolute consonance pitches, and 3/2 (perfect 5 degree) and 4/3 (perfect) 4 degrees) and is called the perfect harmony pitch. 5/4 (3 degrees long), 6/5 (3 degrees short), 5/3 (6 degrees long) and 8/5 (6 degrees short) are called incomplete harmony intervals, and all other frequency ratios This relationship (long and short 2 degrees and 7 degrees, various increase / decrease intervals, etc.) is called dissonance interval.
If the pitch of the second section is the same as the pitch of the first section, it is considered that the dialogue is accompanied by an unnatural feeling, so in the relationship between the pitch of the utterance and the pitch of the answer Exactly 1 degree is excluded.
In the above aspect, the most desirable example of the predetermined relationship is considered to be a relationship in which the pitch of the second section is 5 degrees below the pitch of the first section as described above. However, the predetermined relationship is not limited to a consonant pitch except for a perfect degree, but may be a dissonant pitch relationship, or may be a pitch relationship within the range of one octave above and below, excluding the same.

上記態様において、前記A/D変換器は、デジタル信号に変換した音声信号をホストコンピュータに供給し、前記発言に対して前記相槌データによる相槌以外を返す場合に、前記音高制御部は、前記ホストコンピュータから供給された前記発言に対する回答データのうち、前記第2区間の音高を、前記第1区間の音高に対して前記所定の関係にある音高に変更し、前記D/A変換器は、前記音高が変更された回答データをアナログ信号に変換する、構成としても良い。
この構成によれば、相槌については、符号化復号化装置の単体によってレスポンス良く、相槌データによる相槌以外の回答については、ホストコンピュータによって精度良く、作成(取得)することができる。
In the above aspect, when the A / D converter supplies an audio signal converted into a digital signal to a host computer and returns something other than the conflict based on the conflict data for the utterance, the pitch control unit Of the answer data to the utterance supplied from the host computer, the pitch of the second section is changed to the pitch having the predetermined relationship with the pitch of the first section, and the D / A conversion The instrument may be configured to convert the answer data whose pitch is changed into an analog signal.
According to this configuration, the response can be created (acquired) with good response by the single unit of the encoding / decoding device, and the answer other than the conflict based on the conflict data can be created (acquired) with high accuracy by the host computer.

本発明の態様については、符号化復号化装置のみならず、当該符号化復号化装置とホストコンピュータとを含む音声合成装置や、当該符号化復号化装置として機能させるプログラムとして概念することも可能である。
なお、本発明では、発言の音高(周波数)を解析対象とし、回答の音高を制御対象としているが、ヒトの音声は、上述したフォルマントの例でも明らかなように、ある程度の周波数域を有するので、解析や制御についても、ある程度の周波数範囲を持ってしまうのは避けられない。また、解析や制御については、当然のことながら誤差が発生する。このため、本件において、音高の解析や制御については、音高(周波数)の数値が同一であることのみならず、ある程度の範囲を伴うことが許容される。
The aspect of the present invention can be conceptualized not only as a coding / decoding device, but also as a speech synthesizer including the coding / decoding device and a host computer, or a program that functions as the coding / decoding device. is there.
In the present invention, the pitch (frequency) of the speech is the analysis target, and the pitch of the answer is the control target. As is clear from the above-described formant example, human speech has a certain frequency range. Therefore, it is inevitable that the analysis and control have a certain frequency range. In addition, as a matter of course, errors occur in analysis and control. For this reason, in this case, the pitch analysis and control are allowed not only to have the same numerical value of the pitch (frequency) but also to have a certain range.

第1実施形態に係る音声合成装置の構成を示すブロック図である。It is a block diagram which shows the structure of the speech synthesizer which concerns on 1st Embodiment. 音声合成装置の機能ブロックの構成を示す図である。It is a figure which shows the structure of the functional block of a speech synthesizer. 対話における音声のフォルマントの例を示す図である。It is a figure which shows the example of the sound formant in a dialog. 音名と周波数等との関係を示す図である。It is a figure which shows the relationship between a pitch name, a frequency, etc. 音声合成装置における音声処理の動作を示すフローチャートである。It is a flowchart which shows the operation | movement of the speech process in a speech synthesizer. 音声処理における相槌処理の動作を示すフローチャートである。It is a flowchart which shows the operation | movement of the conflict process in an audio | voice process. 音声処理における回答処理の動作を示すフローチャートである。It is a flowchart which shows the operation | movement of the reply process in an audio | voice process. 語尾の特定の具体例を示す図である。It is a figure which shows the specific specific example of an ending. 音声波形データに対する音高変換の例を示す図である。It is a figure which shows the example of the pitch conversion with respect to audio | voice waveform data. 利用者による発言に対し合成音声の与える心理的影響を示す図である。It is a figure which shows the psychological influence which a synthetic speech gives with respect to the speech by a user. 応用例(その1)における処理の要部を示す図である。It is a figure which shows the principal part of the process in an application example (the 1). 応用例(その2)における処理の要部を示す図である。It is a figure which shows the principal part of the process in an application example (the 2). 応用例(その3)における処理の要部を示す図である。It is a figure which shows the principal part of the process in an application example (the 3).

以下、本発明の実施形態について図面を参照して説明する。   Embodiments of the present invention will be described below with reference to the drawings.

<第1実施形態>
まず、本発明の第1実施形態に係る符号化復号化装置について説明する。
図1は、第1実施形態に係る符号化復号化装置を適用した音声合成装置10のハードウェア構成を示す図である。
この図において、音声合成装置10は、例えば携帯電話機のような端末装置であり、音声入力部102と、スピーカ104と、符号化復号化装置(以下「CODEC」という:coder decoder)120と、当該CODEC120からみて上位となるホストコンピュータ160とを含んだ構成となっている。
音声入力部102は、詳細については省略するが、利用者の音声を電気信号に変換するマイクロフォンと、変換された音声信号の高域成分をカットするLPF(ローパスフィルタ)とで構成される。スピーカ104は、CODEC120によってアナログ信号に変換された音声信号を音響変換して出力する。
<First Embodiment>
First, the encoding / decoding device according to the first embodiment of the present invention will be described.
FIG. 1 is a diagram illustrating a hardware configuration of a speech synthesizer 10 to which the encoding / decoding device according to the first embodiment is applied.
In this figure, a speech synthesizer 10 is a terminal device such as a mobile phone, for example, a speech input unit 102, a speaker 104, a coding / decoding device (hereinafter referred to as “CODEC”) 120, The configuration includes a host computer 160 that is a host computer as viewed from the CODEC 120.
Although not described in detail, the voice input unit 102 includes a microphone that converts a user's voice into an electric signal and an LPF (low-pass filter) that cuts a high-frequency component of the converted voice signal. The speaker 104 acoustically converts and outputs the audio signal converted into an analog signal by the CODEC 120.

CODEC120は、例えばワンチップまたはマルチチップで構成されたモジュールであり、マイクロプロセッサ122、メモリ124、A/D変換器132、D/A変換器134を含む。そして、CODEC120では、マイクロプロセッサ122がメモリ124に記憶されたプログラムP1(ファームウェア)を実行することによって音声信号を処理する構成となっている。
ホストコンピュータ(ホスト)160は、CPU(Central Processing Unit)162およびメモリ164を有する。CPU162は、バスBを介して、CODEC120およびメモリ164に接続される。
メモリ164には、オペレーティングシステムのほか、音声処理のプログラムP2が格納される。この音声処理には、利用者が発言したときに、当該発言に対する回答や相槌を音声合成で出力する対話処理のほか、利用者の発言を文字列に変換する音声認識処理、ホスト160の側で処理された音楽、音声などを再生出力する再生処理などが含まれる。
The CODEC 120 is a module configured, for example, as a single chip or a multichip, and includes a microprocessor 122, a memory 124, an A / D converter 132, and a D / A converter 134. In the CODEC 120, the microprocessor 122 processes the audio signal by executing the program P1 (firmware) stored in the memory 124.
The host computer (host) 160 includes a CPU (Central Processing Unit) 162 and a memory 164. The CPU 162 is connected to the CODEC 120 and the memory 164 via the bus B.
In addition to the operating system, the memory 164 stores a voice processing program P2. In this voice processing, when the user speaks, in addition to the dialogue processing that outputs the answer and the answer to the speech by speech synthesis, the voice recognition processing that converts the user's speech into a character string, the host 160 side A reproduction process for reproducing and outputting the processed music, voice, and the like is included.

また、特に図示しないが、このほかにも音声合成装置10は、表示部や操作入力部なども有し、利用者が装置の状況を確認したり、装置に対して各種の操作を入力したりすることができるようになっている。また、音声合成装置10は、携帯電話機のような端末装置に限られず、ノート型やタブレット型のパーソナルコンピュータであっても良い。   Although not particularly illustrated, the speech synthesizer 10 also includes a display unit, an operation input unit, and the like, so that the user can check the status of the device and input various operations to the device. Can be done. The speech synthesizer 10 is not limited to a terminal device such as a mobile phone, and may be a notebook or tablet personal computer.

図2は、音声合成装置10の構成を示す機能ブロックを示す図である。この機能ブロックは、CODEC120ではマイクロプロセッサ122がプログラムP1を実行することによって、また、ホスト160ではCPU162がプログラムP2を実行することによって、それぞれ構築される。
この図に示されるように、CODEC120では、音高解析部136、言語解析部138、連携部140、読出部142、相槌データ記憶部143および音高制御部144がそれぞれ構築され、ホスト160では、言語解析部178、連携部180、回答作成部182、言語データベース184、回答データベース186および音声ライブラリ188がそれぞれ構築される。
FIG. 2 is a diagram showing functional blocks showing the configuration of the speech synthesizer 10. This functional block is constructed by the microprocessor 122 executing the program P1 in the CODEC 120 and the CPU 162 executing the program P2 in the host 160, respectively.
As shown in this figure, in the CODEC 120, a pitch analysis unit 136, a language analysis unit 138, a linkage unit 140, a reading unit 142, a companion data storage unit 143, and a pitch control unit 144 are constructed. In the host 160, A language analysis unit 178, a linkage unit 180, an answer creation unit 182, a language database 184, an answer database 186, and an audio library 188 are constructed.

さて、CODEC120の側において音高解析部136は、詳細については後述するが、デジタル信号の音声信号で示される発言を音量解析および周波数解析して、当該発言のうち、特定の区間(第1区間)の音高を求めて、当該音高を示す音高データを出力する。また、音高解析部136は、音量解析に用いた音量波形および周波数解析に用いた音高波形をそれぞれ言語解析部138に供給する。
ここで、第1区間とは、例えば発言の語尾である。また、ここでいう音高とは、例えば音声信号を周波数解析して得られる複数のフォルマントのうち、周波数の最も低い成分である第1フォルマント、図3でいえば、末端が符号Aとなっているピーク帯で示される周波数(音高)をいう。周波数解析については、FFT(Fast Fourier Transform)や、その他公知の方法を用いることができる。発言における語尾を特定するための具体的手法の一例については後述する。
As will be described in detail later, the pitch analysis unit 136 on the CODEC 120 side performs volume analysis and frequency analysis on the speech indicated by the audio signal of the digital signal, and a specific section (first section) of the speech. ) Is obtained, and pitch data indicating the pitch is output. The pitch analysis unit 136 supplies the volume waveform used for volume analysis and the pitch waveform used for frequency analysis to the language analysis unit 138, respectively.
Here, the first section is, for example, the ending of a statement. The pitch here is, for example, a first formant that is the lowest frequency component among a plurality of formants obtained by frequency analysis of an audio signal. In FIG. This is the frequency (pitch) indicated by the peak band. For frequency analysis, FFT (Fast Fourier Transform) or other known methods can be used. An example of a specific method for specifying the ending in the utterance will be described later.

言語解析部138は、デジタル信号の音声信号で示される発言を解析して、次のような判別を実行する。詳細には、言語解析部138は、当該発言の内容が相槌を返すべきものであるか、それとも相槌以外の回答を返すべきものであるか、を判別する。言語解析部138における判別の具体的手法としては、例えば典型的な質問(相槌以外の回答を返すべき発言)の語尾に向かう音量・音高の変化パターンを予め記憶しておくともに、音高解析部136からの音量波形で示される音量変化と音高波形で示される音高変化とが、記憶した音量・音高の変化パターンに合致していれば(または類似度が高ければ)、当該発言が質問であると判別する一方、記憶した変化パターンに合致していなければ(または類似度が低ければ)、当該発言が相槌を返すべきものであると判別する、など手法が挙げられる。
なお、言語解析部138が判別不能である場合、または、言語解析部138による判別結果の信頼性が低い場合、敢えて当該判別については後段のホスト160(言語解析部178)に委ねるルールにしても良い。また、相槌は会話の、いわゆるノリを良くするものであり、その意味については軽視できるので、発言が、質問であるにもかかわらず、相槌を返してしまったとしても、実用上、大きな問題にはならない。
The language analysis unit 138 analyzes the speech indicated by the audio signal of the digital signal and performs the following determination. Specifically, the language analysis unit 138 determines whether the content of the statement is to return an answer or an answer other than an answer. As a specific method of discrimination in the language analysis unit 138, for example, a volume / pitch change pattern toward a ending of a typical question (a statement that should return an answer other than a conflict) is stored in advance, and a pitch analysis is performed. If the volume change indicated by the volume waveform from the section 136 and the pitch change indicated by the pitch waveform match the stored volume / pitch change pattern (or if the degree of similarity is high), the message Is determined to be a question, and if it does not match the stored change pattern (or if the degree of similarity is low), it is determined that the utterance should return an answer.
If the language analysis unit 138 cannot determine or the reliability of the determination result by the language analysis unit 138 is low, the determination is intentionally left to the host 160 (language analysis unit 178). good. In addition, because the sumo is what improves the so-called twist of the conversation, and its meaning can be neglected, even if the remark is a question, even if it is a question, it is a big problem in practice. Must not.

連携部140は、発言の内容が相槌を返すべきものであると判別された場合、例えば音高制御部144に対して処理の対象を相槌データとさせるように制御する一方、ホスト160の側に、当該発言についての処理が不要である旨を通知する。
また、連携部140は、発言の内容が相槌以外の回答を返すべきものであると判別された場合(上記ルールの適用下においては、発言の内容が判別不能である場合、判別結果の信頼性が低い場合を含む)、音高制御部144に対して処理の対象を、後述する回答作成部182により作成された回答データとさせるよう制御する一方、ホスト160の側に、当該発言に対する回答を作成(取得)すべき旨を通知する。
When it is determined that the content of the utterance should return an answer, for example, the linkage unit 140 controls the pitch control unit 144 to set the processing target as the answer data, while on the host 160 side. , It notifies that the process about the said statement is unnecessary.
Further, the cooperation unit 140 determines that the content of the utterance should return an answer other than the conflict (if the content of the utterance cannot be determined under the above rules, the reliability of the determination result is The pitch control unit 144 is controlled so that the processing target is the answer data created by the answer creating unit 182 described later, while the host 160 sends an answer to the comment. Notify that it should be created (acquired).

相槌データ記憶部143は、複数の相槌データを記憶するものである。ここで、相槌データとは、例えば「えーと」や、「なるほど」、「そうですね」、「あ、はい」、「ん〜」などのように返事を含む相槌の音声波形データである。音声波形データの形式としては、例えばwav形式などが挙げられる。
読出部142は、言語解析部138によって発言が相槌を返すべきものであると判別された場合、相槌データ記憶部143に記憶された複数の相槌データのうち、いずれかを所定の順番で(またはランダムに)選択して読み出し、音高制御部144に供給する。
なお、このように発言の内容とは無関係に相槌データを読み出す構成では、当該発言に対して的外れの相槌が出力されてしまう場合もあるが、上述したように相槌の意味は軽視できるので、大きな問題にはならない。
The consideration data storage unit 143 stores a plurality of consideration data. Here, the sum data is the speech waveform data including the answers such as “E-to”, “I see”, “That's right”, “Ah, yes”, “N-”. Examples of the format of the audio waveform data include a wav format.
In the case where the language analysis unit 138 determines that the statement should return an answer, the reading unit 142 selects one of the plurality of pieces of consideration data stored in the opinion data storage unit 143 in a predetermined order (or (Randomly) selected and read out and supplied to the pitch controller 144.
In addition, in the configuration in which the conflict data is read out regardless of the content of the utterance as described above, an irrelevant conflict may be output for the utterance, but the meaning of the conflict can be neglected as described above. It doesn't matter.

なお、読出部142により読み出された相槌データと、回答作成部182により供給された回答データとは、いずれも音声波形データであるので、そのまま再生すれば、相槌、回答を音声で出力することはできる。例えば相槌が「あ、はい」であれば、図9の(a)で示されるように、抑揚が伴って出力される。
ただし、このような音声波形データを単純に再生しただけでは、この相槌の契機となった発言の音高を無視している。このため、利用者の発言に対して、相槌データを単純に再生しても、機械的な感じとなるは否めない。
Note that the answer data read by the reading unit 142 and the answer data supplied by the answer creating unit 182 are both voice waveform data. I can. For example, if the conflict is “Ah, yes”, as shown in FIG.
However, simply replaying such speech waveform data ignores the pitch of the speech that triggered this interaction. For this reason, it cannot be denied that even if the compatibility data is simply reproduced in response to the user's remarks, it becomes a mechanical feeling.

このため、音高制御部144は、相槌データ記憶部143から読み出された相槌データ、または、後述する回答作成部182から供給された回答データに基づく音声合成を、音高解析部136による音高データにしたがって制御する。
詳細には、音高制御部144は、相槌データまたは回答データのうち、特定の区間(第2区間)の音高を、音高データで示される音高に対して所定の関係となるように、音声合成を制御する。
音高制御部144によって合成された音声信号は、D/A変換部134によってアナログ信号に変換された後、スピーカ104によって音響変換されて出力される。
For this reason, the pitch control unit 144 performs speech synthesis based on the conflict data read from the conflict data storage unit 143 or the answer data supplied from the answer creation unit 182 to be described later. Control according to high data.
Specifically, the pitch control unit 144 sets the pitch of a specific section (second section) of the conflict data or answer data so as to have a predetermined relationship with the pitch indicated by the pitch data. Control speech synthesis.
The audio signal synthesized by the pitch control unit 144 is converted into an analog signal by the D / A conversion unit 134, and then is acoustically converted by the speaker 104 and output.

なお、本実施形態において第2区間を、相槌データで規定される相槌または回答データで規定される回答の語尾とするが、上述したように語尾に限られない。また、本実施形態において、音高データに対して所定の関係にある音高を、5度の下の関係にある音高とするが、後述するように、5度下以外の関係にある音高としても良い。   In the present embodiment, the second section is the ending of the answer specified by the answer data or the answer specified by the answer data, but is not limited to the ending as described above. In this embodiment, the pitch having a predetermined relationship with the pitch data is set to a pitch having a relationship of 5 degrees below, but as will be described later, a sound having a relationship other than 5 degrees is used. It can be high.

一方、ホスト160の側において、連携部180は、各種パラメータや各種の状態などの情報を、CODEC120の連携部140に供給する一方、連携部140から回答の作成依頼が通知された場合に、言語解析部178および回答作成部182を制御する。
具体的には、言語解析部178は、A/D変換器132によってデジタル信号に変換された音声信号の発言の意味内容を解析する。詳細には、言語解析部178は、音声信号がどの音素に近いのかを、言語データベース184に予め作成された音素モデルを参照することにより判定して、当該音声信号で規定される発言の意味内容を解析する。なお、このような音素モデルには、例えば隠れマルコフモデルを用いることができる。
回答データベース186は、発言の意味内容に対する回答(文字列)を作成する際に参照されるデータベースである。音声ライブラリ188は、回答の文字列を読み上げた形式の回答データを作成する際に必要となるデータベースである。詳細には、音声ライブラリ188には、単一の音素や音素から音素への遷移部分など、音声の素材となる各種の音声素片の波形を定義した音声素片データが、予めデータベース化されている。
On the other hand, on the host 160 side, the linkage unit 180 supplies information such as various parameters and various states to the linkage unit 140 of the CODEC 120. On the other hand, when a response creation request is notified from the linkage unit 140, the language The analysis unit 178 and the answer creation unit 182 are controlled.
Specifically, the language analysis unit 178 analyzes the semantic content of the speech of the audio signal converted into a digital signal by the A / D converter 132. Specifically, the language analysis unit 178 determines which phoneme the speech signal is close to by referring to a phoneme model created in advance in the language database 184, and the semantic content of the speech defined by the speech signal Is analyzed. As such a phoneme model, for example, a hidden Markov model can be used.
The answer database 186 is a database that is referred to when creating an answer (character string) to the meaning content of the utterance. The voice library 188 is a database required when creating answer data in a format in which a character string of the answer is read out. Specifically, in the speech library 188, speech unit data defining waveforms of various speech units that are speech materials such as a single phoneme or a transition portion from a phoneme to a phoneme is stored in a database in advance. Yes.

回答作成部182は、第1に、言語解析部178によって解析された発言の意味内容に対応する回答(文字列)を、回答データベース186を参照して作成し、第2に、当該回答に応じた回答データを、音声ライブラリ188を参照して作成する。
例えば、回答作成部182は、音声信号による発言が「いまなんじ?(今、何時?)」という内容であれば、内蔵のリアルタイムクロック(図示省略)から時刻情報を取得するとともに、時刻情報以外の情報を回答データベース186から取得することで、「ただいま○○時○○分です」という回答を作成し、この後、当該回答を音声で読み上げた音声波形データの形式の回答データを作成する。
なお、「あしたのてんきは?(明日の天気は?)」という発言に対しては、音声合成装置10の単体では回答を作成することができない。このように、音声合成装置10のみでは回答が作成できない場合、回答作成部182は、特に図示しないがインターネットを介し外部サーバにアクセスして、回答の作成に必要な情報を取得する構成となっている。
また、上記ルールの適用下にあっては、言語解析部138において発言の内容が判別不能であった場合、または、判別結果の信頼性が低かった場合には、回答作成部182は、当該発言に対する相槌を回答として作成することもある。
ところで、回答作成部182は、回答から、回答データを自身で作成する必要性はない。例えば、別の外部サーバに回答を供給して、回答データの作成を依頼し、当該別の外部サーバで作成された回答データを取得しても良い。
このように、回答作成部182は、発言に対する回答と、当該回答に対応した回答データとについては、自身で作成しても良いし、他のサーバなどが作成したものを用いても良い。すなわち、回答作成部182は、発言に対する回答データをなんらかの形で取得できれば良い。
回答作成部182により作成・取得された回答データは、音高制御部144に供給される。
The answer creating unit 182 first creates an answer (character string) corresponding to the semantic content of the utterance analyzed by the language analyzing unit 178 with reference to the answer database 186, and second, depending on the answer The answer data is created with reference to the audio library 188.
For example, if the comment by the audio signal is “now what? (Now what time?)”, The answer creating unit 182 acquires time information from a built-in real-time clock (not shown), and other than time information. Is obtained from the answer database 186 to create a reply “I am now at XX hour XX minutes”, and then create answer data in the form of speech waveform data that is read out by voice.
It should be noted that the speech synthesizer 10 alone cannot create a reply to the statement “What is tomorrow's weather? (Tomorrow's weather?)”. As described above, when the answer cannot be created only by the speech synthesizer 10, the answer creating unit 182 obtains information necessary for creating the answer by accessing an external server via the Internet (not shown). Yes.
Also, under the application of the above rule, if the content of the statement cannot be determined by the language analysis unit 138 or if the determination result has low reliability, the answer creating unit 182 Sometimes the answer to the answer is made.
By the way, the answer creating unit 182 does not need to create answer data by itself from the answer. For example, an answer may be supplied to another external server, requesting the creation of answer data, and the answer data created on the other external server may be acquired.
As described above, the answer creating unit 182 may create the answer to the utterance and the answer data corresponding to the answer by itself, or may use one created by another server or the like. In other words, the answer creating unit 182 only needs to acquire the answer data for the utterance in some form.
The answer data created / acquired by the answer creating unit 182 is supplied to the pitch control unit 144.

次に、音声合成装置10の動作について説明する。図5は、音声合成装置10における音声処理の動作を示すフローチャートである。
はじめに、利用者が所定の操作をしたとき、例えば音声処理に対応したアイコンなどをメインメニュー画面(図示省略)において選択したとき、CPU162がプログラムP2を起動する。これにより、CODEC120およびホスト160では、図2で示した機能ブロックが構築される。
Next, the operation of the speech synthesizer 10 will be described. FIG. 5 is a flowchart showing the operation of speech processing in the speech synthesizer 10.
First, when the user performs a predetermined operation, for example, when an icon corresponding to audio processing is selected on the main menu screen (not shown), the CPU 162 starts the program P2. As a result, the functional blocks shown in FIG. 2 are constructed in the CODEC 120 and the host 160.

まず、利用者が音声入力部102に対して発言して音声を入力すると、当該音声は、音声入力部102によって音声信号に変換された後、A/D変換器132によってデジタル信号に変換される(ステップS11)。
ホスト160の設定において、連携部180は、起動された音声処理のうち、対話処理の実行が指定されているか否かを判別する(ステップS12)。
対話処理の実行が指定されていなければ(ステップS12の判別結果が「No」であれば)、その他の処理が実行される(ステップS16)。その他の処理としては、例えば、デジタル信号に変換された音声信号を、図2において※1で示されるように、ホスト160における他の機能ブロック(図示省略)に供給して、当該他の機能ブロックにおいて、利用者の発言を文字列に変換させる音声認識処理や、また、※2で示されるように、別の機能ブロックで処理されたデータをD/A変換器134によりアナログ信号に変換させて、スピーカ104により出力させる再生処理などが挙げられる。
First, when a user speaks and inputs a voice to the voice input unit 102, the voice is converted into a voice signal by the voice input unit 102 and then converted into a digital signal by the A / D converter 132. (Step S11).
In the setting of the host 160, the cooperation unit 180 determines whether or not the execution of the dialogue process is designated among the activated voice processes (step S12).
If the execution of the interactive process is not specified (if the determination result in step S12 is “No”), other processes are executed (step S16). As other processing, for example, an audio signal converted into a digital signal is supplied to another functional block (not shown) in the host 160 as indicated by * 1 in FIG. , Voice recognition processing for converting a user's utterance into a character string, and, as indicated by * 2, the data processed by another functional block is converted into an analog signal by the D / A converter 134. For example, reproduction processing to be output by the speaker 104 can be given.

一方、対話処理の実行が指定されていれば(ステップS12の判別結果が「Yes」であれば)、連携部180は、その旨をCODEC120における連携部140に通知し、当該連携部140は、言語解析部138に対して、入力された発言の内容が相槌を返すべきものであるか否か、すなわち、CODEC120だけで済む処理であるか否かを判別させる(ステップS13)。
入力された発言の内容が相槌を返すべきものであれば(ステップS13の判別結果が「Yes」であれば)、次に説明する相槌処理が実行される(ステップS14)一方、当該発言の内容が相槌を返すべきものでなければ(ステップS13の判別結果が「No」であれば)、後述する回答処理が実行される(ステップS15)。
なお、ステップS14、S15、S16の後、この音声処理は終了する。
On the other hand, if execution of dialogue processing is specified (if the determination result in step S12 is “Yes”), the linkage unit 180 notifies the linkage unit 140 in the CODEC 120 to that effect, The language analysis unit 138 is made to determine whether or not the content of the input utterance should return an answer, that is, whether or not the processing is sufficient with only the CODEC 120 (step S13).
If the content of the input utterance is to return an affirmation (if the determination result of step S13 is “Yes”), the affirmative processing described next is executed (step S14), while the content of the utterance If the answer is not to be returned (if the determination result in step S13 is “No”), an answer process described later is executed (step S15).
Note that the audio processing ends after steps S14, S15, and S16.

図6は、ステップS14における相槌処理の詳細を示すフローチャートである。
まず、入力された発言の内容が相槌を返すべきものであると判別した言語解析部138は、その旨を連携部140に通知し、当該連携部140は、ホスト160における連携部180に対して、当該発言に対する回答の作成等が不要である旨を通知する(ステップSa11)。
この通知を受け取った連携部180は、言語解析部178に対して、当該発言に相当するデジタル信号を無視することを指示する。これにより、当該発言についての音声処理は、ホスト160側で実行されない(ステップSb11)。
FIG. 6 is a flowchart showing details of the conflicting process in step S14.
First, the language analysis unit 138 that has determined that the content of the input utterance should return a conflict notifies the cooperation unit 140 to that effect, and the cooperation unit 140 notifies the cooperation unit 180 in the host 160. Then, it is notified that it is not necessary to create an answer to the statement (step Sa11).
Upon receiving this notification, the cooperation unit 180 instructs the language analysis unit 178 to ignore the digital signal corresponding to the message. Thereby, the audio processing for the utterance is not executed on the host 160 side (step Sb11).

一方、音高解析部136は、入力された発言の音声信号を例えば次のように解析し、当該発言における語尾の音高を特定して、当該音高を示す音高データを音高制御部144に供給する(ステップSa12)。
詳細には、第1に、音高解析部136は、発言に相当する音声信号を、音量と音高(ピッチ)とに分けて波形化する。図8の(a)は、音声信号についての音量を縦軸で、経過時間を横軸で表した音量波形の一例であり、(b)は、同じ音声信号について周波数解析して得られた第1フォルマントの音高を縦軸で、経過時間を横軸で表した音高波形である。なお、(a)の音量波形と(b)の音高波形との時間軸は共通である。
第2に、音高解析部136は、(a)の音量波形のうち、時間的に最後の極大P1のタイミングを特定する。
第3に、音高解析部136は、特定した極大P1のタイミングを前後に含む所定の時間範囲(例えば100μ秒〜300μ秒)を語尾であると認定する。
第4に、音高解析部136は、(b)の音高波形のうち、認定した語尾に相当する区間Q1の平均音高を、音高データとして出力する。
このように、発言における音量波形について最後の極大P1を、発言の語尾に相当するタイミングとして特定することによって、対話としての発言の語尾の誤検出を少なくすることができる、と考えられる。
ここでは、(a)の音量波形のうち、時間的に最後の極大P1のタイミングを前後に含む所定の時間範囲を語尾であると認定したが、極大P1のタイミングを始期または終期とする所定の時間範囲を語尾と認定しても良い。認定した語尾に相当する区間Q1の平均音高ではなく、区間Q1の始期、終期や、極大P1のタイミングの音高を、音高データとして出力する構成としても良い。また、語尾の音高については、これ以外の解析によって特定しても良い。
On the other hand, the pitch analysis unit 136 analyzes the voice signal of the input utterance as follows, specifies the ending pitch in the utterance, and sets the pitch data indicating the pitch as the pitch control unit. It supplies to 144 (step Sa12).
Specifically, first, the pitch analysis unit 136 divides an audio signal corresponding to a speech into a waveform by dividing the audio signal into a volume and a pitch (pitch). FIG. 8A is an example of a volume waveform in which the volume of an audio signal is represented on the vertical axis and the elapsed time is represented on the horizontal axis. FIG. 8B is a graph obtained by frequency analysis of the same audio signal. This is a pitch waveform in which the pitch of one formant is represented on the vertical axis and the elapsed time is represented on the horizontal axis. The time axis of the volume waveform in (a) and the pitch waveform in (b) are common.
Second, the pitch analysis unit 136 specifies the timing of the last local maximum P1 in the volume waveform of (a).
Third, the pitch analysis unit 136 determines that a predetermined time range (for example, 100 μsec to 300 μsec) including the timing of the specified maximum P1 before and after is the end of the pitch.
Fourth, the pitch analysis unit 136 outputs the average pitch of the section Q1 corresponding to the recognized ending in the pitch waveform of (b) as pitch data.
As described above, it is considered that erroneous detection of the ending of the utterance as a dialogue can be reduced by specifying the final maximum P1 of the volume waveform in the utterance as the timing corresponding to the ending of the utterance.
Here, in the volume waveform of (a), a predetermined time range including the timing of the last local maximum P1 before and after is recognized as the ending, but the predetermined time period having the maximum P1 timing as the start or end is determined. The time range may be recognized as the ending. Instead of the average pitch of the section Q1 corresponding to the authorized ending, the pitch at the beginning and end of the section Q1 and the timing of the maximum P1 may be output as pitch data. Further, the pitch of the ending may be specified by other analysis.

一方、この音高解析と並列して、読出部142は、相槌データ記憶部143に記憶された複数の相槌データのうち、いずれかを選択して読み出し、音高制御部144に供給する(ステップSa13)。   On the other hand, in parallel with the pitch analysis, the reading unit 142 selects and reads one of the plurality of pieces of conflict data stored in the conflict data storage unit 143, and supplies the selected one to the pitch control unit 144 (step). Sa13).

図9の(a)は、例えば「あ、はい」という相槌データの一例であって、音高を変更しない状態で再生した場合における各音の音高を黒丸で示している。この状態では相槌データを再生しても、抑揚があるだけで、機械的な感じになることが多い。   FIG. 9A is an example of the compatibility data “A, Yes”, for example, and indicates the pitch of each sound when reproduced without changing the pitch, as a black circle. In this state, even if the conflict data is reproduced, there is often a mechanical feeling because of the inflection.

そこで、音高制御部144は、相槌データを単純に再生した場合での語尾に相当する部分の音高を解析するとともに、当該解析した音高が音高解析部136からの音高データで示される音高に対して例えば5度下の関係となるように、相槌データ全体の音高(ピッチ)をシフトした上で、当該シフト後の相槌データを出力する(ステップSa14)。   Therefore, the pitch controller 144 analyzes the pitch of the portion corresponding to the ending when the conflict data is simply reproduced, and the analyzed pitch is indicated by the pitch data from the pitch analyzer 136. For example, after shifting the pitch (pitch) of the entire consideration data so as to have a relationship that is 5 degrees below the pitch to be generated, the shifted consideration data is output (step Sa14).

図9の(b)は、利用者が「そうでしょ?」と発言した場合に、当該発言のうち、符号Aで示される語尾の「しょ」の区間(語尾)の音高が音高データによって「ソ」であると示されるときに、(a)の相槌データにおける音高シフトの例を示す図である。この図に示されるように、音高制御部144は、「あ、はい」という回答のうち、符号Bで示される語尾の「い」の区間(語尾)の音高が「ソ」に対して5度下の音高である「ド」になるように、相槌データ全体の音高をシフトする。そして、音高制御部144は、音高をシフトした相槌データを再生して、D/A変換器134に供給する。
これにより、スピーカ104からは、発言に対応して音高がシフトされた相槌が出力される。当該相槌データの出力後、この相槌処理とともに音声処理(図5参照)が終了することになる。
(B) in FIG. 9 shows that when the user says “Yes?”, The pitch of the section (ending) of the ending “Sho” indicated by the symbol A in the utterance is based on the pitch data. It is a figure which shows the example of the pitch shift in the consideration data of (a) when it is shown that it is "seo". As shown in this figure, the pitch control unit 144 determines that the pitch of the section (end) of the ending “I” indicated by the symbol B is “So” among the answers “A, Yes”. The pitch of the entire conflict data is shifted so that the pitch is 5 ° lower. Then, the pitch controller 144 reproduces the compatibility data with the pitch shifted, and supplies it to the D / A converter 134.
As a result, the speaker 104 outputs a tone with the pitch shifted in response to the statement. After the output of the relevant data, the speech processing (see FIG. 5) is completed together with the relevant processing.

図10は、本実施形態に係る音声合成装置10が利用者に与える印象を説明するための図である。同図の(a)に示されるように、利用者Wが「そうでしょ?」という発言を端末装置である音声合成装置10に入力する。このときの発言の語尾に相当する「しょ」の音高が「ソ」であれば、実施形態では、同図の(b)で示されるように、「あ、はい」という相槌において、語尾に相当する「い」の音高が「ド」になるように音高がシフトされて出力される。このため、自己の発言に対して、あたかも端末装置である音声合成装置10が賛同して相槌をうっているかのような好印象を、利用者Wに与えることができる。
一方、「あ、はい」という相槌データの音高をシフトしない場合、語尾に相当する「い」の音高は、相槌データ記憶部143に記憶された状態が反映されて、利用者Wによる発言の音高は考慮されない。このため、仮に同図の(c)に示されるように、相槌の語尾に相当する「い」の音高が「ファ」であった場合、「そうでしょ?」という発言の語尾に相当する「しょ」の音高の「ソ」に対して不協和音程の関係になってしまう。すなわち、図4を参照すれば、「ソ」の周波数(396.0Hz)は「ファ」の周波数(352.0Hz)に対して9/8の関係にある。このため、利用者Wに、ワーストケースを想定してみると、嫌悪のような悪印象を与えてしまう。
なお、後述するように、音声合成装置10において、このような悪印象を利用者に積極的に与える構成もあり得る。
FIG. 10 is a diagram for explaining an impression given to the user by the speech synthesizer 10 according to the present embodiment. As shown in (a) of the figure, the user W inputs a message “That's right?” To the speech synthesizer 10 which is a terminal device. If the pitch of “Sho” corresponding to the ending of the utterance at this time is “So”, in the embodiment, as shown in FIG. The pitch is shifted and output so that the corresponding pitch of “I” becomes “do”. For this reason, it is possible to give the user W a good impression as if the speech synthesizer 10 which is a terminal device agrees and agrees with his / her speech.
On the other hand, when the pitch of the companion data “A, Yes” is not shifted, the pitch of “I” corresponding to the ending is reflected by the state stored in the companion data storage unit 143, and the remark by the user W Is not considered. For this reason, as shown in (c) of the figure, if the pitch of “I” corresponding to the ending of the sumo is “Fa”, it corresponds to the ending of the statement “That's right?” It becomes a dissonant pitch relationship with “So”, the pitch of “Sho”. That is, referring to FIG. 4, the frequency of “So” (396.0 Hz) is 9/8 relative to the frequency of “Fa” (352.0 Hz). For this reason, when assuming the worst case, the user W is given a bad impression such as disgust.
As will be described later, the speech synthesizer 10 may be configured to positively give such a bad impression to the user.

次に、音声処理のステップS15における回答処理について説明する。
図7は、この回答処理の詳細を示すフローチャートである。
入力された発言の内容が相槌を返すべきものではないと判別した言語解析部138は、その旨を連携部140に通知し、当該連携部140は、ホスト160における連携部180に対して、当該発言に対する回答を作成すべき旨(回答要求)を通知する(ステップSa31)。
この通知を受け取った連携部180は、言語解析部178に対して、当該発言の意味内容の解析を指示する。この指示にしたがって言語解析部178は、上述したように当該発言の意味内容を解析する(ステップSb31)。そして、回答作成部182は、意味内容に対する回答データを作成(取得)して、当該回答データを音高制御部144に供給する(ステップSb32)。
Next, the answer process in step S15 of the voice process will be described.
FIG. 7 is a flowchart showing details of the answer processing.
The language analysis unit 138, which has determined that the content of the input utterance should not return an agreement, notifies the cooperation unit 140 to that effect, and the cooperation unit 140 notifies the cooperation unit 180 in the host 160 of the relevant statement. It is notified that an answer to the statement should be created (answer request) (step Sa31).
Upon receiving this notification, the cooperation unit 180 instructs the language analysis unit 178 to analyze the semantic content of the statement. In accordance with this instruction, the language analysis unit 178 analyzes the semantic content of the statement as described above (step Sb31). Then, the answer creating unit 182 creates (acquires) answer data for the meaning content and supplies the answer data to the pitch control unit 144 (step Sb32).

一方、回答処理において、音高解析部136は、相槌処理におけるステップSa12と同様に、入力された発言における語尾の音高を特定して、当該音高を示す音高データを音高制御部144に供給する(ステップSa32)。
そして、音高制御部144は、回答データを単純に再生した場合での語尾に相当する部分の音高を解析するとともに、当該解析した音高が音高解析部136からの音高データで示される音高に対して例えば5度下の関係となるように、回答データの音高をシフトした上で、当該シフト後の回答データを出力する(ステップSa34)。
On the other hand, in the answer process, the pitch analysis unit 136 specifies the pitch of the ending in the input utterance, as in step Sa12 in the conflict process, and sets the pitch data indicating the pitch as the pitch control unit 144. (Step Sa32).
Then, the pitch control unit 144 analyzes the pitch of the portion corresponding to the ending when the answer data is simply reproduced, and the analyzed pitch is indicated by the pitch data from the pitch analysis unit 136. The pitch of the answer data is shifted so that the relation is, for example, 5 degrees lower than the pitch to be played, and then the answer data after the shift is output (step Sa34).

ここでは、回答データの音高をシフトした結果については、相槌データが回答データに置き換わっただけであるので、図9の(b)とほぼ同様となり、利用者Wに与える印象についても図10に示した内容とほぼ同様となる。
なお、当該回答データの出力後、この回答処理とともに音声処理が終了することになる。
Here, the result of shifting the pitch of the answer data is almost the same as (b) in FIG. 9 because the answer data is merely replaced with the answer data, and the impression given to the user W is also shown in FIG. It is almost the same as the contents shown.
Note that after the answer data is output, the voice process ends together with the answer process.

この実施形態に係る音声合成装置10によれば、利用者による発言に対し、相槌データにより相槌を出力する場合でも、回答データにより相槌以外の回答を出力する場合でも、あたかも人同士が対話しているかのような自然な感じを利用者に与えることが可能になる。
本実施形態において、発言に対して相槌をうつ場合、ホスト160の側で処理されず、CODEC120で完結した処理になるので、当該発言に対して当該相槌をレスポンス良く出力することが可能になる。また、発言に対して相槌以外の回答を出力する場合、当該回答についてはホスト160の側で作成・取得する構成になるので、当該回答の精度を高めることができる。このため、本実施形態では、相槌をレスポンス良く出力できる一方で、相槌以外の回答を精度の良く出力できることとなる。
According to the speech synthesizer 10 according to this embodiment, in response to a user's remarks, even if a reconciliation is output based on the reconciliation data or a response other than the reconciliation is output based on the replay data, it is as if people are interacting. It is possible to give the user a natural feeling as if it were.
In the present embodiment, when an answer is given to an utterance, the process is completed on the CODEC 120 without being processed on the host 160 side, and therefore the answer can be output with a good response to the utterance. Further, when an answer other than a conflict is output in response to the utterance, since the answer is created and acquired on the host 160 side, the accuracy of the answer can be improved. For this reason, in the present embodiment, the answers can be output with good response, while answers other than the answers can be output with high accuracy.

<応用例・変形例>
本発明は、上述した実施形態に限定されるものではなく、例えば次に述べるような各種の応用・変形が可能である。また、次に述べる応用・変形の態様は、任意に選択された一または複数を適宜に組み合わせることもできる。
<Applications / Modifications>
The present invention is not limited to the above-described embodiments, and various applications and modifications as described below are possible, for example. In addition, one or more arbitrarily selected aspects of application / deformation described below can be appropriately combined.

<音声入力部>
実施形態では、音声入力部102は、利用者の音声(発言)をマイクロフォンで入力して音声信号に変換する構成としたが、この構成に限られず、他の処理部で処理された音声信号や、他の装置から供給(または転送された)音声信号を入力する構成としても良い。すなわち、音声入力部102は、音声信号による発言をなんらかの形で入力する構成であれば良い。
<Voice input part>
In the embodiment, the voice input unit 102 is configured to input a user's voice (speech) using a microphone and convert the voice signal into a voice signal. However, the voice input unit 102 is not limited to this configuration, and the voice signal processed by another processing unit or A configuration may be adopted in which an audio signal supplied (or transferred) from another device is input. In other words, the voice input unit 102 only needs to be configured to input a speech by a voice signal in some form.

<発言と相槌>
実施形態では、発言が相槌を返すべきものであると判別された場合、相槌データ記憶部143に記憶された複数の相槌データのうち、いずれかが読み出される構成としたが、この構成では、上述したように(問題になることは少ないながらも)当該発言に対して的外れの相槌が出力されてしまうときがある。そこで、相槌データを、その相槌の根拠となる発言の音量・音高の典型的な変化パターンに対応付けておくとともに、音高解析部136から供給された発言の音量変化および音高変化が、ある発言の音量・音高の変化パターンに合致すると言語解析部138が判別したときに、当該発言に対応付けられた相槌データの読み出しを読出部142に指定する構成としても良い。この構成によれば、例えば「さむいなぁ」という発言の音量・音高の変化パターンに「そうですね」という相槌データを対応付けて相槌データ記憶部143に記憶させておけば、利用者が実際に「さむいなぁ」と発言した場合において、当該発言の音量変化および音高変化が、記憶させた「さむいなぁ」という発言の音量・音高の変化パターンに合致すれば、「そうですね」という適切な相槌が出力される。したがって、この場合において「さむいなぁ」という利用者の発言に対して「えーと」や、「なるほど」、「それで」などのような的外れの相槌が出力されてしまうのを回避することができる。
<Remarks and reconciliation>
In the embodiment, when it is determined that a statement should return an answer, one of a plurality of pieces of consideration data stored in the opinion data storage unit 143 is read. As such, there is a case where an unfavorable conflict is output for the utterance (although it is rarely a problem). Therefore, the correspondence data is associated with a typical change pattern of the volume and pitch of the speech that is the basis of the conflict, and the volume change and pitch change of the speech supplied from the pitch analysis unit 136 are: When the language analysis unit 138 determines that the change pattern of the volume / pitch of a certain comment is matched, the reading unit 142 may be designated to read out the conflict data associated with the comment. According to this configuration, for example, if the corresponding data “Yes” is stored in the related data storage unit 143 in association with the sound volume / pitch change pattern of the message “Samu Naa”, the user actually If you say `` Samunaa '', if the volume change and pitch change of the utterance match the memorized `` Samuinaa '' utterance volume / pitch change pattern, then you have the right answer Is output. Therefore, in this case, it is possible to avoid an out-of-order conflict such as “Um”, “I see”, “So”, etc., in response to the user's statement “Samu Naa”.

<言語解析部>
実施形態では、CODEC120に言語解析部138を持たせ、ホスト160に言語解析部178を持たせているが、どちらか一方、例えば言語解析部138については省略することができる。
言語解析部138を省略する場合、言語解析部178が、言語解析部138の機能を負うことになる。すなわち、言語解析部178が、デジタル信号の音声信号で示される発言が相槌を返すべきものであるか否かを判別し、発言が相槌を返すべきものであると判別すれば、その旨の情報を、CODEC120の読出部142に、直接的に、または、連携部180、140を介して間接的に供給して、相槌データの読み出しを指示すれば良い。
<Language Analysis Department>
In the embodiment, the CODEC 120 has the language analysis unit 138 and the host 160 has the language analysis unit 178. However, for example, the language analysis unit 138 can be omitted.
When the language analysis unit 138 is omitted, the language analysis unit 178 assumes the function of the language analysis unit 138. In other words, if the language analysis unit 178 determines whether or not the utterance indicated by the audio signal of the digital signal should return an answer, and if it determines that the utterance should return an answer, information to that effect May be supplied directly to the reading unit 142 of the CODEC 120 or indirectly via the cooperation units 180 and 140 to instruct reading of the conflict data.

<回答等の語尾、語頭>
実施形態では、発言の語尾の音高に対応して相槌を含む回答の語尾の音高を制御する構成としたが、言語や、方言、言い回しなどによっては回答の語尾以外の部分、例えば語頭が特徴的となる場合もある。このような場合には、発言した人は、当該発言に対する回答があったときに、当該発言の音高と、当該回答の特徴的な語頭の音高とを無意識のうち比較して当該回答に対する印象を判断する。したがって、この場合には、発言の語尾の音高に対応して回答の語頭の音高を制御する構成とすれば良い。この構成によれば、回答の語頭が特徴的である場合、当該回答を受け取る利用者に対して心理的な印象を与えることが可能となる。
<End of answer, beginning of answer>
In the embodiment, it is configured to control the pitch of the ending of the answer including the answer corresponding to the pitch of the ending of the utterance.However, depending on the language, dialect, wording, etc. It may be characteristic. In such a case, the person who made the statement, when there is an answer to the statement, unconsciously compares the pitch of the statement and the pitch of the characteristic beginning of the answer. Judge the impression. Therefore, in this case, the pitch at the beginning of the answer may be controlled in accordance with the pitch at the end of the utterance. According to this configuration, when the head of the answer is characteristic, it is possible to give a psychological impression to the user who receives the answer.

発言についても同様であり、語尾に限られず、語頭で判断される場合も考えられる。また、相槌を含む回答については、語頭、語尾に限られず、平均的な音高で判断される場合や、最も強く発音した部分の音高で判断される場合なども考えられる。このため、発言の第1区間と、回答の第2区間は、必ずしも語頭や語尾に限られない、ということができる。   The same applies to utterances, not limited to endings, but may be determined by the beginning of a sentence. In addition, an answer including a conflict is not limited to the beginning or end of the word, and may be determined based on an average pitch, or may be determined based on the pitch of the most pronounced portion. For this reason, it can be said that the 1st section of an utterance and the 2nd section of an answer are not necessarily restricted to an initial or ending.

<音程の関係>
上述した実施形態では、問いの語尾等に対して回答の語尾等の音高が5度下となるように音声合成を制御する構成としたが、5度下以外の協和音程の関係に制御する構成であっても良い。例えば、上述したように完全8度、完全5度、完全4度、長・短3度、長・短6度であっても良い。
また、協和音程の関係でなくても、経験的に良い(または悪い)印象を与える音程の関係の存在が認められる場合もあるので、当該音程の関係に回答の音高を制御する構成としても良い。ただし、この場合においても、問いの語尾等の音高と回答の語尾等の音高との2音間の音程が離れ過ぎると、問いに対する回答が不自然になりやすいので、問いの音高と回答の音高とが上下1オクターブの範囲内にあることが望ましい。
<Pitch relationship>
In the embodiment described above, the voice synthesis is controlled such that the pitch of the ending of the answer is 5 degrees lower than the ending of the question. However, the control is performed in a relationship of Kyowa intervals other than 5 degrees below. It may be a configuration. For example, as described above, it may be complete 8 degrees, complete 5 degrees, complete 4 degrees, long / short 3 degrees, and long / short 6 degrees.
In addition, there is a case where a relationship of a pitch that gives a good (or bad) impression is empirically recognized even if it is not a relationship of the Kyowa pitch, so that the pitch of the answer is controlled according to the relationship of the pitch. good. However, even in this case, if the pitch between the pitch of the question ending and the pitch of the answer ending is too far apart, the answer to the question tends to be unnatural. It is desirable that the pitch of the answer is in the range of one octave above and below.

<回答の音高シフト>
ところで、発言の語尾等における音高に対して、相槌を含む回答の音高が所定の関係となるように制御しようとする構成では、詳細には、実施形態のように例えば5度下となるようにシフトする構成では、5度下とすべき音高が低すぎると、不自然な低音で回答が音声合成されてしまう場合がある。そこで次に、このような場合を回避するための応用例(その1、および、その2)について説明する。
<Pitch shift of answer>
By the way, in a configuration in which control is made so that the pitch of the answer including the conflict has a predetermined relationship with respect to the pitch at the end of the utterance or the like, the details are, for example, 5 degrees lower as in the embodiment. In such a shifting configuration, if the pitch to be lowered by 5 degrees is too low, the answer may be synthesized with an unnatural low tone. Next, application examples (No. 1 and No. 2) for avoiding such a case will be described.

図11は、このうちの応用例(その1)における処理の要部を示す図である。なお、ここでいう処理の要部とは、図6におけるステップSa14の「相槌の音高制御」または図7におけるステップSa34の「回答の音高制御」で実行される処理をいう。すなわち、応用例(その1)では、ステップSa14またはSa34において、図11で示される処理が実行される、という関係にあり、詳細については次の通りである。   FIG. 11 is a diagram illustrating a main part of processing in the application example (part 1). Here, the main part of the processing refers to processing executed in “Saving pitch control” in step Sa14 in FIG. 6 or “Reply pitch control” in step Sa34 in FIG. That is, in the application example (No. 1), the processing shown in FIG. 11 is executed in step Sa14 or Sa34, and details are as follows.

まず、音高制御部144は、音高解析部136からの音高データで示される音高に対して、例えば5度下の関係にある音高を求めて仮決定する(ステップSc11)。
次に、音高制御部144は、仮決定した音高が予め定められた閾値音高よりも低いか否かを判別する(ステップSc12)。なお、閾値音高は、音声合成する際の下限周波数に相当する音高や、これより低ければ不自然な感じを与えるような音高などに設定される。
First, the pitch controller 144 obtains and temporarily determines a pitch that is, for example, 5 degrees below the pitch indicated by the pitch data from the pitch analyzer 136 (step Sc11).
Next, the pitch controller 144 determines whether or not the temporarily determined pitch is lower than a predetermined threshold pitch (step Sc12). Note that the threshold pitch is set to a pitch corresponding to the lower limit frequency for speech synthesis, or a pitch that gives an unnatural feeling if it is lower than this.

仮決定した音高、すなわち発言における語尾の音高よりも5度下の音高が閾値音高よりも低ければ(ステップSc12の判別結果が「Yes」であれば)、音高制御部144は、仮決定した音高を1オクターブ上の音高に変更する(ステップSc13)。一方、仮決定した目高が閾値音高以上であれば(ステップSc12の判別結果が「No」であれば)、上記ステップSc13の処理がスキップされる。
続いて、音高制御部144は、相槌データ(回答データ)の音高をシフトする際に目標となる語尾の音高を、次のような音高に本決定する(ステップSc14)。すなわち、音高制御部144は、仮決定した音高が閾値音高よりも低ければ、仮決定した音高を1オクターブ上に変更した音高に、また、仮決定した音高が閾値音高以上であれば、当該仮決定した音高をそのまま、それぞれ目標となる音高を本決定する。
If the tentatively determined pitch, that is, the pitch 5 degrees below the ending pitch in the utterance is lower than the threshold pitch (if the determination result in step Sc12 is “Yes”), the pitch control unit 144 The temporarily determined pitch is changed to a pitch one octave higher (step Sc13). On the other hand, if the temporarily determined eye pitch is equal to or higher than the threshold pitch (if the determination result in step Sc12 is “No”), the process in step Sc13 is skipped.
Subsequently, the pitch controller 144 determines the target ending pitch at the time of shifting the pitch of the conflict data (answer data) as the following pitch (step Sc14). That is, the pitch controller 144 determines that the temporarily determined pitch is changed to one octave higher if the temporarily determined pitch is lower than the threshold pitch, and that the temporarily determined pitch is the threshold pitch. If it is above, the pitch which becomes the target each is determined this time as it is.

そして、音高制御部144は、読出部142から供給された相槌データ(または回答作成部182から供給された回答データ)を単純に再生した場合での語尾に相当する部分の音高を解析するとともに、当該解析した音高が、本決定した音高となるように、相槌データ(回答データ)の音高をシフトした上で、当該シフト後の相槌データ(回答データ)を出力する(ステップSc15)。   Then, the pitch control unit 144 analyzes the pitch of the portion corresponding to the ending when the compatibility data supplied from the reading unit 142 (or the answer data supplied from the answer creating unit 182) is simply reproduced. At the same time, after shifting the pitch of the conflict data (answer data) so that the analyzed pitch becomes the determined pitch, the shifted conflict data (response data) is output (step Sc15). ).

この応用例(その1)によれば、仮にシフトした場合における音高が閾値音高よりも低ければ、当該音高よりも1オクターブ上の音高にシフトされるので、不自然な低音で相槌・回答が音声合成される、という点を回避することができる。
ここでは、回答の語尾等の音高を1オクターブ上の音高にシフトした例であったが、1オクターブ下の音高にシフトしても良い。詳細には、利用者が発した問いの語尾等の音高が高いために、当該音高に対して5度下の音高が高すぎると、不自然な高音で回答が音声合成されてしまう。これを回避するために、音高データで示される音高に対して5度下の関係にある音高(仮決定した音高)が閾値音高より高ければ、回答の語尾等の音高を、仮決定した音高よりも1オクターブ下の音高にシフトすれば良い。
According to this application example (part 1), if the pitch when shifted is lower than the threshold pitch, it is shifted to a pitch one octave higher than the pitch, so that it is a conflict with an unnatural bass. -It is possible to avoid the point that answers are synthesized.
In this example, the pitch of the ending of the answer is shifted to a pitch one octave higher, but may be shifted to a pitch one octave lower. Specifically, since the pitch of the ending of the question issued by the user is high, if the pitch 5 degrees below the pitch is too high, the answer is synthesized with an unnatural high tone. . In order to avoid this, if the pitch (temporarily determined pitch) that is 5 degrees below the pitch indicated by the pitch data is higher than the threshold pitch, the pitch of the ending of the answer is set. The pitch may be shifted to a pitch one octave lower than the temporarily determined pitch.

また、音声合成する際には、性別や年齢別(子供/大人の別)などに分けて出力することができる場合がある。例えば、相槌データについては、相槌データ記憶部143に予め性別や年齢別などで分けるとともに、当該性別等の属性を規定する属性データに関連付けて相槌データを記憶させておけば、属性データに関連付けられる相槌データを読み出すことができる。一方、音声ライブラリ188において、音声素片データを同様に予め性別や年齢別などで分けて属性データに関連付けてデータベース化しておけば、属性データに関連付けられた回答データを作成することができる。   In addition, when speech synthesis is performed, there are cases where it is possible to divide and output by sex or age (child / adult). For example, the conflict data can be associated with the attribute data by previously dividing the conflict data by sex or age in the conflict data storage unit 143 and storing the conflict data in association with the attribute data defining the attribute such as the sex. Affinity data can be read. On the other hand, in the speech library 188, if the speech segment data is similarly divided in advance by gender, age, etc. and associated with the attribute data to create a database, answer data associated with the attribute data can be created.

この場合のように女性や子供の属性が指定されているとき、発言の語尾に対して一律に5度下の音高に下げてしまうと、当該属性には不似合いの低音で相槌・回答が音声合成されてしまうので、同様に、1オクターブ上の音高となるようにシフトする構成としても良い。   In this case, when the attributes of women and children are specified, if the pitch is lowered to 5 degrees below the ending of the statement, there will be a low tone that is not suitable for that attribute. Since voice synthesis is performed, similarly, a configuration may be adopted in which the pitch is shifted to an octave higher.

図12は、このような応用例(その2)における処理の要部を示す図であり、図6のステップSa14または図7のSa34において実行される処理を示している。
図11と異なる点を中心に説明すると、ステップSd11において、音高制御部144は、音高解析部136からの音高データで示される音高に対して5度下の関係にある音高を求めて仮決定した後、女性や子供の属性が指定されているか否かを判別する(ステップSd12)。
FIG. 12 is a diagram showing a main part of processing in such an application example (part 2), and shows processing executed in step Sa14 in FIG. 6 or Sa34 in FIG.
Explaining mainly the points different from FIG. 11, in step Sd11, the pitch control unit 144 selects a pitch that is 5 degrees below the pitch indicated by the pitch data from the pitch analysis unit 136. After obtaining and tentatively determining, it is determined whether or not the attributes of women and children are specified (step Sd12).

音高制御部144は、所定の属性、すなわち女性や子供などの属性が指定されていれば(ステップSd12の判別結果が「Yes」であれば)、仮決定した音高を1オクターブ上の音高にシフトし(ステップSd13)、一方、当該属性として女性や子供が指定されていなければ、例えば男性や大人が指定されていれば(ステップSd12の判別結果が「No」であれば)、上記ステップSb13の処理がスキップされる。以降については応用例(その1)と同様である。
この応用例(その2)によれば、相槌・回答を女性や子供の声で出力する場合に、仮決定の音高よりも1オクターブ上の音高となるようにシフトされるので、不自然な低音で相槌・回答が音声合成される、という点を回避することができる。
ここでは、属性として女性や子供が指定されていれば、1オクターブ上の音高にシフトする例であったが、例えば属性として成人男性が指定されていれば、当該属性に対応したキャラクタに不似合いの高音で回答が音声合成されてしまうのを回避するために、1オクターブ下の音高にシフトしても良い。
If a predetermined attribute, that is, an attribute such as a woman or a child is designated (if the determination result in step Sd12 is “Yes”), the pitch control unit 144 sets the tentatively determined pitch to a sound one octave higher. If the attribute is not specified as female or child, for example, if male or adult is specified (if the determination result in step Sd12 is “No”), the shift to high (step Sd13). The process of step Sb13 is skipped. The subsequent steps are the same as in the application example (No. 1).
According to this application example (part 2), when outputting the answer / answer in the voice of a woman or a child, the pitch is shifted so that the pitch is one octave higher than the temporarily determined pitch. It is possible to avoid the point that the answer / answer is synthesized with a low tone.
In this example, if female or child is specified as an attribute, the pitch shifts to a pitch one octave above. However, for example, if an adult male is specified as an attribute, the character corresponding to the attribute is not suitable. In order to avoid that the answer is synthesized with high-pitched sounds, the pitch may be shifted to a pitch one octave below.

<不協和音程>
上述した実施形態では、発言の語尾等に対して、相槌・回答の語尾等の音高が協和音程の関係となるように音声合成を制御する構成としたが、不協和音程の関係になるように音声合成を制御しても良い。なお、相槌・回答を不協和音程の関係にある音高で合成すると、発言した利用者に、不自然な感じや、悪印象、険悪な感じなどを与えて、スムーズな対話が成立しなくなる、という懸念もあるが、このような感じが逆にストレス解消に良いという見解もある。
そこで、動作モードとして、好印象等の相槌・回答を望むモード(第1モード)、悪印象を与えるような相槌・回答を望むモード(第2モード)を用意しておき、いずれかのモードに応じて音声合成を制御する構成としても良い。
<Dissonance>
In the above-described embodiment, the voice synthesis is controlled so that the pitch of the ending and the like of the reconciliation / reply becomes the relationship of the consonant pitch with respect to the ending of the remark. Speech synthesis may be controlled. In addition, when synthesizing and answering with a pitch that is in a dissonant pitch relationship, the spoken user is given an unnatural feeling, a bad impression, a harsh feeling, etc., and a smooth dialogue is not established. There are also concerns, but there is a view that this feeling is good for stress relief.
Therefore, as an operation mode, a mode (first mode) in which a favorable impression is desired and a response is desired (first mode) and a mode in which a negative impression is desired (second mode) are prepared. A configuration may be adopted in which speech synthesis is controlled accordingly.

図13は、このような応用例(その3)における処理の要部を示す図であり、図6のステップSa14または図7のSa34において実行される処理を示している。
図10と異なる点を中心に説明すると、音高制御部144は、動作モードとして第1モードが設定されているか否かを判別する(ステップSe11)。
FIG. 13 is a diagram showing a main part of processing in such an application example (part 3), and shows processing executed in step Sa14 of FIG. 6 or Sa34 of FIG.
Description will be made centering on differences from FIG. 10. The pitch controller 144 determines whether or not the first mode is set as the operation mode (step Se <b> 11).

音高制御部144は、動作モードとして第1モードが設定されていれば(ステップSe11の判別結果が「Yes」であれば)、相槌・回答の例えば語尾の音高を、発言の例えば語尾の音高に対して協和音程の関係にある音高となるように決定する(ステップSe12)。一方、音高制御部144は、動作モードとして第2モードが設定されていれば(ステップSd11の判別結果が「No」であれば)、相槌・回答の語尾の音高を、発言の語尾の音高に対して不協和音程の関係にある音高となるように決定する(ステップSe13)。以降については応用例(その1)、応用例(その2)と同様である。   If the first mode is set as the operation mode (if the determination result in Step Se11 is “Yes”), the pitch control unit 144 displays the pitch of the ending and the answer of the answer / answer, for example, the ending of the utterance. The pitch is determined so as to be a pitch that has a relationship of a concerted pitch with respect to the pitch (step Se12). On the other hand, if the second mode is set as the operation mode (if the determination result in step Sd11 is “No”), the pitch controller 144 determines the pitch of the ending of the answer / answer as the ending of the utterance. Determination is made so that the pitch is in a dissonant pitch relationship with the pitch (step Se13). The subsequent processes are the same as those of the application example (part 1) and the application example (part 2).

したがって、この応用例(その3)によれば、第1モードが設定されていれば、発言の音高に対して協和音程の関係にある音高で相槌・回答が音声合成される一方、第2モードが設定されていれば、発言の音高に対して不協和音程の関係にある音高で相槌・回答が音声合成されるので、利用者は、適宜動作モードを使い分けることができることになる。   Therefore, according to this application example (No. 3), if the first mode is set, the answer / answer is synthesized with the pitch that is in the relationship of the Kyowa pitch with respect to the pitch of the speech. If the two modes are set, the user can properly select the operation mode as appropriate because the answer / answer is synthesized with a pitch that is in a dissonant pitch with respect to the pitch of the speech.

<その他>
実施形態にあっては、発言に対して相槌以外の回答を、ホスト160で作成する構成としたが、端末装置などでは、処理の負荷が重くなる点や、記憶容量に制限がある点などを考慮して、外部サーバの側に設ける構成としても良い。すなわち、音声合成装置10において、回答作成部182は、発言に対する回答を示す回答データを音高制御部144に供給する構成であれば足り、その回答および回答データを、音声合成装置10の側で作成するのか、音声合成装置10以外の他の構成(例えば外部サーバ)の側で作成するのか、については問われない。
<Others>
In the embodiment, an answer other than a conflict is created by the host 160 in response to a statement. However, in a terminal device or the like, the processing load is heavy or the storage capacity is limited. Considering this, it may be configured to be provided on the external server side. That is, in the speech synthesizer 10, it is sufficient that the answer creating unit 182 is configured to supply the answer data indicating the answer to the utterance to the pitch control unit 144, and the answer and the answer data are received on the speech synthesizer 10 side. It does not matter whether it is created or created on the side of a configuration other than the speech synthesizer 10 (for example, an external server).

10…音声合成装置、120…符号化復号化装置、132…A/D変換器、134…D/A変換器、160…ホストコンピュータ、136…音高解析部、138…言語解析部、143…相槌データ記憶部、144…音高制御部。
DESCRIPTION OF SYMBOLS 10 ... Speech synthesizer, 120 ... Encoding / decoding device, 132 ... A / D converter, 134 ... D / A converter, 160 ... Host computer, 136 ... Pitch analysis unit, 138 ... Language analysis unit, 143 ... Affinity data storage unit, 144... Pitch control unit.

Claims (8)

デジタル信号による発言の音高を解析する音高解析部と、
解析された発言の音高において語尾に向かう音高変化が、予め記憶された音高変化パタ
ーンと合致していなければ、前記発言に対して相槌を返す場合であると判別する言語解析
部と、
前記発言に対して相槌を返す場合であると判別されれば、相槌データを取得する相槌取
得部と、
を具備することを特徴とする音声制御装置。
A pitch analysis unit that analyzes the pitch of a utterance by a digital signal;
A language analysis unit that determines that if the pitch change toward the ending in the pitch of the analyzed utterance does not match the pitch change pattern stored in advance, it is a case of returning a conflict to the utterance;
If it is determined that it is a case of returning an answer to the statement, an interest acquisition unit that acquires the affinity data;
A voice control device comprising:
音高制御部をさらに備え、
前記音高解析部は、
前記デジタル信号による発言のうち、特定の第1区間の音高を解析し、
前記音高制御部は、
取得された相槌データのうち、特定の第2区間の音高を、前記第1区間の音高に対して所定の関係にある音高に制御する、
ことを特徴とする請求項1に記載の音声制御装置。
A pitch control unit,
The pitch analysis unit is
Among the utterances by the digital signal, analyze the pitch of a specific first section,
The pitch control unit
Of the acquired conflict data, the pitch of a specific second section is controlled to a pitch having a predetermined relationship with the pitch of the first section.
The voice control apparatus according to claim 1.
前記デジタル信号による発言をホストコンピュータに供給し、
前記言語解析部は、
解析された発言の音高において語尾に向かう音高変化が、前記音高変化パターンと合致
していれば、前記発言に対して相槌以外を返す場合であると判別し、
前記発言に対して前記相槌データによる相槌以外を返す場合であると判別されれば、前
記音高制御部は、前記ホストコンピュータから供給された前記発言に対する回答データの
うち、前記第2区間の音高を、前記第1区間の音高に対して前記所定の関係にある音高に
制御する、
ことを特徴とする請求項1に記載の音声制御装置。
Supplying a speech by the digital signal to a host computer;
The language analysis unit
If the pitch change toward the ending in the pitch of the analyzed utterance matches the pitch change pattern, it is determined that it is a case of returning something other than a conflict to the utterance,
If it is determined that it is a case where an answer other than the answer based on the answer data is returned in response to the comment, the pitch control unit is configured to output the sound of the second section in the answer data to the comment supplied from the host computer. Controlling the pitch to a pitch that is in the predetermined relationship with respect to the pitch of the first section;
The voice control apparatus according to claim 1.
前記音高解析部は、
前記デジタル信号による発言の音量を解析し、
前記言語解析部は、
解析された発言の音高において語尾に向かう音高変化が、予め記憶された音高変化パタ
ーンと合致しておらず、かつ、解析された発言の音量において語尾に向かう音量変化が、
予め記憶された音量変化パターンと合致していなければ、前記発言に対して相槌を返す場
合であると判別する
ことを特徴とする請求項1に記載の音声制御装置。
The pitch analysis unit is
Analyzing the volume of speech by the digital signal,
The language analysis unit
The pitch change toward the ending at the pitch of the analyzed utterance does not match the pitch change pattern stored in advance, and the volume change toward the ending at the volume of the analyzed utterance is
2. The voice control device according to claim 1, wherein if it does not match a volume change pattern stored in advance, it is determined that an answer is returned for the utterance.
音声信号による発言をデジタル信号に変換するA/D変換器と、
音高が制御された相槌データをアナログ信号に変換して出力するD/A変換器と、
をさらに備えることを特徴とする請求項1に記載の音声制御装置。
An A / D converter that converts a voice signal to a digital signal;
A D / A converter that converts the analog data whose pitch is controlled to an analog signal and outputs the analog signal;
The voice control device according to claim 1, further comprising:
符号化復号化装置とホストコンピュータとを有し、
前記符号化復号化装置は、
デジタル信号による発言の音高を解析する音高解析部と、
解析された発言の音高において語尾に向かう音高変化が、予め記憶された音高変化パタ
ーンと合致していなければ、前記発言に対して相槌を返す場合であると判別し、合致して
いれば、前記発言に対して相槌以外を返す場合であると判別する言語解析部と、
前記発言に対して相槌を返す場合に、前記発言の意味内容に応じた相槌データを取得す
る相槌取得部と、
を有し、
前記ホストコンピュータは、
前記発言に対して前記相槌データによる相槌以外を返す場合に、当該発言に対する回答
データを取得する回答取得部を有する、
ことを特徴とする音声制御装置。
An encoding / decoding device and a host computer;
The encoding / decoding device comprises:
A pitch analysis unit that analyzes the pitch of a utterance by a digital signal;
If the pitch change toward the ending in the pitch of the analyzed utterance does not match the pre-stored pitch change pattern, it is determined that there is a case of returning a conflict with the utterance. For example, a language analysis unit for determining that it is a case of returning something other than a conflict for the utterance;
When returning an answer to the statement, an agreement acquisition unit that acquires the agreement data according to the meaning content of the statement;
Have
The host computer
An answer acquisition unit for acquiring answer data for the comment when returning other than the answer based on the opinion data for the comment;
A voice control device characterized by that.
デジタル信号による発言の音高を解析し、
解析した発言の音高において語尾に向かう音高変化が、予め記憶された音高変化パター
ンと合致していなければ、前記発言に対して相槌を返す場合であると判別し、
前記発言に対して相槌を返す場合であると判別すれば、相槌データを取得する、
ことを特徴とする音声制御方法。
Analyzing the pitch of speech by digital signals,
If the pitch change toward the ending in the pitch of the analyzed utterance does not match the pre-stored pitch change pattern, it is determined that it is a case where a reconciliation is returned to the utterance,
If it is determined that it is a case of returning an answer to the statement, obtain the answer data.
A voice control method characterized by the above.
マイクロプロセッサを有する音声制御装置のプログラムであって、
前記マイクロプロセッサを、
デジタル信号による発言の音高を解析する音高解析部、
解析された発言の音高において語尾に向かう音高変化が、予め記憶された音高変化パタ
ーンと合致していなければ、前記発言に対して相槌を返す場合であると判別する言語解析
部、および、
前記発言に対して相槌を返す場合であると判別されれば、相槌データを取得する相槌取
得部、
として機能させることを特徴とするプログラム。
A program of a voice control device having a microprocessor,
Said microprocessor;
A pitch analysis unit that analyzes the pitch of speech from digital signals,
A language analysis unit for determining that if the pitch change toward the ending in the pitch of the analyzed utterance does not match the pitch change pattern stored in advance, it is a case of returning a conflict to the utterance; and ,
If it is determined that it is a case of returning an answer to the remark, an interest acquisition unit that acquires the affinity data;
A program characterized by functioning as
JP2013198219A 2013-05-31 2013-09-25 Voice control device, voice control method and program Expired - Fee Related JP6375605B2 (en)

Priority Applications (8)

Application Number Priority Date Filing Date Title
JP2013198219A JP6375605B2 (en) 2013-09-25 2013-09-25 Voice control device, voice control method and program
CN201480031099.XA CN105247609B (en) 2013-05-31 2014-06-02 The method and device responded to language is synthesized using speech
EP14803435.8A EP3007165B1 (en) 2013-05-31 2014-06-02 Technology for responding to remarks using speech synthesis
CN201910272063.5A CN109887485A (en) 2013-05-31 2014-06-02 The technology responded to language is synthesized using speech
US14/892,624 US9685152B2 (en) 2013-05-31 2014-06-02 Technology for responding to remarks using speech synthesis
PCT/JP2014/064631 WO2014192959A1 (en) 2013-05-31 2014-06-02 Technology for responding to remarks using speech synthesis
EP18178496.8A EP3399521B1 (en) 2013-05-31 2014-06-02 Technology for responding to remarks using speech synthesis
US15/375,984 US10490181B2 (en) 2013-05-31 2016-12-12 Technology for responding to remarks using speech synthesis

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013198219A JP6375605B2 (en) 2013-09-25 2013-09-25 Voice control device, voice control method and program

Publications (2)

Publication Number Publication Date
JP2015064481A JP2015064481A (en) 2015-04-09
JP6375605B2 true JP6375605B2 (en) 2018-08-22

Family

ID=52832405

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013198219A Expired - Fee Related JP6375605B2 (en) 2013-05-31 2013-09-25 Voice control device, voice control method and program

Country Status (1)

Country Link
JP (1) JP6375605B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6801587B2 (en) * 2017-05-26 2020-12-16 トヨタ自動車株式会社 Voice dialogue device
KR101891489B1 (en) * 2017-11-03 2018-08-24 주식회사 머니브레인 Method, computer device and computer readable recording medium for providing natural language conversation by timely providing a interjection response
KR101891492B1 (en) * 2017-11-03 2018-08-24 주식회사 머니브레인 Method and computer device for providing contextual natural language conversation by modifying plain response, and computer readable recording medium

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62115199A (en) * 1985-11-14 1987-05-26 日本電気株式会社 Voice responder
JP4729902B2 (en) * 2003-12-12 2011-07-20 株式会社豊田中央研究所 Spoken dialogue system
JP4186992B2 (en) * 2006-01-31 2008-11-26 株式会社豊田中央研究所 Response generating apparatus, method, and program
JP5136512B2 (en) * 2009-05-08 2013-02-06 トヨタ自動車株式会社 Response generating apparatus and program

Also Published As

Publication number Publication date
JP2015064481A (en) 2015-04-09

Similar Documents

Publication Publication Date Title
WO2014192959A1 (en) Technology for responding to remarks using speech synthesis
JP6446993B2 (en) Voice control device and program
US7979274B2 (en) Method and system for preventing speech comprehension by interactive voice response systems
US20180130462A1 (en) Voice interaction method and voice interaction device
JP6464703B2 (en) Conversation evaluation apparatus and program
JPWO2007148493A1 (en) Emotion recognition device
JP2005084102A (en) Apparatus, method, and program for speech recognition evaluation
CN114203147A (en) System and method for text-to-speech cross-speaker style delivery and for training data generation
JP6375605B2 (en) Voice control device, voice control method and program
JP6343895B2 (en) Voice control device, voice control method and program
JP6566076B2 (en) Speech synthesis method and program
JP4648878B2 (en) Style designation type speech synthesis method, style designation type speech synthesis apparatus, program thereof, and storage medium thereof
JP6424419B2 (en) Voice control device, voice control method and program
JP6375604B2 (en) Voice control device, voice control method and program
JP6648786B2 (en) Voice control device, voice control method and program
JP6232892B2 (en) Speech synthesis apparatus and program
JP6343896B2 (en) Voice control device, voice control method and program
JP2018151661A (en) Speech control apparatus, speech control method, and program
WO2018050212A1 (en) Telecommunication terminal with voice conversion
KR20170105365A (en) Apparatus and method for supporting audio subtitles based on emotion
JP2014115547A (en) Device for giving speech characteristics, method for giving speech characteristics, device for synthesizing speech, and method for synthesizing speech

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20150410

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160720

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170926

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180201

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180626

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180709

R151 Written notification of patent or utility model registration

Ref document number: 6375605

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees