JP2011209423A - Voice synthesizer expressing individuality and feeling of speaker - Google Patents

Voice synthesizer expressing individuality and feeling of speaker Download PDF

Info

Publication number
JP2011209423A
JP2011209423A JP2010075390A JP2010075390A JP2011209423A JP 2011209423 A JP2011209423 A JP 2011209423A JP 2010075390 A JP2010075390 A JP 2010075390A JP 2010075390 A JP2010075390 A JP 2010075390A JP 2011209423 A JP2011209423 A JP 2011209423A
Authority
JP
Japan
Prior art keywords
speech
words
expiratory
speaker
paragraph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010075390A
Other languages
Japanese (ja)
Inventor
Ryuji Tabuchi
龍二 田淵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP2010075390A priority Critical patent/JP2011209423A/en
Publication of JP2011209423A publication Critical patent/JP2011209423A/en
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a voice synthesizer expressing the feature of work and the individuality and feeling of a speaker in addition to natural utterance in synthesized voice.SOLUTION: The voice synthesizer expresses the feature of work and the individuality and feeling of the speaker in addition to natural utterance in synthesized voice. An attempt such as patterning by rhythm and intonation has been started, but, as a parameter, an exhalation paragraph is taken which is not included in them but plays an important role in expressing the feature of the work and the individuality and feeling of the speaker. For this purpose, an exhalation paragraph control function responding to the feature of the work and the individuality and feeling of the speaker is built from a database related to the number of words, duration, speech speed, and contents in the exhalation paragraph, and the function is incorporated into the voice synthesizer.

Description

本発明は、音声合成に関するものであり、合成された音声における、話者の個性や感情を表現する方法に関わるものである。特に、合成された音声の呼気段落の語数と継続時間と話速を制御することによって話者の個性と感情を表現する方法に関するものである。 The present invention relates to speech synthesis, and relates to a method for expressing a speaker's personality and emotion in synthesized speech. In particular, the present invention relates to a method for expressing a speaker's personality and emotion by controlling the number of words, duration, and speech speed of a synthesized speech exhalation paragraph.

すでに音声合成技術は格段の進歩をとげ、時間や経費をそれほどかけることなく、通常の自然な合成音声を産出することができるようになりつつある。 Already, speech synthesis technology has made great progress, and it is now possible to produce ordinary natural synthesized speech without much time and expense.

合成音声が利用される分野と頻度が広がるにつれ、社会からの要求と期待が大きくなってきている。次の課題として解決が求められているのは、話者の個性や感情を使い分けることである。物語や会話に含まれる場面に応じた感情表現である。 As the field and frequency of use of synthetic speech expands, societal demands and expectations are increasing. The next issue that needs to be solved is to use the individuality and emotion of the speaker properly. It is an emotional expression according to the scene included in the story or conversation.

合成音声による感情表現の試みはすでに始まっているが、そのほとんどは、音律や抑揚によるパターン化である。たとえば特許文献1。しかしそれは万人の感情表現のパターン化であり、ある人の感情表現ではない。どういうことかというと、人にはそれぞれ個性があるからだ。個性抜きに、感情表現を論ずることはできない。「あの人はいつも怒っているように喋る」と言うことがある。その人を知っている人なら普段どおりでも、何も知らない初対面の人がその人と話すと、しかられているように感じるかもしれない。なぜかと言うと、初対面の人がどんなしゃべり方をするのかについてまったく情報がないので、もっとも標準的なしゃべり方との比較で判断してしまうからである。つまり、その人のしゃべり方の個性がわからなければ、しゃべり方から感情を正しく判断できない。このように、個性の確立があってこそ、感情表現が生きてくる。従来の感情表現手法からは個性の設定が脱落していると言う問題があった。 Attempts to express emotions using synthesized speech have already begun, but most of them are patterning by temperament and intonation. For example, Patent Document 1. However, it is a pattern of emotional expression for everyone, not emotional expression for a person. This is because each person has their own personality. Without individuality, we cannot discuss emotional expressions. Sometimes he says, “She always speaks like angry”. A person who knows the person may feel like hesitated when the first person who knows nothing talks to him / her. This is because there is no information on how the first-time person talks, so it is judged by comparison with the most standard way of speaking. In other words, if you do not understand the personality of the person's way of speaking, you will not be able to judge emotions correctly based on how you speak. In this way, emotional expression comes alive only when individuality is established. There was a problem that the setting of individuality was missing from the conventional emotion expression method.

従来の話者の個性は、それぞれのシステムで利用するために収録した男性や女性の、できるだけ癖のない音声をベースにしていて、そうした模範音声の、没個性と言うべき個性があったに過ぎない。いや、むしろ、個性ある発話は、ナレーションや案内においては排除されてきた。 Traditional speaker personality is based on the voices of men and women recorded for use in each system as much as possible. Absent. Rather, individual utterances have been eliminated in narration and guidance.

また、音声による感情表現は、音の大きさ、音律や抑揚のほかにもある。それが、しゃべりの速さと長さである。息継ぎと息継ぎとで区切られた発話区間(呼気段落とよぶ)の継続時間とその中に含まれる言葉の量である。ところが、従来の音声学においては、呼気段落の長さや、その成立要因についての研究が十分に行われず、そのため、音声合成において、呼気段落の制御に関わる部分は、まったく未開拓と言う問題があった。 In addition to the loudness, temperament, and intonation, there are other ways of expressing emotions. That is the speed and length of speaking. It is the duration of the speech segment (called exhalation paragraph) divided by breathing and the amount of words contained in it. However, in conventional phonetics, there has been a problem that the length of the exhalation paragraph and the factors behind the exhalation paragraph are not fully researched. It was.

ちなみに、呼気段落について触れている文献(特許文献2)もあるが、それは、韻律句間の休止長を決定する物であって、特定の個性や感情を得るために呼気段落の長さや話速について制御するものではない。 By the way, there is a document (Patent Document 2) that mentions the exhalation paragraph, but it determines the pause length between prosodic phrases, and the length and speed of the exhalation paragraph in order to obtain a specific personality and emotion. There is no control over.

従来の呼気段落は、主に、合成に利用する音素や音節の継続時間を、単語や句ごとに積算して行くことで呼気段落の時間としてきた。たとえば特許文献3。この手法では、呼気段落を制御して、話者の個性や感情を表現することはできないという問題があった。 Conventional exhalation paragraphs have mainly been the exhalation paragraph time by integrating the phoneme and syllable durations used for synthesis for each word or phrase. For example, Patent Document 3. This method has a problem that it is not possible to express the individuality and emotion of the speaker by controlling the exhalation paragraph.

感情表現における呼気段落の話速(発話速度)について触れた文献としては、非特許文献1がある。しかし、そこではまだ、音声特徴の要素の一つとして発話速度を指摘しているにとどまる。 Non-Patent Document 1 is a document that mentions the speed of speech (speech rate) in an exhalation paragraph in emotional expression. However, it still points out the speech speed as one of the features of the voice feature.

P4246790(0006)P4246790 (0006) 特開平7−134713(請求項1)JP-A-7-134713 (Claim 1) P2001−249677A(0006)P2001-249677A (0006) 感情表現を意図した音声合成システムの提案:http://ci.nii.ac.jp/naid/110003295694Proposal of a speech synthesis system intended for emotional expression: http: // ci. nii. ac. jp / naid / 110003295694

従来の技術では、話者の個性や感情を表現するために呼気段落を制御することができないという制約や欠点などの問題点があった。 The conventional technology has problems such as limitations and disadvantages that the exhalation paragraph cannot be controlled in order to express the personality and emotion of the speaker.

従来の音声学では、呼気段落についての研究が十分になされず、そのことにより、呼気段落の継続時間を規定する法則を見つけることができなかった。それゆえに、呼気段落を制御すると言う発想自身が生まれてこなかった。 In conventional phonetics, there was not enough research on the expiratory paragraph, which prevented us from finding a law that defines the duration of the expiratory paragraph. Therefore, the idea of controlling the exhalation paragraph itself has not been born.

本発明の課題は、独自に発見した呼気段落の継続時間を規定する法則を使い、話者の個性や感情を表現することを目的として、呼気段落の制御を可能とする高品質な音声合成装置を提供することである。 An object of the present invention is to provide a high-quality speech synthesizer capable of controlling an exhalation paragraph for the purpose of expressing a speaker's personality and emotion using a rule that defines the duration of an exhalation paragraph that has been uniquely discovered. Is to provide.

上述した課題を解決するためのスダンとして、本発明では、音声合成装置に、合成音声の一つの発話単位における語数W、速度V、継続時間Tを作品の特徴、話者の個性、発話の感情などに応じて算出する呼気段落制御関数を組み込む。あるいは呼気段落制御関数を組み込んだ呼気段落制御部を設ける。それにより、合成音声全体の作品の特徴、各話者の個性および各発話単位での感情などを表現する。 As a sudan for solving the above-described problems, in the present invention, the speech synthesizer has the number of words W, the speed V, and the duration T in one utterance unit of the synthesized speech, the characteristics of the work, the personality of the speaker, and the emotion of the utterance. Incorporate an exhalation paragraph control function that is calculated according to the above. Alternatively, an expiratory paragraph control unit incorporating an expiratory paragraph control function is provided. As a result, the characteristics of the work of the synthesized speech as a whole, the individuality of each speaker, the emotion in each utterance unit, etc. are expressed.

最初に、呼気段落制御関数について述べ、次に、呼気段落制御部について述べ、最後に、音声合成装置での働きについて述べる。 First, the expiratory paragraph control function will be described, then the expiratory paragraph control unit will be described, and finally the operation in the speech synthesizer will be described.

呼気段落制御関数は、変数として、語数W、速度V、継続時間Tを含み、さらに作品の特徴、話者の個性、発話の感情などを分類した変数を持つことができる。 The expiratory paragraph control function can include variables including the number of words W, the speed V, and the duration T as variables, and further classifying the characteristics of the work, the personality of the speaker, the emotion of speech, and the like.

呼気段落制御関数での一つの発話単位とは、人間の発話における呼気吸気や音声の無音区間によって区分された、一連の音声のまとまりである。呼気段落制御関数と表現しているが、必ずしも呼気段落だけを制御するものではなく、音声の無音区間によって区分された段落も制御する。 One utterance unit in the exhalation paragraph control function is a group of a series of voices divided by exhalation inhalation and silent periods of voices in human speech. Although expressed as an expiratory paragraph control function, it does not necessarily control only the expiratory paragraph, and also controls paragraphs divided by silent intervals of speech.

呼気段落制御関数で利用する変数である語数Wとは、一つの発話単位の中にある語数であり、対象言語や音声合成装置の特性に応じて、音素数、モーラ数、音節数、文字数、単語数などの数値を扱う。 The number of words W, which is a variable used in the expiratory paragraph control function, is the number of words in one utterance unit, and the number of phonemes, mora, syllables, characters, Handles numbers such as the number of words.

呼気段落制御関数で利用する変数である継続時間Tとは、一つの発話単位が始まってから終わるまでの経過時間であり、呼気段落長とか呼気段落継続時間などとも言う。 The duration T, which is a variable used in the expiratory paragraph control function, is an elapsed time from the start to the end of one utterance unit, and is also referred to as an expiratory paragraph length or an expiratory paragraph duration.

呼気段落制御関数で利用する変数である速度Vとは、一つの発話単位において、単位時間内に発話する語数である。 The speed V, which is a variable used in the expiratory paragraph control function, is the number of words uttered within a unit time in one utterance unit.

呼気段落制御関数で利用する変数である語数Wと継続時間Tと速度Vとの間には、速度Vに継続時間Tを掛けたものが語数Wに等しいという関係が成り立っている。 Between the word number W, the duration time T, and the speed V, which are variables used in the expiratory paragraph control function, there is a relationship that the speed V multiplied by the duration time T is equal to the word number W.

呼気段落制御関数で利用する変数である作品の特徴とは、会話、朗読、朗詠、演説などの作品の設定場面、仕事、演芸、雑談、報道、通知、さらには、子供向け、青少年向け、大人向け、高齢者向け、そして、日本語、英語、ロシア語、中国語など、作品の内容や対象および言語などによる概念区分である。 The feature of the work, which is a variable used in the expiratory paragraph control function, is the setting scene of the work such as conversation, reading, recitation, speech, work, performance, chat, report, notification, and also for children, youth, and adults This is a conceptual division based on the content, object, and language of works such as Japanese, English, Russian, and Chinese.

呼気段落制御関数で利用する変数である話者の個性とは、人間の話し方や声の出し方に現れる個性であり、落ち着いて話す人、ガチャガチャと話す人、とつとつと話す人、ねちねち話す人、つっけんどんに話す人、べたべた話す人、歯切れよく話す人などと表現される概念区分であり、また男性か女性かという概念区分である。 The personality of the speaker, which is a variable used in the expiratory paragraph control function, is the personality that appears in the way people speak and speak, and who speaks calmly, who speaks steadily, who speaks steadily, who speaks, It is a conceptual category expressed as a person who speaks steadily, a person who speaks fluently, a person who speaks crisply, and a conceptual category of male or female.

呼気段落制御関数で利用する変数である発話の感情とは、幸福、怒り、悲しみ、嫌悪、恐れ、驚き、そして平常心などと表現される概念区分である。 The emotion of speech, which is a variable used in the expiratory paragraph control function, is a conceptual division expressed as happiness, anger, sadness, disgust, fear, surprise, and normality.

呼気段落制御関数で利用する変数である作品の特徴、話者の個性、発話の感情の概念区分は、それぞれ同時に複数の設定をすることも可能である。 It is also possible to simultaneously set a plurality of settings for the work classification, the individuality of the speaker, and the conception of the emotion of speech, which are variables used in the expiratory paragraph control function.

以上のような変数を扱う呼気段落制御関数は、数式でもよいし、一覧表形式でもよいし、数式と一覧表形式の混合でもよい。呼気段落制御関数は実態としては、一連の数式群であり、一連の一覧表である。どのような数式や一覧表にするかは、呼気段落制御関数を組み込む音声合成装置によって最適なものにする。呼気段落制御関数への入力は値でもよいし、値の範囲でもよい。呼気段落制御関数からの出力は、値でもよいし、値の範囲でもよい。呼気段落制御関数は、語数W、速度V、継続時間T、さらに作品の特徴、話者の個性、発話の感情などを含んでいてもよいし、作品の特徴、話者の個性、発話の感情などの区分に応じてそれぞれ別個の関数としてあらかじめ用意しておいてもよい。 The expiratory paragraph control function that handles the variables as described above may be a mathematical expression, a list form, or a mixture of a mathematical expression and a list form. The expiratory paragraph control function is actually a series of mathematical expressions and a series of lists. What kind of mathematical formulas and lists are to be optimized are determined by a speech synthesizer incorporating an exhalation paragraph control function. The input to the expiratory paragraph control function may be a value or a range of values. The output from the expiratory paragraph control function may be a value or a range of values. The expiratory paragraph control function may include the number of words W, the speed V, the duration T, the feature of the work, the personality of the speaker, the emotion of speech, and the feature of the work, the personality of the speaker, the emotion of speech. It may be prepared in advance as separate functions depending on the category.

人の標準的なしゃべりをあらわす汎用的な呼気段落制御関数の1例を単語数−話速度数分布図として、図28、図29、図30に示す。度数分布図は同時に確率分布図である。汎用的な呼気段落制御関数は、話速曲線211のように、対数関数や2次関数、確率分布関数などの数式で近似表現できる場合が多い。作品の特徴や話者の個性を表現する個別の呼気段落制御関数は、話速曲線210、212や話速確率分布曲線213のように対数関数や2次関数、確率分布関数などの数式で近似表現できる場合もあるが、多くは複雑な構造を持つので、図8などの散布図や図11などの等高線図(3D度数分布図)として表現する場合が多い。散布図や等高線図や度数分布図の元になったデータが呼気段落制御関数の中心部分であり、語数W、速度V、継続時間Tを変数とする多次元行列空間として存在する。用途に応じてあらかじめ統計処理して確率分布表にしておいてもよい。 An example of a general expiratory paragraph control function representing a person's standard chat is shown in FIG. 28, FIG. 29, and FIG. The frequency distribution chart is a probability distribution chart at the same time. In general, a general expiratory paragraph control function can be expressed approximately by a mathematical expression such as a logarithmic function, a quadratic function, a probability distribution function, etc. as in the speech speed curve 211. Individual expiratory paragraph control functions that express the features of the work and the individuality of the speaker are approximated by mathematical expressions such as logarithmic functions, quadratic functions, and probability distribution functions, such as the speech speed curves 210 and 212 and the speech speed probability distribution curve 213. In many cases, it can be expressed, but since it has a complicated structure in many cases, it is often expressed as a scatter diagram such as FIG. 8 or a contour map (3D frequency distribution diagram) such as FIG. The data that is the basis of the scatter chart, contour map, and frequency distribution chart is the central part of the expiratory paragraph control function, and exists as a multidimensional matrix space with the word number W, speed V, and duration T as variables. Depending on the application, statistical processing may be performed in advance to create a probability distribution table.

次に、呼気段落制御部について述べる。 Next, the expiratory paragraph control unit will be described.

すでに上述した変数を扱う呼気段落制御関数は、図1に示すように、従来の音声合成装置に、呼気段落制御部として組み込んでもよいし、図2に示すように、音声合成装置の言語処理部、韻律生成部、波形生成部などの各部分に呼気段落制御関数として組み込んでもよい。 The expiratory paragraph control function that handles the variables already described above may be incorporated in the conventional speech synthesizer as an expiratory paragraph controller as shown in FIG. 1, or the language processing unit of the speech synthesizer as shown in FIG. The prosody generation unit, the waveform generation unit, and the like may be incorporated as exhalation paragraph control functions.

最後に、音声合成装置に組み込まれた呼気段落制御関数と呼気段落制御部の働きを述べる。簡単のためにここでは、言語処理部、韻律生成部、波形生成部と、呼気段落制御部からなる音声合成装置(図1)で、呼気段落制御部に組み込まれた呼気段落制御関数との関わりに絞って働きを述べる。 Finally, the operation of the expiratory paragraph control function and the expiratory paragraph control unit incorporated in the speech synthesizer will be described. For the sake of simplicity, here, a speech synthesizer (FIG. 1) comprising a language processing unit, a prosody generation unit, a waveform generation unit, and an exhalation paragraph control unit, and the relationship with the exhalation paragraph control function incorporated in the exhalation paragraph control unit Describe the work focusing on.

呼気段落制御部による制御は、一つの発話単位に対して行われるとともに、複数の発話単位の集合体の制御も行う。 The control by the expiratory paragraph control unit is performed for one utterance unit and also controls a group of a plurality of utterance units.

一つの発話単位に対する呼気段落制御部による制御は、言語処理部や韻律生成部や波形生成部が生成した発話単位が、与えられた話者の個性や発話の感情などの諸条件に適合するか否かを評価し調整する。 Whether the speech unit generated by the language processing unit, prosody generation unit, or waveform generation unit conforms to various conditions such as the individuality of the given speaker and the emotion of the utterance. Evaluate and adjust whether or not.

呼気段落制御部は、与えられた一つの発話単位の諸情報を呼気段落制御関数に引渡す。呼気段落制御関数は渡された諸情報から、最適な語数W、速度V、継続時間Tを算出する。呼気段落制御部は、呼気段落制御関数が算出した語数W、速度V、継続時間Tと、すでに設定されているその発話単位の語数W、速度V、継続時間Tを比較評価する。評価が不適合であったり、調整が必要である場合には、その結果を言語処理部や韻律生成部や波形生成部にもどし、発話単位を生成しなおすように指示する。指示の内容は、たとえば、その発話単位を2つに分割せよとか、その発話単位の時間を3割短くせよとかの形で伝えられる。 The expiratory paragraph control unit delivers various pieces of information of one given utterance unit to the expiratory paragraph control function. The expiratory paragraph control function calculates the optimum word number W, speed V, and duration T from the received information. The expiratory paragraph control unit compares and evaluates the number of words W, the speed V, and the duration T calculated by the expiratory paragraph control function with the number of words W, the speed V, and the duration T that are already set. If the evaluation is incompatible or adjustment is required, the result is returned to the language processing unit, the prosody generation unit, and the waveform generation unit, and an instruction is given to regenerate the utterance unit. The contents of the instruction are transmitted, for example, in the form of dividing the utterance unit into two or shortening the time of the utterance unit by 30%.

複数の発話単位の集合体に対する呼気段落制御部による制御は、一つ一つの発話単位の集合体が全体として、作品の特徴、話者の個性などの諸条件に適合するか否かを評価し調整する。 The control by the expiratory paragraph control unit for a set of multiple utterance units evaluates whether each set of utterance units as a whole conforms to various conditions such as the characteristics of the work and the individuality of the speaker. adjust.

呼気段落制御部は、与えられた複数の発話単位の集合体の諸情報を呼気段落制御関数に引渡す。呼気段落制御関数は渡された諸情報から、最適な語数W、速度V、継続時間Tの分布を算出する。呼気段落制御部は、呼気段落制御関数が算出した語数W、速度V、継続時間Tの分布と、すでに設定されているその発話単位の集合体の語数W、速度V、継続時間Tの分布を比較評価する。評価が不適合であったり、調整が必要である場合には、その結果を言語処理部や韻律生成部や波形生成部にもどし、発話単位全体を生成しなおすように指示する。指示の内容は、たとえば、隣接する発話単位を結合し語数の多い発話単位を全体で2割増やせとか、全体として話速を1割遅くせよとかの形で伝えられる。 The expiratory paragraph control unit delivers various pieces of information of a given set of utterance units to the expiratory paragraph control function. The expiratory paragraph control function calculates the optimal word count W, speed V, and duration T distribution from the received information. The expiratory paragraph control unit calculates the distribution of the number of words W, the speed V, and the duration T calculated by the expiratory paragraph control function, and the distribution of the number of words W, the speed V, and the duration T of the aggregate of the utterance units that are already set. Compare and evaluate. If the evaluation is incompatible or adjustment is required, the result is returned to the language processing unit, prosody generation unit, and waveform generation unit, and an instruction is given to regenerate the entire utterance unit. The contents of the instruction are transmitted, for example, in such a way that adjacent speech units are combined to increase the speech unit having a large number of words by 20% as a whole, or the speech speed as a whole is 10% slower.

呼気段落制御部から評価結果と指示を受け取った言語処理部や韻律生成部や波形生成部は、その結果や指示にしたがって、次の作業に入る。適合と言う評価であれば、各部は、次の部に作業を引き渡し、合成音声の出力へと進む。不適合と言う評価であれば、指示に従った作業を行い、その作業結果を、呼気段落制御部に渡す。 The language processing unit, the prosody generation unit, and the waveform generation unit that have received the evaluation result and instruction from the expiratory paragraph control unit enter the next operation according to the result and instruction. If the evaluation is conformity, each unit hands over the work to the next unit and proceeds to output of synthesized speech. If the evaluation is non-conformity, the work is performed in accordance with the instruction, and the work result is passed to the expiratory paragraph control unit.

本発明における音声合成装置は、こうした呼気段落制御部と、言語処理部、韻律生成部、波形生成部とのやり取りを経て、作品の特徴、各話者の個性および各発話単位での感情などを表現した合成音声を出力する。 The speech synthesizer according to the present invention exchanges the expiratory paragraph control unit with the language processing unit, the prosody generation unit, and the waveform generation unit, so that the characteristics of the work, the individuality of each speaker, the emotion in each utterance unit, and the like Output the expressed synthesized speech.

本発明の効果は、呼気段落制御関数を利用することにより、合成音声全体の作品の特徴、各話者の個性および各発話単位での感情などを表現する合成音声を生成することである。 The effect of the present invention is to generate synthesized speech that expresses the characteristics of the work of the entire synthesized speech, the individuality of each speaker, the emotion in each utterance unit, and the like by using the expiratory paragraph control function.

本発明における、音声合成装置の構成図の1例。An example of the block diagram of the speech synthesizer in this invention. 本発明における、音声合成装置の構成図の1例。An example of the block diagram of the speech synthesizer in this invention. 従来の音声合成装置の構成図の1例。An example of the block diagram of the conventional speech synthesizer. 本発明における、演説であると言う条件に適合する呼気段落制御関数から選択された、呼気段落における単語数の度数分布図の1例。An example of the frequency distribution diagram of the number of words in the exhalation paragraph selected from the exhalation paragraph control function that meets the condition of being a speech in the present invention. 本発明における、言語処理部が生成した区分け情報を統計処理して得られた、呼気段落における単語数の度数分布図。The frequency distribution figure of the number of words in an exhalation paragraph obtained by carrying out the statistical process of the segmentation information which the language processing part produced | generated in this invention. 本発明における、言語処理部が最初に生成した区分け情報P1と、言語処理部により合格評価を受けた区分け情報P2の例。The example of the division | segmentation information P1 which the language processing part produced | generated initially in this invention, and the division | segmentation information P2 which received the pass evaluation by the language processing part. 本発明における、韻律生成部が生成した韻律情報を統計処理して得られた、呼気段落における単語数と話速の散布図と単語数別平均話速曲線210。In the present invention, a scatter diagram of the number of words and speech speed in an exhalation paragraph and an average speech speed curve by number of words 210 obtained by statistically processing the prosodic information generated by the prosody generation unit. 本発明における、演説であると言う条件に適合する呼気段落制御関数から選択された、呼気段落における単語数と話速の散布図と単語数別平均話速曲線211。In the present invention, a scatter diagram of the number of words and speaking speed in the expiratory paragraph and an average speaking speed curve by number of words 211 selected from expiratory paragraph control functions that meet the condition of speech. 本発明における、韻律生成部が生成した韻律情報を統計処理して得られた呼気段落における単語数と話速の散布図と単語数別平均話速曲線210と、演説であると言う条件に適合する呼気段落制御関数から選択された呼気段落における単語数と話速の散布図と単語数別平均話速曲線211との比較の概念図。In accordance with the present invention, a scatter diagram of the number of words and speech speed in an exhalation paragraph obtained by statistical processing of the prosodic information generated by the prosody generation unit, an average speech speed curve 210 by number of words, and a condition of speech The conceptual diagram of the comparison with the scatter diagram of the number of words and the speech speed in the expiratory paragraph selected from the expiratory paragraph control function to perform, and the average speech speed curve 211 according to the number of words. 本発明における、単語数別平均話速曲線210と211の式の実例。The example of the formula of the average speech speed curve 210 and 211 according to the number of words in this invention. 本発明における、ある特定の話者Aに対する呼気段落における単語数と話速の3D等高線図と単語数別平均話速曲線。The 3D contour map of the number of words in the exhalation paragraph with respect to a certain specific speaker A in the present invention, a 3D contour map, and the average speaking speed curve according to the number of words. 本発明における、ある特定の話者Bに対する呼気段落における単語数と話速の3D等高線図と単語数別平均話速曲線。The 3D contour map of the number of words in the exhalation paragraph with respect to a certain specific speaker B in the present invention, a 3D contour map, and the average speaking speed curve according to the number of words. 本発明における、ある特定の話者Cに対する呼気段落における単語数と話速の3D等高線図と単語数別平均話速曲線。The 3D contour map of the number of words in the exhalation paragraph with respect to a certain specific speaker C in this invention, a 3D contour map of a speech speed, and the average speech speed curve according to word number. 本発明における、韻律生成部から呼気段落制御部に渡された区分け情報の一部分。The part of the division information passed from the prosody generation unit to the exhalation paragraph control unit in the present invention. 本発明における、ある特定の話者ドロシーに対する呼気段落制御関数での、呼気段落における単語数と話速の散布図と単語数別平均話速曲線212。The scatter diagram of the number of words and the speech speed in the expiratory paragraph and the average speech speed curve 212 by the number of words in the expiratory paragraph control function for a specific speaker Dorothy in the present invention. 本発明における、ある特定の話者ドロシーに対する呼気段落制御関数での、呼気段落における単語数別平均話速曲線212の式の実例。FIG. 6 is an example of an expression of an average speech speed curve by number of words in an expiratory paragraph in an expiratory paragraph control function for a specific speaker Dorothy according to the present invention. FIG. 本発明における、呼気段落における単語数別平均話速曲線212の式に、単語数W=28を代入した計算の実例。The example of the calculation which substituted the number of words W = 28 to the formula of the average speech speed curve 212 according to the number of words in the expiration paragraph in this invention. 本発明における、ある特定の話者ドロシーに対する呼気段落制御関数での、単語数が28個のときの話速確率分布曲線の実例。The example of the speech rate probability distribution curve when the number of words is 28 in the expiratory paragraph control function for a specific speaker Dorothy in the present invention. 本発明における、ある特定の話者ドロシーに対する呼気段落制御関数での、単語数が28個のときの話速確率分布曲線213が、単語数と話速の散布図(度数分布)での単語数が28個のときの断面であることを示す概念図。The speech speed probability distribution curve 213 when the number of words is 28 in the expiratory paragraph control function for a specific speaker Dorothy in the present invention is the number of words in a scatter diagram (frequency distribution) of the number of words and speech speed. The conceptual diagram which shows that it is a cross section when there are 28 pieces. 本発明における、ある特定の話者ドロシーに対する呼気段落制御関数での「怒りの訴え」に当たる領域を、呼気段落における単語数と話速の散布図内に図示した概念図。The conceptual diagram which illustrated the area | region which corresponds to "appeal of anger" in the expiratory paragraph control function with respect to a specific speaker Dorothy in this invention in the scatter diagram of the number of words in an expiratory paragraph, and a speech speed. 本発明における、呼気段落制御部が韻律生成部に対して行う指示を書き込んだ情報の実例。The example of the information which wrote the instruction | indication which the exhalation paragraph control part in this invention performs with respect to a prosody generation | occurrence | production part. 本発明における、呼気段落制御部が言語処理部から受け取った区分け情報を統計処理した、単語数分布図。The expiratory paragraph control part in this invention WHEREIN: The word number distribution map which statistically processed the classification information received from the language processing part. 本発明における、標準的なしゃべりを実現するための呼気段落制御関数にある、単語数度数分布図の実例。The example of the frequency distribution diagram of a word in the exhalation paragraph control function for implement | achieving standard chat in this invention. 本発明における、呼気段落制御部が韻律生成部から受け取った韻律情報を統計処理した呼気段落継続時間の度数分布図。FIG. 4 is a frequency distribution diagram of expiratory paragraph duration time obtained by statistically processing the prosodic information received by the expiratory paragraph control unit from the prosody generating unit in the present invention. 本発明における、標準的なしゃべりを実現するための呼気段落制御関数にある、呼気段落継続時間の度数分布図の実例。The example of the frequency distribution figure of the expiratory paragraph duration in the expiratory paragraph control function for implement | achieving standard chat in this invention. 本発明における、呼気段落制御部が韻律生成部から受け取った韻律情報を統計処理した、話速の度数分布図。FIG. 4 is a frequency distribution diagram of speech speed obtained by statistically processing the prosodic information received from the prosody generation unit by the expiratory paragraph control unit in the present invention. 本発明における、標準的なしゃべりを実現するための呼気段落制御関数にある、話速の度数分布図の実例。The example of the frequency distribution diagram of the speech speed in the exhalation paragraph control function for implement | achieving standard chat in this invention. 本発明における、人の標準的なしゃべりをあらわす汎用的な呼気段落制御関数の1例を単語数−話速度数分布俯瞰図として示した実例。The example which showed one example of the general-purpose expiratory paragraph control function showing a person's standard chat in this invention as a bird's-eye number-speech rate distribution top view. 本発明における、人の標準的なしゃべりをあらわす汎用的な呼気段落制御関数の1例を単語数−話速度数分布正面図として示した実例。The example which showed one example of the general-purpose expiratory paragraph control function showing a person's standard chat in this invention as a word number-speech speed number distribution front view. 本発明における、人の標準的なしゃべりをあらわす汎用的な呼気段落制御関数の1例を単語数−話速度数分布上面図として示した実例。The example which showed one example of the general expiratory paragraph control function showing a person's standard chat in this invention as a word number-speech rate number top view.

ここでは、本発明の実施の形態について、図面を参照しながら説明する。 Here, embodiments of the present invention will be described with reference to the drawings.

図1と図2は、本発明の実施の形態における音声合成装置の構成図である。図3は、従来の一般的な音声合成装置である。 1 and 2 are configuration diagrams of a speech synthesizer according to an embodiment of the present invention. FIG. 3 shows a conventional general speech synthesizer.

図1は、図3のような従来の音声合成装置に、呼気段落制御部を追加して、そこに呼気段落制御関数を組み込んだ例である。図2は、図3のような従来の音声合成装置の各部に、呼気段落制御関数を組み込んだ例である。どちらも本質的には同じであるので、図1を使って説明する。 FIG. 1 is an example in which an exhalation paragraph control unit is added to the conventional speech synthesizer as shown in FIG. 3 and an exhalation paragraph control function is incorporated therein. FIG. 2 shows an example in which an exhalation paragraph control function is incorporated in each part of the conventional speech synthesizer as shown in FIG. Both are essentially the same, and will be described with reference to FIG.

また、音声合成装置による発話の特性は、声の強さ、韻律、話速、呼気段落の継続時間、無音区間などの制御によって実現するが、呼気段落制御部では、呼気段落の話速と継続時間と語数の制御することで、所望の音声表現を得る。 In addition, the speech characteristics by the speech synthesizer are realized by controlling the voice strength, prosody, speech speed, expiratory paragraph duration, silent period, etc., but the expiratory paragraph control unit controls the speech speed and duration of the expiratory paragraph. By controlling the time and the number of words, a desired phonetic expression is obtained.

(実施の形態1)
(実施の形態1)は、発話の種別と話者の個性を、呼気段落制御部によって合成音声に反映させる例である。
(Embodiment 1)
(Embodiment 1) is an example in which the type of speech and the personality of the speaker are reflected in the synthesized speech by the expiratory paragraph control unit.

ある政治家の演説がテキストとして入力されたとする。演説が発話の種別であり、ある政治家が話者の個性である。 Suppose a politician's speech was entered as text. Speech is the type of utterance, and a politician is the personality of the speaker.

言語処理部101は、入力されたテキストを解析し、発話単位に区分けするとともに、音声記号化する。区分けした結果を区分け情報P1として呼気段落制御部104に渡す。呼気段落制御部は、渡された情報から、話者がある政治家であり、種別が演説であると言う条件に適合する呼気段落制御関数F1を選び出す。言語処理部101の段階では、語数W、速度V、継続時間Tのうち、設定されているのは語数Wに関わる情報だけなので、関数F1の語数に関わる部分として、呼気段落における度数分布図4に示されるような分布関数を選択。他方、区分け情報P1の語数についても、度数分布を算出する。それが図5。呼気段落制御部は、図4と図5に示されるような、語数(ここでは単語数)の分布状態を比較する。その結果として、たとえば、10単語以上の発話単位が多いことから、それらの8割をさらに分割して単語数を10以下とせよという指示を言語処理部101に渡す。 The language processing unit 101 analyzes the input text, divides it into utterance units, and converts them into phonetic symbols. The segmented result is passed to the exhalation paragraph control unit 104 as segmentation information P1. The expiratory paragraph control unit selects an expiratory paragraph control function F1 that meets the condition that the speaker is a politician and the type is speech from the passed information. At the stage of the language processing unit 101, only the information related to the number of words W is set out of the number of words W, the speed V, and the duration T. Therefore, the frequency distribution diagram 4 in the expiratory paragraph is used as the portion related to the number of words in the function F1. Select a distribution function as shown in. On the other hand, a frequency distribution is also calculated for the number of words in the segmentation information P1. That is FIG. The expiratory paragraph control unit compares the distribution state of the number of words (here, the number of words) as shown in FIG. 4 and FIG. As a result, for example, since there are many utterance units of 10 words or more, an instruction is given to the language processing unit 101 to further divide 80% of them and make the number of words 10 or less.

呼気段落制御部から指示を受けた言語処理部は、指示に従って修正したものを作成し、再び呼気段落制御部に渡す。呼気段落制御部が合格と言う評価を下すまで、こうした作業を繰り返し実施する。言語処理部は、呼気段落制御部の合格評価を受けた区分け情報P2を、韻律生成部102に渡す。 Upon receiving the instruction from the exhalation paragraph control unit, the language processing unit creates a modified one according to the instruction and passes it again to the exhalation paragraph control unit. These operations are repeated until the expiratory paragraph control unit makes an evaluation of passing. The language processing unit passes the segmentation information P <b> 2 that has received the pass evaluation of the exhalation paragraph control unit to the prosody generation unit 102.

最初の区分け情報P1と、合格評価を受けた区分け情報P2の例を図6に示す。 FIG. 6 shows an example of the first division information P1 and the division information P2 that has received the pass evaluation.

韻律生成部102は、受け取った区分け情報P2から、基本周波数、継続時間長、音量などの韻律情報Q1を生成し、呼気段落制御部104に渡す。呼気段落制御部は、渡された韻律情報Q1から、たとえば語数Wと速度Vを選び出し、図7のような分布図と話速曲線210を算出する。他方で先の呼気段落制御関数F1の語数Wと速度Vに関わる部分として、図8のような分布図と話速曲線211を選択する。そこで図7と図8に見られる分布と話速曲線210と211を比較する。その様子が図9。その結果として、たとえば、5単語以上の発話単位のうちの7割について、平均30%ほど話速を増大せよと言う指示を韻律生成部102に渡す。 The prosody generation unit 102 generates prosody information Q1 such as a fundamental frequency, duration length, and volume from the received segmentation information P2, and passes it to the expiratory paragraph control unit 104. The expiratory paragraph control unit selects, for example, the number of words W and the speed V from the prosodic information Q1 passed, and calculates a distribution diagram and a speech speed curve 210 as shown in FIG. On the other hand, as a portion related to the word number W and the speed V of the exhalation paragraph control function F1, a distribution diagram and a speech speed curve 211 as shown in FIG. 8 are selected. Therefore, the distributions shown in FIGS. 7 and 8 are compared with the speech speed curves 210 and 211. This is shown in FIG. As a result, for example, for 70% of utterance units of 5 words or more, an instruction to increase the speech speed by an average of 30% is given to the prosody generation unit 102.

このとき、話速曲線210と211は、図10のような対数関数である。ここでは対数関数として例を示しているが、双曲線関数や放物線や折れ線などのこともあるし、一覧表形式でもよいし、数式と一覧表形式の混合でもよい。 At this time, the speech speed curves 210 and 211 are logarithmic functions as shown in FIG. Here, an example is shown as a logarithmic function, but there may be a hyperbolic function, a parabola, a polygonal line, etc., a list form may be used, and a formula and a list form may be mixed.

呼気段落制御部から指示を受けた韻律生成部は、指示に従って修正したものを作成し、再び呼気段落制御部に渡す。呼気段落制御部が合格と言う評価を下すまで、こうした作業を繰り返し実施する。韻律生成部は、呼気段落制御部の合格評価を受けた韻律情報Q2を、波形生成部103に渡す。 In response to the instruction from the exhalation paragraph control unit, the prosody generation unit creates a modified one according to the instruction and passes it again to the exhalation paragraph control unit. These operations are repeated until the expiratory paragraph control unit makes an evaluation of passing. The prosody generation unit passes the prosody information Q <b> 2 that has been evaluated by the expiratory paragraph control unit to the waveform generation unit 103.

波形生成部103は、受け取った韻律情報Q2から、合成音声を生成する。このとき、語数W、速度V、継続時間Tに変化がなければ、そのまま出力する。語数W、速度V、継続時間Tに変化があれば、呼気段落制御部に情報を渡して評価し、言語処理部あるいは韻律生成部にもどして再調整する。こうした呼気段落制御部と、言語処理部、韻律生成部、波形生成部とのやり取りを経て、本発明の音声合成装置は、作品の特徴、各話者の個性および各発話単位での感情などを表現した合成音声を完成させ、出力する。 The waveform generation unit 103 generates synthesized speech from the received prosodic information Q2. At this time, if there is no change in the number of words W, the speed V, and the duration T, it is output as it is. If there are changes in the number of words W, the speed V, and the duration T, the information is passed to the expiratory paragraph control unit for evaluation, and returned to the language processing unit or prosody generation unit for readjustment. Through the exchange between the expiratory paragraph control unit, the language processing unit, the prosody generation unit, and the waveform generation unit, the speech synthesizer of the present invention displays the characteristics of the work, the individuality of each speaker, the emotion in each utterance unit, etc. Complete and output the synthesized speech.

(実施の形態2)
(実施の形態2)は、会話中の3人の話者の個性を、呼気段落制御部によって合成音声に反映させる例である。
(Embodiment 2)
(Embodiment 2) is an example in which the individuality of three speakers during a conversation is reflected in the synthesized speech by the expiratory paragraph control unit.

3人の話者による会話がテキストとして入力されたとする。そのテキストには、3人の話者A、B、Cについて、Aは標準的なしゃべりの女性、Bはしっかりした男性のしゃべり、Cはひょうきんな男性のしゃべりと言う個性を指定しているとする。 Assume that a conversation between three speakers is entered as text. In the text, for the three speakers A, B, and C, A is a standard talking woman, B is a solid male talking, and C is a humble male talking personality. To do.

呼気段落制御部は、3人の話者についの上記のような指定を受けて、ABCの3人に、それぞれ関数Fa、Fb、Fcを準備する。これらの関数はたとえばそれぞれ図11、図12、図13のような度数分布と話速曲線で表現されている。 The expiratory paragraph control unit receives the above-mentioned designations for the three speakers, and prepares functions Fa, Fb, and Fc for the three ABC members, respectively. These functions are expressed, for example, by frequency distributions and speech speed curves as shown in FIGS.

実施の形態1と同様の流れに従って処理を進める。このとき、呼気段落制御部は、それぞれの発話単位に付けられた話者名に応じて、関数Fa、Fb、Fcをそれぞれ適用する。これにより、本発明の音声合成装置は、各話者の個性を表現した合成音声を完成させ、出力する。 The process proceeds according to the same flow as in the first embodiment. At this time, the expiratory paragraph control unit applies the functions Fa, Fb, and Fc according to the speaker name assigned to each utterance unit. As a result, the speech synthesizer of the present invention completes and outputs a synthesized speech expressing the individuality of each speaker.

(実施の形態3)
(実施の形態3)は、話者の感情を、呼気段落制御部によって合成音声に反映させる例である。ここでは特に、やり場のない怒りの思いを訴える場面を想定する。怒りの感情は、従来、音量や韻律で表現しようと工夫されてきた。ここでは、それに加えてさらに、呼気段落の継続時間と話速と言う要素で対処する。
(Embodiment 3)
(Embodiment 3) is an example in which a speaker's emotion is reflected in the synthesized speech by the expiratory paragraph control unit. In particular, we will assume a scene that appeals to the angry feelings. Traditionally, anger emotions have been devised to be expressed with volume and prosody. Here, in addition to this, it is further dealt with by factors such as the duration of the exhalation paragraph and the speech speed.

韻律生成部102から呼気段落制御部104に渡された区分け情報の中に、図14のような項目があり、感情の指定は「怒りの訴え」とあったとする。感情の指定は、言語処理部に渡された入力情報の中であらかじめ指定されていたものでもよいし、言語処理部が、独自の単語・構文・文脈解析で生成したものでもよい。 Assume that there is an item as shown in FIG. 14 in the segmentation information passed from the prosody generation unit 102 to the expiratory paragraph control unit 104, and the designation of emotion is “appeal of anger”. The designation of emotion may be specified in advance in the input information passed to the language processing unit, or may be generated by the language processing unit through unique word / syntax / context analysis.

また、入力情報の前提として、これは物語の朗読であり、各人物の個性が関数として、実施の形態2のように準備されているものとする。 Further, as a premise of the input information, this is a reading of a story, and it is assumed that the individuality of each person is prepared as a function as in the second embodiment.

図14に示される区分け情報を受け取った呼気段落制御部104は、話者ドロシーの関数Fdを準備する。関数Fdは図15のような分布と話速曲線212(式は図16)で表現されているとする。 Upon receiving the segmentation information shown in FIG. 14, the exhalation paragraph control unit 104 prepares a speaker Dorothy function Fd. It is assumed that the function Fd is expressed by a distribution as shown in FIG. 15 and a speech speed curve 212 (the expression is FIG. 16).

図14の文の単語数は28個であることから、話者ドロシーの関数Fdの話速曲線212(図16)を使って、話速を計算する。その結果、平均話速4.1WPSを得る(図17)。 Since the number of words in the sentence of FIG. 14 is 28, the speech speed is calculated using the speech speed curve 212 (FIG. 16) of the speaker Dorothy function Fd. As a result, an average speech speed of 4.1 WPS is obtained (FIG. 17).

次に、単語数28での平均話速4.1WPSを、関数Fdにある、単語数28での話速確率分布曲線213(図18)を使い、感情の指定「怒りの訴え」に対応する話速5.2〜5.7WPSに変換する。話速確率分布曲線213は、図15の分布図において、W=28での断面図と考えてよい(図19)。 Next, using the speech speed probability distribution curve 213 (FIG. 18) with the word number 28 in the function Fd, the average speech speed 4.1 WPS with the word number 28 corresponds to the emotion designation “anger appeal”. The speech speed is converted to 5.2 to 5.7 WPS. The speech speed probability distribution curve 213 may be considered as a cross-sectional view at W = 28 in the distribution diagram of FIG. 15 (FIG. 19).

ここでは、説明のために、まず、話速曲線212を使って計算して平均話速4.1WPSを求め、次に、話速確率分布曲線213を使って感情の指定「怒りの訴え」に対応する話速の範囲5.2〜5.7WPSを求めたが、関数Fdで一度に処理できるようにしておいてもよい。 Here, for the sake of explanation, first, an average speech speed of 4.1 WPS is obtained by calculation using the speech speed curve 212, and then the emotion designation “anger appeal” is performed using the speech speed probability distribution curve 213. Although the corresponding speech speed range of 5.2 to 5.7 WPS has been obtained, the function Fd may be processed at a time.

また、話速曲線212と話速確率分布曲線213を使っての計算を図式化すると、話速曲線212の周囲には、感情表現のさまざまな領域があり、そのうちで「怒りの訴え」に当たる領域214(図20)を利用したことになる。 Further, when the calculation using the speech speed curve 212 and the speech speed probability distribution curve 213 is diagrammatically, there are various areas of emotional expression around the speech speed curve 212, and among them, the area corresponding to the “anger appeal” 214 (FIG. 20) is used.

ここまで述べたような手段により、感情の指定「怒りの訴え」に対応する話速の範囲5.2〜5.7WPSを求め呼気段落制御部104は、その結果を図21のように書き込んだ情報を、韻律生成部102に引き渡す。 The expiratory paragraph control unit 104 obtains the speech speed range 5.2 to 5.7 WPS corresponding to the emotion designation “appeal of anger” by the means described so far, and writes the result as shown in FIG. Information is delivered to the prosody generation unit 102.

韻律生成部102は、この受け取った情報に基づいて、上記発話部分の話速が指定どおり5.2〜5.7WPSの範囲に収まるようにした韻律情報を作成し、波形生成部に送る。波形生成部は受け取った韻律情報をもとにして音声を合成して出力する。これにより、本発明の音声合成装置は、指定された感情「怒りの訴え」を表現した合成音声を完成させ、出力する。 Based on the received information, the prosody generation unit 102 creates prosody information so that the speech speed of the utterance portion falls within the range of 5.2 to 5.7 WPS as specified, and sends the prosodic information to the waveform generation unit. The waveform generator synthesizes and outputs speech based on the received prosodic information. As a result, the speech synthesizer of the present invention completes and outputs a synthesized speech that expresses the designated emotion “appeal of anger”.

(実施の形態4)
(実施の形態4)は、話者の感情を抑えて、癖がなく、平静な表現を、呼気段落制御部によって合成音声に反映させる例である。淡々とした朗読や案内に適した音声を作ることは、感情表現のもっとも基本である。こうした表現を、ここでは、標準的なしゃべりと名づけておく。
(Embodiment 4)
(Embodiment 4) is an example in which the emotion of the speaker is suppressed, and there is no habit and a calm expression is reflected in the synthesized speech by the expiratory paragraph control unit. Making voice suitable for inquisitive reading and guidance is the most basic of emotional expression. We will name these expressions as standard chatter here.

呼気段落制御部では、標準的なしゃべりを特徴付ける諸要素(声の強さ、韻律、話速、呼気段落の継続時間、無音区間など)のうち、話速と呼気段落の継続時間と語数を最適化する。最適化は、一つ一つの発話単位の最適化と、発話全体の最適化の2系列で行う。 The expiratory paragraph control unit optimizes the speech speed, expiratory paragraph duration, and number of words among the elements that characterize standard speech (voice strength, prosody, speech speed, expiratory paragraph duration, silent period, etc.) Turn into. Optimization is performed in two sequences: optimization for each utterance unit and optimization for the entire utterance.

ひとつの呼気段落は、語数、話速、継続時間によって特徴付けられるが、これら3つの要素は、語数=話速×継続時間の関数関係にあることから、どれか2つを制御すれば、残りの1つが決まる。ここでは、話を簡単にするために、まず語数を最適化し、つぎに呼気段落継続時間と話速を最適化する。 One expiratory paragraph is characterized by the number of words, speaking speed, and duration, but these three elements are in a functional relationship of number of words = speaking speed x duration, so if any two are controlled, the rest One of these is determined. Here, in order to simplify the story, the number of words is first optimized, and then the expiratory paragraph duration and speech speed are optimized.

標準的なしゃべりを実現するための呼気段落制御関数を、Fsとしておく。 An exhalation paragraph control function for realizing standard chatting is Fs.

まず語数を最適化する。 First, optimize the number of words.

1発話単位に含まれる語数は、第1義的に言語処理部により生成される。言語処理部は、発話全体、あるいはその一部の発話単位の区分け情報Sを呼気段落制御部に送る。 The number of words included in one utterance unit is primarily generated by the language processing unit. The language processing unit sends the classification information S of the entire utterance or a part of the utterance unit to the exhalation paragraph control unit.

呼気段落制御部は送られた情報Sのうち、1発話単位に含まれる語数に関する情報を統計処理し単語数分布(図22)を得る。これを、呼気段落制御関数Fsにある、単語数度数分布(図23)と比較する。これにより、単語数の多い発話区間が多いことが判明する。そこで呼気段落制御部は、言語処理部に対して、たとえば、1発話単位に含まれる平均語数が4、5単語なるように、1発話単位に含まれる語数を減らすよう指示をする。 The expiratory paragraph control unit statistically processes information on the number of words included in one utterance unit in the sent information S to obtain a word number distribution (FIG. 22). This is compared with the word frequency distribution (FIG. 23) in the expiratory paragraph control function Fs. This reveals that there are many utterance sections with a large number of words. Therefore, the expiratory paragraph control unit instructs the language processing unit to reduce the number of words included in one utterance unit so that, for example, the average number of words included in one utterance unit is 4 or 5 words.

呼気段落制御部からの指示を受けた言語処理部は、指示通りの処理を行い、修正した情報Sを再び呼気段落制御部に送り、評価を受け、その評価結果をもとに処理を進め、この過程を反復して情報Sの最適化を終了する。 Upon receiving the instruction from the expiratory paragraph control unit, the language processing unit performs processing as instructed, sends the corrected information S to the expiratory paragraph control unit again, receives the evaluation, and proceeds based on the evaluation result, This process is repeated to finish the optimization of the information S.

次に呼気段落継続時間と話速を最適化する。 Next, the expiratory paragraph duration and speech speed are optimized.

語数の最適化を終了した言語処理部は、その情報Sを韻律生成部に送る。韻律生成部は、受け取った情報Sに基づき韻律情報を生成し、その結果を情報Sに追加する。そして、その情報Sを呼気段落制御部に送る。 The language processing unit that has finished optimizing the number of words sends the information S to the prosody generation unit. The prosody generation unit generates prosody information based on the received information S, and adds the result to the information S. Then, the information S is sent to the exhalation paragraph control unit.

呼気段落制御部は送られた情報Sのうち、1発話単位に含まれる時間(呼気段落継続時間)に関する情報を統計処理し呼気段落継続時間分布(図24)を得る。これを、呼気段落制御関数Fsにある、呼気段落継続時間分布曲線(図25)と比較する。これにより、呼気段落継続時間分布は全体として長い物が多いことが判明する。 The expiratory paragraph control unit statistically processes the information (time of expiratory paragraph duration) included in one utterance unit in the sent information S to obtain the expiratory paragraph duration distribution (FIG. 24). This is compared with the expiratory paragraph duration distribution curve (FIG. 25) in the expiratory paragraph control function Fs. As a result, it is found that there are many exhalation paragraph duration distributions as a whole.

さらに、呼気段落制御部は送られた情報Sのうち、1発話単位の話速に関する情報を統計処理し話速分布(図26)を得る。これを、呼気段落制御関数Fsにある、話速分布曲線(図27)と比較する。これにより、話速分布はほぼ良好であるが、分布の幅が狭く、単調すぎてかえって不自然な印象を与えることが判明する。 Further, the expiratory paragraph control unit statistically processes information related to the speech speed of one utterance unit in the sent information S to obtain a speech speed distribution (FIG. 26). This is compared with the speech speed distribution curve (FIG. 27) in the expiratory paragraph control function Fs. This reveals that the speech speed distribution is almost good, but the width of the distribution is narrow and too monotonous, giving an unnatural impression.

そこで呼気段落制御部は、韻律生成部に対して、たとえば、呼気段落継続時間を10%程度短くし、話速を20%程度分散させるよう指示する。 Therefore, the expiratory paragraph control unit instructs the prosody generation unit to shorten the expiratory paragraph duration time by about 10% and distribute the speech speed by about 20%, for example.

呼気段落制御部からの指示を受けた韻律生成部は、指示通りの処理を行い、修正した情報Sを再び呼気段落制御部に送り、評価を受け、その評価結果をもとに処理を進め、この過程を反復して情報Sの最適化を終了する。 In response to the instruction from the expiratory paragraph control unit, the prosody generation unit performs processing as instructed, sends the corrected information S to the expiratory paragraph control unit again, receives evaluation, and proceeds based on the evaluation result, This process is repeated to finish the optimization of the information S.

韻律生成部は、最適化した韻律情報を波形生成部に送る。 The prosody generation unit sends the optimized prosody information to the waveform generation unit.

波形生成部は、受け取った韻律情報から、合成音声を生成する。このとき、語数W、速度V、継続時間Tに変化がなければ、そのまま出力する。語数W、速度V、継続時間Tに変化があれば、呼気段落制御部に情報を渡して評価し、言語処理部あるいは韻律生成部にもどして再調整する。こうした呼気段落制御部と、言語処理部、韻律生成部、波形生成部とのやり取りを経て、本発明の音声合成装置は、指定された標準的なしゃべりである合成音声を完成させ、出力する。 The waveform generator generates synthesized speech from the received prosodic information. At this time, if there is no change in the number of words W, the speed V, and the duration T, it is output as it is. If there are changes in the number of words W, the speed V, and the duration T, the information is passed to the expiratory paragraph control unit for evaluation, and returned to the language processing unit or prosody generation unit for readjustment. The speech synthesizer according to the present invention completes and outputs a synthesized speech, which is a designated standard chat, through the exchange between the expiratory paragraph control unit, the language processing unit, the prosody generation unit, and the waveform generation unit.

本発明にかかる音声合成装置は、作品の特徴や、話者の個性や、発話の感情を含んだ合成音声を実現する装置として有用である。 The speech synthesizer according to the present invention is useful as a device for realizing synthesized speech including the features of a work, the personality of a speaker, and the emotion of speech.

物語の朗読、ドラマでの会話、インタビュー、ニュース朗読、演説、挨拶、談話、英語教材、朗詠などさまざまな場面に応じて、最適な話者の個性と発話の感情を実現できることにより、合成音声を利用する産業分野をさらに広げる装置として有用である。 Synthetic speech can be achieved by realizing optimal speaker personality and utterance emotions according to various situations such as story readings, drama conversations, interviews, news readings, speeches, greetings, discourses, English teaching materials, recitations, etc. It is useful as a device that further expands the industrial field to be used.

また、従来の利用分野である、カーナビゲーションシステム、電話による応対システム、電子メールの読み上げ装置、鉄道放送システム、ディジタル家電のインタフェース、各種音声対話システム、各種音声案内システムにおいて、依然として利用されている機械音特有の癖のある合成音声を、人の自然な音声に仕上げていく装置として有用である。 Machines that are still used in the conventional fields of use, such as car navigation systems, telephone response systems, e-mail reading devices, railway broadcasting systems, digital home appliance interfaces, various voice interaction systems, and various voice guidance systems. It is useful as a device that finishes synthetic voices with sounds peculiar to sounds into natural human voices.

本発明にかかる音声合成装置は、従来の一般的な音声合成装置に、呼気段落制御部を追加することで実現されるので、従来の一般的な音声合成装置を大幅に改編することなく性能を向上させることができ、経済性と利便性が高く、有用である。また、従来の一般的な音声合成装置の各部に、呼気段落制御関数を組み込むことによっても実現されるので、従来の一般的な音声合成装置の小幅な改編で性能を向上させることができ、経済性と利便性が高く、有用である。 Since the speech synthesizer according to the present invention is realized by adding an exhalation paragraph control unit to a conventional general speech synthesizer, the performance can be improved without significantly modifying the conventional general speech synthesizer. It can be improved, is economical and convenient, and is useful. In addition, since it is also realized by incorporating an expiratory paragraph control function in each part of a conventional general speech synthesizer, the performance can be improved by a small reorganization of the conventional general speech synthesizer. High convenience and convenience.

さらに、呼気段落制御関数は、対数関数、2次関数(双曲線や放物線)、確率分布関数、折れ線などの数式で記述可能であることから、コンピュータの記憶容量の負担を大きく軽減可能となり、その分だけ、言語処理、音声処理などのデータベース部分に必要な容量を確保でき、経済性と利便性が高く、有用である。 Furthermore, since the expiratory paragraph control function can be described by mathematical formulas such as logarithmic function, quadratic function (hyperbola and parabola), probability distribution function, and polygonal line, it can greatly reduce the storage capacity of the computer. However, it is possible to secure the necessary capacity for the database portion such as language processing and speech processing, and it is highly economical and convenient and useful.

他方、呼気段落制御関数は、上記数式では処理しきれない話者の個性や感情表現を、確率分布表などの一覧表形式で記述することができるので、合成音声を利用する場面に応じた所望の個性や感情表現に対応することができ、有用である。 On the other hand, the expiratory paragraph control function can describe the personality and emotional expression of speakers that cannot be processed by the above formulas in the form of a list such as a probability distribution table. It can respond to personality and emotional expression of and is useful.

101 言語処理部
102 韻律処理部
103 波形処理部
104 呼気段落制御関数を組み込んだ呼気段落制御部
201 呼気段落制御関数を組み込んだ言語処理部
202 呼気段落制御関数を組み込んだ韻律処理部
203 呼気段落制御関数を組み込んだ波形処理部
210 単語数別平均話速曲線の実例のひとつ
211 単語数別平均話速曲線の実例のひとつ
212 単語数別平均話速曲線の実例のひとつ
213 単語数28個での話速確率分布曲線の実例のひとつ
214 呼気段落における単語数−話速散布図内にある「怒りの訴え」に当たる領域の実例のひとつ
101 Language processing unit 102 Prosody processing unit 103 Waveform processing unit 104 Expiratory paragraph control unit 201 incorporating expiratory paragraph control function Language processing unit 202 incorporating expiratory paragraph control function Prosodic processing unit 203 incorporating expiratory paragraph control function Expiratory paragraph control Waveform processing unit 210 incorporating a function 211 One of the examples of the average speech speed curve by the number of words 211 One of the examples of the average speech speed curve by the number of words 212 One of the examples of the average speech speed curve by the number of words 213 With 28 words One example of the speech rate probability distribution curve 214 Number of words in the exhalation paragraph-one example of the region that corresponds to the “appeal of anger” in the speech rate scatter diagram

Claims (1)

音声合成装置において、
作品の特徴、話者の個性、発話の感情などに応じて
合成音声の一つの発話単位における語数、速度、継続時間を算出する呼気段落制御関数を組み込むことにより、
合成音声全体の作品の特徴、各話者の個性および各発話単位での感情などを表現する
呼気段落制御部を組み込んだ
ことを特徴とする音声合成装置。
In a speech synthesizer,
By incorporating the expiratory paragraph control function that calculates the number of words, speed, duration in one utterance unit of the synthesized speech according to the features of the work, the individuality of the speaker, the emotion of the utterance, etc.
A speech synthesizer that incorporates an expiratory paragraph control unit that expresses the features of the synthesized speech as a whole, the individuality of each speaker, and the emotion of each utterance.
JP2010075390A 2010-03-29 2010-03-29 Voice synthesizer expressing individuality and feeling of speaker Pending JP2011209423A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010075390A JP2011209423A (en) 2010-03-29 2010-03-29 Voice synthesizer expressing individuality and feeling of speaker

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010075390A JP2011209423A (en) 2010-03-29 2010-03-29 Voice synthesizer expressing individuality and feeling of speaker

Publications (1)

Publication Number Publication Date
JP2011209423A true JP2011209423A (en) 2011-10-20

Family

ID=44940576

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010075390A Pending JP2011209423A (en) 2010-03-29 2010-03-29 Voice synthesizer expressing individuality and feeling of speaker

Country Status (1)

Country Link
JP (1) JP2011209423A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108231059A (en) * 2017-11-27 2018-06-29 北京搜狗科技发展有限公司 Treating method and apparatus, the device for processing
CN110060658A (en) * 2019-04-25 2019-07-26 北京首汽智行科技有限公司 A kind of vehicle launch guide device

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108231059A (en) * 2017-11-27 2018-06-29 北京搜狗科技发展有限公司 Treating method and apparatus, the device for processing
CN110060658A (en) * 2019-04-25 2019-07-26 北京首汽智行科技有限公司 A kind of vehicle launch guide device

Similar Documents

Publication Publication Date Title
Theune et al. Generating expressive speech for storytelling applications
US20200279553A1 (en) Linguistic style matching agent
JP4125362B2 (en) Speech synthesizer
US20060229873A1 (en) Methods and apparatus for adapting output speech in accordance with context of communication
JP4745036B2 (en) Speech translation apparatus and speech translation method
CN105247609A (en) Technology for responding to remarks using speech synthesis
JP2006227589A (en) Device and method for speech synthesis
Burkhardt et al. Emotional speech synthesis 20
JP2007264284A (en) Device, method, and program for adding feeling
JP2011209423A (en) Voice synthesizer expressing individuality and feeling of speaker
JP2002041084A (en) Interactive speech processing system
JP3513071B2 (en) Speech synthesis method and speech synthesis device
Kirkland et al. Perception of smiling voice in spontaneous speech synthesis
JP6343895B2 (en) Voice control device, voice control method and program
JP2017117090A (en) Dialogue system and program
Rottschäfer et al. Online Lombard adaptation in incremental speech synthesis.
Kondo et al. Human-in-the-loop speech-design system and its evaluation
Charfuelan MARY TTS HMMbased voices for the Blizzard Challenge 2012
JP6424419B2 (en) Voice control device, voice control method and program
Ishi et al. Analysis of Acoustic-Prosodic Features Related to Paralinguistic Information Carried by Interjections in Dialogue Speech.
JP6566076B2 (en) Speech synthesis method and program
Boku et al. Speech synthesis of emotions using vowel features of a speaker
JP2005181840A (en) Speech synthesizer and speech synthesis program
KR102116014B1 (en) voice imitation system using recognition engine and TTS engine
JP3575919B2 (en) Text-to-speech converter