JP2003140678A - Voice quality control method for synthesized voice and voice synthesizer - Google Patents

Voice quality control method for synthesized voice and voice synthesizer

Info

Publication number
JP2003140678A
JP2003140678A JP2001333991A JP2001333991A JP2003140678A JP 2003140678 A JP2003140678 A JP 2003140678A JP 2001333991 A JP2001333991 A JP 2001333991A JP 2001333991 A JP2001333991 A JP 2001333991A JP 2003140678 A JP2003140678 A JP 2003140678A
Authority
JP
Japan
Prior art keywords
information
voice
parameter
sound source
vocal tract
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001333991A
Other languages
Japanese (ja)
Other versions
JP2003140678A5 (en
JP3900892B2 (en
Inventor
Yumiko Kato
弓子 加藤
Katsuyoshi Yamagami
勝義 山上
Takahiro Kamai
孝浩 釜井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2001333991A priority Critical patent/JP3900892B2/en
Publication of JP2003140678A publication Critical patent/JP2003140678A/en
Publication of JP2003140678A5 publication Critical patent/JP2003140678A5/ja
Application granted granted Critical
Publication of JP3900892B2 publication Critical patent/JP3900892B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To synthesize an articulate and stressed voice for a word or part showing meaning contents of information and an inarticulate voice for a word or part which does not show meaning contents directly, but shows a sentence structure. SOLUTION: A voice synthesizer which synthesis a voice according to a sound source-patency model comprises a language processing part which outputs part-of-speech information or a voice quality tag in addition to reading information and ascent information, a meter control part which generates meter information from the reading information and accent information, and an acoustic processing part which adjusts sound source parameters and patency parameters according to the part-of-speech information or voice quality tag and meter information, converts patency, and generates a voice waveform based upon the meter information.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明はテキストを音声に変
換する音声合成方法および音声合成装置に属するもので
ある。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a voice synthesizing method and a voice synthesizing apparatus for converting text into voice.

【0002】[0002]

【従来の技術】波形重畳方式に代表される、従来の音声
合成装置では、自立語のような発話の意味内容を示すこ
とばと、付属語のような構文構造を示すことばが同じ明
瞭度、同じ強度で発声されたため、聞き手は注意を絞る
ことが出来ず、長時間聴取すると疲労する音声となって
いた。
2. Description of the Related Art In a conventional speech synthesizer typified by a waveform superposition method, a word indicating the semantic content of an utterance such as an independent word and a word indicating a syntactic structure such as an adjunct word have the same intelligibility and the same. The listener was unable to focus his attention because he was uttered with high intensity, and his voice became tired after listening for a long time.

【0003】[0003]

【発明が解決しようとする課題】しかしながら、波形重
畳方式の音声合成では、自立語と付属語の音質を変える
ためには、自立語用音声素片と付属語用音声素片を保持
せねばならず、素片データの容量が大幅に増加するとい
う課題があった。
However, in the speech synthesis of the waveform superposition method, in order to change the sound quality of the independent word and the adjunct word, it is necessary to hold the independent speech element and the adjunct speech element. However, there is a problem that the capacity of the fragment data is significantly increased.

【0004】この発明は上記の課題を鑑み、データ量を
増加させずに言語情報あるいは意味情報に対応して声質
を変化させる合成音声の音質調整方法と音声合成装置を
提供することを目的とする。
In view of the above problems, it is an object of the present invention to provide a sound quality adjusting method and a voice synthesizing apparatus for a synthetic voice, which changes the voice quality in accordance with linguistic information or semantic information without increasing the amount of data. .

【0005】[0005]

【課題を解決するための手段】上記の目的を達成するた
めの第1の手段は声道パラメータと音源パラメータを制
御して音声を合成する音声合成方法において、入力され
た言語情報に基づいて前記声道パラメータと前記音源パ
ラメータとの少なくともいずれか一方を制御して声質を
変換する音質調整方法である。
[Means for Solving the Problems] A first means for achieving the above object is a voice synthesizing method for synthesizing a voice by controlling vocal tract parameters and sound source parameters. It is a sound quality adjustment method for converting a voice quality by controlling at least one of a vocal tract parameter and the sound source parameter.

【0006】第2の手段は声道パラメータと音源パラメ
ータを制御して音声を合成する音声合成方法において、
入力された言語情報と意味情報に基づいて前記声道パラ
メータと前記音源パラメータとの少なくともいずれか一
方を制御して声質を変換する音質調整方法である。
A second means is a voice synthesizing method for synthesizing voice by controlling vocal tract parameters and sound source parameters,
It is a sound quality adjustment method for converting a voice quality by controlling at least one of the vocal tract parameter and the sound source parameter based on the inputted language information and semantic information.

【0007】第3の手段は前記言語情報は品詞情報を含
み、前記品詞情報に基づいて前記音源パラメータのうち
音源開口度パラメータを制御することを特徴とする音質
調整方法である。
A third means is a sound quality adjusting method characterized in that the language information includes part-of-speech information, and the sound source aperture parameter among the sound source parameters is controlled based on the part-of-speech information.

【0008】第4の手段は前記言語情報は活用情報を含
み、前記活用情報に基づいて前記音源パラメータのうち
音源開口度パラメータを制御することを特徴とする音質
調整方法である。
A fourth means is a sound quality adjusting method characterized in that the language information includes utilization information, and the sound source aperture parameter among the sound source parameters is controlled based on the utilization information.

【0009】第5の手段は前記言語情報は品詞情報を含
み、前記品詞情報に基づいて前記声道パラメータのうち
ホルマント中心周波数パラメータを制御することを特徴
とする音質調整方法である。
A fifth means is a sound quality adjusting method characterized in that the language information includes part-of-speech information, and the formant center frequency parameter of the vocal tract parameters is controlled based on the part-of-speech information.

【0010】第6の手段は前記言語情報は活用情報を含
み、前記活用情報に基づいて前記声道パラメータのうち
ホルマント中心周波数パラメータを制御することを特徴
とする音質調整方法である。
A sixth means is a sound quality adjusting method characterized in that the language information includes utilization information, and the formant center frequency parameter among the vocal tract parameters is controlled based on the utilization information.

【0011】第7の手段は前記言語情報は品詞情報を含
み、前記品詞情報に基づいて前記声道パラメータのうち
ホルマントバンド幅パラメータを制御することを特徴と
する音質調整方法である。
A seventh means is a sound quality adjusting method characterized in that the language information includes part-of-speech information, and the formant bandwidth parameter of the vocal tract parameters is controlled based on the part-of-speech information.

【0012】第8の手段は前記言語情報は活用情報を含
み、前記活用情報に基づいて前記声道パラメータのうち
ホルマントバンド幅パラメータを制御することを特徴と
する音質調整方法である。
An eighth means is a sound quality adjusting method characterized in that the language information includes utilization information, and the formant bandwidth parameter of the vocal tract parameters is controlled based on the utilization information.

【0013】第9の手段は声道パラメータと音源パラメ
ータとに基づいて音声を合成する音声合成装置におい
て、発音記号列と言語情報との少なくともどちらか一方
に基づいて韻律情報を生成する韻律制御手段と、前記言
語情報に基づいて前記声道パラメータと前記音源パラメ
ータとの少なくともどちらか一方を制御して声質を変換
し、前記発音記号列と前記韻律情報とに基づいて音声を
合成する音声生成手段を備えた音声合成装置である。
A ninth means is a prosody control means for generating prosody information based on at least one of a phonetic symbol string and language information in a voice synthesizing device for synthesizing a voice based on a vocal tract parameter and a sound source parameter. And a voice generation means for controlling at least one of the vocal tract parameter and the sound source parameter based on the language information to convert the voice quality, and synthesizing a voice based on the phonetic symbol string and the prosody information. It is a speech synthesizer equipped with.

【0014】第10の手段は声道パラメータと音源パラ
メータとに基づいて音声を合成する音声合成装置におい
て、発音記号列と言語情報と意味情報との少なくともい
ずれか一つに基づいて韻律情報を生成する韻律制御手段
と、前記言語情報と前記意味情報との少なくともいずれ
か一つに基づいて前記声道パラメータと前記音源パラメ
ータとの少なくともいずれか一つを制御して声質を変換
し、前記発音記号列と前記韻律情報とに基づいて音声を
合成する音声生成手段を備えた音声合成装置である。
A tenth means is a voice synthesizing apparatus for synthesizing a voice based on a vocal tract parameter and a sound source parameter, wherein prosodic information is generated based on at least one of a phonetic symbol string, language information and semantic information. The prosody control means for controlling the voice quality by controlling at least one of the vocal tract parameter and the sound source parameter based on at least one of the language information and the semantic information, It is a voice synthesizing device provided with a voice generating means for synthesizing a voice based on a string and the prosody information.

【0015】[0015]

【発明の実施の形態】以下、本発明の音質調整方法と音
声合成装置について、実施例を用いて説明する。
BEST MODE FOR CARRYING OUT THE INVENTION A sound quality adjusting method and a voice synthesizing apparatus according to the present invention will be described below with reference to embodiments.

【0016】(実施の形態1)図1は、本発明の実施の
形態1における音声合成装置の概念構成と各部の入出力
データの形式を示した機能ブロック図である。
(Embodiment 1) FIG. 1 is a functional block diagram showing a conceptual configuration of a speech synthesizer according to Embodiment 1 of the present invention and a format of input / output data of each unit.

【0017】図1において110は漢字かな混じりテキ
ストを入力とし、形態素解析および構文解析を行い、読
み、アクセント情報および自立語付属語判断情報を出力
する言語処理部であり、120は言語処理部110より
出力された読み、アクセント情報に従って、音韻ごとの
時間長、ピッチおよびパワー情報(韻律情報)を生成する
韻律制御部であり、130は韻律制御部120より出力
された韻律情報と言語処理部110より出力された、自
立語付属語判別情報に従って、音源-声道モデルのパラ
メータを制御して音声波形を生成する音響処理部であ
る。
In FIG. 1, 110 is a language processing unit for inputting text mixed with kanji and kana, performing morphological analysis and syntactic analysis, and outputting reading, accent information and independent word adjunct word judgment information, and 120 is a language processing unit 110. Reference numeral 130 denotes a prosody control unit that generates time length, pitch, and power information (prosodic information) for each phoneme according to the reading and accent information output from the prosody control unit 120 and the language processing unit 110. It is an acoustic processing unit that controls the parameters of the sound source-vocal tract model according to the independent word adjunct word discrimination information output, and generates a speech waveform.

【0018】以上のように構成された音声合成装置の動
作を説明する。言語処理110は入力された漢字かな混
じりテキスト(101)「明日は全国的に晴れるところ
が多く、日中の気温は最高気温が30度を超えるところが
多くなる見込みです。」を形態素解析および構文解析
し、読み、アクセント区切り、アクセント、付属語記号
を含む言語情報(102)を出力する。言語情報102
は音韻をカタカナで示し、改行によりアクセント句を示
し、アポストロフィ記号によりアクセントを示し、音韻
記号を中カッコで囲むことで付属語を示している。韻律
制御部は例えば特開平12−075883のようにアク
セント句のモーラ数とアクセント型に従って音韻ごとの
ピッチとパワーを決定し、音韻並びから音韻語との時間
長を特定して、音韻毎に時間長、ピッチ、パワーの韻律
情報を生成する。一方言語処理110より入力された付
属語情報に基づいて、自立語に含まれる音韻は標準の声
質、付属語に含まれる音韻はあいまいな声質を指定する
声質情報を音韻毎に生成し、音韻毎の韻律情報及び声質
情報(103)を出力する。音響処理部130は音韻毎
の韻律情報および声質情報(103)に従って、音声を
合成する。あいまいな声質が指定された音韻に付いて
は、音韻の母音部のホルマント周波数を各母音の特徴的
ホルマント周波数の重心に近づけ、さらにホルマントバ
ンド幅を標準の2倍にする。このときホルマントのエネ
ルギーが標準ホルマントバンド幅の場合と変わらないよ
うにエネルギーを調整する。上記のように標準声質のパ
ラメータを変更することで、あいまい声質の音声を音韻
単位で作り、パラメータを接続し韻律情報に合わせて音
源パラメータを変更して、音声を合成する。
The operation of the speech synthesizer configured as above will be described. The linguistic processing 110 morphologically and syntactically analyzes the input kanji-kana mixed text (101) "Tomorrow there will be many sunny places nationwide, and daytime temperatures are likely to exceed 30 degrees Celsius." , Language information (102) including pronunciation, accent delimiter, accent, and attached word symbol is output. Language information 102
Indicates phonemes in katakana, accent phrases are indicated by line breaks, accents are indicated by apostrophe symbols, and adjuncts are indicated by enclosing phonological symbols in braces. The prosody control unit determines the pitch and power for each phoneme according to the number of mora and the accent type of the accent phrase, for example, as disclosed in Japanese Patent Laid-Open No. 12-075883, specifies the time length of the phoneme word from the phoneme sequence, and determines the time for each phoneme. Prosody information of length, pitch, and power is generated. On the other hand, based on the adjunct word information input from the language processing 110, the phoneme included in the independent word has a standard voice quality, and the phoneme included in the adjunct word generates voice quality information designating an ambiguous voice quality for each phoneme. It outputs prosody information and voice quality information (103). The sound processing unit 130 synthesizes a voice according to the prosody information and voice quality information (103) for each phoneme. For a phoneme with an ambiguous voice quality, the formant frequency of the vowel part of the phoneme is brought close to the center of gravity of the characteristic formant frequency of each vowel, and the formant bandwidth is doubled from the standard. At this time, the energy of the formant is adjusted so that it does not differ from that of the standard formant band width. By changing the parameters of the standard voice quality as described above, a voice with an ambiguous voice quality is created in phonological units, the parameters are connected, the sound source parameters are changed in accordance with the prosody information, and the voice is synthesized.

【0019】以上のように、本実施の形態の音声合成装
置により、付属語に含まれる音韻のみをあいまいな声質
で合成することができ、意味内容を伝える自立語を相対
的に明瞭な声質で発声することにより、聴取者が自然に
意味内容に注目でき、自然で疲れにくい合成音声を生成
することが出来る。
As described above, the speech synthesizer according to the present embodiment can synthesize only the phoneme included in the adjunct word with an ambiguous voice quality, and the independent word that conveys the meaning content can be expressed with a relatively clear voice quality. By uttering, the listener can naturally pay attention to the meaning and content, and can generate a synthetic voice that is natural and less tiring.

【0020】(実施の形態2)図2は、本発明の実施の
形態2における音声合成装置の概念構成と各部の入出力
データの形式を示した機能ブロック図である。
(Embodiment 2) FIG. 2 is a functional block diagram showing a conceptual configuration of a speech synthesizer according to Embodiment 2 of the present invention and a format of input / output data of each unit.

【0021】図2において210はFM電波を受信して電
波に多重変調されている文字データを出力するFM文字放
送受信部であり、220はFM文字放送受信部210が出
力した文字データの中から交通情報を抜き出して出力す
る交通情報抽出部である。230は交通情報の文例と、
文例毎にあらかじめ定められた、強調あるいはあいまい
の声質指定情報とを保持する音質タグ付き文例データベ
ースであり、240は交通情報抽出部220が出力した
交通情報を音質タグ付きデータベース230のデータと
マッチングし、音声出力のための読み、アクセント情報
および音質情報を出力する言語情報出力部である。韻律
制御部120、音響処理部130は図1と同様である。
In FIG. 2, reference numeral 210 denotes an FM teletext receiving unit that receives FM radio waves and outputs the character data multiplexed and modulated into the radio waves, and 220 indicates character data output from the FM teletext receiving unit 210. It is a traffic information extraction unit that extracts and outputs traffic information. 230 is a sentence example of traffic information,
A sentence example database with a sound quality tag that holds, in advance, emphasized or ambiguous voice quality designation information for each sentence example, and 240 matches the traffic information output by the traffic information extraction unit 220 with the data in the sound quality tagged database 230. , A language information output unit for outputting reading, accent information and sound quality information for voice output. The prosody control unit 120 and the sound processing unit 130 are the same as those in FIG.

【0022】以上のように構成された音声合成装置の動
作を説明する。FM文字放送受信部210はFM電波を受信
して文字データを抽出し、出力する。交通情報抽出部2
20はFM文字放送受信部210が出力した文字データよ
り音質タグ付き文例データベース230を参照して交通
情報のパタンを持つ情報のみ抽出し文字列(201)を
出力する。言語情報出力部240は音質タグ付き文例デ
ータベース230を参照して路線、方向、始点等の構成
要素をマッチングし、文字列201に最適な文例を選択
する。交通情報の抽出と文例の選択は例えば、特開平0
8−339490に示されるようなマッチングによって
行うものとする。言語情報出力部240は文例に文字列
201の構成要素を当てはめ、完結した文を生成しその
文の読み、アクセント区切り、アクセント、音質タグを
含む言語情報(202)を出力する。言語情報202は
音韻をカタカナで示し、改行によりアクセント句を示
し、アポストロフィ記号によりアクセントを示し、音韻
記号を<>で囲むことで強調音声を摘要する音韻列を示
し、中カッコで囲むことであいまい音声を適用する音韻
列を示している。韻律制御部は例えば特開平12−07
5883のようにアクセント句のモーラ数とアクセント
型に従って音韻ごとのピッチとパワーを決定し、音韻並
びから音韻語との時間長を特定して、音韻毎に時間長、
ピッチ、パワーの韻律情報を生成する。一方言語情報出
力部240より出力された音質タグに基づいて、強調音
声が指定された音韻については、強調のタグを付与し、
あいまい音声を指定された音韻にはあいまい音声のタグ
を付与して音韻毎の韻律情報及び声質情報(103)を
出力する。音響処理部130は音韻毎の韻律情報および
声質情報(103)に従って、音声を合成する。強調タ
グが付与された音韻に付いては音韻の子音部のパワーを
標準の1.1倍にし、母音部のホルマントバンド幅を標
準の0.8倍にする。あいまいな声質が指定された音韻
に付いては、音韻の母音部のホルマント周波数を各母音
の特徴的ホルマント周波数の重心に近づけ、さらにホル
マントバンド幅を標準の2倍にする。強調、あいまいの
どちらのパラメータ変更についても、ホルマントのエネ
ルギーが標準ホルマントバンド幅の場合と変わらないよ
うにエネルギーを調整する。上記のように標準声質のパ
ラメータを変更することで、強調音声、あいまい声質の
音声を音韻単位で作り、パラメータを接続し韻律情報に
合わせて音源パラメータを変更して、音声を合成する。
The operation of the speech synthesizer configured as above will be described. The FM teletext receiver 210 receives FM radio waves, extracts character data, and outputs the character data. Traffic information extraction unit 2
20 refers to the sound quality tagged sentence example database 230 from the character data output by the FM teletext receiver 210, extracts only the information having the pattern of traffic information, and outputs the character string (201). The language information output unit 240 refers to the sound quality tagged sentence example database 230 to match the constituent elements such as the route, the direction, and the starting point, and selects the optimum sentence example for the character string 201. Extraction of traffic information and selection of sentence examples are described in, for example, Japanese Patent Laid-Open No.
It is assumed that the matching is performed as shown in 8-339490. The language information output unit 240 applies the constituent elements of the character string 201 to the sentence example, generates a complete sentence, and outputs the language information (202) including reading of the sentence, accent delimiter, accent, and sound quality tag. The linguistic information 202 indicates phonemes in katakana, accent phrases are indicated by line breaks, accents are indicated by apostrophes, and phoneme strings that require emphasized speech are indicated by enclosing the phonological symbols in <> and enclosed in braces. The phonological sequence to which voice is applied is shown. The prosody control unit is disclosed in, for example, Japanese Patent Laid-Open No. 12-07.
As in 5883, the pitch and power of each phoneme are determined according to the number of mora and accent type of the accent phrase, the time length of the phoneme word is specified from the phoneme sequence, and the time length of each phoneme is
Prosody information of pitch and power is generated. On the other hand, based on the sound quality tag output from the language information output unit 240, an emphasis tag is added to the phoneme for which emphasized speech is designated,
A fuzzy voice tag is added to the phoneme for which a fuzzy voice is designated, and prosody information and voice quality information (103) for each phoneme are output. The sound processing unit 130 synthesizes a voice according to the prosody information and voice quality information (103) for each phoneme. For a phoneme to which an emphasis tag is added, the power of the consonant part of the phoneme is 1.1 times the standard, and the formant band width of the vowel part is 0.8 times the standard. For a phoneme with an ambiguous voice quality, the formant frequency of the vowel part of the phoneme is brought close to the center of gravity of the characteristic formant frequency of each vowel, and the formant bandwidth is doubled from the standard. Regardless of whether the parameter is emphasized or ambiguous, the energy is adjusted so that the formant energy is not different from the standard formant bandwidth. By changing the parameters of the standard voice quality as described above, emphasized voices and voices of ambiguous voice quality are created in phonological units, parameters are connected, the sound source parameters are changed according to the prosody information, and the voices are synthesized.

【0023】以上のように、本実施の形態の音声合成装
置により、聴取者が注目すべき構成要素に対して強調音
声で、意味内容に関連の小さい部分の音韻はあいまいな
声質で合成することができ、聴取者が自然に意味内容に
注目でき、自然で疲れにくい合成音声を生成することが
出来る。
As described above, the speech synthesis apparatus according to the present embodiment synthesizes the emphasized voice with respect to the component which the listener should pay attention to, and the phonology of the portion having a small relation to the meaning content with an ambiguous voice quality. Therefore, the listener can naturally pay attention to the meaning and content, and can generate a synthetic voice that is natural and less tiring.

【0024】[0024]

【発明の効果】聴取者が注目すべき意味内容を示す部分
を強調された明瞭な音声で提示し、意味内容を直接示さ
ない部分をあいまいな音声で提示することにより、聴取
者が自然に意味内容を示す部分に注目でき、自然で疲れ
ない合成音声を生成することが出来る。
[Effects of the Invention] By providing a clear and emphasized voice for a portion that shows the meaning content that the listener should pay attention to, and a vague voice for the portion that does not directly show the meaning content, the listener naturally senses the meaning. You can pay attention to the part that shows the content, and you can generate natural and tired synthetic speech.

【図面の簡単な説明】[Brief description of drawings]

【図1】実施の形態1の音声合成装置の概念構成と各部
の入出力データ形式を示すブロック図
FIG. 1 is a block diagram showing a conceptual configuration of a speech synthesizer according to a first embodiment and an input / output data format of each unit.

【図2】実施の形態2の音声合成装置の概念構成と各部
の入出力データ形式を示すブロック図
FIG. 2 is a block diagram showing a conceptual configuration of a speech synthesizer according to a second embodiment and an input / output data format of each unit.

【符号の説明】[Explanation of symbols]

110 言語処理部 120 韻律制御部 130 音響処理部 210 FM文字放送受信部 220 交通情報抽出部 230 音質タグ付き文例データベース 110 Language Processing Department 120 Prosody control unit 130 Sound processing unit 210 FM teletext receiver 220 Traffic information extractor 230 Sentence example database with sound quality tag

───────────────────────────────────────────────────── フロントページの続き (72)発明者 釜井 孝浩 大阪府門真市大字門真1006番地 松下電器 産業株式会社内 Fターム(参考) 5D045 AA00    ─────────────────────────────────────────────────── ─── Continued front page    (72) Inventor Takahiro Kamai             1006 Kadoma, Kadoma-shi, Osaka Matsushita Electric             Sangyo Co., Ltd. F-term (reference) 5D045 AA00

Claims (10)

【特許請求の範囲】[Claims] 【請求項1】 声道パラメータと音源パラメータを制御
して音声を合成する音声合成方法において、入力された
言語情報に基づいて前記声道パラメータと前記音源パラ
メータとの少なくともいずれか一方を制御して声質を変
換する合成音声の音質調整方法。
1. A voice synthesizing method for synthesizing a voice by controlling a vocal tract parameter and a sound source parameter, wherein at least one of the vocal tract parameter and the sound source parameter is controlled based on input language information. A method for adjusting the sound quality of synthetic voice that converts voice quality.
【請求項2】 声道パラメータと音源パラメータを制御
して音声を合成する音声合成方法において、入力された
言語情報と意味情報に基づいて前記声道パラメータと前
記音源パラメータとの少なくともいずれか一方を制御し
て声質を変換する合成音声の音質調整方法。
2. A voice synthesis method for synthesizing a voice by controlling a vocal tract parameter and a sound source parameter, wherein at least one of the vocal tract parameter and the sound source parameter is based on input linguistic information and semantic information. A method for adjusting the sound quality of synthetic speech by controlling and converting the voice quality.
【請求項3】 前記言語情報は品詞情報を含み、前記品
詞情報に基づいて前記音源パラメータのうち音源開口度
パラメータを制御することを特徴とする請求項1または
2に記載の合成音声の音質調整方法。
3. The sound quality adjustment of synthetic speech according to claim 1, wherein the language information includes part-of-speech information, and the sound source aperture parameter of the sound source parameters is controlled based on the part-of-speech information. Method.
【請求項4】 前記言語情報は活用情報を含み、前記活
用情報に基づいて前記音源パラメータのうち音源開口度
パラメータを制御することを特徴とする請求項1または
2に記載の合成音声の音質調整方法。
4. The sound quality adjustment of synthetic speech according to claim 1, wherein the language information includes utilization information, and a sound source opening degree parameter of the sound source parameters is controlled based on the utilization information. Method.
【請求項5】 前記言語情報は品詞情報を含み、前記品
詞情報に基づいて前記声道パラメータのうちホルマント
中心周波数パラメータを制御することを特徴とする請求
項1または2に記載の合成音声の音質調整方法。
5. The sound quality of synthetic speech according to claim 1, wherein the language information includes part-of-speech information, and the formant center frequency parameter of the vocal tract parameters is controlled based on the part-of-speech information. Adjustment method.
【請求項6】 前記言語情報は活用情報を含み、前記活
用情報に基づいて前記声道パラメータのうちホルマント
中心周波数パラメータを制御することを特徴とする請求
項1または2に記載の合成音声の音質調整方法。
6. The sound quality of synthetic speech according to claim 1, wherein the language information includes utilization information, and the formant center frequency parameter of the vocal tract parameters is controlled based on the utilization information. Adjustment method.
【請求項7】 前記言語情報は品詞情報を含み、前記品
詞情報に基づいて前記声道パラメータのうちホルマント
バンド幅パラメータを制御することを特徴とする請求項
1または2に記載の合成音声の音質調整方法。
7. The sound quality of synthetic speech according to claim 1, wherein the language information includes part-of-speech information, and the formant bandwidth parameter of the vocal tract parameters is controlled based on the part-of-speech information. Adjustment method.
【請求項8】 前記言語情報は活用情報を含み、前記活
用情報に基づいて前記声道パラメータのうちホルマント
バンド幅パラメータを制御することを特徴とする請求項
1または2に記載の合成音声の音質調整方法。
8. The sound quality of synthetic speech according to claim 1, wherein the language information includes utilization information, and a formant bandwidth parameter of the vocal tract parameters is controlled based on the utilization information. Adjustment method.
【請求項9】 声道パラメータと音源パラメータとに基
づいて音声を合成する音声合成装置において、発音記号
列と言語情報との少なくともどちらか一方に基づいて韻
律情報を生成する韻律制御手段と、前記言語情報に基づ
いて前記声道パラメータと前記音源パラメータとの少な
くともどちらか一方を制御して声質を変換し、前記発音
記号列と前記韻律情報とに基づいて音声を合成する音声
生成手段を備えた音声合成装置。
9. A voice synthesizer for synthesizing a voice based on a vocal tract parameter and a sound source parameter, and prosody control means for generating prosody information based on at least one of a phonetic symbol string and language information, A voice generation means is provided for controlling at least one of the vocal tract parameter and the sound source parameter based on language information to convert a voice quality, and synthesizing a voice based on the phonetic symbol string and the prosody information. Speech synthesizer.
【請求項10】 声道パラメータと音源パラメータとに
基づいて音声を合成する音声合成装置において、発音記
号列と言語情報と意味情報との少なくともいずれか一つ
に基づいて韻律情報を生成する韻律制御手段と、前記言
語情報と前記意味情報との少なくともいずれか一つに基
づいて前記声道パラメータと前記音源パラメータとの少
なくともいずれか一つを制御して声質を変換し、前記発
音記号列と前記韻律情報とに基づいて音声を合成する音
声生成手段を備えた音声合成装置。
10. A prosody control device for producing prosody information based on at least one of a phonetic symbol string, language information, and semantic information in a voice synthesis device for synthesizing a voice based on a vocal tract parameter and a sound source parameter. Means for controlling the voice quality by controlling at least one of the vocal tract parameter and the sound source parameter based on at least one of the language information and the semantic information, the phonetic symbol string and the A voice synthesis device comprising a voice generation means for synthesizing a voice based on prosody information.
JP2001333991A 2001-10-31 2001-10-31 Synthetic speech quality adjustment method and speech synthesizer Expired - Lifetime JP3900892B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001333991A JP3900892B2 (en) 2001-10-31 2001-10-31 Synthetic speech quality adjustment method and speech synthesizer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001333991A JP3900892B2 (en) 2001-10-31 2001-10-31 Synthetic speech quality adjustment method and speech synthesizer

Publications (3)

Publication Number Publication Date
JP2003140678A true JP2003140678A (en) 2003-05-16
JP2003140678A5 JP2003140678A5 (en) 2005-04-07
JP3900892B2 JP3900892B2 (en) 2007-04-04

Family

ID=19149186

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001333991A Expired - Lifetime JP3900892B2 (en) 2001-10-31 2001-10-31 Synthetic speech quality adjustment method and speech synthesizer

Country Status (1)

Country Link
JP (1) JP3900892B2 (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005050624A1 (en) * 2003-11-21 2005-06-02 Matsushita Electric Industrial Co., Ltd. Voice changer
JP2005266085A (en) * 2004-03-17 2005-09-29 Advanced Telecommunication Research Institute International Speech synthesizer, character allocating device, and computer program
JP2006208600A (en) * 2005-01-26 2006-08-10 Brother Ind Ltd Voice synthesizing apparatus and voice synthesizing method
JP2006292930A (en) * 2005-04-08 2006-10-26 Yamaha Corp Voice synthesizer and voice synthesis program
JP2011203761A (en) * 2011-07-12 2011-10-13 Yamaha Corp Voice synthesizer and voice synthesis program
WO2013018294A1 (en) * 2011-08-01 2013-02-07 パナソニック株式会社 Speech synthesis device and speech synthesis method
JP2019179064A (en) * 2018-03-30 2019-10-17 日本放送協会 Voice synthesizing device, voice model learning device, and program therefor

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005050624A1 (en) * 2003-11-21 2005-06-02 Matsushita Electric Industrial Co., Ltd. Voice changer
JP2005266085A (en) * 2004-03-17 2005-09-29 Advanced Telecommunication Research Institute International Speech synthesizer, character allocating device, and computer program
JP4617494B2 (en) * 2004-03-17 2011-01-26 株式会社国際電気通信基礎技術研究所 Speech synthesis apparatus, character allocation apparatus, and computer program
JP2006208600A (en) * 2005-01-26 2006-08-10 Brother Ind Ltd Voice synthesizing apparatus and voice synthesizing method
JP2006292930A (en) * 2005-04-08 2006-10-26 Yamaha Corp Voice synthesizer and voice synthesis program
JP2011203761A (en) * 2011-07-12 2011-10-13 Yamaha Corp Voice synthesizer and voice synthesis program
WO2013018294A1 (en) * 2011-08-01 2013-02-07 パナソニック株式会社 Speech synthesis device and speech synthesis method
JP5148026B1 (en) * 2011-08-01 2013-02-20 パナソニック株式会社 Speech synthesis apparatus and speech synthesis method
US9147392B2 (en) 2011-08-01 2015-09-29 Panasonic Intellectual Property Management Co., Ltd. Speech synthesis device and speech synthesis method
JP2019179064A (en) * 2018-03-30 2019-10-17 日本放送協会 Voice synthesizing device, voice model learning device, and program therefor
JP7033478B2 (en) 2018-03-30 2022-03-10 日本放送協会 Speech synthesizer, speech model learning device and their programs

Also Published As

Publication number Publication date
JP3900892B2 (en) 2007-04-04

Similar Documents

Publication Publication Date Title
US7565291B2 (en) Synthesis-based pre-selection of suitable units for concatenative speech
JPH06332494A (en) Apparatus for enhancement of voice comprehension in translation of voice from first language into second language
JP3587048B2 (en) Prosody control method and speech synthesizer
US7280969B2 (en) Method and apparatus for producing natural sounding pitch contours in a speech synthesizer
JP2003140678A (en) Voice quality control method for synthesized voice and voice synthesizer
JPH05113795A (en) Voice synthesizing device
JPH0887297A (en) Voice synthesis system
JP2003140678A5 (en)
JPH08335096A (en) Text voice synthesizer
JPH07200554A (en) Sentence read-aloud device
JP3113101B2 (en) Speech synthesizer
JP2703253B2 (en) Speech synthesizer
JP4056647B2 (en) Waveform connection type speech synthesis apparatus and method
JP3883780B2 (en) Speech synthesizer
JP3192981B2 (en) Text-to-speech synthesizer
JPH06161490A (en) Rhythm processing system of speech synthesizing device
JPH02247696A (en) Text voice synthesizer
JPH1011083A (en) Text voice converting device
JP3088211B2 (en) Basic frequency pattern generator
JPH01321496A (en) Speech synthesizing device
JP2578876B2 (en) Text-to-speech device
JPH09134195A (en) Speech synthesizer
JPH04243299A (en) Voice output device
JPH08211896A (en) System and device for editing speech synthesis
JPH08160990A (en) Speech synthesizing device

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040517

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040517

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20050701

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060314

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060322

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060419

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061225

R151 Written notification of patent or utility model registration

Ref document number: 3900892

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110112

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110112

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120112

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130112

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130112

Year of fee payment: 6

EXPY Cancellation because of completion of term