JPH03141399A - Voice parameter coupling system - Google Patents
Voice parameter coupling systemInfo
- Publication number
- JPH03141399A JPH03141399A JP1280816A JP28081689A JPH03141399A JP H03141399 A JPH03141399 A JP H03141399A JP 1280816 A JP1280816 A JP 1280816A JP 28081689 A JP28081689 A JP 28081689A JP H03141399 A JPH03141399 A JP H03141399A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- parameters
- connection
- frame
- point position
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008878 coupling Effects 0.000 title abstract 2
- 238000010168 coupling process Methods 0.000 title abstract 2
- 238000005859 coupling reaction Methods 0.000 title abstract 2
- 238000000034 method Methods 0.000 claims abstract description 17
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 6
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 6
- 238000010586 diagram Methods 0.000 description 3
- 206010011469 Crying Diseases 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 235000009508 confectionery Nutrition 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001915 proofreading effect Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Abstract
Description
【発明の詳細な説明】
援1笈ル
本発明は、規則音声合成装置の音声パラメータ結合方式
に関する。DETAILED DESCRIPTION OF THE INVENTION The present invention relates to a speech parameter combination method for a regular speech synthesizer.
k米伎排
ワードプロセッサや翻訳装置など、コンピュータによる
日本語処理が普及するにつれて、任意音声を出力する装
置の必要性が高まってきた。As the use of computers to process Japanese, such as word processors and translation devices, has become widespread, the need for devices that can output arbitrary speech has increased.
音声出力装置では、合成音声が明瞭であること、流暢で
聞きやすいこと、豊かな音質であること、などが要求さ
れる。しかしながら、任意音声合成の技術には未解決の
問題が多く、合成音声には明瞭性に欠けるとか、日本語
らしいリズム感に乏しいとかの難点があった。Speech output devices are required to have synthesized speech that is clear, fluent and easy to listen to, and has rich sound quality. However, there are many unresolved problems with arbitrary speech synthesis technology, such as the synthesized speech lacking clarity and the sense of rhythm typical of Japanese.
規則音声合成のための音声パラメータ結合方式としては
、従来、例えば、■「箱出、石川、LSi) −CV方
式におけるパラメータ結合法の検討。As a speech parameter combination method for regular speech synthesis, for example, ① "Hakode, Ishikawa, LSi) - Study of parameter combination method in CV method.
日本音響学会講演論文集l−2−18(昭和58年10
月」、■「新居、CV音節配置規則を用いたLSP−C
V規則音声合成、電子情報通信学会論文誌、V01j7
0−A、N(15,PP836−843」、■「斉藤、
大嶋、素片の適用変形を用いた規則音声合成、日本音響
学会講演論文集3−4−11 (昭和61年10月)j
等が知られており、■では、素片間のパラメータを直線
で接続するようにしており(ただし、音韻の種類によっ
て適切な接続点の位置を設定する)、■では、後続素片
の先頭近くにバイアス’7 L/−ムを設定し、それ以
前のフレームのパラメータをバイアスフレームのパラメ
ータで置き換えて接続するようにしており、■では、直
線接続ではなく、適用変形関数によって滑らかなパラメ
ータ変化を実現するようにしている。Acoustical Society of Japan Proceedings l-2-18 (October 1982)
``Moon'', ■``Arai, LSP-C using CV syllable placement rules
V-rule speech synthesis, Journal of the Institute of Electronics, Information and Communication Engineers, V01j7
0-A, N (15, PP836-843”, ■ “Saito,
Oshima, Ruled Speech Synthesis Using Applied Deformation of Elements, Proceedings of the Acoustical Society of Japan 3-4-11 (October 1986) j
etc. are known. In ■, the parameters between the segments are connected with a straight line (however, the position of the connection point is set appropriately depending on the type of phoneme), and in ■, the beginning of the subsequent segment is connected. A bias '7 L/- frame is set nearby, and the parameters of the previous frame are replaced with the parameters of the bias frame and connected. We are trying to realize this.
而して、素片間の音声パラメータの接続における主な課
題は2つあり、そのひとつは音韻性を明瞭に表現できる
こと、もうひとつは滑らか素片を接続することである。Therefore, there are two main challenges in connecting speech parameters between segments: one is to be able to clearly express phonology, and the other is to connect smooth segments.
多くの場合この2つは相反する要求であり、両方同時に
完全に満足することは難しい。上述の従来技術では、い
ずれも、両方の要求がほどほどに満足される接続方法や
パラメータを設定せざるを得ない。しかし、この2つの
要求のバランスは合成音声の使用目的、合成音声に要求
される口調、合成音声に要求される話者特性などによっ
て異なるのが普通である。例えば、原稿の読み合わせに
よる校閲に使用する場合は滑らかさは犠牲にしても音韻
をはっきりと発音しなければならない。また、長文を聞
き取ってその大意を把握することが目的ならば音韻性は
それほど重要でないが、滑らかでない音声の長時間の聴
取は受聴者の疲労を呼ぶ。In many cases, these two requirements are contradictory, and it is difficult to completely satisfy both at the same time. In all of the above-mentioned conventional techniques, it is necessary to set connection methods and parameters that moderately satisfy both requirements. However, the balance between these two requirements usually differs depending on the purpose of use of the synthesized voice, the tone required of the synthesized voice, the speaker characteristics required of the synthesized voice, etc. For example, when using it for proofreading a manuscript, it is necessary to pronounce the phonemes clearly, even at the expense of smoothness. Furthermore, if the purpose is to listen to a long sentence and understand its meaning, phonology is not so important, but listening to unsmooth speech for a long time causes listeners to become fatigued.
狙 的−
本発明は、上述のごとき実情に鑑みてなされたもので、
特に、合成音声の明瞭性と滑らかさを状況にあったバラ
ンスで実現することを目的としてなされたものである。Aim - The present invention was made in view of the above-mentioned circumstances, and
In particular, this was done with the aim of achieving a balance between clarity and smoothness of synthesized speech that suits the situation.
市1−−虞
本発明は、上記目的を達成するために、予め用意した音
声素片のパラメータ系列を音韻・韻律を表現する入力記
号列に従って読みだし、音声パラメータ結合規則によっ
て前記音声素片パラメータ系列を接続し、韻律制御規則
によって韻律を付加して音声を合成する規則音声合成装
置において、音声パラメータ結合の際の接続方法、接続
点位置等の接続パラメータを記憶したテーブルに用意し
、複数記憶したテーブルの中から、合成音声の発話速度
1合成音声の使用目的、合成音声に要求される口調、合
成音声に要求される話者特性などによって、異なるテー
ブルを選択的に用いて音声パラメータを結合することを
特徴としたものである。In order to achieve the above object, the present invention reads out a parameter sequence of a speech segment prepared in advance according to an input symbol string expressing phoneme/prosody, and adjusts the speech segment parameters by a speech parameter combination rule. In a regular speech synthesizer that connects sequences and synthesizes speech by adding prosody according to prosody control rules, connection parameters such as connection method and connection point position when combining speech parameters are prepared in a table and multiple storage methods are used. Speech parameters are combined by selectively using different tables from among the tables created, depending on the purpose of use of the synthesized voice, the tone required for the synthesized voice, the speaker characteristics required for the synthesized voice, etc. It is characterized by
以下、本発明の実施例に基いて説明する。Hereinafter, the present invention will be explained based on examples.
第1図は、本発明の一実施例を説明するためのフローチ
ャートで、以下、第1図に添って具体的な処理の流れを
説明する。FIG. 1 is a flowchart for explaining one embodiment of the present invention, and the specific process flow will be explained below with reference to FIG.
まず、合成音声の使用目的、合成音声に要求される口調
、合成音声に要求される話者特性などによってテーブル
番号tを設定する。ここで合成音声の使用目的とは、例
えば「受聴者への何らかの教育あるいは指示」、「ニュ
ースやデータベースなどの情報の正確な伝達」、「非常
時の警報あるい誘導」、「人間との対話」、などである
。合成音声に要求される口調とは例えば「命令調ノ、「
質問間」、「朗読調」、「泣きそうな話し方」、「甘え
た話し方」、「怒りを含んだ話し方」などである。合成
音声に要求される話者特性とは「性別」、「年齢」、「
出身地」、「特定の職業(バスガイド、落語家、アナウ
ンサーなど)に特有の話し方」、「特定の個人」などで
ある。First, the table number t is set based on the purpose of use of the synthesized speech, the tone required for the synthesized speech, the speaker characteristics required for the synthesized speech, etc. Here, the purposes of using synthesized speech include, for example, ``some kind of education or instructions to listeners,'' ``accurate transmission of information such as news and databases,'' ``emergency warnings or guidance,'' and ``dialogue with humans.'' ”, etc. The tone required for synthesized speech is, for example, "command tone,"
These include ``between questions'', ``reading tone'', ``speech that makes one feel like crying'', ``speech that is sweet'', and ``speech that is filled with anger''. The speaker characteristics required for synthesized speech include "gender", "age", and "
Examples include ``place of birth'', ``a way of speaking unique to a specific occupation (bus guide, rakugo storyteller, announcer, etc.)'', ``a specific individual'', etc.
また、テーブルとは素片接続の際の接続点の位置や接続
方法などの接続パラメータを記憶したものである。Further, the table stores connection parameters such as the position of connection points and connection method when connecting the pieces.
第2図に、これらの接続パラメータの例を示す。FIG. 2 shows an example of these connection parameters.
第2図でAは先行素片、Bは後続素片、■は接続部分を
表わす。また、N、は#の部分のフレーム数を表わす。In FIG. 2, A represents a preceding elemental piece, B represents a subsequent elemental piece, and ■ represents a connecting part. Further, N represents the number of frames in the # portion.
第3図(a)、(b)は、それぞれ状況や特性によって
複数用意したテーブルの例を示す図で、ここで、テーブ
ルに記憶した接続パラメータについて説明すると、aは
先行素片の接続点位置を最終フレームからのフレーム数
で表わしたものであり、bは後続素片の接続点位置を先
頭フレームからのフレーム数で表わしたものであり、f
は接続の方法を補間関数で表わしたものである。Figures 3(a) and 3(b) are diagrams showing examples of multiple tables prepared depending on the situation and characteristics, respectively.Here, to explain the connection parameters stored in the table, a is the connection point position of the preceding segment. is expressed as the number of frames from the last frame, b is the connection point position of the subsequent segment expressed as the number of frames from the first frame, and f
represents the connection method using an interpolation function.
上述のようなそれぞれの状況や特性に対して最も適切な
接続パラメータを決定し、それぞれに対応するテーブル
を用意しておく。Determine the most appropriate connection parameters for each situation and characteristic as described above, and prepare tables corresponding to each.
この後、接続部分の第iフレーム(0≦l < N I
)における音声パラメータを次式によって計算する。After this, the i-th frame of the connection part (0≦l<N I
) is calculated by the following formula.
なお、X[#]は第iフレームにおけるXの音声パラメ
ータを意味するものとする。この時の接続方法や接続点
位置などの接続パラメータは合成音声の使用目的、合成
音声に要求される口調、合成音声に要求される話者特性
などの特性ごとに、複数のテーブルとして記憶装置に蓄
えられているもののテーブル番号しによって選択をして
使用する。Note that X[#] means the audio parameter of X in the i-th frame. At this time, connection parameters such as the connection method and connection point position are stored in the storage device as multiple tables for each characteristic such as the purpose of use of the synthesized voice, the tone required for the synthesized voice, and the speaker characteristics required for the synthesized voice. Select and use the stored items based on the table number.
さらに、韻律パターンを設定し、ディジタルフィルタ等
によって音声信号を合成し、D/A変換器によって合成
音声を得るが、これらの方法は公知であるので詳しい説
明は省略する。Furthermore, a prosody pattern is set, audio signals are synthesized using a digital filter, etc., and synthesized speech is obtained using a D/A converter, but since these methods are well known, detailed explanation will be omitted.
努−一末
以」二の説明から明らかなように、本発明によると、合
成音声の使用目的、合成音声に要求される口調、合成音
声に要求される話者特性などに応じて、複数の異なるテ
ーブルを選択的に用いて素片間の音声パラメータを結合
することにより、発声[1的6ロ調、話者特性などによ
って異なる自然性・明瞭性への要求をみたす音声が合成
できる。As is clear from the explanation in Section 2, according to the present invention, a plurality of speech patterns can be used depending on the purpose of use of the synthesized speech, the tone required for the synthesized speech, the speaker characteristics required for the synthesized speech, etc. By selectively using different tables to combine the speech parameters between segments, it is possible to synthesize speech that satisfies different demands for naturalness and clarity depending on the utterance [1-6 B key, speaker characteristics, etc.].
第1図は、本発明の一実施例を説明するためのフローチ
ャート、第2図は、接続パラメータの例を示す図、第3
図(a)、(b)は、それぞれ接続パラメータを記憶し
たテーブルを示す図である。FIG. 1 is a flowchart for explaining one embodiment of the present invention, FIG. 2 is a diagram showing an example of connection parameters, and FIG.
Figures (a) and (b) are diagrams showing tables storing connection parameters, respectively.
Claims (1)
律を表現する入力記号列に従って読みだし、音声パラメ
ータ結合規則によって前記音声素片パラメータ系列を接
続し、韻律制御規則によって韻律を付加して音声を合成
する規則音声合成装置において、音声パラメータ結合の
際の接続方法、接続点位置等の接続パラメータを記憶し
たテーブルに用意し、複数記憶したテーブルの中から、
合成音声の発話速度、合成音声の使用目的、合成音声に
要求される口調、合成音声に要求される話者特性などに
よって、異なるテーブルを選択的に用いて音声パラメー
タを結合することを特徴とする音声パラメータ結合方式
。1. Read out the parameter series of speech segments prepared in advance according to input symbol strings expressing phoneme and prosody, connect the speech segment parameter series using speech parameter combination rules, and add prosody using prosody control rules to create speech. In a rule speech synthesis device that synthesizes speech parameters, a table is prepared that stores connection parameters such as connection method and connection point position when combining speech parameters, and from among the multiple stored tables,
It is characterized by selectively using different tables to combine voice parameters depending on the speech rate of the synthesized voice, the purpose of use of the synthesized voice, the tone required for the synthesized voice, the speaker characteristics required for the synthesized voice, etc. Audio parameter combination method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1280816A JPH03141399A (en) | 1989-10-27 | 1989-10-27 | Voice parameter coupling system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1280816A JPH03141399A (en) | 1989-10-27 | 1989-10-27 | Voice parameter coupling system |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH03141399A true JPH03141399A (en) | 1991-06-17 |
Family
ID=17630378
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP1280816A Pending JPH03141399A (en) | 1989-10-27 | 1989-10-27 | Voice parameter coupling system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH03141399A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0695692A (en) * | 1992-09-14 | 1994-04-08 | A T R Jido Honyaku Denwa Kenkyusho:Kk | Speech synthesizer |
-
1989
- 1989-10-27 JP JP1280816A patent/JPH03141399A/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0695692A (en) * | 1992-09-14 | 1994-04-08 | A T R Jido Honyaku Denwa Kenkyusho:Kk | Speech synthesizer |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101578659B (en) | Voice tone converting device and voice tone converting method | |
Murray et al. | Synthesizing emotions in speech: Is it time to get excited? | |
JP2004525412A (en) | Runtime synthesis device adaptation method and system for improving intelligibility of synthesized speech | |
JP3089715B2 (en) | Speech synthesizer | |
JP2005070430A (en) | Speech output device and method | |
JPH0452501B2 (en) | ||
JPH03141399A (en) | Voice parameter coupling system | |
JPH0549998B2 (en) | ||
JPH11249679A (en) | Voice synthesizer | |
JPH08248993A (en) | Controlling method of phoneme time length | |
JP3282151B2 (en) | Voice control method | |
JP2894447B2 (en) | Speech synthesizer using complex speech units | |
JPH0642158B2 (en) | Speech synthesizer | |
JP2577372B2 (en) | Speech synthesis apparatus and method | |
Hinterleitner et al. | Speech synthesis | |
JP2987089B2 (en) | Speech unit creation method, speech synthesis method and apparatus therefor | |
JPH08328575A (en) | Voice synthesizer | |
JP2703253B2 (en) | Speech synthesizer | |
JPH113096A (en) | Method and system of speech synthesis | |
JPS6325700A (en) | Long vowel connection | |
JPS62215299A (en) | Sentence reciting apparatus | |
JPS6432299A (en) | Unit voice editing type rule synthesizer | |
JPS63285596A (en) | Speech speed altering system for voice synthesization | |
JPS6024596A (en) | Voice synthesizer | |
JPH09244680A (en) | Device and method for rhythm control |