JP2023044436A - Synthetic voice generation data forming method, synthetic voice generation method, and synthetic voice generation device - Google Patents
Synthetic voice generation data forming method, synthetic voice generation method, and synthetic voice generation device Download PDFInfo
- Publication number
- JP2023044436A JP2023044436A JP2021152468A JP2021152468A JP2023044436A JP 2023044436 A JP2023044436 A JP 2023044436A JP 2021152468 A JP2021152468 A JP 2021152468A JP 2021152468 A JP2021152468 A JP 2021152468A JP 2023044436 A JP2023044436 A JP 2023044436A
- Authority
- JP
- Japan
- Prior art keywords
- pause
- text
- data
- synthetic speech
- pause length
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
Description
本開示は、合成音声生成用データ形成方法、合成音声生成方法及び合成音声生成装置に関する。 The present disclosure relates to a synthetic speech generation data formation method, a synthetic speech generation method, and a synthetic speech generation device.
近年、テキストデータを音声データに変換して発話する技術を用いた様々なサービスが提供されている。このために、テキストデータから合成音声データを生成する様々な技術が用いられており、例えば人間が発生した音声データを含む大規模な音声データベースである音声コーパスを用いたコーパスベース音声合成が広く用いられている(特許文献1参照)。コーパスベース音声合成では、人によって発声された音声データを所定単位に分けてデータベースに蓄積し、音声合成の際にデータベースから抽出した所定単位の音声データを連結して合成音声データを生成している(例えば、特許文献1参照)。 2. Description of the Related Art In recent years, various services using a technique of converting text data into voice data and uttering the data have been provided. For this purpose, various techniques have been used to generate synthetic speech data from text data. (see Patent Document 1). In corpus-based speech synthesis, speech data uttered by a person is divided into predetermined units and stored in a database, and synthesized speech data is generated by concatenating the predetermined units of speech data extracted from the database during speech synthesis. (See Patent Document 1, for example).
しかしながら、上述した音声合成方法では、人によって発声された所定単位の音声データを連携しているものの、依然として人が文字を読み上げた様な自然な発話の合成音声には至っておらず、不自然な合成音声が生成される場合がある。
本開示は、より自然な発話の合成音声を生成する合成音声生成用データ形成方法、合成音声生成方法及び合成音声生成装置を提供することにある。
However, in the speech synthesis method described above, although a predetermined unit of speech data uttered by a person is linked, it still does not lead to synthesized speech of natural utterances such as those read out by a person, and unnatural speech is produced. Synthetic speech may be generated.
An object of the present disclosure is to provide a synthetic speech generation data formation method, a synthetic speech generation method, and a synthetic speech generation apparatus that generate synthetic speech of more natural utterance.
上記課題を解決するために、本開示の一態様に係る合成音声生成用データ形成方法は、テキストデータ中のテキストに含まれる記号及びテキストのうち所定の条件を満たす位置をポーズ位置としてポーズ長を割り当て、ポーズ位置に、ポーズ長を示すポーズ長情報を挿入した合成音声生成用データを形成する。 In order to solve the above problems, a synthetic speech generation data formation method according to an aspect of the present disclosure sets a pause length as a pause position that satisfies a predetermined condition among symbols and text included in text in text data. Data for generating synthesized speech is formed by inserting pause length information indicating the length of the pause at the assigned pause position.
上記課題を解決するために、本開示の一態様に係る合成音声生成方法は、テキストデータに対応するテキストの所定のポーズが入るポーズ位置にポーズの長さを示すポーズ長情報が挿入された合成音声生成用データを取得し、テキストデータに対応する文章を発音表記に変換し、発音表記を用いて、抑揚及び持続時間の韻律情報を生成し、人間が発生した合成単位ごとの音声データを含む音声データベースから、発音表記に対応する合成単位を選択し、合成音声生成用データに含まれるポーズ位置にポーズ長情報に対応する長さのポーズを介して合成単位を連結するとともに、韻律情報を付加して合成音声を生成する。 In order to solve the above problems, a synthesized speech generation method according to an aspect of the present disclosure provides a synthesized speech in which pause length information indicating the length of a pause is inserted at a pause position where a predetermined pause of text corresponding to text data is inserted. Acquire speech generation data, convert sentences corresponding to text data into phonetic notation, use phonetic notation to generate prosodic information of intonation and duration, and include speech data for each human-generated synthesis unit Select a synthesis unit corresponding to the phonetic notation from the speech database, connect the synthesis unit to the pause position included in the synthetic speech generation data via a pause of a length corresponding to the pause length information, and add prosody information to generate synthesized speech.
上記課題を解決するために、本開示の一態様に係る合成音声生成装置は、テキストデータに対応するテキストの所定のポーズが入るポーズ位置にポーズの長さを示すポーズ長情報が挿入された合成音声生成用データを取得する合成音声生成用データ取得部と、テキストデータに対応する文章を発音表記に変換する発音表記変換部と、発音表記変換部から取得した発音表記を用いて、文章の抑揚及び持続時間の韻律情報を生成する韻律処理部と、人間が発生した合成単位ごとの音声データを含む音声データベースから、発音表記変換部から取得した発音表記に対応する合成単位を選択し、合成音声生成用データに含まれるポーズ位置にポーズ長情報に対応する長さのポーズを介して合成単位を連結するとともに、韻律情報を付加して合成音声を生成する音声合成部と、を備えている。 In order to solve the above problems, a synthesized speech generation apparatus according to an aspect of the present disclosure provides synthesis in which pause length information indicating the length of a pause is inserted at a pause position where a predetermined pause of text corresponding to text data is inserted. Synthetic speech generation data acquisition unit for acquiring data for speech generation, phonetic transcription conversion unit for converting sentences corresponding to text data into phonetic transcription, and sentence intonation using the phonetic transcription acquired from the phonetic transcription conversion unit and a prosody processing unit that generates prosody information of duration, and a synthesis unit corresponding to the phonetic notation acquired from the phonetic notation conversion unit from a speech database that includes human-generated speech data for each synthesis unit, and synthesized speech. a speech synthesizing unit that connects a synthesis unit to a pause position included in the generation data via a pause having a length corresponding to the pause length information, and adds prosody information to generate synthesized speech.
本開示の態様によれば、より自然な発話の合成音声を生成する合成音声生成用データ形成方法、合成音声生成方法及び合成音声生成装置を提供することができる。 According to aspects of the present disclosure, it is possible to provide a synthetic speech generation data formation method, a synthetic speech generation method, and a synthetic speech generation device that generate synthetic speech of more natural utterance.
以下、実施形態を通じて本開示を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。また、図面は特許請求の範囲にかかる発明を模式的に示すものであり、各部の構成及び機能は現実の方法及び装置とは異なる。 Hereinafter, the present disclosure will be described through embodiments, but the following embodiments do not limit the invention according to the claims. Also, not all combinations of features described in the embodiments are essential for the solution of the invention. Moreover, the drawings schematically show the invention according to the claims, and the configuration and function of each part are different from the actual method and apparatus.
1.第一実施形態
以下、第一実施形態に係る合成音声生成用データ形成方法について説明する。また、第一実施形態では合成音声生成用データ形成方法をコンピュータに実行させる合成音声生成用データ形成プログラム及び合成音声生成用データ形成装置について説明する。
1. First Embodiment Hereinafter, a synthetic speech generating data forming method according to the first embodiment will be described. In the first embodiment, a synthetic speech generation data formation program and a synthetic speech generation data formation device for causing a computer to execute a synthetic speech generation data formation method will be described.
(1.1)合成音声生成用データ形成方法
第一実施形態に係る合成音声生成用データ形成方法について説明する。
第一実施形態に係る合成音声生成用データ形成方法は、少なくとも以下の方法により実行される。
(A)テキストデータ中のテキストに含まれる記号及び前記テキストのうち所定の条件を満たす位置をポーズ位置としてポーズ長を割り当てる
(B)テキストのポーズ位置に、ポーズ長を示すポーズ長情報を挿入した合成音声生成用データを形成する
以上により、テキストの所定の位置に適切な長さのポーズを示すポーズ長情報が挿入された合成音声生成用データが形成される。このような合成音声生成用データを用いて音声合成を行った場合、合成音声でありながらより自然な発話の合成音声を生成することができる。
ポーズ長情報は、例えば以下のようなポーズ長を有する。
(1.1) Synthetic Speech Generation Data Formation Method A synthetic speech generation data formation method according to the first embodiment will be described.
The synthetic speech generation data forming method according to the first embodiment is executed at least by the following method.
(A) Symbols included in text in text data and positions satisfying predetermined conditions in the text are assigned pause lengths as pause positions. (B) Pause length information indicating the pause length is inserted into the pause positions of the text. Formation of Data for Synthetic Speech Generation As described above, data for synthetic speech generation in which pause length information indicating a pause of an appropriate length is inserted at a predetermined position of the text is formed. When speech synthesis is performed using such data for generating synthetic speech, it is possible to generate synthesized speech that is more natural and uttered.
The pause length information has, for example, the following pause lengths.
(読点)
本実施形態に係る合成音声生成用データ形成方法では、テキストに含まれる記号が読点(、)である場合には、読点の直後にポーズ長として第1のポーズ長を示すポーズ長情報を挿入することが好ましい。
第1のポーズ長は、例えば300msec以上500msec以下であることが好ましく、350msec以上450msec以下であることがより好ましく、例えば400msecである。
(reading point)
In the data forming method for generating synthetic speech according to the present embodiment, when the symbol included in the text is a comma (,), pause length information indicating the first pause length is inserted immediately after the comma. is preferred.
The first pause length is, for example, preferably 300 msec to 500 msec, more preferably 350 msec to 450 msec, for example 400 msec.
本実施形態に係る合成音声生成用データ形成方法では、テキストに含まれる記号が句点(。)である場合には、句点の直後にポーズ長として第1のポーズ長よりも長い第2のポーズ長を示すポーズ長情報を挿入することが好ましい。
第2のポーズ長は、例えば900msec以上1500msec以下であることが好ましく、900msec以上1100msec以下であることがより好ましく、例えば1000msecである。
句点の位置に、読点よりも長いポーズ長のポーズ長情報を挿入した合成音声生成用データを形成することにより、より自然な発話の合成音声を生成することができる。
In the method of forming data for generating synthetic speech according to the present embodiment, when the symbol included in the text is a period (.), a second pause length longer than the first pause length is set immediately after the period. It is preferable to insert pause length information indicating
The second pause length is, for example, preferably 900 msec or more and 1500 msec or less, more preferably 900 msec or more and 1100 msec or less, for example 1000 msec.
By forming synthetic speech generation data in which pause length information having a longer pause length than the reading point is inserted at the position of the period, synthetic speech of more natural utterance can be generated.
また、本実施形態に係る合成音声生成用データ形成方法では、テキストデータ中の鉤括弧(「」)で示される記号同士の間に位置するテキストに含まれる記号が読点(、)である場合には、鉤括弧同士の間に位置する読点の直後に、ポーズ長として第1のポーズ長(鉤括弧の外に位置する句点のポーズ長)よりも短い第3のポーズ長を示すポーズ長情報を挿入することが好ましい。
第3のポーズ長は、例えば150msec以上300msec以下であることが好ましく、150msec以上250msec以下であることがより好ましく、例えば200msecである。
In addition, in the method of forming data for generating synthetic speech according to the present embodiment, if the symbol included in the text located between the symbols indicated by the brackets (“”) in the text data is a comma (,), puts pause length information indicating a third pause length, which is shorter than the first pause length (the pause length of the full stop located outside the brackets), immediately after the comma located between the brackets. preferably inserted.
The third pause length is, for example, preferably 150 msec or more and 300 msec or less, more preferably 150 msec or more and 250 msec or less, and is, for example, 200 msec.
また、本実施形態に係る合成音声生成用データ形成方法では、鉤括弧(「」)同士の間に位置するテキストに含まれる記号が句点(。)である場合には、鉤括弧同士の間に位置する句点の直後に、ポーズ長として第2のポーズ長(鉤括弧の外に位置する読点のポーズ長)よりも短い第4のポーズ長を示すポーズ長情報を挿入することが好ましい。
第4のポーズ長は、例えば450msec以上900msec以下であることが好ましく、650msec以上750msec以下であることがより好ましく、例えば700msecである。
鉤括弧で示される記号同士の間に位置するテキストは、セリフ等を示すテキストである場合が多い。このため、鉤括弧内の句点や読点の位置におけるポーズ長を鉤括弧外の句点や読点の位置におけるポーズ長よりもそれぞれ短くすることにより、合成音声とした際に鉤括弧内のテキストに対応する音声中のポーズを短くして、さらに自然な発話の合成音声とすることができる。
Further, in the method of forming synthetic speech generation data according to the present embodiment, when the symbol included in the text located between the square brackets ("") is a full stop (.), Immediately after the positioned period, it is preferable to insert pause length information indicating a fourth pause length shorter than the second pause length (the pause length of the comma positioned outside the brackets) as the pause length.
The fourth pause length is, for example, preferably 450 msec to 900 msec, more preferably 650 msec to 750 msec, for example 700 msec.
The text located between the symbols indicated by the brackets is often the text indicating serifs or the like. For this reason, by making the pause length at the position of the period or comma inside the brackets shorter than the pause length at the position of the period or comma outside the brackets, the synthesized speech corresponds to the text inside the brackets. By shortening the pauses in the speech, it is possible to obtain synthesized speech with a more natural utterance.
(括弧等)
本実施形態に係る合成音声生成用データ形成方法では、テキストに含まれる記号が括弧である場合には、少なくとも括弧のうち前括弧(「)の直前にポーズ長として第5のポーズ長を示すポーズ長情報を挿入することが好ましい。ポーズ長情報は、前括弧の直前のみ、又は前括弧の直前及び後ろ括弧(」)の直後に挿入されることが好ましい。例えば括弧が連続する場合(例えば、」「等)には、前括弧の直前のみにポーズ長情報が挿入されることにより、前括弧(」)と後ろ括弧(「」との間にポーズ長情報が重複して挿入されることを防ぐことができる。
ここで、「括弧」とは、鉤括弧(二重鉤括弧を含む)、丸括弧、隅付き括弧、角括弧、波括弧等の各括弧をいう。
(parentheses, etc.)
In the method of forming data for generating synthesized speech according to the present embodiment, when the symbols included in the text are parentheses, at least a pause indicating the fifth pause length as the pause length immediately before the front parenthesis (") among the parentheses It is preferred to insert the length information, preferably the pause length information is inserted just before the front bracket, or just before the front bracket and after the back bracket ("). For example, when parentheses are consecutive (for example, "", etc.), the pause length information is inserted only immediately before the front parenthesis (") and the back parenthesis (""). can be prevented from being duplicated.
Here, "parentheses" refer to brackets such as brackets (including double brackets), round brackets, corner brackets, square brackets, and curly brackets.
第5のポーズ長は、例えば500msec以上1000msec以下であることが好ましく、500msec以上600msec以下であることがより好ましく、例えば500msecである。
上述したように、括弧で示される記号同士の間に位置するテキストは、例えばセリフや重要な事柄を説明する文言である場合が多い。このため、少なくとも括弧の直前にポーズ長情報を挿入することで、合成音声とした際に括弧内のテキストに対応する音声と、前後の音声との間にポーズを入れて、括弧内のテキストに対応する音声に聞き手の意識を集中しやすくして自然な発話の合成音声とすることができる。
The fifth pause length is, for example, preferably 500 msec to 1000 msec, more preferably 500 msec to 600 msec, for example 500 msec.
As mentioned above, the text located between the bracketed symbols is often, for example, a dialogue or a phrase explaining an important matter. For this reason, by inserting pause length information at least just before the parentheses, a pause is inserted between the speech corresponding to the text in the parentheses and the speech before and after the synthesized speech, so that the text in the parentheses Synthetic speech of natural utterance can be obtained by making it easier for the listener to concentrate on the corresponding speech.
(見出し)
本実施形態に係る合成音声生成用データ形成方法では、テキストが見出しである場合に、見出しの直後(所定の条件を満たす位置の一例)に、第6のポーズ長を示すポーズ長情報を挿入する。第6のポーズ長は、見出し以外のテキストの直前又は直後に挿入された他のポーズ長(すなわち、第1から第5のポーズ長)よりも長いことが好ましい。
第6のポーズ長は、例えば1500msec以上4500msec以下であることが好ましく、2000msec以上3000msec以下であることがより好ましい。テキストに複数種類の見出し(例えば、大見出し(例えば各章の冒頭の見出し)と小見出し)が含まれる場合、大見出し直後の第6のポーズ長を小見出し直後の第6のポーズ長よりも長くすることが好ましい。例えば、大見出し直後の第6のポーズ長を3000msecとし、小見出し直後の第6のポーズ長を2000msecとする。
このように、見出しの直後に比較的長いポーズを入れることで、見出しのテキストに対応する音声に聞き手の意識を集中しやすくして自然な発話の合成音声とすることができる。
(heading)
In the method of forming synthetic speech generation data according to the present embodiment, when the text is a headline, pause length information indicating the sixth pause length is inserted immediately after the headline (an example of a position that satisfies a predetermined condition). . The sixth pause length is preferably longer than the other pause lengths inserted immediately before or after the non-heading text (ie, the first through fifth pause lengths).
The sixth pause length is, for example, preferably 1500 msec to 4500 msec, more preferably 2000 msec to 3000 msec. If the text contains multiple types of headings (e.g. main headings (e.g. headings at the beginning of each chapter) and sub-headings), the 6th pause length immediately after the main headings should be longer than the 6th pause length immediately after the sub-headings. is preferred. For example, the length of the sixth pause immediately after the main headline is assumed to be 3000 msec, and the length of the sixth pause immediately after the small headline is assumed to be 2000 msec.
In this way, by inserting a relatively long pause immediately after the headline, it is possible to easily concentrate the attention of the listener on the speech corresponding to the text of the headline, and to produce natural synthesized speech.
(文章のまとまり)
本実施形態に係る合成音声生成用データ形成方法では、テキストが意味上のまとまりを有する場合、文章のまとまりの直後(所定の条件を満たす位置の一例)に、ポーズ長情報を挿入することが好ましい。ここで、「文章のまとまり」とは、例えば、一つの見出し内に記載されて関連する内容を説明する複数の文章をいう。このとき、文章のまとまりの直後には、見出し以外のテキストの直前又は直後に挿入された他のポーズ長(すなわち、第1から第5のポーズ長)よりも長い第7のポーズ長を示すポーズ長情報が挿入されることが好ましい。
(Summary of sentences)
In the method of forming data for generating synthetic speech according to the present embodiment, when the text has a semantic unity, it is preferable to insert the pause length information immediately after the unity of the sentence (an example of a position that satisfies a predetermined condition). . Here, a "group of sentences" means, for example, a plurality of sentences described in one heading and explaining related contents. At this time, immediately after the unity of sentences, a pause indicating a seventh pause length longer than the other pause lengths inserted immediately before or after the text other than the headline (that is, the first to fifth pause lengths) Long information is preferably inserted.
第7のポーズ長は、見出しと同程度であることが好ましく、見出しとして大見出しと小見出し等の複数種類の見出しが用いられている場合には比較的ポーズ長が短い小見出しよりも長いポーズ長を有することが好ましい。第7のポーズ長は、例えば2500msec以上4500msec以下であることが好ましく、3000msec以上4000msec以下であることがより好ましい。例えば、大見出し直後の第6のポーズ長が3000msecであり、小見出し直後の第6のポーズ長が2000msecである場合、第7のポーズ長は3000msecであることが好ましい。
このように、文章のまとまりの直後に比較的長いポーズを入れることで、テキストに対応する音声の内容の切れ目が聞き手に理解しやすくなり、自然な発話の合成音声とすることができる。
The seventh pose length is preferably about the same as the headline, and when multiple types of headlines such as a large headline and a subheadline are used as headlines, a longer pose length than the subheadline, which has a relatively short pose length, is used. It is preferable to have The seventh pause length is, for example, preferably 2500 msec to 4500 msec, more preferably 3000 msec to 4000 msec. For example, if the sixth pause length immediately after the main heading is 3000 msec and the sixth pause length immediately after the subheading is 2000 msec, the seventh pause length is preferably 3000 msec.
In this way, by inserting a relatively long pause immediately after the unity of sentences, it becomes easier for the listener to understand the discontinuity of the content of the speech corresponding to the text, and natural-sounding synthesized speech can be obtained.
(その他)
また、図1に示すように、本実施形態に係る合成音声生成用データ形成方法では、各記号や条件に応じて、所定の条件を満たす位置にポーズ長情報を挿入することができる。
例えば、ポーズ長情報は、二点リーダ(‥)や三点リーダ(…)等のリーダ、疑問符(?)、感嘆符(!)、縦線(|)、ダッシュ(―)、丸数字や四角囲み数字等の囲み英数字等の記号の直後に挿入される。図1には、ポーズ長情報を挿入する条件、ポーズ長の一例(ポーズ長の好ましい範囲)及びポーズ長情報の具体例を示す。リーダは、会話中での無音の状態(間)、文末における余韻、文中での省略を示し、ダッシュも間等を示すことから、例えば句点や読点よりも長いポーズ長が割り当てられることが好ましい。リーダの直後には、1000msec以上1500msec以下のポーズ長が割り当てられることが好ましく、例えば1000msecが割り当てられる。縦線は、文章の区切りを示すことが多いことから、例えば句点や読点よりも長いポーズ長が割り当てられることが好ましい。縦線の直後には、1000msec以上1500msec以下のポーズ長が割り当てられることが好ましく、例えば1000msecが割り当てられる。また、囲み英数字は、例えば箇条書きにされた文章の行頭等を示す事が多いことから、例えば読点と同等程度の長さのポーズ長が割り当てられることが好ましい。囲み英数字の直後には、300msec以上500msec以下のポーズ長が割り当てられることが好ましく、例えば300msecが割り当てられる。
(others)
Further, as shown in FIG. 1, in the synthetic speech generating data formation method according to the present embodiment, pause length information can be inserted at a position that satisfies a predetermined condition according to each symbol or condition.
For example, pause length information can be represented by a leader such as a two-point leader (...) or three-point leader (...), a question mark (?), an exclamation point (!), a vertical bar (|), a dash (-), a round number, or a square. It is inserted immediately after symbols such as enclosed alphanumeric characters such as enclosed numbers. FIG. 1 shows a condition for inserting pause length information, an example of pause length (preferred range of pause length), and a specific example of pause length information. The leader indicates silence (pause) in conversation, lingering at the end of a sentence, omission in a sentence, and dashes also indicate pauses. Immediately after the leader, a pause length of 1000 msec to 1500 msec is preferably assigned, for example, 1000 msec. Since vertical lines often indicate breaks in sentences, it is preferable to assign longer pause lengths than, for example, full stops or commas. A pause length of 1000 msec to 1500 msec is preferably assigned immediately after the vertical line, for example, 1000 msec. In addition, since enclosed alphanumeric characters often indicate the beginning of a line of itemized sentences, for example, it is preferable to assign a pause length that is approximately the same length as a comma. Immediately after the enclosed alphanumeric characters, a pause length of 300 msec to 500 msec is preferably assigned, for example 300 msec.
ここで、句読点や括弧類などの記号類(いわゆる約物)が2つ以上連続した場合には、連続した記号同士の間にはポーズを割り当てず、連続する記号の最後のみにポーズを割り当てるようにしてもよい。記号が連続する場合、例えばそれぞれの記号のポーズ長のうち長い方のポーズ長を、後ろの記号の直後に挿入することが好ましい。
例えば、前括弧(「)及び後ろ括弧(」)の間に、最後に疑問符(?)を含むテキストが記載されている場合、連続する疑問符と後ろ鍵括弧との間にはポーズを割り当てず、後ろ鍵括弧の直後のみにポーズを割り当てればよい。このとき、後ろ鍵括弧の直後に割り当てたポーズ位置には、疑問符のポーズ長(900~1500msec)と、後ろ鍵括弧のポーズ長(500~1000msec)のうち、より長さが長い疑問符のポーズ長(例えば1200msec)を割り当てることが好ましい。
Here, when two or more symbols such as punctuation marks and parentheses (so-called punctuation) are consecutive, no pause is assigned between consecutive symbols, and a pause is assigned only to the end of the consecutive symbols. can be If the symbols are consecutive, for example, it is preferable to insert the longer pause length of each symbol immediately after the following symbol.
For example, if text containing a question mark (?) at the end is written between front brackets (") and back brackets ("), no pause is assigned between the consecutive question marks and back brackets, You only need to assign a pause immediately after the trailing curly brace. At this time, at the pause position assigned immediately after the trailing square bracket, the pause length of the longer question mark (900-1500msec) or the pause length of the trailing square bracket (500-1000msec) (eg 1200 msec).
また、図1に記載していない他の記号類についてもポーズ長を割り当てても良い。
また、従来の合成音声生成装置において合成音声を生成する際に、テキストに含まれる記号及びテキストのうち所定の条件を満たす位置以外の位置において微小な長さのポーズが含まれる場合、当該ポーズの位置に第8のポーズ長情報を挿入しても良い。この場合、第8のポーズ長は、例えば130msec以上200msec以下であることが好ましく、140msec以上170msec以下であることがより好ましく、例えば150msecである。
Pause lengths may also be assigned to other symbols not shown in FIG.
Further, when generating synthetic speech in a conventional synthetic speech generation apparatus, if a pause of minute length is included at a position other than a position that satisfies a predetermined condition among symbols and text included in the text, the pause may be generated. An eighth pause length information may be inserted at the position. In this case, the eighth pause length is, for example, preferably 130 msec or more and 200 msec or less, more preferably 140 msec or more and 170 msec or less, for example 150 msec.
さらに、合成音声を生成するためのテキストには、注釈を示す番号等が含まれる場合がある。このため、注釈の前後に、テキストの発話を行わないようにするための発話禁止情報をタグとして挿入し、注釈を示す番号等を含まない合成音声生成用データを生成しても良い。
これにより、合成音声生成用データから生成された合成音声において、テキストの文脈と関連せず合成音声の自然な発話を阻害する注釈が発話されないようにすることができる。
Furthermore, the text for generating synthesized speech may include numbers indicating annotations. For this reason, speech prohibition information may be inserted as a tag before and after the annotation to prevent the text from being uttered, and synthetic speech generation data may be generated that does not include the number or the like indicating the annotation.
As a result, in the synthesized speech generated from the synthetic speech generation data, it is possible to prevent the annotation from being uttered, which is unrelated to the context of the text and hinders the natural utterance of the synthesized speech.
(1.2)合成音声生成用データ形成プログラムの基本構成
本実施形態に係る合成音声生成用データ形成プログラムについて説明する。後述する合成音声生成用データ形成装置10は、少なくとも以下の(a),(b)の各動作をコンピュータに実行させるプログラムに従って、合成音声生成用データを形成する。以下のプログラムは、例えばハードディスクドライブ、メモリ等の記録媒体やDVDディスク又はBlu-ray(登録商標)等の光ディスクに非一時的に記録される。以下のプログラムは、インターネットを介して配布されても良い。さらに、以下のプログラムは、クラウドサーバに記録され、インターネットを介して実行されても良い。
(1.2) Basic Configuration of Synthetic Speech Generation Data Formation Program A synthetic speech generation data formation program according to the present embodiment will be described. A synthetic speech generation
(a)テキストデータ中のテキストに含まれる記号及び前記テキストのうち所定の条件を満たす位置をポーズ位置としてポーズ長を割り当てること
(b)テキストのポーズ位置に、ポーズ長を示すポーズ長情報を挿入した合成音声生成用データを形成すること
(a) assigning a pause length to a symbol included in the text in the text data and a position that satisfies a predetermined condition in the text as a pause position; (b) inserting pause length information indicating the pause length to the pause position of the text. forming data for generating synthesized speech
(1.3)合成音声生成用データ形成装置の基本構成
以下、第一実施形態に係る合成音声生成用データ形成方法を実行する合成音声生成用データ形成装置10を、図2を参照して説明する。図2は、合成音声生成用データ形成装置10の基本構成及び各部の機能について説明する機能ブロック図である。
(1.3) Basic Configuration of Synthetic Speech Generation Data Formation Device Hereinafter, a synthetic speech generation
図2に示すように、合成音声生成用データ形成装置10は、テキストデータ処理部11及びポーズ設定部12を備えている。合成音声生成用データ形成装置10は、例えば書籍の内容を示すテキストデータが入力され、テキストデータ処理部11及びポーズ設定部12の各部での処理により、テキストの所定の位置に適切な長さのポーズを示す情報を挿入した合成音声生成用データを形成して出力する。
As shown in FIG. 2, the synthetic speech generation
ここで、合成音声生成用データ形成装置10に入力されるテキストデータとしては、例えば、文字等がレイアウトの指定に従って配置されたデータである組版データが用いられる。組版データには、例えば書籍とした場合の見出し、文章の配置及び改行の位置並びに空白行の幅に関する情報の少なくとも1つを示すタグが挿入されている。このため、合成音声生成用データ形成装置10において、テキストのうち見出しに相当する部分や、文章のまとまりの最後部分(例えば見出しの直前)の判断が容易となるため好ましい。
また、合成音声生成用データ形成装置10に入力されるテキストデータとしては、例えば、文字情報のみが含まれる(組版データ用のタグ等が含まれない)原稿データであってもよい。
Here, as the text data input to the synthesized speech generation
The text data input to the synthesized speech generating
なお、合成音声生成用データ形成装置10は、テキストデータが入力され、合成音声生成用データを出力する出入力部と、上述した合成音声生成用データ形成方法をコンピュータに実行させるプログラムを記憶する記憶部と、装置内の動作を制御する制御部とを備えている(図2中不図示)。テキストデータ処理部11及びポーズ設定部12は、合成音声生成用データ形成プログラムがコンピュータによって実行されることにより実現される。
以下、合成音声生成用データ形成装置10の各部について説明する。
The synthetic speech generation
Each part of the synthetic speech generating
<テキストデータ処理部>
テキストデータ処理部11は、入力されたテキストデータが組版データである場合、テキストデータからテキストを抜き出して分析を行う。テキストデータには、組版用のタグが挿入されている。また、テキストデータには、複数の文章が、一つの見出し内に記載されて関連する内容を説明する場合、これらの複数の文章は「文章のまとまり」となっている。テキストデータ処理部11は、見出しを示すタグや改行を示すタグ等に応じて、見出し(所定の条件の一例)を検出する。
なお、この場合、図2に示す言語辞典51及び品詞辞典52等をテキストの分析に用いる必要はない。
<Text data processing unit>
When the input text data is typesetting data, the text
In this case, it is not necessary to use the
また、テキストデータ処理部11は、入力されたテキストデータが原稿データである場合、テキストデータ中のテキストを分析して、見出しや文章のまとまりを検出する。テキストデータ処理部11は、例えば言語辞典51や品詞辞典52も用いてテキストを分析し、見出しや文章のまとまりを検出してもよい。
なお、テキストの分析は、機械学習により生成された学習済モデルを用いて行なわれても良い。例えば、学習済モデルは、見出しを示すタグや文章のまとまりの終わりを示すタグ等を挿入したテキストデータを学習用データとした機械学習により生成される。このような学習済モデルに上述したようなタグが挿入されていないテキストデータを挿入して分析することにより、テキストデータから見出しや文章のまとまりの終わり部分を抽出することができる。
Further, when the input text data is manuscript data, the text
Note that text analysis may be performed using a trained model generated by machine learning. For example, a trained model is generated by machine learning using text data in which tags indicating headlines, tags indicating the end of sentences, etc. are inserted as data for learning. By inserting text data in which tags as described above are not inserted into such a trained model and analyzing the text data, it is possible to extract headings or the ending part of a group of sentences from the text data.
<ポーズ設定部>
ポーズ設定部12は、テキストデータ中のテキストに含まれる記号の位置をポーズ位置としてポーズ長を割り当て、ポーズ位置に、ポーズ長を示すポーズ長情報を挿入する。また、ポーズ設定部12は、テキストデータ処理部11で検出された所定の条件を満たすテキストの所定位置にポーズ長情報を挿入する。ポーズ長情報は、図1に示すルール表の一例に従って、記号の直前又は直後等に挿入される。ポーズ設定部12は、検出された条件に応じたポーズ長を示すポーズ長情報を挿入する。
これにより、ポーズ設定部12は、合成音声生成用データを形成する。ポーズ設定部12は、生成された合成音声生成用データを出力する。また、ポーズ設定部12は、合成音声生成用データを図示しない記憶部に記憶してもよい。記憶部に記憶された合成音声生成用データは、出入力部を介して出力することができる。
<Pose setting part>
The
As a result, the
図3に、ポーズ長情報が挿入された合成音声生成用データをテキストで示した場合の具体例を示す。なお、図3では、説明のために、記号や所定の条件を満たすテキストの一部のみにポーズ長情報を示している。
図3に示すように、合成音声生成用データ中のテキストのうち、大見出しとなる「第1章 下級老人とは何か」のテキストP1の直後には、ポーズ長が3000msecであることを示すポーズ長情報「<vtml_pause time=”3000”/>」が挿入されている。
同様に、文章のまとまりの最後部のテキストP4の直後にも同様に、ポーズ長が3000msecであることを示すポーズ長情報「<vtml_pause time=”3000”/>」が挿入されている。
FIG. 3 shows a specific example of a text representation of synthetic speech generation data into which pause length information has been inserted. In FIG. 3, for the sake of explanation, pause length information is shown only for symbols and part of text that satisfies a predetermined condition.
As shown in FIG. 3, the pause length of 3000 msec is indicated immediately after the text P1 of "Chapter 1: What is a lower-class elderly person?" Pause length information "<vtml_pause time="3000"/>" is inserted.
Similarly, pause length information “<vtml_pause time=“3000”/>” indicating that the pause length is 3000 msec is inserted immediately after the text P4 at the end of the set of sentences.
合成音声生成用データ中のテキストのうち、小見出しとなる「下級老人とは、いったい何か」のテキストP2、「下流老人の具体的な指標3つの「ない」」のテキストP5及び「収入が著しく少「ない」」のテキストP7の直後には、ポーズ長が2000msecであることを示すポーズ長情報「<vtml_pause time=”2000”/>」が挿入されている。
合成音声生成用データ中のテキストのうち、文末が三点リーダで終わる「人生の終結に向かっていく…」のテキストP3の直後には、ポーズ長が1000msecであることを示すポーズ長情報「<vtml_pause time=”1000”/>」が挿入されている。
Among the texts in the synthetic speech generation data, text P2 of "What is a lower-ranked elderly person?" Pause length information “<vtml_pause time=“2000”/>” indicating that the pause length is 2000 msec is inserted immediately after the text P7 of “not”.
Among the texts in the synthetic speech generation data, the pause length information "< vtml_pause time=”1000”/>” is inserted.
合成音声生成用データ中のテキストのうち、丸括弧P3の直前には、ポーズ長が500msecであることを示すポーズ長情報「<vtml_pause time=”500”/>」が挿入されている。
合成音声生成用データ中のテキストのうち、丸数字P6の直後には、ポーズ長が300msecであることを示すポーズ長情報「<vtml_pause time=”300”/>」が挿入されている。
このように、ポーズ設定部12では、テキストデータ中のテキストに含まれる記号及び前記テキストのうち所定の条件を満たす位置に、それぞれに適したポーズ長を示すポーズ長情報が挿入される。
Pause length information “<vtml_pause time=“500”/>” indicating that the pause length is 500 msec is inserted immediately before the parenthesis P3 in the text in the synthetic speech generation data.
Pause length information “<vtml_pause time=“300”/>” indicating that the pause length is 300 msec is inserted immediately after the circled number P6 in the text in the synthetic speech generation data.
In this manner, the
また、ポーズ設定部12は、ポーズ長情報と共に、組版データのタグも含んだ合成音声生成用データを形成しても良い。
上述した合成音声生成用データ形成装置では、人が文字を読み上げた様な自然な発話の音声を合成するための合成音声生成用データを生成することができる。
Further, the
The above-described synthetic speech generation data forming apparatus can generate synthetic speech generation data for synthesizing natural speech that is similar to a person reading out characters.
2.第二実施形態
以下、第二実施形態に係る合成音声生成用データ形成方法について説明する。また、第二実施形態では合成音声生成用データ形成方法をコンピュータに実行させる合成音声生成用データ形成プログラム及び合成音声生成用データ形成装置について説明する。
2. Second Embodiment A method of forming synthetic speech generation data according to a second embodiment will be described below. Further, in the second embodiment, a synthetic speech generation data formation program and a synthetic speech generation data formation device for causing a computer to execute a synthetic speech generation data formation method will be described.
(2.1)合成音声生成用データ形成方法
第二実施形態に係る合成音声生成用データ形成方法は、第一実施形態に係る合成音声生成用データ形成方法の(A)、(B)と、以下の方法とにより実行される。
(C)テキストデータ中のテキストのうち所定の条件を満たす位置に、音声データに対して音響効果を加えるための音響情報を挿入する
例えば、テキストが見出しである場合に、見出しの直後に音響情報を挿入する。また、音響情報は、例えば音響データのリンク先、すなわち音響データの保存先を示すリンク先情報を含む。
(2.1) Synthetic Speech Generation Data Formation Method The synthetic speech generation data formation method according to the second embodiment includes (A) and (B) of the synthetic speech generation data formation method according to the first embodiment, It is executed by the following methods.
(C) Inserting audio information for adding sound effects to audio data at a position in the text data that satisfies a predetermined condition. For example, if the text is a headline, the audio information immediately follows the headline. insert In addition, the acoustic information includes, for example, link destination information indicating a link destination of the acoustic data, that is, a storage destination of the acoustic data.
以上により、テキストの所定の位置に、ポーズ長情報と音声データに対して音響効果を加えるための音響情報とが挿入された合成音声生成用データが形成される。このような合成音声生成用データを用いて音声合成を行った場合、合成音声でありながらより自然な発話の合成音声を生成することができ、かつ合成音声のみでも場面転換を聞き手にわかりやすくすることができる。また、音響情報は、音声編集機器がなくても音響情報を示すタグ中のテキストの編集を行うだけでリンク先の編集やリバーブ・エコーのような音響の設定等を行うことができ、合成音声生成用データの生成及び編集が用意となる。 As described above, synthesized speech generation data is formed in which pause length information and acoustic information for adding acoustic effects to speech data are inserted at predetermined positions of the text. When speech synthesis is performed using such synthetic speech generation data, it is possible to generate synthetic speech that is more natural than synthetic speech, and to make it easy for listeners to understand scene changes even with synthesized speech alone. be able to. In addition, even without a voice editing device, audio information can be edited by simply editing the text in the tag that indicates the audio information, and it is possible to edit the link destination and set the sound such as reverb and echo. Generation and editing of data for generation becomes ready.
(2.2)合成音声生成用データ形成プログラムの基本構成
本実施形態に係る合成音声生成用データ形成プログラムについて説明する。後述する合成音声生成用データ形成装置20は、第一実施形態に記載の(a)、(b)と、以下の(c)の各動作をコンピュータに実行させるプログラムに従って、合成音声生成用データを形成する。
(c)テキストデータ中のテキストのうち所定の条件を満たす位置に、音声データに対して音響効果を加えるための音響情報を挿入すること
(2.2) Basic Configuration of Synthetic Speech Generation Data Formation Program A synthetic speech generation data formation program according to the present embodiment will be described. Synthetic speech generation
(c) Inserting acoustic information for adding acoustic effects to voice data at positions satisfying predetermined conditions in text in text data.
(2.3)合成音声生成用データ形成装置の基本構成
以下、第二実施形態に係る合成音声生成用データ形成方法を実行する合成音声生成用データ形成装置20を、図4を参照して説明する。図4は、合成音声生成用データ形成装置20の基本構成及び各部の機能について説明する機能ブロック図である。
(2.3) Basic Configuration of Synthetic Speech Generation Data Formation Apparatus Hereinafter, a synthetic speech generation
図4に示すように、合成音声生成用データ形成装置20は、テキストデータ処理部11及びポーズ設定部12と共に音響設定部23を備えている。すなわち、合成音声生成用データ形成装置20は、音響設定部23を備える点で合成音声生成用データ形成装置10と相違する。合成音声生成用データ形成装置20では、所定の条件を満たす位置に、音声データに対して音響効果を加えるための音響情報を挿入することにより、合成音声に効果音やBGM、リバーブ(残響)やエコー(反響)等の音響効果等を与えることが可能となる。
以下、音響設定部23について説明する。なお、テキストデータ処理部11及びポーズ設定部12は、第一実施形態で説明した各部と同様の構成であるため説明を省略する。
As shown in FIG. 4, the synthetic speech generation
The
<音響設定部>
音響設定部23は、テキストデータ中のテキストのうち所定の条件を満たす位置に、テキストを読み上げた音声データに対して音響効果を加える、すなわちリバーブ、エコー等の音響をかけたり、効果音を入れるための音響情報を挿入する。
音響設定部23は、テキストが見出しである場合に、見出しの前及び後ろの少なくとも一方に音響情報を挿入する。音響情報としては、例えば効果音データのリンク先、すなわち効果音データの保存先を示すリンク先情報を含む。
また、音響設定部23は、テキストが見出しである場合に、見出しの前後にリバーブやエコー等の音響効果の開始時点又は終了時点を示す音響情報を挿入しても良い。この場合、見出しの前には音響効果の開始を示すタグを音響情報として挿入し、見出しの後には音響効果の終了を示すタグを音響情報として挿入する。
<Sound setting section>
The
When the text is a headline, the
Further, when the text is a headline, the
図5に、ポーズ長情報とともに音響情報が挿入された合成音声生成用データをテキストで示した場合の具体例を示す。なお、図5では、説明のために、記号や所定の条件を満たすテキストの一部のみにポーズ長情報及び音響情報を示している。
図5に示すように、合成音声生成用データ中のテキストのうち、大見出しとなる「第1章 下級老人とは何か」のテキストP1の直前には、音響効果であるリバーブの開始を示す音響情報「<vtml_mark name=”reverb_start”/>」と、再生する効果音のリンク先(保存先のURL)を示す音響情報「<vtml_ mark name="sound:効果音ファイル.wav"/>」とが挿入されている。また、合成音声生成用データ中のテキストのうち、大見出しとなるテキストP1の直後には、リバーブの終了を示す音響情報「<vtml_ mark name=”reverb_end”/>」が挿入されている。
上述した合成音声生成用データ形成装置では、人が文字を読み上げた様な自然な発話の音声を合成するための合成音声生成用データを生成することができる。
FIG. 5 shows a specific example of a text representation of synthesized speech generation data in which acoustic information is inserted together with pause length information. In FIG. 5, for the sake of explanation, pause length information and sound information are shown only for symbols and part of text that satisfies a predetermined condition.
As shown in FIG. 5, among the texts in the synthetic speech generation data, just before the text P1 of "Chapter 1 What is a lower-class elderly person?" Acoustic information "<vtml_mark name="reverb_start"/>" and acoustic information "<vtml_mark name="sound: sound effect file.wav"/> indicating the link destination (URL of the save destination) of the sound effect to be played and are inserted. Further, among the texts in the synthetic speech generation data, audio information “<vtml_mark name=“reverb_end”/>” indicating the end of reverb is inserted immediately after the text P1, which is the headline.
The above-described synthetic speech generation data forming apparatus can generate synthetic speech generation data for synthesizing natural speech that is similar to a person reading out characters.
上述した合成音声生成用データ形成装置は、人が文字を読み上げた様な自然な発話であり、かつ場面転換を容易に聞き手に示す事ができる音響情報を含む合成音声生成用データを生成することができる。 The above-described synthetic speech generation data forming apparatus generates synthetic speech generation data that includes acoustic information that is natural utterance as if a person were reading out characters and that can easily indicate a scene change to a listener. can be done.
3.第三実施形態
以下、第三実施形態に係る合成音声生成装置及び合成音声生成方法について説明する。
(3.1)合成音声生成方法の基本構成
以下、第三実施形態に係る合成音声生成方法について説明する。
第三実施形態に係る合成音声生成法は、少なくとも以下の方法により実行される。
(P)テキストデータに対応するテキストの所定のポーズが入るポーズ位置にポーズの長さを示すポーズ長情報が挿入された合成音声生成用データを取得する
(Q)テキストデータに対応する文章を発音表記に変換する
(R)発音表記を用いて、抑揚及び持続時間の韻律情報を生成する
(S)人間が発生した合成単位ごとの音声データを含む音声データベースから、発音表記に対応する合成単位を選択する
(T)合成音声生成用データに含まれるポーズ位置にポーズ長情報に対応する長さのポーズを介して合成単位を連結するとともに、韻律情報を付加して合成音声を生成する
3. Third Embodiment Hereinafter, a synthetic speech generation apparatus and a synthetic speech generation method according to a third embodiment will be described.
(3.1) Basic Configuration of Synthetic Speech Generation Method Hereinafter, a synthetic speech generation method according to the third embodiment will be described.
The synthetic speech generation method according to the third embodiment is executed at least by the following method.
(P) Acquire synthesized speech generation data in which pause length information indicating the length of the pause is inserted at the pause position where a predetermined pause of the text corresponding to the text data is inserted (Q) Pronounce the sentence corresponding to the text data (R) Generate prosodic information of intonation and duration using the phonetic transcription (S) Synthetic units corresponding to the phonetic transcriptions from a speech database containing speech data for each human-generated synthesis unit Select (T) Connect synthesis units to pause positions included in data for generating synthesized speech through pauses of length corresponding to pause length information, and add prosody information to generate synthesized speech.
また、第三実施形態に係る合成音声生成方法は、合成音声生成用データ取得前に以下の方法が実行されてもよい。
(O)テキストデータに対応するテキストの所定のポーズが入るポーズ位置にポーズの長さを示すポーズ長情報を挿入した合成音声生成用データを形成する
すなわち、第三実施形態に係る合成音声生成方法では合成音声生成用データの形成が別途行なわれても良い。
In addition, the method for generating synthetic speech according to the third embodiment may be implemented by the following method before acquiring the data for generating synthetic speech.
(O) Generate synthetic speech generation data by inserting pause length information indicating the length of the pause at the pause position where a predetermined pause of the text corresponding to the text data is inserted. That is, the synthetic speech generation method according to the third embodiment. Then, data for generating synthesized speech may be formed separately.
(3.2)合成音声生成装置の基本構成
以下、第三実施形態に係る合成音声生成用データ形成方法を実行する合成音声生成装置100を、図6を参照して説明する。図6は、合成音声生成装置100の基本構成及び各部の機能について説明する機能ブロック図である。
(3.2) Basic Configuration of Synthetic Speech Generating Apparatus Hereinafter, a synthetic
図6に示すように、合成音声生成装置100は、言語処理部110、韻律処理部120及び音声合成部130を備えている。合成音声生成装置100は、例えば書籍の内容を示すテキストデータが入力され、言語処理部110、韻律処理部120及び音声合成部130の各部での処理により、自然な発話の合成音声を生成する。合成音声生成装置100には、例えば、ポーズ長情報が挿入されていないテキストデータが入力される。
As shown in FIG. 6, the synthetic
<言語処理部>
言語処理部110は、第一実施形態で説明した合成音声生成用データ形成装置10、第二実施形態で説明した合成音声生成用データ形成装置20の各部の機能を含んでいる。
言語処理部110は、例えばテキストデータ処理部111及びポーズ設定部112と、発音表記変換部114とを備えている。テキストデータ処理部111及びポーズ設定部112は、言語処理部110において、図2に示す合成音声生成用データ形成装置10と同様の機能を有する合成音声生成用データ形成部115を形成している。合成音声生成用データ形成部は、テキストデータ中のテキストに含まれる記号及びテキストのうち所定の条件を満たす位置(ポーズ位置)にポーズ長情報を挿入した合成音声生成用データを形成する。ここで、合成音声生成用データ形成部は、図4に示す合成音声生成用データ形成装置20と同様の構成であっても良い。
<Language processing unit>
The
The
言語処理部110のテキストデータ処理部111ポーズ設定部112は、合成音声生成用データ形成装置10のテキストデータ処理部11及びポーズ設定部12と同一の機能を有する。すなわち、言語処理部110は、発音表記変換部114を備えている点で第一実施形態で説明した合成音声生成用データ形成装置10と相違する。
以下、言語処理部110の発音表記変換部114と、韻律処理部120及び音声合成部130について説明する。また、テキストデータ処理部111及びポーズ設定部112の説明は省略する。
The text
The phonetic
<言語処理部>
(発音表記変換部)
発音表記変換部114は、入力されたテキストデータに対応する文章を発音表記に変換する。発音表記変換部114に入力されるテキストデータは、ポーズ設定部112においてテキストデータに対応するテキストの所定のポーズ位置にポーズ長情報が挿入された合成音声生成用データである。
発音表記変換部114は、例えば、発音辞典53と通信可能であり、入力されたテキストデータ(合成音声生成用データ)に基づいて、テキストデータに対応するテキストを発音表記に変換する。
なお、合成音声生成装置100は、テキストデータ(又は合成音声生成用データ)を保存したテキストデータ保存部をさらに備えており、言語処理部110は、テキストデータ保存部からテキストデータを取得しても良い。
<Language processing unit>
(Pronunciation converter)
The phonetic
The phonetic
Note that the synthetic
<韻律処理部>
韻律処理部120は、言語処理部110の発音表記変換部114から取得した発音表記を用いて文章の抑揚及び持続時間の韻律情報を生成する韻律情報生成部121を備えている。韻律処理部120は、生成した韻律情報を音声合成部130に出力する。
<Prosody processing part>
The
<音声合成部>
音声合成部130は、テキストデータ(合成音声生成用データ)と、人間が発生した合成単位ごとの音声データを含む音声データベース54とに基づいて合成音声を生成する。音声合成部130は、合成単位選択部131と合成単位連結部132とを備えている。
以下、音声合成部130の各部について説明する。
<Speech synthesizer>
The
Each unit of the
(合成単位選択部)
合成単位選択部131は、音声データベース54から、発音表記変換部114から取得した発音表記に対応する合成単位を選択して抽出する。合成単位選択部131は、抽出した合成単位は、合成単位連結部132に送信する。
(Synthetic unit selection part)
The synthesis
(合成単位連結部)
合成単位連結部132は、合成単位選択部131で抽出された合成単位を連結するとともに、韻律情報を付加して合成音声を生成する。このとき、音声合成部130は、合成音声生成用データに含まれるポーズ位置にポーズ長情報に対応する長さのポーズを介して合成単位を連結することで、自然な発話の合成音声を生成する。また、合成音声生成用データがポーズ長情報と共に、書籍とした場合の見出し、文章の配置及び改行の位置並びに空白行の幅に関する情報も含んだ合成音声生成用データである場合には、見出し、改行や空白行の幅に対応するポーズを介して合成単位を連結することで、自然な発話の合成音声を生成してもよい。
(Synthetic unit connecting part)
The synthesis
(3.3)変形例1
第三実施形態では、音声合成を行いたいテキストデータが挿入され、テキストデータに基づいて音声合成を行う合成音声生成装置100について説明したが、このような構成に限られない。
例えば、変形例1の合成音声生成装置100Aは、別途生成された合成音声生成用データが入力されて音声合成を行う装置であってもよい。この場合、図7に示すように、合成音声生成装置100Aの言語処理部110Aは、テキストデータ処理部111及びポーズ設定部112を有しておらず、少なくとも発音表記変換部114を備えていれば良い。合成音声生成装置100Aには、第三実施形態の合成音声生成用データ形成部115で生成される合成音声生成用データが入力される。このため、発音表記変換部114を備えていれば、合成音声生成装置100Aの言語処理部110Aとしての機能を果たすことができる。
(3.3) Modification 1
In the third embodiment, the synthetic
For example, the synthetic
(3.4)変形例2
言語処理部110は、例えばテキストデータ処理部111、ポーズ設定部112及び発音表記変換部114とともに、図示しない音響設定部を備えていてもよい。この場合、音響設定部は、合成音声生成用データ形成装置20の音響設定部23と同一の機能を有する。
言語処理部110が音響設定部を備える場合、音声合成部130は、合成単位同士を連結する際に、所定の位置(例えば見出しの位置)に、音響情報のリンク先から取得した効果音を重ねたり、例えば見出し等に対してリバーブ等の音響効果をかけることができる。
(3.4) Modification 2
The
When the
(3.5)変形例3
第三実施形態では、合成音声生成装置100が、言語処理部110が合成音声生成用データ形成装置10と同様の機能を有する場合について説明したがこのような構成に限られない。
例えば、合成音声生成装置100の言語処理部110は、第二実施形態に係る合成音声生成用データ形成装置20と同様の機能を有していてもよい。
(3.5) Modification 3
In the third embodiment, the synthetic
For example, the
以上、本開示の実施形態について説明したが、本開示の技術的範囲は、上述した実施形態に記載の技術的範囲には限定されない。上述した実施形態に、多様な変更又は改良を加えることも可能であり、そのような変更又は改良を加えた形態も本開示の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。 Although the embodiments of the present disclosure have been described above, the technical scope of the present disclosure is not limited to the technical scope described in the above-described embodiments. Various changes or improvements can be made to the above-described embodiments, and forms with such changes or improvements can also be included in the technical scope of the present disclosure. it is obvious.
10,20 合成音声生成用データ形成装置
11,111 テキストデータ処理部
12、112 ポーズ設定部
30 機械学習装置
31 テキストデータ化部
32 記憶部
33 学習データ抽出部
34 学習部
51 言語辞典
52 品詞辞典
53 発音辞典
54 音声データベース
100 合成音声生成装置
110 言語処理部
114 発音表記変換部
120 韻律処理部
121 韻律情報生成部
130 音声合成部
131 合成単位選択部
132 合成単位連結部
10, 20 Synthetic speech generation
Claims (14)
前記ポーズ位置に、前記ポーズ長を示すポーズ長情報を挿入した合成音声生成用データを形成する
合成音声生成用データ形成方法。 assigning a pause length to a position satisfying a predetermined condition among symbols included in text in the text data and the text as a pause position;
A synthetic speech generation data forming method for forming synthetic speech generation data in which pause length information indicating the pause length is inserted at the pause position.
前記テキストに含まれる前記記号が句点である場合には、前記句点の直後に前記ポーズ長として前記第1のポーズ長よりも長い第2のポーズ長を示す前記ポーズ長情報を挿入する
請求項1に記載の合成音声生成用データ形成方法。 if the symbol included in the text is a reading point, inserting the pause length information indicating a first pause length as the pause length immediately after the reading point;
2. When the symbol included in the text is a period, the pause length information indicating a second pause length longer than the first pause length is inserted immediately after the period as the pause length. 3. The method of forming data for generating synthetic speech according to .
前記鉤括弧同士の間に位置する前記テキストに含まれる前記記号が句点である場合には、前記鉤括弧同士の間に位置する前記句点の直後に前記ポーズ長として第2のポーズ長よりも短い第4のポーズ長を示す前記ポーズ長情報を挿入する
請求項2に記載の合成音声生成用データ形成方法。 When the symbol included in the text located between the symbols indicated by the square brackets in the text data is a comma, the pause length is immediately after the comma located between the square brackets. inserting the pause length information indicating a third pause length shorter than the first pause length as
When the symbol included in the text located between the square brackets is a period, the pause length immediately after the period located between the square brackets is shorter than the second pause length. 3. The method of forming synthetic speech generation data according to claim 2, wherein said pause length information indicating a fourth pause length is inserted.
請求項1から3のいずれか1項に記載の合成音声生成用データ形成方法。 4. The pause length information indicating a fifth pause length as the pause length is inserted at least immediately before the preceding parenthesis among the parentheses when the symbol included in the text is a parenthesis. 2. The data forming method for generating synthetic speech according to 1 or 2 above.
請求項1から4のいずれか1項に記載の合成音声生成用データ形成方法。 When the text is a headline, inserting the pause length information immediately after the headline indicating a sixth pause length longer than other pause lengths inserted immediately before or after the text other than the headline. 5. The method of forming data for generating synthetic speech according to any one of claims 1 to 4.
請求項1から5のいずれか1項に記載の合成音声生成用データ形成方法。 Synthetic speech generation according to any one of claims 1 to 5, wherein when the text has a semantic unity, the pause length information indicating a seventh pause length is inserted immediately after the text unity. data formation method.
請求項1から6のいずれか1項に記載の合成音声生成用データ形成方法。 7. The synthetic speech generation use according to any one of claims 1 to 6, wherein acoustic information for adding a sound effect to the speech data is inserted at a position of the text in the text data that satisfies a predetermined condition. Data formation method.
請求項7に記載の合成音声生成用データ形成方法。 8. The method of forming data for generating synthetic speech according to claim 7, wherein when the text is a headline, the acoustic information is inserted immediately after the headline.
請求項8に記載の合成音声生成用データ形成方法。 9. The method of forming synthetic speech generation data according to claim 8, wherein said acoustic information includes link destination information indicating a link destination of said acoustic data.
前記テキストデータに対応する前記テキストを発音表記に変換し、
前記発音表記を用いて、抑揚及び持続時間の韻律情報を生成し、
人間が発生した合成単位ごとの音声データを含む音声データベースから、前記発音表記に対応する合成単位を選択し、
前記合成音声生成用データに含まれる前記ポーズ位置に前記ポーズ長情報に対応する長さの前記ポーズを介して前記合成単位を連結するとともに、前記韻律情報を付加して合成音声を生成する
合成音声生成方法。 Acquiring synthesized speech generation data in which pause length information indicating the length of the pause is inserted at a pause position where a predetermined pause of the text corresponding to the text data is inserted;
converting the text corresponding to the text data into a phonetic transcription;
generating prosodic information of intonation and duration using the phonetic transcription;
selecting a synthesis unit corresponding to the phonetic notation from a speech database containing human-generated speech data for each synthesis unit;
Synthetic speech for generating synthetic speech by connecting the synthesis unit to the pause position included in the data for generating synthetic speech via the pause having a length corresponding to the pause length information and adding the prosody information. generation method.
前記テキストデータに対応する前記テキストを発音表記に変換する発音表記変換部と、
前記発音表記変換部から取得した前記発音表記を用いて、前記テキストの抑揚及び持続時間の韻律情報を生成する韻律処理部と、
人間が発生した合成単位ごとの音声データを含む音声データベースから、前記発音表記変換部から取得した前記発音表記に対応する合成単位を選択し、前記合成音声生成用データに含まれる前記ポーズ位置に前記ポーズ長情報に対応する長さの前記ポーズを介して前記合成単位を連結するとともに、前記韻律情報を付加して合成音声を生成する音声合成部と、
を備える合成音声生成装置。 a synthetic speech generation data acquisition unit for acquiring synthetic speech generation data in which pause length information indicating the length of the pause is inserted at a pause position where a predetermined pause of the text corresponding to the text data is inserted;
a phonetic notation conversion unit that converts the text corresponding to the text data into a phonetic notation;
a prosody processing unit that generates prosody information of intonation and duration of the text using the phonetic transcription obtained from the phonetic transcription conversion unit;
A synthesis unit corresponding to the phonetic notation acquired from the phonetic notation conversion unit is selected from a speech database containing speech data generated by a person for each synthesis unit, and placed at the pose position included in the data for generating synthesized speech. a speech synthesizing unit that connects the synthesis units through the pauses of a length corresponding to the pause length information and adds the prosody information to generate synthetic speech;
Synthetic speech generator.
前記合成音声生成用データ取得部は、前記合成音声生成用データ形成部から前記合成音声生成用データを取得する
請求項11に記載の合成音声生成装置。 A symbol included in the text and a position that satisfies a predetermined condition in the text are assigned a pause length as the pause position, and the data for generating synthesized speech in which the pause length information indicating the pause length is inserted into the pause position. further comprising a synthetic speech generation data formation unit that forms
12. The synthetic speech generation apparatus according to claim 11, wherein the synthetic speech generation data acquisition unit acquires the synthetic speech generation data from the synthetic speech generation data formation unit.
請求項11又は12に記載の合成音声生成装置。 13. The synthetic speech generating apparatus according to claim 11, wherein said text data is data including information on the arrangement of said text, line feed position and blank line width in the case of a book.
請求項13に記載の合成音声生成装置。 14. The synthetic speech generating apparatus according to claim 13, further comprising a text data storage unit storing said text data.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021152468A JP2023044436A (en) | 2021-09-17 | 2021-09-17 | Synthetic voice generation data forming method, synthetic voice generation method, and synthetic voice generation device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021152468A JP2023044436A (en) | 2021-09-17 | 2021-09-17 | Synthetic voice generation data forming method, synthetic voice generation method, and synthetic voice generation device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023044436A true JP2023044436A (en) | 2023-03-30 |
Family
ID=85725646
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021152468A Pending JP2023044436A (en) | 2021-09-17 | 2021-09-17 | Synthetic voice generation data forming method, synthetic voice generation method, and synthetic voice generation device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023044436A (en) |
-
2021
- 2021-09-17 JP JP2021152468A patent/JP2023044436A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10475438B1 (en) | Contextual text-to-speech processing | |
JPH0833744B2 (en) | Speech synthesizer | |
JP2003295882A (en) | Text structure for speech synthesis, speech synthesizing method, speech synthesizer and computer program therefor | |
JP2002221980A (en) | Text voice converter | |
US6212501B1 (en) | Speech synthesis apparatus and method | |
JP2023044436A (en) | Synthetic voice generation data forming method, synthetic voice generation method, and synthetic voice generation device | |
JP2000003189A (en) | Voice data editing device and voice database | |
JPH08335096A (en) | Text voice synthesizer | |
JP4409279B2 (en) | Speech synthesis apparatus and speech synthesis program | |
JP4964695B2 (en) | Speech synthesis apparatus, speech synthesis method, and program | |
JP2006349787A (en) | Method and device for synthesizing voices | |
JP2740510B2 (en) | Text-to-speech synthesis method | |
JP2536169B2 (en) | Rule-based speech synthesizer | |
WO2022196087A1 (en) | Information procesing device, information processing method, and information processing program | |
JP3034554B2 (en) | Japanese text-to-speech apparatus and method | |
JP2577372B2 (en) | Speech synthesis apparatus and method | |
JP3397406B2 (en) | Voice synthesis device and voice synthesis method | |
JP2680643B2 (en) | Character display method of rule synthesizer | |
Umbert et al. | Spanish Synthesis Corpora. | |
JP3292218B2 (en) | Voice message composer | |
JP5481958B2 (en) | Phoneme code converter and speech synthesizer | |
JPH11327594A (en) | Voice synthesis dictionary preparing system | |
CN114203174A (en) | Text-to-speech processing method and computer readable storage medium | |
JP2001166787A (en) | Voice synthesizer and natural language processing method | |
JP2573585B2 (en) | Speech spectrum pattern generator |