JP2014219635A - Pause insertion device and method and program thereof - Google Patents
Pause insertion device and method and program thereof Download PDFInfo
- Publication number
- JP2014219635A JP2014219635A JP2013100502A JP2013100502A JP2014219635A JP 2014219635 A JP2014219635 A JP 2014219635A JP 2013100502 A JP2013100502 A JP 2013100502A JP 2013100502 A JP2013100502 A JP 2013100502A JP 2014219635 A JP2014219635 A JP 2014219635A
- Authority
- JP
- Japan
- Prior art keywords
- pose
- model
- reading speed
- vector
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 17
- 238000003780 insertion Methods 0.000 title abstract 5
- 230000037431 insertion Effects 0.000 title abstract 5
- 239000013598 vector Substances 0.000 claims abstract description 48
- 239000000284 extract Substances 0.000 claims abstract description 6
- 238000000605 extraction Methods 0.000 claims description 14
- 230000015572 biosynthetic process Effects 0.000 description 10
- 238000003786 synthesis reaction Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 6
- 238000013179 statistical model Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241001122767 Theaceae Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
Abstract
Description
本発明は、音声合成のためにテキスト情報からポーズ位置を決定するポーズ付与装置と、その方法とプログラムに関する。 The present invention relates to a pose imparting apparatus for determining a pose position from text information for speech synthesis, a method thereof, and a program.
従来の音声合成では、合成対象とするテキスト情報が情報案内やニュース等に関するものであり、音声合成の読み上げ速度は一定速度を前提としていた。そのため、ポーズ付与においても、一定の速度での合成音声の生成を前提として、目標とする音声を集め、その音声でのポーズ付与を再現するようなポーズ付与装置と、その方法とプログラムが構築されていた。その代表的な技術としては、例えば非特許文献1に記載されたポーズ付与技術が知られている。 In conventional speech synthesis, text information to be synthesized is related to information guidance, news, etc., and the speech synthesis read-out speed is assumed to be constant. Therefore, a pose assignment device, method and program for collecting a target voice and reproducing the pose assignment with the sound are constructed on the premise of generating synthesized speech at a constant speed even in pose assignment. It was. As a representative technique, for example, a pose imparting technique described in Non-Patent Document 1 is known.
非特許文献1に開示されたポーズ付与技術は、単語の出現形や品詞や読み(音節)を特徴量として統計的にモデル化し、テキストの各単語の後ろ、又は前を、ポーズ位置とすべきかどうかの判断を行うものである。また、ポーズ位置を予測する規則を人手で作成する場合も、音声合成の読み上げ速度は一定の前提で集められた音声を目標として、それら音声でのポーズ位置を再現するような規則作成が行われてきた。 Should the pose assignment technique disclosed in Non-Patent Document 1 statistically model the appearance of words, parts of speech, and readings (syllables) as features, and place the pose position after or before each word in the text? This is a judgment. Also, when creating rules for predicting pose positions manually, rules are created to reproduce the pose positions of those speeches, with the goal of using speech collected at a constant speech synthesis reading speed. I came.
音声合成技術の進歩に伴い、必要とされる音声合成音も多様化して来ている。音声合成対象のテキスト情報は、従来の情報案内やニュース等の一定速度で読み上げる他に、対話場面でのテキスト情報や宣伝用のテキスト情報のように、人の感情やその他の状況に対応させて様々な速度で読み上げる必要のあるテキスト情報が増加している。しかし、音声合成用のテキスト情報へのポーズ付与は、上記したように、一定の読み上げ速度を前提とする、或いは、読み上げ速度の違いを考慮しない規則(モデル)に基づく技術に留まっていた。その従来の規則は、集められた音声データ内での平均的なポーズ位置を再現するように作られているので、平均よりも速い又は遅い速度でテキスト情報を読み上げる必要がある対話場面などのテキストを合成する場合に、適切な位置にポーズが付与できない。また、そもそも読み上げ速度の違いを吸収する考えが無いために、ポーズ付与の規則も平均化されてしまい、規則(モデル)の正確性にも問題があった。つまり、従来のポーズ付与装置は、複数の読み上げ速度に対応できない課題があった。 With the advancement of speech synthesis technology, the required speech synthesis sounds are also diversifying. Text information for speech synthesis is read at a constant speed, such as conventional information guidance and news, etc., as well as human emotions and other situations, such as text information in dialogue scenes and text information for advertising Text information that needs to be read out at various speeds is increasing. However, as described above, the addition of a pose to text information for speech synthesis has been limited to a technique based on a rule (model) that presupposes a constant reading speed or does not consider a difference in reading speed. The conventional rules are designed to reproduce the average pause position in the collected audio data, so text such as dialogue scenes where text information needs to be read out faster or slower than average. When combining, a pose cannot be given at an appropriate position. In addition, since there is no idea to absorb the difference in reading speed, the rules for giving poses are also averaged, and there is a problem in the accuracy of the rules (model). That is, the conventional pose imparting device has a problem that it cannot cope with a plurality of reading speeds.
本発明は、これらの課題に鑑みてなされたものであり、読み上げ速度に対応させた正確なポーズ情報を、テキスト情報に付与することの出来るポーズ付与装置と、その方法とプログラムを提供することを目的とする。 The present invention has been made in view of these problems, and provides a pose imparting apparatus capable of imparting accurate pose information corresponding to a reading speed to text information, and a method and program thereof. Objective.
本発明のポーズ付与装置は、特徴量抽出部と、読み上げ速度別モデルと、モデル選択部と、ポーズ位置予測部と、を具備する。特徴量抽出部は、テキスト情報を入力として、ポーズ位置予測に必要となる特徴量である特徴量ベクトルを抽出する。読み上げ速度別モデルは、特徴量ベクトルとポーズを置く又は置かないを意味するポーズ情報とを対応付ける。モデル選択部は、指定読み上げ速度と読み上げ速度別モデルとを入力として、指定読み上げ速度に対応した読み上げ速度別モデルを選択して出力する。ポーズ位置予測部は、特徴量ベクトルを入力として、当該特徴量ベクトルとモデル選択部で選択された読み上げ速度別モデルを対応させることでテキスト情報のポーズ付与位置を予測する。 The pose imparting apparatus of the present invention includes a feature amount extraction unit, a model for each reading speed, a model selection unit, and a pose position prediction unit. The feature quantity extraction unit receives text information as an input and extracts a feature quantity vector that is a feature quantity necessary for pose position prediction. The model according to the reading speed associates the feature amount vector with pose information meaning that a pose is placed or not placed. The model selection unit receives the designated reading speed and the model for each reading speed, and selects and outputs a model for each reading speed corresponding to the designated reading speed. The pose position prediction unit predicts the pose provision position of the text information by associating the feature amount vector with the model according to the reading speed selected by the model selection unit.
本発明のポーズ付与装置によれば、読み上げ速度別モデルを用いてテキスト情報にポーズを付与するので、読み上げ速度に対応した正確なポーズ付与位置を予測することが出来る。また、読み上げ速度が変化する前提で規則(モデル)を作成するので、ポーズ付与の精度を向上させることも可能である。 According to the pose imparting apparatus of the present invention, since a pose is imparted to text information using a model for each reading speed, an accurate pose imparting position corresponding to the reading speed can be predicted. Moreover, since the rule (model) is created on the premise that the reading speed changes, it is possible to improve the accuracy of the pose assignment.
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
〔発明の考え〕
実施例の説明の前にこの発明の新しい考え方を説明する。ある一定以上の長さの文を話す時、ゆっくり話した場合のポーズと、速く話した場合のポーズとは、異なるのが普通である。例えば、「大変貴重なお土産を頂きましてどうもありがとうございます。」の一文を、速く読む時は、「て」の後に1個目のポーズP1が置かれる可能性が高い。一方、遅く読む場合は、「貴重な」の後にポーズP1、「お土産を」の後にポーズP2、「て」の後にポーズP3が置かれても自然である。このようにテキスト情報を読み上げる速度によって、ポーズが付与される位置が自然に異なってくる。
Embodiments of the present invention will be described below with reference to the drawings. The same reference numerals are given to the same components in a plurality of drawings, and the description will not be repeated.
[Invention]
Prior to the description of the embodiments, a new concept of the present invention will be described. When speaking a sentence longer than a certain length, the pose when speaking slowly is usually different from the pose when speaking quickly. For example, when reading the sentence “Thank you very much for a very valuable souvenir.”, There is a high possibility that the first pose P1 will be placed after “Te”. On the other hand, when reading late, pose P 1 after “precious”, pose P 2 after “souvenir”, and pose P 3 after “te” are natural. Thus, the position where the pose is given naturally varies depending on the speed at which the text information is read out.
ポーズを付与するための特徴量として、例えば品詞列を用い、数単語分の部分的な品詞列で一致を見ると、完全に品詞列が同じとなる部分品詞列が現れる可能性が高い。その部分品詞列の中で、ポーズが付与される特徴的な部分品詞列を抽出してポーズ付与モデルを構成することで、正確で自然なポーズを付与することができ、自然で聞き取り易い音声合成音を生成することが可能になる。 If, for example, a part-of-speech string is used as a feature quantity for giving a pose, and a match is seen in partial part-of-speech strings for several words, there is a high possibility that a partial part-of-speech string with the same part-of-speech string appears. By extracting a characteristic partial part-of-speech sequence to which a pose is given from the partial part-of-speech sequence and constructing a pose assignment model, it is possible to assign an accurate and natural pose, and natural and easy-to-hear speech synthesis. Sound can be generated.
この発明は、例えば部分品詞列で表される特徴量を入力としてポーズの位置を決める従来のモデルを、読み上げ速度に対応させて用意し、指定される読み上げ速度とその速度に対応するモデルとテキスト情報から抽出した特徴量との対応関係からポーズ付与位置を予測するようにしたものである。この発明のポーズ付与装置によれば、ポーズ付与のモデルが読み上げ速度ごとに用意されるので、読み上げ速度に対応させた正確(自然)なポーズ位置情報を予測することが可能になる。 The present invention prepares a conventional model for determining the position of a pose by inputting, for example, a feature amount represented by a partial part-of-speech string, corresponding to the reading speed, and a model and text corresponding to the specified reading speed. The pose provision position is predicted from the correspondence with the feature amount extracted from the information. According to the pose imparting apparatus of the present invention, since a pose imparting model is prepared for each reading speed, accurate (natural) pose position information corresponding to the reading speed can be predicted.
図1に、この発明のポ−ズ付与装置100の機能構成例を示す。その動作フローを図2に示す。ポーズ付与装置100は、特徴量抽出部110と、読み上げ速度別モデル120と、モデル選択部130と、ポーズ位置予測部140と、制御部150と、を具備する。ポーズ付与装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。以降で説明する他の実施例についても同様である。
FIG. 1 shows an example of the functional configuration of a dose applying apparatus 100 according to the present invention. The operation flow is shown in FIG. The pose imparting apparatus 100 includes a feature
特徴量抽出部110は、テキスト情報を入力として、当該テキスト情報の特徴量である特徴量ベクトルを抽出する(ステップS110)。特徴量は、テキスト情報の単語を構成する例えば音節や品詞列である。これらの特徴量の抽出は、例えば参考文献1(松本裕治、形態素解析システム「茶筅」、情報処理、41(11), pp.1208-1214, 2000)の方法によって得ることが出来る。なお、音節の代わりに、単語の字面である出現形を用いることも可能である。
The feature
表1に、特徴量ベクトルの例として単語の出現形と品詞列の例を、「大変貴重なお土産を頂きましてどうもありがとうございます。」の一文の特徴量ベクトルを、単語の出現形と品詞列の例で示す。 Table 1 shows examples of feature vectors and examples of word appearances and part-of-speech sequences. “Thank you very much for receiving a very valuable souvenir.” This is shown in the example.
この出現形又は品詞、又は出現形と品詞を、時間軸方向に並べたものが特徴量ベクトルである。出現形Wと品詞Pで表せる特徴量ベクトルは、式(1)で表せる。 A feature quantity vector is the appearance form or part of speech, or the appearance form and part of speech arranged in the time axis direction. The feature quantity vector that can be represented by the appearance form W and the part of speech P can be represented by Expression (1).
特徴量ベクトルは、出現形Wのみで有っても良いし、品詞Pのみで有っても良い。この特徴量ベクトルは、判定対象の単語から文頭側の複数個の単語と、判定対象の単語から文末側の複数個の単語から上記した出現形や品詞を取り出して作成する。nは、最も文頭側の単語から最も文末側の単語に向かって数えた数の最大値であり、予め実験によって決めることができる。 The feature quantity vector may be only the appearance form W or only the part of speech P. This feature quantity vector is created by extracting the above-mentioned appearance form and part of speech from a plurality of words on the sentence head side from the word to be judged and a plurality of words on the sentence end side from the word to be judged. n is the maximum value of the number counted from the word at the beginning of the sentence toward the word at the end of the sentence, and can be determined in advance by experiment.
読み上げ速度別モデル120は、上記テキスト情報から抽出した特徴量と速度別のポーズ付与位置の記録されたデータから作成されたそれぞれの読み上げ速度に対応した統計的モデルであり、当該統計的モデルと特徴量ベクトルとを対応させることでポーズを置く又は置かないを意味するポーズ情報を与えるものである。統計的モデルは、例えば、ポーズの有無を分類する分類木である。分類木は、非特許文献1に記載されたClassification and Regression Treeのことであり、周知なものである。分類木は、式(2)で表せる確率モデル(CRF:Conditional Random Field)に置き代えても良い。確率モデルP(y|x)も、参考文献2(奥村監修、高村著、「言語処理のための機械学習入門」、コロナ社、p.153)に記載されているように周知なものである。
The
ここでxは、出現形Wや品詞Pで表される特徴量ベクトル、yは、ポーズを付与する/しないを表す変数を表す記号である。φは素性ベクトルであり、xとyを引数にとり、上記した様々なxに対して、yがポーズを置くことを表す場合に1を、置かない場合に0を返す関数をベクトル状にしたものである。wは各素性関数φの重みベクトルである。Zx,wはP(y|x)の総和が1になるようにするための正規化項である。「・」はベクトル間の内積を示す。これらw,φ,Zx,wによって読み上げ速度別モデル120が構成される。これらの分類木と確率モデルは、従来からの周知な一般的な手法によって作成することが出来る。そして、付与する場合と付与しない場合の確率値の大きな方を用いて、ポーズ付与判定が実現できる。
Here, x is a feature vector represented by the appearance form W or the part of speech P, and y is a symbol representing a variable indicating whether or not a pose is given. φ is a feature vector that takes x and y as arguments, and for each of the various types of x described above, a function that returns 1 if y indicates that a pose is placed and returns 0 if it is not placed is a vector It is. w is a weight vector of each feature function φ. Z x, w are normalization terms for making the sum of P (y | x) equal to 1. “·” Indicates an inner product between vectors. These w, φ, Z x, and w constitute a
読み上げ速度別モデル120は、分類木で有っても良いし、確率モデルであっても良い。又は、n-gramモデルで有っても良い。このような読み上げ速度別モデル120を、例えば、低速度用モデル1201、中速度用モデル1202、高速度用モデル1203の様に、読み上げ速度別に用意しておく。
The
中速度用モデル1202は、例えば、アナウンサーの標準的な読み上げ速度である一分当たり約400文字(参考文献3:三木朋乃ほか、「NHK放送技術研究所・NHKエンジニアリングサービス・日本ビクター 話速変換技術を搭載したラジオ・テレビの開発」大河内賞ケース研究プロジェクト、IIRケーススタディCASE#10-03,一橋大学イノベーション研究センター,2010年4月)の読み上げ速度を想定したモデルとすることも可能である。低速度用モデル1201は中速度用モデル1202の例えば80%程度の読み上げ速度を想定したモデル、高速度用モデル1203は中速度用モデル1202の例えば120%程度の読み上げ速度を想定したモデルとすることも可能である。このように具体的な読み上げ速度を指標として学習された読み上げ速度別モデル120は、そもそも読み上げ速度に対応させる考えの無い従来のモデルよりも、ポーズ付与の精度を正確なものにすることが出来る。
Speed for the
モデル選択部130は、指定読み上げ速度と速度別モデルとを入力として、上記指定読み上げ速度に対応した読み上げ速度別モデルを選択して出力する(ステップS130)。外部から入力される指定読み上げ速度が「低速」の場合、モデル選択部130は、低速度用モデル1201を選択してポーズ位置予測部140に出力する。指定読み上げ速度が「中速」の場合は中速度用モデル1202、「高速」の場合は高速度用モデル1203がそれぞれ選択される。
The
ポーズ位置予測部140は、特徴量抽出部110が出力する特徴量ベクトルを入力として、当該特徴量ベクトルとモデル選択部130で選択された読み上げ速度別モデルとを対応させることでテキスト情報のポーズ付与位置を予測する(ステップS140)。ステップS110とステップS140は、全てのテキスト情報についての処理が終了するまで繰り返される(ステップS150のNo)。この繰り返し動作の処理は制御部150で行う。制御部150は、ポーズ付与装置100の各部の時系列動作を制御する一般的なものであり、特別な処理を行うものではない。
The pose
ポーズ付与位置の予測を、図3を参照して説明する。図3は、分類木で表される読み上げ速度別モデルの例の一部である。図3は、品詞列と出現形で表される特徴量ベクトルに対応した分類木であり、上記した一文の「大変貴重な」の部分の処理に対応する一部を表記したものである。表1のように、「大変」がW1、「貴重」がW2、「な」がW3である。W3の直後にポーズを置くか否かの判定の場合を説明する。「大変貴重な」の特徴量ベクトルで、分類木を辿ると、出現形W1の品詞P1は名詞(ステップS1201のYes)、出現形W2の品詞P2は名詞・形容動詞語幹(ステップS1202のYes)、出現形W3の品詞P3は助動詞(ステップS1203のYes)、の分岐を辿り、出現形W3=「な」なので(ステップS1204のYes)、出現形W3の後にポーズを付与する(ステップS1205)。この場合、ポーズ位置予測部140は、例えば「ポーズ付与」を出力する。ポーズ付与は、出現形W3の後にポーズを付与することを意味する。出現形W3が「な」以外の場合は出現形W3の後にポーズを付与しない(ステップS1206)。
The prediction of the pose assignment position will be described with reference to FIG. FIG. 3 is a part of an example of a model for each reading speed represented by a classification tree. FIG. 3 is a classification tree corresponding to the feature vector represented by the part-of-speech string and the appearance form, and shows a part corresponding to the processing of the “very valuable” part of the above sentence. As shown in Table 1, “very” is W 1 , “precious” is W 2 , and “na” is W 3 . In the case of determining whether placing a pause immediately after the W 3 will be described. In feature vector of "very valuable", and follow the classification tree, (Yes of step S1201) part of speech P 1 of appearance form W 1 is a noun, appearance form part of speech P 2 of the W 2 is a noun, adjective stem (step Yes of S1202), part of speech P 3 is an auxiliary verb of appearance form W 3 (Yes of step S1203), follow a branch of, Yes occurred form W 3 = so "Do" (step S1204), pose after the appearance form W 3 Is assigned (step S1205). In this case, the pose
このように、特徴量ベクトルと読み上げ速度別モデルを対応させるとは、特徴量ベクトルで例えば分類木で構成された読み上げ速度別モデル120を辿ることである。このように、分類木で構成された読み上げ速度別モデル120を、特徴量ベクトルで辿ることでポーズを付与する位置を予測することが出来る。ここではW3の文頭側の単語のみを利用してポーズを付与するか否かの判定を行ったが、W3よりも文末側の単語が分類木の分岐点に来る場合にも同様に木を辿ることで、ポーズを付与するか否かの判定を行うことが可能である。
As described above, the correspondence between the feature amount vector and the model according to the reading speed is to trace the
図3に示した分類木から成る読み上げ速度別モデルを、例えば低速度用モデル1201とした場合で、例えばテキスト情報を「大変貴重なお土産を頂きましてどうもありがとうございます」とし、ポーズ位置を読点「、」で表すとすると、ポーズ情報は「大変貴重な、お土産を、頂きまして、ありがとうございます」の3箇所に付与される。
The reading speed by model consists of classification tree shown in FIG. 3, for example in the case of a low speed for
また、高速度用モデル1203とした場合のポーズ情報は、例えば「大変貴重なお土産を頂きまして、ありがとうございます」の1箇所に付与される。このように読み上げ速度別のモデルを用意しておくことで、同じテキスト情報に対して、指定された読み上げ速度に対応した正確で自然なポーズを付与することが可能である。
The pose information in the case of the high-
式(2)で示した確率モデルを用いてポーズを付与する方法について説明する。式(2)の確率モデルの場合は、モデル構築の際に、特徴ベクトルxの要素の部分集合から成るベクトルとポーズを置くか否かというyとの様々な組であるφに対して、重みwが計算される。φで参照するxの部分集合は、モデルの設計者がポーズ付与に関する知識に基づいて様々に選択し、設定することができる。 A method for assigning a pose using the probability model expressed by Equation (2) will be described. In the case of the probabilistic model of the formula (2), weights are given to φ, which are various combinations of a vector composed of a subset of elements of the feature vector x and y indicating whether or not to place a pose at the time of model construction. w is calculated. The subset of x referred to by φ can be selected and set in various ways by the model designer based on knowledge regarding pose assignment.
例えば、W1単独とy、W2とW3とy、W1とW2とW3とyから3つのφを作ることができる。また、モデル構築時のデータを用いて重みwを決めることができる。例えば、上記した「大変貴重な」の部分の「な」の後でのポーズ付与を判定する際には、これら3つのφが1か0かを計算し、それぞれに重みを掛け合わせて足し合わせ(つまり、wとφの内積計算)、指数関数を通した値が確率値となる。この確率値をポーズを付与する場合としない場合の両方について算出し、確率値の大きな方を結果として採用する。 For example, three φs can be formed from W 1 alone and y, W 2 and W 3 and y, and W 1 and W 2 , W 3 and y. Further, the weight w can be determined using data at the time of model construction. For example, when determining whether to give a pose after “na” in the “very precious” portion described above, calculate whether these three φs are 1 or 0, and multiply each by adding a weight. (In other words, inner product calculation of w and φ), a value obtained through an exponential function is a probability value. This probability value is calculated for both cases with and without a pause, and the larger probability value is adopted as a result.
図4に、この発明のポ−ズ付与装置200の機能構成例を示す。その動作フローを図5に示す。ポーズ付与装置200は、特徴量抽出部110と、全速度モデル220と、ポーズ位置予測部240と、を具備する。
FIG. 4 shows an example of the functional configuration of the position imparting device 200 of the present invention. The operation flow is shown in FIG. The pose imparting apparatus 200 includes a feature
特徴量抽出部110は、テキスト情報を入力として、当該テキスト情報の特徴量である特徴量ベクトルを抽出する(ステップS110)。特徴抽出部110は、参照符号から明らかなようにポーズ付与装置100と同じものであり、抽出する特徴量も同じである。
The feature
全速度モデル220は、テキスト情報から抽出した特徴量から作成した複数の読み上げ速度に対応した統計的モデルであり、当該統計的モデルと上記特徴量ベクトルとを対応させることで、ポーズを置く又は置かないを意味するポーズ情報を与えるものである。
The
全速度モデル220は、上記した低速度用モデル1201、中速度用モデル1202、高速度用モデル1203、などの複数の読み上げ速度の統計モデルを内包したものである。図6に、全速度モデル220を概念的に示す。
The
図6(a)は、全速度モデル220を構成する分類木の根元の分岐点に速度の特徴量が配置された例を示す。読み上げ速度別モデル120(図1)に示した低速度用モデル1201と中速度用モデル1202と高速度用モデル1203とが、1個の分類木として全速度モデル220を構成している。
FIG. 6A shows an example in which velocity feature quantities are arranged at the branch points at the roots of the classification tree constituting the
図6(b)は、速度の特徴量が、分類木の様々な分岐点に配置された全速度モデル220′の例を示す。このように、速度の特徴量による分岐は分類木の様々な部分に有っても構わない。図6中に示す「¬V1」や「¬V2」や「¬V3」は速度では無いそれぞれ異なる特徴量による分岐を意味している。図6に示した構造の全速度モデル220,220′は、上記した読み上げ速度別モデルと同様に従来からの手法によって作成することが出来る一般的なものである。
FIG. 6B shows an example of the
ポーズ位置予測部240は、外部から入力される指定読み上げ速度と特徴量抽出部110が出力する特徴量とからなる特徴量ベクトルを作成し、当該特徴量ベクトルと全速度モデル220とを対応させることでポーズ付与位置を予測する(ステップS240)。ステップS110とステップS240は、全てのテキスト情報についての処理が終了するまで繰り返される(ステップS250のNo)。この繰り返し動作の処理は制御部250で行う。
The pose
以上説明したポーズ付与装置200の構成でも、音声合成用のテキスト情報に対して指定された読み上げ速度に対応させた正確で自然な位置に、ポーズを付与することが可能である。 Even with the configuration of the pose imparting apparatus 200 described above, it is possible to impart a pose to an accurate and natural position corresponding to the reading speed specified for the text information for speech synthesis.
上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。 When the processing means in the above apparatus is realized by a computer, the processing contents of the functions that each apparatus should have are described by a program. Then, by executing this program on the computer, the processing means in each apparatus is realized on the computer.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Further, the program may be distributed by storing the program in a recording device of a server computer and transferring the program from the server computer to another computer via a network.
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 Each means may be configured by executing a predetermined program on a computer, or at least a part of these processing contents may be realized by hardware.
Claims (6)
上記特徴量ベクトルとポーズを置く又は置かないを意味するポーズ情報とを対応付ける読み上げ速度別モデルと、
指定読み上げ速度と読み上げ速度別モデルとを入力として、上記指定読み上げ速度に対応した読み上げ速度別モデルを選択して出力するモデル選択部と、
上記特徴量ベクトルを入力として、当該特徴量ベクトルと上記モデル選択部で選択された読み上げ速度別モデルを対応させることで上記テキスト情報のポーズ付与位置を予測するポーズ位置予測部と、
を具備するポーズ付与装置。 A feature quantity extraction unit that extracts text vector, which is a feature quantity necessary for pose position prediction, using text information as input;
A model according to the reading speed that associates the feature vector with pose information that indicates whether or not to place a pose;
A model selection unit for selecting and outputting a model according to the reading speed corresponding to the specified reading speed, with the specified reading speed and the reading speed model as inputs,
A pose position prediction unit that predicts a pose imparting position of the text information by associating the feature amount vector with the model according to the reading speed selected by the model selection unit,
A pose imparting device comprising:
上記特徴量ベクトルと入力された指定読み上げ速度とポーズを置く又は置かないを意味するポーズ情報とを対応付ける全速度モデルと、
指定読み上げ速度と上記特徴量ベクトルとを入力として、上記指定読み上げ速度と上記特徴量ベクトルと上記全速度モデルとを対応させることで上記テキスト情報のポーズ付与位置を予測するポーズ位置予測部と、
を具備するポーズ付与装置。 A feature quantity extraction unit that extracts text vector, which is a feature quantity necessary for pose position prediction, using text information as input;
A total speed model that associates the feature vector with the input designated reading speed and pose information that indicates whether or not to place a pose;
A pose position prediction unit that predicts a pose imparting position of the text information by associating the designated reading speed and the feature vector with the specified reading speed, the feature vector, and the entire speed model;
A pose imparting device comprising:
上記特徴量ベクトルは、次式で表される
The feature vector is expressed by the following equation:
指定読み上げ速度と、上記特徴量ベクトルとポーズを置く又は置かないを意味するポーズ情報とを対応付ける読み上げ速度別モデルとを入力として、上記指定読み上げ速度に対応した読み上げ速度別モデルを選択して出力するモデル選択過程と、
上記特徴量ベクトルを入力として、当該特徴量ベクトルと上記モデル選択部で選択された読み上げ速度別モデルを対応させることで上記テキスト情報のポーズ付与位置を予測するポーズ位置予測過程と、
を備えるポーズ付与方法。 A feature quantity extraction process for extracting a feature quantity vector, which is a feature quantity necessary for pose position prediction, using text information as input,
A model for each reading speed corresponding to the above-mentioned designated reading speed is selected and output by inputting a model for each reading speed associating the designated reading speed with the feature vector and the pose information indicating that the pose is placed or not. The model selection process,
A pose position prediction process for predicting a pose imparting position of the text information by associating the feature quantity vector with the model according to the reading speed selected by the model selection unit, using the feature quantity vector as an input;
A pose granting method comprising:
指定読み上げ速度と上記特徴量ベクトルとポーズを置く又は置かないを意味するポーズ情報とを対応付ける全速度モデルを入力とし、上記指定読み上げ速度と上記特徴量ベクトルと上記全速度モデルを対応させることで上記テキスト情報のポーズ付与位置を予測するポーズ位置予測過程と、
を備えるポーズ付与方法。 A feature quantity extraction process for extracting a feature quantity vector, which is a feature quantity necessary for pose position prediction, using text information as input,
By inputting a total speed model that associates the designated reading speed with the feature vector and pose information that indicates whether or not to place a pose, the correspondence between the designated reading speed, the feature vector, and the whole speed model A pause position prediction process for predicting a pause position of text information;
A pose granting method comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013100502A JP6009403B2 (en) | 2013-05-10 | 2013-05-10 | Pause imparting apparatus, method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013100502A JP6009403B2 (en) | 2013-05-10 | 2013-05-10 | Pause imparting apparatus, method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014219635A true JP2014219635A (en) | 2014-11-20 |
JP6009403B2 JP6009403B2 (en) | 2016-10-19 |
Family
ID=51938086
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013100502A Active JP6009403B2 (en) | 2013-05-10 | 2013-05-10 | Pause imparting apparatus, method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6009403B2 (en) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02115898A (en) * | 1988-10-25 | 1990-04-27 | Nec Corp | Determination system for pause insertion position |
JPH056191A (en) * | 1991-06-27 | 1993-01-14 | Matsushita Electric Ind Co Ltd | Voice synthesizing device |
JPH0659695A (en) * | 1992-08-11 | 1994-03-04 | A T R Jido Honyaku Denwa Kenkyusho:Kk | Voice regulation synthesizing device |
JPH06214585A (en) * | 1993-01-18 | 1994-08-05 | Toshiba Corp | Voice synthesizer |
JPH06342297A (en) * | 1993-06-02 | 1994-12-13 | Sony Corp | Speech synthesizing device |
JP2007079351A (en) * | 2005-09-16 | 2007-03-29 | Advanced Telecommunication Research Institute International | Speech synthesizer, learning data generating device, pause predicting device, and program |
-
2013
- 2013-05-10 JP JP2013100502A patent/JP6009403B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02115898A (en) * | 1988-10-25 | 1990-04-27 | Nec Corp | Determination system for pause insertion position |
JPH056191A (en) * | 1991-06-27 | 1993-01-14 | Matsushita Electric Ind Co Ltd | Voice synthesizing device |
JPH0659695A (en) * | 1992-08-11 | 1994-03-04 | A T R Jido Honyaku Denwa Kenkyusho:Kk | Voice regulation synthesizing device |
JPH06214585A (en) * | 1993-01-18 | 1994-08-05 | Toshiba Corp | Voice synthesizer |
JPH06342297A (en) * | 1993-06-02 | 1994-12-13 | Sony Corp | Speech synthesizing device |
JP2007079351A (en) * | 2005-09-16 | 2007-03-29 | Advanced Telecommunication Research Institute International | Speech synthesizer, learning data generating device, pause predicting device, and program |
Non-Patent Citations (1)
Title |
---|
JPN6016008686; 坂田貴彦,外2名: '発話速度のポーズ生成に与える影響とその規則化に関する研究' 電子情報通信学会総合大会講演論文集 情報・システム1, 19980306, p.223, 社団法人電子情報通信学会 * |
Also Published As
Publication number | Publication date |
---|---|
JP6009403B2 (en) | 2016-10-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108288468B (en) | Audio recognition method and device | |
CN1540625B (en) | Front end architecture for multi-lingual text-to-speech system | |
JP4985974B2 (en) | COMMUNICATION SUPPORT METHOD, SYSTEM, AND SERVER DEVICE | |
CN109918657A (en) | A method of extracting target keyword from text | |
CN109117470B (en) | Evaluation relation extraction method and device for evaluating text information | |
KR102398993B1 (en) | Apparatus for generating text and method thereof | |
Doumbouya et al. | Using radio archives for low-resource speech recognition: towards an intelligent virtual assistant for illiterate users | |
JP6551968B2 (en) | Implication pair expansion device, computer program therefor, and question answering system | |
Pravena et al. | Significance of incorporating excitation source parameters for improved emotion recognition from speech and electroglottographic signals | |
CN109299272B (en) | Large-information-quantity text representation method for neural network input | |
Öktem et al. | Attentional parallel RNNs for generating punctuation in transcribed speech | |
Goel et al. | Cross lingual cross corpus speech emotion recognition | |
Javed et al. | Indicsuperb: A speech processing universal performance benchmark for indian languages | |
KR101675957B1 (en) | System and Method for Predicting Music Popularity using the Signal Component Analysis | |
Koutini et al. | Learning general audio representations with large-scale training of patchout audio transformers | |
CN112883713A (en) | Evaluation object extraction method and device based on convolutional neural network | |
Kaur et al. | PuPoCl: Development of Punjabi Poetry Classifier Using Linguistic Features and Weighting. | |
Bharti et al. | Automated speech to sign language conversion using Google API and NLP | |
JP6009403B2 (en) | Pause imparting apparatus, method and program | |
JP2014232145A (en) | Pause application model selection apparatus, pause application device, methods thereof, and program | |
Wohlgenannt et al. | Relation extraction datasets in the digital humanities domain and their evaluation with word embeddings | |
Hamza et al. | MaroBERTa: Multilabel Classification Language Model for Darija Newspaper | |
JP2015210342A (en) | Utterance generation method learning device, utterance generation method selection device, utterance generation method leaning method, utterance generation method selection method, and program | |
Sukhummek et al. | Feature selection experiments on emotional speech classification | |
Barhoumi et al. | Real-Time Speech Emotion Recognition Using Deep Learning and Data Augmentation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150615 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160308 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160418 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160913 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160914 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6009403 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |