JP5218971B2 - Voice message creation apparatus and method - Google Patents
Voice message creation apparatus and method Download PDFInfo
- Publication number
- JP5218971B2 JP5218971B2 JP2008197827A JP2008197827A JP5218971B2 JP 5218971 B2 JP5218971 B2 JP 5218971B2 JP 2008197827 A JP2008197827 A JP 2008197827A JP 2008197827 A JP2008197827 A JP 2008197827A JP 5218971 B2 JP5218971 B2 JP 5218971B2
- Authority
- JP
- Japan
- Prior art keywords
- voice data
- real voice
- voice
- real
- acoustic feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Navigation (AREA)
Abstract
Description
本願明細書で開示される技術は、音声メッセージを作成する装置に関し、特に、複数の音片を接続して音声メッセージを作成する装置に関する。 The technology disclosed in this specification relates to an apparatus for creating a voice message, and more particularly to an apparatus for creating a voice message by connecting a plurality of sound pieces.
鉄道の駅での構内放送音声及びカーナビゲーションシステムのルート案内音声など、複数の音片を接続して音声メッセージを作成するシステムが幅広く利用されている。ここでいう音片とは、単語、音節又はそれらが複数繋がったフレーズなどを単位として構成される。録音した肉声をそのまま音片として用いる場合と、音声合成技術によって生成された合成音声を音片として用いる場合とがある。 Systems that create a voice message by connecting a plurality of sound pieces, such as on-site broadcast voice at a railway station and route guidance voice of a car navigation system, are widely used. The sound piece here is configured with a unit of a word, a syllable, or a phrase in which a plurality of them are connected. There are a case where the recorded real voice is used as a sound piece as it is, and a case where a synthesized voice generated by the speech synthesis technique is used as a sound piece.
このようなシステムでは、作成された音声メッセージの品質劣化要因として、次の二つが存在する。 In such a system, the following two factors exist as quality degradation factors of the created voice message.
第1の品質劣化要因は、録音した肉声をそのまま音片として利用する場合に、音片間で声質に差異が生じることである。一般に音片作成のための音声収録作業は長期間に渡る場合が多いため、全収録期間に渡って発話者の声質を一定に保つことは極めて困難である。そのため、作成した音片データベース内には声質のバラつきが存在し、これが音声メッセージとして接続されたときの品質劣化要因となる。 The first quality deterioration factor is that a difference in voice quality occurs between sound pieces when the recorded real voice is directly used as a sound piece. In general, since voice recording work for creating a piece often involves a long period of time, it is extremely difficult to keep the voice quality of a speaker constant over the entire recording period. Therefore, there is a variation in voice quality in the created sound piece database, which becomes a quality deterioration factor when connected as a voice message.
第2の品質劣化要因は、録音した肉声音片の声質と、合成音声音片の声質とに差異が生じることである。近年、音声合成技術の進歩は目覚しく、合成音声品質は以前と比較すると格段に向上した。しかし、合成音声を肉声と比較した場合には依然として声質差があり、これが音声メッセージとして接続されたときの品質劣化要因となる。 A second quality deterioration factor is that a difference occurs between the voice quality of the recorded real voice sound piece and the voice quality of the synthesized voice sound piece. In recent years, the progress of speech synthesis technology has been remarkable, and the quality of synthesized speech has been greatly improved compared to the past. However, when the synthesized voice is compared with the real voice, there is still a voice quality difference, which becomes a quality deterioration factor when connected as a voice message.
このような、接続された音片間の音質差による品質劣化問題に対する対策として、例えば特許文献1に示すような技術が存在する。特許文献1によれば、肉声音片のビットレートを下げることによって、肉声音片と合成音片との音質差が低減される。
As a countermeasure against such a quality deterioration problem due to a difference in sound quality between connected sound pieces, for example, a technique as shown in
特許文献2には、任意の韻律を有する合成音声を作成する技術が開示されている。
非特許文献1及び非特許文献2には、音片の声質を変換する技術が開示されている。
上記の特許文献1に開示された技術によれば、合成音片の音質が肉声音片の音質より低いという前提で、肉声音片の音質を下げることによって両者の音質差が低減される。このため、音声メッセージ全体の音質が不均一であることに起因する品質劣化の問題は改善される。しかし、ビットレート低下によって、作成された音声メッセージ全体の音質が大きく劣化するという問題がある。また、ビットレートの低下によって音質を低下させることはできるが、声質を調整することはできない。このため、特許文献1に開示された技術によれば、肉声音片間の声質差による品質劣化を解消することができない。さらに、合成音片と肉声音片の声質差を解消することもできない。
According to the technique disclosed in
本願で開示する代表的な発明は、肉声音声データを用いて音声メッセージを作成する音声メッセージ作成装置であって、前記肉声音声データがあらかじめ格納された記憶装置と、前記記憶装置に接続されるプロセッサと、前記プロセッサに接続される入力装置及び出力装置と、を備え、テキストを指定する情報を入力されると、前記入力された情報によって指定されたテキストに対応する肉声音声データを特定し、前記指定されたテキストに対応する合成音声データを、前記合成音声データの韻律が前記特定された肉声音声データの韻律と等しくなるように作成し、前記特定された肉声音声データの音響特徴量と、前記作成された合成音声データの音響特徴量である基準音響特徴量との差分を算出し、前記算出された差分と、前記特定された肉声音声データの重要度を示す値と、に基づいて、前記特定された肉声音声データの音響特徴量を変換するか否かを判定し、前記特定された肉声音声データの音響特徴量を変換すると判定された場合、前記特定された肉声音声データの音響特徴量を、前記基準音響特徴量との差分が小さくなるように変換し、前記音響特徴量を変換された肉声音声データに基づく音声メッセージを作成し、前記特定された肉声音声データの音響特徴量を変換しないと判定された場合、前記特定された肉声音声データに基づく音声メッセージを作成することを特徴とする。 A representative invention disclosed in the present application is a voice message creation device for creating a voice message using real voice data, a storage device in which the real voice data is stored in advance, and a processor connected to the storage device If, and an input device and an output device coupled to the processor, the input information specifying the text to identify the human voice sound data corresponding to the specified text by the input information, the the synthesized speech data corresponding to the specified text, the prosody of the synthesized speech data is created to equal the prosody of human voice audio data the specific, the acoustic features of human voice audio data the specified, the It calculates a difference between the reference acoustic features an acoustic feature quantity of synthesized speech data generated, and the calculated difference, which is the specific Determining whether to convert the acoustic feature quantity of the identified real voice data based on a value indicating the importance of the voice voice data, and converting the acoustic feature quantity of the identified real voice data If determined, the acoustic feature amount of the identified real voice data is converted so that a difference from the reference acoustic feature amount is small , and a voice message based on the converted real voice data is converted into a voice message. If it is determined that the acoustic feature amount of the identified real voice data is not to be converted, a voice message based on the identified real voice data is created.
本発明の一実施形態によれば、肉声音片ごとに声質変換コストを算出し、肉声音片の声質変換コストが閾値以下である音片に対してのみ声質変換を行うことによって、声質変換による音声メッセージの品質劣化を最小限に抑えながら、音声メッセージ内での声質を均一にすることができる。これによって、高品質な音声メッセージを作成することができる。 According to an embodiment of the present invention, the voice quality conversion cost is calculated for each real voice sound piece, and the voice quality conversion is performed only on the sound piece whose voice quality conversion cost is equal to or less than the threshold value. The voice quality in the voice message can be made uniform while minimizing the quality degradation of the voice message. As a result, a high-quality voice message can be created.
以下、図面を参照して本発明の一実施形態を説明する。 Hereinafter, an embodiment of the present invention will be described with reference to the drawings.
図1は、本発明の実施形態の音声メッセージ作成装置の概略構成を示すブロック図である。 FIG. 1 is a block diagram showing a schematic configuration of a voice message creating apparatus according to an embodiment of the present invention.
本実施形態の音声メッセージ作成装置は、入力部1、出力部2、記憶部3、音声メッセージ作成部4、音声合成部5、声質差分量計算部6、声質変換音片決定部7及び声質変換部8を備える。
The voice message creation device of this embodiment includes an
入力部1は、音声メッセージを作成するためのテキスト又は音片列情報の入力を受け付ける。
The
出力部2は、作成された音声メッセージを出力するほか、操作経過及び操作結果も出力する。
In addition to outputting the created voice message, the
記憶部3は、本発明を実施するにあたって必要となるプログラム及びデータを格納する。 The storage unit 3 stores programs and data necessary for carrying out the present invention.
音声メッセージ作成部4は、入力部1に入力されたテキスト又は音片列情報に基づいて音声メッセージを作成するために必要な音片を決定し、声質変換された音片を接続することによって音声メッセージを作成する。
The voice message creation unit 4 determines a voice piece necessary for creating a voice message based on the text or the voice piece string information input to the
音声合成部5は、音声メッセージ作成に必要な音片を、入力されたテキストに基づいて合成する。
The
声質差分量計算部6は、肉声音片ごとに、その肉声音片と、その肉声音片と韻律が等しくなるように作成された合成音片と、の声質の差分量を計算する。
The voice quality difference
声質変換音片決定部7は、声質差分量計算部6で計算された声質差分量と、肉声音片ごとの音片情報と、に基づいて声質変換コストを算出し、その声質変換コストに基づいて、声質変換の対象の肉声音片を決定する。
The voice quality conversion sound piece determination unit 7 calculates a voice quality conversion cost based on the voice quality difference amount calculated by the voice quality difference
声質変換部8は、声質変換音片決定部7で決定された肉声音片を声質変換する。 The voice quality conversion unit 8 converts the voice quality of the real voice sound piece determined by the voice quality conversion sound piece determination unit 7.
ここで、「韻律」及び「声質」の概念について説明する。声を聴く者は、その声の聴感上の種々の特徴を認識することができる。声の特徴のうち、声の高さ、声の大きさ及び話す速さは、本実施形態において「韻律」と記載される。一方、声の特徴のうち、韻律に含まれないものは、本実施形態において「声質」と記載される。声質は、聴感上、例えば、声の太さ、声のかすれの程度等のように認識される。声の特徴のうち、測定によって数値化されたものは、音響特徴量と呼ばれる。音響特徴量として扱われるパラメータの代表的なものは、例えば、スペクトル、ケプストラム、Δケプストラム及びメルケプストラム等である。 Here, the concepts of “prosody” and “voice quality” will be described. A person who listens to the voice can recognize various characteristics of the audibility of the voice. Among the features of the voice, the pitch, the loudness, and the speaking speed are described as “prosody” in the present embodiment. On the other hand, among the features of the voice, those not included in the prosody are described as “voice quality” in the present embodiment. The voice quality is recognized from the viewpoint of hearing, for example, the thickness of the voice, the degree of voice blur, and the like. Of the voice features, those digitized by measurement are called acoustic features. Typical parameters treated as acoustic features are, for example, spectrum, cepstrum, Δ cepstrum, mel cepstrum, and the like.
図2は、本発明の実施形態の音声メッセージ作成装置のハードウェア構成を示すブロック図である。 FIG. 2 is a block diagram showing a hardware configuration of the voice message creation device according to the embodiment of the present invention.
図1に示す音声メッセージ作成装置は、図2に示すハードウェアによって実現される。 The voice message creation device shown in FIG. 1 is realized by the hardware shown in FIG.
本実施形態の音声メッセージ作成装置は、相互に通信可能に接続された制御装置110、記憶装置120、入力装置130及び出力装置140を備える。
The voice message creation device according to the present embodiment includes a
制御装置110は、本実施形態の動作を制御する。制御装置110は、CPU111及びメモリ112を備える。CPU111は、メモリ112に格納されたプログラムを実行するプロセッサである。メモリ112は、例えば半導体メモリであり、CPU111によって実行されるプログラム及びCPU111によって参照されるデータを格納する。メモリ112に格納されるプログラム及びデータは、記憶装置120に格納され、必要に応じて記憶装置120からメモリ112にコピーされてもよい。CPU111は、メモリ112に格納されたプログラムを実行することによって、記憶装置120、入力装置130及び出力装置140におけるデータの入出力及びその他の種々の処理を制御する。
The
記憶装置120は、図1の記憶部3に相当する。記憶装置120は、CPU111によって実行されるプログラム及びCPU111によって参照されるデータを格納する。記憶装置120は、例えば、ハードディスクドライブ(HDD)のようなディスク装置又はフラッシュメモリのような半導体メモリであってもよい。本実施形態の記憶装置120には、音声メッセージ作成部121、音声合成部122、声質差分量計算部123、声質変換音片決定部124及び声質変換部125が格納される。CPU111がこれらを実行することによって、図1に示す音声メッセージ作成部4、音声合成部5、声質差分量計算部6、声質変換音片決定部7及び声質変換部8が実現される。
The
記憶装置120には、さらに、音声データベース126が格納される。音声データベース126は、種々のテキストに対応する音片のデータ(すなわち、話者が種々のテキストを発話することによって得られた肉声音片をA/D変換することによって得られたデータ)を含む。
The
入力装置130は、図1の入力部1に相当する。入力装置130は、キーボード133及びマウス134を備える。キーボード133及びマウス134は、操作者による指示などを受け付け、その指示を制御装置110に送信するインターフェースである。入力装置130は、キーボード133及びマウス134の代わりに(又はそれらに加えて)、いかなる種類のインターフェースを備えてもよい。操作者は、入力装置を操作することによって、テキスト又は音片列情報を音声メッセージ作成装置に入力することができる。
The
出力装置140は、図1の出力部2に相当する。出力装置140は、デジタル/アナログ(D/A)変換器141、スピーカ142及びディスプレイ143を備える。D/A変換器141は、音声データをアナログ電気信号に変換する。スピーカ142は、D/A変換器141から出力されたアナログ電気信号を音声に変換する。ディスプレイ143は、操作者に種々の情報を表示するインターフェースである。
The
なお、本実施の形態の音声メッセージ作成部4、音声合成部5、声質差分量計算部6、声質変換音片決定部7及び声質変換部8は、図2に示すように、メモリ112に格納されたプログラムをCPU111が実行することによって実現される。しかし、これらは、音声メッセージ作成装置内に設けられた専用のハードウェア(例えば、専用プロセッサ)等によって実現されてもよい。
Note that the voice message creation unit 4, the
図3は、本発明の実施形態の音声メッセージ作成装置の全体の動作を示すフローチャートである。 FIG. 3 is a flowchart showing the overall operation of the voice message creation apparatus according to the embodiment of the present invention.
図1の音声メッセージ作成装置において、まず、音声メッセージ作成部4が、入力部1に入力されたテキスト又は音片列情報に基づいて、音声メッセージを作成するために利用するデータベース内の音片を決定する(ステップS201)。利用する音片として決定された結果の一例を図4(a)に示す。テキスト302は、入力されたテキストである。音片ID301は、入力されたテキストに対応する肉声音片に付与されたIDである。このIDは、音声データベース126内で肉声音片のデータを識別するために付与されたものである。入力されたテキスト302に対応する肉声音片のデータが音声データベース126内に存在しない場合、そのテキスト302に対応する音片ID301は空欄となる。このようなテキスト302に対応する音片は、合成音声によって生成する必要がある。
In the voice message creation device of FIG. 1, first, the voice message creation unit 4 selects a speech piece in a database used for creating a voice message based on the text or the speech piece string information input to the
図4(a)は、例として、「まもなく中野坂上交差点を右方向そのあとしばらく道なりです」というテキストが入力された場合にステップS201において決定された結果を示す。この例において、テキスト「まもなく」、「右方向」、「そのあと」及び「しばらく道なりです」に対応する肉声音片のデータは、音声データベース126に格納されている。一方、テキスト「中野坂上交差点を」に対応する肉声音片のデータは、音声データベース126に格納されていない。このため、テキスト「中野坂上交差点を」に対応する音片ID301は空欄である。
FIG. 4A shows, as an example, the result determined in step S <b> 201 when the text “soon to the right after Nakano Sakaue intersection” is input for a while. In this example, the data of the real voice component corresponding to the text “Soon”, “Right”, “After that”, and “For a while” is stored in the
次に、音声合成部5が、肉声音片が存在しないテキストに対対応する合成音声(すなわち、そのテキストを読み上げる合成音声)を生成する(ステップS202)。この合成音声の生成は、従来から知られているいかなる方法によって行われてもよい。合成音声生成後の利用音片決定結果の一例を図4(b)に示す。図4(b)の例において、音片ID301の先頭がアルファベットであるものは、合成音声によって生成された音片を識別するものである。
Next, the
具体的には、図4(b)において、肉声音片のデータが存在しなかったテキスト「中野坂上交差点を」に対応する合成音声によって音片が生成され、その音片に音片ID「A001」が付与されている。その他の部分は、図4(a)と同じである。 Specifically, in FIG. 4B, a sound piece is generated by a synthesized speech corresponding to the text “Nakano Sakagami intersection” for which no data of the real voice sound piece exists, and the sound piece ID “A001” is assigned to the sound piece. Is given. Other parts are the same as those in FIG.
次に、声質差分量計算部6は、音声メッセージ作成部4によって決定された利用肉声音片ごとの声質差分量計算処理(A)を行う(ステップS204)。
Next, the voice quality difference
図5は、本発明の実施形態において実行される声質差分量計算処理(A)を示すフローチャートである。 FIG. 5 is a flowchart showing voice quality difference amount calculation processing (A) executed in the embodiment of the present invention.
声質差分量計算部6は、まず、ステップS201において決定された音片のうち、音声データベース126内に存在する肉声音片と韻律が等しい肉声韻律合成音声を作成する(ステップS401)。肉声韻律合成音声を作成する技術としては、例えば、背景技術として引用した特許文献2に記載された技術を用いてもよい。
First, the voice quality difference
次に、声質差分量計算部6は、作成された肉声韻律合成音声と肉声音片との音響特徴量の差分を声質差分量として計算する(ステップS402)。肉声韻律合成音声と当該肉声音片とは韻律が同一であるため、音響特徴量の差分を声質の差分として扱うことができる。音響特徴量としてはスペクトル、ケプストラム、Δケプストラム又はメルケプストラムなどが用いられてもよい。
Next, the voice quality difference
肉声音片の声質差分量計算処理が終了したら、声質差分量計算部6は、音声メッセージ作成部4が決定した肉声音片全てについて声質差文量計算処理が終了したか否かを判定する(ステップS403)。まだ声質差分量計算処理を行っていない肉声音片がある場合、声質差分量計算部6は、全ての肉声音片に対して声質差分量計算処理が終了するまでステップS401及びS402の処理を繰り返す。
When the voice quality difference amount calculation processing for the real voice sound piece is completed, the voice quality difference
例えば、ステップS201において、テキスト「まもなく」、「右方向」、「そのあと」及び「しばらく道なりです」に対応する肉声音片が決定された場合、それらの各々についてステップS401及びS402が実行される。 For example, if in step S201 real voice sound pieces corresponding to the texts “Soon”, “Right”, “After that”, and “It's been a while” are determined, Steps S401 and S402 are executed for each of them. The
例えば、声質差分量計算部6は、テキスト「まもなく」に対応する合成音片を、その韻律が肉声音片「まもなく」の韻律と等しくなるように作成する(ステップS401)。そして、声質差分量計算部6は、ステップS401で作成された合成音片「まもなく」の音響特徴量と肉声音片「まもなく」の音響特徴量との差分量を計算する(ステップS402)。テキスト「右方向」、「そのあと」及び「しばらく道なりです」についても同様の処理が終了するまで、ステップS401及びS402が繰り返される(ステップS403)。
For example, the voice quality difference
図6は、本発明の実施形態における声質差分量計算処理結果を示す説明図である。 FIG. 6 is an explanatory diagram showing a voice quality difference amount calculation processing result in the embodiment of the present invention.
図6は、図4のように決定された各肉声音片について計算された声質差分量の例を示す。図6において、音片ID501及びテキスト502は、それぞれ、図4の音片ID301及びテキスト302に対応する。
FIG. 6 shows an example of the voice quality difference amount calculated for each real voice sound piece determined as shown in FIG. In FIG. 6, the
声質差分量503は、各肉声音片について計算された声質差分量である。図4の例では、テキスト「まもなく」「右方向」「そのあと」及び「しばらく道なりです」に対応する声質差分量503として、それぞれ、「1.2345」「0.5467」「3.210」及び「0.3322」が算出されている。テキスト「中野坂上交差点を」に対応する肉声音片は音声データベース126内に存在しないため、このテキストに対応する声質差分量503は算出されていない。
The voice
従来の合成音声作成技術(例えば特許文献2に記載されたもの)によれば、作成された合成音声の声質はほぼ一定となる。すなわち、ステップS204において算出された各肉声音片に対応する声質差分量503の値は、各肉声音片と、これから作成しようとする音声メッセージに含まれる合成音片(図6の例ではテキスト「中野坂上交差点を」に対応する合成音片)との間の声質の差と等価であると考えられる。このため、各肉声音片に対応する声質差分量503の値がより小さく(望ましくは0に)なるように、各肉声音片の声質を変換することによって、各肉声音片と合成音片との間の声質の差が解消され、さらに、肉声音片間の声質の差も解消されることが期待できる。
According to a conventional synthesized speech creation technique (for example, one described in Patent Document 2), the voice quality of the created synthesized speech is substantially constant. That is, the value of the voice
ただし、一般に、肉声音片の声質を変換することによってその音質(すなわち、その音片の聞き取りやすさ)は低下する。声質の変換量が大きいほど(すなわち解消しようとする声質差分量503の値が大きいほど)、音質の低下量も大きくなる。音片の音質が低下するほど、その音片を聞き取れない可能性が高くなる。このため、実際に肉声音片の声質を変換するか否かは、肉声音片ごとに、種々の要因に基づいて決定する必要がある。
However, generally, by converting the voice quality of a real voice sound piece, the sound quality (that is, ease of hearing of the sound piece) is lowered. The greater the voice quality conversion amount (that is, the greater the value of the voice
このため、次に、声質変換音片決定部7は、全体処理フローチャート(図3)のステップS205において声質変換音片決定処理(B)を行う。 Therefore, next, the voice quality conversion sound piece determination unit 7 performs voice quality conversion sound piece determination processing (B) in step S205 of the overall process flowchart (FIG. 3).
図7は、本発明の実施形態において実行される声質変換音片決定処理(B)を示すフローチャートである。 FIG. 7 is a flowchart showing voice quality conversion sound piece determination processing (B) executed in the embodiment of the present invention.
声質変換音片決定部7は、まず、各肉声音片の音片情報を計算する(ステップS601)。音片情報計算結果の一例を図8に示す。 First, the voice quality conversion sound piece determination unit 7 calculates sound piece information of each real voice sound piece (step S601). An example of the sound piece information calculation result is shown in FIG.
図8のテーブルは、音片ID701、テキスト702、声質差分量703、音片情報704、声質変換コスト705及び声質変換可否706の各カラムからなる。
The table in FIG. 8 includes columns of a
音片ID701、テキスト702及び声質差分量703は、それぞれ、音片ID501、テキスト502及び声質差分量503と同様である。
The
音片情報704は、各肉声音片の重要度に基づいて定められる。肉声音片の重要度は、肉声音片を聞き取れなかった場合に生じる不利益の大きさを示す指標であり、必要性又は有用性と言い換えられてもよい。図8の例では、各肉声音片の重要度を示す指標として、あらかじめ定められた任意設定重要度及び音片の長さが用いられる。
The
任意設定重要度とは、作成する音声メッセージにおける肉声音片の重要度を表す、あらかじめ肉声音片ごとに任意に設定された指標である。例えば図8に示すようなカーナビゲーションシステムの音声メッセージの場合、目的地、距離及び方向等を示す肉声音片の重要度は比較的高く、それら以外の肉声音片の重要度は比較的低い。なお、任意設定重要度は、音声メッセージ作成装置の製造者又は使用者によってあらかじめ音片ごとに設定されていてもよいし、音声メッセージ作成部4が利用音片を決定したときに所定の基準にしたがって計算されてもよい。 The arbitrarily set importance level is an index that is arbitrarily set in advance for each real voice segment, which represents the importance level of the real voice segment in the created voice message. For example, in the case of the voice message of the car navigation system as shown in FIG. 8, the importance of the real voice sound piece indicating the destination, the distance, the direction, etc. is relatively high, and the importance of the other real voice sound pieces is relatively low. Note that the arbitrarily set importance may be set for each sound piece in advance by the manufacturer or user of the voice message creation device, or is set to a predetermined standard when the voice message creation unit 4 determines the use voice piece. Therefore, it may be calculated.
図8の例では、任意設定重要度の逆数(カラム704A)が音片情報704の一部として計算される。具体的には、図8は、テキスト「右方向」に対応する音片が最も重要である(すなわち、それを聞き取れなかった場合の不利益が最も大きい)と判定された例を示す。このため、テキスト「右方向」に対応するカラム704Aには、他のテキストに対応するものより小さい値「0.05」が格納される。一方、図8では、テキスト「まもなく」及び「そのあと」に対応する音片の重要度が比較的低いと判定されている。このため、それらのテキストに対応するカラム704Aには、比較的大きい値(それぞれ「3.00」及び「2.50」)が格納されている。
In the example of FIG. 8, the reciprocal of the arbitrarily set importance (
一方、音片の長さが長い方がその中に重要なメッセージが含まれる可能性が高い(すなわち重要度が高い)と考えられる。図8の例では、音片に対応するテキストの音節数を音片の長さと定義し、その逆数(カラム704B)が音片情報704の一部として計算される。例えば、テキスト「まもなく」の音節数は「4」であるため、そのテキストに対応するカラム704Bに、「4」の逆数である「0.25」が格納される。
On the other hand, it is considered that the longer the sound piece is, the higher the possibility that an important message is included therein (that is, the importance is high). In the example of FIG. 8, the number of syllables of the text corresponding to the sound piece is defined as the length of the sound piece, and the reciprocal number (
なお、音片情報704は、さらに、肉声音片に対応するテキストに含まれる単語の品詞に基づいて計算されてもよい。例えば、上記の任意設定重要度が、品詞に基づいて定められてもよい。図8に示すようなカーナビゲーションシステムの音声メッセージの場合、固有名詞は、目的地又は目的地に到達するまでの経路上の地点の地名である可能性があるため、その他の品詞と比較して重要度が高いと考えられる。このため、固有名詞に対応する任意設定重要度として、その他の品詞に対応する任意設定重要度より大きい値が設定されてもよい。
Note that the
一つの肉声音片に対応するテキストが複数の単語を含み、それらの単語の品詞が互いに異なる場合、例えば、それらの複数の単語の品詞の任意設定重要度の合計値の逆数が音片情報704として使用されてもよいし、それらの複数の単語の品詞の任意設定重要度のうち最も大きい値の逆数が音片情報704として使用されてもよい。
When the text corresponding to one real voice sound piece includes a plurality of words and the parts of speech of these words are different from each other, for example, the reciprocal of the total value of the arbitrarily set importance of the parts of speech of the plurality of words is the
次に、声質変換音片決定部7は、上記計算された音片情報704と、図5の声質差分量計算処理によって計算された声質差分量とに基づいて声質変換コスト705を計算する(ステップS602)。具体的には、声質変換音片決定部7は、声質差分量に、音片情報704に基づく重み付けをすることによって、声質変換コスト705を計算する。
Next, the voice quality conversion sound piece determination unit 7 calculates a voice
図8の例では、上記計算された音片情報704の値と、上記計算された声質差分量との和が声質変換コスト705として計算される。例えば、図8に示すように、テキスト「まもなく」に対応する声質差分量703が「1.234」、それに対応する音片情報704が「3.00」及び「0.25」である場合、声質変換コスト705としてそれらの値の合計値「4.484」が計算される。しかし、上記以外の方法によって(例えば、声質差分量に音片情報704の値を乗算することによって)声質変換コスト705が計算されてもよい。
In the example of FIG. 8, the sum of the calculated
次に、声質変換音片決定部7は、肉声音片ごとに声質変換コスト705の値が所定の閾値を超えているか否かを判定する(ステップS603)。
Next, the voice quality conversion sound piece determination unit 7 determines whether or not the value of the voice
図7の例では閾値を1.0としたため、図8において音片ID701が「0001」である音片、及び、音片ID701が「0015」である音片の声質変換コスト705(それぞれ、「4.484」及び「5.960」)がその閾値を超えている。閾値を超えた音片に対応する声質変換可否706として、その音片が声質変換の対象であることを表す情報(図8の例では「1」)が格納される(ステップS604)。
In the example of FIG. 7, since the threshold value is 1.0, the voice
一方、閾値を超えていない音片に対応する声質変換可否706として、その音片が声質変換の対象でないことを表す情報(図8の例では「0」)が格納される(ステップS605)。
On the other hand, information (“0” in the example of FIG. 8) indicating that the sound piece is not subject to voice quality conversion is stored as voice
図7では、声質変換の対象と判定された音片が声質変換音片、声質変換の対象でないと判定された音片が声質無変換音片と記載される。 In FIG. 7, a sound piece determined to be a voice quality conversion target is described as a voice quality conversion sound piece, and a sound piece determined to be not a voice quality conversion target is described as a voice quality non-converted sound piece.
上記の処理によれば、肉声音片について計算された声質差分量の値が大きく、かつ、その肉声音片の重要度が低いほど、声質変換コスト705は大きくなる。声質変換コスト705が大きい肉声音片ほど、声質変換の対象になりやすい。
According to the above processing, the voice
肉声音片について計算された声質差分量の値が大きいほど、その肉声音片の声質は、これから作成しようとする均一な音声メッセージの声質から大きく乖離している。すなわち、均一な声質の音声メッセージを作成するためには、声質差分量の値が大きい肉声音片ほど、その声質変換をする必要性が高いといえる。このため、上記の処理によれば、重要度が同じである場合、声質差分量の値が大きい肉声音片ほど、声質変換の対象になりやすい。 The greater the value of the voice quality difference calculated for the real voice sound piece, the farther the voice quality of the real voice sound piece is from the voice quality of the uniform voice message to be created. That is, in order to create a voice message with a uniform voice quality, it can be said that the voice quality of a voice voice piece having a larger voice quality difference value is more likely to be converted. For this reason, according to said process, when importance is the same, the more the voice quality sound piece with a larger value of voice quality difference amount, the easier it is to be subject to voice quality conversion.
しかし、声質変換によって音片の音質は劣化するため、重要度の高い音片の聞き取りやすさを確保するためには、声質変換を実行しないほうがよい。このため、上記の処理によれば、声質差分量が同じである場合、重要度が高い肉声音片ほど、声質変換の対象になりにくい。 However, since the sound quality of the sound piece deteriorates due to the voice quality conversion, it is better not to execute the voice quality conversion in order to ensure the ease of hearing of the sound piece with high importance. For this reason, according to said process, when the amount difference of voice quality is the same, the more important the voice voice piece, the less the voice quality conversion target.
次に、声質変換部8は、全体処理フローチャート(図3)のステップS206において、ステップS205において声質変換音片であると決定された肉声音片の声質変換処理を行う。この声質変換処理は、本発明の背景技術として引用された非特許文献1又は非特許文献2に開示された技術を用いて実行されてもよい。この声質変換は、図5の声質差分量計算処理のステップS402において計算された、当該肉声音片と肉声韻律合成音声との音響特徴量の差分を目標として実行される。言い換えると、この声質変換処理によって声質を変換された後の肉声音片と、その肉声音片に対応する肉声韻律合成音声との音響特徴量の差分は、図5のステップS402において計算された差分より小さく(望ましくは0に)なる。
Next, the voice quality conversion unit 8 performs voice quality conversion processing of the real voice sound piece determined to be the voice quality converted sound piece in step S205 in step S206 of the overall processing flowchart (FIG. 3). This voice quality conversion process may be executed using the technique disclosed in
次に、音声メッセージ作成部4は、各音片を接続することによって音声メッセージを作成し、作成された音声メッセージを出力する(ステップS207)。 Next, the voice message creation unit 4 creates a voice message by connecting each sound piece, and outputs the created voice message (step S207).
以上、説明したように、本発明によれば、利用肉声音片ごとに声質変換コストを算出し、声質変換コストが閾値を越えたものについてのみ声質変換を施すことによって、必要以上の音質劣化を防ぎつつ声質の均一な音声メッセージを作成することができる。 As described above, according to the present invention, the voice quality conversion cost is calculated for each used voice voice sound piece, and the voice quality conversion is performed only for the voice quality conversion cost exceeding the threshold value, thereby reducing the sound quality deterioration more than necessary. It is possible to create a voice message with uniform voice quality while preventing it.
以上、本発明の実施形態について説明したが、本発明はこれらの実施形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変形して実施することができる。 As mentioned above, although embodiment of this invention was described, this invention is not limited to these embodiment, In the range which does not deviate from the summary, it can implement in various deformation | transformation.
1 入力部
2 出力部
3 記憶部
4 音声メッセージ作成部
5 音声合成部
6 声質差分量計算部
7 声質変換音片決定部
8 声質変換部
DESCRIPTION OF
Claims (16)
前記肉声音声データがあらかじめ格納された記憶装置と、前記記憶装置に接続されるプロセッサと、前記プロセッサに接続される入力装置及び出力装置と、を備え、
テキストを指定する情報を入力されると、前記入力された情報によって指定されたテキストに対応する肉声音声データを特定し、
前記指定されたテキストに対応する合成音声データを、前記合成音声データの韻律が前記特定された肉声音声データの韻律と等しくなるように作成し、
前記特定された肉声音声データの音響特徴量と、前記作成された合成音声データの音響特徴量である基準音響特徴量との差分を算出し、
前記算出された差分と、前記特定された肉声音声データの重要度を示す値と、に基づいて、前記特定された肉声音声データの音響特徴量を変換するか否かを判定し、
前記特定された肉声音声データの音響特徴量を変換すると判定された場合、前記特定された肉声音声データの音響特徴量を、前記基準音響特徴量との差分が小さくなるように変換し、前記音響特徴量を変換された肉声音声データに基づく音声メッセージを作成し、
前記特定された肉声音声データの音響特徴量を変換しないと判定された場合、前記特定された肉声音声データに基づく音声メッセージを作成することを特徴とする音声メッセージ作成装置。 A voice message creation device that creates a voice message using real voice data,
A storage device in which the real voice data is stored in advance, a processor connected to the storage device, an input device and an output device connected to the processor,
When the information specifying the text is input, the voice data corresponding to the text specified by the input information is identified,
Creating synthesized speech data corresponding to the specified text so that the prosody of the synthesized speech data is equal to the prosody of the identified real voice data;
Calculating a difference between the acoustic feature amount of the identified real voice data and a reference acoustic feature amount which is an acoustic feature amount of the created synthesized speech data ;
Based on the calculated difference and a value indicating the importance level of the identified real voice data, it is determined whether or not to convert an acoustic feature amount of the identified real voice data,
When it is determined to convert the acoustic feature amount of the identified real voice data, the acoustic feature amount of the identified real voice data is converted so that a difference from the reference acoustic feature amount is small , Create a voice message based on the real voice data with converted features,
A voice message creation device that creates a voice message based on the identified real voice data when it is determined not to convert an acoustic feature amount of the identified real voice data.
前記算出された差分に、前記特定された肉声音声データの重要度を示す値を用いて重み付けすることによって、変換コストを算出し、 By calculating the conversion cost by weighting the calculated difference using a value indicating the importance level of the identified real voice data,
前記算出された変換コストが所定の閾値を超えた場合に、前記特定された肉声音声データの音響特徴量を変換すると判定することを特徴とする請求項1に記載の音声メッセージ作成装置。 2. The voice message creation device according to claim 1, wherein when the calculated conversion cost exceeds a predetermined threshold, it is determined to convert an acoustic feature amount of the identified real voice data.
前記音声メッセージ作成装置は、前記肉声音声データがあらかじめ格納された記憶装置と、前記記憶装置に接続されるプロセッサと、前記プロセッサに接続される入力装置及び出力装置と、を備え、 The voice message creation device includes a storage device in which the real voice data is stored in advance, a processor connected to the storage device, and an input device and an output device connected to the processor,
前記方法は、 The method
テキストを指定する情報を入力されると、前記入力された情報によって指定されたテキストに対応する肉声音声データを特定する第1手順と、 When information specifying a text is input, a first procedure for specifying real voice data corresponding to the text specified by the input information;
前記指定されたテキストに対応する合成音声データを、前記合成音声データの韻律が前記特定された肉声音声データの韻律と等しくなるように作成する第2手順と、 A second step of creating synthesized speech data corresponding to the designated text so that the prosody of the synthesized speech data is equal to the prosody of the identified real voice data;
前記特定された肉声音声データの音響特徴量と、前記第2手順において作成された前記合成音声データの音響特徴量である基準音響特徴量との差分を算出する第3手順と、 A third procedure for calculating a difference between the acoustic feature quantity of the identified real voice data and a reference acoustic feature quantity that is an acoustic feature quantity of the synthesized voice data created in the second procedure;
前記算出された差分と、前記特定された肉声音声データの重要度を示す値と、に基づいて、前記特定された肉声音声データの音響特徴量を変換するか否かを判定する第4手順と、 A fourth procedure for determining whether or not to convert an acoustic feature amount of the identified real voice data, based on the calculated difference and a value indicating the importance of the identified real voice data; ,
前記特定された肉声音声データの音響特徴量を変換すると判定された場合、前記特定された肉声音声データの音響特徴量を、前記基準音響特徴量との差分が小さくなるように変換し、前記音響特徴量を変換された肉声音声データに基づく音声メッセージを作成する第5手順と、 When it is determined to convert the acoustic feature amount of the identified real voice data, the acoustic feature amount of the identified real voice data is converted so that a difference from the reference acoustic feature amount is small, A fifth procedure for creating a voice message based on the real voice data into which the feature amount is converted;
前記特定された肉声音声データの音響特徴量を変換しないと判定された場合、前記特定された肉声音声データに基づく音声メッセージを作成する第6手順と、を含むことを特徴とする方法。 And a sixth step of creating a voice message based on the identified real voice data when it is determined not to convert the acoustic feature quantity of the identified real voice data.
前記算出された差分に、前記特定された肉声音声データの重要度を示す値を用いて重み付けすることによって、変換コストを算出する手順と、 A procedure for calculating a conversion cost by weighting the calculated difference using a value indicating the importance of the identified real voice data;
前記算出された変換コストが所定の閾値を超えた場合に、前記特定された肉声音声データの音響特徴量を変換すると判定する手順と、を含むことを特徴とする請求項9に記載の方法。 The method according to claim 9, further comprising a step of determining to convert an acoustic feature amount of the identified real voice data when the calculated conversion cost exceeds a predetermined threshold.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008197827A JP5218971B2 (en) | 2008-07-31 | 2008-07-31 | Voice message creation apparatus and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008197827A JP5218971B2 (en) | 2008-07-31 | 2008-07-31 | Voice message creation apparatus and method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010032978A JP2010032978A (en) | 2010-02-12 |
JP5218971B2 true JP5218971B2 (en) | 2013-06-26 |
Family
ID=41737489
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008197827A Expired - Fee Related JP5218971B2 (en) | 2008-07-31 | 2008-07-31 | Voice message creation apparatus and method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5218971B2 (en) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3089715B2 (en) * | 1991-07-24 | 2000-09-18 | 松下電器産業株式会社 | Speech synthesizer |
JPH09179576A (en) * | 1995-12-21 | 1997-07-11 | Toshiba Corp | Voice synthesizing method |
JP2003131700A (en) * | 2001-10-23 | 2003-05-09 | Matsushita Electric Ind Co Ltd | Voice information outputting device and its method |
JP2003295880A (en) * | 2002-03-28 | 2003-10-15 | Fujitsu Ltd | Speech synthesis system for connecting sound-recorded speech and synthesized speech together |
JP3913770B2 (en) * | 2004-05-11 | 2007-05-09 | 松下電器産業株式会社 | Speech synthesis apparatus and method |
JP4752516B2 (en) * | 2006-01-12 | 2011-08-17 | 日産自動車株式会社 | Voice dialogue apparatus and voice dialogue method |
-
2008
- 2008-07-31 JP JP2008197827A patent/JP5218971B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010032978A (en) | 2010-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6118838B2 (en) | Information processing apparatus, information processing system, information processing method, and information processing program | |
US9275631B2 (en) | Speech synthesis system, speech synthesis program product, and speech synthesis method | |
EP3061086B1 (en) | Text-to-speech performance evaluation | |
EP3065130B1 (en) | Voice synthesis | |
JP2007249212A (en) | Method, computer program and processor for text speech synthesis | |
JP5758713B2 (en) | Speech synthesis apparatus, navigation apparatus, and speech synthesis method | |
US9129596B2 (en) | Apparatus and method for creating dictionary for speech synthesis utilizing a display to aid in assessing synthesis quality | |
JP4639932B2 (en) | Speech synthesizer | |
JP2010128103A (en) | Speech synthesizer, speech synthesis method and speech synthesis program | |
JP5293478B2 (en) | Threshold management program for speech recognition, threshold management method for speech recognition, speech recognition apparatus | |
JP5223843B2 (en) | Information processing apparatus and program | |
JP5218971B2 (en) | Voice message creation apparatus and method | |
JP5164041B2 (en) | Speech synthesis apparatus, speech synthesis method, and program | |
JP6314828B2 (en) | Prosody model learning device, prosody model learning method, speech synthesis system, and prosody model learning program | |
JP5620776B2 (en) | Speech speed adjustment device, speech synthesis system, and program | |
JP6011758B2 (en) | Speech synthesis system, speech synthesis method, and program | |
JP2005331588A (en) | Method and program to adjust voice reproducing speed and recording medium which stores the program | |
JP5042485B2 (en) | Voice feature amount calculation device | |
JP2023014765A (en) | Speech synthesizer, speech synthesizing program and speech synthesizing method, and speech converter, speech converting program and speech converting method | |
JP2007256349A (en) | Voice data recording system and voice data recording method | |
US7474931B2 (en) | Sound fast-forward method and device | |
JP2012073280A (en) | Acoustic model generation device, speech translation device and acoustic model generation method | |
JP2012163721A (en) | Reading symbol string editing device and reading symbol string editing method | |
JP2008191221A (en) | Speech synthesis method, speech synthesis program and speech synthesizing device | |
Onishi et al. | Vowel-based frequency alignment function design and recognition-based time alignment for automatic speech morphing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110221 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120309 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120607 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120612 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120726 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130205 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130225 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160315 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5218971 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |