JP2005345699A - Device, method, and program for speech editing - Google Patents
Device, method, and program for speech editing Download PDFInfo
- Publication number
- JP2005345699A JP2005345699A JP2004164450A JP2004164450A JP2005345699A JP 2005345699 A JP2005345699 A JP 2005345699A JP 2004164450 A JP2004164450 A JP 2004164450A JP 2004164450 A JP2004164450 A JP 2004164450A JP 2005345699 A JP2005345699 A JP 2005345699A
- Authority
- JP
- Japan
- Prior art keywords
- correction
- information
- correction information
- sound
- synthesized sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
Description
本発明は、合成音を編集する音声編集装置、音声編集方法および音声編集プログラムに関するものである。 The present invention relates to a voice editing device, a voice editing method, and a voice editing program for editing synthesized sound.
一般に、テキスト音声合成処理では、まず入力されたテキストを言語処理し、テキストの発音を示す表音情報を得る。表音情報には、言語処理の結果出力される、品詞、係り受け、読み、アクセント型、区切り位置、区切りの種別などが含まれている。そして、表音情報を基に韻律制御を行って韻律情報を生成する。韻律情報には、ピッチパターンや音韻継続時間長などが含まれている。この韻律情報を基に合成音を生成して、最終的にDAコンバータを介して合成音を出力する。 In general, in the text-to-speech synthesis process, first, input text is subjected to language processing to obtain phonetic information indicating the pronunciation of the text. The phonetic information includes parts of speech, dependency, reading, accent type, break position, break type, and the like that are output as a result of language processing. Then, prosody information is generated by performing prosody control based on phonetic information. The prosody information includes a pitch pattern, a phoneme duration, and the like. A synthesized sound is generated based on this prosodic information, and finally the synthesized sound is output via a DA converter.
このようなテキスト音声合成処理においては、単語の読み間違えなど言語処理において明らかな誤りが発生する、韻律が不自然であるなどの問題が生じる場合がある。 In such a text-to-speech synthesis process, there may occur problems such as a mistake in reading a word, an obvious error in language processing, and an unnatural prosody.
音声合成編集装置は、上述のようなテキスト音声合成の結果の誤り修正や、韻律の不自然さの改善などの修正を行う装置である。さらに、これらの処理を操作者が対話的に行うことができる。このように、上述のテキスト音声合成における問題を解決するために有効なツールである。 The speech synthesis editing device is a device that corrects errors such as the result of text-to-speech synthesis as described above and correction of prosody unnaturalness. Furthermore, these processes can be performed interactively by the operator. Thus, it is an effective tool for solving the above-described problems in text-to-speech synthesis.
音声合成編集装置としては、表音情報を表音記号列として出力し、言語処理において発生した誤りを対話的に修正するものが知られている(例えば、特許文献1参照)。 As a speech synthesis editing device, one that outputs phonetic information as a phonetic symbol string and interactively corrects an error that has occurred in language processing is known (for example, see Patent Document 1).
また、韻律情報を対話的に変更できる音声合成編集装置も知られている。当該装置においては、表音情報のみの修正に比べてより詳細な修正が可能である。具体的には、イントネーションの微妙な変更、読む速さの調整などが可能である。これにより、より自然性の高い、あるいは多様な韻律の合成音を作成することができる。 A speech synthesis editing apparatus that can interactively change prosodic information is also known. In this apparatus, more detailed correction is possible than correction of only phonetic information. Specifically, it is possible to change the intonation subtly and adjust the reading speed. As a result, it is possible to create synthetic sounds with higher naturalness or various prosody.
以上のように、操作者は、従来の音声合成編集装置を用いて、対話的に表音情報または韻律情報を修正することにより、所望の合成音に調整することができる。なお、この過程において、表音情報あるいは韻律情報を修正し、修正した結果を操作者自身が聞いて確かめるという、修正・試聴の作業が必須である。 As described above, the operator can adjust the phonetic information or the prosodic information interactively using a conventional voice synthesis editing apparatus to adjust to a desired synthesized sound. In this process, it is indispensable to perform modification and audition work in which the phonetic information or prosody information is corrected and the operator himself / herself confirms the corrected result.
しかし、上述の修正・試聴を繰り返す過程において、以前に修正した合成音を利用したい場合がある。例えば、以前得られた修正音が希望する合成音に近かったとあとから思い直した場合や、ある時点からもう一度修正をやり直したい場合等である。 However, there are cases where it is desired to use a previously modified synthesized sound in the process of repeating the above-described correction / trial listening. For example, this may be the case where the previously obtained correction sound is close to the desired synthesized sound, or when it is desired to redo the correction again at a certain point.
従来の音声合成編集装置においては、このような場合には、合成音からの修正操作を思い出し、所望の修正状態を再現するか、最初から修正をやり直す必要があった。このように、所望の状態から合成音の修正を行うことができないなど、操作者による編集環境が制限されていたため、より簡単に操作者の希望する合成音に修正できる編集環境の提供が望まれていた。 In such a case, the conventional speech synthesis / editing apparatus needs to recall the correction operation from the synthesized sound and reproduce the desired correction state or perform correction again from the beginning. As described above, since the editing environment by the operator is limited such that the synthesized sound cannot be corrected from a desired state, it is desired to provide an editing environment that can more easily correct the synthesized sound desired by the operator. It was.
本発明は、上記に鑑みてなされたものであって、操作者の操作負担を増加させることなく、より簡単に操作者の希望する合成音を編集することのできる音声編集装置を提供することを目的とする。 The present invention has been made in view of the above, and it is an object of the present invention to provide a voice editing apparatus that can more easily edit a synthesized sound desired by an operator without increasing an operation burden on the operator. Objective.
上述した課題を解決し、目的を達成するために、本発明は、テキストに対して生成された合成音を修正する修正手段と、前記修正手段により得られた修正音を示す修正情報を格納する修正情報格納手段と、前記修正情報格納手段が格納する前記修正情報と修正前の前記合成音との関係を示す履歴構造情報を生成する履歴構造生成手段と、前記履歴構造生成手段が生成した前記履歴構造情報において対応付けられた前記修正情報と前記合成音との対応関係を表示する表示手段と、前記表示手段に表示された前記修正情報の選択を受け付ける選択受付手段と、前記選択受付手段によって選択された前記修正情報に基づいて合成音を生成する合成音生成手段とを備えたことを特徴とする。 In order to solve the above-described problems and achieve the object, the present invention stores correction means for correcting a synthesized sound generated for text and correction information indicating the correction sound obtained by the correction means. Correction information storage means, history structure generation means for generating history structure information indicating the relationship between the correction information stored in the correction information storage means and the synthesized sound before correction, and the history structure generation means generated by the history structure generation means Display means for displaying the correspondence between the correction information and the synthesized sound associated in the history structure information, a selection receiving means for receiving selection of the correction information displayed on the display means, and the selection receiving means Synthetic sound generating means for generating a synthetic sound based on the selected correction information is provided.
本発明にかかる音声編集装置は、修正後の修正音を示す修正情報を格納し、さらに複数の修正情報間の対応関係を識別可能に表示することができるので、以前行った修正段階から再度修正を行いたい場合にも、表示された対応関係に基づいて、容易に希望の修正情報を指定し、修正情報に対応する修正の状態から再度修正を行うことができるという効果を奏する。これにより、操作者の操作負担を増加させることなく、操作者の希望する合成音を編集することができるという効果を奏する。 The voice editing apparatus according to the present invention stores correction information indicating a corrected sound after correction, and can display the correspondence between a plurality of correction information in an identifiable manner, so that the correction is performed again from the previously performed correction stage. Even if it is desired to perform the correction, it is possible to easily specify the desired correction information based on the displayed correspondence relationship, and to perform correction again from the correction state corresponding to the correction information. As a result, the synthesized sound desired by the operator can be edited without increasing the operation burden on the operator.
以下に、本発明にかかる音声編集装置、音声編集方法および音声編集プログラムの実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態によりこの発明が限定されるものではない。 Hereinafter, embodiments of a voice editing device, a voice editing method, and a voice editing program according to the present invention will be described in detail with reference to the drawings. Note that the present invention is not limited to the embodiments.
(実施の形態)
図1は、本発明による音声編集装置の一実施の形態としての音声合成編集装置10を示すブロック図である。音声合成編集装置10は、は、テキスト取得部100と、言語処理部102と、表音情報格納部104と、韻律制御部106と、韻律情報格納部108と、表音情報修正部110と、韻律情報修正部112と、合成音生成部114と、合成音出力部116と、指示受付部120と、修正管理部130と、修正表示部140とを備えている。
(Embodiment)
FIG. 1 is a block diagram showing a speech synthesis /
本実施の形態では、テキストから合成音を生成するに際し、テキストを言語処理して得られる表音情報、及びこの表音情報から韻律制御して生成される韻律情報とを、これら表音情報と韻律情報の修正する各パラメータを表示画面を見ながらユーザからの指示入力に基づいて修正し、この修正履歴を保持する。再度ユーザからの修正指示があった場合には、この修正履歴を利用して表音情報及び韻律情報を修正して合成音が生成される。 In the present embodiment, when generating synthesized speech from text, phonetic information obtained by language processing of text, and prosodic information generated by prosody control from this phonetic information, these phonetic information and Each parameter to be corrected in the prosodic information is corrected based on an instruction input from the user while viewing the display screen, and this correction history is retained. When there is a correction instruction from the user again, a synthesized sound is generated by correcting the phonetic information and the prosodic information using this correction history.
テキスト入力部101は、合成音に変換すべきテキストを入力させる外部インターフェースである。テキストは、キーボードによる入力、あるいはテキストファイルの読み込みによって入力される。テキスト取得部100は、外部インターフェースであるテキスト入力部101を介して、合成音に変換すべきテキストを取得する。
The
言語処理部102は、テキスト取得部100が取得したテキストに対して言語処理を行い、表音情報を生成する。ここで、言語処理とは、テキストをアクセント句単位に分割し、各アクセント句に対応する表音情報を出力する処理である。また、表音情報は、言語処理過程で生成される情報であり、一般に中間言語と呼ばれる表音記号列などを含んでいる。具体的には、形態素解析の結果から得られる品詞などの形態情報、係り受けなどの構文情報、読み、アクセント型、区切り位置、区切りの種別などを表した情報である。
The
表音情報格納部104は、言語処理部102で生成した表音情報を、各アクセント句に対応付けて格納する。図2は、表音情報格納部104に格納される表音情報のデータ構成を模式的に示している。図2は、一例として、テキスト「今日は、良い天気です。」に対する表音情報1040のデータ構成を示している。
The phonetic
図2に示すように、表音情報格納部104は、テキストに含まれる各アクセント句に対して、先頭のアクセント句から順番にアクセント句IDを付与して格納している。また、各アクセント句IDに対応付けて各アクセント句に対する表音情報が対応付けられている。このように、各アクセント句と表音情報とを一対一に対応付けて格納する。
As shown in FIG. 2, the phonetic
再び説明を図1に戻す。韻律制御部106は、表音情報格納部104に格納された表音情報を基に韻律制御を行って、韻律情報を生成する。ここで、韻律情報とは、音韻継続時間長およびピッチパターンを示す情報である。韻律制御部106は、言語処理部102によって分割された各アクセント句に対して韻律情報を生成する。具体的には、例えば、テキスト「今日は、良い天気です。」の「きょーわ」、「よい」、「てんきです」の3つのアクセント句すべてに対して、表音情報を基に音韻継続時間長とピッチパターンを生成する。
The description returns to FIG. 1 again. The
韻律情報格納部108は、韻律制御部106が生成した韻律情報を格納する。韻律情報は、1次元配列Pitch[i]で表現される。ここで、iは時間に相当するフレーム番号であり、Pitch[x]はフレーム番号xのピッチを示している。後述する韻律情報修正部112では、横軸を時間(フレーム)、縦軸をピッチ(オクターブ)としてピッチパターンが表示される。図3は、韻律情報格納部108が格納する韻律情報のデータ構成を模式的に示している。図3は、一例として、テキスト「今日は良い天気です。」に対する韻律情報1080のデータ構成を示している。
The prosody
図3に示すように、テキストに含まれる各アクセント句に対して、Pitch[i]で表現された韻律情報が格納されている。すなわち、韻律情報格納部108は、ピッチとしてPitch[i]の値を格納している。また、Pitch[i]の数に対応した時間長を格納している。
As shown in FIG. 3, prosodic information expressed by Pitch [i] is stored for each accent phrase included in the text. That is, the prosody
なお、他の例としては、各アクセント句が何番目のフレームから始まるか、ポインタを設定してもよい。この場合には、韻律情報全体から所定のアクセント句の韻律情報を抽出可能な形態に格納する。 As another example, a pointer may be set as to what frame each accent phrase starts from. In this case, the prosodic information of a predetermined accent phrase is stored in a form that can be extracted from the entire prosodic information.
再び説明を図1に戻す。指示入力部121はユーザからの指示をマウス、キーボード等で入力する。指示受付部120は、ユーザインターフェースである指示入力部121を介して操作者からの指示を受け付ける。そして、指示受付部120は、操作者かららの指示を示す指示情報を表音情報修正部110、韻律情報修正部112および合成音生成部114に送る。具体的な修正指示は、図8、9で後述する修正表示部140に表示された修正画面を見ながら行われる。
The description returns to FIG. 1 again. The
表音情報修正部110は、指示受付部120から受け取った指示情報に基づいて表音情報格納部104に格納された表音情報を修正表示部140に表示される修正画面を見ながら対話的に修正する。そして、修正後の表音情報を後述の修正状態情報ファイル格納部131に格納させる。韻律情報修正部112は、指示受付部120から受け取った指示情報に基づいて韻律情報格納部108に格納された韻律情報を修正表示部140に表示される修正画面を見ながら対話的に修正する。そして、修正後の韻律情報を後述の修正状態情報ファイル格納部131に格納させる。
The phonetic
表音情報修正部110および韻律情報修正部112は、言語処理部102において分割されたアクセント句を単位に処理を行う。なお、本実施の形態にかかる表音情報修正部110および韻律情報修正部112は、本発明の修正手段を構成する。
The phonetic
合成音生成部114は、表音情報格納部104に格納された表音情報と韻律情報格納部108に格納された韻律情報とに基づいて合成音を生成する。合成音出力部116は、合成音生成部114で生成された合成音をDA変換して外部に出力する。
The synthesized
修正管理部130は、表音情報修正部110および韻律情報修正部112の処理により修正された修正後の表音情報および修正後の韻律情報に基づいて合成された合成音、すなわち修正音を管理する。修正表示部140は、修正管理部130が管理する修正音等を表示する。
The
図4は、修正管理部130の詳細な機能構成を示すブロック図である。修正管理部130は、修正状態情報ファイル格納部131と、修正履歴ファイル生成部132と、修正履歴ファイル格納部134と、履歴構造データ生成部136と、履歴構造データ格納部138とを有している。
FIG. 4 is a block diagram illustrating a detailed functional configuration of the
修正状態情報ファイル格納部131は、修正状態情報を格納する。ここで、修正状態情報とは、表音情報修正部110により修正された表音情報と韻律情報修正部112により修正された韻律情報とを対にしたものである。すなわち、修正状態情報により修正音を生成することができる。なお、実施の形態にかかる修正状態情報ファイル格納部131は、本発明の修正情報格納手段を構成する。また、実施の形態にかかる修正状態情報は、本発明の修正情報に相当する。
The modification state information
修正状態情報は、表音情報である表音記号列と、韻律情報である1次元配列データを含んでいる。修正状態情報は、修正が行われるごとに1つのファイルとして生成される。また、テキスト中の1文、すなわち句点「。」までの文字列を単位として生成される。修正状態情報ファイルには、「EditData0_#1.dat」、「EditData0_#2.dat」、「EditData0_#3.dat」のように修正された順番に#1からの番号が付与される。より具体的には、修正され、かつ修正状態情報ファイルが生成された場合に、順番を示す番号が付与される。ここで、「EditData0_#1.dat」に含まれる「0」はテキスト中の第1文であることを示している。 The correction state information includes a phonetic symbol string that is phonetic information and one-dimensional array data that is prosodic information. The correction state information is generated as one file every time correction is performed. Further, it is generated in units of a character string up to one sentence in the text, that is, the punctuation mark “.”. Numbers from # 1 are assigned to the modification status information file in the order of modification such as “EditData0_ # 1.dat”, “EditData0_ # 2.dat”, and “EditData0_ # 3.dat”. More specifically, a number indicating the order is assigned when a correction is made and a correction state information file is generated. Here, “0” included in “EditData0_ # 1.dat” indicates the first sentence in the text.
修正状態情報ファイル格納部131はまた、指示受付部120からの指示に基づいて、修正状態情報に対応する表音情報および韻律情報をそれぞれ表音情報格納部104および韻律情報格納部108に送る。
The modification state information
図5は、修正状態情報ファイル格納部131に格納される修正後の韻律情報のデータ構成を模式的に示している。修正後の韻律情報としては、韻律情報の初期値との差分値を格納する。図5に示す例においては、「きょーわ」のアクセント句に対しては、ピッチの初期値との差分値「+5」、時間長の差分値「0」が格納されている。このように差分値のみを格納することにより、データ量を軽減することができる。
FIG. 5 schematically shows a data structure of the prosodic information after correction stored in the correction state information
なお、他の例としては、修正後の韻律情報自体を保持してもよい。また、本実施の形態にかかる修正状態情報は、1つの文に対する修正された表音情報および韻律情報をすべて含むが、他の例としては、修正されたアクセント句と、その修正項目と修正値のみを修正状態情報としてもよい。 As another example, the modified prosodic information itself may be retained. The correction state information according to the present embodiment includes all the phonetic information and prosody information corrected for one sentence. As another example, the corrected accent phrase, the correction item, and the correction value are included. Only the correction status information may be used.
修正履歴ファイル生成部132は、表音情報修正部110および韻律情報修正部112による修正履歴を示す修正履歴ファイルを生成し、修正履歴ファイル格納部134に格納する。なお、修正履歴ファイルはテキストの1文単位に生成される。
The correction history
図6は、修正履歴ファイル格納部134に格納される修正履歴ファイルのデータ構成を模式的に示している。修正履歴ファイルは、テキストの各文毎のテーブル1341,1342・・・を有している。テーブル1341は、「EditData(i)」で識別される各文に対する修正履歴ファイルである。テーブル1341は、履歴登録数フィールド、履歴構造データフィールド、初期データフィールドおよび修正状態情報フィールドを有している。
FIG. 6 schematically shows the data structure of the correction history file stored in the correction history
履歴登録数フィールドには、履歴登録数が格納されている。ここで履歴登録数とは、対応する1文に対して生成された合成音について修正が行われ、修正状態情報が生成された回数である。履歴登録数は修正されるごとに変更される。 In the history registration number field, the history registration number is stored. Here, the number of history registrations is the number of times that the synthesized sound generated for one corresponding sentence is corrected and the correction state information is generated. The number of history registrations is changed every time it is modified.
履歴構造データフィールドは、履歴構造データのデータ名を格納している。履歴構造データとは、対応する1文に対して生成された合成音と、当該合成音を修正して得られた合成音との対応関係を示すデータである。 The history structure data field stores the data name of the history structure data. The history structure data is data indicating a correspondence relationship between a synthesized sound generated for a corresponding sentence and a synthesized sound obtained by correcting the synthesized sound.
初期データフィールドは、対応する1文に対して生成された合成音、すなわち初期データを格納している。修正状態情報フィールドは、初期データに対する修正状態情報を格納している。修正状態情報フィールドには、修正が行われる毎に修正状態情報が追加される。 The initial data field stores a synthesized sound generated for a corresponding sentence, that is, initial data. The correction status information field stores correction status information for the initial data. Correction state information is added to the correction state information field every time correction is performed.
初期データフィールドおよび修正データフィールドは、修正された日付・時間、修正順、修正された時点での合成音全体に関する各種パラメータ値を格納している。合成音全体に関するパラメータ値としては、話者、全体的なピッチ、音量、および話速などがある。
また、初期データフィールドおよび修正データフィールドは、表音情報および韻律情報の修正履歴として、修正されたアクセント句と、このアクセント句に対応する修正項目を格納している。ここで、修正項目は、例えばアクセント型、区切り、ピッチパターン形状、継続時間長などである。
The initial data field and the corrected data field store various parameter values relating to the corrected date / time, correction order, and the entire synthesized sound at the time of correction. The parameter values related to the entire synthesized sound include the speaker, the overall pitch, the volume, and the speaking speed.
The initial data field and the correction data field store a corrected accent phrase and a correction item corresponding to the accent phrase as a correction history of phonetic information and prosodic information. Here, the correction items are, for example, an accent type, a break, a pitch pattern shape, a duration time, and the like.
このように、修正履歴ファイル格納部134は、1つの初期データとしての合成音に対して、当該合成音を修正して得られた修正状態情報を対応付けて格納する。また、合成音を修正して得られた修正音をさらに修正して得られた修正状態情報も対応付けて格納する。
As described above, the modification history
履歴構造データ生成部136は、修正履歴ファイル格納部134が管理する履歴構造データを生成し、履歴構造データ格納部138に格納する。具体的には、履歴構造データ生成部136は、合成音が修正された場合に、修正状態情報と、当該合成音の初期値とを対応付ける。
The history structure
図7は、履歴構造データ格納部138に格納される履歴構造データのデータ構成を模式的に示している。履歴構造データ格納部138は、1つの初期データと、当該初期データについての修正状態情報との対応関係をツリー構造で表現した履歴構造データを格納している。ツリー構造における親ノードは、初期データである。また、各ノードは、親ノードの初期データを修正して得られた修正状態情報である。
FIG. 7 schematically shows a data structure of history structure data stored in the history structure
図6に示す履歴構造データにおいては、修正状態情報「EditData0_#1」および「EditData0_#3」は、いずれも初期データ「EditData0_#0」を修正して得られた情報である。また、修正状態情報「EditData0_#2」および「EditData0_#4」は、いずれも修正状態情報「EditData0_#1」を修正して得られた情報である。また、修正状態情報「EditData0_#5」は、修正状態情報「EditData0_#4」を修正して得られた情報である。このように、履歴構造データは、このような各修正状態情報の対応を示している。
In the history structure data shown in FIG. 6, the modification status information “
また、各データ名に付与された「#i」は、修正の順番を示す番号である。すなわち、図7に示す履歴構造データにおいては、まず初期データ「0EditData0_#0」を修正元として修正状態情報「EditData0_#1」が生成されたことが示されている。そして、これに続いて、修正状態情報「EditData0_#1」を修正元として修正状態情報「EditData0_#2」が生成されたことが示されている。さらにこの後に、初期データ「EditData0_#0」を修正元として修正状態情報「EditData0_#3」が生成されたことが示されている。
Also, “#i” given to each data name is a number indicating the order of correction. That is, the history structure data shown in FIG. 7 indicates that the modification state information “
このように、履歴構造データ格納部138は、各修正状態情報の修正元の合成音および修正された順番を識別する情報を含む履歴構造データを格納している。
As described above, the history structure
なお、本実施の形態においては、修正状態情報および修正履歴をファイルとして格納するが、他の例としては、これらの情報をメモリに展開し、それぞれのアドレスを格納し、指定することとしてもよい。 In the present embodiment, the correction state information and the correction history are stored as files. However, as another example, such information may be expanded in a memory, and each address may be stored and specified. .
図8は、表音情報を修正する際に修正表示部140が表示する表音情報修正画面200を示している。また、図9は、韻律情報を修正する際に修正表示部140が表示する韻律情報修正画面210を示している。
FIG. 8 shows a phonetic
操作者は、表音情報修正画面200および韻律情報修正画面210を見ながら、表音情報および韻律情報を修正することができる。より具体的には、表音情報修正画面200および韻律情報修正画面210に表示されている内容に対して、操作者がマウス等のユーザインターフェースを利用して指示を入力すると、指示受付部120はユーザからの指示を受け付け、指示情報を表音情報修正部110および韻律情報修正部112に送る。そして、表音情報修正部110および韻律情報修正部112は、指示情報に基づいて修正を行う。
The operator can correct the phonetic information and the prosody information while looking at the phonetic
表音情報修正画面200の画面上段は、表音情報修正画面200および韻律情報修正画面210のいずれにも設けられた共通領域220である。共通領域220は、表音/韻律修正モード切り替えボタン221,222、テキスト入力/表示部分223、言語処理結果表示部分224、読み上げボタン225、履歴登録ボタン226を有している。
The upper part of the phonetic
操作者より、表音/韻律修正モード切り替えボタン221,222が選択されると、表音修正モードと韻律修正モードとが切り替る。このモード切替に対応して、修正表示部140は、表音情報修正画面200と韻律情報修正画面210とを切り替えて表示する。すなわち、表音修正ボタン221が選択された場合には、画面下段を、図8に示す表音修正領域230に切り替え、韻律修正ボタン222が選択された場合には、画面下段を、図9に示す韻律修正領域240に切り替える。
When the phonetic / prosodic correction
他の例としては、表音/韻律修正モード切り替えボタン221,222を設けず、図8に示した表音修正領域230と、図9に示した韻律修正領域240を同一画面に表示するようにしてもよい。
As another example, the phonetic / prosodic correction
テキスト入力/表示部分223は、操作者からのテキスト入力を受け付ける欄である。図8に示すテキスト入力/表示部分223には「今日は良い天気です。」という漢字仮名混じりテキストが入力されている。
The text input /
言語処理結果表示部分224は、言語処理部102による言語処理の結果を表示する。より具体的には、言語処理結果表示部分224は、言語処理の結果得られる表音記号列をそのまま表示するのではなく、表音記号列を変換し、読み、アクセント型、区切りの種別をアクセント句単位で区切って、一般の操作者にもわかる形態で表示する。
The language processing
図8に示す言語処理結果表示部分224においては、テキストを「きょーわ」、「よい」、「てんきです」の3つのアクセント句に分けて表示している。さらに、1番目のアクセント句「きょーわ」では、「きょ」にアンダーラインを引いて、ここにアクセントがあることを示している。また、語尾に「(小)」を付けて区切りの種別が小ポーズであることを示している。
In the language processing
さらに、操作者は、言語処理結果表示部分224に表示されたアクセント句を選択することができる。例えば、マウスなどのユーザインターフェースによって、「きょーわ」が表示されている領域を指定することにより、アクセント句「きょーわ」を選択できる。図8に示す言語処理結果表示部分224においては、1番目のアクセント句「きょーわ」が選択されており、選択されたアクセント句「きょーわ」に対してマウスカーソル(矢印)が表示されている。
Furthermore, the operator can select the accent phrase displayed in the language processing
画面下段は、言語処理結果表示部分224において操作者から選択されたアクセント句の読み、アクセント型、アクセント強弱、区切りの種別を言語処理結果に基づいて表示する。さらにこれらを修正する指示を操作者から受け付ける入力領域が設けられている。操作者からの指示によりアクセント句の読み等が修正された場合には、表音情報格納部104に格納されている表音情報を、修正された結果で更新し、さらに言語処理結果表示部分224の表示も更新する。
The lower part of the screen displays the accent phrase reading, accent type, accent strength, and division type selected by the operator in the language processing
画面下段の表音修正領域230は、読み修正部分231と、読み変更ボタン232と、アクセント修正部分234と、区切り修正部分235とを有している。
The
操作者の指示により読み修正部分231に表示されている読みが変更されると、選択されているアクセント句の読みが修正される。読み修正部分231で読みが入力された後、読み変更ボタン232が押されると、選択されているアクセント句の読みを入力された読みに変更する。
When the reading displayed in the
このとき、指示受付部120は、アクセント句の修正後の読みを取得し、表音情報修正部110へ送る。そして、表音情報修正部110は、取得した修正後のアクセント句の読みにより表音情報を修正する。そして、修正状態情報ファイル格納部131は、修正後の表音情報を修正状態情報として格納する。
At this time, the
また、操作者の指示によりアクセント修正部分234の内容が変更されるとアクセント型とアクセント強弱が修正される。図8に示すアクセント修正部分234は、「きょーわ」のアクセント型が1型であって、「きょ」にアクセントがあり、強いアクセントであることを示している。
Further, when the content of the
アクセント型の修正は、「きょーわ」の場合はアクセント型が0〜2型の3通りある。そして、1と表示されている欄2341に所望の数値を入力することによりアクセント型を修正することができる。また、入力欄の右側の上下の矢印ボタン2342,2345により欄2341の数値を変更することができる。また、右側の選択ボタン2344,2345を選択することによりアクセント強弱を変更することができる。
There are three types of accent type correction: “Kyowa” has 0 to 2 accent types. The accent type can be corrected by inputting a desired numerical value in a
操作者の指示により区切り修正部分235の内容が変更されると、区切りの種別、区切り位置が修正される。区切りの種別は、強結合2351、弱結合2352、小ポーズ2353、大ポーズ2354の中から選択できる。ここで、区切りの種別が小、大ポーズの場合は、呼気段落の終わりであることを示す。アクセント句の連結は連結ボタン2355を押すことによって行える。図8のように1番目のアクセント句「きょーわ」が選択されていて連結ボタン2355が押された場合、2番目のアクセント句「よい」と連結して、「きょーわよい」というアクセント句を構成する。
When the content of the
また、共通領域220の言語処理結果表示部分224は、修正された内容を履歴として登録するためのボタンである。言語処理結果表示部分224が押されると、修正状態情報ファイル格納部131に修正状態情報が格納される。履歴登録のタイミング、すなわち、修正された内容を修正状態情報ファイル格納部131に記憶するタイミングは、本実施の形態のように、履歴登録ボタン226を用意して操作者に行わせる方法の他に、読み、アクセント型、区切り、さらに、後述のピッチパターン形状、継続時間長の各修正インターフェースで変更されるごとに、あるいは、新たなテキストが入力された場合に、自動的に行うようにしてもよい。
The language processing
なお、表音情報の修正と、後述の韻律情報の修正が共に行われた場合は、両者の修正内容を対とした修正状態情報が修正状態情報ファイル格納部131に格納される。
When both the phonetic information correction and the later-described prosodic information correction are performed, the correction state information in which the correction contents are paired is stored in the correction state information
読み上げボタン207は、修正された合成音で読み上げさせるためのボタンである。読み上げボタン207が押されると、修正された表音情報あるいは韻律情報により、合成音生成部114、合成音出力部116を経て合成音が出力される。
The reading button 207 is a button for reading aloud with the modified synthesized sound. When the reading button 207 is pressed, a synthesized sound is output through the synthesized
また、韻律モードにおいては、図9に示す韻律情報修正画面210が表示される。韻律情報修正画面210の画面上段は、表音情報修正画面200である。また、画面下段には、ピッチパターン修正部分240がある。ピッチパターン修正部分240は、言語処理結果表示部分224において操作者によって選択されたアクセント句のピッチパターンを韻律制御の結果に基づいて表示する。なお、韻律修正領域240における横軸は時間(フレーム)を示す。縦軸はピッチ(オクターブ)を示す。
In the prosody mode, a prosody
また、韻律修正領域240に対して操作者からの指示を受け付けると、指示受付部120は、指示を取得し、韻律情報修正部112は、指示受付部120からの指示に基づいて音韻継続時間長およびピッチパターンを修正する。ピッチパターン修正部分209では、言語処理結果表示部分224において選択されたアクセント句のピッチパターンを中心に表示し、その音韻継続時間長およびピッチパターンの形状の修正の指示を受け付ける。
When receiving an instruction from the operator for the
図9においては、1番目のアクセント句「きょーわ」が選択されており、そのピッチパターンが中心に表示され、2番目のアクセント句「よい」のピッチパターンが右側に表示されている。 In FIG. 9, the first accent phrase “Kyowa” is selected, the pitch pattern is displayed at the center, and the pitch pattern of the second accent phrase “good” is displayed on the right side.
図9に示す韻律情報修正画面210において、韻律情報格納部108に格納されている韻律情報、すなわち1次元配列で表されたデータを、間接的に修正することができる。音韻継続時間長の修正は、アクセント句内の各モーラについて、アクセント句全体について、あるいは区切りの長さについて行うことができる。アクセント句内の各モーラの境界は縦線(点線を含む)で示されている。操作者がマウスで縦線の位置を左右に動かすと、各モーラの音韻継続時間長が修正される。また、マウスでアクセント句の先頭(左端)にある縦線を左右に動かすと、アクセント句全体の音韻継続時間長が伸縮される。
In the prosody
選択されたアクセント句の音韻継続時間長が修正された場合には、他のアクセント句の時間長も、選択されたアクセント句における修正値分だけシフトする。これにより、韻律情報全体の整合性を保つことができる。 When the phoneme duration time length of the selected accent phrase is corrected, the time lengths of other accent phrases are also shifted by the correction value in the selected accent phrase. Thereby, the consistency of the whole prosodic information can be maintained.
また、図9における2番目のアクセント句「よい」、すなわち選択されているアクセント句の隣のアクセント句の先頭にある縦線をマウスで左右に動かすと、区切り間隔の時間長が修正される。 Further, when the vertical line at the head of the second accent phrase “good” in FIG. 9, that is, the accent phrase adjacent to the selected accent phrase is moved left and right with the mouse, the time length of the separation interval is corrected.
ピッチパターンの形状修正は、マウスでピッチパターン上に自由曲線を描くことにより行える。図10−1および図10−2はピッチパターンの形状修正例を示している。図10−1のように、ピッチパターン全体を自由曲線(点線)で修正できる。また、図10−2のように、ピッチパターンの一部を自由曲線(点線)で修正できる。また、ピッチパターン修正部分209内の左端にあるスライダーバーをマウスで上下に動かすことにより、選択されているアクセント句のピッチパターン全体を上下に動かして、ピッチの高低を修正できる。 The shape of the pitch pattern can be corrected by drawing a free curve on the pitch pattern with the mouse. 10-1 and 10-2 show examples of pitch pattern shape correction. As shown in FIG. 10A, the entire pitch pattern can be corrected with a free curve (dotted line). Further, as shown in FIG. 10-2, a part of the pitch pattern can be corrected with a free curve (dotted line). Further, by moving the slider bar at the left end in the pitch pattern correction portion 209 up and down with the mouse, the pitch pattern of the selected accent phrase can be moved up and down to correct the pitch level.
このように、韻律制御結果の韻律情報を表示すると共に、操作者からの指示を受け付けて、操作者が対話的に合成音を修正することができる。 In this way, the prosody information of the prosody control result is displayed, and an instruction from the operator can be received, and the operator can interactively correct the synthesized sound.
図11は、修正表示部140が表示する修正履歴ファイル画面250を示している。修正履歴ファイル画面250は、テキスト表示部分251と、履歴構造表示部分252と、全体パラメータ表示部分253と、修正状態情報表示部分254とを有している。
FIG. 11 shows a correction history file screen 250 displayed by the
テキスト表示部分251は、対象となる文がテキスト中の何番目の文であるかを示す文番号、テキスト、履歴登録されている件数を示す履歴登録数を表示する。 The text display portion 251 displays a sentence number indicating the number of sentences in the text, a text, and a history registration number indicating the number of history registrations.
履歴構造表示部分252は、履歴構造データ格納部138に格納されている履歴構造データを表示する。図11に示すように、合成音と修正音の対応関係をツリー構造で示す。なお、図11においては、各修正状態情報が生成された日付を、修正状態情報の識別情報として表示している。また、ルートノードは、初期データである。
The history structure display part 252 displays the history structure data stored in the history structure
このように、履歴構造表示部分252においては、各修正状態情報と初期データとの派生関係をツリー構造で表示するので、操作者は、各しゅうせい状態情報と初期データとの対応関係を容易に把握することができる。 In this way, in the history structure display portion 252, the derivation relationship between each modified state information and the initial data is displayed in a tree structure, so that the operator can easily display the correspondence between each state information and the initial data. I can grasp it.
また、履歴構造表示部分252において、操作者が所望のノードを選択すると、全体パラメータ表示部分253に対応する全体パラメータが表示され、かつ修正状態情報表示部分254に対応する修正状態情報が表示される。図11における履歴構造表示部分252においては、「03/07/23_#5」が選択されている。 When the operator selects a desired node in the history structure display part 252, the overall parameters corresponding to the overall parameter display part 253 are displayed, and the correction state information corresponding to the correction state information display part 254 is displayed. . In the history structure display portion 252 in FIG. 11, “03/07 / 23_ # 5” is selected.
なお、本実施の形態においては、履歴構造表示部分252における各修正状態情報の識別情報として、修正状態情報が生成された日付が表示されていたが、他の例としては、これにかえて、操作者によって割り当てられた修正状態情報を識別するファイル名が表示されてもよい。 In the present embodiment, the date when the correction state information was generated is displayed as the identification information of each correction state information in the history structure display portion 252, but as another example, A file name for identifying the modification status information assigned by the operator may be displayed.
全体パラメータ表示部分253は、履歴構造表示部分252において選択された修正状態情報が示す全体パラメータを表示する。 The overall parameter display portion 253 displays the overall parameters indicated by the modification state information selected in the history structure display portion 252.
修正状態情報表示部分254は、履歴構造表示部分252において選択された修正状態情報が示す修正後の表音情報および韻律情報が表示される。具体的には、修正されたアクセント句とその修正項目を表示する。図11においては、アクセント句「よい」のピッチパターン形状と、アクセント句「てんきです」の継続時間長が修正された場合の修正状態情報が表示されている。すなわち、「3/07/23_#5」は、「03/07/23_#4」の修正状態からアクセント句「よい」のピッチパターン形状と、アクセント句「てんきです」の継続時間を修正した修正状態情報であることがわかる。 The correction state information display part 254 displays the corrected phonetic information and prosodic information indicated by the correction state information selected in the history structure display part 252. Specifically, the corrected accent phrase and its correction item are displayed. In FIG. 11, the pitch pattern shape of the accent phrase “good” and the correction state information when the duration time of the accent phrase “Tenki is” are corrected are displayed. In other words, “3/07 / 23_ # 5” is a correction in which the pitch pattern shape of the accent phrase “good” and the duration of the accent phrase “Tenki is” are corrected from the correction state of “03/07 / 23_ # 4” It turns out that it is status information.
なお、本実施の形態にかかる修正状態情報表示部分254は、直前のノードからの修正項目を表示したが、他の例としては、修正状態情報表示部分254は、初期データからの修正項目を表示してもよい。 In addition, although the correction state information display part 254 concerning this Embodiment displayed the correction item from the last node, as another example, the correction state information display part 254 displays the correction item from initial data. May be.
履歴構造表示部分252において、操作者が修正状態情報のノードを選択すると、そのノードに対応する修正状態情報が特定される。そして、修正状態情報に含まれる表音情報を表音情報格納部104に更新して格納する。また、修正状態情報に含まれる韻律情報を韻律情報格納部108に更新して格納する。さらに表音情報修正画面200および韻律情報修正画面210の表示内容に反映させる。すなわち、更新後の表音情報および更新後の韻律情報に対する内容を表示させる。
In the history structure display part 252, when the operator selects a node of the correction state information, the correction state information corresponding to the node is specified. Then, the phonetic information included in the correction state information is updated and stored in the phonetic
このように、履歴構造表示部分252に表示されている修正状態情報のうちの1つを選択することにより、操作者が再現を希望する修正状態を再現し、さらに表音情報修正画面200および韻律情報修正画面210上に表示させることができる。これにより、操作者は、希望する修正段階から修正を行うことができる。
In this way, by selecting one of the correction state information displayed in the history structure display portion 252, the correction state that the operator desires to reproduce is reproduced, and the phonetic
例えば、操作者が、「03/07/21_#2」を選択した場合には、「03/07/21_#2」に対する修正状態情報に含まれる表音情報が表音情報格納部104の内容を更新して格納され、かつ「03/07/21_#2」に対する修正状態情報に含まれる韻律情報が韻律情報格納部108の内容を更新して格納される。そして、「03/07/21_#2」に対する修正状態を基準として再度修正を行うことができる。
For example, when the operator selects “03/07 / 21_ # 2”, the phonetic information included in the modification state information for “03/07 / 21_ # 2” is the content of the phonetic
また、履歴構造表示部分252において、各修正状態情報のノード表記を変更することができる。例えば、「03/07/23_#5」の表記を、「修正Fix版」と変更できる。変更された表記は、履歴管理情報中の各修正状態情報に関する情報において、修正状態に付与する表記として格納される。このように、操作者が希望する表記に変更することができるので、操作者による認識をさらに容易にすることができる。 In the history structure display portion 252, the node notation of each modification state information can be changed. For example, the notation “03/07 / 23_ # 5” can be changed to “modified Fix version”. The changed notation is stored as a notation to be given to the correction state in the information regarding each correction state information in the history management information. Thus, since it can change to the description which an operator desires, recognition by an operator can be made still easier.
また、履歴構造表示部分252において、各修正状態情報を削除することができる。操作者から削除が指示された場合には、修正状態情報ファイル格納部131は該当する修正状態情報ファイルを削除する。そして、修正履歴ファイル生成部132は履歴管理情報ファイルの内容を更新する。
In the history structure display portion 252, each modification state information can be deleted. When deletion is instructed by the operator, the correction state information
図12から図14は、音声合成編集装置10の処理を示すフローチャートである。まず、テキスト取得部100が、音声合成すべきテキストを取得すると(ステップS1,Yes)、ステップS2〜S8へと処理が進む。
12 to 14 are flowcharts showing processing of the speech
すなわち、まず言語処理部102が、テキスト取得部100から受け取ったテキストに対し言語処理を行う(ステップS2)。その結果としてアクセント句単位に分割された表音情報を生成する。次に、分割された各アクセント句に番号付けを行う(ステップS3)。図2に示した例では、「きょーわ」を1番、「よい」を2番、「てんきです」を3番とする。次に、各アクセント句に対応する形で表音情報を表音情報格納部104に格納する(ステップS4)。
That is, first, the
次に、修正表示部140は、表音情報格納部104に格納された言語処理結果の表音情報を表示する(ステップS5)。次に韻律制御部106は、表音情報格納部104に格納した表音情報を基に韻律制御を行い、韻律情報を生成する(ステップS6)。次に、各アクセント句に対応する形で韻律情報を韻律情報格納部108に格納する(ステップS7)。次に、修正表示部140は、韻律情報格納部108に格納された韻律情報を表示する(ステップS8)。その後、Aへもどり、テキスト取得部100が新たなテキストを取得すると(ステップS1,Yes)、再びステップS2〜S8へと進む。また、新たなテキストを取得しない場合には(ステップS1,No)、ステップS11へ進む。
Next, the
ステップS11では、表音情報修正部110において表音情報が修正されたかどうかを判定する。そして、修正された場合には(ステップS3,Yes)、ステップS3に進む。また、修正されなかった場合には(ステップS3,No)、ステップS12へ進む。
In step S11, the phonetic
ステップS12では、韻律情報修正部112において韻律情報が修正されたかどうかを判定する。そして、修正された場合には(ステップS12,Yes)ステップS7に進む。また、修正されなかった場合には(ステップS12,No)、ステップS13へ進む。
In step S12, the prosody
ステップS13では、修正状態の履歴登録が指示されたかどうかを判定する。ここで、履歴登録の指示とは、現段階における修正状態を修正状態情報として登録する旨の指示である。そして、指示された場合には(ステップS13,Yes)、図13に示すBへ進む。また、指示されなかった場合には(ステップS13,No)、ステップS14へ進む。 In step S13, it is determined whether or not a history registration of a correction state has been instructed. Here, the history registration instruction is an instruction to register the correction state at the current stage as the correction state information. If instructed (step S13, Yes), the process proceeds to B shown in FIG. If no instruction is given (No at step S13), the process proceeds to step S14.
図13のBに進んだ場合、まず、修正状態情報ファイルが生成され修正状態情報ファイル格納部131に格納される(ステップS20)。次に、修正履歴ファイル生成部132によって修正履歴ファイルが生成され、修正履歴ファイル格納部134に格納される(ステップS21)。そして、履歴登録の内容を表音情報修正画面200および韻律情報修正画面210の表示内容に反映させる。すなわち、表示内容を更新する(ステップS22)。そして、図12に示すAに戻る。
When the process proceeds to B in FIG. 13, first, a correction state information file is generated and stored in the correction state information file storage unit 131 (step S20). Next, a correction history file is generated by the correction history
図12におけるステップS14では、修正表示部140が修正履歴として表示しているものの中から、操作者により所定の修正状態が選択されたかどうかを判定する。そして、選択された場合には(ステップS14,Yes)、図14に示すCへ進む。また、選択されなかった場合には(ステップS14,No)、ステップS15へ進む。
In step S14 in FIG. 12, it is determined whether or not a predetermined correction state has been selected by the operator from those displayed by the
図7のCへ進んだ場合、まず、操作者から選択された修正状態情報、すなわち表音情報と韻律情報を修正状態情報ファイル格納部131から取得する(ステップS30)。次に、取得した表音情報により修正表示部140の表示内容を更新する(ステップS31)。さらに、取得した表音情報を表音情報格納部104に格納する(ステップS32)。次に、取得した韻律情報により修正表示部140の表示内容を更新する(ステップS33)。さらに、取得した韻律情報を韻律情報格納部108に格納する(ステップS34)。そして、図12に示すAに戻る。
When the process proceeds to C in FIG. 7, first, correction state information selected by the operator, that is, phonetic information and prosodic information are acquired from the correction state information file storage unit 131 (step S30). Next, the display content of the
図12のステップS15では、合成音の出力が指示された場合には(ステップS15,Yes)、ステップS9へ進む。合成音の出力が指示されなかった場合には(ステップS15,No)、ステップS16へ進む。 In step S15 of FIG. 12, when the output of the synthesized sound is instructed (step S15, Yes), the process proceeds to step S9. When the output of the synthesized sound is not instructed (No at Step S15), the process proceeds to Step S16.
ステップS9において、合成音生成部114は、韻律情報格納部108に格納した韻律情報に基づいて合成音を生成する。次に、合成音出力部116は、合成音生成部114が生成した合成音をDA変換して出力する(ステップS10)。その後、Aに戻る。
In step S <b> 9, the synthesized
ステップS16では、終了が指示された場合は(ステップS16,Yes)システムを終了する。修正が指示されなかった場合は(ステップS16,No)、Aに戻る。以上で、音声合成編集装置10の処理が完了する。
In step S16, when the termination is instructed (step S16, Yes), the system is terminated. If correction is not instructed (No at step S16), the process returns to A. Thus, the process of the speech synthesis /
図15は、実施の形態に係る音声合成編集装置10のハードウェア構成を示す図である。音声合成編集装置10は、ハードウェア構成として、音声合成編集装置10における音声編集処理を実行する音声編集プログラムなどが格納されているROM52と、ROM52内のプログラムに従って音声合成編集装置10の各部を制御し、バッファリング時間変更処理等を実行するCPU51と、ワークエリアが形成され、音声合成編集装置10の制御に必要な種々のデータを記憶するRAM53と、ネットワークに接続して、通信を行う通信I/F57と、各部を接続するバス62とを備えている。
FIG. 15 is a diagram illustrating a hardware configuration of the speech
先に述べた音声合成編集装置10における音声編集プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フロッピー(登録商標)ディスク(FD)、DVD等のコンピュータで読み取り可能な記録媒体に記録されて提供されてもよい。
The speech editing program in the speech synthesis /
この場合には、音声編集プログラムは、音声合成編集装置10において上記記録媒体から読み出して実行することにより主記憶装置上にロードされ、上記ソフトウェア構成で説明した各部が主記憶装置上に生成されるようになっている。
In this case, the speech editing program is loaded onto the main storage device by being read from the recording medium and executed by the speech synthesis /
また、本実施の形態の音声編集プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。 Further, the audio editing program of the present embodiment may be provided by being stored on a computer connected to a network such as the Internet and downloaded via the network.
以上、本発明を実施の形態を用いて説明したが、上記実施の形態に多様な変更または改良を加えることができる。 As described above, the present invention has been described using the embodiment, but various changes or improvements can be added to the above embodiment.
以上のように、本発明にかかる音声編集装置、音声編集方法および音声編集プログラムは、合成音の編集に有用であり、特に、対話型の音声編集に適している。 As described above, the speech editing apparatus, speech editing method, and speech editing program according to the present invention are useful for editing synthesized speech, and are particularly suitable for interactive speech editing.
10 音声合成編集装置
51 CPU
52 ROM
53 RAM
57 通信I/F
62 バス
100 テキスト取得部
101 テキスト入力部
102 言語処理部
104 表音情報格納部
106 韻律制御部
108 韻律情報格納部
110 表音情報修正部
112 韻律情報修正部
114 合成音生成部
116 合成音出力部
120 指示受付部
121 指示入力部
130 修正管理部
131 修正状態情報ファイル格納部
132 修正履歴ファイル生成部
134 修正履歴ファイル格納部
136 履歴構造データ生成部
138 履歴構造データ格納部
140 修正表示部
10 Speech
52 ROM
53 RAM
57 Communication I / F
62
Claims (10)
前記修正手段により得られた修正音を示す修正情報を格納する修正情報格納手段と、
前記修正情報格納手段が格納する前記修正情報と修正前の前記合成音との関係を示す履歴構造情報を生成する履歴構造生成手段と、
前記履歴構造生成手段が生成した前記履歴構造情報において対応付けられた前記修正情報と前記合成音との対応関係を表示する表示手段と、
前記表示手段に表示された前記修正情報の選択を受け付ける選択受付手段と、
前記選択受付手段によって選択された前記修正情報に基づいて合成音を生成する合成音生成手段と
を備えたことを特徴とする音声編集装置。 A correction means for correcting the synthesized sound generated for the text;
Correction information storage means for storing correction information indicating the correction sound obtained by the correction means;
History structure generation means for generating history structure information indicating a relationship between the correction information stored in the correction information storage means and the synthesized sound before correction;
Display means for displaying a correspondence relationship between the correction information and the synthesized sound associated with each other in the history structure information generated by the history structure generation means;
Selection accepting means for accepting selection of the correction information displayed on the display means;
A speech editing apparatus comprising: a synthesized sound generating means for generating a synthesized sound based on the correction information selected by the selection accepting means.
前記履歴構造生成手段は、前記修正情報格納手段が格納している同一の合成音に対する複数の前記修正情報と修正前の前記合成音との関係を示す前記履歴構造情報を生成することを特徴とする請求項1に記載の音声編集装置。 The correction information storage means stores a plurality of correction information obtained by each correction when the correction means corrects the same synthesized sound a plurality of times,
The history structure generating means generates the history structure information indicating a relationship between a plurality of the correction information for the same synthetic sound stored in the correction information storage means and the synthetic sound before correction. The voice editing device according to claim 1.
前記表示手段は、前記修正順情報付与手段により付与された前記修正順情報を前記修正情報に対応付けて表示することを特徴とする請求項1から3のいずれか一項に記載の音声編集装置。 When the correction means corrects the synthetic sound, the correction is performed on the correction information indicating the correction sound obtained by the correction, and the number of corrections the correction means performs on the synthetic sound. Correction order information giving means for giving correction order information indicating whether or not
4. The voice editing apparatus according to claim 1, wherein the display unit displays the correction order information provided by the correction order information addition unit in association with the correction information. 5. .
前記修正情報格納手段は、前記表音情報修正手段による修正前後の前記表音情報の差分値を含む前記修正情報を格納することを特徴とする請求項1から6のいずれか一項に記載の音声編集装置。 The correction means includes phonetic information correction means for correcting the phonetic information of the synthesized sound,
The said correction information storage means stores the said correction information including the difference value of the said phonetic information before and after the correction by the said phonetic information correction means, The correction information storage means as described in any one of Claim 1 to 6 characterized by the above-mentioned. Voice editing device.
前記修正情報格納手段は、前記韻律情報修正手段による修正前後の前記韻律情報の差分値を含む前記修正情報を格納することを特徴とする請求項1から7のいずれか一項に記載の音声編集装置。 The correction means includes prosody information correction means for correcting the prosody information of the synthesized sound,
The voice editing according to any one of claims 1 to 7, wherein the correction information storage unit stores the correction information including a difference value between the prosodic information before and after correction by the prosody information correction unit. apparatus.
前記修正手段により得られた修正音を示す修正情報を修正情報格納手段に格納する修正情報格納ステップと、
前記修正情報格納ステップにおいて格納された前記修正情報と修正前の前記合成音との関係を示す履歴構造情報を生成する履歴構造生成ステップと、
前記履歴構造生成ステップにおいて生成された前記履歴構造情報において対応付けられた前記修正情報と前記合成音との対応関係を表示する表示ステップと、
前記表示ステップにおいて表示された前記修正情報の選択を受け付ける選択受付ステップと、
前記選択受付ステップによって選択された前記修正情報に基づいて合成音を生成する合成音生成ステップと
を有することを特徴とする音声編集方法。 A modification step for modifying the synthesized sound generated for the text;
A correction information storage step of storing correction information indicating the correction sound obtained by the correction means in the correction information storage means;
A history structure generation step for generating history structure information indicating a relationship between the correction information stored in the correction information storage step and the synthesized sound before correction;
A display step of displaying a correspondence relationship between the correction information and the synthesized sound associated with each other in the history structure information generated in the history structure generation step;
A selection reception step for receiving selection of the correction information displayed in the display step;
And a synthetic sound generation step of generating a synthetic sound based on the correction information selected by the selection receiving step.
テキストに対して生成された合成音を修正する修正ステップと、
前記修正手段により得られた修正音を示す修正情報を修正情報格納手段に格納する修正情報格納ステップと、
前記修正情報格納ステップにおいて格納された前記修正情報と修正前の前記合成音との関係を示す履歴構造情報を生成する履歴構造生成ステップと、
前記履歴構造生成ステップにおいて生成された前記履歴構造情報において対応付けられた前記修正情報と前記合成音との対応関係を表示する表示ステップと、
前記表示ステップにおいて表示された前記修正情報の選択を受け付ける選択受付ステップと、
前記選択受付ステップによって選択された前記修正情報に基づいて合成音を生成する合成音生成ステップと
をコンピュータに実行させることを特徴とする音声編集プログラム。 A voice editing program for causing a computer to execute voice editing processing,
A modification step for modifying the synthesized sound generated for the text;
A correction information storage step of storing correction information indicating the correction sound obtained by the correction means in the correction information storage means;
A history structure generation step for generating history structure information indicating a relationship between the correction information stored in the correction information storage step and the synthesized sound before correction;
A display step of displaying a correspondence relationship between the correction information and the synthesized sound associated with each other in the history structure information generated in the history structure generation step;
A selection reception step for receiving selection of the correction information displayed in the display step;
A speech editing program that causes a computer to execute a synthetic sound generation step of generating a synthetic sound based on the correction information selected in the selection receiving step.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004164450A JP2005345699A (en) | 2004-06-02 | 2004-06-02 | Device, method, and program for speech editing |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004164450A JP2005345699A (en) | 2004-06-02 | 2004-06-02 | Device, method, and program for speech editing |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005345699A true JP2005345699A (en) | 2005-12-15 |
Family
ID=35498153
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004164450A Withdrawn JP2005345699A (en) | 2004-06-02 | 2004-06-02 | Device, method, and program for speech editing |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005345699A (en) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008090771A (en) * | 2006-10-05 | 2008-04-17 | Hitachi Ltd | Digital contents version management system |
JP2008268477A (en) * | 2007-04-19 | 2008-11-06 | Hitachi Business Solution Kk | Rhythm adjustable speech synthesizer |
JP2009139949A (en) * | 2007-12-04 | 2009-06-25 | Toshiba Corp | Method and apparatus for training difference prosody adaptation model, method and apparatus for generating difference prosody adaptation model, method and apparatus for prosody prediction, method and apparatus for speech synthesis |
JP2010060886A (en) * | 2008-09-04 | 2010-03-18 | Yamaha Corp | Audio processing apparatus and program |
JP2010224419A (en) * | 2009-03-25 | 2010-10-07 | Kddi Corp | Voice synthesizer, method and, program |
JP2011170191A (en) * | 2010-02-19 | 2011-09-01 | Fujitsu Ltd | Speech synthesis device, speech synthesis method and speech synthesis program |
JP2012194460A (en) * | 2011-03-17 | 2012-10-11 | Toshiba Corp | Speech synthesizing and editing device and speech synthesizing and editing method |
JP2013213874A (en) * | 2012-03-30 | 2013-10-17 | Fujitsu Ltd | Speech synthesis program, speech synthesis method and speech synthesizer |
JP2015055793A (en) * | 2013-09-12 | 2015-03-23 | 富士通株式会社 | Voice synthesizer, voice synthesizing method, and program |
WO2015052817A1 (en) * | 2013-10-10 | 2015-04-16 | 株式会社東芝 | Transliteration work support device, transliteration work support method and program |
JP2015517684A (en) * | 2012-05-07 | 2015-06-22 | オーディブル・インコーポレイテッドAudible, Inc. | Content customization |
JP2015125203A (en) * | 2013-12-26 | 2015-07-06 | カシオ計算機株式会社 | Sound output device and sound output program |
JP2015163982A (en) * | 2010-10-12 | 2015-09-10 | ヤマハ株式会社 | Voice synthesizer and program |
-
2004
- 2004-06-02 JP JP2004164450A patent/JP2005345699A/en not_active Withdrawn
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008090771A (en) * | 2006-10-05 | 2008-04-17 | Hitachi Ltd | Digital contents version management system |
JP2008268477A (en) * | 2007-04-19 | 2008-11-06 | Hitachi Business Solution Kk | Rhythm adjustable speech synthesizer |
JP2009139949A (en) * | 2007-12-04 | 2009-06-25 | Toshiba Corp | Method and apparatus for training difference prosody adaptation model, method and apparatus for generating difference prosody adaptation model, method and apparatus for prosody prediction, method and apparatus for speech synthesis |
JP2010060886A (en) * | 2008-09-04 | 2010-03-18 | Yamaha Corp | Audio processing apparatus and program |
JP2010224419A (en) * | 2009-03-25 | 2010-10-07 | Kddi Corp | Voice synthesizer, method and, program |
JP2011170191A (en) * | 2010-02-19 | 2011-09-01 | Fujitsu Ltd | Speech synthesis device, speech synthesis method and speech synthesis program |
JP2015163982A (en) * | 2010-10-12 | 2015-09-10 | ヤマハ株式会社 | Voice synthesizer and program |
JP2012194460A (en) * | 2011-03-17 | 2012-10-11 | Toshiba Corp | Speech synthesizing and editing device and speech synthesizing and editing method |
US9020821B2 (en) | 2011-03-17 | 2015-04-28 | Kabushiki Kaisha Toshiba | Apparatus and method for editing speech synthesis, and computer readable medium |
JP2013213874A (en) * | 2012-03-30 | 2013-10-17 | Fujitsu Ltd | Speech synthesis program, speech synthesis method and speech synthesizer |
JP2015517684A (en) * | 2012-05-07 | 2015-06-22 | オーディブル・インコーポレイテッドAudible, Inc. | Content customization |
JP2015055793A (en) * | 2013-09-12 | 2015-03-23 | 富士通株式会社 | Voice synthesizer, voice synthesizing method, and program |
WO2015052817A1 (en) * | 2013-10-10 | 2015-04-16 | 株式会社東芝 | Transliteration work support device, transliteration work support method and program |
JPWO2015052817A1 (en) * | 2013-10-10 | 2017-03-09 | 株式会社東芝 | Transliteration work support device, transliteration work support method, and program |
US9928828B2 (en) | 2013-10-10 | 2018-03-27 | Kabushiki Kaisha Toshiba | Transliteration work support device, transliteration work support method, and computer program product |
JP2015125203A (en) * | 2013-12-26 | 2015-07-06 | カシオ計算機株式会社 | Sound output device and sound output program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2680254B1 (en) | Sound synthesis method and sound synthesis apparatus | |
JP2005345699A (en) | Device, method, and program for speech editing | |
JP5949607B2 (en) | Speech synthesizer | |
JP2008268477A (en) | Rhythm adjustable speech synthesizer | |
JP2011028131A (en) | Speech synthesis device | |
CN111199724A (en) | Information processing method and device and computer readable storage medium | |
JP2008083239A (en) | Device, method and program for editing intermediate language | |
JP6091938B2 (en) | Speech synthesis dictionary editing apparatus, speech synthesis dictionary editing method, and speech synthesis dictionary editing program | |
JP6003115B2 (en) | Singing sequence data editing apparatus and singing sequence data editing method | |
JP5082971B2 (en) | A speech synthesizer and a reading system using the same. | |
JP4326251B2 (en) | Text-to-speech synthesizer, text-to-speech synthesis method and program thereof | |
JP4311710B2 (en) | Speech synthesis controller | |
JP3721101B2 (en) | Speech synthesis editing apparatus, speech synthesis editing method, and speech synthesis editing program | |
JP2009157220A (en) | Voice editing composite system, voice editing composite program, and voice editing composite method | |
JP4841339B2 (en) | Prosody correction device, speech synthesis device, prosody correction method, speech synthesis method, prosody correction program, and speech synthesis program | |
JP5975033B2 (en) | Speech synthesis apparatus, speech synthesis method, and speech synthesis program | |
JPH07140996A (en) | Speech rule synthesizer | |
JP6795996B2 (en) | Sign language CG editing equipment and programs | |
JPH08272388A (en) | Device and method for synthesizing voice | |
JP3785892B2 (en) | Speech synthesizer and recording medium | |
JP2005321520A (en) | Voice synthesizer and its program | |
JP2020140374A (en) | Electronic book reproducing device and digital book reproducing program | |
JP6341032B2 (en) | Apparatus and program for processing musical tone information | |
JPH0877152A (en) | Voice synthesizer | |
JP2000066694A (en) | Voice synthesizer and voice synthesizing method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050907 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20070621 |