JP6197523B2 - Speech synthesizer, language dictionary correction method, and language dictionary correction computer program - Google Patents
Speech synthesizer, language dictionary correction method, and language dictionary correction computer program Download PDFInfo
- Publication number
- JP6197523B2 JP6197523B2 JP2013192984A JP2013192984A JP6197523B2 JP 6197523 B2 JP6197523 B2 JP 6197523B2 JP 2013192984 A JP2013192984 A JP 2013192984A JP 2013192984 A JP2013192984 A JP 2013192984A JP 6197523 B2 JP6197523 B2 JP 6197523B2
- Authority
- JP
- Japan
- Prior art keywords
- prosodic
- phrase
- prosody
- notation
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
本発明は、例えば、テキストデータから音声信号を合成する音声合成装置及びその音声合成装置で利用される言語辞書の修正方法及び言語辞書修正用コンピュータプログラムに関する。 The present invention relates to a speech synthesizer that synthesizes a speech signal from text data, a language dictionary correction method and a language dictionary correction computer program used in the speech synthesizer, for example.
近年、音声を自動合成する音声合成技術が開発されている。音声合成技術は、短時間で所望の音声を作成できるというメリットを有するため、これまで予め録音されたプロのナレータによる音声を用いていたアプリケーションの中には、このような音声合成技術を採用したものもある。特に、商業施設における案内放送、ハイウェイラジオ、ハイウェイテレホンまたは天気予報の放送など、短い時間間隔で提供する情報が更新されるアプリケーションでは、上記のメリットを持つ音声合成技術が有用である。 In recent years, speech synthesis technology for automatically synthesizing speech has been developed. Since speech synthesis technology has the advantage that it can create desired speech in a short time, such speech synthesis technology has been adopted in applications that have used pre-recorded speech by professional narrators. There are also things. In particular, in an application in which information provided at a short time interval is updated, such as a guidance broadcast in a commercial facility, a highway radio, a highway telephone, or a weather forecast broadcast, the speech synthesis technology having the above-described advantages is useful.
合成したい音声信号を生成するために、音声合成装置には、例えば、キーボードなどを介して漢字仮名交じりのテキストデータが入力される。そして音声合成装置は、そのテキストデータに対して、単語の読みなどを登録した言語辞書を利用して、形態素解析または係り受け解析といった言語処理を行う。そして音声合成装置は、その言語処理によって、形態素単位の読み表記を表す形態素情報と、その形態素情報にアクセント位置、アクセントの強弱あるいは抑揚の大小といった韻律を表す韻律記号を付した中間表記を生成する。そして音声合成装置は、その中間表記に基づいて、合成音声信号を生成する。なお、漢字仮名表記の読み、アクセント位置及びその漢字仮名表記を含むアクセント句の範囲を表す情報を、本明細書では読み情報と呼ぶ。また、漢字仮名表記におけるアクセントの強弱、音程の高低、抑揚の大小、話速の緩急、音量の大小、及び発音中の区切り位置などを、本明細書では韻律情報と呼ぶ。 In order to generate a speech signal to be synthesized, text data mixed with kanji characters is input to the speech synthesizer via, for example, a keyboard. The speech synthesizer performs language processing such as morphological analysis or dependency analysis on the text data using a language dictionary in which word readings are registered. Then, the speech synthesizer generates morpheme information representing the morpheme-based reading notation and intermediate notation with the prosody symbol representing the prosody such as the accent position, the strength of the accent, or the size of the inflection on the morpheme information by the language processing. . Then, the speech synthesizer generates a synthesized speech signal based on the intermediate notation. Note that information representing the reading of the kanji kana notation, the accent position and the range of the accent phrase including the kanji kana notation is referred to as reading information in this specification. Also, in this specification, accent strength, kanji pitch, pitch, inflection, speed of speech, volume level, break position during pronunciation, etc. in kanji kana notation are referred to as prosodic information in this specification.
漢字には、複数の読み方があり、また、単語によってその単語に含まれる漢字の読み方は異なる。また、日常で使用される単語は日々変化するので、全ての単語を予め言語辞書に登録することは事実上不可能であり、入力されたテキストデータに、言語辞書に登録されていない単語が含まれていることもある。そのため、言語処理の結果得られる中間表記が正確でないこともある。このような場合、正しい合成音声信号を得るために、ユーザが手動で中間表記を修正する必要がある。このような修正作業は、ユーザにとって煩雑であるため、できるだけこのような修正作業が発生しないことが好ましい。そこで、入力テキストデータの終端に至った際にいままで抽出された未知語を一括してユーザに伝え、その未知語とユーザにより入力されたその未知語についての情報を単語辞書に登録する技術が提案されている(例えば、特許文献1を参照)。また、言語解析結果のうちの第1候補の言語解析結果の中に記憶された置換条件と一致する部分が存在する場合、その一致部分を置換条件に対応する置換情報に置き換えて新たな言語解析結果を生成する技術が提案されている(例えば、特許文献2を参照)。この技術では、新たな言語解析結果と同じものが第1候補以外の言語解析結果として存在している場合には、新たな言語解析結果に基づいて合成音声が生成される。 There are several ways to read kanji, and how to read kanji included in the word differs depending on the word. In addition, since words used in daily life change day by day, it is virtually impossible to register all words in the language dictionary in advance, and the input text data includes words that are not registered in the language dictionary. Sometimes it is. Therefore, the intermediate notation obtained as a result of language processing may not be accurate. In such a case, in order to obtain a correct synthesized speech signal, the user needs to manually correct the intermediate notation. Since such a correction work is complicated for the user, it is preferable that such a correction work does not occur as much as possible. Therefore, when the input text data reaches the end of the input text data, the unknown words extracted so far are collectively transmitted to the user, and the unknown word and the information about the unknown word input by the user are registered in the word dictionary. It has been proposed (see, for example, Patent Document 1). Further, if there is a part that matches the stored replacement condition in the first candidate language analysis result in the language analysis result, the matching part is replaced with replacement information corresponding to the replacement condition, and a new language analysis is performed. A technique for generating a result has been proposed (see, for example, Patent Document 2). In this technique, when the same language analysis result other than the first candidate exists as a language analysis result other than the first candidate, a synthesized speech is generated based on the new language analysis result.
言語辞書に、読み情報及び韻律情報が登録されている単語について、例えば、複数のユーザがその単語の合成音声のレビューを行ってより適切な合成音声を得ようとする場合など、その読み情報または韻律情報が修正されることがある。特に、単語の読み情報が修正されると、その単語またはその単語を含む文の韻律情報も、場合によっては修正が必要となる。韻律情報は、読み情報に影響されるためである。もし、読み情報が修正されても韻律情報が修正されなければ、韻律情報が付された単語等の読みと実際の読みとが異なるために、その韻律情報が使用されなくなるか、その韻律情報を無理に使用しても適切な韻律とならなくなる。一方、単語の読み情報の修正に伴って、その単語に関連する韻律情報を全て修正するのは煩雑な手間を要する。 For words whose reading information and prosodic information are registered in the language dictionary, for example, when a plurality of users review the synthesized speech of the word to obtain a more appropriate synthesized speech, Prosodic information may be modified. In particular, when the reading information of a word is corrected, the prosodic information of the word or a sentence including the word also needs to be corrected in some cases. This is because prosodic information is influenced by reading information. If the prosodic information is not corrected even if the reading information is corrected, the prosodic information is not used or the prosodic information is not used because the reading of the word or the like with the prosodic information is different from the actual reading. Even if it is forcibly used, it does not become an appropriate prosody. On the other hand, along with the correction of the word reading information, it is troublesome to correct all the prosodic information related to the word.
そこで本明細書は、一つの側面として、言語辞書に登録された単語の読み情報が修正されても、その単語を含む句に言語辞書に登録済みの韻律情報を反映させることが可能な音声合成装置を提供することを目的とする。 Therefore, as one aspect, this specification is a speech synthesis capable of reflecting prosodic information registered in a language dictionary in a phrase including the word even if the reading information of the word registered in the language dictionary is corrected. An object is to provide an apparatus.
一つの実施形態によれば、テキストデータから生成した、そのテキストデータの読み及び韻律を表す韻律情報を含む中間表記に基づいて合成音声信号を生成する音声合成装置が提供される。この音声合成装置は、少なくとも1以上の単語の漢字仮名表記及びその単語の読み情報と、少なくとも1以上の韻律修正対象句の漢字仮名表記と、韻律修正対象句の中間表記と、韻律修正対象句の中間表記に含まれる韻律情報が適用されるときに韻律修正対象句と連続する文字列の漢字仮名表記とが登録され、かつ、テキストデータから中間表記を生成するために利用される言語辞書を記憶し、読み情報は単語の読み及びアクセント位置に関する情報である記憶部と、少なくとも1以上の単語の何れかの読み情報が修正されると、少なくとも1以上の韻律修正対象句の中から、読み情報が修正された単語を含む韻律修正対象句を検出する検索部と、読み情報が修正された単語を含む韻律修正対象句と、その韻律修正対象句と連続する文字列とを結合することで得られる文字列を韻律修正対象句の韻律情報を継承するか否かを判定する対象範囲として設定する対象範囲決定部と、対象範囲をアクセント句単位に分割し、韻律修正対象句の少なくとも一部と読み情報が修正された単語を含むアクセント句を、韻律修正対象句の韻律情報を継承する韻律継承アクセント句と判定するアクセント句判定部と、修正された単語の読み情報を含む言語辞書を用いて対象範囲を言語解析することにより得られた中間表記のうちの韻律継承アクセント句に対応する部分の中間表記を、韻律継承アクセント句についての韻律情報で修正する修正部と、韻律修正対象句を韻律継承アクセント句で置換するとともに、置換後の韻律修正対象句に対応する中間表記を韻律継承アクセント句についての修正された中間表記とすることで言語辞書を更新する更新部とを有する。 According to one embodiment, there is provided a speech synthesizer that generates a synthesized speech signal based on an intermediate notation including prosody information that represents reading and prosody of the text data generated from the text data. This speech synthesizer includes at least one kanji kana notation of a word and reading information of the word, at least one kanji kana notation of a prosodic correction target phrase, an intermediate notation of a prosody correction target phrase, and a prosody correction target phrase. When the prosodic information included in the intermediate notation is applied, the language dictionary used for generating the intermediate notation from the text data is registered with the prosody correction target phrase and the kanji kana notation of the continuous character string The stored information is information related to the reading and accent position of the word, and when at least one of the reading information of one or more words is corrected, the reading is read from at least one of the prosody correction target phrases. A search unit for detecting a prosodic correction target phrase including a word whose information is corrected; a prosody correction target phrase including a word whose reading information is corrected; and a character string continuous with the prosody correction target phrase; A target range determination unit that sets a character string obtained by combining as a target range for determining whether or not to inherit the prosodic information of the prosodic correction target phrase, and divides the target range into accent phrase units, and the prosody correction target phrase And an accent phrase determination unit that determines an accent phrase including at least a part of the word and a word whose reading information has been corrected as a prosodic inheritance accent phrase that inherits the prosodic information of the prosody correction target phrase, and includes reading information of the corrected word A correction unit for correcting the intermediate notation of the part corresponding to the prosodic inherited accent phrase in the intermediate notation obtained by linguistic analysis of the target range using the language dictionary, with the prosodic information about the prosodic inherited accent phrase, and the prosody The revision target phrase is replaced with the prosodic inheritance accent phrase, and the intermediate notation corresponding to the replaced prosody revision phrase is corrected for the prosodic inheritance phrase. And a update unit for updating the language dictionary by the intermediate representation.
本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成される。
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。
The objects and advantages of the invention will be realized and attained by means of the elements and combinations particularly pointed out in the appended claims.
It should be understood that both the foregoing general description and the following detailed description are exemplary and explanatory and are not restrictive of the invention as claimed.
本明細書に開示された音声合成装置は、言語辞書に登録された単語の読み情報が修正されても、その単語を含む句に言語辞書に登録済みの韻律情報を反映させることができる。 The speech synthesizer disclosed in this specification can reflect the prosodic information registered in the language dictionary in the phrase including the word even if the reading information of the word registered in the language dictionary is corrected.
以下、図を参照しつつ、一つの実施形態による音声合成装置について説明する。
最初に、図1を参照しつつ、修正された読み情報と韻律情報間に不整合が生じた中間表記の例を説明する。
Hereinafter, a speech synthesizer according to an embodiment will be described with reference to the drawings.
First, an example of intermediate notation in which a mismatch occurs between the corrected reading information and prosodic information will be described with reference to FIG.
ユーザにより編集され、単語の漢字仮名表記、中間表記、品詞及び活用形などを格納した、言語辞書の一例であるユーザ辞書100には、先ず、単語「Data」について、その読みが「データー」として登録されているとする。また、韻律情報を記憶する言語辞書の一例である中間表記辞書110には、韻律情報の修正対象となる、単語「Data」を含む句の漢字仮名表記「Dataです」が登録されている。また、中間表記辞書110には、その韻律情報修正対象となる句についての韻律情報を含む中間表記「デMーターデス」が登録されている。さらに、中間表記辞書110には、韻律情報の修正対象となる句についての中間表記に含まれる韻律情報が適用される場合に、その句と連続する文字列、すなわち、その句に前置される漢字仮名表記「これは」及び後置される漢字仮名表記「。」が登録されている。なお、本明細書では、漢字仮名表記と中間表記の区別を容易にするために、中間表記では片仮名を使用する。また、記号「M」は、韻律情報を表す記号であり、例えば、記号「M」は、アクセントが中程度のレベルであることを表す。この場合、音声合成装置は、漢字仮名表記が「これはDataです。」という文が入力されると、言語辞書及び中間表記辞書を参照することにより、「コレハ|デMーターデス.」という中間表記を作成する。
In the
ここで、ユーザ辞書100に登録されている単語「Data」の読みが「データー」から「データ」に修正されたとする。この修正後に、「これはDataです。」という文が入力されると、ユーザ辞書100に登録されている「Data」の読みが変更されているために、中間表記辞書110に登録されている韻律情報が反映されず、「コレハ|データデHス.」という中間表記が生成される。このように、ユーザが作成した韻律情報が、言語辞書の修正に伴って利用されなくなってしまう。
Here, it is assumed that the reading of the word “Data” registered in the
そこで、本実施形態による音声合成装置は、ユーザ辞書に登録された単語の読み情報が修正されると、中間表記辞書に登録されている、韻律情報の修正対象となる単語、句又は文節などの漢字仮名表記の中から、その修正された単語を含むものを検出する。さらに音声合成装置は、検出された句などの漢字仮名表記に、中間表記辞書に登録されている前後の単語などの漢字仮名表記を結合したものを、中間表記辞書に登録されている韻律情報を継承させる可能性がある対象範囲に設定する。そしてこの音声合成装置は、対象範囲を構成するアクセント句のうちで、読み情報が修正された単語を含むアクセント句を、韻律情報を継承する範囲として設定する。さらにこの音声合成装置は、読み情報が修正された単語が特定の複合名詞に含まれるか否かによって、中間表記辞書に登録されている韻律情報を継承するか否かを判定する。なお、アクセント句とは、アクセントを一つのみ含む句である。また、以下の実施形態では、理解を容易にするために、韻律情報としてアクセントの強弱のみが示されるが、上記のように、韻律情報には、音程の高低、抑揚の大小、話速の緩急、音量の大小、及び発音中の区切り位置も含まれる。 Therefore, when the reading information of the word registered in the user dictionary is corrected, the speech synthesizer according to the present embodiment, such as a word, a phrase, or a phrase that is registered in the intermediate notation dictionary and is subject to correction of the prosodic information. The kanji kana notation is detected including the corrected word. Furthermore, the speech synthesizer combines the kanji kana notation such as the detected phrase with the kanji kana notation such as the preceding and following words registered in the intermediate notation dictionary, and the prosodic information registered in the intermediate notation dictionary. Set the target range that may be inherited. Then, the speech synthesizer sets an accent phrase including a word whose reading information is corrected among the accent phrases constituting the target range as a range in which the prosodic information is inherited. Further, this speech synthesizer determines whether to inherit the prosodic information registered in the intermediate notation dictionary depending on whether or not the word whose reading information is corrected is included in a specific compound noun. An accent phrase is a phrase including only one accent. In the following embodiments, for easy understanding, only the strength of the accent is shown as the prosody information. As described above, the prosody information includes the pitch of the pitch, the level of inflection, and the slowness of the speech speed. , Volume level, and break position during pronunciation are also included.
図2は、一つの実施形態による音声合成装置の概略構成図である。本実施形態では、音声合成装置1は、入力部2と、記憶部3と、処理部4と、出力部5とを有する。
FIG. 2 is a schematic configuration diagram of a speech synthesizer according to one embodiment. In the present embodiment, the speech synthesizer 1 includes an
入力部2は、合成音声の原文であり、漢字仮名交じり文であるテキストデータを取得する。そのために、入力部2は、例えば、キーボードを有する。また、入力部2は、マウスなどのポインティングデバイスとそのポインティングデバイスにより指示される入力すべき文字または数値などを表示するディスプレイとを有する。あるいは、入力部2は、タッチパネルディスプレイを有してもよい。
さらにまた、入力部2は、テキストデータを通信ネットワークを介して音声合成装置1と接続された他の機器から取得してもよい。この場合、入力部2は、音声合成装置1を通信ネットワークに接続するためのインターフェース回路を有する。
そして入力部2は、入力されたテキストデータを処理部4へ渡す。
The
Furthermore, the
The
記憶部3は、例えば、半導体メモリ回路、磁気記憶装置または光記憶装置のうちの少なくとも一つを有する。そして記憶部3は、処理部4で用いられる各種コンピュータプログラム及び音声合成処理に用いられる各種のデータを記憶する。
記憶部3は、音声合成処理に用いられるデータとして、例えば、韻律モデルと、音声波形辞書を記憶する。さらに記憶部3は、言語処理に用いられるデータとして、テキストデータ中に出現すると想定される様々な単語について、その単語の漢字仮名表記、中間表記、品詞及び活用形などを格納した言語辞書を記憶する。さらに記憶部3は、ユーザにより登録された単語について、その単語の漢字仮名表記、中間表記、品詞及び活用形などを格納したユーザ辞書を記憶する。さらに記憶部3は、韻律情報の修正対象となる単語、句または文節などの漢字仮名表記及びその韻律情報と、その単語、句または文節などの前後に位置する1以上の単語または句読点などの漢字仮名表記とを格納した中間表記辞書を記憶する。なお、以下では、便宜上、韻律情報の修正対象となる単語、句または文節などの文字列を、韻律修正対象句と呼ぶ。なお、ユーザ辞書及び中間表記辞書も、言語辞書の一例である。
The
The
図3(a)は、ユーザ辞書の一例を示す図である。この例では、単語「Data」がユーザ辞書300に登録されている。そしてユーザ辞書300には、その単語の漢字仮名表記「Data」と、中間表記「データ」と、単語「Data」の品詞(普通名詞)が登録されている。
図3(b)は、中間表記辞書の一例を示す図である。この例では、アクセント句「Dataです」が韻律修正対象句として中間表記辞書310に登録されている。そして中間表記辞書310には、その韻律修正対象句の漢字仮名表記「Dataです」及び韻律情報を含む中間表記「デMーターデス」が登録される。さらに、中間表記辞書310には、韻律修正対象句についての中間表記に含まれる韻律情報が適用されるときに韻律修正対象句に前置される単語等の文字列の漢字仮名表記「これは」及びアクセント句に後置される単語等の文字列の漢字仮名表記「。」が登録される。
FIG. 3A shows an example of a user dictionary. In this example, the word “Data” is registered in the
FIG. 3B is a diagram illustrating an example of the intermediate notation dictionary. In this example, the accent phrase “Data” is registered in the
出力部5は、処理部4から受け取った合成音声信号をスピーカ6へ出力する。そのために、出力部5は、例えば、スピーカ6を音声合成装置1と接続するためのオーディオインターフェース回路を有する。
また出力部5は、合成音声信号を、通信ネットワークを介して音声合成装置1と接続された他の装置へ出力してもよい。この場合、出力部5は、その通信ネットワークに音声合成装置1と接続するためのインターフェース回路を有する。なお、入力部2も通信ネットワークを介してテキストデータを取得する場合、入力部2と出力部5は一体化されていてもよい。
The
The
処理部4は、一つまたは複数のプロセッサと、メモリ回路と、周辺回路とを有する。そして処理部4は、入力されたテキストデータに基づいて、合成音声信号を作成する。
図4は、処理部4の機能ブロック図である。処理部4は、言語処理部10と、音声合成部11と、辞書登録部12と、辞書修正部13とを有する。
処理部4が有するこれらの各部は、例えば、処理部4が有するプロセッサ上で動作するコンピュータプログラムにより実現される機能モジュールである。あるいは、処理部4が有するこれらの各部は、その各部の機能を実現する一つの集積回路として音声合成装置1に実装されてもよい。
The
FIG. 4 is a functional block diagram of the
Each of these units included in the
言語処理部10は、入力された、漢字仮名交じり文であるテキストデータから形態素読み表記を生成するとともに、そのテキストデータに含まれる各形態素情報を特定する。さらに、言語処理部10は、入力されたテキストデータから、中間表記及びそのテキストデータに含まれる各品詞の情報を特定する。ここで、形態素読み表記とは、形態素単位の読み表記を表し、例えば、カタカナで表される。また、中間表記とは、形態素読み表記に、韻律を表す韻律記号が追加されたものである。韻律記号には、例えば、「アクセント位置」、「アクセント強弱」、「音程高低」、「抑揚大小」、「話速緩急」、「音量大小」及び「区切り」を表現する記号が含まれる。したがって、中間表記から韻律記号を除いたものは、形態素読み表記と一致する。また、中間表記から韻律記号を除いたものにおける、各品詞の情報は、形態素情報と1対1に対応する。すなわち、中間表記と品詞情報から、形態素読み表記と形態素情報が抽出される。
The
言語処理部10は、入力されたテキストデータから形態素読み表記及び中間表記などを生成するために、記憶部3に記憶されている言語辞書、ユーザ辞書及び中間表記辞書を読み込む。そして言語処理部10は、例えば、その言語辞書及びユーザ辞書を用いて、テキストデータに対して形態素解析及び係り受け解析を行って、テキストデータ中に出現する各単語の順序及び読み、アクセントの位置及び区切りの位置を決定する。その際、言語処理部10は、テキストデータ中に言語辞書とユーザ辞書の両方に登録されている単語がある場合、ユーザ辞書に登録されている単語を優先的に利用してもよい。
The
言語処理部10は、形態素解析として、例えば、動的計画法を用いる方法を利用できる。また言語処理部10は、係り受け解析として、例えば、先読みLRパーザまたはLL法といった構文解析の手法を利用できる。そして言語処理部10は、各単語の順序、読み、アクセントの位置及び区切りの位置に応じて形態素読み表記及び中間表記を作成する。
The
さらに、言語処理部10は、入力テキストデータ中で、中間表記辞書に登録されている韻律修正対象句の漢字仮名表記及びその前後の漢字仮名表記と一致する部分があれば、その一致する部分に対応する中間表記の韻律情報を中間表記辞書に従って修正する。
言語処理部10は、生成した形態素読み表記及び中間表記などを記憶部3に一時的に記憶する。
Furthermore, if there is a part that matches the kanji kana notation of the prosody modification target phrase registered in the intermediate notation dictionary and the kanji kana notation before and after that in the input text data, the
The
音声合成部11は、入力されたテキストデータの中間表記に基づいて合成音声信号を作成する。
The
音声合成部11は、中間表記に基づいて、合成音声信号を生成する際の目標韻律を生成する。そのために、音声合成部11は、記憶部3から複数の韻律モデルを読み込む。この韻律モデルは、声を高くする位置及び声を低くする位置などを時間順に表したものである。そして音声合成部11は、複数の韻律モデルのうち、中間表記に示されたアクセントの位置などに最も一致する韻律モデルを選択する。そして音声合成部11は、選択した韻律モデル及び合成パラメータに従って、中間表記に対して声が高くなる位置あるいは声が低くなる位置、声の抑揚、ピッチなどを設定することにより、目標韻律を作成する。目標韻律は、音声波形を決定する単位となる音素ごとに、音素の長さ及びピッチ周波数を含む。なお、音素は、例えば、一つの母音あるいは一つの子音とすることができる。
The
音声合成部11は、生成した目標韻律に従って、例えば、HMM(Hidden Markov Model)合成方式、音素接続方式またはコーパスベース方式によって合成音声信号を作成する。
例えば、音声合成部11は、音素ごとに、目標韻律の音素長及びピッチ周波数に最も近い音声波形を、例えばパターンマッチングにより音声波形辞書に登録されている複数の音声波形の中から選択する。そのために、音声合成部11は、記憶部3から音声波形辞書を読み込む。音声波形辞書は、複数の音声波形及び各音声波形の識別番号を記録する。また音声波形は、例えば、一人以上のナレータが様々なテキストを読み上げた様々な音声を録音した音声信号から、音素単位で取り出された波形信号である。
さらに、音声合成部11は、音素ごとに選択された音声波形を目標韻律に沿って接続できるようにするため、それら選択された音声波形と目標韻律に示された対応する音素の波形パターンとのずれ量を、波形変換情報として算出してもよい。
音声合成部11は、音素ごとに選択された音声波形の識別番号を含む波形生成情報を作成する。波形生成情報は、波形変換情報をさらに含んでもよい。
The
For example, for each phoneme, the
Furthermore, the
The
音声合成部11は、波形生成情報に含まれる各音素の音声波形の識別番号に対応する音声波形信号を記憶部3から読み込む。そして音声合成部11は、各音声波形信号を連続的に接続することにより、合成音声信号を作成する。なお、波形生成情報に波形変換情報が含まれている場合、音声合成部11は、各音声波形信号を、対応する音素について求められた波形変換情報に従って補正して音声波形信号を連続的に接続することにより、合成音声信号を作成する。
音声合成部11は、合成音声信号を出力部5へ出力する。
The
The
辞書登録部12は、言語処理部10が生成した中間表記をユーザが修正したときに、その修正内容をユーザ辞書または中間表記辞書に登録する。
When the user corrects the intermediate notation generated by the
処理部4は、入力部2から中間表記の編集を行うことを示す操作信号を受け取ると、辞書登録部12を起動する。そして辞書登録部12は、例えば、編集対象となる中間表記を、対応するテキストデータとともに入力部2が有するディスプレイに表示させる。
そして辞書登録部12は、入力部2のキーボード等から、編集対象の中間表記の一部、例えば、ある単語の読み情報を修正する操作信号を受け取ると、その操作信号に従って、ユーザ辞書に登録されているその単語の読み情報を修正する。また辞書登録部12は、読み情報が修正された単語がユーザ辞書に登録されていなかった場合には、その単語の漢字仮名表記と中間表記とをユーザ辞書に登録する。
When the
When the
さらにまた、辞書登録部12は、入力部2のキーボード等から、ある単語の韻律情報を修正する操作信号を受け取ると、中間表記辞書に登録されている韻律修正対象句の中から、修正された単語を含む韻律修正対象句及び前後の単語等と一致するものを抽出する。そして辞書登録部12は、抽出した韻律修正対象句の韻律情報を、上記の操作信号に従って修正する。また辞書登録部12は、韻律情報が修正された韻律修正対象句及びその前後の単語などと一致するものが中間表記辞書に登録されていなければ、その韻律修正対象句の漢字仮名表記と韻律情報を、前後の単語等の漢字仮名表記とともに中間表記辞書に登録する。
Furthermore, when the
なお、音声合成に対する専門知識が無いユーザでも、中間表記を修正できるように、辞書登録部12は、入力部2が有するディスプレイに韻律記号を日本語で表示させたり、各形態素の形態素情報を表示させてもよい。またユーザが、例えば、入力部2が有するマウスなどを介して修正する韻律記号を選択したり、韻律記号を追加する位置を指定すると、辞書登録部12は、例えば、プルダウンメニューなどで、選択可能な韻律記号を表す日本語表記をディスプレイに表示させる。そして辞書登録部12は、マウスなどを介して選択された日本語表記に対応する韻律記号で、中間表記の指定された位置の韻律記号を置換したり、選択された日本語表記に対応する韻律記号をその指定された位置に自動的に追加する。
また辞書登録部12は、ユーザが自分で修正した内容を把握できるようにするために、修正後の中間表記をディスプレイに表記させてもよい。さらに、辞書登録部12は、修正後の中間表記を音声合成部11に入力することにより、修正後の中間表記に対して実際に生成される合成音声をスピーカ6から出力させることで、ユーザに修正内容を確認させてもよい。
The
Further, the
辞書修正部13は、ユーザ辞書に新たな単語が登録されるか、またはユーザ辞書に登録された単語の読み情報が修正された場合に、中間表記辞書に登録されている、その単語を含む韻律修正対象句の韻律情報を修正後の単語に適用するか否かを決定する。そのために、辞書修正部13は、検索部21と、対象範囲決定部22と、アクセント句判定部23と、品詞判定部24と、修正部25と、辞書更新部26とを有する。
When the new word is registered in the user dictionary or the reading information of the word registered in the user dictionary is corrected, the
検索部21は、中間表記辞書に登録された韻律修正対象句の漢字仮名表記うち、ユーザ辞書に新たに登録された単語またはユーザ辞書に登録済みの単語のうちで読み情報が修正された単語を含む漢字仮名表記を検出する。なお、ユーザ辞書に登録がない単語については、言語辞書に登録されたその単語の読み情報を参照して中間表記が作成される。また上記のように、ユーザ辞書は、ユーザが読み情報を修正した単語のみが登録される、言語辞書の一例である。このことから、ユーザ辞書に新規に単語とその読み情報を登録することも、言語辞書に登録された単語の読み情報の修正の一形態である。また以下では、便宜上、ユーザ辞書に新たに登録された単語またはユーザ辞書に登録済みの単語のうちで読み情報が修正された単語を、修正単語と呼ぶ。
The
再度図3(a)及び図3(b)を参照しつつ、検索部21により検出される漢字仮名表記の例について説明する。ユーザ辞書300に登録された単語「Data」の読み情報が修正され、その結果としてその単語の中間表記が修正されたとする。この場合、検索部21は、中間表記辞書310に登録されている韻律修正対象句の漢字仮名表記のなかから、単語「Data」を含む漢字仮名表記を検出する。この例では、中間表記辞書310に、「Data」を含む漢字仮名表記「Dataです」が登録されているので、検索部21は、その漢字仮名表記「Dataです」を検出する。
With reference to FIG. 3A and FIG. 3B again, an example of kanji kana notation detected by the
対象範囲決定部22は、検索部21により検出された漢字仮名表記に対応する、中間辞書に登録された前置漢字仮名表記と後置漢字仮名表記とを、その検出された漢字仮名表記と連結する。これにより、対象範囲決定部22は、中間表記辞書に登録された韻律情報を継承するか否かを判定する漢字仮名表記の対象範囲を決定する。
再度図3(b)を参照する。検索部21により中間表記辞書310から漢字仮名表記「Dataです」が検出されたとすると、対象範囲決定部22は、その前置漢字仮名表記「これは」と後置漢字仮名表記「。」とを、検出された漢字仮名表記「Dataです」と連結する。そして対象範囲決定部22は、連結された漢字仮名表記「これはDataです。」を対象範囲とする。
The target
Reference is again made to FIG. If the
アクセント句判定部23は、対象範囲全体の漢字仮名表記をアクセント句単位で分割し、アクセント句単位で、中間表記辞書に登録されている韻律情報をそのアクセント句において継承するか否か判定する。
The accent
そのために、アクセント句判定部23は、対象範囲全体の漢字仮名表記を言語処理部10へ入力して、言語処理部10に、修正後のユーザ辞書を用いてその対象範囲全体を言語解析することで対象範囲全体についての中間表記を生成させる。その際、言語処理部10は、中間表記辞書を使用せずに中間表記を生成してもよい。中間表記辞書には、アクセントの位置に関する情報が含まれていないためである。そしてアクセント句判定部23は、対象範囲全体の中間表記を言語処理部10から受け取る。なお、以下では、便宜上、対象範囲全体の中間表記を修正後中間表記と呼ぶ。アクセント句判定部23は、修正後中間表記を参照して、アクセントが一つのみ含まれるアクセント句単位で、その修正後中間表記に対応する対象範囲全体の漢字仮名表記を分割する。
For this purpose, the accent
韻律修正対象句がアクセント句単位である場合、アクセント句判定部23は、対象範囲全体を分割したアクセント句のうち、修正単語の漢字仮名表記及び中間表記辞書に登録された韻律修正対象句の漢字仮名表記の少なくとも一部を含むアクセント句を特定する。そしてアクセント句判定部23は、その特定されたアクセント句を、中間表記辞書に登録されている韻律修正対象句の韻律情報を継承する韻律継承アクセント句とする。一方、アクセント句判定部23は、韻律継承アクセント句以外のアクセント句を、中間表記辞書に登録された韻律情報を継承しない韻律不継承アクセント句とする。
When the prosodic correction target phrase is an accent phrase unit, the accent
図5は、中間表記辞書及びユーザ辞書と韻律継承アクセント句の関係の一例を示す図である。この例では、中間表記辞書500には、韻律修正対象句の漢字仮名表記「Dataです」と、その前後の漢字仮名表記「これは」、「。」と、韻律情報を含む中間表記「デMーターデス」が登録されている。なお、韻律記号「M」は、アクセントが中程度であることを表す。ここで、漢字仮名表記「Data」の読みを「データー」から「データ」に変更するべく、ユーザ辞書510に、単語「Data」の漢字仮名表記とその中間表記「データ」及び品詞(普通名詞)が登録されたとする。この場合、「これはDataです。」が対象範囲となる。そこで対象範囲「これはDataです。」がユーザ辞書510を用いて言語処理される。その結果として、この対象範囲は、二つのアクセント句「これは」(中間表記「コレワ」)、「Dataです」(中間表記「データデHス」)に分割される。なお、韻律記号「H」は、アクセントが強であることを表す。この場合、アクセント句「Dataです」に、ユーザ辞書に新規登録された単語「Data」及び中間表記辞書に登録された韻律修正対象句が含まれるので、アクセント句「Dataです」が韻律継承アクセント句となる。
FIG. 5 is a diagram illustrating an example of the relationship between the intermediate notation dictionary and the user dictionary and the prosodic inheritance accent phrase. In this example, the
図6は、中間表記辞書及びユーザ辞書と韻律継承アクセント句の関係の他の一例を示す図である。この例では、中間表記辞書600には、韻律修正対象句の漢字仮名表記「Dataも」と、その前後の漢字仮名表記「良い」、「なく、」と、韻律情報を含む中間表記「デMーターモ」が登録されている。ここで、漢字仮名表記「Data」の読みを「データー」から「データ」に変更するべく、ユーザ辞書610に単語「Data」の漢字仮名表記とその中間表記「データ」及び品詞(普通名詞)が登録されたとする。この場合、「良いDataもなく、」が対象範囲となる。そこでこの対象範囲「良いDataもなく、」が、ユーザ辞書610を用いて言語処理される。その結果として、この対象範囲は、二つのアクセント句「良い」(中間表記「ヨHイ」)「Dataもなく」(中間表記「データデナHク」)に分割される。この場合、韻律修正対象句とその後置文字列の漢字仮名表記が結合されたアクセント句「Dataもなく」に、ユーザ辞書に新規登録された単語「Data」及び中間表記辞書に登録された韻律修正対象句が含まれる。そのため、アクセント句「Dataもなく」が韻律継承アクセント句となる。
FIG. 6 is a diagram illustrating another example of the relationship between the intermediate notation dictionary and the user dictionary and the prosodic inheritance accent phrase. In this example, in the
なお、中間表記辞書に登録されている漢字仮名表記がアクセント句単位でないこともある。この場合、アクセント句判定部23は、対象範囲全体の漢字仮名表記を言語処理部10へ入力して、言語処理部10に、修正前のユーザ辞書を用いて言語解析させることでその対象範囲全体の中間表記を生成させてもよい。なお、以下では、便宜上、修正前のユーザ辞書を用いて作成された、対象範囲全体の漢字仮名表記に対応する中間表記を修正前中間表記と呼ぶ。そしてアクセント句判定部23は、修正前中間表記と修正後中間表記とを比較する。アクセント句判定部23は、修正前中間表記と修正後中間表記とで、韻律修正対象句の少なくとも一部を含むアクセント句が一致する場合には、ユーザ辞書において修正された単語を含まなくてもその一致するアクセント句を韻律継承アクセント句とする。
In addition, the kanji kana notation registered in the intermediate notation dictionary may not be an accent phrase unit. In this case, the accent
図7は、中間表記辞書及びユーザ辞書と韻律継承アクセント句の関係のさらに他の一例を示す図である。この例では、中間表記辞書700には、韻律修正対象句の漢字仮名表記「分別もなく」と、その前後の漢字仮名表記「何の」、「、」と、韻律情報を含む中間表記「ブンベツモナMク」が登録されている。ここで、漢字仮名表記「分別」の読みを「ブンベツ」から「フンベツ」に変更し、アクセント位置を先頭に変更するべく、ユーザ辞書710に漢字仮名表記「分別」とその中間表記「フAンベツ」及び品詞(普通名詞)が登録されたとする。なお、記号「A」は、アクセント位置を表す。この場合、「何の分別もなく、」が対象範囲となる。そこでこの対象範囲「何の分別もなく、」が、ユーザ辞書710を用いて言語処理されることによって修正後中間表記701が得られる。その結果として、この対象範囲は、三つのアクセント句「何の」(中間表記「ナンノ」)「分別も」(中間表記「フHンベツモ」)、「なく」(中間表記「ナHク」)に分割される。
一方、対象範囲「何の分別もなく、」を、ユーザ辞書710を用いずに言語処理することによって修正前中間表記702が得られる。その結果として、この対象範囲は、二つのアクセント句「何の」(中間表記「ナンノ」)「分別もなく」(中間表記「ブンベツモナHク」)に分割される。
FIG. 7 is a diagram showing still another example of the relationship between the intermediate notation dictionary and user dictionary and the prosodic inheritance accent phrase. In this example, in the
On the other hand, the pre-correction
この場合、修正後中間表記701におけるアクセント句「分別も」に、ユーザ辞書に新規登録された単語「分別」及び中間表記辞書に登録された韻律修正対象句の一部が含まれるので、アクセント句「分別も」が韻律継承アクセント句となる。一方、アクセント句「なく」は、韻律修正対象句の一部ではあるが、ユーザ辞書に新規登録された単語「分別」を含まず、かつ、修正前中間表記702の何れのアクセント句とも一致しないので、韻律情報を継承しない。
In this case, the accent phrase “classification” in the modified
図8は、中間表記辞書及びユーザ辞書と韻律継承アクセント句の関係のさらに他の一例を示す図である。この例では、中間表記辞書800には、韻律修正対象句の漢字仮名表記「機密Data保持で」と、その前後の漢字仮名表記「。」、「、」と、韻律情報を含む中間表記「キミツデMーター|ホHジデ」が登録されている。なお、記号「|」は、アクセント句の区切りを表す。ここで、漢字仮名表記「Data」の読みを「データー」から「データ」に変更するべく、ユーザ辞書810に漢字仮名表記「Data」とその中間表記「データ」及び品詞(普通名詞)が登録されたとする。この場合、「機密Data保持で、」が対象範囲となる。そこでこの対象範囲「機密Data保持で、」を、ユーザ辞書810を用いて言語処理することによって修正後中間表記801が得られる。そして修正後中間表記801は、二つのアクセント句「機密データ」(中間表記「キミツデHータ」)「保持で」(中間表記「ホMジデ」)に分割される。
FIG. 8 is a diagram showing still another example of the relationship between the intermediate notation dictionary and user dictionary and the prosodic inheritance accent phrase. In this example, the
一方、対象範囲「機密Data保持で、」を、ユーザ辞書810を用いずに言語処理することによって修正前中間表記802が得られる。そして修正前中間表記802は、二つのアクセント句「機密データ」(中間表記「キミツデHーター」)「保持で」(中間表記「ホMジデ」)に分割される。この場合、修正前中間表記802の二つのアクセント句と修正後中間表記801の二つのアクセント句は一致し、かつ、何れのアクセント句も中間表記辞書800に登録された韻律情報を持つ。そこでアクセント句判定部23は、二つのアクセント句とも韻律継承アクセント句とする。
On the other hand, by performing language processing on the target range “With confidential data retention” without using the
品詞判定部24は、対象範囲決定部22により決定された対象範囲内で修正単語の品詞を判定する。そのために、品詞判定部24は、言語処理部10に、修正後のユーザ辞書を用いて対象範囲を言語処理させ、形態素単位の品詞情報を特定する。この場合も、言語処理部10は、中間表記辞書を使用しなくてよい。そして品詞判定部24は、修正単語の品詞と修正単語の前後の形態素の品詞とに基づいて、修正単語が複合名詞の一部か否か判定する。すなわち、品詞判定部24は、修正単語の品詞が名詞でないか、修正単語の前後の形態素の何れも名詞でなければ、修正単語は複合名詞の一部ではなく、ユーザ辞書において修正単語と関連付けられた品詞を、その修正単語の品詞とする。
The part of
また品詞判定部24は、修正単語が名詞で、かつ、修正単語の前後の何れかの形態素が名詞であれば、修正単語を含む連続する名詞の集合を複合名詞と判定する。この場合、品詞判定部24は、修正単語に対応する中間表記を参照して、さらに、修正単語のアクセント位置が修正単語中の何れの位置にも規定されていない、いわゆる「平板」であるか否か判定する。さらに品詞判定部24は、修正単語が複合名詞の終端に位置するか否か判定する。修正単語のアクセントが「平板」であるか、あるいは、修正単語が複合名詞の終端以外に位置していれば、品詞判定部24は、その複合名詞を、中間表記辞書に登録された韻律情報の継承対象となる韻律継承複合名詞と判定する。
一方、修正単語のアクセントが「平板」でなく、かつ、修正単語が複合名詞の終端に位置している場合には、品詞判定部24は、その複合名詞を、中間表記辞書に登録された韻律情報の継承対象とならない韻律不継承複合名詞と判定する。この理由は、複合名詞では、複合名詞の終端の名詞のアクセントが「平板」以外の場合には、いわゆるアクセント結合が生じて、複合名詞終端の名詞のアクセントが維持されるので、中間表記辞書の韻律情報が無視されるためである。
Further, if the corrected word is a noun and any morpheme before and after the corrected word is a noun, the part of
On the other hand, if the accent of the corrected word is not “flat plate” and the corrected word is located at the end of the compound noun, the part-of-
図9は、複合名詞の一例を示す図である。複合名詞900は、3個の名詞「機密」、「Data」、「保持」が連結された名詞である。このうち、名詞「Data」が修正単語であるとする。この場合、修正単語「Data」は、複合名詞900の終端に位置していないので、複合名詞900は、韻律継承複合名詞である。
FIG. 9 is a diagram illustrating an example of a compound noun. The
図10は、複合名詞の他の一例を示す図である。複合名詞1000は、3個の名詞「次世代」、「オープン」、「クラウド」が連結された複合名詞である。このうち、終端の名詞「クラウド」が修正単語であり、アクセントの位置が「ク」に設定されていると、複合名詞1000は、韻律不継承複合名詞である。
FIG. 10 is a diagram illustrating another example of a compound noun. The
修正部25は、対象範囲内の各アクセント句について、韻律継承アクセント句か否か、及び、韻律継承複合名詞に含まれるか否かによって、対象範囲のうちで中間表記辞書の韻律情報を継承させる範囲を決定する。そして修正部25は、韻律情報を継承させる範囲について、修正後中間表記のうち、韻律情報継承範囲についての中間表記を、中間表記辞書の韻律情報を用いて修正する。本実施形態では、修正部25は、下記の規則に従って、韻律情報を継承させる範囲を決定する。
(1)修正単語が複合名詞に含まれない場合、または、修正単語を含む複合名詞が韻律継承複合名詞である場合
この場合、修正部25は、韻律継承アクセント句について中間表記辞書の韻律情報を継承させ、韻律不継承アクセント句については中間表記辞書の韻律情報を継承させない。
(2)修正単語を含む複合名詞が韻律不継承複合名詞である場合
この場合、修正部25は、韻律継承アクセント句であっても、韻律不継承複合名詞の一部を含むものについては中間表記辞書の韻律情報を継承させない。また、修正部25は、その他のアクセント句については、(1)と同様の規則に従って韻律情報を継承するか否か決定する。
The
(1) When the corrected word is not included in the compound noun, or the compound noun including the corrected word is a prosodic inherited compound noun In this case, the correcting
(2) In the case where the compound noun including the corrected word is a prosodic non-inherited compound noun In this case, the correcting
図11は、修正単語が複合名詞に含まれない場合における、韻律情報継承範囲の一例を示す図である。図11において、ユーザ辞書1100には、単語「Data」の漢字仮名表記とその中間表記「データ」が登録されている。また、中間表記辞書1101には、韻律修正対象句の漢字仮名表記「Dataです」及びその前後の漢字仮名表記「これは」、「。」と、韻律情報を含む中間表記「デMーターデス」が登録されている。なお、中間表記辞書1101は、ユーザ辞書1100の修正がまだ反映されていないので、「Data」の形態素読み表記が「データー」となっている。この場合、対象範囲「これはDataです」は、二つのアクセント句「これは」(中間表記「コレワ」)、「Dataです」(中間表記「データデHス」)に分割され、アクセント句「Dataです」が韻律継承アクセント句となる。そしてアクセント句「Dataです」の中間表記には、アクセントの強弱を表す韻律記号が含まれているので、このアクセント句では中間表記辞書に登録されている韻律情報が継承され、韻律記号が「H」から「M」に修正される。その結果として、最終的に得られる中間表記1102は「コレハ|データデMス」となる。
FIG. 11 is a diagram illustrating an example of the prosodic information inheritance range when the corrected word is not included in the compound noun. In FIG. 11, a kanji kana notation of the word “Data” and its intermediate notation “data” are registered in the
図12は、修正単語が複合名詞に含まれない場合における、韻律情報継承範囲の他の一例を示す図である。図12において、ユーザ辞書1200には、単語「分別」の漢字仮名表記とその中間表記「フAンベツ」が登録されている。また、中間表記辞書1201には、韻律修正対象句の漢字仮名表記「分別もなく」及びその前後の漢字仮名表記「何の」、「、」と、韻律情報を含む中間表記「ブンベツモナMク」が登録されている。なお、中間表記辞書1201は、ユーザ辞書1200の修正がまだ反映されていないので、「分別」の形態素読み表記が「ブンベツ」となっている。この場合、対象範囲「何の分別もなく」は、三つのアクセント句「何の」(中間表記「ナンノ」)、「分別も」(中間表記「フHンベツモ」)、「なく」(中間表記「ナHク」)に分割され、アクセント句「分別も」が韻律継承アクセント句となる。そしてアクセント句「分別も」の中間表記には、アクセントの強弱を表す韻律記号が含まれているので、このアクセント句では中間表記辞書に登録されている韻律情報が継承され、韻律記号が「H」から「M」に修正される。その結果として、最終的に得られる中間表記1202は「ナンノ|フMンベツモ|ナHク」となる。
FIG. 12 is a diagram illustrating another example of the prosodic information inheritance range when the corrected word is not included in the compound noun. In FIG. 12, a kanji kana notation of the word “classification” and an intermediate notation “Humbetsu” are registered in the
図13は、修正単語が複合名詞に含まれない場合における、韻律情報継承範囲のさらに他の一例を示す図である。図13において、ユーザ辞書1300には、単語「Data」の漢字仮名表記とその中間表記「データ」が登録されている。また、中間表記辞書1301には、韻律修正対象句の漢字仮名表記「機密Data保持で」及びその前後の漢字仮名表記「。」、「、」と、韻律情報を含む中間表記「キミツデMーター|ホHジデ」が登録されている。なお、中間表記辞書1301は、ユーザ辞書1300の修正がまだ反映されていないので、「Data」の形態素読み表記が「データー」となっている。この場合、対象範囲「機密Data保持で」は、二つのアクセント句「機密Data」(中間表記「キミツデHータ」)、「ホジデ」(中間表記「ホMジデ」)に分割され、何れのアクセント句も韻律継承アクセント句となる。そしてアクセント句「機密Data」、「保持で」の両方の中間表記には、それぞれ、アクセントの強弱を表す韻律記号が含まれているので、これらのアクセント句では中間表記辞書に登録されている韻律情報が継承される。その結果、前側のアクセント句では、韻律記号が「H」から「M」に修正され、後ろ側のアクセント句では、韻律記号が「M」から「H」に修正される。その結果として、最終的に得られる中間表記1302は「キミツデMータ|ホHジデ」となる。
FIG. 13 is a diagram showing still another example of the prosodic information inheritance range when the corrected word is not included in the compound noun. In FIG. 13, the
図14は、修正単語が複合名詞に含まれる場合における、韻律情報継承範囲の一例を示す図である。図14において、ユーザ辞書1400には、単語「クラウド」の漢字仮名表記とその中間表記「クラウド」が登録されている。また、中間表記辞書1401には、韻律修正対象句の漢字仮名表記「次世代オープンクラウドは」及びその前後の漢字仮名表記「。」、「、」と、韻律情報を含む中間表記「ジセHダイ|オープンクラMウドハ」が登録されている。この場合、対象範囲「次世代オープンクラウドは」は、それ自体が一つのアクセント句(中間表記「ジセダイオープンクHラウドワ」)となる。この場合、「次世代オープンクラウド」は、終端の名詞「クラウド」にアクセントがあるので、韻律不継承複合名詞である。そのため、アクセント句「次世代オープンクラウドは」では、中間表記辞書の韻律情報は継承されない。したがって、最終的に得られる中間表記1402は、ユーザ辞書1400を用いて作成された中間表記と同一である。
FIG. 14 is a diagram illustrating an example of the prosodic information inheritance range when the corrected word is included in the compound noun. In FIG. 14, a kanji kana notation of the word “cloud” and its intermediate notation “cloud” are registered in the
図15は、修正単語が複合名詞に含まれる場合における、韻律情報継承範囲の一例を示す図である。図15において、ユーザ辞書1500には、単語「クラウド」の漢字仮名表記とその中間表記「クラウド」が登録されている。また、中間表記辞書1501には、韻律修正対象句の漢字仮名表記「次世代クラウドサービスは」及びその前後の漢字仮名表記「。」、「、」と、韻律情報を含む中間表記「ジセダイ|クラウドサHービスハ」が登録されている。この場合、対象範囲「次世代クラウドサービスは」は、それ自体が一つのアクセント句となる。ここで、複合名詞「次世代クラウドサービス」では、ユーザ辞書において修正された単語「クラウド」は、複合名詞の終端ではないので、複合名詞「次世代クラウドサービス」は韻律継承複合名詞である。そのため、アクセント句「次世代クラウドサービスは」では、中間表記辞書の韻律情報が継承される。
FIG. 15 is a diagram illustrating an example of the prosodic information inheritance range when the corrected word is included in the compound noun. In FIG. 15, a kanji expression for the word “cloud” and its intermediate expression “cloud” are registered in the
辞書更新部26は、修正後中間表記のうち、韻律情報継承範囲について中間表記辞書の韻律情報を継承させることで得られる中間表記である韻律継承後中間表記と整合するように、中間表記辞書を更新する。ここで、韻律継承後中間表記は、元の中間表記辞書に登録された韻律修正対象句の漢字仮名表記に、その前置漢字仮名表記と後置漢字仮名表記を連結して得られる対象範囲全体に対して言語解析を行って得られるものである。そのため、韻律継承後中間表記における韻律情報継承範囲と、元の韻律修正対象句の範囲が異なっていることもある。このような場合、辞書更新部26は、韻律修正対象句を、韻律情報継承範囲に合わせるように修正する。本実施形態では、韻律情報継承範囲は、アクセント句単位で決定されるので、辞書更新部26は、更新後の韻律修正対象句もアクセント句単位とすることが好ましい。また、韻律情報継承範囲内の読み情報が変更されている場合には、辞書更新部26は、変更後の読み情報を中間表記辞書の中間表記に反映させる。
辞書更新部26は、更新後の中間表記辞書を記憶部3に記憶する。
The
The
例えば、再度図11を参照すると、韻律情報継承範囲は「Dataです」となっており、元の韻律修正対象句と同じである。そのため、辞書更新部26は、中間表記辞書の韻律修正対象句及びその前置漢字仮名表記及び後置漢字仮名表記を修正せず、中間表記のみを「デMーターデス」から「データデMス」に修正する。
また、図12を参照すると、韻律情報継承範囲はアクセント句「分別も」であり、中間表記辞書に登録されている韻律修正対象句「分別もなく」より短くなっている。そこで辞書更新部26は、中間表記辞書の韻律修正対象句を「分別もなく」から「分別も」に修正し、「なく」を後置漢字仮名表記に含める。また辞書更新部26は、中間表記を「ブンベツモナMク」から「フMンベツモ」)に修正する。
For example, referring to FIG. 11 again, the prosodic information inheritance range is “Data”, which is the same as the original prosody modification target phrase. Therefore, the
Referring to FIG. 12, the prosodic information inheritance range is the accent phrase “fractionation”, which is shorter than the prosody modification target phrase “no fractionation” registered in the intermediate notation dictionary. Therefore, the
図16は、辞書修正部13により実行される、辞書修正処理の動作フローチャートである。
検索部21は、中間表記辞書に登録された韻律修正対象句の漢字仮名表記うち、修正単語を含む漢字仮名表記を検出する(ステップS101)。対象範囲決定部22は、検索部21により検出された漢字仮名表記に対応する、中間辞書に登録された前置漢字仮名表記と後置漢字仮名表記とを、その検出された漢字仮名表記と連結することで対象範囲を決定する(ステップS102)。
FIG. 16 is an operation flowchart of dictionary correction processing executed by the
The
アクセント句判定部23は、対象範囲全体の漢字仮名表記をアクセント句単位で分割する。そしてアクセント句判定部23は、そのアクセント句のうち、韻律修正対象句の少なくとも一部と修正単語とを含むアクセント句を、中間表記辞書に登録されている韻律情報を継承する韻律継承アクセント句とする(ステップS103)。一方、品詞判定部24は、対象範囲内で修正単語の品詞を判定し、修正単語を終端とする韻律不継承複合名詞があるか否か判定する(ステップS104)。
The accent
修正部25は、対象範囲内で着目するアクセント句に設定されていないアクセント句のうちの先頭を着目するアクセント句に設定する(ステップS105)。そして修正部25は、着目するアクセント句が韻律不継承複合名詞に含まれるか否か判定する(ステップS106)。着目するアクセント句が韻律不継承複合名詞に含まれる場合(ステップS106−Yes)、修正部25は、着目するアクセント句を韻律継承範囲から外す(ステップS107)。一方、着目するアクセント句が韻律不継承複合名詞に含まれない場合(ステップS106−No)、修正部25は、着目するアクセント句が韻律継承アクセント句か否か判定する(ステップS108)。
The correcting
着目するアクセント句が韻律不継承アクセント句であれば(ステップS108−No)、修正部25は、着目するアクセント句を韻律継承範囲から外す(ステップS107)。一方、着目するアクセント句が韻律継承アクセント句であれば(ステップS108−Yes)、修正部25は、着目するアクセント句を韻律継承範囲に含める(ステップS109)。
If the focused accent phrase is a prosodic non-inheritance accent phrase (step S108-No), the correcting
ステップS107またはS108の後、修正部25は、着目済みでないアクセント句が残っているか否か判定する(ステップS110)。着目済みでないアクセント句が残っていれば(ステップS110−Yes)、修正部25は、ステップS105以降の処理を繰り返す。
After step S107 or S108, the correcting
一方、着目済みでないアクセント句が残っていなければ(ステップS110−No)、修正部25は、韻律継承範囲の中間表記を、中間表記辞書に登録されている韻律情報を用いて修正することで、韻律継承後中間表記を作成する(ステップS111)。辞書更新部26は、韻律継承後中間表記と整合するように、中間表記辞書を更新する(ステップS112)。そして辞書修正部13は、辞書修正処理を終了する。なお、辞書修正部13は、ステップS103とS104の処理の順序を入れ替えてもよい。また、ステップS104にて、韻律不継承複合名詞が無いと判定された場合には、ステップS106の処理は省略されてもよい。
On the other hand, if there is no remaining accent phrase (step S110-No), the
以上に説明してきたように、この音声合成装置は、中間表記辞書に登録された韻律修正対象句の少なくとも一部に含まれる単語の読み情報が修正されると、その修正に合わせて、中間表記辞書も自動的に更新できる。そのため、この音声合成装置は、言語辞書に登録された単語の読み情報が変更されても、変更後の読み情報に対してその単語を含む句などの韻律情報を反映させることができる。 As described above, when the reading information of the word included in at least a part of the prosodic correction target phrase registered in the intermediate notation dictionary is corrected, the speech synthesizer performs intermediate notation in accordance with the correction. The dictionary can also be updated automatically. Therefore, even if the reading information of a word registered in the language dictionary is changed, this speech synthesizer can reflect prosodic information such as a phrase including the word on the changed reading information.
変形例によれば、中間表記辞書に登録される単語について、その単語の漢字仮名表記及び中間表記とともに、その単語に前置される1以上の単語またはその単語に後続する1以上の単語の何れかのみが登録されてもよい。また、中間表記辞書には、一つの単語が、その単語に前置または後置される1以上の異なる単語の組み合わせごとに、複数登録されてもよい。 According to the modified example, for a word registered in the intermediate notation dictionary, any one of one or more words preceding the word or one or more words following the word, together with kanji kana notation and intermediate notation of the word Only or may be registered. A plurality of one word may be registered in the intermediate notation dictionary for each combination of one or more different words that precede or follow the word.
上記の実施形態では、言語辞書、ユーザ辞書及び中間表記辞書は、それぞれ、別個の辞書としたが、言語辞書、ユーザ辞書及び中間表記辞書は、一つの辞書であってもよい。この場合には、ユーザが中間表記及び読み情報についてした修正内容は、全て言語辞書に反映される。そして言語処理部10は、言語辞書のうち、ユーザ修正の結果により追加または修正された内容を優先して言語処理を行えばよい。
In the above embodiment, the language dictionary, the user dictionary, and the intermediate notation dictionary are separate dictionaries. However, the language dictionary, the user dictionary, and the intermediate notation dictionary may be a single dictionary. In this case, all corrections made by the user regarding the intermediate notation and reading information are reflected in the language dictionary. And the
また、複合名詞のアクセント結合を考慮しなくてよい場合には、品詞判定部24は省略されてもよい。この場合には、韻律継承アクセント句が韻律継承範囲そのものとなる。
In addition, the part-of-
さらに、上記の各実施形態による音声合成装置の処理部が有する各機能をコンピュータに実現させるコンピュータプログラムは、コンピュータによって読み取り可能な媒体、例えば、磁気記録媒体、光記録媒体または半導体メモリに記録された形で提供されてもよい。 Furthermore, a computer program that causes a computer to realize each function of the processing unit of the speech synthesizer according to each of the above embodiments is recorded on a computer-readable medium, for example, a magnetic recording medium, an optical recording medium, or a semiconductor memory. It may be provided in the form.
ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。 All examples and specific terms listed herein are intended for instructional purposes to help the reader understand the concepts contributed by the inventor to the present invention and the promotion of the technology. It should be construed that it is not limited to the construction of any example herein, such specific examples and conditions, with respect to showing the superiority and inferiority of the present invention. Although embodiments of the present invention have been described in detail, it should be understood that various changes, substitutions and modifications can be made thereto without departing from the spirit and scope of the present invention.
以上説明した実施形態及びその変形例に関し、更に以下の付記を開示する。
(付記1)
テキストデータから生成した、該テキストデータの読み及び韻律を表す韻律情報を含む中間表記に基づいて合成音声信号を生成する音声合成装置であって、
少なくとも1以上の単語の漢字仮名表記及び該単語の読み情報と、少なくとも1以上の韻律修正対象句の漢字仮名表記と、前記韻律修正対象句の前記中間表記と、前記韻律修正対象句の前記中間表記に含まれる韻律情報が適用されるときに前記韻律修正対象句と連続する文字列の漢字仮名表記とが登録され、かつ、前記テキストデータから前記中間表記を生成するために利用される言語辞書を記憶し、前記読み情報は前記単語の読み及びアクセント位置に関する情報である記憶部と、
前記少なくとも1以上の単語の何れかの読み情報が修正されると、前記少なくとも1以上の韻律修正対象句の中から、当該読み情報が修正された単語を含む韻律修正対象句を検出する検索部と、
前記読み情報が修正された単語を含む韻律修正対象句と、当該韻律修正対象句と連続する前記文字列とを結合することで得られる文字列を当該韻律修正対象句の韻律情報を継承するか否かを判定する対象範囲として設定する対象範囲決定部と、
前記対象範囲をアクセント句単位に分割し、前記韻律修正対象句の少なくとも一部と前記読み情報が修正された単語を含むアクセント句を、前記韻律修正対象句の韻律情報を継承する韻律継承アクセント句と判定するアクセント句判定部と、
前記修正された単語の読み情報を含む前記言語辞書を用いて前記対象範囲を言語解析することにより得られた中間表記のうちの前記韻律継承アクセント句に対応する部分の中間表記を、前記韻律継承アクセント句についての前記韻律情報で修正する修正部と、
前記韻律修正対象句を前記韻律継承アクセント句で置換するとともに、置換後の前記韻律修正対象句に対応する中間表記を前記韻律継承アクセント句についての修正された中間表記とすることで前記言語辞書を更新する更新部と、
を有する音声合成装置。
(付記2)
前記言語辞書には、当該言語辞書に登録されている単語ごとに、該単語の品詞がさらに登録され、
前記言語辞書を参照して、前記対象範囲内の前記修正された単語の品詞及び前記修正された単語の前後の単語の品詞に基づいて、前記対象範囲内で前記修正された単語が複合名詞の終端に位置する名詞か否か判定し、かつ、前記修正された単語が複合名詞の終端に位置する名詞である場合、前記修正された単語の読み情報を含む前記言語辞書を用いて前記対象範囲を言語解析することにより得られた中間表記に基づいて前記修正された単語にアクセントがあるか否か判定し、前記修正された単語が複合名詞の終端に位置する名詞であり、かつ、前記修正された単語にアクセントがあれば、前記複合名詞を韻律不継承複合名詞とする品詞判定部をさらに有し、
前記修正部は、前記韻律継承アクセント句が前記韻律不継承複合名詞に含まれる場合、当該韻律継承アクセント句の中間表記を修正しない、付記1に記載の音声合成装置。
(付記3)
前記アクセント句判定部は、前記少なくとも1以上の単語の何れかの読み情報が修正される前の前記言語辞書を用いて前記対象範囲を言語解析することにより前記対象範囲をアクセント句単位に分割したときの前記韻律修正対象句に含まれる第1のアクセント句が、前記少なくとも1以上の単語の何れかの読み情報が修正された後の前記言語辞書を用いて前記対象範囲を言語解析することにより前記対象範囲をアクセント句単位に分割したときの前記韻律修正対象句に含まれるアクセント句の何れかと一致する場合、前記第1のアクセント句を前記韻律継承アクセント句とする、付記1または2に記載の音声合成装置。
(付記4)
前記言語辞書を参照して、文字列の漢字仮名表記を言語解析することにより、当該文字列の前記中間表記を作成する言語処理部をさらに有し、
前記アクセント句判定部は、前記対象範囲の漢字仮名表記を前記言語処理部に入力することで前記対象範囲の中間表記を作成させ、当該中間表記におけるアクセントの位置を参照することで、前記対象範囲をアクセント句単位に分割する、付記1に記載の音声合成装置。
(付記5)
テキストデータから合成音声信号を生成するための、該テキストデータの読み及び韻律を表す韻律情報を含む中間表記の作成に利用され、少なくとも1以上の単語の漢字仮名表記と、該単語の読み及びアクセント位置を表す読み情報と、少なくとも1以上の韻律修正対象句の漢字仮名表記と、前記韻律修正対象句の前記中間表記と、前記韻律修正対象句の前記中間表記に含まれる韻律情報が適用されるときに前記韻律修正対象句と連続する文字列の漢字仮名表記とが登録される言語辞書の修正方法であって、
プロセッサが、前記少なくとも1以上の単語の何れかの読み情報が修正されると、前記少なくとも1以上の韻律修正対象句の中から、当該読み情報が修正された単語を含む韻律修正対象句を検出し、
前記プロセッサが、前記読み情報が修正された単語を含む韻律修正対象句と、当該韻律修正対象句と連続する前記文字列とを結合することで得られる文字列を当該韻律修正対象句の韻律情報を継承するか否かを判定する対象範囲として設定し、
前記プロセッサが、前記対象範囲をアクセント句単位に分割し、前記韻律修正対象句の少なくとも一部と前記読み情報が修正された単語を含むアクセント句を、前記韻律修正対象句の韻律情報を継承する韻律継承アクセント句と判定し、
前記プロセッサが、前記修正された読み情報を含む前記言語辞書を用いて前記対象範囲を言語解析することにより得られた中間表記のうちの前記韻律継承アクセント句に対応する部分の中間表記を、前記韻律継承アクセント句についての前記韻律情報で修正し、
前記プロセッサが、前記韻律修正対象句を前記韻律継承アクセント句で置換するとともに、置換後の前記韻律修正対象句に対応する中間表記を前記韻律継承アクセント句についての修正された中間表記とすることで前記言語辞書を更新する、
言語辞書修正方法。
(付記6)
テキストデータから合成音声信号を生成するための、該テキストデータの読み及び韻律を表す韻律情報を含む中間表記の作成に利用され、少なくとも1以上の単語の漢字仮名表記と、該単語の読み及びアクセント位置を表す読み情報と、少なくとも1以上の韻律修正対象句の漢字仮名表記と、前記韻律修正対象句の前記中間表記と、前記韻律修正対象句の前記中間表記に含まれる韻律情報が適用されるときに前記韻律修正対象句と連続する文字列の漢字仮名表記とが登録される言語辞書をコンピュータに修正させるための言語辞書修正用コンピュータプログラムであって、
前記少なくとも1以上の単語の何れかの読み情報が修正されると、前記少なくとも1以上の韻律修正対象句の中から、当該読み情報が修正された単語を含む韻律修正対象句を検出し、
前記読み情報が修正された単語を含む韻律修正対象句と、当該韻律修正対象句と連続する前記文字列とを結合することで得られる文字列を当該韻律修正対象句の韻律情報を継承するか否かを判定する対象範囲として設定し、
前記対象範囲をアクセント句単位に分割し、前記韻律修正対象句の少なくとも一部と前記読み情報が修正された単語を含むアクセント句を、前記韻律修正対象句の韻律情報を継承する韻律継承アクセント句と判定し、
前記修正された読み情報を含む前記言語辞書を用いて前記対象範囲を言語解析することにより得られた中間表記のうちの前記韻律継承アクセント句に対応する部分の中間表記を、前記韻律継承アクセント句についての前記韻律情報で修正し、
前記韻律修正対象句を前記韻律継承アクセント句で置換するとともに、置換後の前記韻律修正対象句に対応する中間表記を前記韻律継承アクセント句についての修正された中間表記とすることで前記言語辞書を更新する、
ことをコンピュータに実行させるための言語辞書修正用コンピュータプログラム。
The following supplementary notes are further disclosed regarding the embodiment described above and its modifications.
(Appendix 1)
A speech synthesizer that generates a synthesized speech signal based on intermediate notation that includes prosody information representing prosody and reading of the text data, generated from text data,
Kanji kana notation of at least one word and reading information of the word, Kanji kana notation of at least one prosody modification target phrase, the intermediate representation of the prosody modification target phrase, and the intermediate of the prosody modification target phrase A language dictionary in which the prosodic correction target phrase and the kanji kana notation of a continuous character string are registered when the prosodic information included in the notation is applied, and used to generate the intermediate notation from the text data The reading information is information about the reading and accent position of the word;
When any reading information of the at least one or more words is corrected, a search unit that detects a prosody correction target phrase including the word whose reading information is corrected from the at least one or more prosody correction target phrases When,
Whether the prosody information of the prosodic correction target phrase is inherited from the prosody correction target phrase including the word whose reading information is corrected and the character string that is continuous with the prosody correction target phrase. A target range determination unit that is set as a target range for determining whether or not;
Prosody inheritance accent phrases that divide the target range into accent phrase units and inherit at least a part of the prosodic correction target phrases and words whose reading information has been corrected, and inherit the prosodic information of the prosodic correction target phrases An accent phrase determination unit for determining
The intermediate notation of the portion corresponding to the prosodic inheritance accent phrase in the intermediate notation obtained by linguistically analyzing the target range using the language dictionary including the corrected word reading information is used as the prosody inheritance. A correction unit for correcting the prosody information about the accent phrase;
The language dictionary is obtained by replacing the prosodic correction target phrase with the prosodic inheritance accent phrase and setting the intermediate notation corresponding to the prosodic correction target phrase after replacement as a corrected intermediate notation for the prosodic inheritance phrase An update section to update;
A speech synthesizer.
(Appendix 2)
For each word registered in the language dictionary, the part of speech of the word is further registered in the language dictionary,
Referring to the language dictionary, based on the part of speech of the corrected word in the target range and the part of speech of the word before and after the corrected word, the corrected word in the target range is a compound noun. It is determined whether or not the noun is located at the end, and when the corrected word is a noun located at the end of a compound noun, the target range using the language dictionary including the reading information of the corrected word Whether or not the corrected word has an accent based on an intermediate notation obtained by linguistic analysis of the word, the corrected word is a noun located at the end of a compound noun, and the correction If the word is accented, it further has a part-of-speech determination unit that uses the compound noun as a prosody-inherited compound noun,
The speech synthesizer according to attachment 1, wherein the correction unit does not correct an intermediate notation of the prosodic inheritance accent phrase when the prosodic inheritance accent phrase is included in the prosody non-inheritance compound noun.
(Appendix 3)
The accent phrase determination unit divides the target range into accent phrase units by performing linguistic analysis on the target range using the language dictionary before any reading information of the at least one word is corrected. When the first accent phrase included in the prosodic correction target phrase at the time is subjected to linguistic analysis of the target range using the language dictionary after the reading information of any of the at least one word is corrected The
(Appendix 4)
A language processing unit that creates the intermediate representation of the character string by referring to the language dictionary and performing linguistic analysis of the kanji kana notation of the character string,
The accent phrase determination unit inputs the kanji kana notation of the target range to the language processing unit to create an intermediate notation of the target range, and refers to the position of the accent in the intermediate notation, thereby The speech synthesizer according to claim 1, wherein the speech synthesizer is divided into accent phrases.
(Appendix 5)
Used to create an intermediate notation including prosodic information representing the reading and prosody of the text data for generating a synthesized speech signal from the text data, and kanji kana notation of at least one word, and the reading and accent of the word The reading information representing the position, at least one kanji kana notation of the prosodic correction target phrase, the intermediate notation of the prosody correction target phrase, and the prosodic information included in the intermediate notation of the prosody correction target phrase are applied. A method for correcting a language dictionary in which sometimes the prosodic correction target phrase and a kanji kana notation of a continuous character string are registered,
When any reading information of the at least one or more words is corrected, the processor detects a prosody correction target phrase including the word whose reading information is corrected from the at least one or more prosody correction target phrases. And
The prosody information of the prosodic correction target phrase is obtained by combining the prosody correction target phrase including the word whose reading information has been corrected and the character string continuous with the prosody correction target phrase. Is set as the target range to determine whether to inherit
The processor divides the target range into accent phrase units, and inherits the prosodic information of the prosodic correction target phrase for an accent phrase including at least a part of the prosody correction target phrase and the word whose reading information is corrected Judge as prosodic inheritance phrase,
The intermediate notation of the portion corresponding to the prosodic inheritance accent phrase in the intermediate notation obtained by linguistically analyzing the target range using the language dictionary including the corrected reading information, Correct with the prosodic information about the prosodic inherited accent phrase,
The processor replaces the prosody modification target phrase with the prosody inheritance accent phrase, and sets the intermediate expression corresponding to the replaced prosody modification target phrase as a modified intermediate expression for the prosody inheritance accent phrase. Updating the language dictionary;
Language dictionary correction method.
(Appendix 6)
Used to create an intermediate notation including prosodic information representing the reading and prosody of the text data for generating a synthesized speech signal from the text data, and kanji kana notation of at least one word, and the reading and accent of the word The reading information representing the position, at least one kanji kana notation of the prosodic correction target phrase, the intermediate notation of the prosody correction target phrase, and the prosodic information included in the intermediate notation of the prosody correction target phrase are applied. A language dictionary correction computer program for causing a computer to correct a language dictionary in which sometimes the prosodic correction target phrase and a kanji kana notation of a continuous character string are registered,
When any reading information of the at least one or more words is corrected, a prosodic correction target phrase including the word whose reading information is corrected is detected from the at least one or more prosody correction target phrases;
Whether the prosody information of the prosodic correction target phrase is inherited from the prosody correction target phrase including the word whose reading information is corrected and the character string that is continuous with the prosody correction target phrase. Set as a target range to determine whether or not
Prosody inheritance accent phrases that divide the target range into accent phrase units and inherit at least a part of the prosodic correction target phrases and words whose reading information has been corrected, and inherit the prosodic information of the prosodic correction target phrases And
The intermediate notation of the portion corresponding to the prosodic inherited accent phrase in the intermediate notation obtained by performing language analysis on the target range using the language dictionary including the corrected reading information is the prosodic inherited accent phrase. Modified with the prosodic information about
The language dictionary is obtained by replacing the prosodic correction target phrase with the prosodic inheritance accent phrase and setting the intermediate notation corresponding to the prosodic correction target phrase after replacement as a corrected intermediate notation for the prosodic inheritance phrase Update,
A computer program for correcting a language dictionary for causing a computer to execute the operation.
1 音声合成装置
2 入力部
3 記憶部
4 処理部
5 出力部
6 スピーカ
10 言語処理部
11 音声合成部
12 辞書登録部
13 辞書修正部
21 検索部
22 対象範囲決定部
23 アクセント句判定部
24 品詞判定部
25 修正部
26 辞書更新部
DESCRIPTION OF SYMBOLS 1
Claims (5)
少なくとも1以上の単語の漢字仮名表記及び該単語の読み情報と、少なくとも1以上の韻律修正対象句の漢字仮名表記と、前記韻律修正対象句の前記中間表記と、前記韻律修正対象句の前記中間表記に含まれる韻律情報が適用されるときに前記韻律修正対象句と連続する文字列の漢字仮名表記とが登録され、かつ、前記テキストデータから前記中間表記を生成するために利用される言語辞書を記憶し、前記読み情報は前記単語の読み及びアクセント位置に関する情報である記憶部と、
前記少なくとも1以上の単語の何れかの読み情報が修正されると、前記少なくとも1以上の韻律修正対象句の中から、当該読み情報が修正された単語を含む韻律修正対象句を検出する検索部と、
前記読み情報が修正された単語を含む韻律修正対象句と、当該韻律修正対象句と連続する前記文字列とを結合することで得られる文字列を当該韻律修正対象句の韻律情報を継承するか否かを判定する対象範囲として設定する対象範囲決定部と、
前記対象範囲をアクセント句単位に分割し、前記韻律修正対象句の少なくとも一部と前記読み情報が修正された単語を含むアクセント句を、前記韻律修正対象句の韻律情報を継承する韻律継承アクセント句と判定するアクセント句判定部と、
前記修正された単語の読み情報を含む前記言語辞書を用いて前記対象範囲を言語解析することにより得られた中間表記のうちの前記韻律継承アクセント句に対応する部分の中間表記を、前記韻律継承アクセント句についての前記韻律情報で修正する修正部と、
前記韻律修正対象句を前記韻律継承アクセント句で置換するとともに、置換後の前記韻律修正対象句に対応する中間表記を前記韻律継承アクセント句についての修正された中間表記とすることで前記言語辞書を更新する更新部と、
を有する音声合成装置。 A speech synthesizer that generates a synthesized speech signal based on intermediate notation that includes prosody information representing prosody and reading of the text data, generated from text data,
Kanji kana notation of at least one word and reading information of the word, Kanji kana notation of at least one prosody modification target phrase, the intermediate representation of the prosody modification target phrase, and the intermediate of the prosody modification target phrase A language dictionary in which the prosodic correction target phrase and the kanji kana notation of a continuous character string are registered when the prosodic information included in the notation is applied, and used to generate the intermediate notation from the text data The reading information is information about the reading and accent position of the word;
When any reading information of the at least one or more words is corrected, a search unit that detects a prosody correction target phrase including the word whose reading information is corrected from the at least one or more prosody correction target phrases When,
Whether the prosody information of the prosodic correction target phrase is inherited from the prosody correction target phrase including the word whose reading information is corrected and the character string that is continuous with the prosody correction target phrase. A target range determination unit that is set as a target range for determining whether or not;
Prosody inheritance accent phrases that divide the target range into accent phrase units and inherit at least a part of the prosodic correction target phrases and words whose reading information has been corrected, and inherit the prosodic information of the prosodic correction target phrases An accent phrase determination unit for determining
The intermediate notation of the portion corresponding to the prosodic inheritance accent phrase in the intermediate notation obtained by linguistically analyzing the target range using the language dictionary including the corrected word reading information is used as the prosody inheritance. A correction unit for correcting the prosody information about the accent phrase;
The language dictionary is obtained by replacing the prosodic correction target phrase with the prosodic inheritance accent phrase and setting the intermediate notation corresponding to the prosodic correction target phrase after replacement as a corrected intermediate notation for the prosodic inheritance phrase An update section to update;
A speech synthesizer.
前記言語辞書を参照して、前記対象範囲内の前記修正された単語の品詞及び前記修正された単語の前後の単語の品詞に基づいて、前記対象範囲内で前記修正された単語が複合名詞の終端に位置する名詞か否か判定し、かつ、前記修正された単語が複合名詞の終端に位置する名詞である場合、前記修正された単語の読み情報を含む前記言語辞書を用いて前記対象範囲を言語解析することにより得られた中間表記に基づいて前記修正された単語にアクセントがあるか否か判定し、前記修正された単語が複合名詞の終端に位置する名詞であり、かつ、前記修正された単語にアクセントがあれば、前記複合名詞を韻律不継承複合名詞とする品詞判定部をさらに有し、
前記修正部は、前記韻律継承アクセント句が前記韻律不継承複合名詞に含まれる場合、当該韻律継承アクセント句の中間表記を修正しない、請求項1に記載の音声合成装置。 For each word registered in the language dictionary, the part of speech of the word is further registered in the language dictionary,
Referring to the language dictionary, based on the part of speech of the corrected word in the target range and the part of speech of the word before and after the corrected word, the corrected word in the target range is a compound noun. It is determined whether or not the noun is located at the end, and when the corrected word is a noun located at the end of a compound noun, the target range using the language dictionary including the reading information of the corrected word Whether or not the corrected word has an accent based on an intermediate notation obtained by linguistic analysis of the word, the corrected word is a noun located at the end of a compound noun, and the correction If the word is accented, it further has a part-of-speech determination unit that uses the compound noun as a prosody-inherited compound noun,
The speech synthesizer according to claim 1, wherein when the prosodic inheritance accent phrase is included in the prosodic non-inheritance compound noun, the correction unit does not correct an intermediate representation of the prosodic inheritance accent phrase.
プロセッサが、前記少なくとも1以上の単語の何れかの読み情報が修正されると、前記少なくとも1以上の韻律修正対象句の中から、当該読み情報が修正された単語を含む韻律修正対象句を検出し、
前記プロセッサが、前記読み情報が修正された単語を含む韻律修正対象句と、当該韻律修正対象句と連続する前記文字列とを結合することで得られる文字列を当該韻律修正対象句の韻律情報を継承するか否かを判定する対象範囲として設定し、
前記プロセッサが、前記対象範囲をアクセント句単位に分割し、前記韻律修正対象句の少なくとも一部と前記読み情報が修正された単語を含むアクセント句を、前記韻律修正対象句の韻律情報を継承する韻律継承アクセント句と判定し、
前記プロセッサが、前記修正された読み情報を含む前記言語辞書を用いて前記対象範囲を言語解析することにより得られた中間表記のうちの前記韻律継承アクセント句に対応する部分の中間表記を、前記韻律継承アクセント句についての前記韻律情報で修正し、
前記プロセッサが、前記韻律修正対象句を前記韻律継承アクセント句で置換するとともに、置換後の前記韻律修正対象句に対応する中間表記を前記韻律継承アクセント句についての修正された中間表記とすることで前記言語辞書を更新する、
言語辞書修正方法。 Used to create an intermediate notation including prosodic information representing the reading and prosody of the text data for generating a synthesized speech signal from the text data, and kanji kana notation of at least one word, and the reading and accent of the word The reading information representing the position, at least one kanji kana notation of the prosodic correction target phrase, the intermediate notation of the prosody correction target phrase, and the prosodic information included in the intermediate notation of the prosody correction target phrase are applied. A method for correcting a language dictionary in which sometimes the prosodic correction target phrase and a kanji kana notation of a continuous character string are registered,
When any reading information of the at least one or more words is corrected, the processor detects a prosody correction target phrase including the word whose reading information is corrected from the at least one or more prosody correction target phrases. And
The prosody information of the prosodic correction target phrase is obtained by combining the prosody correction target phrase including the word whose reading information has been corrected and the character string continuous with the prosody correction target phrase. Is set as the target range to determine whether to inherit
The processor divides the target range into accent phrase units, and inherits the prosodic information of the prosodic correction target phrase for an accent phrase including at least a part of the prosody correction target phrase and the word whose reading information is corrected Judge as prosodic inheritance phrase,
The intermediate notation of the portion corresponding to the prosodic inheritance accent phrase in the intermediate notation obtained by linguistically analyzing the target range using the language dictionary including the corrected reading information, Correct with the prosodic information about the prosodic inherited accent phrase,
The processor replaces the prosody modification target phrase with the prosody inheritance accent phrase, and sets the intermediate expression corresponding to the replaced prosody modification target phrase as a modified intermediate expression for the prosody inheritance accent phrase. Updating the language dictionary;
Language dictionary correction method.
前記少なくとも1以上の単語の何れかの読み情報が修正されると、前記少なくとも1以上の韻律修正対象句の中から、当該読み情報が修正された単語を含む韻律修正対象句を検出し、
前記読み情報が修正された単語を含む韻律修正対象句と、当該韻律修正対象句と連続する前記文字列とを結合することで得られる文字列を当該韻律修正対象句の韻律情報を継承するか否かを判定する対象範囲として設定し、
前記対象範囲をアクセント句単位に分割し、前記韻律修正対象句の少なくとも一部と前記読み情報が修正された単語を含むアクセント句を、前記韻律修正対象句の韻律情報を継承する韻律継承アクセント句と判定し、
前記修正された読み情報を含む前記言語辞書を用いて前記対象範囲を言語解析することにより得られた中間表記のうちの前記韻律継承アクセント句に対応する部分の中間表記を、前記韻律継承アクセント句についての前記韻律情報で修正し、
前記韻律修正対象句を前記韻律継承アクセント句で置換するとともに、置換後の前記韻律修正対象句に対応する中間表記を前記韻律継承アクセント句についての修正された中間表記とすることで前記言語辞書を更新する、
ことをコンピュータに実行させるための言語辞書修正用コンピュータプログラム。 Used to create an intermediate notation including prosodic information representing the reading and prosody of the text data for generating a synthesized speech signal from the text data, and kanji kana notation of at least one word, and the reading and accent of the word The reading information representing the position, at least one kanji kana notation of the prosodic correction target phrase, the intermediate notation of the prosody correction target phrase, and the prosodic information included in the intermediate notation of the prosody correction target phrase are applied. A language dictionary correction computer program for causing a computer to correct a language dictionary in which sometimes the prosodic correction target phrase and a kanji kana notation of a continuous character string are registered,
When any reading information of the at least one or more words is corrected, a prosodic correction target phrase including the word whose reading information is corrected is detected from the at least one or more prosody correction target phrases;
Whether the prosody information of the prosodic correction target phrase is inherited from the prosody correction target phrase including the word whose reading information is corrected and the character string that is continuous with the prosody correction target phrase. Set as a target range to determine whether or not
Prosody inheritance accent phrases that divide the target range into accent phrase units and inherit at least a part of the prosodic correction target phrases and words whose reading information has been corrected, and inherit the prosodic information of the prosodic correction target phrases And
The intermediate notation of the portion corresponding to the prosodic inherited accent phrase in the intermediate notation obtained by performing language analysis on the target range using the language dictionary including the corrected reading information is the prosodic inherited accent phrase. Modified with the prosodic information about
The language dictionary is obtained by replacing the prosodic correction target phrase with the prosodic inheritance accent phrase and setting the intermediate notation corresponding to the prosodic correction target phrase after replacement as a corrected intermediate notation for the prosodic inheritance phrase Update,
A computer program for correcting a language dictionary for causing a computer to execute the operation.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013192984A JP6197523B2 (en) | 2013-09-18 | 2013-09-18 | Speech synthesizer, language dictionary correction method, and language dictionary correction computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013192984A JP6197523B2 (en) | 2013-09-18 | 2013-09-18 | Speech synthesizer, language dictionary correction method, and language dictionary correction computer program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015060038A JP2015060038A (en) | 2015-03-30 |
JP6197523B2 true JP6197523B2 (en) | 2017-09-20 |
Family
ID=52817628
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013192984A Active JP6197523B2 (en) | 2013-09-18 | 2013-09-18 | Speech synthesizer, language dictionary correction method, and language dictionary correction computer program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6197523B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6790959B2 (en) * | 2017-03-29 | 2020-11-25 | 富士通株式会社 | Speech synthesizer, speech synthesis method and speech synthesis system, and computer program for speech synthesis |
CN111105780B (en) * | 2019-12-27 | 2023-03-31 | 出门问问信息科技有限公司 | Rhythm correction method, device and computer readable storage medium |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3589972B2 (en) * | 2000-10-12 | 2004-11-17 | 沖電気工業株式会社 | Speech synthesizer |
JP4704254B2 (en) * | 2006-03-16 | 2011-06-15 | 三菱電機株式会社 | Reading correction device |
-
2013
- 2013-09-18 JP JP2013192984A patent/JP6197523B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015060038A (en) | 2015-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6778962B1 (en) | Speech synthesis with prosodic model data and accent type | |
JP4038211B2 (en) | Speech synthesis apparatus, speech synthesis method, and speech synthesis system | |
US8170876B2 (en) | Speech processing apparatus and program | |
JP2009186820A (en) | Speech processing system, speech processing program, and speech processing method | |
JP2008268477A (en) | Rhythm adjustable speech synthesizer | |
Ekpenyong et al. | Statistical parametric speech synthesis for Ibibio | |
US20090281808A1 (en) | Voice data creation system, program, semiconductor integrated circuit device, and method for producing semiconductor integrated circuit device | |
JP5079718B2 (en) | Foreign language learning support system and program | |
JP6197523B2 (en) | Speech synthesizer, language dictionary correction method, and language dictionary correction computer program | |
JP2010117528A (en) | Vocal quality change decision device, vocal quality change decision method and vocal quality change decision program | |
JP6232724B2 (en) | Speech synthesis apparatus and language dictionary registration method | |
JP3589972B2 (en) | Speech synthesizer | |
JP4751230B2 (en) | Prosodic segment dictionary creation method, speech synthesizer, and program | |
JP6340839B2 (en) | Speech synthesizer, synthesized speech editing method, and synthesized speech editing computer program | |
JP3414326B2 (en) | Speech synthesis dictionary registration apparatus and method | |
JP3284976B2 (en) | Speech synthesis device and computer-readable recording medium | |
Romsdorfer | Polyglot text-to-speech synthesis: Text analysis & prosody control | |
JPH11338498A (en) | Voice synthesizer | |
JP2003005776A (en) | Voice synthesizing device | |
JPH08185197A (en) | Japanese analyzing device and japanese text speech synthesizing device | |
JP2004258561A (en) | Program and device for inputting data for singing synthesis | |
JPH09258763A (en) | Voice synthesizing device | |
JP2728440B2 (en) | Audio output device | |
JP2023006055A (en) | Program, information processing device, and method | |
JP6197362B2 (en) | Speech synthesis method, program, and apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160606 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170707 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170725 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170807 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6197523 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |