JP2015172625A - Voice synthesizer, synthesized voice editing method, and synthesized voice editing computer program - Google Patents
Voice synthesizer, synthesized voice editing method, and synthesized voice editing computer program Download PDFInfo
- Publication number
- JP2015172625A JP2015172625A JP2014047871A JP2014047871A JP2015172625A JP 2015172625 A JP2015172625 A JP 2015172625A JP 2014047871 A JP2014047871 A JP 2014047871A JP 2014047871 A JP2014047871 A JP 2014047871A JP 2015172625 A JP2015172625 A JP 2015172625A
- Authority
- JP
- Japan
- Prior art keywords
- accent
- candidate
- word
- boundary
- correction target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
Description
本発明は、例えば、テキストデータから音声信号を合成する音声合成装置及びその音声合成装置で利用される合成音声編集方法及び合成音声編集用コンピュータプログラムに関する。 The present invention relates to a speech synthesizer that synthesizes a speech signal from text data, for example, a synthesized speech editing method and a synthesized speech editing computer program used in the speech synthesizer.
近年、音声を自動合成する音声合成技術が開発されている。音声合成技術は、短時間で所望の音声を作成できるというメリットを有するため、これまで予め録音されたプロのナレータによる音声を用いていたアプリケーションの中には、このような音声合成技術を採用したものもある。特に、商業施設における案内放送、ハイウェイラジオ、ハイウェイテレホンまたは天気予報の放送など、短い時間間隔で提供する情報が更新されるアプリケーションでは、上記のメリットを持つ音声合成技術が有用である。 In recent years, speech synthesis technology for automatically synthesizing speech has been developed. Since speech synthesis technology has the advantage that it can create desired speech in a short time, such speech synthesis technology has been adopted in applications that have used pre-recorded speech by professional narrators. There are also things. In particular, in an application in which information provided at a short time interval is updated, such as a guidance broadcast in a commercial facility, a highway radio, a highway telephone, or a weather forecast broadcast, the speech synthesis technology having the above-described advantages is useful.
合成したい音声信号を生成するために、音声合成装置には、例えば、キーボードなどを介して漢字仮名交じりのテキストデータが入力される。そして音声合成装置は、そのテキストデータに対して、単語を漢字と仮名で表した漢字仮名表記とその単語の発音を表す表音文字列などを登録した単語辞書を利用して、形態素解析または係り受け解析といった言語処理を行う。そして音声合成装置は、その言語処理によって、テキストデータの表音文字列と、その表音文字列にアクセント位置、アクセントの強弱あるいは抑揚の大小といった韻律を表す韻律記号を付した中間表記を生成する。そして音声合成装置は、その中間表記に基づいて、合成音声信号を生成する。 In order to generate a speech signal to be synthesized, text data mixed with kanji characters is input to the speech synthesizer via, for example, a keyboard. Then, the speech synthesizer uses a word dictionary in which kanji kana notation representing a word in kanji and kana and a phonetic character string representing pronunciation of the word are registered with respect to the text data, and morphological analysis or Performs language processing such as receiving analysis. The speech synthesizer then generates a phonetic character string of the text data and an intermediate notation in which the phonetic character string is added with a prosodic symbol representing the prosody such as accent position, accent strength, or inflection magnitude. . Then, the speech synthesizer generates a synthesized speech signal based on the intermediate notation.
展示会またはe-Learning用のナレーションとして使用される合成音声などでは、より自然な発声に近い、高品質な音声とするために、合成音声の韻律をユーザが調整することがある。そこで、アクセント句などの区切り位置を編集するためのユーザインターフェースを備え、単語列のアクセント句などを表す発話区分が編集されると、その編集された発話区分に基づいて発音記号列を再生成する技術が提案されている(例えば、特許文献1を参照)。 In synthesized speech used as a narration for an exhibition or e-Learning, the user may adjust the prosody of the synthesized speech in order to obtain high-quality speech that is closer to a natural utterance. Therefore, a user interface for editing the break position of an accent phrase is provided, and when a speech segment representing an accent phrase of a word string is edited, a phonetic symbol string is regenerated based on the edited speech segment. Techniques have been proposed (see, for example, Patent Document 1).
特許文献1に開示された技術では、全てのアクセント句の境界が提示されるので、ユーザが、全てのアクセント句の境界の正誤と編集の有無を判定することになる。しかし、合成音声のアクセントが不自然とならないように、アクセント句の境界を変更するには、ユーザ自身がアクセントに関する知識を有していることが求められる。もし、アクセントに関する知識が十分でないユーザが、アクセント句の境界を無くしたり、あるいは追加したりといった編集作業を行うと、アクセント句の境界の有無によって適切なアクセントの位置が異なるために、アクセントが誤ったものになることがある。
In the technique disclosed in
そこで本明細書は、一つの側面として、合成音声のアクセント句の境界の編集によるアクセントの誤りを防止できる音声合成装置を提供することを目的とする。 Accordingly, an object of one aspect of the present specification is to provide a speech synthesizer capable of preventing an accent error caused by editing a boundary of an accent phrase of a synthesized speech.
一つの実施形態によれば、音声合成装置が提供される。この音声合成装置は、合成音声の原文となるデータ及びその原文の読みを表すデータを取得する入力部と、単語ごとの品詞及びアクセント位置が登録された単語辞書を記憶する記憶部と、単語辞書を参照して原文及びその原文の読みに言語処理を行うことにより、原文に含まれる各単語の品詞を特定し、かつ、その原文をアクセント句単位で分割して、各アクセント句のアクセント及びアクセント結合が生じた位置を表す中間表記を生成する言語処理部と、原文に含まれる各単語の品詞を参照して自立語である単語を特定し、自立語とその自立語の直前の単語間の境界を、それぞれ、アクセント句の境界の候補とするアクセント句境界候補抽出部と、アクセント句の境界の候補のうち、その候補の前のアクセント句のアクセント及びその候補がアクセント結合された位置にあるか否かに応じて、アクセント句の境界か否かを変更しても、その候補の前後のアクセント句が誤ったアクセントにならない候補を修正対象候補として特定する修正対象候補決定部と、修正対象候補を表示部に表示させる表示制御部と、を有する。 According to one embodiment, a speech synthesizer is provided. The speech synthesizer includes an input unit that obtains original text of synthesized speech and data representing reading of the original text, a storage unit that stores a word dictionary in which part-of-speech and accent positions for each word are registered, and a word dictionary To identify the part of speech of each word contained in the original text, and to divide the original text into accent phrases, and to accent and accent each accent phrase. A language processing unit that generates an intermediate notation that indicates the position where the coupling occurs, and a word that is an independent word by referring to the part of speech of each word included in the original text, and between the independent word and the word immediately before the independent word An accent phrase boundary candidate extraction unit that sets each boundary as a candidate for an accent phrase boundary, and among the accent phrase boundary candidates, an accent phrase preceding the candidate and its candidates Correction target that identifies candidates whose accent phrases before and after the candidate do not become incorrect accents as correction target candidates even if the boundary of the accent phrase is changed depending on whether or not it is in an accent-joined position A candidate determination unit; and a display control unit that displays correction target candidates on the display unit.
本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成される。
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。
The objects and advantages of the invention will be realized and attained by means of the elements and combinations particularly pointed out in the appended claims.
It should be understood that both the foregoing general description and the following detailed description are exemplary and explanatory and are not restrictive of the invention as claimed.
本明細書に開示された音声合成装置は、合成音声のアクセント句の境界の編集によるアクセントの誤りを防止できる。 The speech synthesizer disclosed in this specification can prevent accent errors due to editing of accent phrase boundaries in synthesized speech.
以下、図を参照しつつ、音声合成装置について説明する。
この音声合成装置は、合成音声のアクセント句の境界をユーザに編集させる際、アクセント句の境界の候補のうち、アクセント句の境界か否かが変更されてもアクセントが正しい候補を編集可能に表示する。一方、この音声合成装置は、アクセント句の境界の候補のうち、アクセント句の境界か否かが変更されると、アクセントが不適切となる候補を非表示とすることで、アクセント句の境界の編集によるアクセント誤りを防止する。
Hereinafter, the speech synthesizer will be described with reference to the drawings.
When this speech synthesizer allows the user to edit the accent phrase boundaries of the synthesized speech, the correct accent candidate can be edited even if the accent phrase boundary is changed or not. To do. On the other hand, this speech synthesizer changes the accent phrase boundary by hiding candidates for which the accent is inappropriate among the accent phrase boundary candidates when the accent phrase boundary is changed. Prevent accent errors due to editing.
図1は、一つの実施形態による音声合成装置の概略構成図である。本実施形態では、音声合成装置1は、操作部2と、表示部3と、通信インターフェース部4と、出力部5と、記憶部6と、処理部7とを有する。
FIG. 1 is a schematic configuration diagram of a speech synthesizer according to one embodiment. In the present embodiment, the
操作部2は、例えば、キーボードと、マウスといったポインティングデバイスとを有する。そして操作部2は、合成音声の原文であり、漢字仮名交じり文であるテキストデータと、その読みを表すテキストデータとを取得する入力部の一例である。操作部2は、ユーザにより入力されたテキストデータを処理部7へ渡す。
The
表示部3は、液晶ディスプレイといった表示装置を有する。そして表示部3は、入力された合成音声の原文のテキストデータと、その原文中に設定される、編集可能なアクセント句の境界の候補などを表示する。なお、操作部2と表示部3とは、タッチパネルディスプレイとして一体的に形成されてもよい。
The
通信インターフェース部4は、音声合成装置1を通信ネットワークに接続するためのインターフェース回路を有し、通信ネットワークを介して様々な情報を取得する。また通信インターフェース部4は、入力部の他の一例であり、合成音声の原文であり、漢字仮名交じり文であるテキストデータと、その読みを表すテキストデータとを通信ネットワークを介して音声合成装置1と接続された他の機器から取得してもよい。
また、通信インターフェース部4は、処理部7から受け取った合成音声信号を、通信ネットワークを介して音声合成装置1と接続された他の装置へ出力してもよい。
The
Further, the
出力部5は、処理部7から受け取った合成音声信号をスピーカ8へ出力する。そのために、出力部5は、例えば、スピーカ8を音声合成装置1と接続するためのオーディオインターフェース回路を有する。
The
記憶部6は、例えば、半導体メモリ回路、磁気記憶装置または光記憶装置のうちの少なくとも一つを有する。そして記憶部6は、処理部7で用いられる各種コンピュータプログラム、音声合成処理または合成音声編集処理に用いられる各種のデータを記憶する。
記憶部6は、音声合成処理に用いられるデータとして、例えば、韻律モデルと、音声波形辞書を記憶する。さらに記憶部6は、単語辞書を記憶する。単語辞書には、様々な単語について、その単語の表記、表音文字列、その単語固有のアクセント及びアクセント結合のし易さを表すポイントが登録される。単語のアクセント結合のし易さを表すポイントは、その単語が他の単語の前に位置する場合と、他の単語の後に位置する場合とで異なっていてもよい。また、単語辞書には、登録された各単語の品詞情報及び活用形などがさらに登録されてもよい。
The
The
処理部7は、一つまたは複数のプロセッサと、メモリ回路と、周辺回路とを有する。そして処理部7は、入力されたテキストデータに基づいて、合成音声信号を作成する。
図2は、処理部7の機能ブロック図である。処理部7は、言語処理部10と、音声合成部11と、合成音声編集部12とを有する。
処理部7が有するこれらの各部は、例えば、処理部7が有するプロセッサ上で動作するコンピュータプログラムにより実現される機能モジュールである。あるいは、処理部7が有するこれらの各部は、その各部の機能を実現する一つの集積回路として音声合成装置1に実装されてもよい。
The
FIG. 2 is a functional block diagram of the
Each of these units included in the
言語処理部10は、入力された、漢字仮名交じり文である原文のテキストデータに対応する表音文字列を生成し、さらにその表音文字列に基づいて中間表記を生成する。ここで、中間表記とは、表音文字列に、韻律を表す韻律記号が追加されたものである。韻律記号には、例えば、「アクセント位置」、「アクセント強弱」、「音程高低」、「抑揚大小」、「話速緩急」、「音量大小」及び「区切り」を表現する記号が含まれる。したがって、中間表記から韻律記号を除いたものは、表音文字列と一致する。
The
言語処理部10は、入力された原文のテキストデータ及び読みを表すテキストデータから中間表記を生成するために、記憶部6に記憶されている単語辞書を読み込む。言語処理部10は、例えば、その単語辞書を用いて、それらのテキストデータに対して形態素解析及び係り受け解析を行って、原文中に出現する各単語の順序及び読み、アクセントの位置及びアクセント句の境界及び呼気段落境界などの区切りの位置を決定する。さらに、言語処理部10は、単語辞書を参照して、連続するアクセント句同士を結合させたときの結合のし易さのポイントの合計を算出し、その合計値が所定の閾値以上となる場合、それらアクセント句同士を結合する。
The
言語処理部10は、形態素解析として、例えば、動的計画法を用いる方法を利用できる。また言語処理部10は、係り受け解析として、例えば、先読みLRパーザまたはLL法といった構文解析の手法を利用できる。そして言語処理部10は、各単語の順序、読み、アクセントの位置及びアクセント句の境界を含む区切りの位置に応じて中間表記を作成する。
言語処理部10は、生成した中間表記を記憶部6に記憶する。
The
The
音声合成部11は、入力されたテキストデータの中間表記に基づいて合成音声信号を作成する。
The
音声合成部11は、中間表記に基づいて、合成音声信号を生成する際の目標韻律を生成する。そのために、音声合成部11は、記憶部6から複数の韻律モデルを読み込む。この韻律モデルは、声を高くする位置及び声を低くする位置などを時間順に表したものである。そして音声合成部11は、複数の韻律モデルのうち、中間表記に示されたアクセントの位置などに最も一致する韻律モデルを選択する。そして音声合成部11は、選択した韻律モデル及び合成パラメータに従って、中間表記に対して声が高くなる位置あるいは声が低くなる位置、声の抑揚、ピッチなどを設定することにより、目標韻律を作成する。目標韻律は、音声波形を決定する単位となる音素ごとに、音素の長さ及びピッチ周波数を含む。なお、音素は、例えば、一つの母音あるいは一つの子音とすることができる。
The
音声合成部11は、生成した目標韻律に従って、例えば、HMM(Hidden Markov Model)合成方式、音素接続方式またはコーパスベース方式によって合成音声信号を作成する。
例えば、音声合成部11は、音素ごとに、目標韻律の音素長及びピッチ周波数に最も近い音声波形を、例えばパターンマッチングにより音声波形辞書に登録されている複数の音声波形の中から選択する。そのために、音声合成部11は、記憶部6から音声波形辞書を読み込む。音声波形辞書は、複数の音声波形及び各音声波形の識別番号を記録する。また音声波形は、例えば、一人以上のナレータが様々なテキストを読み上げた様々な音声を録音した音声信号から、音素単位で取り出された波形信号である。
さらに、音声合成部11は、音素ごとに選択された音声波形を目標韻律に沿って接続できるようにするため、それら選択された音声波形と目標韻律に示された対応する音素の波形パターンとのずれ量を、波形変換情報として算出してもよい。
音声合成部11は、音素ごとに選択された音声波形の識別番号を含む波形生成情報を作成する。波形生成情報は、波形変換情報をさらに含んでもよい。
The
For example, for each phoneme, the
Furthermore, the
The
音声合成部11は、波形生成情報に含まれる各音素の音声波形の識別番号に対応する音声波形信号を記憶部6から読み込む。そして音声合成部11は、各音声波形信号を連続的に接続することにより、合成音声信号を作成する。なお、波形生成情報に波形変換情報が含まれている場合、音声合成部11は、各音声波形信号を、対応する音素について求められた波形変換情報に従って補正して音声波形信号を連続的に接続することにより、合成音声信号を作成する。
音声合成部11は、合成音声信号を出力部5へ出力する。
The
The
合成音声編集部12は、アクセント句の境界となり得る、単語間の境界(以下、便宜上、アクセント句境界の候補と呼ぶ)のうち、ユーザが修正しても、アクセントが不適切とならないものを表示部3に表示させる。また合成音声編集部12は、操作部2を介して、アクセント句境界の候補について、アクセント句境界か否かが変更されたときに、その変更内容に応じて中間表記を修正する。そのために、合成音声編集部12は、アクセント句境界候補抽出部21と、修正対象候補決定部22と、表示制御部23と、修正部24とを有する。
The synthesized
処理部7は、操作部2から中間表記の編集を行うことを示す操作信号を受け取ると、合成音声編集部12を起動する。合成音声編集部12は、起動されると、記憶部6から、合成音声の原文のテキストデータと、そのテキストデータに対応する各単語の品詞情報及び中間表記とを読み込む。
When the
アクセント句境界候補抽出部21は、各単語の品詞情報に基づいて、合成音声の原文に含まれる、名詞、代名詞または連体詞といった自立語を特定する。そしてアクセント句境界候補抽出部21は、各自立語とその直前の単語間の境界をアクセント句境界の候補として抽出する。
The accent phrase boundary
図3は、アクセント句境界の候補の一例を示す図である。図3において、合成音声の原文300は、言語処理部10によって単語ごとに分解され、各単語の品詞が特定されている。このうち、二重線301で示されるように、単語『時代』(名詞)、『音声』(名詞)、『合成』(名詞)、『進歩』(名詞)のそれぞれとその直前の単語間の境界が、アクセント句境界の候補となる。
FIG. 3 is a diagram illustrating an example of accent phrase boundary candidates. In FIG. 3, the synthesized speech
修正対象候補決定部22は、アクセント句境界の候補のうち、ユーザがアクセント句境界か否かを変更しても、アクセントが不適切とならない候補を、修正対象候補として特定する。本実施形態では、修正対象候補決定部22は、ユーザがアクセント句境界か否かを変更しても、その前後のアクセント句のアクセントの位置が変化しないアクセント句境界の候補を修正対象候補とする。
The correction target
アクセント句境界か否かを変更しても、その前後のアクセント句のアクセントの位置が変化しない条件は以下の2通りである。
(1)アクセント結合が生じているために、一つのアクセント句の途中に位置する候補(すなわち、中間表記では、アクセント句境界となっていない候補)
(2)中間表記でも二つのアクセント句の境界となっており、かつ、直前のアクセント句が平板なアクセントとなっている候補
There are the following two conditions that do not change the position of the accent phrase before and after the boundary of the accent phrase even if it is changed.
(1) Candidates that are located in the middle of one accent phrase because of accent coupling (that is, candidates that are not accent phrase boundaries in intermediate notation)
(2) Candidates that are the boundary between two accent phrases even in intermediate notation, and the previous accent phrase is a flat accent
そこで、修正対象候補決定部22は、中間表記を参照して、上記の二つの条件のうちの何れかの条件を満たすアクセント句境界の候補を修正対象候補とする。
Therefore, the correction target
図4は、アクセント句境界の候補と、修正対象候補の関係の一例を示す図である。図4において、合成音声の原文400は、言語処理部10によって単語ごとに分解され、各単語の品詞が特定されている。また、原文400において、『この時代の』、『音声合成の』、『進歩は』が、それぞれ、一つのアクセント句401となる。それぞれのアクセント句401のアクセントは、原文400の読みを表す表記402において、個々の音ごとの高低を表す折れ線403により示される。さらに、アクセント句境界候補抽出部21により抽出されたアクセント句境界の候補404−1〜404−4は、二重線で示される。
FIG. 4 is a diagram illustrating an example of a relationship between an accent phrase boundary candidate and a correction target candidate. In FIG. 4, the synthesized speech
各アクセント句境界の候補のうち、候補404−1及び404−3は、一つのアクセント句の途中に位置するので、上記の条件(1)を満たす。
したがって、候補404−1及び404−3は、修正対象候補となる。
Among the accent phrase boundary candidates, the candidates 404-1 and 404-3 are located in the middle of one accent phrase, and therefore satisfy the above condition (1).
Therefore, the candidates 404-1 and 404-3 are correction target candidates.
また、候補404−2の直前のアクセント句『この時代の』のアクセントは平板となっているので、上記の条件(2)を満たす。
したがって、候補404−2は、修正対象候補となる。
Further, since the accent phrase “in this era” immediately before the candidate 404-2 is a flat plate, the above condition (2) is satisfied.
Therefore, the candidate 404-2 becomes a correction target candidate.
一方、候補404−4は、アクセント句の途中に位置しておらず、かつ、直前のアクセント句『音声合成の』のアクセントは平板でない。
したがって、候補404−4は、修正対象候補とならない。
On the other hand, the candidate 404-4 is not positioned in the middle of the accent phrase, and the accent of the immediately preceding accent phrase “speech synthesis” is not a flat plate.
Therefore, the candidate 404-4 is not a correction target candidate.
修正対象候補決定部22は、各アクセント句境界の候補の位置、及び、各アクセント句境界の候補が修正対象候補となるか否かを表す情報を、表示制御部23へ通知する。
The correction target
表示制御部23は、修正対象候補となるアクセント句境界の候補を、ユーザがアクセント句の境界とするか否かを変更可能であることが分かるように表示部3に表示させる。
The
図5は、修正対象候補を表示する、表示部3の表示画面の一例を示す図である。
表示画面500には、原文510と、修正対象候補501〜503が表示されている。このうち、修正対象候補501及び503は、アクセント結合のために、一つのアクセント句の途中に位置するので、修正前の状態では、アクセント句境界ではない。そのため、この例では、修正対象候補501及び503は、点線で示されている。一方、修正対象候補502は、言語処理部10により生成された中間表記においてアクセント句境界となっている。そのため、この例では、修正対象候補502は、実線で示されている。
FIG. 5 is a diagram illustrating an example of a display screen of the
On the
なお、表示制御部23は、修正対象候補でないアクセント句境界の候補を、ユーザがアクセント句の境界とするか否かを変更できないことが分かるようにして、表示部3に表示させてもよい。例えば、表示制御部23は、修正対象候補でないアクセント句境界の候補を、修正対象候補を表す線と異なる色または異なる輝度の線として、原文の対応する位置に表示させてもよい。
The
ユーザは、例えば、操作部2を介して、表示された修正対象候補にカーソルを合わせてクリックすることで、修正対象候補がアクセント句境界か否かを変更できる。そしてその操作に応じた信号を、処理部7へ出力する。
For example, the user can change whether or not the correction target candidate is an accent phrase boundary by positioning the cursor on the displayed correction target candidate and clicking via the
修正部24は、修正対象候補をアクセント句境界とする操作部2を介した操作に応じて、中間表記における、その修正対象候補の位置に、アクセント句境界であることを示す記号を追加する。逆に、修正部24は、修正対象候補をアクセント句境界でないようにする操作部2を介した操作に応じて、中間表記から、その修正対象候補の位置にある、アクセント句境界であることを示す記号を削除する。
The
なお、本実施形態では、修正部24は、修正対象候補が修正されても、その修正対象候補に後続するアクセント句のアクセントを修正しない。本実施形態では、修正対象候補が修正されても、修正対象候補に後続するアクセント句のアクセントの位置はそのままでも不自然な発声とならないことが想定されているためである。
In the present embodiment, the
図6は、合成音声編集部12により実行される、合成音声編集処理の動作フローチャートである。合成音声編集処理は、例えば、中間表記が既に生成されている合成音声の原文に対して、操作部2を介して、合成音声編集処理を実行する操作が行われることにより開始される。
FIG. 6 is an operation flowchart of the synthesized speech editing process executed by the synthesized
アクセント句境界候補抽出部21は、原文に含まれる各単語の品詞を参照して、自立語とその直前の単語間の境界をアクセント句境界の候補に設定する(ステップS101)。
修正対象候補決定部22は、中間表記を参照して、アクセント句境界の候補のうち、上記の(1)及び(2)の条件の一方を満たすアクセント句境界の候補を修正対象候補に設定する(ステップS102)。
The accent phrase boundary
The correction target
表示制御部23は、修正対象候補を編集可能であることが分かるように表示部3に表示させる(ステップS103)。
修正部24は、操作部2を介した操作に応じて、中間表記における、アクセント句境界か否かが変更された修正対象候補に相当する位置のアクセント句境界の表記を修正する(ステップS104)。そして修正部24は、修正した中間表記を記憶部6に記憶する。そして合成音声編集部12は、合成音声編集処理を終了する。
The
The
以上に説明してきたように、この音声合成装置は、アクセント句境界の候補のうち、修正に伴って前後のアクセント句のアクセントを変更しなくても不適切な発声とならないものをユーザに提示する。そのため、この音声合成装置は、合成音声のアクセント句の境界の編集によるアクセントの誤りを防止できる。 As described above, this speech synthesizer presents to the user those accent phrase boundary candidates that do not become inappropriate utterances even if the accents of the preceding and following accent phrases are not changed along with the correction. . Therefore, this speech synthesizer can prevent accent errors due to editing of accent phrase boundaries of synthesized speech.
次に、第2の実施形態による音声合成装置について説明する。第2の実施形態による音声合成装置は、アクセント句境界か否かが修正されるとアクセントの位置も変化可能な修正対象候補の表示を、他の修正対象候補可能の表示と異ならせる。 Next, a speech synthesizer according to the second embodiment will be described. The speech synthesizer according to the second embodiment makes the display of the correction target candidate whose accent position can be changed when the accent phrase boundary is corrected differently from the display of other possible correction target candidates.
図7は、第2の実施形態による音声合成装置が有する合成音声編集部の機能ブロック図である。第2の実施形態による合成音声編集部12は、アクセント句境界候補抽出部21と、修正対象候補決定部22と、複合語判定部25と、アクセント位置変化判定部26と、表示制御部23と、修正部24とを有する。
第2の実施形態による合成音声編集部12は、第1の実施形態による合成音声編集部と比較して、複合語判定部25及びアクセント位置変化判定部26を有する点、及び、表示制御部23の処理が異なる。そこで以下では、表示制御部23、複合語判定部25及びアクセント位置変化判定部26とその関連部分について説明する。第2の実施形態による音声合成装置のその他の構成要素については、第1の実施形態の対応する構成要素の説明を参照されたい。
FIG. 7 is a functional block diagram of a synthesized speech editing unit included in the speech synthesizer according to the second embodiment. The synthesized
Compared with the synthesized speech editing unit according to the first embodiment, the synthesized
複合語、特に、連続した複数の名詞が結合することで生成される複合語では、名詞間の結合位置の前後のアクセント句に含まれる単語のアクセントの位置が、元の名詞のアクセントの位置から変わることがある。また、名詞は自立語なので、複合語に含まれる、名詞同士が結合する位置、すなわち、名詞間の境界はアクセント句境界の候補となる。したがって、複合語に含まれる名詞同士の結合位置にあるアクセント句境界の候補がアクセント句境界となるか否かを変更すると、アクセントの位置を変えた方が自然な発声となる可能性がある。 In compound words, especially compound words generated by combining multiple consecutive nouns, the accent position of the word included in the accent phrase before and after the joint position between nouns is changed from the accent position of the original noun. It may change. Further, since nouns are independent words, positions where nouns are combined, that is, boundaries between nouns, included in compound words are candidates for accent phrase boundaries. Therefore, if the accent phrase boundary candidate at the joining position of nouns included in the compound word is changed as an accent phrase boundary, there is a possibility that the utterance is natural when the accent position is changed.
そこで、複合語判定部25は、各アクセント句境界の候補について、複数の名詞が連続する複合語中の名詞の結合位置にあるか否かを判定する。そのために、複合語判定部25は、原文に含まれる各単語の品詞情報を参照して、各アクセント句境界の候補の前後の単語の品詞を確認する。そして複合語判定部25は、各アクセント句境界の候補のうち、前後の単語がともに名詞である候補が、複合語の結合位置にあると判定する。
複合語判定部25は、各アクセント句境界の候補について、複合語の結合位置にあるか否かを表す情報を記憶部6に記憶する。
なお、変形例によれば、修正対象候補でないアクセント句境界の候補は、原則として編集を許可されないので、複合語判定部25は、アクセント句境界の候補のうちの修正対象候補についてのみ、複合語中の結合位置にあるか否かを判定してもよい。
Therefore, the compound
The compound
In addition, according to the modified example, editing of accent phrase boundary candidates that are not correction target candidates is not permitted in principle, so that the compound
アクセント位置変化判定部26は、複合語のアクセント結合のルールを参照して、アクセント句境界の候補のそれぞれについて、アクセント結合により、アクセントの位置が変化するか否か判定する。そしてアクセント位置変化判定部26は、アクセント句境界とするか否かでアクセントの位置が変化するアクセント句境界の候補と、アクセントの位置が変化しないアクセント句境界の候補とに、異なる属性を割り当てる。なお、この属性をアクセント位置変化属性と呼ぶ。
The accent position
複合語のアクセント結合ルールは、結合位置よりも前のアクセント句については、アクセントを平板とし、かつ、結合位置よりも後のアクセント句については、アクセントが平板でない場合にアクセントの位置を変化させないというものである。なお、以下では、説明の便宜上、結合位置よりも前のアクセント句を前置アクセント句と呼び、結合位置よりも後のアクセント句を後置アクセント句と呼ぶ。
上記のアクセント結合ルールにより、前置アクセント句に含まれる名詞の固有アクセントが平板以外であるか、または、後置アクセント句に含まれる名詞の固有アクセントが平板であれば、アクセント結合の有無によってアクセントの位置が変化する。なお、固有アクセントは、その名詞を単独で発声する場合のアクセントである。
The compound word accent combining rule is that the accent phrase before the combining position is a flat plate, and the accent phrase after the combining position is not changed when the accent is not a flat plate. Is. Hereinafter, for convenience of explanation, an accent phrase before the joining position is referred to as a prefix accent phrase, and an accent phrase after the joining position is referred to as a post-accent phrase.
If the unique accent of the noun included in the prefix accent phrase is not a flat plate or the unique accent of the noun included in the postfix accent phrase is a flat plate according to the above accent combination rule, the accent is determined depending on the presence or absence of the accent combination. The position of changes. The unique accent is an accent when the noun is uttered alone.
したがって、アクセント位置変化判定部26は、複合語の途中に位置しないアクセント句境界の候補について、前置アクセント句のアクセントが平板であれば、アクセント位置変化属性を「無し」とする。一方、アクセント位置変化判定部26は、複合語の途中に位置しないアクセント句境界の候補について、前置アクセント句のアクセントが平板以外であれば、原則としてアクセント句の境界の変更は認められないので、アクセント位置変化属性を「不定」とする。
Therefore, the accent position
また、アクセント位置変化判定部26は、複合語の途中に位置するアクセント句境界の候補について、その複合語に含まれる各名詞の固有アクセントを、単語辞書を参照して特定する。そしてアクセント位置変化判定部26は、前置アクセント句に含まれる名詞の固有アクセントが平板であり、かつ、後置アクセント句に含まれる名詞の固有アクセントが平板以外であれば、アクセント位置変化属性を「無し」とする。一方、アクセント位置変化判定部26は、前置アクセント句に含まれる名詞の固有アクセントが平板以外であるか、あるいは、後置アクセント句に含まれる名詞の固有アクセントが平板であれば、アクセント位置変化属性を「有り」とする。
Further, the accent position
アクセント結合によりアクセント位置の変化が生じた複合語については、アクセント結合の解消に伴って、アクセントの位置を個々の名詞の固有アクセントに一致させるよう変化させても、あるいは、アクセントの位置を維持しても、自然な発声となることがある。 For compound words in which the accent position has changed due to accent coupling, the accent position can be changed to match the unique accent of each noun as the accent coupling is resolved, or the accent position is maintained. But it can be a natural voice.
図8は、アクセント結合の有無によるアクセント位置の違いの一例を示す図である。図8において、丸印及び三角形は、それぞれ、一つの音を表す。アクセント結合が生じた複合語800では、音の高低を表す折れ線801に示されるように、前置アクセント句の802のアクセントは平板となり、後置アクセント句803のアクセントは、いわゆる頭高あるいは中高となる。
ここで、前置アクセント句802と後置アクセント句803の間のアクセント句境界の候補804をアクセント句境界に修正したとする。この場合、折れ線811に示されるように、前置アクセント句802及び後置アクセント句803のアクセント位置は、アクセント結合がされている場合のまま維持されてもよい。あるいは、折れ線812に示されるように、前置アクセント句802に含まれる名詞及び後置アクセント句803に含まれる名詞の固有アクセントに合わせて、アクセントの位置が修正されてもよい。
このように、アクセント位置を修正するか否かは、ユーザの選択によって決定できる。
FIG. 8 is a diagram illustrating an example of a difference in accent position depending on the presence or absence of accent coupling. In FIG. 8, each of a circle and a triangle represents one sound. In the
Here, it is assumed that the accent
Thus, whether or not to correct the accent position can be determined by the user's selection.
そこで、アクセント位置変化判定部26は、複合語中の名詞同士の結合位置に有り、アクセント結合がなされており、かつ、アクセント位置変化属性が「有り」と判定されたアクセント句境界の候補については、アクセント位置変化属性を「選択」としてもよい。アクセント位置変化属性が「選択」であるアクセント句境界の候補については、アクセント句境界か否かが変更される際に、ユーザの選択によって、前後のアクセント句のアクセントの位置の変更または維持が決定される。
Therefore, the accent position
アクセント位置変化判定部26は、各アクセント句境界の候補についてのアクセント位置変化属性を記憶部6に記憶する。
The accent position
なお、変形例によれば、アクセント位置変化判定部26は、修正対象候補についてのみ、アクセント句境界か否かでアクセント位置が変化するか否かを判定し、アクセント位置変化属性を設定してもよい。原則として、修正対象候補でないアクセント句境界の候補は、ユーザによってアクセント句境界か否かが変更されることはないためである。
Note that, according to the modification, the accent position
表示制御部23は、各修正対象候補の表示を、その修正対象候補のアクセント位置変化属性に応じて異ならせる。
The
図9は、アクセント結合の有無、前置アクセント句のアクセント種別及びアクセント位置変化の有無の組み合わせと、編集属性、境界属性及びアクセント位置変化属性の関係を示すテーブルである。なお、編集属性は、修正対象候補であるか否かを表す。また、境界属性は、言語処理の結果として得られた中間表記においてアクセント句境界に設定されているか否かを表す。 FIG. 9 is a table showing the relationship between the presence / absence of accent coupling, the combination of the accent type of the prefix accent phrase and the presence / absence of change in accent position, and the edit attribute, boundary attribute, and accent position change attribute. The edit attribute represents whether or not the candidate is a correction target candidate. The boundary attribute represents whether or not an accent phrase boundary is set in the intermediate notation obtained as a result of language processing.
テーブル900において、一つの行に一つのカテゴリが示され、カテゴリごとにアクセント結合の有無、前置アクセント句のアクセント種別及びアクセント位置変化の有無の組み合わせが規定される。なお、記号「−」は、その記号が示された項目は参照されないことを示す。なお、カテゴリ1〜5は、アクセント句境界の候補が複合語の途中に位置する場合に対応し、カテゴリ6及び7は、アクセント句境界の候補の位置が複合語の途中でない場合に対応する。
In the table 900, one category is shown in one row, and the combination of presence / absence of accent coupling, accent type of the prefix accent phrase, and presence / absence of accent position change is defined for each category. The symbol “-” indicates that the item indicated by the symbol is not referred to.
カテゴリ1に示されるように、アクセント句境界の候補がアクセント結合位置に有る場合、アクセント句境界の候補は、アクセント句境界には設定されていない。また、アクセント句境界の候補は編集可能(すなわち、修正対象候補)である。またカテゴリ1では、アクセント結合によりアクセント位置が変化しないので、アクセント位置変化属性は「無し」となる。なお、この場合、アクセント結合ルールから、前置アクセント句の固有アクセントは、必ず平板である。
As shown in
カテゴリ2に示されるように、アクセント句境界の候補がアクセント結合位置ではなく、かつ、アクセント結合によりアクセント位置が変化しない場合も、アクセント結合ルールから、前置アクセント句の固有アクセントは、必ず平板である。したがって、アクセント句境界の候補は編集可能であり、アクセント位置変化属性は「無し」である。またこの場合、アクセント句境界の候補はアクセント結合位置ではないので、アクセント句境界の候補はアクセント句境界である。
As shown in
また、カテゴリ3に示されるように、アクセント句境界の候補がアクセント結合位置に有り、かつ、アクセント結合によりアクセント位置が変化する場合、アクセント句境界の候補は編集可能であり、アクセント位置変化属性は「選択」となる。またこの場合、アクセント句境界の候補は、アクセント句の途中に位置するので、アクセント句境界には設定されていない。
Further, as shown in
さらに、カテゴリ4に示されるように、アクセント句境界の候補がアクセント結合位置ではなく、かつ、前置アクセント句の固有アクセントが平板である場合も、アクセント句境界の候補は編集可能である。そしてアクセント結合によりアクセント位置が変化するので、アクセント位置変化属性は「選択」である。またこの場合、アクセント句境界の候補はアクセント結合位置ではないので、アクセント句境界の候補はアクセント句境界である。
Further, as shown in
また、カテゴリ5に示されるように、アクセント句境界の候補がアクセント結合位置ではなく、かつ、前置アクセント句の固有アクセントが平板以外である場合、原則として、アクセント句境界の候補は編集不可能(すなわち、修正対象候補でない)である。しかし、このカテゴリに属するアクセント句境界の候補は、結合語内の名詞同士の結合位置にある。そこで例外的に、アクセント句境界の候補を編集可能とする。またこのカテゴリでは、アクセント結合の有無によって、少なくとも前置アクセント句のアクセントは変化する。そのため、アクセント位置変化属性は「有り」となる。アクセント句境界の候補をアクセント句の境界に設定することで、少なくとも前置アクセント句のアクセントの位置を変化させる必要が有る。そのため、この場合には、アクセント位置変化判定部26は、アクセント位置変化属性を「選択」にしないことが好ましい。
In addition, as shown in
さらに、カテゴリ6に示されるように、アクセント句境界の候補の位置が複合語の途中でなければ、アクセント結合の有無によってアクセント位置は変化しない。そのため、アクセント位置変化属性は「無し」となる。また、前置アクセント句の固有アクセントが平板であるので、アクセント句境界の候補は編集可能である。またこの場合、アクセント句境界の候補は、アクセント結合位置ではないので、アクセント句境界の候補は、アクセント句境界である。
Furthermore, as shown in
最後に、カテゴリ7に示されるように、アクセント句境界の候補の位置が複合語の途中でなく、アクセント句境界の候補がアクセント結合の位置でなく、かつ、前置アクセント句の固有アクセントが平板以外である場合、アクセント句境界の候補は編集不可能である。したがって、アクセント位置変化属性は「不定」となる。なお、この場合も、アクセント句境界の候補は、アクセント結合の位置ではないので、アクセント句境界の候補は、アクセント句境界である。
Finally, as shown in
図10(a)は、第2の実施形態による、修正対象候補を表示する表示部3の表示画面の一例を示す図である。
表示画面1000には、原文1010と、修正対象候補1001〜1003が表示されている。このうち、修正対象候補1001及び1003は、アクセント結合のために、一つのアクセント句の途中に位置するので、修正前の状態では、アクセント句境界ではない。そのため、この例では、修正対象候補1001及び1003は、点線で示されている。一方、修正対象候補1002は、修正前の状態において、アクセント句境界となっている。そのため、この例では、修正対象候補1002は、実線で示されている。
FIG. 10A is a diagram illustrating an example of a display screen of the
The
さらに、修正対象候補1003は、複合語『音声合成』の結合位置に有り、かつ、アクセント結合によってアクセント位置が変化している。したがって、修正対象候補1003については、アクセント句境界に変更してアクセント結合を解消した場合に、アクセント結合時のアクセント位置を維持するか、各名詞の固有アクセントに変更するかを選択可能となっている。そこで、修正対象候補1003は、アクセント位置の変更の有無を選択可能であることを示すために、修正対象候補1001と異なる表示になっている。この例では、修正対象候補1001は一本の線で示され、修正対象候補1003は、二重線で表示される。
Further, the
この実施形態においても、ユーザは、例えば、操作部2を介して、表示された修正対象候補にカーソルを合わせてクリックすることで、修正対象候補をアクセント句境界か否かを変更できる。また、アクセント位置の変更が選択可能な修正対象候補については、例えば、操作部2がクリックされるごとに、アクセント位置を維持、アクセント位置を変更、アクセント句境界の変更無しが切り替えられる。そして操作部2は、その操作に応じた信号を、処理部7へ出力する。
修正部24は、修正対象候補をアクセント句境界とするか否かが変更される際に、その前後のアクセント句においてアクセントの位置も変更される場合、言語処理部10に、その前後のアクセント句を入力することで、アクセントの位置を修正する。
Also in this embodiment, the user can change whether or not the correction target candidate is an accent phrase boundary by, for example, placing the cursor on the displayed correction target candidate and clicking via the
When the
図10(b)は、図10(a)に示された原文の読みとアクセントを示す。片仮名で表記された原文の読み『コノジダイノオンセーゴーセーノシンポワ』と重ねて表示された折れ線1101は、アクセント句境界の修正がされていないときのアクセントを表す。また折れ線1102は、修正対象候補1001及び1002について、アクセント句境界か否かを変更したときのアクセントを表す。折れ線1103は、修正対象候補1003について、アクセント位置を維持したまま、アクセント句境界に変更したときのアクセントを表す。一方、折れ線1104は、修正対象候補1003について、その前後の名詞のアクセント位置が固有アクセントに応じた位置となるよう変更しつつ、アクセント句境界に変更したときのアクセントを表す。
FIG. 10 (b) shows the reading and accent of the original text shown in FIG. 10 (a). A
図11は、第2の実施形態による合成音声編集部12により実行される、合成音声編集処理の動作フローチャートである。
FIG. 11 is an operation flowchart of the synthesized speech editing process executed by the synthesized
アクセント句境界候補抽出部21は、原文に含まれる各単語の品詞を参照して、自立語とその直前の単語間の境界をアクセント句境界の候補に設定する(ステップS201)。
修正対象候補決定部22は、中間表記を参照して、アクセント句境界の候補のうち、上記の(1)及び(2)の条件の一方を満たすアクセント句境界の候補を修正対象候補に設定する(ステップS202)。
The accent phrase boundary
The correction target
複合語判定部25は、各アクセント句境界の候補について、複数の名詞が連続する複合語中の名詞の結合位置にあるか否かを判定し、結合位置にあるアクセント句境界の候補を特定する(ステップS203)。そしてアクセント位置変化判定部26は、複合語のアクセント結合ルールに従って、結合位置にあるアクセント句境界の候補がアクセント句境界か否かを変更するとアクセント位置が変化するか否か判定する。その結果に応じて、アクセント位置変化判定部26は、各アクセント句境界の候補にアクセント位置変化属性を設定する(ステップS204)。
The compound
表示制御部23は、修正対象候補を編集可能であることが分かるように表示部3に表示させる。その際、表示制御部23は、修正対象候補のうち、アクセント句境界か否かを変更することでアクセントの位置が変化する修正対象候補とアクセントの位置が変化しない修正対象候補とが異なる表示となるように、各修正対象候補を表示させる(ステップS205)。
修正部24は、操作部2を介した操作に応じて、中間表記のうち、変更された修正対象候補に相当する位置のアクセント句境界の表記を修正する(ステップS206)。そして修正部24は、修正した中間表記を記憶部6に記憶する。そして合成音声編集部12は、合成音声編集処理を終了する。
The
The
以上に説明してきたように、第2の実施形態による音声合成装置は、複合語中の結合位置にある、アクセント句境界とするか否かでアクセントの位置が変化する修正対象候補を、アクセントの位置が変化しない修正対象候補と区別して表示部に表示させる。またこの音声合成装置は、ユーザの操作に応じて、アクセント句境界とするか否かでアクセントの位置が変化する修正対象候補が変更される際、アクセント位置を維持するか、変更するかをユーザが選択可能とする。そのため、この音声合成装置は、アクセント句境界を変更することで、より自然な発声の合成音声を得ることができる。 As described above, the speech synthesizer according to the second embodiment determines a correction target candidate whose accent position changes depending on whether or not it is an accent phrase boundary at a combined position in a compound word. It is displayed on the display unit separately from the correction target candidates whose positions do not change. The speech synthesizer also determines whether to maintain or change the accent position when a correction target candidate whose accent position changes depending on whether the accent phrase boundary is used or not is changed according to a user operation. Can be selected. Therefore, this speech synthesizer can obtain a more natural synthesized speech by changing the accent phrase boundary.
さらに、上記の各実施形態による音声合成装置の処理部が有する各機能をコンピュータに実現させるコンピュータプログラムは、コンピュータによって読み取り可能な媒体、例えば、磁気記録媒体、光記録媒体または半導体メモリに記録された形で提供されてもよい。 Furthermore, a computer program that causes a computer to realize each function of the processing unit of the speech synthesizer according to each of the above embodiments is recorded on a computer-readable medium, for example, a magnetic recording medium, an optical recording medium, or a semiconductor memory. It may be provided in the form.
ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。 All examples and specific terms listed herein are intended for instructional purposes to help the reader understand the concepts contributed by the inventor to the present invention and the promotion of the technology. It should be construed that it is not limited to the construction of any example herein, such specific examples and conditions, with respect to showing the superiority and inferiority of the present invention. Although embodiments of the present invention have been described in detail, it should be understood that various changes, substitutions and modifications can be made thereto without departing from the spirit and scope of the present invention.
1 音声合成装置
2 操作部
3 表示部
4 通信インターフェース部
5 出力部
6 記憶部
7 処理部
8 スピーカ
10 言語処理部
11 音声合成部
12 合成音声編集部
21 アクセント句境界候補抽出部
22 修正対象候補決定部
23 表示制御部
24 修正部
25 複合語判定部
26 アクセント位置変化判定部
DESCRIPTION OF
Claims (10)
単語ごとの品詞及びアクセント位置が登録された単語辞書を記憶する記憶部と、
前記単語辞書を参照して前記原文及び前記原文の読みに言語処理を行うことにより、前記原文に含まれる各単語の品詞を特定し、かつ、前記原文をアクセント句単位で分割して、各アクセント句のアクセント及びアクセント結合が生じた位置を表す中間表記を生成する言語処理部と、
前記原文に含まれる各単語の品詞を参照して自立語である単語を特定し、当該自立語と当該自立語の直前の単語間の境界を、それぞれ、アクセント句の境界の候補とするアクセント句境界候補抽出部と、
前記アクセント句の境界の候補のうち、当該候補の前のアクセント句のアクセント及び当該候補がアクセント結合された位置にあるか否かに応じて、アクセント句の境界か否かを変更しても、当該候補の前後のアクセント句が誤ったアクセントにならない候補を修正対象候補として特定する修正対象候補決定部と、
前記修正対象候補を表示部に表示させる表示制御部と、
を有する音声合成装置。 An input unit that obtains the original text of the synthesized speech and data representing the reading of the original text;
A storage unit for storing a word dictionary in which part-of-speech and accent positions for each word are registered;
By performing linguistic processing for reading the original text and the original text with reference to the word dictionary, the part of speech of each word included in the original text is specified, and the original text is divided in units of accent phrases, A language processing unit for generating an intermediate notation representing a position where the accent of the phrase and the accent coupling occur;
An accent phrase that identifies a word that is an independent word with reference to the part of speech of each word included in the original text, and that uses a boundary between the independent word and the word immediately before the independent word as a candidate for an accent phrase boundary, respectively A boundary candidate extraction unit;
Of the accent phrase boundary candidates, depending on whether the accent phrase precedes the candidate and whether the candidate is at the position where the accent is combined, whether or not the accent phrase boundary, A correction target candidate determining unit that identifies candidates whose accent phrases before and after the candidate do not become false accents as correction target candidates;
A display control unit for displaying the correction target candidates on a display unit;
A speech synthesizer.
前記複合語のアクセント結合ルールに基づいて、前記結合位置にある前記修正対象候補のうち、アクセント句の境界か否かを変更すると、当該修正対象候補の前後のアクセント句の少なくとも一方のアクセントの位置が変化する修正対象候補に、アクセント位置が変化することを表す第1の属性を割り当て、一方、アクセント句の境界か否かを変更しても、当該修正対象候補の前後のアクセント句のアクセントの位置が変化しない修正対象候補に、アクセント位置が変化しないことを表す第2の属性を割り当てるアクセント位置変化判定部と、をさらに有し、
前記表示制御部は、前記第1の属性を持つ前記修正対象候補の前記表示部における表示を、前記第2の属性を持つ前記修正対象候補の前記表示部における表示と異ならせる、請求項1〜4の何れか一項に記載の音声合成装置。 For each of the correction target candidates, a compound word determination unit that determines whether or not a plurality of nouns are in the combined position of nouns in a compound word that is continuous,
Based on the compound word accent combining rule, if the boundary of the accent phrase among the correction target candidates at the combined position is changed, the position of at least one of the accent phrases before and after the correction target candidate The first attribute indicating that the accent position changes is assigned to the correction target candidate that changes, and on the other hand, even if the boundary of the accent phrase is changed, the accent phrase of the accent phrase before and after the correction target candidate is changed. An accent position change determination unit that assigns a second attribute indicating that the accent position does not change to a correction target candidate whose position does not change,
The display control unit makes the display on the display unit of the correction target candidate having the first attribute different from the display on the display unit of the correction target candidate having the second attribute. 5. The speech synthesizer according to any one of 4 above.
前記アクセント位置変化判定部は、前記結合位置にある前記修正対象候補の直前のアクセント句に含まれる名詞のアクセントが平板以外であるか、または、前記結合位置にある前記修正対象候補の直後のアクセント句に含まれる名詞のアクセントが平板である場合、当該修正対象候補に前記第1の属性を割り当てる、請求項5に記載の音声合成装置。 The combining rule is that the noun accent immediately before the combining position is a flat plate, and the noun accent immediately after the combining position is not a flat plate when the compound word is not changed.
The accent position change determination unit is configured such that an accent of a noun included in an accent phrase immediately before the correction target candidate at the combined position is other than a flat plate, or an accent immediately after the correction target candidate at the combined position The speech synthesizer according to claim 5, wherein when the noun accent included in the phrase is a flat plate, the first attribute is assigned to the correction target candidate.
前記原文に含まれる各単語の品詞を参照して自立語である単語を特定し、当該自立語と当該自立語の直前の単語間の境界を、それぞれ、アクセント句の境界の候補とし、
前記アクセント句の境界の候補のうち、当該候補の前のアクセント句のアクセント及び当該候補がアクセント結合された位置にあるか否かに応じて、アクセント句の境界か否かを変更しても、当該候補の前後のアクセント句が誤ったアクセントにならない候補を修正対象候補として特定し、
前記修正対象候補を表示部に表示させる、
ことを含む合成音声編集方法。 Referring to the word dictionary in which the part of speech and accent position for each word are registered, by performing linguistic processing on the synthesized speech and the reading of the original, the part of speech of each word included in the original is identified, And, the original text is divided in units of accent phrases to generate an intermediate notation representing the position of each accent phrase and the position where the accent combination occurs,
Identify words that are independent words with reference to the part of speech of each word included in the original text, and each boundary between the independent word and the word immediately before the independent word is a candidate for an accent phrase boundary,
Of the accent phrase boundary candidates, depending on whether the accent phrase precedes the candidate and whether the candidate is at the position where the accent is combined, whether or not the accent phrase boundary, Identify candidates whose accent phrases before and after the candidate are not incorrect accents,
Displaying the candidate for correction on a display unit;
A synthesized speech editing method.
前記原文に含まれる各単語の品詞を参照して自立語である単語を特定し、当該自立語と当該自立語の直前の単語間の境界を、それぞれ、アクセント句の境界の候補とし、
前記アクセント句の境界の候補のうち、当該候補の前のアクセント句のアクセント及び当該候補がアクセント結合された位置にあるか否かに応じて、アクセント句の境界か否かを変更しても、当該候補の前後のアクセント句が誤ったアクセントにならない候補を修正対象候補として特定し、
前記修正対象候補を表示部に表示させる、
ことをコンピュータに実行させるための合成音声編集用コンピュータプログラム。 Referring to the word dictionary in which the part of speech and accent position for each word are registered, by performing linguistic processing on the synthesized speech and the reading of the original, the part of speech of each word included in the original is identified, And, the original text is divided in units of accent phrases to generate an intermediate notation representing the position of each accent phrase and the position where the accent combination occurs,
Identify words that are independent words with reference to the part of speech of each word included in the original text, and each boundary between the independent word and the word immediately before the independent word is a candidate for an accent phrase boundary,
Of the accent phrase boundary candidates, depending on whether the accent phrase precedes the candidate and whether the candidate is at the position where the accent is combined, whether or not the accent phrase boundary, Identify candidates whose accent phrases before and after the candidate are not incorrect accents,
Displaying the candidate for correction on a display unit;
A computer program for synthetic speech editing for causing a computer to execute this.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014047871A JP6340839B2 (en) | 2014-03-11 | 2014-03-11 | Speech synthesizer, synthesized speech editing method, and synthesized speech editing computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014047871A JP6340839B2 (en) | 2014-03-11 | 2014-03-11 | Speech synthesizer, synthesized speech editing method, and synthesized speech editing computer program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015172625A true JP2015172625A (en) | 2015-10-01 |
JP6340839B2 JP6340839B2 (en) | 2018-06-13 |
Family
ID=54260002
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014047871A Active JP6340839B2 (en) | 2014-03-11 | 2014-03-11 | Speech synthesizer, synthesized speech editing method, and synthesized speech editing computer program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6340839B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114444480A (en) * | 2020-11-05 | 2022-05-06 | 株式会社东芝 | Dictionary editing device, dictionary editing method, and program |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05333892A (en) * | 1991-12-20 | 1993-12-17 | Nec Corp | Pitch pattern generating device |
JPH0944190A (en) * | 1995-08-02 | 1997-02-14 | Nippon Telegr & Teleph Corp <Ntt> | Accent giving method |
JPH0981173A (en) * | 1995-09-12 | 1997-03-28 | Canon Inc | Voice rule synthesizing method and device therefor |
JP2002351486A (en) * | 2001-05-30 | 2002-12-06 | Toshiba Corp | Device, method, and program for voice synthesis editing |
JP2013134396A (en) * | 2011-12-27 | 2013-07-08 | Fujitsu Ltd | Synthetic speech correction device, method, and program |
-
2014
- 2014-03-11 JP JP2014047871A patent/JP6340839B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05333892A (en) * | 1991-12-20 | 1993-12-17 | Nec Corp | Pitch pattern generating device |
JPH0944190A (en) * | 1995-08-02 | 1997-02-14 | Nippon Telegr & Teleph Corp <Ntt> | Accent giving method |
JPH0981173A (en) * | 1995-09-12 | 1997-03-28 | Canon Inc | Voice rule synthesizing method and device therefor |
JP2002351486A (en) * | 2001-05-30 | 2002-12-06 | Toshiba Corp | Device, method, and program for voice synthesis editing |
JP2013134396A (en) * | 2011-12-27 | 2013-07-08 | Fujitsu Ltd | Synthetic speech correction device, method, and program |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114444480A (en) * | 2020-11-05 | 2022-05-06 | 株式会社东芝 | Dictionary editing device, dictionary editing method, and program |
Also Published As
Publication number | Publication date |
---|---|
JP6340839B2 (en) | 2018-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8825486B2 (en) | Method and apparatus for generating synthetic speech with contrastive stress | |
US9424833B2 (en) | Method and apparatus for providing speech output for speech-enabled applications | |
US7890330B2 (en) | Voice recording tool for creating database used in text to speech synthesis system | |
EP1096472B1 (en) | Audio playback of a multi-source written document | |
US20080195391A1 (en) | Hybrid Speech Synthesizer, Method and Use | |
US8914291B2 (en) | Method and apparatus for generating synthetic speech with contrastive stress | |
Ekpenyong et al. | Statistical parametric speech synthesis for Ibibio | |
US20090281808A1 (en) | Voice data creation system, program, semiconductor integrated circuit device, and method for producing semiconductor integrated circuit device | |
KR20170057623A (en) | An apparatus for the linguistically disabled to synthesize the pronunciation and the script of words of a plural of designated languages | |
JP5079718B2 (en) | Foreign language learning support system and program | |
JP5334716B2 (en) | Character information presentation control device and program | |
JP6340839B2 (en) | Speech synthesizer, synthesized speech editing method, and synthesized speech editing computer program | |
US20070219799A1 (en) | Text to speech synthesis system using syllables as concatenative units | |
JP2005031150A (en) | Apparatus and method for speech processing | |
JP2009020264A (en) | Voice synthesis device and voice synthesis method, and program | |
JP6197523B2 (en) | Speech synthesizer, language dictionary correction method, and language dictionary correction computer program | |
JP6232724B2 (en) | Speech synthesis apparatus and language dictionary registration method | |
Nguyen | Hmm-based vietnamese text-to-speech: Prosodic phrasing modeling, corpus design system design, and evaluation | |
US20070203705A1 (en) | Database storing syllables and sound units for use in text to speech synthesis system | |
JP6142632B2 (en) | Word dictionary registration computer program, speech synthesizer, and word dictionary registration registration method | |
JP3414326B2 (en) | Speech synthesis dictionary registration apparatus and method | |
JP2016122033A (en) | Symbol string generation device, voice synthesizer, voice synthesis system, symbol string generation method, and program | |
JP2004258561A (en) | Program and device for inputting data for singing synthesis | |
JP4208819B2 (en) | Speech synthesis dictionary registration method and apparatus | |
Ekpenyong et al. | A Template-Based Approach to Intelligent Multilingual Corpora Transcription |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161102 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20171024 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20171121 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171130 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180417 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180430 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6340839 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |