JP6232724B2 - 音声合成装置及び言語辞書登録方法 - Google Patents

音声合成装置及び言語辞書登録方法 Download PDF

Info

Publication number
JP6232724B2
JP6232724B2 JP2013072559A JP2013072559A JP6232724B2 JP 6232724 B2 JP6232724 B2 JP 6232724B2 JP 2013072559 A JP2013072559 A JP 2013072559A JP 2013072559 A JP2013072559 A JP 2013072559A JP 6232724 B2 JP6232724 B2 JP 6232724B2
Authority
JP
Japan
Prior art keywords
notation
word
speech
morpheme
corrected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013072559A
Other languages
English (en)
Other versions
JP2014197117A (ja
Inventor
野田 拓也
拓也 野田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2013072559A priority Critical patent/JP6232724B2/ja
Publication of JP2014197117A publication Critical patent/JP2014197117A/ja
Application granted granted Critical
Publication of JP6232724B2 publication Critical patent/JP6232724B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、例えば、テキストデータから音声信号を合成する音声合成装置及びその音声合成装置で利用される言語辞書の登録方法に関する。
近年、音声を自動合成する音声合成技術が開発されている。音声合成技術は、短時間で所望の音声を作成できるというメリットを有するため、これまで予め録音されたプロのナレータによる音声を用いていたアプリケーションの中には、このような音声合成技術を採用したものもある。特に、商業施設における案内放送、ハイウェイラジオ、ハイウェイテレホンまたは天気予報の放送など、短い時間間隔で提供する情報が更新されるアプリケーションでは、上記のメリットを持つ音声合成技術が有用である。
合成したい音声信号を生成するために、音声合成装置には、例えば、キーボードなどを介して漢字仮名交じりのテキストデータが入力される。そして音声合成装置は、そのテキストデータに対して、単語の読みなどを登録した言語辞書を利用して、形態素解析または係り受け解析といった言語処理を行う。そして音声合成装置は、その言語処理によって、形態素単位の読み表記を表す形態素情報と、その形態素情報にアクセント位置、アクセントの強弱あるいは抑揚の大小といった韻律を表す韻律記号を付した中間表記を生成する。そして音声合成装置は、その中間表記に基づいて、合成音声信号を生成する。
漢字には、複数の読み方があり、また、単語によってその単語に含まれる漢字の読み方は異なる。また、日常で使用される単語は日々変化するので、全ての単語を予め言語辞書に登録することは事実上不可能であり、入力されたテキストデータに、言語辞書に登録されていない単語が含まれていることもある。そのため、言語処理の結果得られる中間表記が正確でないこともある。このような場合、正しい合成音声信号を得るために、ユーザが手動で中間表記を修正する必要がある。このような修正作業は、ユーザにとって煩雑であるため、できるだけこのような修正作業が発生しないことが好ましい。そこで、入力テキストデータの終端に至った際にいままで抽出された未知語を一括してユーザに伝え、その未知語とユーザにより入力されたその未知語についての情報を単語辞書に登録する技術が提案されている(例えば、特許文献1を参照)。また、言語解析結果のうちの第1候補の言語解析結果の中に記憶された置換条件と一致する部分が存在する場合、その一致部分を置換条件に対応する置換情報に置き換えて新たな言語解析結果を生成する技術が提案されている(例えば、特許文献2を参照)。この技術では、新たな言語解析結果と同じものが第1候補以外の言語解析結果として存在している場合には、新たな言語解析結果に基づいて合成音声が生成される。
上記の技術では、未知語として登録された単語または置換条件に合致する単語がテキストデータに含まれると、その登録された単語または置換条件にしたがって中間表記が生成されることになる。しかし、単語自体も、その単語の前後の文章などによって異なる読み方がなされたり、異なる韻律で発声されることがある。このような場合、上記の技術では、必ずしも適切な中間表記が生成されないおそれがある。そこで、読み上げ対象の文書の中間言語を編集する際に、修正対象の語句の指定と、修正反映の条件指定とを修正指示に含めるようにした技術が提案されている(例えば、特許文献3を参照)。この技術では、修正反映の条件として、例えば、関連単語・フレーズが指定される。
特開平7−244491号公報 特開平10−312377号公報 特開2006−30326号公報
しかしながら、特許文献3に開示された技術でも、修正反映の条件が適切に指定されなければ、適切な中間言語が生成されないおそれがある。そして、全ての場合を予め考慮して、修正反映の条件を決定することは困難である。
そこで本明細書は、一つの側面として、異なる複数の読みまたは韻律がある単語が含まれるテキストに対しても適切な合成音声信号を生成できる音声合成装置を提供することを目的とする。
一つの実施形態によれば、テキストデータから生成した、テキストデータの読み及び韻律を表す韻律記号を含む中間表記に基づいて合成音声信号を生成する音声合成装置が提供される。この音声合成装置は、テキストデータを取得する入力部と、少なくとも単語の漢字仮名表記とその単語の読み及び韻律記号を含む中間表記とが登録され、テキストデータから中間表記を生成するために利用される言語辞書を記憶する記憶部と、中間表記が修正された修正後中間表記における修正範囲に含まれる単語が所定の品詞である場合、その修正範囲に含まれる単語の前後に連続する、その単語の品詞と同じ品詞の単語まで含むように、言語辞書に登録する登録範囲を拡張する登録範囲設定部と、修正後中間表記中の登録範囲に含まれる部分を一つの単語として、少なくともその単語の漢字仮名表記と中間表記とを言語辞書に登録する登録部とを有する。
本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成される。
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。
本明細書に開示された音声合成装置は、異なる複数の読みまたは韻律がある単語が含まれるテキストに対しても適切な合成音声信号を生成できる。
テキストデータに対して誤って生成された中間表記の一例を示す図である。 一つの実施形態による音声合成装置の概略構成図である。 一つの実施形態による音声合成装置が有する処理部の機能ブロック図である。 言語処理部により出力された中間表記と、ユーザにより修正された中間表記の一例を示す図である。 図4の中間表記に対応する、ユーザ修正前の形態素読み表記とユーザ修正後の形態素読み表記を表す図である。 ユーザが修正する前の形態素読み表記とユーザが修正した後の形態素読み表記の他の一例を示す図である。 形態素情報設定処理の動作フローチャートである。 ユーザ修正の前後のそれぞれの中間表記と、ユーザ修正後の形態素読み表記との関係の一例を示す図である。 ユーザ修正の前後のそれぞれの中間表記と、設定される修正範囲との関係の一例を示す図である。 ユーザ修正の前後の中間表記と登録範囲の関係の一例を示す図である。 登録範囲設定処理の動作フローチャートを示す図である。 辞書登録処理の動作フローチャートである。 ユーザ辞書に登録された単語と中間表記辞書に登録された単語の一例を示す図である。 辞書選択処理の動作フローチャートである。
以下、図を参照しつつ、様々な実施形態による音声合成装置について説明する。
最初に、図1を参照しつつ、音声合成の対象として入力されたテキストデータに対して誤って生成される中間表記の例を説明する。
テキストデータとして、「この羊羹最中は美しく・・・」という漢字仮名交じり文100と、「創意工夫しながら・・・」という漢字仮名交じり文110が入力されたとする。そして、漢字仮名交じり文100に対して「ヨーカンサ’イチューワ・・・」という中間表記101が生成され、漢字仮名交じり文110に対して「ソ−イク’フー」という中間表記111が生成されている。中間表記中の記号は「’」は、「アクセント強」を表す韻律記号である。なお、韻律記号自体は規格で定められているものではないので、特定の韻律を表す韻律記号として、本明細書で使用した韻律記号以外の記号が使用されてもよい。
この例では、中間表記101において「最中」に相当する部分の読みがを誤って「サ’イチュー」と表記されている。そのため、ユーザが修正した中間表記102に示されるように、「サ’イチュー」が「モ’ナカ」と修正されている。ここで、言語辞書に単語「最中」が登録されていると、音声合成装置が、例えば、動的計画法に基づくマッチングなどの技術を用いて修正範囲を自動抽出した場合、自動抽出される範囲は言語辞書に登録されている単語である「最中」となる。そのため、ユーザがした修正を言語辞書に反映させると、それ以降、単語「最中」を含むテキストデータが入力されたときに、その単語「最中」の中間表記が常に「モ’ナカ」となるおそれがある。例えば、「遊びの最中に・・・」といった文章では、単語「最中」の中間表記は、「モ’ナカ」ではなく、「サ’イチュー」とすべきである。このように、複数の読み方がある単語では、ユーザによる読みの修正を反映することで、逆に誤った中間表示の生成に結び付くおそれがある。このような誤りを防ぐためには、ユーザは、「羊羹最中」自体を複合名詞として言語辞書に登録する必要がある。しかしながら、音声合成に関する専門知識が無いユーザが、適切にこのような判断を行うことは難しい。また、ユーザが音声合成に関する専門知識を有する場合でも、言語辞書に登録すべき単語の設定を誤ってしまうこともある。
また、中間表記111では、読みは正しいものの、アクセントと区切りの位置が誤っている。そこで、中間表記112に示されるように、ユーザがアクセントの位置を修正し、区切りを表す韻律記号「=」を追加して「ソ’−イ=クフー」と修正したとする。その際、修正された箇所が韻律記号だけだと、修正の前後で各単語の読みに変化がないので、音声合成装置は、修正すべき範囲を特定できないおそれがある。この場合、ユーザが修正すべき範囲を、複合名詞「創意工夫」として指定することも考えられる。そして、言語辞書にその複合名詞を登録するために、「創意工夫」の品詞も指定することになる。ここで、単語「創意」は普通名詞であり、「工夫」はサ変名詞であるが、単語「工夫」が複合名詞中の最後尾に位置するので、ユーザは「創意工夫」の品詞もサ変名詞とすべきである。しかし、そのような専門知識を有さないユーザは、複合名詞「創意工夫」の正確な品詞が分からず、複合名詞「創意工夫」を普通名詞としてしまうこともある。そうすると、他のテキストデータにおいて、「創意工夫して」のように、その複合名詞「創意工夫」が動詞「する」とともに含まれていたとしても、「創意工夫」はサ変名詞として登録されていないので、サ変名詞と接続し易いサ変動詞「して」との接続で採用されず、その結果、元通り、普通名詞「創意」とサ変名詞「工夫」が採用されることになり、ユーザによるアクセント位置などの修正が中間表記に反映されなくなってしまう。
上記のような問題を解決するためには、音声合成装置には、ユーザが修正を加えた範囲を適正化した上で、その修正にかかわる単語の品詞及び単語の登録範囲を適切に決定することが求められる。そこで、本実施形態による音声合成装置は、ユーザによる修正前後の中間表記を比較して、形態素単位で一致する部分及び不一致の部分を特定し、その一致・不一致の情報に基づいて、修正後の中間表記に含まれる各形態素の品詞情報を設定する。そしてこの音声合成装置は、ユーザによる修正前後の中間表記を品詞単位でマッチング処理することで、不一致部分を含む品詞全体を修正範囲全体に設定する。そしてこの音声合成装置は、修正範囲となる品詞が名詞であれば、修正範囲とその前後で連続する名詞の並び全体を、ユーザの修正を反映する単語の登録範囲とする。またこの音声合成装置は、修正範囲となる品詞が活用自立語の語幹であれば、その語幹から同じ品詞の後置活用語尾までを、ユーザの修正を反映する単語の登録範囲とする。
図2は、一つの実施形態による音声合成装置の概略構成図である。本実施形態では、音声合成装置1は、入力部2と、記憶部3と、処理部4と、出力部5とを有する。
入力部2は、合成音声の原文であり、漢字仮名交じり文であるテキストデータを取得する。そのために、入力部2は、例えば、キーボードを有する。また、入力部2は、マウスなどのポインティングデバイスとそのポインティングデバイスにより指示される入力すべき文字または数値などを表示するディスプレイとを有する。あるいは、入力部2は、タッチパネルディスプレイを有してもよい。
さらにまた、入力部2は、テキストデータを通信ネットワークを介して音声合成装置1と接続された他の機器から取得してもよい。この場合、入力部2は、音声合成装置1を通信ネットワークに接続するためのインターフェース回路を有する。
そして入力部2は、入力されたテキストデータを処理部4へ渡す。
記憶部3は、例えば、半導体メモリ回路、磁気記憶装置または光記憶装置のうちの少なくとも一つを有する。そして記憶部3は、処理部4で用いられる各種コンピュータプログラム及び音声合成処理に用いられる各種のデータを記憶する。
記憶部3は、音声合成処理に用いられるデータとして、例えば、韻律モデルと、音声波形辞書を記憶する。さらに記憶部3は、言語処理に用いられるデータとして、テキストデータ中に出現すると想定される様々な単語について、その単語の漢字仮名表記、中間表記、品詞及び活用形などを格納した言語辞書を記憶する。さらに記憶部3は、ユーザにより登録された単語について、その単語の漢字仮名表記、中間表記、品詞及び活用形などを格納したユーザ辞書を記憶する。なお、ユーザ辞書も、言語辞書の一例である。
出力部5は、処理部4から受け取った合成音声信号をスピーカ6へ出力する。そのために、出力部5は、例えば、スピーカ6を音声合成装置1と接続するためのオーディオインターフェース回路を有する。
また出力部5は、合成音声信号を、通信ネットワークを介して音声合成装置1と接続された他の装置へ出力してもよい。この場合、出力部5は、その通信ネットワークに音声合成装置1と接続するためのインターフェース回路を有する。なお、入力部2も通信ネットワークを介してテキストデータを取得する場合、入力部2と出力部5は一体化されていてもよい。
処理部4は、一つまたは複数のプロセッサと、メモリ回路と、周辺回路とを有する。そして処理部4は、入力されたテキストデータに基づいて、合成音声信号を作成する。
図3は、処理部4の機能ブロック図である。処理部4は、言語処理部10と、音声合成部11と、辞書登録部12とを有する。
処理部4が有するこれらの各部は、例えば、処理部4が有するプロセッサ上で動作するコンピュータプログラムにより実現される機能モジュールである。あるいは、処理部4が有するこれらの各部は、その各部の機能を実現する一つの集積回路として音声合成装置1に実装されてもよい。
言語処理部10は、入力された、漢字仮名交じり文であるテキストデータから形態素読み表記を生成するとともに、そのテキストデータに含まれる各形態素情報を特定する。さらに、言語処理部10は、入力されたテキストデータから、中間表記及びそのテキストデータに含まれる各品詞の情報を特定する。ここで、形態素読み表記とは、形態素単位の読み表記を表し、例えば、カタカナで表される。また、中間表記とは、形態素読み表記に、韻律を表す韻律記号が追加されたものである。韻律記号には、例えば、「アクセント位置」、「アクセント強弱」、「音程高低」、「抑揚大小」、「話速緩急」、「音量大小」及び「区切り」を表現する記号が含まれる。したがって、中間表記から韻律記号を除いたものは、形態素読み表記と一致する。また、中間表記から韻律記号を除いたものにおける、各品詞の情報は、形態素情報と1対1に対応する。すなわち、中間表記と品詞情報から、形態素読み表記と形態素情報が抽出される。
言語処理部10は、入力されたテキストデータから形態素読み表記及び中間表記などを生成するために、記憶部3に記憶されている言語辞書及びユーザ辞書を読み込む。そして言語処理部10は、例えば、その言語辞書及びユーザ辞書を用いて、テキストデータに対して形態素解析及び係り受け解析を行って、テキストデータ中に出現する各単語の順序及び読み、アクセントの位置及び区切りの位置を決定する。その際、言語処理部10は、テキストデータ中に言語辞書とユーザ辞書の両方に登録されている単語がある場合、ユーザ辞書に登録されている単語を優先的に利用してもよい。
言語処理部10は、形態素解析として、例えば、動的計画法を用いる方法を利用できる。また言語処理部10は、係り受け解析として、例えば、先読みLRパーザまたはLL法といった構文解析の手法を利用できる。そして言語処理部10は、各単語の順序、読み、アクセントの位置及び区切りの位置に応じて形態素読み表記及び中間表記を作成する。
言語処理部10は、生成した形態素読み表記及び中間表記などを記憶部3に一時的に記憶する。
音声合成部11は、入力されたテキストデータの中間表記に基づいて合成音声信号を作成する。
音声合成部11は、中間表記に基づいて、合成音声信号を生成する際の目標韻律を生成する。そのために、音声合成部11は、記憶部3から複数の韻律モデルを読み込む。この韻律モデルは、声を高くする位置及び声を低くする位置などを時間順に表したものである。そして音声合成部11は、複数の韻律モデルのうち、中間表記に示されたアクセントの位置などに最も一致する韻律モデルを選択する。そして音声合成部11は、選択した韻律モデル及び合成パラメータに従って、中間表記に対して声が高くなる位置あるいは声が低くなる位置、声の抑揚、ピッチなどを設定することにより、目標韻律を作成する。目標韻律は、音声波形を決定する単位となる音素ごとに、音素の長さ及びピッチ周波数を含む。なお、音素は、例えば、一つの母音あるいは一つの子音とすることができる。
音声合成部11は、生成した目標韻律に従って、例えば、HMM(Hidden Markov Model)合成方式、音素接続方式またはコーパスベース方式によって合成音声信号を作成する。
例えば、音声合成部11は、音素ごとに、目標韻律の音素長及びピッチ周波数に最も近い音声波形を、例えばパターンマッチングにより音声波形辞書に登録されている複数の音声波形の中から選択する。そのために、音声合成部11は、記憶部3から音声波形辞書を読み込む。音声波形辞書は、複数の音声波形及び各音声波形の識別番号を記録する。また音声波形は、例えば、一人以上のナレータが様々なテキストを読み上げた様々な音声を録音した音声信号から、音素単位で取り出された波形信号である。
さらに、音声合成部11は、音素ごとに選択された音声波形を目標韻律に沿って接続できるようにするため、それら選択された音声波形と目標韻律に示された対応する音素の波形パターンとのずれ量を、波形変換情報として算出してもよい。
音声合成部11は、音素ごとに選択された音声波形の識別番号を含む波形生成情報を作成する。波形生成情報は、波形変換情報をさらに含んでもよい。
音声合成部11は、波形生成情報に含まれる各音素の音声波形の識別番号に対応する音声波形信号を記憶部3から読み込む。そして音声合成部11は、各音声波形信号を連続的に接続することにより、合成音声信号を作成する。なお、波形生成情報に波形変換情報が含まれている場合、音声合成部11は、各音声波形信号を、対応する音素について求められた波形変換情報に従って補正して音声波形信号を連続的に接続することにより、合成音声信号を作成する。
音声合成部11は、合成音声信号を出力部5へ出力する。
辞書登録部12は、言語処理部10が生成した中間表記をユーザが修正したときに、その修正内容をユーザ辞書に登録する。そのために、辞書登録部12は、編集部21と、形態素情報設定部22と、品詞情報設定部23と、修正範囲設定部24と、登録範囲設定部25と、登録部26とを有する。
処理部4は、入力部2から中間表記の編集を行うことを示す操作信号を受け取ると、編集部21を起動する。
編集部21は、例えば、編集対象となる中間表記を、対応するテキストデータとともに入力部2が有するディスプレイに表示させる。
そして編集部21は、入力部2のキーボード等から編集対象の中間表記の一部、例えば、一部の単語の読みまたはアクセントの位置などを修正する操作信号を受け取ると、その操作信号に従って、中間表記を修正する。そして編集部21は、修正された中間表記を記憶部3に一時的に記憶する。
なお、音声合成に対する専門知識が無いユーザでも、中間表記を修正できるように、編集部21は、入力部2が有するディスプレイに、韻律記号を日本語で表示させたり、各形態素の形態素情報を表示させてもよい。またユーザが、例えば、入力部2が有するマウスなどを介して修正する韻律記号を選択したり、韻律記号を追加する位置を指定すると、編集部21は、例えば、プルダウンメニューなどで、選択可能な韻律記号を表す日本語表記をディスプレイに表示させる。そして編集部21は、マウスなどを介して選択された日本語表記に対応する韻律記号で、中間表記の指定された位置の韻律記号を置換したり、選択された日本語表記に対応する韻律記号をその指定された位置に自動的に追加する。
また編集部21は、ユーザが自分で修正した内容を把握できるようにするために、修正後の中間表記をディスプレイに表記させてもよい。さらに、編集部21は、修正後の中間表記を音声合成部11に入力することにより、修正後の中間表記に対して実際に生成される合成音声をスピーカ6から出力させることで、ユーザに修正内容を確認させてもよい。
図4は、言語処理部10により出力された中間表記と、ユーザにより修正された中間表記の一例を示す図である。文字列401及び402は、それぞれ、入力されたテキストデータから言語処理部10が生成した形態素読み表記及び中間表記を表す。この例では、形態素読み表記401中に、6個の形態素「ヨーカン」(普通名詞)、「サイチュー」(普通名詞)、「ワ」(助詞)、「ウツクシ」(形容詞(語幹))、「ク」(形容詞(活用語尾))及び「,」(記号(読点))が含まれている。そして形態素読み表記401に対応する中間表記402では、上記の6個の形態素に対応する6個の品詞の他、助詞「ワ」と形容詞「ウツクシ」の間に挿入された、区切りを表す句の記号「=」が含まれている。
また、文字列403は、ユーザが修正した後の中間表記を表す。中間表記403では、修正前の中間表記402の2番目の品詞「サ’イチュー」が、「モ*ナカ」に変更されている。さらに、5番目の品詞「ウツクシ%’」が、「ウツク’シ%」に変更されている。なお、中間表記402、403に含まれる記号「’」、「*」、「%」などは、韻律記号である。こことでは、韻律記号「’」は、「アクセント強」を表し、韻律記号「*」は、「アクセント弱」を表す。なお、中間表記403では、ユーザは個々の品詞を指定していないので、ユーザが中間表記を修正した時点では、中間表記403に含まれる個々の品詞及び各品詞に相当する中間表記の範囲は不明である。
形態素情報設定部22は、ユーザが修正した後の中間表記に含まれる各形態素の情報を設定する。そのために、形態素情報設定部22は、ユーザが修正する前の中間表記と、ユーザが修正した後の中間表記を記憶部3から読み込む。そして形態素情報設定部22は、ユーザが修正した後の中間表記から韻律記号を除去することで、ユーザが修正した後の中間表記に対応する修正後形態素読み表記を生成する。
図5は、図4の中間表記に対応する、ユーザ修正前の形態素読み表記とユーザ修正後の形態素読み表記を表す図である。図5に示されたユーザ修正前の形態素読み表記501は、図4に示された形態素読み表記401と同一である。また、ユーザ修正後の形態素読み表記502は、図4に示されたユーザ修正後の中間表記403から、韻律記号を除去したものである。形態素読み表記501と形態素読み表記502を比較すると、修正前の形態素「サイチュー」と、修正後の形態素読み表記中の「モナカ」が一致しないことが分かる。
この不一致部分を見つけるために、形態素情報設定部22は、ユーザ修正後の形態素読み表記とユーザ修正前の形態素読み表記との間で、例えば、動的計画法を用いたマッチング処理(DPマッチング)を実行する。そして形態素情報設定部22は、ユーザ修正後の形態素読み表記とユーザ修正前の形態素読み表記との間で、形態素単位で一致する部分と一致しない部分を特定する。そして形態素情報設定部22は、ユーザ修正後の形態素読み表記中で、ユーザ修正前の形態素と一致する部分を、そのユーザ修正前の形態素と同一の種別の形態素とする。また、形態素情報設定部22は、ユーザ修正後の形態素読み表記中で、ユーザ修正前の形態素と一致しない部分が、ユーザ修正前の一形態素に相当する場合も、その一致しない部分を、対応するユーザ修正前の形態素と同じ種別の形態素とする。すなわち、形態素情報設定部22は、ユーザ修正前の形態素に1対1に対応する部分がユーザ修正後の形態素読み表記中に含まれる限り、その部分を、対応するユーザ修正前の形態素と同じ種別の形態素に設定する。
図5では、ユーザ修正後の形態素読み表記502中の「ヨーカン」、「モナカ」、「ワ」、「ウツクシ」、「ク」、「,」が、それぞれ、ユーザ修正前の形態素読み表記501中の各形態素「ヨーカン」、「サイチュー」、「ワ」、「ウツクシ」、「ク」、「,」に対応する。したがって、ユーザ修正後の形態素読み表記502中の「ヨーカン」、「モナカ」、「ワ」、「ウツクシ」、「ク」、「,」が、それぞれ、ユーザ修正前の対応する形態素と同じ種別の形態素に設定される。例えば、「ヨーカン」は普通名詞となり、「ウツクシ」は形容詞の語幹となる。また、「モナカ」と一致する形態素は、ユーザ修正前の形態素読み表記501には含まれないが、「モナカ」の前後の表記により、「モナカ」が形態素「サイチュー」に対して1対1に対応することが分かる。そこで、形態素情報設定部22は、「モナカ」の品詞を形態素「サイチュー」と同じ普通名詞とする。
しかし、ユーザ修正後の形態素読み表記のうち、ユーザ修正前の形態素読み表記と一致しない部分に、ユーザ修正前の形態素中の複数の形態素が対応することがある。この場合、形態素情報設定部22は、その一致しない部分に対応する複数の形態素を、連続する同一種別の形態素ごとにグループ化する。ただし、本実施形態では、形態素情報設定部22は、その形態素が名詞である場合には、普通名詞、サ変名詞といった名詞の分類は無視して同一種別の形態素として扱う。例えば、不一致部分に、普通名詞「ソーイ」とサ変名詞「クフー」が連続して含まれている場合、形態素情報設定部22は、その二つの名詞「ソーイ」、「クフー」をまとめた「ソーイクフー」を一つのグループとする。
一致しない部分に対応する、グループに含まれる形態素が一つである場合は、上記の一つの形態素のみが対応する場合と同様に、修正の前後で1対1に対応している。そこで形態素情報設定部22は、ユーザ修正後の形態素読み表記中のその不一致部分の形態素を、対応する形態素のグループと同じ種別の形態素とする。
一方、一致しない部分に対応するグループに複数の形態素が含まれる場合、その形態素のグループが名詞でなければ、形態素情報設定部22は、そのグループの形態素の種別を、そのままユーザ修正後の不一致部分の形態素の種別とする。これは、以下の理由による。
通常、形態素のグループが名詞でない場合、その形態素のグループの形態素の種別は、非活用自立語、活用自立語、付属語に大別されるが、いずれも中間表記の読み修正がほぼ発生しない。極稀に、動詞「通った(とおった、かよった)」、「行った(いった、おこなった)」などの同表記異読語が存在するが、形態素単位では、語幹部分のみが読み修正の対象となり、活用語尾には読み修正が発生しない。すなわち、活用語尾は形態素単位で必ず一致する。このことから、事実上、グループに複数の形態素が含まれるケースは、その形態素が名詞である場合以外にない。したがって、複数形態素で構成されるグループとしては、名詞のみが考慮されればよい。
一つの実施例として、形態素のグループが複数の形態素で構成される場合、不一致部分に対する形態素の種別の設定は、以下の三つのケースに分類される。
(ケース1)形態素のグループに含まれる複数の形態素が全て普通名詞である場合
例えば、グループに含まれる形態素が「羊羹」「最中」である場合がケース1に相当する。この場合、形態素情報設定部22は、その複数の形態素を一つの形態素に統合し、すなわち、複合名詞化する。そして形態素情報設定部22は、不一致部分の形態素の種別を「普通名詞」に設定する。
(ケース2)形態素のグループに含まれる複数の形態素のうちの最後の形態素がサ変名詞(例えば)である場合
例えば、グループに含まれる形態素が「創意」「工夫」である場合がケース2に相当する。この場合、形態素情報設定部22は、その複数の形態素を一つの形態素に統合し、すなわち、複合名詞化する。そして形態素情報設定部22は、不一致部分の形態素の種別を「サ変名詞」に設定する。
(ケース3)形態素のグループに含まれる複数の形態素の種別が上記のケース以外の場合
この場合、形態素情報設定部22は、その複数の形態素を一つの形態素に統合し、すなわち、複合名詞化する。そして形態素情報設定部22は、不一致部分の形態素の種別を「固有名詞」に設定する。一般に、読み誤りは固有名詞(人名、地名など)に多く、確率上、固有名詞で定義することが好ましい。
図6は、ユーザが修正する前の形態素読み表記とユーザが修正した後の形態素読み表記の他の一例を示す図である。この例では、入力されたテキストデータ「IaaSは、」に対する言語処理の結果、ユーザ修正前の形態素読み表記601は、6個の形態素の集合となっている。具体的には、形態素読み表記601には、形態素「アイ」(普通名詞)、「エー」(普通名詞)、「エー」(普通名詞)、「エス」(普通名詞)、「ワ」(助詞)、「,」(読点)が含まれる。一方、ユーザ修正後の形態素読み表記602は、「イアースワ,」となっている。そのため、形態素情報設定部22は、ユーザ修正後の形態素読み表記602中の不一致部分「イアース」に、ユーザ修正前の形態素読み表記601中の4個の形態素「アイ」、「エー」、「エー」、「エス」が対応していることが分かる。この4個の形態素は、すべて名詞であるため、一つの形態素のグループに含まれる。さらに、この4個の形態素の名詞の種別は全て普通名詞であるため、図6の例は、上記のケース1に該当する。そのため、形態素情報設定部22は、形態素読み表記603に示されるように、この4個の形態素を一つの形態素に統合し、ユーザ修正後の形態素読み表記中の対応する不一致部分の形態素の種別を普通名詞とする。
図7は、形態素情報設定部22により実行される形態素情報設定処理の動作フローチャートである。
形態素情報設定部22は、修正後の中間表記から修正後の形態素読み表記を導出する(ステップS101)。そして形態素情報設定部22は、修正前後の形態素読み表記間のマッチングにより一致部分及び不一致部分を特定する(ステップS102)。
形態素情報設定部22は、修正後の形態素読み表記中の一致部分に修正前の形態素読み表記中の対応する形態素の範囲及び種別を設定する(ステップS103)。
一方、形態素情報設定部22は、修正後の形態素読み表記中の不一致部分に対応する形態素は一つか否か判定する(ステップS104)。
不一致部分に対応する形態素が一つである場合(ステップS104−Yes)、形態素情報設定部22は、不一致部分に修正前の形態素読み表記中の対応する形態素の範囲及び種別を設定する(ステップS105)。一方、不一致部分に対応する形態素が複数である場合(ステップS104−no)、形態素情報設定部22は、修正前の形態素読み表記中の不一致部分を連続する同一種別の形態素ごとにグループ化する(ステップS106)。そして形態素情報設定部22は、グループに含まれる形態素は一つか否か判定する(ステップS107)。グループに含まれる形態素が一つである場合(ステップS107−Yes)、形態素情報設定部22は、不一致部分に修正前の形態素読み表記中の対応する形態素の範囲及び種別を設定する(ステップS105)。一方、グループに含まれる形態素が一つでない場合(ステップS107−no)、形態素情報設定部22は、グループに含まれる形態素が全て普通名詞か否か判定する(ステップS108)。
グループに含まれる形態素が全て普通名詞である場合(ステップS108−Yes)、形態素情報設定部22は、修正後の形態素読み表記中の不一致部分全体を一つの普通名詞に設定する(ステップS109)。一方、グループに含まれる形態素の何れかが普通名詞でない場合(ステップS108−no)、形態素情報設定部22は、グループに含まれる最後の形態素がサ変名詞か否か判定する(ステップS110)。グループに含まれる最後の形態素がサ変名詞である場合(ステップS110−Yes)、形態素情報設定部22は、修正後の形態素読み表記中の不一致部分全体を一つのサ変名詞に設定する(ステップS111)。一方、グループに含まれる最後の形態素がサ変名詞でない場合(ステップS110−no)、形態素情報設定部22は、修正後の形態素読み表記中の不一致部分全体を一つの固有名詞に設定する(ステップS112)。
ステップS105、S109、S111またはS112の後、形態素情報設定部22は、形態素情報設定処理を終了する。形態素情報設定部22は、この手順により、修正後の形態素読み表記中の各形態素の品詞を適切に設定できる。
形態素情報設定部22は、ユーザ修正後の形態素読み表記について設定した形態素情報を、品詞情報設定部23へ通知する。
品詞情報設定部23は、ユーザ修正後の形態素読み表記中の各形態素の情報に基づいて、ユーザ修正後の中間表記中の各品詞の情報を設定する。形態素読み表記と中間表記の関係上、ユーザ修正後の形態素読み表記とユーザ修正後の中間表記とは、韻律記号を除いて1対1に対応している。そこで、品詞情報設定部23は、ユーザ修正後の中間表記に含まれる各品詞の範囲を、ユーザ修正後の形態素読み表記の読みが一致する部分から特定し、各品詞の種別を、ユーザ修正後の形態素読み表記中の対応する形態素の種別に設定する。なお、韻律記号のみを含む品詞、例えば、句切りを表す韻律記号「=」のみを含む品詞に関しては、品詞情報設定部23は、ユーザ修正後の中間表記における品詞を、ユーザ修正前の中間表記における対応する品詞に設定すればよい。
図8は、ユーザ修正の前後のそれぞれの中間表記と、ユーザ修正後の形態素読み表記との関係の一例を示す図である。ユーザ修正後の中間表記802とユーザ修正後の形態素読み表記803とでは、韻律記号以外は一致している。そのため、形態素読み表記803に含まれる各形態素「ヨーカン」、「モナカ」、「ワ」、「ウツクシ」、「ク」及び「,」が、それぞれ、中間表記802の品詞「ヨーカン」、「モ*ナカ」、「ワ」、「ウツク’シ%」、「ク」及び「,」に対応していることが分かる。そのため、各品詞「ヨーカン」、「モ*ナカ」、「ワ」、「ウツク’シ%」、「ク」及び「,」の種別が、それぞれ形態素読み表記803中の対応する形態素の種別である、普通名詞、普通名詞、助詞(副)、形容詞(語幹)、形容詞(活用語尾)及び読点に設定される。また、形態素読み表記803中に対応する部分が無い、韻律記号「=」は、ユーザ修正前の中間表記801中の対応する韻律記号「=」の品詞である記号(句)に設定される。
品詞情報設定部23は、ユーザ修正後の中間表記中の各品詞の情報を修正範囲設定部24へ通知する。
修正範囲設定部24は、ユーザ修正後の中間表記から、品詞単位でユーザが修正した範囲を設定する。そのために、修正範囲設定部24は、ユーザ修正後の中間表記とユーザ修正前の中間表記との間で、品詞単位でマッチング処理、例えば、DPマッチングを行って、一致しない品詞を特定する。そして修正範囲設定部24は、ユーザ修正後の中間表記に含まれる品詞のうち、ユーザ修正前の中間表記の品詞と一致しない品詞を修正範囲とする。このように、品詞単位で修正範囲を設定することにより、修正範囲設定部24は、修正範囲を、ユーザが修正を意図した範囲に適切に設定できる。
図9は、ユーザ修正の前後のそれぞれの中間表記と、設定される修正範囲との関係の一例を示す図である。図9において、ユーザ修正前の中間表記901に対して、ユーザ修正後の中間表記902では、品詞「サ’イチュー」が品詞「モ*ナカ」に修正されている。そのため、矢印903に示されるように、品詞「モ*ナカ」が修正範囲として設定される。
さらに、修正前の品詞「ウツクシ%’」について、修正後では「ウツク’シ%」となり、アクセント強を表す韻律記号の位置が修正されている。この場合も、韻律記号だけでなく、矢印904に示されるように、品詞「ウツク’シ%」全体が修正範囲として設定される。
修正範囲設定部24は、設定した修正範囲を登録範囲設定部25へ通知する。
登録範囲設定部25は、ユーザ修正後の中間表記において設定された修正範囲から、ユーザ辞書に登録する範囲を設定する。連続する名詞のうちの一部をユーザが修正した場合に、その修正された名詞についてのみ、修正内容をユーザ登録すると、図1について上述した「最中」のように、修正された名詞が他の文脈で使用される場合に誤った中間表記に変換されるおそれがある。このような場合、ユーザ辞書には、名詞「最中」を、その名詞に前置された名詞「羊羹」まで含めて、「羊羹最中」として登録しておくことで、「最中」が「サイチュー」の読みで使用される場合に、誤って「モナカ」とされることを防止できる。そこで、本実施形態では、登録範囲設定部25は、修正範囲に含まれる品詞が名詞である場合、その名詞と連続する名詞も登録範囲に含まれるように登録範囲に設定する。
また、活用自立語のアクセント位置は、語尾によって変化することがある。例えば、図8に示されるように、修正範囲が活用自立語の語幹である場合、韻律については、実際に修正された中間表記における語尾との組み合わせで使用されるときのみ、修正された韻律が適用される可能性が高い。そこで本実施形態では、登録範囲設定部25は、修正範囲に含まれる品詞が活用自立語の語幹である場合、活用自立語とその活用自立語の語尾を登録範囲に設定する。このように、登録範囲設定部25は、修正範囲に含まれる品詞が所定の品詞である場合、その修正範囲の品詞と連続する同じ品詞を含むように登録範囲に設定する。これにより、登録範囲設定部25は、ユーザによる修正をユーザ辞書に適切に反映させることができる。
図10は、ユーザ修正の前後の中間表記と登録範囲の関係の一例を示す図である。ユーザ修正前の中間表記1000とユーザ修正後の中間表記1001を比較すると、「サ’イチュー」が「モ*ナカ」と修正され、「ウツクシ%’」が「ウツク’シ%」と修正されている。そのため、名詞1002(「モ*ナカ」)と形容詞の語幹1003(「ウツク’シ%」)が修正範囲に設定されている。この場合、名詞1002については、前置された名詞「ヨーカン」も含めるように登録範囲1004が設定される。一方、形容詞の語幹1003については、活用語尾である「ク」も含めるように登録範囲1005が設定される。
図11は、登録範囲設定処理の動作フローチャートである。なお、登録範囲設定部25は、ユーザ修正後の中間表記に、複数の修正範囲が含まれる場合、修正範囲ごとに、以下の処理を実行する。
まず、初期処理として、登録範囲設定部25は、修正範囲そのものを登録範囲とする。そして登録範囲設定部25は、修正範囲に含まれる品詞が名詞か否か判定する(ステップS201)。修正範囲に含まれる品詞が名詞である場合(ステップS201−Yes)、登録範囲設定部25は、登録範囲の前置品詞が名詞か否か判定する(ステップS202)。前置品詞が名詞である場合(ステップS202−Yes)、登録範囲設定部25は、登録範囲の先頭位置をその前置品詞の先頭に拡張する(ステップS203)。その後、登録範囲設定部25は、ステップS202以降の処理を繰り返す。
一方、前置品詞が名詞でなければ(ステップS202−No)、登録範囲設定部25は、登録範囲の後置品詞が名詞か否か判定する(ステップS204)。後置品詞が名詞である場合(ステップS204−Yes)、登録範囲設定部25は、登録範囲の後端位置をその後置品詞の終端に拡張する(ステップS205)。その後、登録範囲設定部25は、ステップS204以降の処理を繰り返す。
一方、後置品詞が名詞でなければ(ステップS204−No)、登録範囲設定部25は、登録範囲内に含まれる、連続する全ての名詞全体を登録範囲とする(ステップS206)。
また、ステップS201において、修正範囲に含まれる品詞が名詞でない場合(ステップS201−No)、登録範囲設定部25は、修正範囲に含まれる品詞が活用自立語の語幹か否か判定する(ステップS207)。修正範囲に含まれる品詞が活用自立語の語幹であれば(ステップS207−Yes)、登録範囲設定部25は、その活用自立語の語幹及び後置の活用語尾を登録範囲に設定する(ステップS208)。一方、修正範囲に含まれる品詞が活用自立語の語幹でなければ(ステップS207−No)、登録範囲設定部25は、その修正範囲に含まれる品詞のみを登録範囲に設定する(ステップS209)。
ステップS206、S208またはS209の後、登録範囲設定部25は、登録範囲設定処理を終了する。
登録範囲設定部25は、設定された登録範囲を登録部26に通知する。
登録部26は、ユーザ修正後の中間表記中で設定された登録範囲に含まれる部分を一つの単語として、その単語の中間表記と品詞を、その単語の漢字仮名表記とともにユーザ辞書に登録する。例えば、図10に示された例では、ユーザ辞書に、単語「羊羹最中」と対応付けて、「ヨーカンモ*ナカ」という中間表記と普通名詞が登録される。また、ユーザ辞書に、単語「美しく」と対応付けて、「ウツク’シ%ク」という中間表記と形容詞が登録される。
図12は、本実施形態による辞書登録処理の動作フローチャートである。
形態素情報設定部22は、ユーザ修正後の中間表記からユーザ修正後の形態素読み表記を生成する(ステップS301)。そして形態素情報設定部22は、ユーザ修正後の形態素読み表記に含まれる各形態素の範囲及び種別を設定する(ステップS302)。
品詞情報設定部23は、ユーザ修正後の各形態素の範囲及び種別から、ユーザ修正後の中間表記における各品詞の範囲及び種別を特定する(ステップS303)。そして修正範囲設定部24は、ユーザ修正の前後の中間表記を品詞単位でマッチングすることで品詞単位の修正範囲を設定する(ステップS304)。
登録範囲設定部25は、修正範囲に含まれる品詞が所定の品詞である場合に前後に連続する同一品詞を含めるように登録範囲を設定する(ステップS305)。そして登録部26は、登録範囲単位で修正内容をユーザ辞書に登録する(ステップS306)。
その後、処理部4は、辞書登録処理を終了する。
以上に説明してきたように、この音声合成装置は、ユーザが中間表記を修正すると、修正後の中間表記からユーザ辞書に登録すべき範囲及びその範囲に含まれる品詞を自動的に特定する。そのため、この音声合成装置は、ユーザが中間表記に対する特別な知識を有さなくても、あるいは、ユーザが修正した点について詳細に登録すべき範囲または品詞を設定しなくても、修正内容をユーザ辞書に適切に反映できる。そのため、この音声合成装置は、ユーザが不適切な修正内容をユーザ辞書に登録したり、登録すべき修正内容の一部がユーザ辞書に登録し忘れられることを防止できる。その結果として、この音声合成装置は、異なる複数の読みまたは韻律がある単語が含まれるテキストに対しても適切な合成音声信号を生成できる。
次に、第2の実施形態による音声合成装置について説明する。第2の実施形態による音声合成装置は、ユーザによる修正内容を登録する辞書として、単語の漢字仮名表記及び中間表記を記憶するユーザ辞書と、登録された単語の前後に位置する1以上の単語との関係も含めて記憶する中間表記辞書を有する。そしてこの音声合成装置は、言語辞書とともに、その2種類の辞書を利用して、言語処理を実行する。またこの音声号装置は、ユーザにより中間表記が修正された場合に、その修正内容をユーザ辞書に登録するか、中間表記辞書に登録するかを自動的に判別する。
なお、ユーザ辞書及び中間表記辞書は、それぞれ、言語辞書の一例である。
第2の実施形態による音声合成装置は、第1の実施形態による音声合成装置と比較して、記憶部3が中間表記辞書を記憶する点と、処理部4の言語処理部10の処理及び辞書登録部12の登録部26の処理について相違する。
そこで以下では、中間表記辞書と、言語処理部10及び登録部26について説明する。第2の実施形態による音声合成装置のその他の構成要素については、第1の実施形態の対置する構成要素の説明を参照されたい。
本実施形態では、ユーザ辞書には、単一名詞及び複合名詞の修正した読みと、修正されたアクセント位置と、区切り位置とが登録されるものとする。一方、中間表記辞書には、ユーザ辞書の登録対象以外の中間表記の修正内容が登録されるものとする。例えば、中間表記辞書には、ユーザが修正した韻律情報が登録される。この韻律情報には、例えば、アクセントの強弱、音程の高低、抑揚の大小、話速の緩急、音量の大小及び区切り位置などが含まれる。しかし、ユーザ辞書の登録対象及び中間表記辞書の登録対象は、上記の例に限られない。ユーザ辞書に対する一般的な規定は存在しないので、音声合成装置の仕様に応じて、ユーザ辞書及び中間表記辞書の登録対象が設定されればよい。例えば、ユーザ辞書は、単一名詞及び複合名詞だけでなく、活用自立語または非活用自立語についても登録対象としてもよい。
図13は、ユーザ辞書に登録された単語と中間表記辞書に登録された単語の一例を示す図である。ユーザ辞書1300には、漢字仮名表記された単語「羊羹最中」について、その品詞の種別である普通名詞と、アクセント強の韻律記号を含む中間表記である「ヨーカンモ’ナカ」が関連付けて登録されている。一方、中間表記辞書1301には、漢字仮名表記された単語「羊羹最中」について、アクセント弱の韻律記号を含む中間表記である「ヨーカンモ*ナカ」が関連付けて登録されている。さらに、中間表記辞書1301には、単語「羊羹最中」に関連付けられた中間表記が適用されるための条件である、前置される単語の漢字仮名表記「この」及び後置される単語の漢字仮名表記「は美しく」が関連付けて登録されている。すなわち、「羊羹最中」単独の場合には、「モ」のところのアクセントは強い方が好ましいが、「この羊羹最中は美しく」という文については、「モ」のところのアクセントは弱くすることを中間表記辞書は表している。なお、中間表記辞書1301には、前置される単語または後置される単語の中間表記も登録されていてもよい。
この実施形態でも、言語処理部10は、まず、言語辞書及びユーザ辞書を利用して、入力されたテキストデータの中間表記を作成する。その際、テキストデータ中に、言語辞書とユーザ辞書の両方に登録された表記がある場合には、言語処理部10は、ユーザ辞書を優先的に利用する。そのため、例えば、図1に示されるように、テキストデータ中に「この羊羹最中は美しく」という文が含まれており、ユーザ辞書に「羊羹最中」が登録されているとする。この場合、言語処理部10は、中間表記として「・・・ヨーカンサ’イチュー・・・」ではなく、「・・・ヨーカンモ’ナカ・・・」を出力する。
さらに、言語処理部10は、中間表記辞書を参照して、テキストデータ中に中間表記辞書に登録された単語の漢字仮名表記と前置される単語の漢字仮名表記及び後置される単語の漢字仮名表記と一致する部分があるか否か判定する。そして言語処理部10は、一致する部分があれば、中間表記における対応する部分の中間表記を、中間表記辞書に登録されている中間表記で置換する。これにより、言語処理部10は、文脈に応じて、合成音声信号中で単語のアクセント、音程、抑揚、話速、音量、または区切りなどを自動的に修正することができる。そのため、この音声合成装置は、ユーザが所望する合成音声をより適切に再現できる可能性を高めることができる。
次に、ユーザが中間表記を修正した際に、その修正を反映させる辞書を選択するための処理について説明する。本実施形態では、この辞書の選択を、辞書登録部12の登録部26が実行する。
図14は、登録部26により実行される辞書選択処理の動作フローチャートである。なお、辞書選択処理は、図12に示した辞書登録処理のステップS306にて実行される。
登録部26は、設定された登録範囲内の修正内容が、読み、区切り位置及びアクセント位置のうちの何れかの修正か否か判定する(ステップS401)。修正内容が、読み、区切り位置及びアクセント位置の何れでもない場合(ステップS401−No)、登録部26は、中間表記辞書を選択する(ステップS402)。登録部26は、ユーザ修正後の中間表記から、登録範囲に前置された品詞の漢字仮名表記及び登録範囲に後置された品詞の漢字仮名表記を抽出する(ステップS403)。なお、後置された品詞が助詞である場合、その助詞に後続する品詞も抽出してもよい。そして登録部26は、登録範囲の修正後の中間表記及び漢字仮名表記と、前置漢字仮名表記及び後置漢字仮名表記とを中間表記辞書に登録する(ステップS404)。一般に、読み及びアクセント位置以外の修正は、合成音声信号における、「アクセント強弱」、「音程高低」、「抑揚大小」、「話速緩急」、「音量大小」及び「区切り」のうちの何れかの修正である。これらの修正は、合成音声の聴感上の前後のつながりを考慮して行われる。そのため、登録範囲の前後の単語も合わせて登録されることが好ましい。
一方、ステップS401にて、修正内容が、読み、区切り位置及びアクセント位置のうちの何れかである場合(ステップS401−Yes)、登録部26は、登録範囲の品詞が単一名詞及び複合名詞の何れかか否か判定する(ステップS405)。登録範囲の品詞が単一名詞及び複合名詞の何れでもなければ(ステップS405−No)、登録部26は、ステップS402〜S404の処理を実行し、修正内容を中間表記辞書に登録する。
一方、登録範囲の品詞が単一名詞及び複合名詞の何れかである場合(ステップS405−Yes)、登録部26は、ユーザ辞書を選択する(ステップS406)。そして登録部26は、登録範囲の修正後の中間表記、漢字仮名表記及び品詞の種別をユーザ辞書に登録する(ステップS407)。
ステップS404またはS407の後、登録部26は、辞書選択処理を終了する。
この実施形態によれば、音声合成装置は、ユーザが特定の文脈の中での合成音声の表現を修正しようとしたのか否かを自動的に判別し、その結果を辞書に反映させることができる。そのため、この音声合成装置は、ユーザによる修正負担を軽減しつつ、文脈に応じて適切な韻律を持つ合成音声信号を作成することができる。
変形例によれば、中間表記辞書に登録される単語について、その単語の漢字仮名表記及び中間表記とともに、その単語に前置される1以上の単語またはその単語に後続する1以上の単語の何れかのみが登録されてもよい。また、中間表記辞書には、一つの単語が、その単語に前置または後置される1以上の異なる単語の組み合わせごとに、複数登録されてもよい。
他の変形例によれば、言語処理に利用される辞書は、言語辞書一つだけでもよい。この場合には、ユーザが中間表記についてした修正内容は、全て言語辞書に反映される。そして言語処理部10は、言語辞書のうち、ユーザ修正の結果により追加登録された内容を優先して言語処理を行えばよい。
また他の変形例によれば、辞書登録部12の編集部21は、ユーザ自身が中間表記中の修正範囲及び修正範囲の品詞を指定できるようにしてもよい。この場合には、辞書登録部12は、ユーザ自身が設定した修正範囲に基づいて、登録範囲を自動的に設定する。このようにユーザが詳細に修正内容を指定できるようにすることで、音声合成の知識が豊富なユーザの利便性も向上できる。
さらに、上記の各実施形態による音声合成装置の処理部が有する各機能をコンピュータに実現させるコンピュータプログラムは、コンピュータによって読み取り可能な媒体、例えば、磁気記録媒体、光記録媒体または半導体メモリに記録された形で提供されてもよい。
ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。
以上説明した実施形態及びその変形例に関し、更に以下の付記を開示する。
(付記1)
テキストデータから生成した、該テキストデータの読み及び韻律を表す韻律記号を含む中間表記に基づいて合成音声信号を生成する音声合成装置であって、
前記テキストデータを取得する入力部と、
少なくとも単語の漢字仮名表記と該単語の読み及び前記韻律記号を含む中間表記とが登録され、前記テキストデータから前記中間表記を生成するために利用される言語辞書を記憶する記憶部と、
前記中間表記が修正された修正後中間表記における修正範囲に含まれる単語が所定の品詞である場合、当該修正範囲に含まれる単語の前後に連続する、当該単語の品詞と同じ品詞の単語まで含むように、前記言語辞書に登録する登録範囲を拡張する登録範囲設定部と、
前記修正後中間表記中の前記登録範囲に含まれる部分を一つの単語として、少なくとも該単語の漢字仮名表記と中間表記とを前記言語辞書に登録する登録部と、
を有する音声合成装置。
(付記2)
前記所定の品詞は名詞であり、前記登録範囲設定部は、前記修正範囲に含まれる単語が名詞である場合、当該修正範囲の前後に連続する名詞まで含むように前記登録範囲を拡張する、付記1に記載の音声合成装置。
(付記3)
前記所定の品詞は活用自立語の語幹であり、前記登録範囲設定部は、前記修正範囲に含まれる単語が活用自立語の語幹である場合、当該修正範囲に後続する活用自立語の語尾まで含むように前記登録範囲を拡張する、付記1に記載の音声合成装置。
(付記4)
前記登録部は、前記登録範囲に含まれる単語の品詞を、該単語の漢字仮名表記と中間表記とともに前記言語辞書に登録する、付記1〜3の何れか一項に記載の音声合成装置。
(付記5)
前記修正後中間表記から前記韻律記号を除去することにより、修正後の前記テキストデータの読みを表す修正後形態素読み表記を生成し、前記中間表記から前記韻律記号を除去した形態素読み表記と前記修正後形態素読み表記との間のマッチングにより、前記修正後形態素読み表記に含まれる各品詞の範囲及び種別を求める形態素情報設定部と、
前記修正後形態素読み表記に含まれる各形態素について、前記修正後中間表記のうちで当該形態素の読みと一致する部分を、それぞれ、当該形態素と同一の品詞に設定する品詞情報設定部と、
前記修正後中間表記と前記中間表記間で異なる部分を抽出し、該異なる部分を含む品詞全体を前記修正範囲に設定する修正範囲設定部と、
をさらに有する、付記1〜4の何れか一項に記載の音声合成装置。
(付記6)
前記形態素情報設定部は、前記修正後形態素読み表記と前記形態素読み表記間で一致する部分と一致しない部分とを抽出し、前記修正後形態素読み表記中の一致する部分には、前記形態素読み表記における対応する品詞と同一の品詞を設定し、前記修正後形態素読み表記中の一致しない部分に、前記形態素読み表記のうちの一つの品詞が対応している場合、当該一致しない部分に、前記形態素読み表記のうちの対応する部分の品詞を設定する、付記5に記載の音声合成装置。
(付記7)
前記形態素情報設定部は、前記修正後形態素読み表記中の一致しない部分に、前記形態素読み表記の連続する複数の普通名詞が対応している場合、当該一致しない部分の品詞を普通名詞とする、付記6に記載の音声合成装置。
(付記8)
前記形態素情報設定部は、前記修正後形態素読み表記中の一致しない部分に、前記形態素読み表記の連続する複数の名詞が対応し、かつ該複数の名詞のうちの最後尾の名詞がサ変名詞である場合、当該一致しない部分の品詞をサ変名詞とする、付記6に記載の音声合成装置。
(付記9)
前記形態素情報設定部は、前記修正後形態素読み表記中の一致しない部分に、前記形態素読み表記の連続する複数の名詞が対応し、該複数の名詞のうちの最後尾の名詞がサ変名詞でなく、かつ、該複数の名詞の何れかが普通名詞でない場合、当該一致しない部分の品詞を固有名詞とする、付記6に記載の音声合成装置。
(付記10)
前記記憶部は、前記言語辞書として、少なくとも単語の漢字仮名表記とともに該単語の中間表記が登録される第1の言語辞書と、少なくとも単語の漢字仮名表記とともに、該単語の中間表記と該単語の前または後に位置する1以上の単語の漢字仮名表記が登録される第2の言語辞書とを記憶し、
前記登録部は、前記修正後中間表記の前記登録範囲においてアクセント位置以外の韻律が変更されている場合、前記登録範囲の前または後に位置する1以上の単語の漢字仮名表記と、前記登録範囲に含まれる単語の漢字仮名表記と中間表記とを前記第2の言語辞書に登録する、付記1〜9の何れか一項に記載の音声合成装置。
(付記11)
前記登録部は、前記修正後中間表記の前記登録範囲に含まれる単語の品詞が名詞であり、かつ、アクセント位置以外の韻律が変更されていない場合、前記登録範囲に含まれる単語の漢字仮名表記と中間表記とを前記第1の言語辞書に登録する、付記10に記載の音声合成装置。
(付記12)
前記テキストデータのうち、前記第1の言語辞書に登録されている漢字仮名表記と一致する単語を該単語の中間表記とすることで前記中間表記を生成し、かつ、前記テキストデータのうち、前記第2の言語辞書に登録されている単語の漢字仮名表記と一致し、かつ当該単語の前または後に位置する1以上の単語の漢字仮名表記とも一致する部分に対応する前記中間表記の中間表記を、前記第2の言語辞書に登録されている当該単語の中間表記に書き換える言語処理部をさらに有する、付記10または11に記載の音声合成装置。
(付記13)
テキストデータから合成音声信号を生成するための、該テキストデータの読み及び韻律を表す韻律記号を含む中間表記の作成に利用される言語辞書の登録方法であって、
前記テキストデータを取得し、
プロセッサが、前記中間表記が修正された修正後中間表記における修正範囲に含まれる単語が所定の品詞である場合、当該修正範囲に含まれる単語の前後に連続する、当該単語の品詞と同じ品詞の単語まで含むように、前記言語辞書に登録する登録範囲を拡張し、
前記プロセッサが、前記修正後中間表記中の前記登録範囲に含まれる部分を一つの単語として、該単語の漢字仮名表記と該単語の読み及び前記韻律記号を含む中間表記とを、記憶部に記憶された前記言語辞書に登録する、
ことを含む言語辞書登録方法。
1 音声合成装置
2 入力部
3 記憶部
4 処理部
5 出力部
6 スピーカ
10 言語処理部
11 音声合成部
12 辞書登録部
21 編集部
22 形態素情報設定部
23 品詞情報設定部
24 修正範囲設定部
25 登録範囲設定部
26 登録部

Claims (10)

  1. テキストデータから生成した、該テキストデータの読み及び韻律を表す韻律記号を含む中間表記に基づいて合成音声信号を生成する音声合成装置であって、
    前記テキストデータを取得する入力部と、
    少なくとも単語の漢字仮名表記と該単語の読み及び前記韻律記号を含む中間表記とが登録され、前記テキストデータから前記中間表記を生成するために利用される言語辞書を記憶する記憶部と、
    前記中間表記が修正された修正後中間表記における修正範囲に含まれる単語が名詞である場合、当該修正範囲に含まれる単語の前後に連続する名詞まで含むように、前記言語辞書に登録する登録範囲を拡張する登録範囲設定部と、
    前記修正後中間表記中の前記登録範囲に含まれる部分を一つの単語として、少なくとも該単語の漢字仮名表記と中間表記とを前記言語辞書に登録する登録部と、
    を有する音声合成装置。
  2. テキストデータから生成した、該テキストデータの読み及び韻律を表す韻律記号を含む中間表記に基づいて合成音声信号を生成する音声合成装置であって、
    前記テキストデータを取得する入力部と、
    少なくとも単語の漢字仮名表記と該単語の読み及び前記韻律記号を含む中間表記とが登録され、前記テキストデータから前記中間表記を生成するために利用される言語辞書を記憶する記憶部と、
    前記中間表記が修正された修正後中間表記における修正範囲に含まれる単語が活用自立語の語幹である場合、当該修正範囲に後続する活用自立語の語尾まで含むように、前記言語辞書に登録する登録範囲を拡張する登録範囲設定部と、
    前記修正後中間表記中の前記登録範囲に含まれる部分を一つの単語として、少なくとも該単語の漢字仮名表記と中間表記とを前記言語辞書に登録する登録部と、
    を有する音声合成装置。
  3. 前記修正後中間表記から前記韻律記号を除去することにより、修正後の前記テキストデータの読みを表す修正後形態素読み表記を生成し、前記中間表記から前記韻律記号を除去した形態素読み表記と前記修正後形態素読み表記との間のマッチングにより、前記修正後形態素読み表記に含まれる各品詞の範囲及び種別を求める形態素情報設定部と、
    前記修正後形態素読み表記に含まれる各形態素について、前記修正後中間表記のうちで当該形態素の読みと一致する部分を、それぞれ、当該形態素と同一の品詞に設定する品詞情報設定部と、
    前記修正後中間表記と前記中間表記間で異なる部分を抽出し、該異なる部分を含む品詞全体を前記修正範囲に設定する修正範囲設定部と、
    をさらに有する、請求項1または2に記載の音声合成装置。
  4. 前記形態素情報設定部は、前記修正後形態素読み表記と前記形態素読み表記間で一致する部分と一致しない部分とを抽出し、前記修正後形態素読み表記中の一致する部分には、前記形態素読み表記における対応する品詞と同一の品詞を設定し、前記修正後形態素読み表記中の一致しない部分に、前記形態素読み表記のうちの一つの品詞が対応している場合、当該一致しない部分に、前記形態素読み表記のうちの対応する部分の品詞を設定する、請求項に記載の音声合成装置。
  5. 前記形態素情報設定部は、前記修正後形態素読み表記中の一致しない部分に、前記形態素読み表記の連続する複数の名詞が対応し、かつ該複数の名詞のうちの最後尾の名詞がサ変名詞である場合、当該一致しない部分の品詞をサ変名詞とする、請求項に記載の音声合成装置。
  6. 前記記憶部は、前記言語辞書として、少なくとも単語の漢字仮名表記とともに該単語の中間表記が登録される第1の言語辞書と、少なくとも単語の漢字仮名表記とともに、該単語の中間表記と該単語の前または後に位置する1以上の単語の漢字仮名表記が登録される第2の言語辞書とを記憶し、
    前記登録部は、前記修正後中間表記の前記登録範囲においてアクセント位置以外の韻律が変更されている場合、前記登録範囲の前または後に位置する1以上の単語の漢字仮名表記と、前記登録範囲に含まれる単語の漢字仮名表記と中間表記とを前記第2の言語辞書に登録する、請求項1〜の何れか一項に記載の音声合成装置。
  7. 前記登録部は、前記修正後中間表記の前記登録範囲に含まれる単語の品詞が名詞であり、かつ、アクセント位置以外の韻律が変更されていない場合、前記登録範囲に含まれる単語の漢字仮名表記と中間表記とを前記第1の言語辞書に登録する、請求項に記載の音声合成装置。
  8. 前記テキストデータのうち、前記第1の言語辞書に登録されている漢字仮名表記と一致する単語を該単語の中間表記とすることで前記中間表記を生成し、かつ、前記テキストデータのうち、前記第2の言語辞書に登録されている単語の漢字仮名表記と一致し、かつ当該単語の前または後に位置する1以上の単語の漢字仮名表記とも一致する部分に対応する前記中間表記の中間表記を、前記第2の言語辞書に登録されている当該単語の中間表記に書き換える言語処理部をさらに有する、請求項6または7に記載の音声合成装置。
  9. テキストデータから合成音声信号を生成するための、該テキストデータの読み及び韻律を表す韻律記号を含む中間表記の作成に利用される言語辞書の登録方法であって、
    前記テキストデータを取得し、
    プロセッサが、前記中間表記が修正された修正後中間表記における修正範囲に含まれる単語が名詞である場合、当該修正範囲に含まれる単語の前後に連続する名詞まで含むように、前記言語辞書に登録する登録範囲を拡張し、
    前記プロセッサが、前記修正後中間表記中の前記登録範囲に含まれる部分を一つの単語として、該単語の漢字仮名表記と該単語の読み及び前記韻律記号を含む中間表記とを、記憶部に記憶された前記言語辞書に登録する、
    ことを含む言語辞書登録方法。
  10. テキストデータから合成音声信号を生成するための、該テキストデータの読み及び韻律を表す韻律記号を含む中間表記の作成に利用される言語辞書の登録方法であって、
    前記テキストデータを取得し、
    プロセッサが、前記中間表記が修正された修正後中間表記における修正範囲に含まれる単語が活用自立語の語幹である場合、当該修正範囲に後続する活用自立語の語尾まで含むように、前記言語辞書に登録する登録範囲を拡張し、
    前記プロセッサが、前記修正後中間表記中の前記登録範囲に含まれる部分を一つの単語として、該単語の漢字仮名表記と該単語の読み及び前記韻律記号を含む中間表記とを、記憶部に記憶された前記言語辞書に登録する、
    ことを含む言語辞書登録方法。
JP2013072559A 2013-03-29 2013-03-29 音声合成装置及び言語辞書登録方法 Active JP6232724B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013072559A JP6232724B2 (ja) 2013-03-29 2013-03-29 音声合成装置及び言語辞書登録方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013072559A JP6232724B2 (ja) 2013-03-29 2013-03-29 音声合成装置及び言語辞書登録方法

Publications (2)

Publication Number Publication Date
JP2014197117A JP2014197117A (ja) 2014-10-16
JP6232724B2 true JP6232724B2 (ja) 2017-11-22

Family

ID=52357931

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013072559A Active JP6232724B2 (ja) 2013-03-29 2013-03-29 音声合成装置及び言語辞書登録方法

Country Status (1)

Country Link
JP (1) JP6232724B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6972653B2 (ja) * 2017-05-16 2021-11-24 富士通株式会社 解析プログラム、解析方法および解析装置
KR102362815B1 (ko) * 2020-05-18 2022-02-14 니나노 주식회사 음성 인식 선곡 서비스 제공 방법 및 음성 인식 선곡 장치

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001184345A (ja) * 1999-12-24 2001-07-06 Toyota Central Res & Dev Lab Inc 言語処理装置
JP2005215288A (ja) * 2004-01-29 2005-08-11 Equos Research Co Ltd 音声合成装置および音声合成方法
JP2006030326A (ja) * 2004-07-13 2006-02-02 Hitachi Ltd 音声合成装置
JP2008083239A (ja) * 2006-09-26 2008-04-10 Toshiba Corp 中間言語編集装置、中間言語編集方法および中間言語編集プログラム
JP5533377B2 (ja) * 2010-07-13 2014-06-25 富士通株式会社 音声合成装置、音声合成プログラムおよび音声合成方法

Also Published As

Publication number Publication date
JP2014197117A (ja) 2014-10-16

Similar Documents

Publication Publication Date Title
US9424833B2 (en) Method and apparatus for providing speech output for speech-enabled applications
US6778962B1 (en) Speech synthesis with prosodic model data and accent type
JP5198046B2 (ja) 音声処理装置及びそのプログラム
KR101735195B1 (ko) 운율 정보 기반의 자소열 음소열 변환 방법과 시스템 그리고 기록 매체
WO2004066271A1 (ja) 音声合成装置,音声合成方法および音声合成システム
US20090281808A1 (en) Voice data creation system, program, semiconductor integrated circuit device, and method for producing semiconductor integrated circuit device
JP6790959B2 (ja) 音声合成装置、音声合成方法及び音声合成システムならびに音声合成用コンピュータプログラム
JP6232724B2 (ja) 音声合成装置及び言語辞書登録方法
JP2004326367A (ja) テキスト解析装置及びテキスト解析方法、ならびにテキスト音声合成装置
JP6197523B2 (ja) 音声合成装置、言語辞書修正方法及び言語辞書修正用コンピュータプログラム
JP3589972B2 (ja) 音声合成装置
JP6411015B2 (ja) 音声合成装置、音声合成方法、およびプログラム
JP3414326B2 (ja) 音声合成用辞書登録装置及び方法
JP6142632B2 (ja) 単語辞書登録用コンピュータプログラム、音声合成装置及び単語辞書登録登録方法
JP2004258561A (ja) 歌唱合成用データ入力プログラムおよび歌唱合成用データ入力装置
JP2003202886A (ja) テキスト入力処理装置及び方法並びにプログラム
JP2004258406A (ja) テキスト音声合成システム及び方法
JP6340839B2 (ja) 音声合成装置、合成音声編集方法及び合成音声編集用コンピュータプログラム
Romsdorfer Polyglot text-to-speech synthesis: Text analysis & prosody control
JP2003005776A (ja) 音声合成装置
JP4208819B2 (ja) 音声合成辞書登録方法および装置
JP2016122033A (ja) 記号列生成装置、音声合成装置、音声合成システム、記号列生成方法、及びプログラム
JP6197362B2 (ja) 音声合成方法、プログラム、及び装置
JP2001166790A (ja) 書き起こしテキスト自動生成装置、音声認識装置および記録媒体
Martin Towards improved speech recognition for resource poor languages

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151204

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170131

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170207

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170407

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170926

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171009

R150 Certificate of patent or registration of utility model

Ref document number: 6232724

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150