JP5423466B2

JP5423466B2 - 音声合成装置、音声合成方法、及び音声合成プログラム

Info

Publication number: JP5423466B2
Application number: JP2010035067A
Authority: JP
Inventors: 伸之片江
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2010-02-19
Filing date: 2010-02-19
Publication date: 2014-02-19
Anticipated expiration: 2030-02-19
Also published as: JP2011170191A

Description

本発明は、入力テキストから合成音声を生成する音声合成に関する。

音声合成装置や音声合成プログラムは、我々が普段使っている漢字かな混じりテキストの入力から音声を合成する。その際、言語処理部が単語辞書を参照しながら入力テキストを形態素解析し、入力テキストを構成する単語（または形態素）を特定する。さらに、言語処理部が特定した単語の読みやアクセントが単語辞書から得られる。日本語のアクセントは、日本語の各音に割り振られた「高低」の配置であり、音声の了解性や自然性を確保するうえで必須のものである。各形態素の読みやアクセントが連結され、適宜アクセントの変形処理や、フレーズやポーズなどの境界を設定する処理が行われることによって、入力テキストに対する表音文字列が生成される。表音文字列は、テキストの読み方を表す文字列であり、一般的に、読みを表すカタカナ、アクセントを示す記号、フレーズやポーズの境界を示す記号を含む。

任意の日本語テキストは非常に多様なため、現在の言語処理部では１００％の精度で解析ができるわけではない。言語処理部において読みやアクセントの誤りが起こる場合には、言語処理部の出力である表音文字列をマニュアルで修正するのが一般的である。前述したように、表音文字列において読みはカタカナで表記されることが多く、これは我々が普段使っている振り仮名に類似している。しかし、長音を「ー」で示したり（例えば「東京」は「トーキョー」と表す）、助詞の「は」「を」「へ」をそれぞれ「ワ」「オ」「エ」で示したり、アクセントがある箇所にアクセント記号を示したりするなど、表音文字列を修正するには、その仕様を十分に理解して慣れる必要があり、一般ユーザにとって容易に修正できるものではない。

エンドユーザにとって、前述したような表音文字列の修正はハードルが高いものである。一方で、表音文字列での読みやアクセントが正しくなるように、入力するテキストの方を修正することも可能である。入力テキストは我々が普段使っている漢字かな混じりテキストであるため、その修正は表音文字列の修正に比べて分かりやすく、エンドユーザにとっても負担が少ないと考えられる。ただし、入力テキストをどのように修正すれば合成音声が正しくなるか直感的に分かりにくい場合もある。また、入力テキストを修正するノウハウを習得したあとでも、様々なテキストに含まれる同じような修正を、入力テキストが変わるたびに毎回行うのは手間がかかり煩雑である。

例えば、合成音声の韻律(ピッチパターン、音素長、パワーなど)を編集する際に、その過去の韻律修正情報を保持しておき、その後の韻律情報の生成において、保持されている韻律修正情報を用いて、合成音声を生成する方法が開示されている（例えば、特許文献１、特許文献２参照）。

特開２００４−３０９７２４号公報特開２００５−３４５６９９号公報

しかし、合成音声の韻律の編集は難易度が高く、簡単に最低限の修正がしたいというエンドユーザにとっては不適切である。

そこで、本発明では、音声合成用のテキストの修正をエンドユーザが理解しやすい入力テキストのレベルで、簡便に行えるようにすることを目的とする。

上記の目的を達成するために、以下に開示する音声合成装置は、音声合成の対象となるテキストを編集するテキスト編集部と、編集前後のテキストに対して、形態素解析、及び表音文字列生成を行う言語処理部と、編集前後のテキストそれぞれについての形態素解析結果、及び生成された表音文字列のうち、少なくとも表音文字列に基づいて、合成音声の読み、又はアクセントを修正するために実施したテキスト編集であるか否かを判定するテキスト編集判定部と、前記テキスト編集判定部が合成音声の読み、又はアクセントを修正するために実施したテキスト編集であると判定した場合に、当該テキスト編集の編集内容を示す編集履歴データを作成する編集履歴データ作成部と、編集履歴データ作成部が作成した編集履歴データの登録があったときに、当該編集履歴データを格納する編集履歴データ格納部とを備える。

また、前記テキスト編集部が編集した編集テキストの表音文字列、又は合成音声を出力する出力部と、前記出力部が出力した表音文字列、又は合成音声の読み、又はアクセントに誤りがある場合に、前記編集テキストに対して、合成音声の読み、アクセントの誤りの指摘をユーザから受付ける誤り指摘受付部と、前記誤り指摘受付部が受付けた前記編集テキストに対する合成音声の読み、アクセントの誤りの指摘箇所について、当該合成音声の読み、又はアクセントを修正するために実施すべきテキスト編集の編集内容を示す編集履歴データを、前記編集履歴データ格納部から検索して取得する編集履歴データ検索部とを更に備え、前記テキスト編集部は、前記編集履歴データ検索部が検索して取得した編集履歴データを用いて、前記編集テキストを再編集する。

上記の構成によれば、音声合成用のテキストの修正をエンドユーザが理解しやすい入力テキストのレベルで、簡便に行えるようにすることができる。

本発明の実施形態１に係る音声合成装置の全体構成の一例を示すブロック図本発明の実施形態１に係る音声合成装置の構成の一例を示すブロック図本発明の実施形態１に係る音声合成装置の構成の一例を示すブロック図編集履歴データ登録判定の一例を示す図編集履歴データ登録判定の一例を示す図編集履歴データ登録判定の一例を示す図編集履歴データ登録判定の一例を示す図編集履歴データ登録の一例を示す図編集履歴データの検索適用の一例を示す図編集履歴データの検索適用の一例を示す図編集履歴データの検索適用の一例を示す図編集履歴データの検索適用の一例を示す図本発明の実施形態１に係る音声合成装置の動作の一例を示すフロー図本発明の実施形態１に係る音声合成装置の動作の一例を示すフロー図本発明の実施形態１に係る音声合成装置の動作の一例を示すフロー図本発明の実施形態２に係る音声合成装置の全体構成の一例を示すブロック図

[実施形態１]
本実施形態１は、ユーザが各自のコンピュータにパッケージ製品をインストールして使用する音声合成ソフトウェアを音声合成装置に適用した例を示している。以下、本発明の実施形態１に係る音声合成装置１００について説明する。

図１は、本発明の実施形態１に係る音声合成装置１００の全体構成を示すブロック図の一例である。図１において、音声合成装置１００は、制御部１１０、編集部１１１、言語処理部１２０、合成音声生成部１３０、合成データ管理部１４０、編集履歴登録更新部１５０、編集履歴検索部１６０、及び編集履歴蓄積部１７０を備える。音声合成装置１００は、インターフェース部１８０を介して、表示装置１９０、入力装置２００、及び音声出力装置２１０と接続されている。入力装置２００は、例えば、マウス、キーボード等の入力デバイスである。

制御部１１０は、音声合成装置１００の動作を制御するモジュールである。インターフェース部１８０は、テキストやそれに対する操作を入力する入力装置１９０や、入力に対するシステムの応答を出力する表示装置２００、合成音声を出力する音声出力装置２１０を制御するモジュールである。

編集部１１１は、テキスト編集部２０１、誤り指摘受付部２０２、テキスト修正部２０３及び出力部２０４を含むモジュールである。テキスト編集部２０１は、ユーザから音声合成の対象となるテキストの入力を受付ける。誤り指摘受付部２０２は、ユーザから合成音声の誤りの箇所を受付ける。テキスト修正部２０３は、音声合成の対象となるテキストを修正する。

言語処理部１２０はテキストを形態素解析し、表音文字列の生成を行うモジュールである。言語処理部１２０は、形態素解析部１２１、表音文字列生成部１２２を含むモジュールである。

合成音声生成部１３０は表音文字列から合成音声を生成するモジュールである。編集途中のテキストやテキストの編集履歴、言語解析結果や表音文字列の結果は合成データ管理部１４０に一次保存され管理されている。

編集履歴登録更新部１５０は、入力テキストの編集状況、形態素解析結果、及び表音文字列をもとに、合成音声の読み、アクセント誤りを修正するために行ったテキスト編集を判定して、編集履歴蓄積部１７０に編集履歴データを登録するモジュールである。編集履歴蓄積部１７０は、編集履歴データ格納部１７１を含む。編集履歴登録更新部１５０は、編集履歴データ判定部１５１、編集履歴データ作成部１５２、及び編集履歴データ登録部１５３を含むモジュールである。

編集履歴検索部１６０は、新たな入力テキストに対して、ユーザが合成音声の不適切な箇所を指摘した際に、その箇所に該当する編集履歴データを編集履歴データ格納部１７１から検索するモジュールである。編集履歴検索部１６０は、編集履歴データ検索部１６１を含むモジュールである。

本発明の実施形態１に係る音声合成装置の構成を示す第１のブロック図を図２に示す。本ブロック図は、編集前のテキストと編集後のテキストから、それが合成音声の読みアクセント誤りを修正するために行ったテキスト編集か否かを判定して、編集履歴として蓄積するための構成を示している。

テキスト編集部２０１は、入力装置２００およびインターフェース部１８０を介して、音声合成の対象となるテキストの入力を、ユーザから受付ける。入力されたテキストは、例えば、表示装置１９０に表示され、ユーザが編集可能にすることができる。テキスト編集部２０１は、テキストの編集指示もユーザから受付けることができる。

形態素解析部１２１は、テキスト編集部２０１による編集前テキストと編集後テキストに対し、それぞれのテキストの形態素解析を行い、編集前テキストの解析結果、編集後テキストの解析結果を得る。表音文字列生成部１２２は、編集前テキストの表音文字列と編集後テキストの表音文字列を得る。

テキストは、形態素解析により、複数の形態素（例えば、単語）に分割される。分割された各単語について、読み、品詞、アクセント情報が生成される。形態素解析の方法として、例えば、ビタビ（Viterbi）アルゴリズムや最長一致法等が挙げられるが、本発明に用いられる形態素解析の方法は、特定のものに限定されない。表音文字列は、テキストの読み方を表す音声合成用の中間表記データである。本実形態における表音文字列の形式は、単なる一例であり、表音文字列の表し方は、これに限られない。

編集履歴データ判定部１５１は、編集前と編集後でテキストの表音文字列が変化していることを判定し、さらに、編集前テキストと編集後テキストとを比較、または編集前テキストと編集後テキストとの形態素解析結果を調べることにより、合成音声の読み、アクセント誤りを修正するために行ったテキスト編集か否かを判定することができる。

編集履歴データ作成部１５２は、編集履歴データ判定部１５１が、テキスト編集が読み、アクセント誤りを修正するために行ったテキスト編集であると判定した場合、当該テキスト編集を編集履歴として登録するための編集履歴データを作成する。編集履歴データ作成部１５２は、例えば、テキスト中で表音文字列が変化している部分の編集内容を示す編集履歴データを生成する。

編集履歴データ登録部１５３は、編集履歴データ作成部１５２が作成した編集履歴データを編集履歴データ格納部１７１に登録する。

本発明の実施形態１に係る音声合成装置の構成を示す第２のブロック図を図３に示す。本ブロック図は、テキスト編集部２０１で、入力テキストにおける読み、アクセントが不適切な箇所をユーザが指摘し、その箇所に該当する編集履歴を編集履歴データベースから検索して、適用する構成を示している。

ユーザがテキスト編集部２０１からテキストを入力すると形態素解析部１２１は、入力テキストの形態素解析を行い、解析結果を得る。なお、この形態素解析の結果の各単語に対して下線を付して表示してもよい。これにより、ユーザは、テキストの形態素解析結果の各単語を容易に区別することができる。

更に、表音文字列生成部１２２は入力されたテキストの表音文字列を生成する。表音文字列が出力部２０４で出力され、出力された入力テキストの中で不適切な箇所の指摘を誤り指摘受付部２０２から受付ける。出力部２０４は、表音文字列から合成した、合成音声を出力してもよい。これにより、ユーザは、合成音声が適切か否かを正確に判断することができる。

次に、編集履歴データ検索部１６１は、入力テキスト、入力テキストの解析結果、及び誤り指摘箇所をもとに、編集履歴データ格納部１７１を検索する。

次に、テキスト修正部２０３は、編集履歴データ検索部１６１の検索の結果、該当する編集履歴データがある場合には、テキストを修正し、修正済みテキストはテキスト編集部２０１に返される。

以下、合成音声の読み、アクセント誤りを修正するためのテキスト編集の判定方法の具体例について説明する。合成音声の読み、アクセント誤りを修正するためのテキスト編集には、（１）送り仮名の挿入または削除、（２）ひらがなと漢字との間の置換、（３）振り仮名の付与、（４）読点か空白の挿入、等が考えられる。編集履歴データ判定部１５１において、テキスト編集がこれらの合成音声の読み、アクセント誤りを修正するための所定の編集か否かを判定し、編集履歴データ作成部１５２で編集履歴として登録するデータを作成する例を、図４〜７に示す。

図４は、（１）送り仮名の挿入または削除の例を示す図である。入力テキストが「これはお好み焼です。」のとき、ユーザはその合成音声を聞くと「お好み焼」を「おこのみしょー」と誤読しているとわかる。また、入力テキストを「これはお好み焼きです。」に変更する（送り仮名の「き」を挿入する）と正しい読みになるので、ユーザはこれを採用する。

このとき、「これはお好み焼です。」の表音文字列は「コレハオコノミ’ショーデス．」と誤っているが、「これはお好み焼きです。」の表音文字列は「コレハオコノミヤキデ’ス．」となり正しい（この表音文字列は必ずしもユーザに表示されない）。これは形態素解析で用いる単語辞書の中に、「お好み焼き」は登録されているが、「お好み焼」は登録されていないために、「お好み焼」の場合には「焼」が未知語と判定され、形態素解析誤りが生じたのが原因である。

この例では、編集前のテキストの解析結果である普通名詞「お好み」と未知語「焼」とに対応する部分が、編集後の解析結果である普通名詞「お好み焼き」になっており、編集前の表音文字列は、「コレハオコノミ’ショーデス．」であるが、編集後の表音文字列は、「コレハオコノミヤキデ’ス．」と変化している。そして、編集前後のテキストを比較すると、漢字の「焼」の直後に、ひらがな「き」が挿入されているので、（１）の送り仮名の挿入または削除であると判定することができる。また、その編集の結果、表音文字列が変化し、その合成音声をユーザが採用したので、合成音声の読み、アクセント誤りを修正するためのテキストの変更であったと判断できる。

すなわち、未知語が普通名詞になること、表音文字列が変化していること、及び漢字の後にひらがなが挿入されていることを条件として、これら３つの条件が満たされているか否かを判定することによって、読み、アクセント誤りの編集か否か判断される。また、このとき、編集前テキストの形態素解析結果において、「焼」は未知語と解析されている。以上から編集履歴データは、
インデックス：「焼」
適用条件：「焼」が未知語と解析されたとき
修正の種類：送り仮名の挿入
挿入する文字列：「き」
というものになる。なお、本例のように、表音文字列が変化した箇所であり、かつ編集前に未知語であった箇所をインデックスとすることができる。インデックスは、編集履歴データを検索する際にキーとなる。またこの編集履歴を登録するときには、この修正方法が１回使われたということを示すように、適用回数「１」を設定する。

図５は、（２）ひらがなと漢字との間の置換の例を示す図である。入力テキスト「ただいま、時間外です。」のとき、ユーザはその合成音声を聞いて、「ただいま」のアクセントが間違っていることに気づく。また、入力テキストを「只今、時間外です。」に変更すると、アクセントが正しくなるので、ユーザはこれを採用する。

このとき、「ただいま、」の表音文字列は「タダイマ，…」でありアクセントが間違っているが、これは「ただいま」が感動詞（つまり挨拶の「ただいま」）と解析されたためである。「只今、時間外です。」の表音文字列は「タダ’イマ，…」となっており正しい。

これは、形態素解析に用いる単語辞書に「ただいま」は感動詞、「只今」は普通名詞として登録されているためで、アクセントはそれぞれ0型（タダイマ）、2型（タダ’イマ）と登録されている。ユーザが「ただいま」を「只今」に変更するテキスト修正をしたとき、「ただいま」と「只今」は読みが同じくアクセントが違う単語であることは、単語辞書を参照して容易に分かることである。

編集前のテキストの解析結果である感動詞「ただいま」が、編集後の解析結果である普通名詞「只今」になっており、編集前の表音文字列は、「タダイマ，…」であるが、編集後の表音文字列は、「タダ’イマ，…」と変化している。そして、編集前後のテキストを比較すると、「ただいま」というひらがなが、「只今」という漢字になっているので、（２）のひらがなと漢字との間の置換に該当すると判定できる。また、その編集の結果、表音文字列が変化し、その合成音声をユーザが採用したので、合成音声の読み、アクセント誤りを修正するためのテキストの変更であったと判断できる。

すなわち、表音文字列が変化していること、及びひらがなが漢字に置換されたことを条件として、これら２つの条件がみたされているか否かを判定することによって、読み、アクセント誤りの編集か否か判断される。以上から編集履歴データは、
インデックス：「ただいま」
適用条件：「ただいま」が感動詞と解析されたとき
修正の種類：ひらがなと漢字との間の置換
置換する文字列：「只今」
というものである。またこの編集履歴を登録するときには、この修正方法が１回使われたということを示すように、適用回数「１」を設定する。

図６は、（３）振り仮名の付与の例を示す図である。入力テキストは、図４と同様の「これはお好み焼です。」であり、「お好み焼」を「おこのみしょー」と誤読している。ここで、入力テキストにおいて、「焼」の部分に「やき」という振り仮名を付与すると読みが正しくなるので、ユーザはこれを採用する。

「これはお好み焼です。」の表音文字列は「コレハオコノミ’ショーデス．」であるが、入力テキストにおいて「焼」の部分に「やき」という振り仮名を付与すると、表音文字列生成部はこれを参照して「コレハオコノミヤキデ’ス．」という正しい読みを生成することが可能である。

編集前の表音文字列は、「コレハオコノミ’ショーデス．」であるが、編集後の表音文字列は、「コレハオコノミヤキデ’ス．」と変化している。そして、編集前後のテキストを比較すると、「お好み焼」の「焼」に「やき」という振り仮名が付与されているので、（３）振り仮名の付与であると判定することができる。また、その編集の結果、表音文字列が変化し、その合成音声をユーザが採用したので、合成音声の読み、アクセント誤りを修正するためのテキストの変更であったと判断できる。

すなわち、表音文字列が変化したこと、及び表音文字列が変化した箇所に振り仮名が付与されていることを条件として、これら２つの条件が満たされているか否かを判定することによって、読み、アクセント誤りの編集か否か判断される。このとき編集履歴データは、
インデックス：「焼」
適用条件：「焼」が未知語と解析されたとき
修正の種類：振り仮名の付与
送り仮名：「やき」
というものである。またこの編集履歴を登録するときには、この修正方法が１回使われたということを示すように、適用回数「１」を設定する。

図７は、（４）読点か空白の挿入の例を示す図である。入力テキストが「現在企業における…」のとき、「現在企業」はひと続きに読まれ不自然である。このとき「現在」のあとに読点を挿入することで、自然な読みになるので、ユーザはこれを採用する。

「現在企業における…」の表音文字列は「ゲンザイキ’ギョーニオケル…」であり、「現在」と「企業」がアクセント結合してひとつのアクセント句になっており、不適当であることが分かる。ここで、アクセント句とは日本語において一個のアクセントのまとまりを形成する語句の単位であり、個々のアクセントを持つ複数の単語が連結して一個のアクセント句を形成することをアクセント結合という。
これは「現在企業」が「現在時刻」や「現在地点」のような複合単語であると判断された結果である。一方、入力テキストを「現在、企業における…」にすれば、表音文字列は「ゲ’ンザイ，キ’ギョーニオケル…」となり二つのアクセント句に分かれる。

編集前の表音文字列は、「ゲンザイキ’ギョーニオケル…」であるが、編集後の表音文字列は、「ゲ’ンザイ，キ’ギョーニオケル…」と変化している。そして、編集前後のテキストを比較すると、「現在」の直後に、読点「、」が挿入されているので、（４）読点か空白の挿入であると判定することができる。また、その編集の結果、表音文字列が変化し、その合成音声をユーザが採用したので、合成音声の読み、アクセント誤りを修正するためのテキストの変更であったと判断できる。

すなわち、読点が挿入されていること、及び読点前の形態素の表音文字列が変化していることを条件として、これら２つの条件が満たされているか否かを判定することによって、読み、アクセント誤りの編集か否かが判断される。このとき編集履歴データは、
インデックス：「現在」
適用条件：「現在」が普通名詞と解析されたとき
修正の種類：読点か空白の挿入
挿入する文字列：「、」
というものである。またこの編集履歴を登録するときには、この修正方法が１回使われたということを示すように、適用回数「１」を設定する。

編集履歴データ判定部１５１は、合成音声の読み、又はアクセントを修正するために実施したテキスト編集であるか否かの判定を、送り仮名の挿入もしくは削除、仮名から漢字への変換、漢字から仮名への変換、振り仮名の付与、句読点か空白の挿入もしくは削除のいずれかであるか否かを判定することによって行うことができる。

図８は、編集履歴データの登録例を示す。図４〜７に示した編集履歴データ登録判定の例にしたがえば、本図に示すような編集履歴データベースが構築される。すなわち、インデックス「焼」の場合、品詞「未知語」、修正の種類「送り仮名の挿入」、挿入文字列「き」、適用回数「１」が登録される。インデックス「焼」の場合、品詞「未知語」、修正の種類「ふりがなの付与」、振り仮名「やき」、適用回数「１」が登録される。インデックス「ただいま」の場合、品詞「感動詞」、修正の種類「ひらがなと漢字との間の置換」、変更後文字列「只今」、適用回数「１」が登録される。また、インデックス「現在」の場合、品詞「名詞」、修正の種類「読点か空白の挿入」、挿入文字列「、」、適用回数「１」が登録される。

図９Ａ〜図９Ｄは、合成テキストに対して編集履歴データベースを検索してテキストを修正する例を示す図である。以下、図９Ａ〜図９Ｄに従って説明する。

入力テキスト「ただいま、タコ焼ができました。」を合成した音声をユーザが聞くと、まず「タコ焼」の読みが「たこしょー」となっており誤読であることが分かる。

不適切な箇所として「焼」の部分をユーザが指摘すると、編集履歴データベースの中から「焼」の文字を検索キーとして、「焼」に「やき」という振り仮名を付与する編集履歴データを検索してくる。この編集履歴をそのまま採用してもよいが、ユーザが他の修正方法を検索すると、「焼」のあとに振り仮名「き」を付与する編集履歴データが検索される。ユーザがこの編集履歴を採用すれば、テキストは「ただいま、タコ焼きができました。」となり、合成音声を聴取してこの部分の読みが正しくなっていることが確認される。

ユーザが他の部分の修正に移る、又は文章全体を正しいと判定すると、先ほど採用した「焼」のあとに「き」を挿入するという編集が確定され、その編集履歴データの適用回数が加算されて更新される。

編集履歴データ格納部１７１に格納された各編集履歴データは、再編集に適用された適用回数をカウントする機能を有しており、編集履歴データ検索部１６１は、適用回数が多い編集履歴データを優先して検索し、編集履歴データ格納部１７１は、編集履歴データ検索部１６１が検索した編集履歴データが再編集に適用された際に、適用回数を更新することができる。

このように適用回数を保存しておくことで、「焼」のように、送り仮名の挿入と振り仮名の付与等の複数の修正方法がある場合には、編集履歴データの検索の際に適用回数が多いものを優先して検索することができ、検索の効率化を図ることができる。

更に、ユーザが「ただいま」の部分のアクセントの不適切な箇所を指摘すると、編集履歴データベースの中から「ただいま」の文字列を検索キーとして、「ただいま」を「只今」に置換する編集履歴データが検索される。これを採用することで、「只今、タコ焼きができました。」というテキストが生成され、正しいアクセントになる。ここでユーザが正しいと判定すると、いま採用した「ただいま」を「只今」に変換するという編集が確定され、編集履歴データの適用回数が加算されて更新される。

本実施形態においては、編集履歴データベースに登録、検索される編集履歴はユーザ自身によるものであり、テキストの編集方法が分からない場合にデータベースを参照するというよりも、過去に自身が実施した編集方法を、同様な編集が必要な新たなテキストに適用することにより、編集作業を効率化するというメリットがある。

テキスト編集部が編集した編集テキストの合成音声を出力する音声出力部と、音声出力部が出力した合成音声の読み、又はアクセントに誤りがある場合に、編集テキストに対して、合成音声の読み、アクセントの誤りの指摘をユーザから受付ける誤り指摘受付部と、誤り指摘受付部が受付けた編集テキストに対する合成音声の読み、アクセントの誤りの指摘箇所について、当該合成音声の読み、又はアクセントを修正するために実施すべきテキスト編集の編集内容を示す編集履歴データを、編集履歴データ格納部から検索して取得する編集履歴データ検索部とを備えることにより、テキスト編集部は、編集履歴データ検索部が検索して取得した編集履歴データを用いて、編集テキストを再編集することができる。

これにより、不慣れなユーザでもテキストの編集による合成音声の修正を簡単に行うことが可能になり、また、音声合成装置に慣れたユーザであっても、修正したい箇所を指摘するだけでテキストを編集するという効率的な操作が可能になる。

以下に示す例では、合成音声の読みアクセント誤りを修正するために行った所定のテキスト編集を判定し、編集履歴として蓄積する処理と、合成音声に読み、アクセント誤りがある箇所に編集履歴を検索して修正する処理とが、ひとつの実施形態で機能する場合を示している。図１０Ａ〜図１０Ｃは、本発明の実施形態１における処理の流れを示すフロー図である。以下、図１０Ａ〜図１０Ｃのフロー図に従って説明する。

まず、合成テキスト編集領域が初期化され（ステップＳ１００１）、ユーザのテキスト編集が開始される。ユーザのテキスト編集は適当なタイミングでシステムに監視されている。編集履歴データ判定部１５１は、ユーザがテキストを編集したか否かを判定する（ステップＳ１００２）。

次に、編集履歴データ判定部１５１は、ユーザが行ったテキスト編集が、（１）〜（４）に記述した所定のテキスト編集、すなわち、合成音声の読みアクセント誤りを修正するために行う可能性のあるテキスト編集であるか否かを判定する（ステップＳ１００３）。

ステップＳ１００３において、合成音声の読みアクセント誤りを修正するために行う可能性のあるテキスト編集であった場合には、編集履歴データの言語処理を行って表音文字列を生成し、表音文字列の変化があった場合には、編集履歴データ作成部１５２はそのテキスト編集内容の編集履歴データを作成し、編集履歴データ登録部１５３は、当該編集履歴データを一時的に記憶しておく（ステップＳ１００４→Ｓ１００５→Ｓ１００６）。

一方、編集履歴データ検索部１６１は、ユーザから合成音声の不適切な箇所をテキスト上で指摘を受付けたか否かを判定する（ステップＳ１００７）。

ステップＳ１００７において、ユーザから合成音声の不適切な箇所をテキスト上で指摘を受付けた場合には、入力テキストの言語処理を行ったうえで（ステップＳ１００８）、編集履歴データ検索部１６１は、編集履歴データ格納部１７１の中に指摘箇所に該当する編集履歴データがあるか検索する。なお、不適切な箇所の指摘は、下線が付された不適切な単語を指摘することによって行われてもよい。このとき、編集履歴データ検索部１６１は、編集履歴データ格納部１７１の中に当該指摘箇所への適用をすべき変更履歴データがあるか否か判定する（ステップＳ１００９）。

ステップＳ１００９において、適用すべき編集履歴データがない場合には、編集履歴データ検索部１６１は、その旨を表示してテキスト編集に戻る（ステップＳ１０１０）。一方、ステップＳ１００９において、適用すべき編集履歴データがある場合には、編集履歴データ検索部１６１は、ユーザにそれを適用するかどうかの判定を仰ぎ、適用する編集履歴データが決定するまで検索を繰り返す（ステップＳ１０１１〜Ｓ１０１３）。編集履歴データ検索部１６１は、適用が決まれば、その編集履歴データを一時的に記憶する（ステップＳ１０１４）。

また、ユーザが合成音声を確認するために、音声合成の実行を指示した場合には、言語処理、合成音声の生成、合成音声の出力を行い、ユーザへの確認を促す（ステップＳ１０１５〜Ｓ１０１８）。

ユーザが直前に修正した箇所以外の編集に移った場合や、合成全体について問題なしと判断した場合には、編集履歴データ登録部１５３は、該当箇所の修正は正しいと判断できるので、それまでに行われたテキストの修正や履歴データの適用（一時的に記憶してあるもの）は適切なものと判断し、編集履歴データベースへの登録や更新を行う（ステップＳ１０１９→Ｓ１０２０）。

すなわち、編集履歴データ登録部１５３は、テキスト編集によるものであれば新規に編集履歴データベースに登録する（ステップＳ１０２１）。また、編集履歴データ登録部１５３は、既存の履歴データの適用であればその適用回数に「１」を加算して更新する（ステップＳ１０２２）。こうして、合成音声全体にわたってユーザが正しいとするまで本処理が繰り返される（ステップＳ１０２３）。

以上説明したように、本発明によれば、ユーザ自身が過去に行った入力テキストの所定の編集履歴を蓄積しておき、新たな入力テキストの音声合成を行う際に、編集履歴を検索して適用することで、適切なテキストの修正をエンドユーザが理解しやすい入力テキストのレベルで、簡便に行えるようにすることができる。
［実施形態２］
近年ソフトウェアの提供形態として、ＳａａＳ（Ｓｏｆｔｗａｒｅａｓａｓｅｒｖｉｃｅ）型サービスが広まりつつある。従来は、ソフトウェアをパッケージ製品としてユーザにライセンス販売し、ユーザが各自のコンピュータで稼動させるという形態が中心的であった。これに対し、ＳａａＳ型サービスでは、ソフトウェアを提供者側のサーバで稼動させ、ユーザはそのソフトウェアをネットワーク経由のサービスとして利用し、そのサービス料を提供者側に支払う。

この形態を用いて、音声合成においてもＳａａＳ型音声合成サービスを用いることが考えられる。つまり、ユーザはネットワークを介してサーバ上の音声合成ソフトウェアを利用する。そのため、エンドユーザが気軽に音声合成ソフトウェアを利用し、テキストを音声に変換したり、提供される編集機能を利用して好みの合成音声に調整したりすることが可能になる。

本実施形態２は、ＳａａＳ型音声合成サービスの例であり、音声合成サーバが、音声合成ソフトウェアに従って動作している例である。ユーザは各自のユーザ端末３００、３１０、・・３Ｎ０を用いて、ネットワークを介して音声合成サービスを利用する。ユーザ端末側には音声合成サーバに対するデータを送受信して表示するためのブラウザが用意されている。図１１に示す音声合成サーバ５００（音声合成装置）において、図１と同じ機能ブロック（モジュール）には、同じ番号を付す。

本実施形態では、各ユーザ端末とのデータの送受信はブラウザに対応する形式（例えば、ＨＴＭＬ、ＸＭＬなど）で実施される。音声合成サーバ５００は、送信データ作成部４００、受信データ解析部４１０及びデータ送受信部４２０を更に備える。

送信データ作成部４００は、音声合成サーバ５００の内部で処理されているデータをユーザ端末への送信データに変換する。受信データ解析部４１０は、ユーザ端末から受信したデータを音声合成サーバ５００の内部で処理されているデータに変換する。また、データ送受信部４２０は、これらのデータをユーザ端末に送受信する。

データ送受信部４２０は、ユーザ端末の編集部（ブラウザ）で入力された入力テキストデータ、誤り指摘データをユーザ端末から受信する。受信データ解析部４１０は、データ送受信部４２０で受信した入力テキストデータ、誤り指摘データを音声合成サーバ１００の内部で処理されているデータに変換する。

編集履歴蓄積部１７０は、変換された入力テキストデータに基づいて、編集部１１１で実施した編集内容を示す編集履歴データを蓄積する。

また、編集部１１１は、ユーザ端末からテキストデータの入力があると、テキストデータの表音文字列または合成音声データを生成して、ユーザ端末に対して出力する。このときに、送信データ作成部４００は、表音文字列または合成音声を、ユーザ端末への送信データに変換する。ユーザ端末は、誤り指摘を受付け、誤り指摘データを音声合成サーバに送信する。編集部１１１は、誤り指摘データに基づいて、編集履歴蓄積部１７０に蓄積された編集履歴データを参照して、ユーザ端末の編集部で入力された入力テキストデータを再編集する。送信データ作成部４００は、音声合成サーバ５００で再編集された再編集済みのテキストデータをユーザ端末への送信データに変換する。データ送受信部４２０は、送信データ作成部４００で作成された送信データをユーザ端末に送信する。

本実施形態２では、他のユーザの編集履歴データが蓄積され検索できる状態にあるので、不慣れなユーザでも、他のユーザの編集履歴を活用することで、テキストの編集による合成音声の修正を簡単に行うことが可能である。また、音声合成装置に慣れたユーザであっても、修正したい箇所を指摘するだけで編集することが可能なので、編集作業を効率的に行えるというメリットがある。

以上説明したように、本発明によれば、ＳａａＳ型音声合成サービスのようにサーバ上に置かれたソフトウェアであって、他のユーザの編集履歴が蓄積され検索できる枠組みがあれば、不慣れなユーザでもテキストの編集による合成音声の修正を簡単に行うことが可能である。また、入力テキストによる合成音声の調整を効果的に行うことができる。

上記実施形態で説明した構成は、単に具体例を示すものであり、本発明の技術的範囲を制限するものではない。本発明の効果を奏する範囲において、任意の構成を採用することが可能である。

なお、音声合成サーバの構成は上記例に限られない。例えば、音声合成サーバ１００が備える機能の一部をユーザ端末または他のサーバが備える構成としてもよい。

本発明の実施形態は、上述した実施形態を実現するソフトウェアのプログラム（実施の形態では図に示すフロー図に対応したプログラム）が装置に供給され、その装置のコンピュータが、供給されたプログラムを読出して、実行することによっても達成せれる場合を含む。したがって、本実施形態で説明した機能処理をコンピュータで実現するために、コンピュータにインストールされるプログラム自体も本発明の一実施形態である。つまり、本発明の機能処理を実現させるためのプログラムも、実施形態の一側面に含まれる。また、本発明の機能処理を実現させるためのプログラムを記録した媒体も、実施形態の一側面に含まれる。

１００音声合成装置
１１０制御部
１１１編集部
１２０言語処理部
１２１形態素解析部
１２２表音文字列生成部
１３０合成音声生成部
１４０合成データ管理部
１５０編集履歴登録更新部
１５１編集履歴データ判定部
１５２編集履歴データ作成部
１５３編集履歴データ登録部
１６０編集履歴検索部
１７０編集履歴蓄積部
１７１編集履歴データ格納部
１８０インターフェース部
１９０表示装置
２００入力装置
２０１テキスト編集部
２０２誤り指摘受付部
２０３テキスト修正部
２１０音声出力装置
４００送信データ作成部
４１０受信データ解析部
４２０データ送受信部
５００音声合成サーバ

Claims

音声合成の対象となるテキストを編集するテキスト編集部と、
編集前後のテキストに対して、形態素解析、及び表音文字列生成を行う言語処理部と、
編集前後のテキストそれぞれについての形態素解析結果、及び生成された表音文字列のうち、少なくとも表音文字列に基づいて、合成音声の読み、又はアクセントを修正するために実施したテキスト編集であるか否かを判定するテキスト編集判定部と、
前記テキスト編集判定部が合成音声の読み、又はアクセントを修正するために実施したテキスト編集であると判定した場合に、当該テキスト編集の編集内容を示す編集履歴データを作成する編集履歴データ作成部と、
前記編集履歴データ作成部が作成した編集履歴データの登録があったときに、当該編集履歴データを格納する編集履歴データ格納部とを備える、音声合成装置。
前記テキスト編集部が編集した編集テキストの表音文字列、又は合成音声を出力する出力部と、
前記出力部が出力した表音文字列、又は合成音声の読み、又はアクセントに誤りがある場合に、前記編集テキストに対して、合成音声の読み、アクセントの誤りの指摘をユーザから受付ける誤り指摘受付部と、
前記誤り指摘受付部が受付けた前記編集テキストに対する合成音声の読み、アクセントの誤りの指摘箇所について、当該合成音声の読み、又はアクセントを修正するために実施すべきテキスト編集の編集内容を示す編集履歴データを、前記編集履歴データ格納部から検索して取得する編集履歴データ検索部とを更に備え、
前記テキスト編集部は、
前記編集履歴データ検索部が検索して取得した編集履歴データを用いて、前記編集テキストを再編集する、請求項１に記載の音声合成装置。
前記編集履歴データ格納部に格納された各編集履歴データは、再編集に適用された適用回数をカウントする機能を有しており、
前記編集履歴データ検索部は、
前記適用回数が多い編集履歴データを優先して検索し、
前記編集履歴データ格納部は、
前記編集履歴データ検索部が検索した編集履歴データが再編集に適用された際に、前記適用回数を更新する、請求項２に記載の音声合成装置。
テキスト編集判定部は、合成音声の読み、又はアクセントを修正するために実施したテキスト編集であるか否かの判定を、送り仮名の挿入もしくは削除、ひらがなと漢字との間の置換、振り仮名の付与、読点か空白の挿入もしくは削除の少なくともいずれかであることを判定することによって行う、請求項１〜３のいずれかに記載の音声合成装置。
音声合成の対象となるテキストを編集するテキスト編集ステップと、
編集前後のテキストに対して、形態素解析、及び表音文字列生成を行う言語処理ステップと、
編集前後のテキストそれぞれについての形態素解析結果、及び生成された表音文字列のうち、少なくとも表音文字列に基づいて、合成音声の読み、又はアクセントを修正するために実施したテキスト編集であるか否かを判定するテキスト編集判定ステップと、
前記テキスト編集判定ステップで合成音声の読み、又はアクセントを修正するために実施したテキスト編集であると判定した場合に、当該テキスト編集の編集内容を示す編集履歴データを作成する編集履歴データ作成ステップと、
前記編集履歴データ作成ステップで作成した編集履歴データの登録があったときに、当該編集履歴データを格納する編集履歴データ格納ステップとを含む、音声合成方法。
コンピュータに、
音声合成の対象となるテキストを編集するテキスト編集ステップと、
編集前後のテキストに対して、形態素解析、及び表音文字列生成を行う言語処理ステップと、
編集前後のテキストそれぞれについての形態素解析結果、及び生成された表音文字列のうち、少なくとも表音文字列に基づいて、合成音声の読み、又はアクセントを修正するために実施したテキスト編集であるか否かを判定するテキスト編集判定ステップと、
前記テキスト編集判定ステップで合成音声の読み、又はアクセントを修正するために実施したテキスト編集であると判定した場合に、当該テキスト編集の編集内容を示す編集履歴データを作成する編集履歴データ作成ステップと、
前記編集履歴データ作成ステップで作成した編集履歴データの登録があったときに、当該編集履歴データを格納する編集履歴データ格納ステップとを実行させる、音声合成プログラム。