JP5423466B2 - 音声合成装置、音声合成方法、及び音声合成プログラム - Google Patents

音声合成装置、音声合成方法、及び音声合成プログラム Download PDF

Info

Publication number
JP5423466B2
JP5423466B2 JP2010035067A JP2010035067A JP5423466B2 JP 5423466 B2 JP5423466 B2 JP 5423466B2 JP 2010035067 A JP2010035067 A JP 2010035067A JP 2010035067 A JP2010035067 A JP 2010035067A JP 5423466 B2 JP5423466 B2 JP 5423466B2
Authority
JP
Japan
Prior art keywords
editing
text
history data
unit
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010035067A
Other languages
English (en)
Other versions
JP2011170191A (ja
Inventor
伸之 片江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2010035067A priority Critical patent/JP5423466B2/ja
Publication of JP2011170191A publication Critical patent/JP2011170191A/ja
Application granted granted Critical
Publication of JP5423466B2 publication Critical patent/JP5423466B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、入力テキストから合成音声を生成する音声合成に関する。
音声合成装置や音声合成プログラムは、我々が普段使っている漢字かな混じりテキストの入力から音声を合成する。その際、言語処理部が単語辞書を参照しながら入力テキストを形態素解析し、入力テキストを構成する単語(または形態素)を特定する。さらに、言語処理部が特定した単語の読みやアクセントが単語辞書から得られる。日本語のアクセントは、日本語の各音に割り振られた「高低」の配置であり、音声の了解性や自然性を確保するうえで必須のものである。各形態素の読みやアクセントが連結され、適宜アクセントの変形処理や、フレーズやポーズなどの境界を設定する処理が行われることによって、入力テキストに対する表音文字列が生成される。表音文字列は、テキストの読み方を表す文字列であり、一般的に、読みを表すカタカナ、アクセントを示す記号、フレーズやポーズの境界を示す記号を含む。
任意の日本語テキストは非常に多様なため、現在の言語処理部では100%の精度で解析ができるわけではない。言語処理部において読みやアクセントの誤りが起こる場合には、言語処理部の出力である表音文字列をマニュアルで修正するのが一般的である。前述したように、表音文字列において読みはカタカナで表記されることが多く、これは我々が普段使っている振り仮名に類似している。しかし、長音を「ー」で示したり(例えば「東京」は「トーキョー」と表す)、助詞の「は」「を」「へ」をそれぞれ「ワ」「オ」「エ」で示したり、アクセントがある箇所にアクセント記号を示したりするなど、表音文字列を修正するには、その仕様を十分に理解して慣れる必要があり、一般ユーザにとって容易に修正できるものではない。
エンドユーザにとって、前述したような表音文字列の修正はハードルが高いものである。一方で、表音文字列での読みやアクセントが正しくなるように、入力するテキストの方を修正することも可能である。入力テキストは我々が普段使っている漢字かな混じりテキストであるため、その修正は表音文字列の修正に比べて分かりやすく、エンドユーザにとっても負担が少ないと考えられる。ただし、入力テキストをどのように修正すれば合成音声が正しくなるか直感的に分かりにくい場合もある。また、入力テキストを修正するノウハウを習得したあとでも、様々なテキストに含まれる同じような修正を、入力テキストが変わるたびに毎回行うのは手間がかかり煩雑である。
例えば、合成音声の韻律(ピッチパターン、音素長、パワーなど)を編集する際に、その過去の韻律修正情報を保持しておき、その後の韻律情報の生成において、保持されている韻律修正情報を用いて、合成音声を生成する方法が開示されている(例えば、特許文献1、特許文献2参照)。
特開2004−309724号公報 特開2005−345699号公報
しかし、合成音声の韻律の編集は難易度が高く、簡単に最低限の修正がしたいというエンドユーザにとっては不適切である。
そこで、本発明では、音声合成用のテキストの修正をエンドユーザが理解しやすい入力テキストのレベルで、簡便に行えるようにすることを目的とする。
上記の目的を達成するために、以下に開示する音声合成装置は、音声合成の対象となるテキストを編集するテキスト編集部と、編集前後のテキストに対して、形態素解析、及び表音文字列生成を行う言語処理部と、編集前後のテキストそれぞれについての形態素解析結果、及び生成された表音文字列のうち、少なくとも表音文字列に基づいて、合成音声の読み、又はアクセントを修正するために実施したテキスト編集であるか否かを判定するテキスト編集判定部と、前記テキスト編集判定部が合成音声の読み、又はアクセントを修正するために実施したテキスト編集であると判定した場合に、当該テキスト編集の編集内容を示す編集履歴データを作成する編集履歴データ作成部と、編集履歴データ作成部が作成した編集履歴データの登録があったときに、当該編集履歴データを格納する編集履歴データ格納部とを備える。

また、前記テキスト編集部が編集した編集テキストの表音文字列、又は合成音声を出力する出力部と、前記出力部が出力した表音文字列、又は合成音声の読み、又はアクセントに誤りがある場合に、前記編集テキストに対して、合成音声の読み、アクセントの誤りの指摘をユーザから受付ける誤り指摘受付部と、前記誤り指摘受付部が受付けた前記編集テキストに対する合成音声の読み、アクセントの誤りの指摘箇所について、当該合成音声の読み、又はアクセントを修正するために実施すべきテキスト編集の編集内容を示す編集履歴データを、前記編集履歴データ格納部から検索して取得する編集履歴データ検索部とを更に備え、前記テキスト編集部は、前記編集履歴データ検索部が検索して取得した編集履歴データを用いて、前記編集テキストを再編集する。
上記の構成によれば、音声合成用のテキストの修正をエンドユーザが理解しやすい入力テキストのレベルで、簡便に行えるようにすることができる。
本発明の実施形態1に係る音声合成装置の全体構成の一例を示すブロック図 本発明の実施形態1に係る音声合成装置の構成の一例を示すブロック図 本発明の実施形態1に係る音声合成装置の構成の一例を示すブロック図 編集履歴データ登録判定の一例を示す図 編集履歴データ登録判定の一例を示す図 編集履歴データ登録判定の一例を示す図 編集履歴データ登録判定の一例を示す図 編集履歴データ登録の一例を示す図 編集履歴データの検索適用の一例を示す図 編集履歴データの検索適用の一例を示す図 編集履歴データの検索適用の一例を示す図 編集履歴データの検索適用の一例を示す図 本発明の実施形態1に係る音声合成装置の動作の一例を示すフロー図 本発明の実施形態1に係る音声合成装置の動作の一例を示すフロー図 本発明の実施形態1に係る音声合成装置の動作の一例を示すフロー図 本発明の実施形態2に係る音声合成装置の全体構成の一例を示すブロック図
[実施形態1]
本実施形態1は、ユーザが各自のコンピュータにパッケージ製品をインストールして使用する音声合成ソフトウェアを音声合成装置に適用した例を示している。以下、本発明の実施形態1に係る音声合成装置100について説明する。
図1は、本発明の実施形態1に係る音声合成装置100の全体構成を示すブロック図の一例である。図1において、音声合成装置100は、制御部110、編集部111、言語処理部120、合成音声生成部130、合成データ管理部140、編集履歴登録更新部150、編集履歴検索部160、及び編集履歴蓄積部170を備える。音声合成装置100は、インターフェース部180を介して、表示装置190、入力装置200、及び音声出力装置210と接続されている。入力装置200は、例えば、マウス、キーボード等の入力デバイスである。
制御部110は、音声合成装置100の動作を制御するモジュールである。インターフェース部180は、テキストやそれに対する操作を入力する入力装置190や、入力に対するシステムの応答を出力する表示装置200、合成音声を出力する音声出力装置210を制御するモジュールである。
編集部111は、テキスト編集部201、誤り指摘受付部202、テキスト修正部203及び出力部204を含むモジュールである。テキスト編集部201は、ユーザから音声合成の対象となるテキストの入力を受付ける。誤り指摘受付部202は、ユーザから合成音声の誤りの箇所を受付ける。テキスト修正部203は、音声合成の対象となるテキストを修正する。
言語処理部120はテキストを形態素解析し、表音文字列の生成を行うモジュールである。言語処理部120は、形態素解析部121、表音文字列生成部122を含むモジュールである。
合成音声生成部130は表音文字列から合成音声を生成するモジュールである。編集途中のテキストやテキストの編集履歴、言語解析結果や表音文字列の結果は合成データ管理部140に一次保存され管理されている。
編集履歴登録更新部150は、入力テキストの編集状況、形態素解析結果、及び表音文字列をもとに、合成音声の読み、アクセント誤りを修正するために行ったテキスト編集を判定して、編集履歴蓄積部170に編集履歴データを登録するモジュールである。編集履歴蓄積部170は、編集履歴データ格納部171を含む。編集履歴登録更新部150は、編集履歴データ判定部151、編集履歴データ作成部152、及び編集履歴データ登録部153を含むモジュールである。
編集履歴検索部160は、新たな入力テキストに対して、ユーザが合成音声の不適切な箇所を指摘した際に、その箇所に該当する編集履歴データを編集履歴データ格納部171から検索するモジュールである。編集履歴検索部160は、編集履歴データ検索部161を含むモジュールである。
本発明の実施形態1に係る音声合成装置の構成を示す第1のブロック図を図2に示す。本ブロック図は、編集前のテキストと編集後のテキストから、それが合成音声の読みアクセント誤りを修正するために行ったテキスト編集か否かを判定して、編集履歴として蓄積するための構成を示している。
テキスト編集部201は、入力装置200およびインターフェース部180を介して、音声合成の対象となるテキストの入力を、ユーザから受付ける。入力されたテキストは、例えば、表示装置190に表示され、ユーザが編集可能にすることができる。テキスト編集部201は、テキストの編集指示もユーザから受付けることができる。
形態素解析部121は、テキスト編集部201による編集前テキストと編集後テキストに対し、それぞれのテキストの形態素解析を行い、編集前テキストの解析結果、編集後テキストの解析結果を得る。表音文字列生成部122は、編集前テキストの表音文字列と編集後テキストの表音文字列を得る。
テキストは、形態素解析により、複数の形態素(例えば、単語)に分割される。分割された各単語について、読み、品詞、アクセント情報が生成される。形態素解析の方法として、例えば、ビタビ(Viterbi)アルゴリズムや最長一致法等が挙げられるが、本発明に用いられる形態素解析の方法は、特定のものに限定されない。表音文字列は、テキストの読み方を表す音声合成用の中間表記データである。本実形態における表音文字列の形式は、単なる一例であり、表音文字列の表し方は、これに限られない。
編集履歴データ判定部151は、編集前と編集後でテキストの表音文字列が変化していることを判定し、さらに、編集前テキストと編集後テキストとを比較、または編集前テキストと編集後テキストとの形態素解析結果を調べることにより、合成音声の読み、アクセント誤りを修正するために行ったテキスト編集か否かを判定することができる。
編集履歴データ作成部152は、編集履歴データ判定部151が、テキスト編集が読み、アクセント誤りを修正するために行ったテキスト編集であると判定した場合、当該テキスト編集を編集履歴として登録するための編集履歴データを作成する。編集履歴データ作成部152は、例えば、テキスト中で表音文字列が変化している部分の編集内容を示す編集履歴データを生成する。
編集履歴データ登録部153は、編集履歴データ作成部152が作成した編集履歴データを編集履歴データ格納部171に登録する。
本発明の実施形態1に係る音声合成装置の構成を示す第2のブロック図を図3に示す。本ブロック図は、テキスト編集部201で、入力テキストにおける読み、アクセントが不適切な箇所をユーザが指摘し、その箇所に該当する編集履歴を編集履歴データベースから検索して、適用する構成を示している。
ユーザがテキスト編集部201からテキストを入力すると形態素解析部121は、入力テキストの形態素解析を行い、解析結果を得る。なお、この形態素解析の結果の各単語に対して下線を付して表示してもよい。これにより、ユーザは、テキストの形態素解析結果の各単語を容易に区別することができる。
更に、表音文字列生成部122は入力されたテキストの表音文字列を生成する。表音文字列が出力部204で出力され、出力された入力テキストの中で不適切な箇所の指摘を誤り指摘受付部202から受付ける。出力部204は、表音文字列から合成した、合成音声を出力してもよい。これにより、ユーザは、合成音声が適切か否かを正確に判断することができる。
次に、編集履歴データ検索部161は、入力テキスト、入力テキストの解析結果、及び誤り指摘箇所をもとに、編集履歴データ格納部171を検索する。
次に、テキスト修正部203は、編集履歴データ検索部161の検索の結果、該当する編集履歴データがある場合には、テキストを修正し、修正済みテキストはテキスト編集部201に返される。
以下、合成音声の読み、アクセント誤りを修正するためのテキスト編集の判定方法の具体例について説明する。合成音声の読み、アクセント誤りを修正するためのテキスト編集には、(1)送り仮名の挿入または削除、(2)ひらがなと漢字との間の置換、(3)振り仮名の付与、(4)読点か空白の挿入、等が考えられる。編集履歴データ判定部151において、テキスト編集がこれらの合成音声の読み、アクセント誤りを修正するための所定の編集か否かを判定し、編集履歴データ作成部152で編集履歴として登録するデータを作成する例を、図4〜7に示す。
図4は、(1)送り仮名の挿入または削除の例を示す図である。入力テキストが「これはお好み焼です。」のとき、ユーザはその合成音声を聞くと「お好み焼」を「おこのみしょー」と誤読しているとわかる。また、入力テキストを「これはお好み焼きです。」に変更する(送り仮名の「き」を挿入する)と正しい読みになるので、ユーザはこれを採用する。
このとき、「これはお好み焼です。」の表音文字列は「コレハ オコノミ’ショーデス.」と誤っているが、「これはお好み焼きです。」の表音文字列は「コレハ オコノミヤキデ’ス.」となり正しい(この表音文字列は必ずしもユーザに表示されない)。これは形態素解析で用いる単語辞書の中に、「お好み焼き」は登録されているが、「お好み焼」は登録されていないために、「お好み焼」の場合には「焼」が未知語と判定され、形態素解析誤りが生じたのが原因である。
この例では、編集前のテキストの解析結果である普通名詞「お好み」と未知語「焼」とに対応する部分が、編集後の解析結果である普通名詞「お好み焼き」になっており、編集前の表音文字列は、「コレハ オコノミ’ショーデス.」であるが、編集後の表音文字列は、「コレハ オコノミヤキデ’ス.」と変化している。そして、編集前後のテキストを比較すると、漢字の「焼」の直後に、ひらがな「き」が挿入されているので、(1)の送り仮名の挿入または削除であると判定することができる。また、その編集の結果、表音文字列が変化し、その合成音声をユーザが採用したので、合成音声の読み、アクセント誤りを修正するためのテキストの変更であったと判断できる。
すなわち、未知語が普通名詞になること、表音文字列が変化していること、及び漢字の後にひらがなが挿入されていることを条件として、これら3つの条件が満たされているか否かを判定することによって、読み、アクセント誤りの編集か否か判断される。また、このとき、編集前テキストの形態素解析結果において、「焼」は未知語と解析されている。以上から編集履歴データは、
インデックス: 「焼」
適用条件: 「焼」が未知語と解析されたとき
修正の種類: 送り仮名の挿入
挿入する文字列: 「き」
というものになる。なお、本例のように、表音文字列が変化した箇所であり、かつ編集前に未知語であった箇所をインデックスとすることができる。インデックスは、編集履歴データを検索する際にキーとなる。またこの編集履歴を登録するときには、この修正方法が1回使われたということを示すように、適用回数「1」を設定する。
図5は、(2)ひらがなと漢字との間の置換の例を示す図である。入力テキスト「ただいま、時間外です。」のとき、ユーザはその合成音声を聞いて、「ただいま」のアクセントが間違っていることに気づく。また、入力テキストを「只今、時間外です。」に変更すると、アクセントが正しくなるので、ユーザはこれを採用する。
このとき、「ただいま、」の表音文字列は「タダイマ,…」でありアクセントが間違っているが、これは「ただいま」が感動詞(つまり挨拶の「ただいま」)と解析されたためである。「只今、時間外です。」の表音文字列は「タダ’イマ,…」となっており正しい。
これは、形態素解析に用いる単語辞書に「ただいま」は感動詞、「只今」は普通名詞として登録されているためで、アクセントはそれぞれ0型(タダイマ)、2型(タダ’イマ)と登録されている。ユーザが「ただいま」を「只今」に変更するテキスト修正をしたとき、「ただいま」と「只今」は読みが同じくアクセントが違う単語であることは、単語辞書を参照して容易に分かることである。
編集前のテキストの解析結果である感動詞「ただいま」が、編集後の解析結果である普通名詞「只今」になっており、編集前の表音文字列は、「タダイマ,…」であるが、編集後の表音文字列は、「タダ’イマ,…」と変化している。そして、編集前後のテキストを比較すると、「ただいま」というひらがなが、「只今」という漢字になっているので、(2)のひらがなと漢字との間の置換に該当すると判定できる。また、その編集の結果、表音文字列が変化し、その合成音声をユーザが採用したので、合成音声の読み、アクセント誤りを修正するためのテキストの変更であったと判断できる。
すなわち、表音文字列が変化していること、及びひらがなが漢字に置換されたことを条件として、これら2つの条件がみたされているか否かを判定することによって、読み、アクセント誤りの編集か否か判断される。以上から編集履歴データは、
インデックス: 「ただいま」
適用条件: 「ただいま」が感動詞と解析されたとき
修正の種類: ひらがなと漢字との間の置換
置換する文字列: 「只今」
というものである。またこの編集履歴を登録するときには、この修正方法が1回使われたということを示すように、適用回数「1」を設定する。
図6は、(3)振り仮名の付与の例を示す図である。入力テキストは、図4と同様の「これはお好み焼です。」であり、「お好み焼」を「おこのみしょー」と誤読している。ここで、入力テキストにおいて、「焼」の部分に「やき」という振り仮名を付与すると読みが正しくなるので、ユーザはこれを採用する。
「これはお好み焼です。」の表音文字列は「コレハ オコノミ’ショーデス.」であるが、入力テキストにおいて「焼」の部分に「やき」という振り仮名を付与すると、表音文字列生成部はこれを参照して「コレハ オコノミヤキデ’ス.」という正しい読みを生成することが可能である。
編集前の表音文字列は、「コレハ オコノミ’ショーデス.」であるが、編集後の表音文字列は、「コレハ オコノミヤキデ’ス.」と変化している。そして、編集前後のテキストを比較すると、「お好み焼」の「焼」に「やき」という振り仮名が付与されているので、(3)振り仮名の付与であると判定することができる。また、その編集の結果、表音文字列が変化し、その合成音声をユーザが採用したので、合成音声の読み、アクセント誤りを修正するためのテキストの変更であったと判断できる。
すなわち、表音文字列が変化したこと、及び表音文字列が変化した箇所に振り仮名が付与されていることを条件として、これら2つの条件が満たされているか否かを判定することによって、読み、アクセント誤りの編集か否か判断される。このとき編集履歴データは、
インデックス: 「焼」
適用条件: 「焼」が未知語と解析されたとき
修正の種類: 振り仮名の付与
送り仮名: 「やき」
というものである。またこの編集履歴を登録するときには、この修正方法が1回使われたということを示すように、適用回数「1」を設定する。
図7は、(4)読点か空白の挿入の例を示す図である。入力テキストが「現在企業における…」のとき、「現在企業」はひと続きに読まれ不自然である。このとき「現在」のあとに読点を挿入することで、自然な読みになるので、ユーザはこれを採用する。
「現在企業における…」の表音文字列は「ゲンザイキ’ギョーニ オケル…」であり、「現在」と「企業」がアクセント結合してひとつのアクセント句になっており、不適当であることが分かる。ここで、アクセント句とは日本語において一個のアクセントのまとまりを形成する語句の単位であり、個々のアクセントを持つ複数の単語が連結して一個のアクセント句を形成することをアクセント結合という。
これは「現在企業」が「現在時刻」や「現在地点」のような複合単語であると判断された結果である。一方、入力テキストを「現在、企業における…」にすれば、表音文字列は「ゲ’ンザイ, キ’ギョーニ オケル…」となり二つのアクセント句に分かれる。
編集前の表音文字列は、「ゲンザイキ’ギョーニ オケル…」であるが、編集後の表音文字列は、「ゲ’ンザイ, キ’ギョーニ オケル…」と変化している。そして、編集前後のテキストを比較すると、「現在」の直後に、読点「、」が挿入されているので、(4)読点か空白の挿入であると判定することができる。また、その編集の結果、表音文字列が変化し、その合成音声をユーザが採用したので、合成音声の読み、アクセント誤りを修正するためのテキストの変更であったと判断できる。
すなわち、読点が挿入されていること、及び読点前の形態素の表音文字列が変化していることを条件として、これら2つの条件が満たされているか否かを判定することによって、読み、アクセント誤りの編集か否かが判断される。このとき編集履歴データは、
インデックス: 「現在」
適用条件: 「現在」が普通名詞と解析されたとき
修正の種類: 読点か空白の挿入
挿入する文字列: 「、」
というものである。またこの編集履歴を登録するときには、この修正方法が1回使われたということを示すように、適用回数「1」を設定する。
編集履歴データ判定部151は、合成音声の読み、又はアクセントを修正するために実施したテキスト編集であるか否かの判定を、送り仮名の挿入もしくは削除、仮名から漢字への変換、漢字から仮名への変換、振り仮名の付与、句読点か空白の挿入もしくは削除のいずれかであるか否かを判定することによって行うことができる。
図8は、編集履歴データの登録例を示す。図4〜7に示した編集履歴データ登録判定の例にしたがえば、本図に示すような編集履歴データベースが構築される。すなわち、インデックス「焼」の場合、品詞「未知語」、修正の種類「送り仮名の挿入」、挿入文字列「き」、適用回数「1」が登録される。インデックス「焼」の場合、品詞「未知語」、修正の種類「ふりがなの付与」、振り仮名「やき」、適用回数「1」が登録される。インデックス「ただいま」の場合、品詞「感動詞」、修正の種類「ひらがなと漢字との間の置換」、変更後文字列「只今」、適用回数「1」が登録される。また、インデックス「現在」の場合、品詞「名詞」、修正の種類「読点か空白の挿入」、挿入文字列「、」、適用回数「1」が登録される。
図9A〜図9Dは、合成テキストに対して編集履歴データベースを検索してテキストを修正する例を示す図である。以下、図9A〜図9Dに従って説明する。
入力テキスト「ただいま、タコ焼ができました。」を合成した音声をユーザが聞くと、まず「タコ焼」の読みが「たこしょー」となっており誤読であることが分かる。
不適切な箇所として「焼」の部分をユーザが指摘すると、編集履歴データベースの中から「焼」の文字を検索キーとして、「焼」に「やき」という振り仮名を付与する編集履歴データを検索してくる。この編集履歴をそのまま採用してもよいが、ユーザが他の修正方法を検索すると、「焼」のあとに振り仮名「き」を付与する編集履歴データが検索される。ユーザがこの編集履歴を採用すれば、テキストは「ただいま、タコ焼きができました。」となり、合成音声を聴取してこの部分の読みが正しくなっていることが確認される。
ユーザが他の部分の修正に移る、又は文章全体を正しいと判定すると、先ほど採用した「焼」のあとに「き」を挿入するという編集が確定され、その編集履歴データの適用回数が加算されて更新される。
編集履歴データ格納部171に格納された各編集履歴データは、再編集に適用された適用回数をカウントする機能を有しており、編集履歴データ検索部161は、適用回数が多い編集履歴データを優先して検索し、編集履歴データ格納部171は、編集履歴データ検索部161が検索した編集履歴データが再編集に適用された際に、適用回数を更新することができる。
このように適用回数を保存しておくことで、「焼」のように、送り仮名の挿入と振り仮名の付与等の複数の修正方法がある場合には、編集履歴データの検索の際に適用回数が多いものを優先して検索することができ、検索の効率化を図ることができる。
更に、ユーザが「ただいま」の部分のアクセントの不適切な箇所を指摘すると、編集履歴データベースの中から「ただいま」の文字列を検索キーとして、「ただいま」を「只今」に置換する編集履歴データが検索される。これを採用することで、「只今、タコ焼きができました。」というテキストが生成され、正しいアクセントになる。ここでユーザが正しいと判定すると、いま採用した「ただいま」を「只今」に変換するという編集が確定され、編集履歴データの適用回数が加算されて更新される。
本実施形態においては、編集履歴データベースに登録、検索される編集履歴はユーザ自身によるものであり、テキストの編集方法が分からない場合にデータベースを参照するというよりも、過去に自身が実施した編集方法を、同様な編集が必要な新たなテキストに適用することにより、編集作業を効率化するというメリットがある。
テキスト編集部が編集した編集テキストの合成音声を出力する音声出力部と、音声出力部が出力した合成音声の読み、又はアクセントに誤りがある場合に、編集テキストに対して、合成音声の読み、アクセントの誤りの指摘をユーザから受付ける誤り指摘受付部と、誤り指摘受付部が受付けた編集テキストに対する合成音声の読み、アクセントの誤りの指摘箇所について、当該合成音声の読み、又はアクセントを修正するために実施すべきテキスト編集の編集内容を示す編集履歴データを、編集履歴データ格納部から検索して取得する編集履歴データ検索部とを備えることにより、テキスト編集部は、編集履歴データ検索部が検索して取得した編集履歴データを用いて、編集テキストを再編集することができる。
これにより、不慣れなユーザでもテキストの編集による合成音声の修正を簡単に行うことが可能になり、また、音声合成装置に慣れたユーザであっても、修正したい箇所を指摘するだけでテキストを編集するという効率的な操作が可能になる。
以下に示す例では、合成音声の読みアクセント誤りを修正するために行った所定のテキスト編集を判定し、編集履歴として蓄積する処理と、合成音声に読み、アクセント誤りがある箇所に編集履歴を検索して修正する処理とが、ひとつの実施形態で機能する場合を示している。図10A〜図10Cは、本発明の実施形態1における処理の流れを示すフロー図である。以下、図10A〜図10Cのフロー図に従って説明する。
まず、合成テキスト編集領域が初期化され(ステップS1001)、ユーザのテキスト編集が開始される。ユーザのテキスト編集は適当なタイミングでシステムに監視されている。編集履歴データ判定部151は、ユーザがテキストを編集したか否かを判定する(ステップS1002)。
次に、編集履歴データ判定部151は、ユーザが行ったテキスト編集が、(1)〜(4)に記述した所定のテキスト編集、すなわち、合成音声の読みアクセント誤りを修正するために行う可能性のあるテキスト編集であるか否かを判定する(ステップS1003)。
ステップS1003において、合成音声の読みアクセント誤りを修正するために行う可能性のあるテキスト編集であった場合には、編集履歴データの言語処理を行って表音文字列を生成し、表音文字列の変化があった場合には、編集履歴データ作成部152はそのテキスト編集内容の編集履歴データを作成し、編集履歴データ登録部153は、当該編集履歴データを一時的に記憶しておく(ステップS1004→S1005→S1006)。
一方、編集履歴データ検索部161は、ユーザから合成音声の不適切な箇所をテキスト上で指摘を受付けたか否かを判定する(ステップS1007)。
ステップS1007において、ユーザから合成音声の不適切な箇所をテキスト上で指摘を受付けた場合には、入力テキストの言語処理を行ったうえで(ステップS1008)、編集履歴データ検索部161は、編集履歴データ格納部171の中に指摘箇所に該当する編集履歴データがあるか検索する。なお、不適切な箇所の指摘は、下線が付された不適切な単語を指摘することによって行われてもよい。このとき、編集履歴データ検索部161は、編集履歴データ格納部171の中に当該指摘箇所への適用をすべき変更履歴データがあるか否か判定する(ステップS1009)。
ステップS1009において、適用すべき編集履歴データがない場合には、編集履歴データ検索部161は、その旨を表示してテキスト編集に戻る(ステップS1010)。一方、ステップS1009において、適用すべき編集履歴データがある場合には、編集履歴データ検索部161は、ユーザにそれを適用するかどうかの判定を仰ぎ、適用する編集履歴データが決定するまで検索を繰り返す(ステップS1011〜S1013)。編集履歴データ検索部161は、適用が決まれば、その編集履歴データを一時的に記憶する(ステップS1014)。
また、ユーザが合成音声を確認するために、音声合成の実行を指示した場合には、言語処理、合成音声の生成、合成音声の出力を行い、ユーザへの確認を促す(ステップS1015〜S1018)。
ユーザが直前に修正した箇所以外の編集に移った場合や、合成全体について問題なしと判断した場合には、編集履歴データ登録部153は、該当箇所の修正は正しいと判断できるので、それまでに行われたテキストの修正や履歴データの適用(一時的に記憶してあるもの)は適切なものと判断し、編集履歴データベースへの登録や更新を行う(ステップS1019→S1020)。
すなわち、編集履歴データ登録部153は、テキスト編集によるものであれば新規に編集履歴データベースに登録する(ステップS1021)。また、編集履歴データ登録部153は、既存の履歴データの適用であればその適用回数に「1」を加算して更新する(ステップS1022)。こうして、合成音声全体にわたってユーザが正しいとするまで本処理が繰り返される(ステップS1023)。
以上説明したように、本発明によれば、ユーザ自身が過去に行った入力テキストの所定の編集履歴を蓄積しておき、新たな入力テキストの音声合成を行う際に、編集履歴を検索して適用することで、適切なテキストの修正をエンドユーザが理解しやすい入力テキストのレベルで、簡便に行えるようにすることができる。
[実施形態2]
近年ソフトウェアの提供形態として、SaaS(Software as a service)型サービスが広まりつつある。従来は、ソフトウェアをパッケージ製品としてユーザにライセンス販売し、ユーザが各自のコンピュータで稼動させるという形態が中心的であった。これに対し、SaaS型サービスでは、ソフトウェアを提供者側のサーバで稼動させ、ユーザはそのソフトウェアをネットワーク経由のサービスとして利用し、そのサービス料を提供者側に支払う。
この形態を用いて、音声合成においてもSaaS型音声合成サービスを用いることが考えられる。つまり、ユーザはネットワークを介してサーバ上の音声合成ソフトウェアを利用する。そのため、エンドユーザが気軽に音声合成ソフトウェアを利用し、テキストを音声に変換したり、提供される編集機能を利用して好みの合成音声に調整したりすることが可能になる。
本実施形態2は、SaaS型音声合成サービスの例であり、音声合成サーバが、音声合成ソフトウェアに従って動作している例である。ユーザは各自のユーザ端末300、310、・・3N0を用いて、ネットワークを介して音声合成サービスを利用する。ユーザ端末側には音声合成サーバに対するデータを送受信して表示するためのブラウザが用意されている。図11に示す音声合成サーバ500(音声合成装置)において、図1と同じ機能ブロック(モジュール)には、同じ番号を付す。
本実施形態では、各ユーザ端末とのデータの送受信はブラウザに対応する形式(例えば、HTML、XMLなど)で実施される。音声合成サーバ500は、送信データ作成部400、受信データ解析部410及びデータ送受信部420を更に備える。
送信データ作成部400は、音声合成サーバ500の内部で処理されているデータをユーザ端末への送信データに変換する。受信データ解析部410は、ユーザ端末から受信したデータを音声合成サーバ500の内部で処理されているデータに変換する。また、データ送受信部420は、これらのデータをユーザ端末に送受信する。
データ送受信部420は、ユーザ端末の編集部(ブラウザ)で入力された入力テキストデータ、誤り指摘データをユーザ端末から受信する。受信データ解析部410は、データ送受信部420で受信した入力テキストデータ、誤り指摘データを音声合成サーバ100の内部で処理されているデータに変換する。
編集履歴蓄積部170は、変換された入力テキストデータに基づいて、編集部111で実施した編集内容を示す編集履歴データを蓄積する。
また、編集部111は、ユーザ端末からテキストデータの入力があると、テキストデータの表音文字列または合成音声データを生成して、ユーザ端末に対して出力する。このときに、送信データ作成部400は、表音文字列または合成音声を、ユーザ端末への送信データに変換する。ユーザ端末は、誤り指摘を受付け、誤り指摘データを音声合成サーバに送信する。編集部111は、誤り指摘データに基づいて、編集履歴蓄積部170に蓄積された編集履歴データを参照して、ユーザ端末の編集部で入力された入力テキストデータを再編集する。送信データ作成部400は、音声合成サーバ500で再編集された再編集済みのテキストデータをユーザ端末への送信データに変換する。データ送受信部420は、送信データ作成部400で作成された送信データをユーザ端末に送信する。
本実施形態2では、他のユーザの編集履歴データが蓄積され検索できる状態にあるので、不慣れなユーザでも、他のユーザの編集履歴を活用することで、テキストの編集による合成音声の修正を簡単に行うことが可能である。また、音声合成装置に慣れたユーザであっても、修正したい箇所を指摘するだけで編集することが可能なので、編集作業を効率的に行えるというメリットがある。
以上説明したように、本発明によれば、SaaS型音声合成サービスのようにサーバ上に置かれたソフトウェアであって、他のユーザの編集履歴が蓄積され検索できる枠組みがあれば、不慣れなユーザでもテキストの編集による合成音声の修正を簡単に行うことが可能である。また、入力テキストによる合成音声の調整を効果的に行うことができる。
上記実施形態で説明した構成は、単に具体例を示すものであり、本発明の技術的範囲を制限するものではない。本発明の効果を奏する範囲において、任意の構成を採用することが可能である。
なお、音声合成サーバの構成は上記例に限られない。例えば、音声合成サーバ100が備える機能の一部をユーザ端末または他のサーバが備える構成としてもよい。
本発明の実施形態は、上述した実施形態を実現するソフトウェアのプログラム(実施の形態では図に示すフロー図に対応したプログラム)が装置に供給され、その装置のコンピュータが、供給されたプログラムを読出して、実行することによっても達成せれる場合を含む。したがって、本実施形態で説明した機能処理をコンピュータで実現するために、コンピュータにインストールされるプログラム自体も本発明の一実施形態である。つまり、本発明の機能処理を実現させるためのプログラムも、実施形態の一側面に含まれる。また、本発明の機能処理を実現させるためのプログラムを記録した媒体も、実施形態の一側面に含まれる。
100 音声合成装置
110 制御部
111 編集部
120 言語処理部
121 形態素解析部
122 表音文字列生成部
130 合成音声生成部
140 合成データ管理部
150 編集履歴登録更新部
151 編集履歴データ判定部
152 編集履歴データ作成部
153 編集履歴データ登録部
160 編集履歴検索部
170 編集履歴蓄積部
171 編集履歴データ格納部
180 インターフェース部
190 表示装置
200 入力装置
201 テキスト編集部
202 誤り指摘受付部
203 テキスト修正部
210 音声出力装置
400 送信データ作成部
410 受信データ解析部
420 データ送受信部
500 音声合成サーバ

Claims (6)

  1. 音声合成の対象となるテキストを編集するテキスト編集部と、
    編集前後のテキストに対して、形態素解析、及び表音文字列生成を行う言語処理部と、
    編集前後のテキストそれぞれについての形態素解析結果、及び生成された表音文字列のうち、少なくとも表音文字列に基づいて、合成音声の読み、又はアクセントを修正するために実施したテキスト編集であるか否かを判定するテキスト編集判定部と、
    前記テキスト編集判定部が合成音声の読み、又はアクセントを修正するために実施したテキスト編集であると判定した場合に、当該テキスト編集の編集内容を示す編集履歴データを作成する編集履歴データ作成部と、
    前記編集履歴データ作成部が作成した編集履歴データの登録があったときに、当該編集履歴データを格納する編集履歴データ格納部とを備える、音声合成装置。
  2. 前記テキスト編集部が編集した編集テキストの表音文字列、又は合成音声を出力する出力部と、
    前記出力部が出力した表音文字列、又は合成音声の読み、又はアクセントに誤りがある場合に、前記編集テキストに対して、合成音声の読み、アクセントの誤りの指摘をユーザから受付ける誤り指摘受付部と、
    前記誤り指摘受付部が受付けた前記編集テキストに対する合成音声の読み、アクセントの誤りの指摘箇所について、当該合成音声の読み、又はアクセントを修正するために実施すべきテキスト編集の編集内容を示す編集履歴データを、前記編集履歴データ格納部から検索して取得する編集履歴データ検索部とを更に備え、
    前記テキスト編集部は、
    前記編集履歴データ検索部が検索して取得した編集履歴データを用いて、前記編集テキストを再編集する、請求項1に記載の音声合成装置。
  3. 前記編集履歴データ格納部に格納された各編集履歴データは、再編集に適用された適用回数をカウントする機能を有しており、
    前記編集履歴データ検索部は、
    前記適用回数が多い編集履歴データを優先して検索し、
    前記編集履歴データ格納部は、
    前記編集履歴データ検索部が検索した編集履歴データが再編集に適用された際に、前記適用回数を更新する、請求項2に記載の音声合成装置。
  4. テキスト編集判定部は、合成音声の読み、又はアクセントを修正するために実施したテキスト編集であるか否かの判定を、送り仮名の挿入もしくは削除、ひらがなと漢字との間の置換、振り仮名の付与、読点か空白の挿入もしくは削除の少なくともいずれかであることを判定することによって行う、請求項1〜3のいずれかに記載の音声合成装置。
  5. 音声合成の対象となるテキストを編集するテキスト編集ステップと、
    編集前後のテキストに対して、形態素解析、及び表音文字列生成を行う言語処理ステップと、
    編集前後のテキストそれぞれについての形態素解析結果、及び生成された表音文字列のうち、少なくとも表音文字列に基づいて、合成音声の読み、又はアクセントを修正するために実施したテキスト編集であるか否かを判定するテキスト編集判定ステップと、
    前記テキスト編集判定ステップで合成音声の読み、又はアクセントを修正するために実施したテキスト編集であると判定した場合に、当該テキスト編集の編集内容を示す編集履歴データを作成する編集履歴データ作成ステップと、
    前記編集履歴データ作成ステップで作成した編集履歴データの登録があったときに、当該編集履歴データを格納する編集履歴データ格納ステップとを含む、音声合成方法。
  6. コンピュータに、
    音声合成の対象となるテキストを編集するテキスト編集ステップと、
    編集前後のテキストに対して、形態素解析、及び表音文字列生成を行う言語処理ステップと、
    編集前後のテキストそれぞれについての形態素解析結果、及び生成された表音文字列のうち、少なくとも表音文字列に基づいて、合成音声の読み、又はアクセントを修正するために実施したテキスト編集であるか否かを判定するテキスト編集判定ステップと、
    前記テキスト編集判定ステップで合成音声の読み、又はアクセントを修正するために実施したテキスト編集であると判定した場合に、当該テキスト編集の編集内容を示す編集履歴データを作成する編集履歴データ作成ステップと、
    前記編集履歴データ作成ステップで作成した編集履歴データの登録があったときに、当該編集履歴データを格納する編集履歴データ格納ステップとを実行させる、音声合成プログラム。
JP2010035067A 2010-02-19 2010-02-19 音声合成装置、音声合成方法、及び音声合成プログラム Expired - Fee Related JP5423466B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010035067A JP5423466B2 (ja) 2010-02-19 2010-02-19 音声合成装置、音声合成方法、及び音声合成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010035067A JP5423466B2 (ja) 2010-02-19 2010-02-19 音声合成装置、音声合成方法、及び音声合成プログラム

Publications (2)

Publication Number Publication Date
JP2011170191A JP2011170191A (ja) 2011-09-01
JP5423466B2 true JP5423466B2 (ja) 2014-02-19

Family

ID=44684373

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010035067A Expired - Fee Related JP5423466B2 (ja) 2010-02-19 2010-02-19 音声合成装置、音声合成方法、及び音声合成プログラム

Country Status (1)

Country Link
JP (1) JP5423466B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10373606B2 (en) 2015-03-24 2019-08-06 Kabushiki Kaisha Toshiba Transliteration support device, transliteration support method, and computer program product

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6290230B2 (ja) 2013-10-10 2018-03-07 株式会社東芝 音訳作業支援装置、音訳作業支援方法及びプログラム
WO2015162737A1 (ja) 2014-04-23 2015-10-29 株式会社東芝 音訳作業支援装置、音訳作業支援方法及びプログラム
CN113963681A (zh) * 2021-10-22 2022-01-21 平安科技(深圳)有限公司 基于文本编辑器的语音合成方法、系统和存储介质
CN114882862A (zh) * 2022-04-29 2022-08-09 华为技术有限公司 一种语音处理方法及相关设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3230868B2 (ja) * 1992-12-28 2001-11-19 株式会社リコー 音声合成装置
JPH09325787A (ja) * 1996-05-30 1997-12-16 Internatl Business Mach Corp <Ibm> 音声合成方法、音声合成装置、文章への音声コマンド組み込み方法、及び装置
JPH11249866A (ja) * 1998-03-05 1999-09-17 Fujitsu Ltd 音声合成装置及び記録媒体
JP4326251B2 (ja) * 2003-04-04 2009-09-02 シャープ株式会社 テキスト音声合成装置、並びに、テキスト音声合成方法及びそのプログラム
US20050177369A1 (en) * 2004-02-11 2005-08-11 Kirill Stoimenov Method and system for intuitive text-to-speech synthesis customization
JP2005345699A (ja) * 2004-06-02 2005-12-15 Toshiba Corp 音声編集装置、音声編集方法および音声編集プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10373606B2 (en) 2015-03-24 2019-08-06 Kabushiki Kaisha Toshiba Transliteration support device, transliteration support method, and computer program product

Also Published As

Publication number Publication date
JP2011170191A (ja) 2011-09-01

Similar Documents

Publication Publication Date Title
KR100859532B1 (ko) 대응 문형 패턴 기반 자동통역 방법 및 장치
JP6336749B2 (ja) 音声合成システム及び音声合成方法
US9196251B2 (en) Contextual conversion platform for generating prioritized replacement text for spoken content output
JP5423466B2 (ja) 音声合成装置、音声合成方法、及び音声合成プログラム
Xydas et al. The DEMOSTHeNES speech composer
US20090281808A1 (en) Voice data creation system, program, semiconductor integrated circuit device, and method for producing semiconductor integrated circuit device
JP5410334B2 (ja) 語順変換装置、機械翻訳用統計モデル作成装置、機械翻訳装置、語順変換方法、機械翻訳用統計モデル作成方法、機械翻訳方法、プログラム
JPWO2009107441A1 (ja) 音声合成装置、テキスト生成装置およびその方法並びにプログラム
CN114678001A (zh) 语音合成方法和语音合成装置
JP2006030326A (ja) 音声合成装置
KR100631086B1 (ko) Xml을 이용한 텍스트 정규화 방법 및 장치
JP6619932B2 (ja) 形態素解析装置およびプログラム
JP4409279B2 (ja) 音声合成装置及び音声合成プログラム
JP6197523B2 (ja) 音声合成装置、言語辞書修正方法及び言語辞書修正用コンピュータプログラム
JP6232724B2 (ja) 音声合成装置及び言語辞書登録方法
JP4053440B2 (ja) テキスト音声合成システム及び方法
JP3414326B2 (ja) 音声合成用辞書登録装置及び方法
JP2002123281A (ja) 音声合成装置
JP6792584B2 (ja) 解析装置及びプログラム
WO2022196087A1 (ja) 情報処理装置、情報処理方法、および情報処理プログラム
JP6267971B2 (ja) ソースコード解析支援装置、ソースコード解析支援方法
JP2022141520A (ja) 音声合成記号編集装置、方法及びプログラム
JP4399154B2 (ja) 翻訳装置、及び翻訳プログラム
JP2023075425A (ja) 言語処理装置、学習装置及びそれらのプログラム
JP2004145014A (ja) 自動音声応答装置及び自動音声応答方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130108

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20130701

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20130702

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130829

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130903

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131010

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131018

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131029

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131111

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5423466

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees