JP5863598B2 - 音声合成装置、方法およびプログラム - Google Patents

音声合成装置、方法およびプログラム Download PDF

Info

Publication number
JP5863598B2
JP5863598B2 JP2012181469A JP2012181469A JP5863598B2 JP 5863598 B2 JP5863598 B2 JP 5863598B2 JP 2012181469 A JP2012181469 A JP 2012181469A JP 2012181469 A JP2012181469 A JP 2012181469A JP 5863598 B2 JP5863598 B2 JP 5863598B2
Authority
JP
Japan
Prior art keywords
reading
correction
speech
target word
correction target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012181469A
Other languages
English (en)
Other versions
JP2014038265A (ja
Inventor
祐一 宮村
祐一 宮村
勇詞 清水
勇詞 清水
山中 紀子
紀子 山中
真人 矢島
真人 矢島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2012181469A priority Critical patent/JP5863598B2/ja
Publication of JP2014038265A publication Critical patent/JP2014038265A/ja
Application granted granted Critical
Publication of JP5863598B2 publication Critical patent/JP5863598B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明の実施形態は、音声合成装置、方法およびプログラムに関する。
近年、いわゆるタブレットPCなどの普及に伴い、電子書籍を購入してタブレットPCで読むことが多くなっている。書籍が電子化されることにより、音声合成システムが書籍テキストを読み上げる電子書籍の読み上げアプリケーションなどもある。一般的に電子書籍の読み上げでは、書籍テキストに対して自動で読みを推定し、推定に基づいて読み上げを行うため、読み誤りが発生することが多い。そこで、読み誤りを補正するために、誤っている可能性の高い箇所の形態素列をユーザに提示する手法や、誤りを登録したユーザ辞書を作成し、ユーザ辞書を複数ユーザ間で共有する手法がある。
特開2004−223136号公報 特開平7−271649号公報 特開2009−293029号公報
しかし、一般的にユーザが形態素列を修正することは容易ではなく、修正に時間を要する。また、形態素列の修正時には形態素列を表示する表示部が必要となるため、読み上げアプリケーションによりテキストの表示を見ずに読書ができる利点が生かされない。
また、ユーザ辞書を複数のユーザ間で共有する場合は、多数の読者がいる書籍であれば、多くのユーザ辞書が生成されるため効果が期待できるが、読者が少ない書籍では共有できるユーザ辞書が少ないため効果が少なく、例えば雑誌のように短い時間間隔で入れ替わる書籍に対してはユーザ辞書を共有する利点が少ない。
本開示は、上述の課題を解決するためになされたものであり、書籍の種類にかかわらず容易に読み誤りを修正することができる音声合成装置、方法およびプログラムを提供することを目的とする。
本実施形態に係る音声合成装置は、音声合成部、取得部、選択部および修正部を含む。音声合成部は、テキストから合成音声を生成する。取得部は、ユーザからの指示を取得し、修正指示情報を得る。選択部は、前記修正指示情報に基づいて、修正の対象となる修正対象語を少なくとも含む文字列である検索範囲を前記テキストから選択する。修正部は、前記修正対象語の読みを変更する条件を示す修正ルールに基づいて、前記検索範囲に含まれる前記修正対象語に対応する第1読みとは異なる前記第2読みで音声合成するように前記修正対象語の読みを修正する。
第1の実施形態に係る音声合成装置を示すブロック図。 辞書格納部に格納される同表記異音語辞書の一例を示す図。 本実施形態に係る音声合成装置の動作を示すフローチャート。 選択部における誤り検索範囲の選択例を示す図。 選択部における誤り検索範囲の選択の別例を示す図。 音声合成装置の修正動作を示す図。 第1の変形例に係る同表記異音語辞書の一例を示す図。 第2の変形例に係る同表記異音語辞書の一例を示す図。 第2の変形例に係る音声合成装置の修正動作を示す図。 第2の実施形態に係る音声合成装置を示すブロック図。
以下、図面を参照しながら本実施形態に係る音声合成装置、方法およびプログラムについて詳細に説明する。なお、以下の実施形態では、同一の参照符号を付した部分は同様の動作をおこなうものとして、重複する説明を適宜省略する。
(第1の実施形態)
第1の実施形態に係る音声合成装置について図1のブロック図を参照して説明する。
第1の実施形態に係る音声合成装置100は、修正指示取得部101、選択部102、辞書格納部103、検索部104、ルール修正部105、音声合成部106および表示部107を含む。
修正指示取得部101は、ユーザから修正指示を受け取り、修正指示情報を生成する。 修正指示情報としては、修正指示があった時刻を示す時間情報などが考えられる。
選択部102は、修正指示取得部101から修正指示情報を受け取り、後述の音声合成部106で用いられるテキストから、ユーザからの修正の対象となる修正対象語を少なくとも含む文字列である誤り検索範囲を選択する。
辞書格納部103は、同じ表記であるが読みが異なる語である同表記異音語に関するテーブルである同表記異音語辞書を格納する。辞書格納部103に格納される具体的な同表記異音語辞書は図2を参照して後述する。
検索部104は、選択部102から誤り検索範囲を受け取り、辞書格納部103の同表記異音語辞書を参照して、誤り検索範囲に含まれる修正対象語と一致する同表記異音語があるかどうかを検索する。誤り検索範囲に含まれる修正対象語と一致する同表記異音語があれば、その修正対象語に関して音声合成部106で読み上げた読みと異なる読みに関する読み情報を得る。
ルール修正部105は、検索部104から読み情報を受け取り、後述の音声合成部106で、修正指示があったのちにテキスト中に出現する修正対象語に対して、異なる読みで読み上げるように修正する。
音声合成部106は、入力テキストを受け取り、入力テキストの語に対して音声合成処理を行ない、合成音声を生成して外部に出力する。音声合成部106は、ルール修正部105から修正があった場合は、読みを変更して音声合成処理を行なう。なお、本実施形態に係る音声合成処理は一般的な音声合成処理であるため、ここでの説明は省略する。
次に、辞書格納部103に格納される同表記異音語辞書の一例について図2を参照して説明する。
図2に示すように、見出し201、読み202−1および読み202−2がそれぞれ対応づけられて格納される。見出し201は、同表記異音語の表記を示す。読み202−1および読み202−2は、見出し201の語に関する異なる読み仮名をそれぞれ示す。具体的には、例えば、見出し201「方」、読み202−1「ほう」および読み202−2「かた」がそれぞれ対応づけられて格納される。このように、1つの見出しに対して複数の読み仮名が対応づけられる。
次に、本実施形態に係る音声合成装置100の動作について図3のフローチャートを参照して説明する。
ステップS301では、修正指示取得部101が、ユーザからの修正指示を取得する。
ステップS302では、選択部102が、修正指示情報に基づいて音声合成中のテキストから誤り検索範囲を選択する。誤り検索範囲の決定方法としては、例えば、時間情報に基づいて修正指示を取得した時点から一定時間遡った時点までの間に音声合成された文字列を、誤り検索範囲とすればよい。また、時間情報によらず、修正指示を取得した時点で出力された合成音声に対応する第1文字から、所定の文字数だけ前に遡って生成された合成音声に対応する第2文字との間の文字列を検索範囲としてもよい。例えば、修正指示があった時点で読み上げた単語から遡って10文字前までの文字列の範囲を誤り検索範囲とすればよい。さらに、修正指示があった時刻で読み上げられていた一文を誤り検索範囲としてもよい。
ステップS303では、検索部104が、辞書格納部103に格納される同表記異音語辞書を参照して、誤り検索範囲に含まれる語と一致する同表記異音語が存在するかどうか、すなわち修正対象語が存在するかどうかを判定する。修正対象語が存在すればステップS304に進み、修正対象語が存在しなければ処理を終了する。
ステップS304では、検索部104が、音声合成部106で読み上げられた読みとは異なる読みを含む読み情報を得る。
ステップS305では、ルール修正部105が、読み情報に基づいて、修正指示があったのちにテキストに出現する修正対象語の音声合成による読み上げの際に、異なる読みで音声合成を行なうように修正する。以上で音声合成装置の動作を終了する。
次に、誤り検索範囲の選択例について図4を参照して説明する。
図4は、いわゆるスマートフォン400(高機能携帯端末)を用いて音声合成による読み上げを行なうアプリケーションを起動している場合において、ユーザから修正指示が入力される場合を示す。表示画面には、本文401の表示する領域と、読み誤りを通知するためのボタン402(図4中では「読み誤り通知ボタン」)を示す領域とがある。
ユーザが読み上げ中に読み誤りに気づいた場合、表示画面中のボタン402の領域に触れることで、修正指示取得部101が、修正指示があったことを検出することができる。また、ユーザからの修正指示があった場合に、選択部102により誤り検索範囲403が決定される。
なお、修正指示取得部101は、タッチパネル式のディスプレイに限らず、決定ボタンなどハードウェアでのボタンが押下されることによりユーザからの修正指示を検出してもよい。
上述のように、ユーザが1度ボタンに触れるまたはボタンを押下するという単純な動作だけで修正を指示することができるので、ユーザは修正時にテキストの読み上げを停止して修正するといった煩わしさがなくなる。
次に、誤り検索範囲の抽出の別例について図5を参照して説明する。
図5は、いわゆるタブレットPCにおいて、修正指示取得部101が、ユーザからの修正指示を検出する例を示す。タブレットPC500では、本文501がディスプレイに表示される。ユーザは、読み誤りを検知したときに、ディスプレイに表示される本文501のうちの読み誤った箇所に指またはタッチペンなどで触れる。選択部102は、ユーザが触れた部分の周辺を誤り検索範囲502として取得すればよい。例えば、ある単語を示す領域に触れた場合は、前後の単語を含めて誤り検索範囲502とすればよい。
なお、図4および図5では、表示部にテキストが表示される場合を想定して説明したが、表示部を有さなくてもよい。例えば、読み上げの再生および停止をおこなう制御機能を有するリモコン、または音量調整機能を有するヘッドフォンおよびイヤフォンなどにより、読み誤りがあった場合にユーザがリモコン、ヘッドフォンおよびイヤフォンに付属するボタンを押下すればよい。これにより、修正指示取得部101は、ユーザからの修正指示を上述の場合と同様に取得することができる。この場合も、選択部102は、修正指示を取得した時点から一定時間遡った時点までの間に音声合成された文字列を、誤り検索範囲とするといった上述の選択手法を用いて、誤り検索範囲を選択すればよい。
次に、本実施形態に係る音声合成装置の修正動作の一例について図6を参照して説明する。
図6は、入力テキスト601が音声合成され、合成音声602として読み上げられる例である。入力テキスト601中「ですから、菅野さんは学校の」に対応する合成音声602−1として「ですからかんのさんはがっこうの」と読み上げられた場合を想定する。このとき、ユーザから修正指示があり、誤り検索範囲603として「ですから、菅野さんは」が選択される。検索部104は、誤り検索範囲603内に同表記異音語である「菅野」が含まれているかどうかを検索する。図2の同表記異音語辞書を参照すると「菅野」が存在するので「菅野」が修正対象語となる。検索部104は、「かんの」と読み上げられたときに修正指示があったので、同表記異音語辞書における「かんの」の次の読みである「すがの」を読み情報として得る。ルール修正部105では、読み情報に基づいて、修正指示があった以降のテキスト中に出現する「菅野」の読みを、「かんの」の次の読みである「すがの」で読み上げるように設定する。図6の例では、入力テキスト601として「それでも菅野は」が出現するので合成音声602−2として「それでもすがのは」と読み上げる。
なお、読みの設定方法(修正ルールともいう)は、一度修正があった読みは用いずに、以降は新たな修正があるまで修正された読みを用いてもよい。例えば、「かんの」の読みを用いずに、以降は常に「すがの」で読み上げればよい。
また、修正対象語の前後で出現した単語を組として記憶し、以降の読み上げで同じ組が出現した場合にのみ読み方を替える方法でもよい。例えば、「菅野さんは学校」のように、修正対象語「菅野」と「学校」とを組として、「菅野」と「学校」との組が出現した場合にのみ読み仮名として「すがの」で読み上げ、本文中に「菅野」が単独で出現した場合は、読み仮名として「かんの」で読み上げるようにしてもよい。
また、音声合成部106で形態素解析した結果を取得して、修正対象語が固有名詞である場合は、強制的に読みを変更し、固有名詞以外は、修正対象語が他の単語と組で出現した場合のみ読みを変更するような方法でもよい。
なお、読みの設定方法に関しては、あるドメインで設定した読みの修正ルールを、異なるドメインでは使用しない方が好ましい場合が多い。ここでいうドメインとは、読み上げる文の属する集合を指す。例えば、書籍1冊1冊をそれぞれ異なるドメインであるとした場合、ある書籍において作成された修正ルールはその書籍内でのみ有効となり、他のドメイン、つまり、他の書籍ではこの修正ルールを用いないことになる。1つのドメインとする範囲は、上記以外にも様々な定義の仕方が考えられる。例えば、同一著者の書籍を1つのドメインとしたり、新聞や雑誌などの1つの記事を1つのドメインとしたり、同一ジャンル、例えばスポーツジャンルの記事を1つのドメインとしたり、一定文字数以内の範囲を1つのドメインとすることが考えられる。どの範囲を1つのドメインとするかは、読み上げアプリケーションの開発者もしくはユーザが適宜設定すればよい。
以上に示した第1の実施形態によれば、ユーザからの修正指示があった場合に、修正指示情報に基づいて誤り検索範囲を設定し、同表記異音語辞書を参照して音声合成による読み上げにおける読みを変更する。これによって、ユーザは1度ボタンを押すだけで修正指示を出すことができるので、複雑な動作無しに、かつ音声合成の再生を一時停止することなしに読み誤りの修正を行うことができる。
(第1の実施形態に係る第1の変形例)
第1の実施形態では、同表記異音語辞書として読み仮名が異なる場合を例として説明したが、表記および読み仮名も同一であるが、アクセントが異なるという場合も想定される。例えば、「カキ」は、単一の読み仮名「かき」しか有さないが、アクセントによっては、果物である「柿」を意味したり、貝類である「牡蠣」を意味することがある。
よって、第1の変形例では、同表記異音語辞書にアクセントに関する項目を関連づけて含める点が第1の実施形態とは異なる。
第1の変形例に係る辞書格納部に格納される同表記異音語辞書の一例を図7に示す。
第1の変形例に係る辞書格納部には、同表記異音語辞書として、見出し701と読み702とが対応づけられ、読み702として、読み仮名703およびアクセント704がそれぞれ対応づけて格納される。
具体的には、例えば、見出し701「カキ」、読み仮名703−1「かき」、アクセント704−1「0型」、読み仮名703−2「かき」およびアクセント704−2「1型」が対応づけられて格納される。ここで「0型」は、「柿」の発音となるように、「か」の音が低く、「き」の音が高くなるように設定する。「1型」は、「牡蠣」の発音となるように、「か」の音が高く、「き」の音が低くなるように設定する。
ルール修正部105は、ユーザからの修正指示があった場合に、読み情報として読み仮名とアクセントとを検索部104から受け取って、読み上げたアクセントとは異なるアクセントで音声合成による読み上げを行うように修正する。
以上に示した第1の実施形態に係る第1の変形例は、同表記異音語辞書にさらにアクセントを対応づけて格納することで、アクセントが異なる読み上げがなされた場合でも、第1の実施形態と同様に、複雑な動作無しに読み誤りの修正を行うことができる。
(第1の実施形態に係る第2の変形例)
第2の変形例は、誤り検索範囲に複数の修正対象語が存在する場合を想定する点が第1の実施形態と異なる。複数の修正対象語を全て修正すると過剰に修正してしまう場合が多い。そこで修正対象語を選択的に修正する点が異なる。
第2の変形例に係る同表記異音語辞書の一例について図8を参照して説明する。
図8は、図2に示す同表記異音語辞書における見出し201および読み202に加えて、各読みに対する読み尤度801を対応づける点が異なる。具体的には、例えば、見出し201「方」、読み202−1「ほう」および対応する読み尤度801−1「0.6」、読み202−2「かた」および対応する読み尤度801−2「0.4」、がそれぞれ対応付けられ、辞書格納部103に格納される。読み尤度の算出方法は、例えば、読みが付いているテキストコーパスを大量に用意し、コーパス内での各読みの出現頻度の比を読み尤度とすればよいが、読み尤度を算出できればどのような方法でもよい。
第2の変形例に係る音声合成装置の修正動作の一例について図9を参照して説明する。
図9の例では、図6と同様に、入力テキスト901を音声合成し、合成音声902で読み上げる場合を想定する。ここで、ユーザからの修正指示により誤り検索範囲903として「市場で菅野に」が得られたと仮定する。
誤り検索範囲903には、「市場」と「菅野」という2つの修正対象語が存在する。この場合どちらを優先的に修正するかは、同表記異音語辞書中の尤度を参照すればよい。
例えば、図8を参照すると、「市場」を「しじょう」と読み尤度は0.7であり、「菅野」を「かんの」と読み尤度は0.55であるので、「菅野」の方が「市場」よりも現在の読みの尤度が低いことがわかる。よって、優先的に修正される修正対象語は「菅野」となる。
なお、複数の同表記異音語のうち「菅野」の読みではなく「市場」の読みが間違っている場合もあり得る。すなわち、図9の例では、「菅野」の読み「かんの」が正しく、「市場」の読み「しじょう」が間違っていると仮定する。
この場合は、一度読みを「かんの」から「すがの」に修正したので、以降、「菅野」が読み上げられる場合は、「すがの」と読まれる。このとき、再びユーザから修正指示がある場合、「菅野」の読みを「すがの」と修正したことが間違いであったと判定することができるので、ルール修正部105は、「菅野」の読みを「かんの」に戻すように修正する。
また、ユーザから再び修正指示があることで、前回の修正指示の際に、修正対象語「菅野」の読みではなく修正対象語「市場」の読みが間違っていたと判定できる。よって、ルール修正部105は、市場の読みを「しじょう」から「いちば」に修正すればよい。
以上に示した第2の変形例によれば、誤り検索範囲に修正対象語が複数存在する場合でも、複雑な動作無しに読み誤りの修正を行うことができる。
(第2の実施形態)
第2の実施形態は、誤り検索範囲に含まれる修正対象語が、辞書格納部に格納される同表記異音語辞書の中に含まれない場合に、外部のサーバなどへ誤り検索範囲の文字列などを送信する点が第1の実施形態とは異なる。ユーザからの修正指示があったにもかかわらず、誤り検索範囲内に修正可能な単語が存在しない場合は、誤り検索範囲内に同表記異音語辞書にない同表記異音語が含まれる可能性が高い。よって、外部へ誤り検索範囲に関する情報を送ることで、効率的に同表記異音語辞書の語彙数を増やすことができる。追加された同表記異音語の情報は、アプリケーションアップデート等によってアプリケーションに反映される。これにより従来修正できなかった箇所を修正できるようになるというユーザメリットがある。
第2の実施形態に係る音声合成装置について図10のブロック図を参照して説明する。
第2の実施形態に係る音声合成装置1000は、修正指示取得部101、選択部102、辞書格納部103、検索部104、ルール修正部1001、音声合成部106、表示部107および誤り情報送信部1002を含む。
修正指示取得部101、選択部102、辞書格納部103、検索部104、音声合成部106および表示部107については、第1の実施形態と同様であるのでここでの説明は省略する。
ルール修正部1001は、第1の実施形態に係るルール修正部105とほぼ同様の動作であるが、誤り検索範囲に含まれる語が、辞書格納部103に格納される同表記異音語辞書に該当しない場合は、誤り情報を生成する。誤り情報は、誤り検索範囲に含まれる語、修正指示を行ったユーザID、読み上げている書籍IDなどを含むことが考えられる。
誤り情報送信部1002は、ルール修正部1001から誤り情報を受け取り、誤り情報を外部のサーバなど(図示せず)へ送信する。また、外部へ送信した誤り情報に関する同表記異音語の情報を取得する場合、音声合成装置1000は、外部のサーバから誤り情報に関する同表記異音語情報を得て辞書格納部103に格納すればよい。
以上に示した第2の実施形態によれば、辞書格納部に格納されていない同表記異音語に関する情報を外部に送信することで、効率的に辞書格納部に格納される同表記異音語辞書の語彙数を増やすことができる。
なお、上述した本実施形態にかかる音声合成装置は1つのデバイスで実現する例を示したが、サーバとクライアントとで実現することも可能である。
例えば、サーバは、選択部102、辞書格納部103、検索部104、ルール修正部105および音声合成部106を含み、クライアントは、修正指示取得部101および表示部107を含む。各部の動作は上述と同様の処理を行えばよい。このように、格納されるデータ量が多い辞書格納部103および処理量が多い音声合成処理を行なう音声合成部106をサーバ側に備えることで、クライアント側での処理量を減らすことができ、クライアントをより簡易な構成とすることができる。
上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した音声合成装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、CD−R、CD−RW、DVD−ROM、DVD±R、DVD±RW、Blu−ray(登録商標)Discなど)、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をCPUで実行させれば、上述した実施形態の音声合成装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行なうことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100,1000・・・音声合成装置、101・・・修正指示取得部、102・・・選択部、103・・・辞書格納部、104・・・検索部、105・・・ルール修正部、106・・・音声合成部、107・・・表示部、201,701・・・見出し、202,702・・・読み、400・・・スマートフォン、401,501・・・本文、402・・・ボタン、403,502,603,903・・・誤り検索範囲、601,901・・・入力テキスト、602,902・・・合成音声、703・・・読み仮名、704・・・アクセント、801・・・読み尤度、1001・・・ルール修正部、1002・・・誤り情報送信部。

Claims (10)

  1. テキストから合成音声を生成する音声合成部と、
    前記合成音声によるテキストの読み上げ中にユーザの動作に基づく修正指示を検出し、該修正指示があった時刻を示す時間情報を得る取得部と、
    前記時間情報に基づいて、修正の対象となる修正対象語を少なくとも含む文字列である検索範囲を前記テキストから選択する選択部と、
    前記修正対象語の読みを変更する条件を示す修正ルールに基づいて、前記検索範囲に含まれる前記修正対象語に対応する第1読みとは異なる第2読みで音声合成するように前記修正対象語の読みを修正する修正部と、を具備することを特徴とする音声合成装置。
  2. 同じ表記であるが発音が異なる同表記異音語ごとに、該同表記異音語の表記と該表記の複数の読みとを関連づけて格納する格納部と、
    前記修正対象語と、前記格納部に格納される同表記異音語とが一致するかどうかを検索し、該修正対象語と該同表記異音語とが一致する場合、前記第2読みに関する読み情報を得る検索部と、をさらに具備することを特徴とする請求項1に記載の音声合成装置。
  3. 前記修正対象語と前記格納部に格納される同表記異音語とが一致しない場合、該修正対象語に関する情報を含む誤り情報を外部へ送信する送信部をさらに具備することを特徴とする請求項2に記載の音声合成装置。
  4. 前記読み情報は、単語の読み仮名と該単語のアクセント情報とを含むことを特徴とする請求項2または請求項3に記載の音声合成装置。
  5. 前記修正指示は、前記読み仮名および前記アクセント情報を含まないことを特徴とする請求項4に記載の音声合成装置。
  6. 前記音声合成部は、前記修正指示があった場合でも継続して音声合成して合成音声を生成し、
    前記修正部は、前記修正指示があった時点以降に前記テキスト中に出現する前記修正対象語について前記第1読みから前記第2読みに変更することを特徴とする請求項1から請求項5のいずれか1項に記載の音声合成装置。
  7. 前記選択部は、前記修正指示を取得した第1時点から第1期間遡った第2時点までの間に生成された合成音声に対応する文字列を検索範囲として選択することを特徴とする請求項1から請求項6のいずれか1項に記載の音声合成装置。
  8. 前記修正部は、前記検索範囲に複数の同表記異音語が含まれる場合、該複数の同表記異音語のうちの第1同表記異音語に関する第1読みを第2読みに変更したのち、再度ユーザからの修正指示があったときの検索範囲に該第1同表記異音語が含まれる場合、該第1同表記異音語に関する該第2読みを該第1読みに戻し、該第1同表記異音語と異なる第2同表記異音語に関する第1読みを第2読みに変更することを特徴とする請求項2から請求項7のいずれか1項に記載の音声合成装置。
  9. テキストから合成音声を生成し、
    前記合成音声によるテキストの読み上げ中にユーザの動作に基づく修正指示を検出し、該修正指示があった時刻を示す時間情報を得、
    前記時間情報に基づいて、修正の対象となる修正対象語を少なくとも含む文字列である検索範囲を前記テキストから選択する選択し、
    前記修正対象語の読みを変更する条件を示す修正ルールに基づいて、前記検索範囲に含まれる前記修正対象語に対応する第1読みとは異なる第2読みで音声合成するように前記修正対象語の読みを修正することを特徴とする音声合成方法。
  10. コンピュータを、
    テキストから合成音声を生成する音声合成部と、
    前記合成音声によるテキストの読み上げ中にユーザの動作に基づく修正指示を検出し、該修正指示があった時刻を示す時間情報を得る取得手段と、
    前記時間情報に基づいて、修正の対象となる修正対象語を少なくとも含む文字列である検索範囲を前記テキストから選択する選択手段と、
    前記修正対象語の読みを変更する条件を示す修正ルールに基づいて、前記検索範囲に含まれる前記修正対象語に対応する第1読みとは異なる第2読みで音声合成するように前記修正対象語の読みを修正する修正手段として機能させるための音声合成プログラム。
JP2012181469A 2012-08-20 2012-08-20 音声合成装置、方法およびプログラム Active JP5863598B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012181469A JP5863598B2 (ja) 2012-08-20 2012-08-20 音声合成装置、方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012181469A JP5863598B2 (ja) 2012-08-20 2012-08-20 音声合成装置、方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2014038265A JP2014038265A (ja) 2014-02-27
JP5863598B2 true JP5863598B2 (ja) 2016-02-16

Family

ID=50286432

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012181469A Active JP5863598B2 (ja) 2012-08-20 2012-08-20 音声合成装置、方法およびプログラム

Country Status (1)

Country Link
JP (1) JP5863598B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112037756A (zh) * 2020-07-31 2020-12-04 北京搜狗科技发展有限公司 语音处理方法、装置和介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3093498B2 (ja) * 1992-12-28 2000-10-03 株式会社東芝 文書読み上げ装置
JP3230868B2 (ja) * 1992-12-28 2001-11-19 株式会社リコー 音声合成装置
JP2006039461A (ja) * 2004-07-30 2006-02-09 Toshiba Corp 音声合成支援システム、音声合成支援方法および音声合成支援プログラム
JP2007086309A (ja) * 2005-09-21 2007-04-05 Mitsubishi Electric Corp 音声合成装置、音声合成方法および音声合成プログラム
JP4704254B2 (ja) * 2006-03-16 2011-06-15 三菱電機株式会社 読み修正装置
JP5106608B2 (ja) * 2010-09-29 2012-12-26 株式会社東芝 読み上げ支援装置、方法、およびプログラム

Also Published As

Publication number Publication date
JP2014038265A (ja) 2014-02-27

Similar Documents

Publication Publication Date Title
US8515984B2 (en) Extensible search term suggestion engine
JP6526608B2 (ja) 辞書更新装置およびプログラム
JP6413256B2 (ja) 会議支援装置、会議支援装置の制御方法、及びプログラム
US9953018B2 (en) Transfer of content between documents of different storage types
JP5106608B2 (ja) 読み上げ支援装置、方法、およびプログラム
JP2015510602A (ja) 補助情報の再生の管理
US20190204998A1 (en) Audio book positioning
US20130000463A1 (en) Integrated music files
JP2013073275A (ja) 文書マークアップ支援装置、方法、及びプログラム
JP4859101B2 (ja) テキストに付与する発音情報の編集を支援するシステム
JP6483433B2 (ja) システム及び電子機器
CN109213893B (zh) 一种基于读音的词语显示方法和装置
GB2533842A (en) Text correction based on context
JP5007977B2 (ja) 機械翻訳装置、機械翻訳方法、及びプログラム
US20060195318A1 (en) System for correction of speech recognition results with confidence level indication
US20140379324A1 (en) Providing web-based alternate text options
KR102418953B1 (ko) 쇼핑 검색 결과 확장 방법 및 시스템
US8667296B1 (en) Generating a password from a media item
JP2018044993A (ja) 修正システム、修正方法及びプログラム
JP5863598B2 (ja) 音声合成装置、方法およびプログラム
CN115547337B (zh) 语音识别方法及相关产品
KR102407630B1 (ko) 서버, 사용자 단말 및 이들의 제어 방법.
JP2015200860A (ja) 辞書データベース管理装置、apiサーバ、辞書データベース管理方法、及び辞書データベース管理プログラム
TWI501205B (zh) 手語圖像輸入方法及裝置
US11947580B2 (en) Book search apparatus, book search database generation apparatus, book search method, book search database generation method, and program

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20131219

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20131226

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20140109

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140325

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141023

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141118

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150707

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150907

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151222

R151 Written notification of patent or utility model registration

Ref document number: 5863598

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350