JP5863598B2 - 音声合成装置、方法およびプログラム - Google Patents
音声合成装置、方法およびプログラム Download PDFInfo
- Publication number
- JP5863598B2 JP5863598B2 JP2012181469A JP2012181469A JP5863598B2 JP 5863598 B2 JP5863598 B2 JP 5863598B2 JP 2012181469 A JP2012181469 A JP 2012181469A JP 2012181469 A JP2012181469 A JP 2012181469A JP 5863598 B2 JP5863598 B2 JP 5863598B2
- Authority
- JP
- Japan
- Prior art keywords
- reading
- correction
- speech
- target word
- correction target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
(第1の実施形態)
第1の実施形態に係る音声合成装置について図1のブロック図を参照して説明する。
第1の実施形態に係る音声合成装置100は、修正指示取得部101、選択部102、辞書格納部103、検索部104、ルール修正部105、音声合成部106および表示部107を含む。
辞書格納部103は、同じ表記であるが読みが異なる語である同表記異音語に関するテーブルである同表記異音語辞書を格納する。辞書格納部103に格納される具体的な同表記異音語辞書は図2を参照して後述する。
ルール修正部105は、検索部104から読み情報を受け取り、後述の音声合成部106で、修正指示があったのちにテキスト中に出現する修正対象語に対して、異なる読みで読み上げるように修正する。
音声合成部106は、入力テキストを受け取り、入力テキストの語に対して音声合成処理を行ない、合成音声を生成して外部に出力する。音声合成部106は、ルール修正部105から修正があった場合は、読みを変更して音声合成処理を行なう。なお、本実施形態に係る音声合成処理は一般的な音声合成処理であるため、ここでの説明は省略する。
図2に示すように、見出し201、読み202−1および読み202−2がそれぞれ対応づけられて格納される。見出し201は、同表記異音語の表記を示す。読み202−1および読み202−2は、見出し201の語に関する異なる読み仮名をそれぞれ示す。具体的には、例えば、見出し201「方」、読み202−1「ほう」および読み202−2「かた」がそれぞれ対応づけられて格納される。このように、1つの見出しに対して複数の読み仮名が対応づけられる。
ステップS301では、修正指示取得部101が、ユーザからの修正指示を取得する。
ステップS302では、選択部102が、修正指示情報に基づいて音声合成中のテキストから誤り検索範囲を選択する。誤り検索範囲の決定方法としては、例えば、時間情報に基づいて修正指示を取得した時点から一定時間遡った時点までの間に音声合成された文字列を、誤り検索範囲とすればよい。また、時間情報によらず、修正指示を取得した時点で出力された合成音声に対応する第1文字から、所定の文字数だけ前に遡って生成された合成音声に対応する第2文字との間の文字列を検索範囲としてもよい。例えば、修正指示があった時点で読み上げた単語から遡って10文字前までの文字列の範囲を誤り検索範囲とすればよい。さらに、修正指示があった時刻で読み上げられていた一文を誤り検索範囲としてもよい。
ステップS305では、ルール修正部105が、読み情報に基づいて、修正指示があったのちにテキストに出現する修正対象語の音声合成による読み上げの際に、異なる読みで音声合成を行なうように修正する。以上で音声合成装置の動作を終了する。
図4は、いわゆるスマートフォン400(高機能携帯端末)を用いて音声合成による読み上げを行なうアプリケーションを起動している場合において、ユーザから修正指示が入力される場合を示す。表示画面には、本文401の表示する領域と、読み誤りを通知するためのボタン402(図4中では「読み誤り通知ボタン」)を示す領域とがある。
なお、修正指示取得部101は、タッチパネル式のディスプレイに限らず、決定ボタンなどハードウェアでのボタンが押下されることによりユーザからの修正指示を検出してもよい。
図5は、いわゆるタブレットPCにおいて、修正指示取得部101が、ユーザからの修正指示を検出する例を示す。タブレットPC500では、本文501がディスプレイに表示される。ユーザは、読み誤りを検知したときに、ディスプレイに表示される本文501のうちの読み誤った箇所に指またはタッチペンなどで触れる。選択部102は、ユーザが触れた部分の周辺を誤り検索範囲502として取得すればよい。例えば、ある単語を示す領域に触れた場合は、前後の単語を含めて誤り検索範囲502とすればよい。
図6は、入力テキスト601が音声合成され、合成音声602として読み上げられる例である。入力テキスト601中「ですから、菅野さんは学校の」に対応する合成音声602−1として「ですからかんのさんはがっこうの」と読み上げられた場合を想定する。このとき、ユーザから修正指示があり、誤り検索範囲603として「ですから、菅野さんは」が選択される。検索部104は、誤り検索範囲603内に同表記異音語である「菅野」が含まれているかどうかを検索する。図2の同表記異音語辞書を参照すると「菅野」が存在するので「菅野」が修正対象語となる。検索部104は、「かんの」と読み上げられたときに修正指示があったので、同表記異音語辞書における「かんの」の次の読みである「すがの」を読み情報として得る。ルール修正部105では、読み情報に基づいて、修正指示があった以降のテキスト中に出現する「菅野」の読みを、「かんの」の次の読みである「すがの」で読み上げるように設定する。図6の例では、入力テキスト601として「それでも菅野は」が出現するので合成音声602−2として「それでもすがのは」と読み上げる。
また、修正対象語の前後で出現した単語を組として記憶し、以降の読み上げで同じ組が出現した場合にのみ読み方を替える方法でもよい。例えば、「菅野さんは学校」のように、修正対象語「菅野」と「学校」とを組として、「菅野」と「学校」との組が出現した場合にのみ読み仮名として「すがの」で読み上げ、本文中に「菅野」が単独で出現した場合は、読み仮名として「かんの」で読み上げるようにしてもよい。
第1の実施形態では、同表記異音語辞書として読み仮名が異なる場合を例として説明したが、表記および読み仮名も同一であるが、アクセントが異なるという場合も想定される。例えば、「カキ」は、単一の読み仮名「かき」しか有さないが、アクセントによっては、果物である「柿」を意味したり、貝類である「牡蠣」を意味することがある。
よって、第1の変形例では、同表記異音語辞書にアクセントに関する項目を関連づけて含める点が第1の実施形態とは異なる。
第1の変形例に係る辞書格納部には、同表記異音語辞書として、見出し701と読み702とが対応づけられ、読み702として、読み仮名703およびアクセント704がそれぞれ対応づけて格納される。
第2の変形例は、誤り検索範囲に複数の修正対象語が存在する場合を想定する点が第1の実施形態と異なる。複数の修正対象語を全て修正すると過剰に修正してしまう場合が多い。そこで修正対象語を選択的に修正する点が異なる。
図8は、図2に示す同表記異音語辞書における見出し201および読み202に加えて、各読みに対する読み尤度801を対応づける点が異なる。具体的には、例えば、見出し201「方」、読み202−1「ほう」および対応する読み尤度801−1「0.6」、読み202−2「かた」および対応する読み尤度801−2「0.4」、がそれぞれ対応付けられ、辞書格納部103に格納される。読み尤度の算出方法は、例えば、読みが付いているテキストコーパスを大量に用意し、コーパス内での各読みの出現頻度の比を読み尤度とすればよいが、読み尤度を算出できればどのような方法でもよい。
図9の例では、図6と同様に、入力テキスト901を音声合成し、合成音声902で読み上げる場合を想定する。ここで、ユーザからの修正指示により誤り検索範囲903として「市場で菅野に」が得られたと仮定する。
例えば、図8を参照すると、「市場」を「しじょう」と読み尤度は0.7であり、「菅野」を「かんの」と読み尤度は0.55であるので、「菅野」の方が「市場」よりも現在の読みの尤度が低いことがわかる。よって、優先的に修正される修正対象語は「菅野」となる。
第2の実施形態は、誤り検索範囲に含まれる修正対象語が、辞書格納部に格納される同表記異音語辞書の中に含まれない場合に、外部のサーバなどへ誤り検索範囲の文字列などを送信する点が第1の実施形態とは異なる。ユーザからの修正指示があったにもかかわらず、誤り検索範囲内に修正可能な単語が存在しない場合は、誤り検索範囲内に同表記異音語辞書にない同表記異音語が含まれる可能性が高い。よって、外部へ誤り検索範囲に関する情報を送ることで、効率的に同表記異音語辞書の語彙数を増やすことができる。追加された同表記異音語の情報は、アプリケーションアップデート等によってアプリケーションに反映される。これにより従来修正できなかった箇所を修正できるようになるというユーザメリットがある。
第2の実施形態に係る音声合成装置1000は、修正指示取得部101、選択部102、辞書格納部103、検索部104、ルール修正部1001、音声合成部106、表示部107および誤り情報送信部1002を含む。
修正指示取得部101、選択部102、辞書格納部103、検索部104、音声合成部106および表示部107については、第1の実施形態と同様であるのでここでの説明は省略する。
例えば、サーバは、選択部102、辞書格納部103、検索部104、ルール修正部105および音声合成部106を含み、クライアントは、修正指示取得部101および表示部107を含む。各部の動作は上述と同様の処理を行えばよい。このように、格納されるデータ量が多い辞書格納部103および処理量が多い音声合成処理を行なう音声合成部106をサーバ側に備えることで、クライアント側での処理量を減らすことができ、クライアントをより簡易な構成とすることができる。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
Claims (10)
- テキストから合成音声を生成する音声合成部と、
前記合成音声によるテキストの読み上げ中にユーザの動作に基づく修正指示を検出し、該修正指示があった時刻を示す時間情報を得る取得部と、
前記時間情報に基づいて、修正の対象となる修正対象語を少なくとも含む文字列である検索範囲を前記テキストから選択する選択部と、
前記修正対象語の読みを変更する条件を示す修正ルールに基づいて、前記検索範囲に含まれる前記修正対象語に対応する第1読みとは異なる第2読みで音声合成するように前記修正対象語の読みを修正する修正部と、を具備することを特徴とする音声合成装置。 - 同じ表記であるが発音が異なる同表記異音語ごとに、該同表記異音語の表記と該表記の複数の読みとを関連づけて格納する格納部と、
前記修正対象語と、前記格納部に格納される同表記異音語とが一致するかどうかを検索し、該修正対象語と該同表記異音語とが一致する場合、前記第2読みに関する読み情報を得る検索部と、をさらに具備することを特徴とする請求項1に記載の音声合成装置。 - 前記修正対象語と前記格納部に格納される同表記異音語とが一致しない場合、該修正対象語に関する情報を含む誤り情報を外部へ送信する送信部をさらに具備することを特徴とする請求項2に記載の音声合成装置。
- 前記読み情報は、単語の読み仮名と該単語のアクセント情報とを含むことを特徴とする請求項2または請求項3に記載の音声合成装置。
- 前記修正指示は、前記読み仮名および前記アクセント情報を含まないことを特徴とする請求項4に記載の音声合成装置。
- 前記音声合成部は、前記修正指示があった場合でも継続して音声合成して合成音声を生成し、
前記修正部は、前記修正指示があった時点以降に前記テキスト中に出現する前記修正対象語について前記第1読みから前記第2読みに変更することを特徴とする請求項1から請求項5のいずれか1項に記載の音声合成装置。 - 前記選択部は、前記修正指示を取得した第1時点から第1期間遡った第2時点までの間に生成された合成音声に対応する文字列を検索範囲として選択することを特徴とする請求項1から請求項6のいずれか1項に記載の音声合成装置。
- 前記修正部は、前記検索範囲に複数の同表記異音語が含まれる場合、該複数の同表記異音語のうちの第1同表記異音語に関する第1読みを第2読みに変更したのち、再度ユーザからの修正指示があったときの検索範囲に該第1同表記異音語が含まれる場合、該第1同表記異音語に関する該第2読みを該第1読みに戻し、該第1同表記異音語と異なる第2同表記異音語に関する第1読みを第2読みに変更することを特徴とする請求項2から請求項7のいずれか1項に記載の音声合成装置。
- テキストから合成音声を生成し、
前記合成音声によるテキストの読み上げ中にユーザの動作に基づく修正指示を検出し、該修正指示があった時刻を示す時間情報を得、
前記時間情報に基づいて、修正の対象となる修正対象語を少なくとも含む文字列である検索範囲を前記テキストから選択する選択し、
前記修正対象語の読みを変更する条件を示す修正ルールに基づいて、前記検索範囲に含まれる前記修正対象語に対応する第1読みとは異なる第2読みで音声合成するように前記修正対象語の読みを修正することを特徴とする音声合成方法。 - コンピュータを、
テキストから合成音声を生成する音声合成部と、
前記合成音声によるテキストの読み上げ中にユーザの動作に基づく修正指示を検出し、該修正指示があった時刻を示す時間情報を得る取得手段と、
前記時間情報に基づいて、修正の対象となる修正対象語を少なくとも含む文字列である検索範囲を前記テキストから選択する選択手段と、
前記修正対象語の読みを変更する条件を示す修正ルールに基づいて、前記検索範囲に含まれる前記修正対象語に対応する第1読みとは異なる第2読みで音声合成するように前記修正対象語の読みを修正する修正手段として機能させるための音声合成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012181469A JP5863598B2 (ja) | 2012-08-20 | 2012-08-20 | 音声合成装置、方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012181469A JP5863598B2 (ja) | 2012-08-20 | 2012-08-20 | 音声合成装置、方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014038265A JP2014038265A (ja) | 2014-02-27 |
JP5863598B2 true JP5863598B2 (ja) | 2016-02-16 |
Family
ID=50286432
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012181469A Active JP5863598B2 (ja) | 2012-08-20 | 2012-08-20 | 音声合成装置、方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5863598B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112037756A (zh) * | 2020-07-31 | 2020-12-04 | 北京搜狗科技发展有限公司 | 语音处理方法、装置和介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3093498B2 (ja) * | 1992-12-28 | 2000-10-03 | 株式会社東芝 | 文書読み上げ装置 |
JP3230868B2 (ja) * | 1992-12-28 | 2001-11-19 | 株式会社リコー | 音声合成装置 |
JP2006039461A (ja) * | 2004-07-30 | 2006-02-09 | Toshiba Corp | 音声合成支援システム、音声合成支援方法および音声合成支援プログラム |
JP2007086309A (ja) * | 2005-09-21 | 2007-04-05 | Mitsubishi Electric Corp | 音声合成装置、音声合成方法および音声合成プログラム |
JP4704254B2 (ja) * | 2006-03-16 | 2011-06-15 | 三菱電機株式会社 | 読み修正装置 |
JP5106608B2 (ja) * | 2010-09-29 | 2012-12-26 | 株式会社東芝 | 読み上げ支援装置、方法、およびプログラム |
-
2012
- 2012-08-20 JP JP2012181469A patent/JP5863598B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2014038265A (ja) | 2014-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8515984B2 (en) | Extensible search term suggestion engine | |
JP6526608B2 (ja) | 辞書更新装置およびプログラム | |
JP6413256B2 (ja) | 会議支援装置、会議支援装置の制御方法、及びプログラム | |
US9953018B2 (en) | Transfer of content between documents of different storage types | |
JP5106608B2 (ja) | 読み上げ支援装置、方法、およびプログラム | |
JP2015510602A (ja) | 補助情報の再生の管理 | |
US20190204998A1 (en) | Audio book positioning | |
US20130000463A1 (en) | Integrated music files | |
JP2013073275A (ja) | 文書マークアップ支援装置、方法、及びプログラム | |
JP4859101B2 (ja) | テキストに付与する発音情報の編集を支援するシステム | |
JP6483433B2 (ja) | システム及び電子機器 | |
CN109213893B (zh) | 一种基于读音的词语显示方法和装置 | |
GB2533842A (en) | Text correction based on context | |
JP5007977B2 (ja) | 機械翻訳装置、機械翻訳方法、及びプログラム | |
US20060195318A1 (en) | System for correction of speech recognition results with confidence level indication | |
US20140379324A1 (en) | Providing web-based alternate text options | |
KR102418953B1 (ko) | 쇼핑 검색 결과 확장 방법 및 시스템 | |
US8667296B1 (en) | Generating a password from a media item | |
JP2018044993A (ja) | 修正システム、修正方法及びプログラム | |
JP5863598B2 (ja) | 音声合成装置、方法およびプログラム | |
CN115547337B (zh) | 语音识别方法及相关产品 | |
KR102407630B1 (ko) | 서버, 사용자 단말 및 이들의 제어 방법. | |
JP2015200860A (ja) | 辞書データベース管理装置、apiサーバ、辞書データベース管理方法、及び辞書データベース管理プログラム | |
TWI501205B (zh) | 手語圖像輸入方法及裝置 | |
US11947580B2 (en) | Book search apparatus, book search database generation apparatus, book search method, book search database generation method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20131219 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20131226 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20140109 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140325 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20141023 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141118 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150116 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150707 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150907 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20151124 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151222 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5863598 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313114 Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |