JP6475517B2 - 発音系列拡張装置およびそのプログラム - Google Patents
発音系列拡張装置およびそのプログラム Download PDFInfo
- Publication number
- JP6475517B2 JP6475517B2 JP2015040346A JP2015040346A JP6475517B2 JP 6475517 B2 JP6475517 B2 JP 6475517B2 JP 2015040346 A JP2015040346 A JP 2015040346A JP 2015040346 A JP2015040346 A JP 2015040346A JP 6475517 B2 JP6475517 B2 JP 6475517B2
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- pronunciation
- sequence
- model
- string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013519 translation Methods 0.000 claims description 83
- 238000013518 transcription Methods 0.000 claims description 7
- 230000035897 transcription Effects 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 2
- 230000014616 translation Effects 0.000 claims 14
- 238000000034 method Methods 0.000 description 10
- 230000007704 transition Effects 0.000 description 10
- 238000004519 manufacturing process Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 238000007796 conventional method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 239000013077 target material Substances 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Description
しかし、表記上の読みと実際に発話された発音とでは異なることが多い。例えば、放送番組では、ニュース番組のアナウンサの正確な(発音辞書の発音と近い)発音に比べ、情報番組の出演者の発話は曖昧な発音が多い。
このように、実際に発話された発音が、発音辞書に登録された読みから変動を起こしていた場合、発音内容と単語が一致しないことになる。その場合、音声認識では、発音内容に近い単語を選択するため、誤認識が発生してしまう。
例えば、発音辞書に、標準的な発音に加え、発話音声を忠実に書き起こした書き起こしテキストを発音変動事例として追加登録する手法が開示されている(非特許文献1)。
また、非特許文献1と同様に、発話音声の書き起こしテキストを用いて、発話音声から発音変動を検出し、そのパターンを学習することで、変形発音の出現傾向に関する発音系列の確率的変動規則を生成する手法が開示されている(非特許文献2)。
この発話音声の書き起こしテキストを利用する手法は、発音変動の規則を、人手を介して登録する必要があり、また、その規則の元となる事例を多数得なければならない等、膨大な労力を要する。
しかし、話し言葉で発話された発音変動は、単語に依存して単語内に起こる変動ばかりではなく、異なる単語であっても、同様の発音しにくい音素列で起こるものがある。
例えば、「女川湾」の読みである「おながわわん」が発音しにくいため、「おながわん」と発音される場合がある。しかし、この発音変動は、「女川湾」に限定されるものではない。例えば、「志津川湾」の読みである「しづがわわん」についても、同様に、「しづがわん」と発音される場合がある。
これは、単語内の音素列「gawawa」が「gawa」に変動することで起こるものである。前記した非特許文献1,2の手法であれば、音素列「gawawa」を含んだ単語のすべてに対して、個別に手動でこの変動規則を設定しなければならず、膨大な手間を要するという問題がある。
例えば、「北側は」のように、2つの単語「北側」と「は」との間を跨いで音素列「gawawa」が存在し、発音のしにくさから変動する場合がある。
このように、単語を跨いだ発音変動は、従来の手法では考慮されておらず、発音辞書には登録されないため、音声認識の精度を落とす要因となっていた。
ここで、複数組音素とは、複数の音素で構成される音素列である。例えば、3つの音素で構成されるトライフォン(triphone)、5つの音素で構成されるクイントフォン(quintphone)等である。このトライフォン等の複数組音素は、中心音素が前後の音素に影響を受けることを考慮したもので、モノフォン(単一音素)の音素列よりも正確な発音を示す情報となる。
また、発音系列拡張装置は、複数組音素言語モデル生成手段によって、複数組音素を1単語として、その出現頻度、接続のしやすさを統計的にモデル化、例えば、Nグラムモデルでモデル化することで、複数組音素言語モデルを生成する。
このように、複数組音素を単位とするため、単語に依存せずに、音素単位で音声認識可能な発音辞書および言語モデルが生成されることになる。
このように、発音系列拡張装置は、音素単位で音声を認識するため、音声の前後の発音変動をより正確に表現した音素列を生成することができる。
これによって、正確な発音である標準音素列から、発音変動を伴った実発話音素列へ翻訳を行うためのモデルが生成されることになる。
これによって、発音辞書に登録されている正しい音素列に対して、発音変動を加味した音素列が生成されることになる。
これによって、発音系列拡張装置は、発音辞書の見出し語に、実発話に基づく発音変動を考慮した音素列を新たな発音として追加することができる。
本発明によれば、発音辞書に対して、実発話に基づく発音変動を考慮して、発音系列を拡張することができる。また、本発明によれば、発音辞書における同様の発音変動が発生する見出し語に対して、発音系列を統計的な確率に基づいて拡張することができる。
また、本発明は、音素単位で発音変動を認識するため、単語内の発音変動のみならず、単語間に跨った発音変動にも対応して、発音辞書の発音系列を拡張することができる。
これによって、本発明で拡張された発音辞書を用いることで、今まで発音辞書に登録されていなかった標準的な発音以外の発音であっても、精度よく音声認識することが可能になる。
〔発音系列拡張装置の構成〕
まず、図1を参照して、本発明の実施形態に係る発音系列拡張装置1の構成について説明する。
この発音辞書100は、従来の発音辞書として、人手を介して文字列(単語)とその発音系列とを対応付けた辞書であってもよいし、発音系列拡張装置1によって拡張された拡張発音辞書103をさらに拡張させたい場合は、拡張発音辞書103を発音辞書100として用いてもよい。
なお、発音辞書100、音響モデル101および学習コーパス102は、それぞれ図示を省略した記憶手段に記憶されているものとする。
以下、発音系列拡張装置1の構成について詳細に説明する。
すなわち、音素列生成手段10は、学習コーパス102の音声から、音響モデル101に対応する音響特徴量を抽出する。そして、音素列生成手段10は、音響モデル101のトライフォンHMMを用いて、音声の書き起こしテキスト(テキストコーパス)を事前知識とする音声認識を行うことで、音声を、発音辞書100に登録されている文字列(見出し語)に対応して切り分け(強制アライメント)、各文字列に対応する音素列をトライフォン(3組の音素)単位で抽出する。
また、音素列生成手段10は、生成したトライフォンで表された音素列の中心音素を抽出し、標準音素列10mとする。この標準音素列10mは図示を省略した記憶手段に記憶され、統計的機械翻訳モデル生成手段14において利用される。
図2(a)は、「警察と消防で見つかった」の音声から生成されたトライフォンで表された音素列の例を示している。ここで、トライフォンは、「○−○+○」というテキスト形式(トライフォンテキスト)で表され、前後の音素への影響(音素環境依存性)を考慮したものとなっている。
図2(a)中、「○+□」は、「(*−)○+□」のように「○□」の2音素で終わるバイフォン集合を示し、「○−□」は、「○−□(+*)」のように、「○□」の2音素で始まるバイフォン集合を示している。
図1に戻って、発音系列拡張装置1の構成について説明を続ける。
ここでは、トライフォン発音辞書生成手段11は、図3に示すように、左の列に見出し語(単語)、右の列に音素列(発音系列)を配置したトライフォン発音辞書11tを生成する。なお、トライフォン発音辞書11tの左の列の見出し語および右の列の音素列は、どちらも、音素列生成手段10で生成される同じトライフォンである。
このトライフォン発音辞書生成手段11は、生成したトライフォン発音辞書11tを、図示を省略した記憶手段に記憶する。このトライフォン発音辞書11tは、音素認識手段13において利用される。
このトライフォン言語モデル生成手段12は、生成したトライフォン言語モデル12tを、図示を省略した記憶手段に記憶する。このトライフォン言語モデル12tは、音素認識手段13において利用される。
この音素認識手段13は、学習コーパス102の音声から音響特徴量を抽出し、音響モデル101とトライフォン発音辞書11tとからトライフォンの候補をリストアップし、トライフォン言語モデル12tに基づく接続確率が最大となるトライフォンの音素列を認識結果とする。そして、音素認識手段13は、認識結果であるトライフォンの音素列の中心音素を抽出する。
すなわち、一般的な音声認識が単語単位で認識するのに対し、音素認識手段13は、トライフォン単位で認識し、実発話のモノフォンの音素列を生成する。
この音素認識手段13は、認識した音素列(実発話音素列13m)を、図示を省略した記憶手段に記憶する。この実発話音素列13mは、統計的機械翻訳モデル生成手段14において利用される。
ここでは、統計的機械翻訳モデル生成手段14は、フレーズ翻訳モデル生成手段141と、モノフォン言語モデル生成手段142と、を備える。
例えば、図4では、原言語フレーズの「KaQkok」が目的言語フレーズの「Kakok」に翻訳される確率は、60.20(%)であることを示している。
なお、図4のフレーズテーブルFTの「例」の欄は、参考までに、各フレーズを音素列として含む単語を示しており、実際にテーブル内に含まれるものではない。
すなわち、翻訳手段15は、前記式(1)により、見出し語の発音(原言語fの音素列に相当)が、フレーズ翻訳モデル141mであるPr(f|e)と、モノフォン言語モデル142mであるPr(e)との同時確率が最大となる音素列を、見出し語の翻訳文(目的言語eの音素列に相当)として生成する。
この翻訳手段15は、元の発音辞書100に登録されている見出し語ごとに、対応する発音系列の翻訳文を生成し、拡張手段16に出力する。
すなわち、拡張手段16は、元の発音辞書100に登録されている見出し語に対応する翻訳文が翻訳手段15から入力されるたびに、その翻訳文(音素列)と、元の発音辞書100に登録されている発音系列(音素列)とを比較する。そして、拡張手段16は、翻訳文と元の発音系列とが一致しない場合、当該見出し語に対して、翻訳文を新たな発音系列として追加する。
ここでは、拡張手段16は、元の発音辞書100の見出し語に対する発音系列(元の発音系列および新たな発音系列)を、新たな発音辞書として拡張発音辞書103に登録する。もちろん、拡張手段16は、元の発音辞書100に新たな発音系列のみを追加することとしてもよい。
図6に示すように、拡張発音辞書103は、「見出し語」、「元の音素列」、「追加音素列」で構成される。「見出し語」および「元の音素列」は、元の発音辞書100に登録されているものと同じで、「追加音素列」が、発音系列拡張装置1によって追加されたものである。
このように、発音系列拡張装置1は、発音のしにくさによって、単語内の音素列「gawawa」が「gawa」に発音変動する場合、個別に手動でこの変動規則を設定する必要がない。
このように、発音系列拡張装置1は、長い単語中の発音しにくい奥舌性子音の「g」の欠落についても発音辞書に追加することができる。
なお、この実施形態では、音素列生成手段10、トライフォン発音辞書生成手段11およびトライフォン言語モデル生成手段12において、複数組音素としてトライフォンを例に説明した。この複数組音素は、トライフォンに限定されることはなく、その他、組数を増やした音素(例えば、5つの音素で構成されるクイントフォン)であっても構わない。
また、発音系列拡張装置1は、図示を省略したコンピュータを、前記した各手段として機能させるプログラム(発音系列拡張プログラム)で動作させることができる。
次に、図8を参照(構成については適宜図1参照)して、本発明の実施形態に係る発音系列拡張装置1の動作について説明する。
すなわち、発音系列拡張装置1は、音素列生成手段10によって、発音辞書100と音響モデル101とに基づいて、学習コーパス102の音声(音声コーパス)を強制アライメントし、発音辞書100に登録されている文字列に対応するトライフォンの音素列を生成する(ステップS1)。
このステップS2で生成されたモノフォンの音素列は、後のステップS6で使用する原言語の音素列(標準音素列10m)である。
このステップS5で生成されたモノフォンの音素列は、後のステップS6で使用する目的言語の音素列(実発話音素列13m)である。
すなわち、発音系列拡張装置1は、統計的機械翻訳モデル生成手段14のフレーズ翻訳モデル生成手段141によって、標準音素列10mと実発話音素列13mとを対訳データとして、標準音素列10mのあるフレーズが、実発話音素列13mのあるフレーズに翻訳される翻訳モデル(フレーズ翻訳モデル141m)を生成する(ステップS6)。
その後、発音系列拡張装置1は、翻訳手段15によって、元の発音辞書100に登録されている見出し語の発音系列(音素列)を順次読み出し、ステップS6,S7で生成された統計的機械翻訳モデル14mに基づいて翻訳する(ステップS8)。
一方、すべての見出し語に対して、翻訳を完了した場合(ステップS10でYes)、発音系列拡張装置1は、動作を終了する。
以上の動作によって、発音系列拡張装置1は、発音変動のある発話音声の発音系列(音素列)を発音辞書に追加し、拡張することができる。
以上の説明において、発音辞書100の見出し語として、単語を例として説明した。しかし、発音系列拡張装置1は、音素を単位として発音変動の音素列を新たな発音系列とするため、必ずしも対象とする見出し語は単語である必要はなく、任意の文字列(複数の単語、文章等)であればよい。
これによって、発音系列拡張装置1は、単語内の発音変動のみならず、単語間の発音変動にも対応することができる。
以下、音声認識において使用される、入力記号、出力記号および遷移確率を持った有限状態マシンである重み付き有限状態トランスデューサ(WFST)の表記を用いて説明する。
例えば、3単語(「ある」「の」「です」)で構成される単語トライグラム「あるのです」の音素列が発音辞書100に登録されているとする。
この単語トライグラムを、従来のように単語のみを登録した発音辞書を用いてWFSTで表記すると、図9(b)のような遷移で表すことができる。
すなわち、この単語トライグラムは、図9(c)に示すような音素列の遷移として表される。
このように、本発明に係る発音系列拡張装置1は、単語内の発音変動のみならず、単語間に跨った発音変動に対しても、音声認識可能な発音辞書を生成することができる。
10 音素列生成手段
11 トライフォン発音辞書生成手段(複数組音素発音辞書生成手段)
12 トライフォン言語モデル生成手段(複数組音素言語モデル生成手段)
13 音素認識手段
14 統計的機械翻訳モデル生成手段
141 フレーズ翻訳モデル生成手段
142 モノフォン言語モデル生成手段(単一音素言語モデル生成手段)
15 翻訳手段
16 拡張手段
100 発音辞書
101 音響モデル
102 学習コーパス
103 拡張発音辞書
Claims (4)
- 見出し語とその発音系列を示す音素列とを対応付けた発音辞書と、複数組音素の音響モデルと、音声とその書き起こしテキストとを対応付けた学習コーパスとにより、前記発音辞書における前記見出し語の発音系列を拡張する発音系列拡張装置であって、
前記音響モデルと前記発音辞書とにより、前記学習コーパスの音声の複数組音素の音素列を生成するとともに、当該複数組音素の中心音素である単一音素の音素列を生成する音素列生成手段と、
前記複数組音素を見出し語およびその発音系列とする複数組音素発音辞書を生成する複数組音素発音辞書生成手段と、
前記複数組音素の音素列から、当該複数組音素を1単語とした言語モデルである複数組音素言語モデルを生成する複数組音素言語モデル生成手段と、
前記複数組音素発音辞書と前記複数組音素言語モデルとにより、前記学習コーパスの音声を音素単位で音声認識する音素認識手段と、
前記音素列生成手段で生成された単一音素の音素列である標準音素列と、前記音素認識手段で認識された音素列である実発話音素列とを対訳データとして、統計的機械翻訳モデルを生成する統計的機械翻訳モデル生成手段と、
前記統計的機械翻訳モデルにより、前記発音辞書に登録されている前記見出し語に対応する音素列を翻訳する翻訳手段と、
この翻訳手段で翻訳された音素列を新たな発音系列を示す音素列として前記見出し語に追加する拡張手段と、
を備えることを特徴とする発音系列拡張装置。 - 前記統計的機械翻訳モデル生成手段は、
前記標準音素列と前記実発話音素列とが対訳である確率をフレーズ翻訳モデルとして生成するフレーズ翻訳モデル生成手段と、
前記実発話音素列の単一音素を1単語とした言語モデルである単一音素言語モデルを生成する単一音素言語モデル生成手段と、を備え、
前記翻訳手段は、前記統計的機械翻訳モデルとして、前記見出し語の音素列に対して、前記フレーズ翻訳モデルと前記単一音素言語モデルとの同時確率が最大となる音素列を、当該見出し語の音素列の翻訳結果とすることを特徴とする請求項1に記載の発音系列拡張装置。 - 前記発音辞書の見出し語として、任意の文字数で構成された文字列を用いることを特徴とする請求項1または請求項2に記載の発音系列拡張装置。
- コンピュータを、請求項1から請求項3のいずれか一項に記載の発音系列拡張装置として機能させるための発音系列拡張プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015040346A JP6475517B2 (ja) | 2015-03-02 | 2015-03-02 | 発音系列拡張装置およびそのプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015040346A JP6475517B2 (ja) | 2015-03-02 | 2015-03-02 | 発音系列拡張装置およびそのプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016161765A JP2016161765A (ja) | 2016-09-05 |
JP6475517B2 true JP6475517B2 (ja) | 2019-02-27 |
Family
ID=56846883
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015040346A Active JP6475517B2 (ja) | 2015-03-02 | 2015-03-02 | 発音系列拡張装置およびそのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6475517B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6876543B2 (ja) * | 2017-06-29 | 2021-05-26 | 日本放送協会 | 音素認識辞書生成装置および音素認識装置ならびにそれらのプログラム |
WO2019208859A1 (ko) * | 2018-04-27 | 2019-10-31 | 주식회사 시스트란인터내셔널 | 발음 사전 생성 방법 및 이를 위한 장치 |
JP7306626B2 (ja) * | 2019-08-13 | 2023-07-11 | 日本電信電話株式会社 | 予測装置、予測方法及び予測プログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8918318B2 (en) * | 2007-01-16 | 2014-12-23 | Nec Corporation | Extended recognition dictionary learning device and speech recognition system |
WO2009078256A1 (ja) * | 2007-12-18 | 2009-06-25 | Nec Corporation | 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム |
-
2015
- 2015-03-02 JP JP2015040346A patent/JP6475517B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016161765A (ja) | 2016-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5040909B2 (ja) | 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム | |
Ramani et al. | A common attribute based unified HTS framework for speech synthesis in Indian languages | |
Karpov et al. | Large vocabulary Russian speech recognition using syntactico-statistical language modeling | |
CN107705787A (zh) | 一种语音识别方法及装置 | |
JP7092953B2 (ja) | エンドツーエンドモデルによる多言語音声認識のための音素に基づく文脈解析 | |
JP6245846B2 (ja) | 音声認識における読み精度を改善するシステム、方法、およびプログラム | |
JPWO2009078256A1 (ja) | 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム | |
Alsharhan et al. | Improved Arabic speech recognition system through the automatic generation of fine-grained phonetic transcriptions | |
Ekpenyong et al. | Statistical parametric speech synthesis for Ibibio | |
Reddy et al. | Integration of statistical models for dictation of document translations in a machine-aided human translation task | |
Menacer et al. | An enhanced automatic speech recognition system for Arabic | |
JP2020527253A (ja) | 音節に基づく自動音声認識 | |
JP6876543B2 (ja) | 音素認識辞書生成装置および音素認識装置ならびにそれらのプログラム | |
JP2008243080A (ja) | 音声を翻訳する装置、方法およびプログラム | |
Dua et al. | Punjabi speech to text system for connected words | |
JP6475517B2 (ja) | 発音系列拡張装置およびそのプログラム | |
Kipyatkova et al. | Lexicon size and language model order optimization for Russian LVCSR | |
Raza et al. | Design and development of phonetically rich Urdu speech corpus | |
Kayte et al. | Implementation of Marathi Language Speech Databases for Large Dictionary | |
JP6568429B2 (ja) | 発音系列拡張装置およびそのプログラム | |
KR20150027465A (ko) | 외국어 고유명사에 대한 다중 발음열 생성 방법 및 장치 | |
Kipyatkova et al. | Recurrent neural network-based language modeling for an automatic Russian speech recognition system | |
JP4764203B2 (ja) | 音声認識装置及び音声認識プログラム | |
Pellegrini et al. | Automatic word decompounding for asr in a morphologically rich language: Application to amharic | |
Valizada | Subword speech recognition for agglutinative languages |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180201 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181219 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190108 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190201 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6475517 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |