JP6876543B2 - 音素認識辞書生成装置および音素認識装置ならびにそれらのプログラム - Google Patents
音素認識辞書生成装置および音素認識装置ならびにそれらのプログラム Download PDFInfo
- Publication number
- JP6876543B2 JP6876543B2 JP2017126929A JP2017126929A JP6876543B2 JP 6876543 B2 JP6876543 B2 JP 6876543B2 JP 2017126929 A JP2017126929 A JP 2017126929A JP 2017126929 A JP2017126929 A JP 2017126929A JP 6876543 B2 JP6876543 B2 JP 6876543B2
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- word
- string
- dictionary
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000006870 function Effects 0.000 claims description 5
- 238000009499 grossing Methods 0.000 claims description 5
- 238000000034 method Methods 0.000 description 6
- 238000013518 transcription Methods 0.000 description 5
- 230000035897 transcription Effects 0.000 description 5
- 238000013519 translation Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Description
しかし、表記上の読みと実際に発話された発音とでは異なることが多い。例えば、放送番組では、ニュース番組のアナウンサの正確な(発音辞書の発音と近い)発音に比べ、情報番組の出演者の発話は曖昧な発音が多い。
そこで、統計的機械翻訳モデルを利用して、アナウンサ等の正確な発音を前提とした音素列から、発音が不明瞭な発話の音素列の単語を推定して、発音辞書を拡張する技術が開示されている(特許文献1参照)。
この従来技術は、学習コーパスから、トライフォンを1つの単語として発音辞書を学習するとともに、トライフォンの連接確率を与える言語モデルを学習する。ここで、トライフォンは、例えば、「警察」の発音では、「(けー)k−e:+s」,「(さ)e:−s+a」,「(つ)s−a+ts」のように、中心音素を含めた前後の発音を含めて表現したものである。
従来技術で、アナウンサ等の正確な発音の音声とその書き起こしテキストとを学習コーパスとして用いて標準音素列と実発話音素列とを生成した場合、理想的には、それぞれの音素列がほぼ同じであることが望ましい。
しかし、従来技術では、標準音素列と実発話音素列とをDP(Dynamic Programming)マッチングした結果、音素が異なる割合(音素異なり率)が、22.8%あり、さらなる音素認識の精度改善が望まれている。
そして、音素認識辞書生成装置は、音素列単語生成手段によって、単語別音素列を1単語のテキストデータ形式に変換して音素列単語を生成する。例えば、音素列単語生成手段は、単語別音素列の音素間のスペースに音素以外の予め定めた文字(例えば、“+”)を挿入することで、音素列単語を生成する。これによって、音素認識辞書生成装置は、音素列単語を1単語として扱うことが可能になる。
さらに、音素認識辞書生成装置は、音素言語モデル生成手段によって、音素列単語生成手段で生成される音素列単語のリストから音素列単語の連鎖としてN−gram言語モデルを学習することにより、音素言語モデルを生成する。これによって、音素言語モデル生成手段は、音素認識を行う際の音素列単語の接続確率を計算するため音素列単語の出現確率をモデル化する。
そして、音素認識装置は、音素列生成手段によって、認識手段で認識された1単語のテキストデータ形式である音素列単語を、個々の音素に分離して音素列を生成する。例えば、音素列生成手段は、単語別音素列の音素間に挿入されている予め定めた文字(例えば、“+”)をスペースに置き換えることで、個々の音素に分離する。
本発明によれば、音素列を単語単位とした音素発音辞書および音素言語モデルを生成することができる。
この音素発音辞書および音素言語モデルを用いることで、音素認識する際の音素の連結確率を、単に音素の前後の依存性だけではなく、音素の単語内および単語間における依存性も加味して算出することが可能になり、音声から音素を認識する際の認識精度を高めることができる。
<第1実施形態>
〔音素認識辞書生成装置の構成〕
まず、図1を参照して、本発明の第1実施形態に係る音素認識辞書生成装置1の構成について説明する。
この発音辞書30は、一般的な発音辞書であって、例えば、人手を介して見出し語(単語)とその発音表記(音素列)とを対応付けた辞書である。
なお、音響モデル40における音響特徴量の尤度計算は、隠れマルコフモデル(HMM:Hidden Markov Model)や、ガウス混合モデル(GMM:Gaussian mixture model)音響モデルであっても構わない。
以下、音素認識辞書生成装置1の構成について詳細に説明する。
また、音素認識辞書生成装置1は、生成した音素発音辞書50を記憶する音素発音辞書記憶装置5と、生成した音素言語モデル60を記憶する音素言語モデル記憶装置6と、を外部に接続している。もちろん、音素発音辞書記憶装置5および音素言語モデル記憶装置6は、音素認識辞書生成装置1の内部に備える構成としてもよい。また、音素発音辞書記憶装置5および音素言語モデル記憶装置6は、1つの記憶装置で構成してもよい。
そして、単語別音素列生成手段10は、音声データに対応する図2(a)に示す学習コーパス20の書き起こしテキスト「世界一 短い 東京 …」を事前知識として、図2(b)に示す発音辞書30と、音響モデル40と、を用いて音声認識を行う。
単語別音素列生成手段10は、生成した単語別音素列を音素列単語生成手段11に出力する。
この音素列単語生成手段11は、単語別音素列の音素間に音素以外の予め定めた文字を挿入することで、個々に分離した音素列を、1単語のテキストデータ形式に変換する。
具体的には、組み合わせ音素列登録手段121は、図3に示す音素の例において、すべての音素(図3の例では、40音素)に対して、予め定めた最大音素数(ここでは、“4”とする)の音素の組み合わせ(401+402+403+404通り)の音素列を、音素発音辞書記憶装置5の音素発音辞書50に登録する
図4に示すように、音素発音辞書50は、単語別音素列登録手段120で登録される辞書Aと、組み合わせ音素列登録手段121で登録される辞書Bとで構成される。
辞書Aは、学習コーパス20の書き起こしに含まれる単語の発音を示す単語音素列のスペース部分を“+”に置き換えた単語別音素列を見出し語とし、スペースを含んだ音素列(単語別音素列)を見出し語に対応する発音表記とする。
図1に戻って、音素認識辞書生成装置1の構成について説明を続ける。
この音素列単語リスト130には、学習コーパス20の書き起こしに含まれる単語の音素列を1つの単語として順次書き込まれる。
音素言語モデルは、任意の音素列単語の単語列において、それが文である確率(尤度)を付与する確率モデル(統計的言語モデル)である。この音素言語モデルは、例えば、N−gram言語モデルであって、以下の式(1)に示すように、音素列単語の列w1w2…wi−1の後にi番目の音素列単語wiが出現する条件付き確率(Nグラム確率)を与えるモデルである。なお、桁あふれを防止するため、式(1)の尤度を対数とし、対数尤度とすることが好ましい。
音素言語モデル生成手段14は、生成した音素言語モデルを音素言語モデル記憶装置6に書き込み記憶する。
図6に示すように、音素言語モデル60は、2つの音素列単語w1,w2に対して、Nグラム確率(logP(w2|w1))を対応付けたものである。
なお、音素認識辞書生成装置1は、図示を省略したコンピュータを、前記した各手段として機能させるプログラム(音素認識辞書生成プログラム)で動作させることができる。
次に、図7を参照(構成については適宜図1参照)して、本発明の第1実施形態に係る音素認識辞書生成装置1の動作について説明する。
一方、学習コーパス20の入力が終了した場合(ステップS5でYes)、音素認識辞書生成装置1は、ステップS6に動作を進める。
以上の動作によって、音素認識辞書生成装置1は、音声から音素を認識するための辞書として、音素発音辞書および音素言語モデルを生成する。
〔音素認識装置〕
次に、図8を参照して、本発明の第2実施形態に係る音素認識装置200について説明する。
音素言語モデル60は、図1で説明した音素認識辞書生成装置1で生成されたものである(図6参照)。
この認識手段201は、外部から入力される音声データから音響特徴量を抽出し、音響モデル40と音素発音辞書50とから音素列単語の候補をリストアップする。そして、認識手段201は、その候補の中で、音素言語モデル60に基づく接続確率が最大となる音素列単語を認識結果とする。
認識手段201は、認識した音素列単語を、順次、音素列生成手段202に出力する。
具体的には、音素列生成手段202は、音素列単語から、音素以外の予め定めた文字(ここでは、“+”)をスペースに置き換えて、音素列を生成する。例えば、音素列生成手段202は、音素列単語“s+e+k+a+i+i+ch+i”を音素列“s△e△k△a△i△i△ch△i”に変換して出力する。
この音素列生成手段202が行う変換処理は、図1で説明した音素列単語生成手段11の変換処理の逆変換に相当する。
なお、音素認識装置200は、図示を省略したコンピュータを、前記した各手段として機能させるプログラム(音素認識プログラム)で動作させることができる。
ここでは、音素発音辞書50の見出し語と音素言語モデル60の接続対象とを、音素列単語生成手段11(図1参照)が生成した単語別音素列のスペースを“+”とした音素列単語とすることで、1単語分の音素列を1つの単語として扱うこととした。
この場合も、音素列生成手段202(図8参照)は、音素列単語生成手段11(図1参照)が行った処理の逆変換を行えばよい。
しかし、音素言語モデル生成手段14は、N−gram言語モデルであれば、1−gram言語モデル、3−gram言語モデル等であっても構わない。
10 単語別音素列生成手段
11 音素列単語生成手段
12 音素発音辞書生成手段
120 単語別音素列登録手段
121 組み合わせ音素列登録手段
13 音素列単語リスト記憶手段
130 音素列単語リスト
14 音素言語モデル生成手段
2 学習コーパス記憶装置
20 学習コーパス
3 発音辞書記憶装置
30 発音辞書
4 音響モデル記憶装置
40 音響モデル
5 音素発音辞書記憶装置
50 音素発音辞書
6 音素言語モデル記憶装置
60 音素言語モデル
Claims (7)
- 音響モデルと発音辞書と学習コーパスとを用いて、音素認識に用いる音素発音辞書および音素言語モデルを生成する音素認識辞書生成装置であって、
前記学習コーパスの音声を、前記音響モデルと前記発音辞書とに基づいて音声認識し、前記発音辞書に登録されている見出し語に対応する単語ごとの音素列である単語別音素列を生成する単語別音素列生成手段と、
前記単語別音素列を1単語のテキストデータ形式に変換して音素列単語を生成する音素列単語生成手段と、
前記音素列単語を見出し語とし、当該音素列単語に対応する前記単語別音素列を発音表記とすることで、前記音素発音辞書を生成する音素発音辞書生成手段と、
前記音素列単語生成手段で生成される前記音素列単語のリストから前記音素列単語の連鎖としてN−gram言語モデルを学習することにより、前記音素言語モデルを生成する音素言語モデル生成手段と、
を備えることを特徴とする音素認識辞書生成装置。 - 前記単語別音素列生成手段は、前記単語別音素列の音素間に音素以外の予め定めた文字を挿入することで、前記音素列単語を生成することを特徴とする請求項1に記載の音素認識辞書生成装置。
- 前記音素発音辞書生成手段は、予め定めた数の音素を組み合わせた音素列を前記テキストデータ形式に変換した見出し語とし、当該見出し語に対応する音素列を発音表記として前記音素発音辞書に登録することを特徴とする請求項1または請求項2に記載の音素認識辞書生成装置。
- 前記音素言語モデル生成手段は、前記音素列単語生成手段で生成される前記音素列単語のリストに存在しない音素列単語の連鎖に対して、スムージングによりNグラム確率を与えることを特徴とする請求項1から請求項3のいずれか一項に記載の音素認識辞書生成装置。
- コンピュータを、請求項1から請求項4のいずれか一項に記載の音素認識辞書生成装置として機能させるための音素認識辞書生成プログラム。
- 音響モデルと、請求項1から請求項4のいずれか一項に記載の音素認識辞書生成装置により生成された音素発音辞書および音素言語モデルとを用いて、音声の音素を認識する音素認識装置であって、
前記音響モデルと前記音素発音辞書と前記音素言語モデルとにより、前記音声を音素列単語単位で認識する認識手段と、
この認識手段で認識された1単語のテキストデータ形式である音素列単語を、個々の音素に分離して音素列を生成する音素列生成手段と、
を備えることを特徴とする音素認識装置。 - コンピュータを、請求項6に記載の音素認識装置として機能させるための音素認識プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017126929A JP6876543B2 (ja) | 2017-06-29 | 2017-06-29 | 音素認識辞書生成装置および音素認識装置ならびにそれらのプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017126929A JP6876543B2 (ja) | 2017-06-29 | 2017-06-29 | 音素認識辞書生成装置および音素認識装置ならびにそれらのプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019012095A JP2019012095A (ja) | 2019-01-24 |
JP6876543B2 true JP6876543B2 (ja) | 2021-05-26 |
Family
ID=65226875
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017126929A Active JP6876543B2 (ja) | 2017-06-29 | 2017-06-29 | 音素認識辞書生成装置および音素認識装置ならびにそれらのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6876543B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111489739B (zh) * | 2020-04-17 | 2023-06-16 | 嘉楠明芯(北京)科技有限公司 | 音素识别方法、装置及计算机可读存储介质 |
CN112530414B (zh) * | 2021-02-08 | 2021-05-25 | 数据堂(北京)科技股份有限公司 | 迭代式大规模发音词典构建方法及装置 |
US20240144915A1 (en) * | 2021-03-03 | 2024-05-02 | Nec Corporation | Speech recognition apparatus, speech recognition method, learning apparatus, learning method, and recording medium |
CN113345442B (zh) * | 2021-06-30 | 2024-06-04 | 西安乾阳电子科技有限公司 | 语音识别方法、装置、电子设备及存储介质 |
CN115831120B (zh) * | 2023-02-03 | 2023-06-16 | 北京探境科技有限公司 | 语料数据采集方法、装置、电子设备及可读存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6475517B2 (ja) * | 2015-03-02 | 2019-02-27 | 日本放送協会 | 発音系列拡張装置およびそのプログラム |
-
2017
- 2017-06-29 JP JP2017126929A patent/JP6876543B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2019012095A (ja) | 2019-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6876543B2 (ja) | 音素認識辞書生成装置および音素認識装置ならびにそれらのプログラム | |
WO2017213055A1 (ja) | 音声認識装置及びコンピュータプログラム | |
JP6052814B2 (ja) | 音声認識モデルの構築方法、音声認識方法、コンピュータ・システム、音声認識装置、プログラムおよび記録媒体 | |
US7415411B2 (en) | Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers | |
Le et al. | Automatic speech recognition for under-resourced languages: application to Vietnamese language | |
JP5660441B2 (ja) | 音声認識装置、音声認識方法、及びプログラム | |
JPWO2009078256A1 (ja) | 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム | |
Helgadóttir et al. | Building an ASR Corpus Using Althingi's Parliamentary Speeches. | |
Menacer et al. | An enhanced automatic speech recognition system for Arabic | |
Imseng et al. | Fast and flexible Kullback-Leibler divergence based acoustic modeling for non-native speech recognition | |
WO2004047075A1 (ja) | 音声処理装置および方法、記録媒体並びにプログラム | |
Serrino et al. | Contextual Recovery of Out-of-Lattice Named Entities in Automatic Speech Recognition. | |
Razavi et al. | Acoustic data-driven grapheme-to-phoneme conversion in the probabilistic lexical modeling framework | |
Kayte et al. | Implementation of Marathi Language Speech Databases for Large Dictionary | |
JP6475517B2 (ja) | 発音系列拡張装置およびそのプログラム | |
Seng et al. | Which unit for acoustic and language modeling for Khmer Automatic Speech Recognition? | |
Halabi | Arabic speech corpus | |
JP3776391B2 (ja) | 多言語音声認識方法、装置、プログラム | |
Pellegrini et al. | Automatic word decompounding for asr in a morphologically rich language: Application to amharic | |
Valizada | Subword speech recognition for agglutinative languages | |
JP2974621B2 (ja) | 音声認識用単語辞書作成装置及び連続音声認識装置 | |
JP6568429B2 (ja) | 発音系列拡張装置およびそのプログラム | |
Veisi et al. | Jira: a Kurdish Speech Recognition System Designing and Building Speech Corpus and Pronunciation Lexicon | |
JP2008026721A (ja) | 音声認識装置、音声認識方法、および音声認識用プログラム | |
Engelbrecht et al. | Rapid development of an Afrikaans English speech-to-speech translator |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200424 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210318 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210330 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210426 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6876543 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE Ref document number: 6876543 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |