JP2010139745A - 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム - Google Patents
統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム Download PDFInfo
- Publication number
- JP2010139745A JP2010139745A JP2008315769A JP2008315769A JP2010139745A JP 2010139745 A JP2010139745 A JP 2010139745A JP 2008315769 A JP2008315769 A JP 2008315769A JP 2008315769 A JP2008315769 A JP 2008315769A JP 2010139745 A JP2010139745 A JP 2010139745A
- Authority
- JP
- Japan
- Prior art keywords
- pronunciation
- phoneme
- model
- basic
- basic form
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】統計的発音変異モデル(BNレキシコンモデル)を記憶する記憶媒体であって、モデル100は複数の音素発音変異項目を含む。発音変異項目の各々は、音素の基本形102と、音素の基本形102の表面形104と、基本形の文脈による知識源の組108、110、112及び114と、文脈による知識源の組108、110、112及び114によって決定される文脈において表面形104が基本形102から生じる確率とを含む。
【選択図】 図3
Description
1.始めに
以下で説明する実施の形態は、会話における音声認識の発音変異のモデル化に関するものであり、ここでは、規範的発音(基本形)から、実際の/現実化された音素(表面形)へのマッピングがベイズネットワークによってモデル化される。この図形的モデルフレームワークの利点は、基本形、表面形、及び何らかの付加的知識源の間の確率的関係を、統一された方法で学習できることである。従って、種々のドメインからの様々な付加的知識源を容易に組入れることができる。実施の形態では、表面形の、現在の基本形音素、先行する基本形音素及び後続の基本形音素に対する依存性、単語中の現在の基本形音素の位置に対する依存性、並びに、先行の表面音素が削除されたか否かに対する依存性を利用する。
2.1 一般的フレームワーク
このセクションでは、さまざまな付加的知識源を発音変異モデルに組入れる、提案に係る図形的フレームワークを紹介する。
図形的フレームワークを発音モデルに適用し、規範的辞書(基本形)から期待される音素が与えられた場合に、会話発音(表面形)で実現される音素モデルを予測することを重点とする。現在、Mは基本形Bであり、Dは実現された表面形Sであり、BL、BR、BP及びSCは図4で定義する付加的知識源である。
従って、結果として得られるBNlexモデルは複数個の音素発音変異項目を含む。発音変異モデルの各々は、音素の基本形ラベル、基本形からの表面形のラベル、基本形からの文脈による知識源の組、及び文脈による知識源の組によって決定される、文脈における基本形から表面形の生じる確率を含む。
表面形出力は、可能な全ての表面形発音s1、s1、…、skのうち、最も確率の高いもの^s(式中、^は文字sの上に付される)である。
セクション2.2に記載のとおり、4個の付加的知識源を用いてBNlexを開発した。これは、BL、BR、Bp、Sc及びBの全ての組合せについて、表面形Sがトレーニングされたことを暗に示している。図4はBNlexで用いられる文脈要因の全ての可能な値を列挙したものである。全てのモデルパラメータの信頼性のある推定を得るためにはトレーニングデータが十分でない場合、全体の性能は大いに劣化する。従って、パラメータの数を少なくする必要がある。
2.データアライメント
ダイナミックプログラミングアルゴリズムを用いて、基本形と表面形とのアライメントを行なう。
図5は、この発明の第1の実施の形態に従った音声認識システム130のシステム構成を示す図である。図5を参照して、システム130は、BNlex136を用いて入力音声138を出力140にデコードするためのASRシステム142と、BNlex136をトレーニングするためのBNlexトレーニングモジュール134とを含む。BNlex136をトレーニングするために、自然発話コーパス132が用いられる。出力140は、ほとんどの場合、入力音声138によって表わされる内容に対応する単語のシーケンスである。
図5から図10を参照して、この実施例のシステム130は以下のように動作する。まず始めに、図5に示される自然発話コーパス132が準備される。図6に示されるような、音素へのラベリングを含む準備は、手操作で行なわれる。その後、図7に示すように、分類モジュール190が自然発話コーパス132内の音素の表面形を分類し、分類された音素192と表面形のリスト194とを出力する。確率計算モジュール196は、表面形音素(S)と、ラベルの組(BL、BR、Bp及びSc)と、基本形音素(B)との全ての組合せの確率を計算する。確率と、対応の組合せとはともに記憶部198に記憶される。表面形確率計算モジュール200は、表面形シーケンス、対応する文脈ラベル、及び基本形シーケンスの組合せの確率を計算し、BNlex136を生成する。
上述の実施の形態は、純粋にハードウェアで実現することもできる。しかし、最もよくあると思われる実現例は、コンピュータハードウェアと組合せたソフトウェアによる解決策である。
第1の実施の形態では、BNlex136を用いてNベスト仮説を再スコアリングした。しかし、この発明はそのような実施の形態に限定されない。BNlex136はデコードの処理それ自体で用いてもよい。第2の実施の形態では、図8に示すASRユニット156の単語レベル認識モジュール238が、BNlexに置換えられる。図13はこの発明の第2の実施例に従ったASR装置380のブロック図である。図8及び図13から明らかなように、ASRユニット156内の単語レベル認識モジュール238は、BNlex136を用いて音素認識モジュール236から出力される音素シーケンスをスコアリングする単語レベル認識モジュール390に置換えられる。
132 自然発話コーパス
134 BNlexトレーニングモジュール
136 BNlex
138 入力音声
140 出力
150 音響モデル
152 発音レキシコン
154 言語モデル
158 Nベスト仮説
160 再スコアリングモジュール
170 発話データ
180 基本形
182 表面形
380 ASR装置
390 単語レベル認識モジュール
Claims (9)
- 統計的発音変異モデルを記憶する記憶媒体であって、前記モデルは複数の音素発音変異項目を含み、
前記発音変異項目の各々は、
音素の基本形と
音素の前記基本形の表面形と、
前記基本形の文脈による知識源の組と、
前記文脈による知識源の組によって決定される文脈において前記表面形が前記基本形から生じる確率とを含む、記録媒体。 - 前記文脈による知識源の組は、前記基本形に先行する音素、前記基本形に後続する音素、及び前記基本形が単語中で生じる位置、若しくは前記基本形が前記表面形で削除されるか否か、又はこれら知識源のいずれかの組合せを含む、請求項1に記載の記録媒体。
- 前記文脈による知識源の組は、前記基本形に先行する音素クラス、前記基本形に後続する音素クラス、前記基本形が単語中で生じる位置、若しくは前記基本形が前記表面形で削除されるか否か、又はこれら知識源のいずれかの組合せを含む、請求項1に記載の記録媒体。
- 自動音声認識システムであって、
特定の言語の発音基本形の各々について、発音基本形、発音表面形及び1又は2以上の付加的な知識源間の条件関係を記述するベイズネットワークトポロジーとともに、統計的発音モデルを記憶するための手段と、
前記特定言語の入力音声信号を、音響モデル、言語モデル、及び前記統計的発音モデルを用いて統計的にデコードし、前記入力音声信号によって表わされる前記特定言語において最尤単語シーケンスのテキストデータを出力するための手段とを含む、自動音声認識システム。 - 前記1又は2以上の付加的な知識源は、前記特定言語における単語の発音基本形の1又は2以上の文脈による知識源を含む、請求項4に記載の自動音声認識システム。
- 前記文脈による知識源は、発音基本形が単語のどこに位置するかに関する情報、前記発音基本形の前に何があるかに関する情報、前記発音基本形の後に何があるかに関する情報、前記発音基本形が対応の発音表面形で削除されるか否かに関する情報、又はそのいずれかの組合せを含む、請求項4に記載の自動音声認識システム。
- 前記統計的デコードのための手段は、
前記入力音声信号を、前記音響モデル、前記言語モデル、及び前記特定言語におけるレキシコンを用いて統計的にデコードし、前記入力音声信号によって表わされる前記特定言語における予め定められた数の最尤単語シーケンスのテキストデータを出力するための手段と、
前記統計的発音モデルを用いて前記入力音声信号に対する前記単語シーケンスの各々の確率的スコアを再計算するための手段と、
前記単語シーケンスのうち前記再計算するための手段によって再計算された最も高いスコアを達成するものを選択するための手段とを含む、請求項4に記載の自動音声認識システム。 - 前記統計的デコードのための手段は、
前記入力音声信号を、音素レベルで、前記音響モデルを用いてデコードし、前記入力音声信号を表す音素のいくつかのシーケンス候補を出力するための手段と、
前記統計的発音モデルと前記言語モデルとを用いて、前記音素のシーケンス候補の各々についての確率スコアを計算するための手段と、
前記再計算する手段によって再計算された最も高いスコアを達成する音素シーケンスに対応する基本形音素のシーケンスを選択するための手段とを含む、請求項4に記載の自動音声認識システム。 - コンピュータで実行されると、前記コンピュータを請求項4〜請求項8のいずれかに記載の手段の全てとして機能させる、コンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008315769A JP5180800B2 (ja) | 2008-12-11 | 2008-12-11 | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008315769A JP5180800B2 (ja) | 2008-12-11 | 2008-12-11 | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010139745A true JP2010139745A (ja) | 2010-06-24 |
JP5180800B2 JP5180800B2 (ja) | 2013-04-10 |
Family
ID=42349947
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008315769A Expired - Fee Related JP5180800B2 (ja) | 2008-12-11 | 2008-12-11 | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5180800B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010139963A (ja) * | 2008-12-15 | 2010-06-24 | Internatl Business Mach Corp <Ibm> | 音声認識システムおよび方法 |
JP2013061371A (ja) * | 2011-09-12 | 2013-04-04 | National Institute Of Information & Communication Technology | 発音辞書作成装置、発音辞書の生産方法、およびプログラム |
JP2016011995A (ja) * | 2014-06-27 | 2016-01-21 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 発音辞書の拡張システム、拡張プログラム、拡張方法、該拡張方法により得られた拡張発音辞書を用いた音響モデルの学習方法、学習プログラム、および学習システム |
CN106297828A (zh) * | 2016-08-12 | 2017-01-04 | 苏州驰声信息科技有限公司 | 一种基于深度学习的误发音检测的检测方法和装置 |
CN111862958A (zh) * | 2020-08-07 | 2020-10-30 | 广州视琨电子科技有限公司 | 发音插入错误检测方法、装置、电子设备及存储介质 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
NL2003163C2 (en) | 2009-07-09 | 2011-01-11 | Salusion Ip B V | A moisture detecting module and a receiving unit. |
KR102662571B1 (ko) | 2018-03-02 | 2024-05-07 | 삼성전자주식회사 | 전자 장치, 제어 방법 및 컴퓨터 판독 가능 매체 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005234504A (ja) * | 2004-02-23 | 2005-09-02 | Advanced Telecommunication Research Institute International | 音声認識装置及びhmm発音モデルをトレーニングする方法 |
JP2007052166A (ja) * | 2005-08-17 | 2007-03-01 | Advanced Telecommunication Research Institute International | 音響モデルの準備方法及び自動音声認識装置 |
-
2008
- 2008-12-11 JP JP2008315769A patent/JP5180800B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005234504A (ja) * | 2004-02-23 | 2005-09-02 | Advanced Telecommunication Research Institute International | 音声認識装置及びhmm発音モデルをトレーニングする方法 |
JP2007052166A (ja) * | 2005-08-17 | 2007-03-01 | Advanced Telecommunication Research Institute International | 音響モデルの準備方法及び自動音声認識装置 |
Non-Patent Citations (2)
Title |
---|
CSNG200501506003; 秋田祐哉他: '話し言葉音声認識のための汎用的な統計的発音変動モデル' 電子情報通信学会論文誌 D-II 第J88-D-II巻,第9号, 200509, 第1780-1789頁, 社団法人電子情報通信学会 * |
JPN6012054033; 秋田祐哉他: '話し言葉音声認識のための汎用的な統計的発音変動モデル' 電子情報通信学会論文誌 D-II 第J88-D-II巻,第9号, 200509, 第1780-1789頁, 社団法人電子情報通信学会 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010139963A (ja) * | 2008-12-15 | 2010-06-24 | Internatl Business Mach Corp <Ibm> | 音声認識システムおよび方法 |
JP2013061371A (ja) * | 2011-09-12 | 2013-04-04 | National Institute Of Information & Communication Technology | 発音辞書作成装置、発音辞書の生産方法、およびプログラム |
JP2016011995A (ja) * | 2014-06-27 | 2016-01-21 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 発音辞書の拡張システム、拡張プログラム、拡張方法、該拡張方法により得られた拡張発音辞書を用いた音響モデルの学習方法、学習プログラム、および学習システム |
CN106297828A (zh) * | 2016-08-12 | 2017-01-04 | 苏州驰声信息科技有限公司 | 一种基于深度学习的误发音检测的检测方法和装置 |
CN106297828B (zh) * | 2016-08-12 | 2020-03-24 | 苏州驰声信息科技有限公司 | 一种基于深度学习的误发音检测的检测方法和装置 |
CN111862958A (zh) * | 2020-08-07 | 2020-10-30 | 广州视琨电子科技有限公司 | 发音插入错误检测方法、装置、电子设备及存储介质 |
CN111862958B (zh) * | 2020-08-07 | 2024-04-02 | 广州视琨电子科技有限公司 | 发音插入错误检测方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP5180800B2 (ja) | 2013-04-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113811946B (zh) | 数字序列的端到端自动语音识别 | |
JP4528535B2 (ja) | テキストから単語誤り率を予測するための方法および装置 | |
CN113692616B (zh) | 用于在端到端模型中的跨语言语音识别的基于音素的场境化 | |
JP4215418B2 (ja) | 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム | |
CN106971709B (zh) | 统计参数模型建立方法和装置、语音合成方法和装置 | |
JP3782943B2 (ja) | 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体 | |
KR101153078B1 (ko) | 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델 | |
JP2008134475A (ja) | 入力された音声のアクセントを認識する技術 | |
JP6580882B2 (ja) | 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム | |
JP5180800B2 (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
KR20080018622A (ko) | 휴대용 단말기의 음성 인식 시스템 | |
Neubig et al. | Bayesian learning of a language model from continuous speech | |
JPH09509509A (ja) | 複合語を有する言語における音声認識の方法及びシステム | |
JP6031316B2 (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
JP6941494B2 (ja) | エンドツーエンド日本語音声認識モデル学習装置およびプログラム | |
JP6552999B2 (ja) | テキスト補正装置、テキスト補正方法、およびプログラム | |
JP2004226982A (ja) | 隠れ軌跡隠れマルコフモデルを使用した音声認識の方法 | |
CN113327574A (zh) | 一种语音合成方法、装置、计算机设备和存储介质 | |
JP5688761B2 (ja) | 音響モデル学習装置、および音響モデル学習方法 | |
JP5184467B2 (ja) | 適応化音響モデル生成装置及びプログラム | |
JP4741452B2 (ja) | 言語モデル作成装置及び言語モデル作成プログラム並びに音声認識装置及び音声認識プログラム | |
WO2020166359A1 (ja) | 推定装置、推定方法、及びプログラム | |
JP2005156593A (ja) | 音響モデル作成方法、音響モデル作成装置、音響モデル作成プログラムおよび音声認識装置 | |
WO2022074760A1 (ja) | データ処理装置、データ処理方法及びデータ処理プログラム | |
JP5066668B2 (ja) | 音声認識装置、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20111117 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121011 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121016 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121207 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121225 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130111 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |