JP6047364B2 - 音声認識装置、誤り修正モデル学習方法、及びプログラム - Google Patents
音声認識装置、誤り修正モデル学習方法、及びプログラム Download PDFInfo
- Publication number
- JP6047364B2 JP6047364B2 JP2012224985A JP2012224985A JP6047364B2 JP 6047364 B2 JP6047364 B2 JP 6047364B2 JP 2012224985 A JP2012224985 A JP 2012224985A JP 2012224985 A JP2012224985 A JP 2012224985A JP 6047364 B2 JP6047364 B2 JP 6047364B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- speech recognition
- model
- error correction
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Description
しかし、従来の誤り修正モデルのモデルパラメータ学習では、音声データとその音声認識結果及び正解単語列を用いているが、学習時に音声データの発話順序は考慮されていない。このように、従来の誤り修正モデルでは発話の順序に関係した発話間の単語の共起などの情報は考慮されていないため、発話内容を正しく予測する上で最適なモデルとはなっていない。
この発明によれば、音声認識装置は、音声データを音声認識し、得られた音声認識結果に含まれる単語と、その音声認識結果よりも過去の発話の正解単語列に含まれる単語とから、発話の順序に応じた言語的な特徴を抽出する。過去の発話の正解単語列として、例えば、音声認識結果と時間的に隣接した直近の過去の発話の正解単語列を用いる。音声認識装置は、抽出した言語的な特徴に基づいて単語の認識誤りの傾向を統計的に学習し、学習した認識誤りの傾向を修正するための誤り修正モデルを生成する。
これにより、音声認識の対象となっている発話よりも前の発話の内容から引き出した情報を利用して、発話内容を正しく予測する上で好適な誤り修正モデルを生成することができる。
この発明によれば、音声認識装置は、音声認識結果及び正解単語列から発話の順序に応じた言語的な特徴を抽出するとともに音声認識結果から同一発話内の言語的な特徴を抽出する。音声認識装置は、抽出したこれらの言語的な特徴に基づいて単語の認識誤りの傾向を統計的に学習し、学習した認識誤りの傾向を修正するための誤り修正モデルを生成する。
これにより、音声認識装置は、音声認識の対象となっている発話よりも過去の発話内容から引き出した情報に加えて、同一の発話内の言語的特徴を利用して、認識誤りを精度よく修正する誤り修正モデルを生成することができる。
この発明によれば、音声認識装置は、音声認識結果から得られる同一発話内における単語の共起関係や構文的、意味的な情報と、音声認識結果に含まれる単語と過去の発話の正解単語列から得られる単語の共起関係とに基づいて単語の誤り傾向を統計的に学習し、学習した認識誤りの傾向を修正するための誤り修正モデルを生成する。
これにより、音声認識装置は、認識誤りを精度良く修正する誤り修正モデルを生成することができる。
この発明によれば、音声認識装置は、言語的特徴を表す素性関数とその重みとで定義される誤り修正モデルが用いる重みを、音声認識結果から得られた素性関数の値と、音声認識結果を正解単語列と比較することによって得られる認識誤りとを用いて定められる評価関数により算出した評価値が、最も認識誤りが少ないことを示す評価値となるように決定し、誤り修正モデルを生成する。
これにより、音声認識装置は、認識誤り傾向を効率的に学習し、誤り修正モデルを生成することができる。
この発明によれば、音声認識装置は、音声データを音声認識することにより得られた正解候補の中から、誤り修正モデルを用いて音声認識結果を選択する。
これにより、音声認識装置は、認識率のよい音声認識結果を得ることができる。
音声認識の誤り傾向を反映した誤り修正モデルはすでに考案されているが、この誤り修正モデルは、連続して発声される発話に対して、隣接する発話内容との関係性に基づく情報を利用したものではない。連続した発話では、直前の発話で使われた単語と関連する単語が含まれることが多い。従って、このような近接した発話間の単語のつながりを誤り修正モデルで利用すれば、音声認識の改善が期待される。
続いて、本発明の一実施形態による音声認識装置に適用される誤り修正モデルの学習アルゴリズムを説明する。
上述したように、本実施形態の音声認識装置は、従来の課題を解決するために、学習に用いる音声データに発話の順序関係を導入し、隣接する発話間の関係性を誤り修正モデルに取り入れる。本実施形態と従来法の違いは、誤り修正モデルを学習する際のデータの扱い方である。
ベイズの定理によれば、音声入力xが与えられたとき、この音声入力xに対して尤もらしい単語列w^(「^」は、「ハット」を表す。)は、以下の式(1)により求めることができる。
また、P(x|w)は、単語列wに対する音響的な尤もらしさを示す尤度であり、そのスコア(音響スコア)は隠れマルコフモデル(Hidden Markov Model、HMM)及びガウス混合分布(Gaussian Mixture Model,GMM)に代表される統計的音響モデル(以下、「音響モデル」と記載する。)に基づいて計算される。言い換えれば、音響特徴量が与えられたとき、複数の正解候補の単語それぞれに対する尤もらしさを表すスコアが音響スコアである。
(2)単語列wに連続しない単語2項組(u,v)が含まれる場合、その数を返す関数
(4)単語列wに連続しない品詞2項組(c(u),c(v))が含まれる場合、その数を返す関数
(6)単語列wに連続しない意味カテゴリ2項組(s(u),s(v))が含まれる場合、その数を返す関数
いま、単語列wに対して、直近の入力音声から得られた単語列をuとすると、音声入力x、単語列uが与えられたときの単語列wの条件付き確率P(w|x,u)は、以下の式(5)のようになる。
図3は、本発明の一実施形態による音声認識装置1の構成を示す機能ブロック図であり、発明と関係する機能ブロックのみ抽出して示してある。
音声認識装置1は、コンピュータ装置により実現され、同図に示すように、音声認識部11、特徴量抽出部12、モデル学習部13、音声認識部14、音声言語資源格納部21、音響モデル格納部22、言語モデル格納部23、及び誤り修正モデル格納部24を備えて構成される。
図4は、本実施形態による音声認識装置1の全体処理フローを示す図である。以下、同図に示す各ステップの処理について説明する。
本実施形態では、誤り修正モデルの生成のために、学習データとして、発話の音声認識結果と、その発話内容の書き起こしである正解単語列が必要となる。そこで、音声認識部11は、音声データ及び正解単語列データの組として放送音声・字幕データD1を収集し、放送音声・字幕データD1に含まれる音声データを音声認識する。音声認識部11は、放送音声・字幕データD1から取得した字幕データ、あるいは、音声認識の結果を人手により修正したテキストデータを正解単語列データD3とする。音声認識部11は、各発話の音声データと、音声認識結果を示す音声認識結果データD2と、正解単語列データD3とを対応付けた学習データを音声言語資源格納部21に格納する。このとき、音声認識部11は、音声認識を行った際の発話の順序を保持して格納する。m番目(m=1,2,…)の学習データの音声認識結果データD2には、m番目の音声データを音声認識して得られた正解候補である文仮説wm,n(n=1,2,…)が含まれ、m番目の学習データの正解単語列データD3には、m番目の音声データの正解単語列wm refが含まれる。
モデル学習部13は、音声言語資源格納部21に記憶されている学習データから、誤り傾向学習のために用いる言語的特徴に基づく素性関数を抽出する。
続いてモデル学習部13は、誤り修正モデルのモデルパラメータを学習する。
図5は、ステップS3においてモデル学習部13が実行する誤り修正モデル更新処理の処理フローを示す図である。
モデル学習部13は、モデルパラメータΛ、Φに対して適当な初期値を設定する。本実施形態では、初期値をΛ=Φ=0とする。
式(12)の目的関数を計算するためには、まず音声認識結果と対応する正解単語列との編集距離を計算する必要がある。そこで、モデル学習部13は、学習データとして音声言語資源格納部21に記憶されている学習データを読み出し、音声認識結果データD2が示す文仮説wm,nと正解単語列データD3が示す正解単語列wm refとから編集距離R(wm ref,wm,n)を計算する。これらの編集距離は、誤り修正モデルの学習では定数扱いとなることに注意する。
モデル学習部13は、ステップS32において求めた編集距離R(wm ref,wm,n)を用い、式(12)に従って目的関数L(Λ,Φ)の値を計算する。そこで、モデル学習部13は、式(12)における条件付き確率P(wm,n|xm,wm―1 ref)を、音響モデルのスコアh0(xm|wm,n)、言語モデルのスコアh1(wm,n)、及び現在のモデルパラメータΛ、Φとから式(13)を用いて計算する。モデル学習部13は、各文仮説wm,nの音響モデルのスコアh0(xm|wm,n)を、音響モデル格納部22に記憶されている音響モデルと、m番目の学習データの音声データとを用いて取得する。また、モデル学習部13は、文仮説wm,nの言語モデルのスコアh1(wm,n)を、言語モデル格納部23に記憶されている言語モデルを用いて取得する。
モデル学習部13は、現在のモデルパラメータΛ、Φの値を用いて、式(14)及び式(15)により、式(12)のモデルパラメータΛ、Φに関する勾配ΔΛ、ΔΦを求める。モデル学習部13は、式(14)及び式(15)における編集距離R(wm ref,wm,n)及び条件付き確率P(wm,n|xm,wm−1 ref)に、ステップS33において目的関数L(Λ,Φ)を算出したときの値を用いる。また、モデル学習部13は、式(14)における素性関数gj(wm,n,wm−1 ref)の値を、音声認識結果データD2が示す文仮説wm,n及び正解単語列データD3が示す正解単語列wm−1 refとから取得する。モデル学習部13は、式(15)における素性関数fi(wm,n)の値を、音声認識結果データD2が示す文仮説wm,nから取得する。なお、モデル学習部13は、素性関数fi及び素性関数gjを素性関数データD4から得る。
モデル学習部13は、ステップS34の勾配計算処理により得られた目的関数の値と、更新前の目的関数の値とを比較し、値の変化が所定以上であれば、ステップS33からの処理を繰り返し、所定よりも小さければ更新が収束したとみなしてモデルパラメータΛ、Φの更新を打ち切り、ステップS36の処理を実行する。
モデル学習部13は、更新が収束したときのモデルパラメータΛ=(λ1,λ2,…)、及びΦ=(φ1,φ2,…)を用いた誤り修正モデルを誤り修正モデル格納部24に書き込む。
音声認識部14は、音声認識対象の音声データとして入力音声データD5が入力されると、誤り修正モデル格納部24に記憶されている誤り修正モデルと、音響モデル格納部22に記憶されている音響モデル、及び、言語モデル格納部23に記憶されている言語モデルとを用いて、入力音声データD5の正解候補の単語列を得、それらのスコアを算出する。学習時には、現在処理している発話に先行する発話列は正解単語列となるが、音声認識時には正解単語列が得られないため、音声認識部14は、現在処理している発話より前の発話を音声認識したときに得られた最尤単語列を正解単語列として用いる。音声認識部14は、スコアが最もよい正解候補の単語列を正解単語列として設定した音声認識結果データD6をリアルタイムで出力する。この誤り修正モデルを用いることにより、音声認識部14は、入力音声データD5から得られた音声認識結果の選択における誤りを修正する。
本実施形態によれば、音声認識装置1は、直前の発話内容を反映した誤り修正モデルが構成可能となり、従来の音声認識よりも認識誤りが削減される。
なお、上述の音声認識装置1は、内部にコンピュータシステムを有している。そして、音声認識装置1の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPU及び各種メモリやOS、周辺機器等のハードウェアを含むものである。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
11 音声認識部
12 特徴量抽出部
13 モデル学習部
14 音声認識部
21 音声言語資源格納部
22 音響モデル格納部
23 言語モデル格納部
24 誤り修正モデル格納部
Claims (7)
- 発話の音声データを音声認識して得られた音声認識結果と、前記発話の正解単語列とを発話の順序を保持して格納する音声言語資源格納部と、
前記音声データから得られた前記音声認識結果に含まれる単語と前記音声データの発話よりも過去の発話の前記正解単語列に含まれる単語とから得られる発話の順序に応じた言語的な特徴に基づいて単語の認識誤りの傾向を統計的に学習し、学習した前記認識誤りの傾向を修正するための誤り修正モデルを生成するモデル学習部と、
を備えることを特徴とする音声認識装置。 - 前記モデル学習部は、前記音声認識結果から得られる同一発話内の言語的な特徴と前記発話の順序に応じた言語的な特徴とに基づいて単語の認識誤りの傾向を統計的に学習し、学習した前記認識誤りの傾向を修正するための誤り修正モデルを生成する、
ことを特徴とする請求項1に記載の音声認識装置。 - 前記モデル学習部は、前記音声認識結果から得られる同一発話内の連続する複数の単語の共起関係、連続しない複数の単語の共起関係、単語の構文的な情報、または単語の意味的な情報のうち1以上と、前記音声認識結果に含まれる単語及び前記過去の発話の前記正解単語列に含まれる単語の共起関係とに基づいて単語の誤り傾向を統計的に学習する、
ことを特徴とする請求項2に記載の音声認識装置。 - 前記誤り修正モデルは、前記言語的な特徴に基づく素性関数とその重みとを用いて音声認識のスコアを修正する算出式であり、
前記モデル学習部は、前記音声認識結果及び前記正解単語列から得られた前記素性関数の値と前記音声認識結果に含まれる単語の認識誤りとを用いて定められる評価関数により算出した評価値に基づいて前記重みを統計的に算出し、算出した前記重みを用いて前記誤り修正モデルを生成する、
ことを特徴とする請求項1から請求項3のいずれか1項に記載の音声認識装置。 - 入力された音声データを音声認識し、前記モデル学習部により生成された前記誤り修正モデルを用いて、前記入力された音声データから得られた音声認識結果の選択における誤りを修正する音声認識部をさらに備える、
ことを特徴とする請求項1から請求項4のいずれか1項に記載の音声認識装置。 - 発話の音声データを音声認識して得られた音声認識結果と、前記発話の正解単語列とを発話の順序を保持して音声言語資源格納部に格納する音声言語資源格納過程と、
前記音声データから得られた前記音声認識結果に含まれる単語と前記音声データの発話よりも過去の発話の前記正解単語列に含まれる単語とから得られる発話の順序に応じた言語的な特徴に基づいて単語の認識誤りの傾向を統計的に学習し、学習した前記認識誤りの傾向を修正するための誤り修正モデルを生成するモデル学習過程と、
を有することを特徴とする誤り修正モデル学習方法。 - コンピュータを、
発話の音声データを音声認識して得られた音声認識結果と、前記発話の正解単語列とを発話の順序を保持して格納する音声言語資源格納手段と、
前記音声データから得られた前記音声認識結果に含まれる単語と前記音声データの発話よりも過去の発話の前記正解単語列に含まれる単語とから得られる発話の順序に応じた言語的な特徴に基づいて単語の認識誤りの傾向を統計的に学習し、学習した前記認識誤りの傾向を修正するための誤り修正モデルを生成するモデル学習手段と、
を具備する音声認識装置として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012224985A JP6047364B2 (ja) | 2012-10-10 | 2012-10-10 | 音声認識装置、誤り修正モデル学習方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012224985A JP6047364B2 (ja) | 2012-10-10 | 2012-10-10 | 音声認識装置、誤り修正モデル学習方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014077865A JP2014077865A (ja) | 2014-05-01 |
JP6047364B2 true JP6047364B2 (ja) | 2016-12-21 |
Family
ID=50783219
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012224985A Expired - Fee Related JP6047364B2 (ja) | 2012-10-10 | 2012-10-10 | 音声認識装置、誤り修正モデル学習方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6047364B2 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6086714B2 (ja) * | 2012-12-14 | 2017-03-01 | 日本放送協会 | 音声認識装置、誤り修正モデル学習方法、及びプログラム |
US10170110B2 (en) * | 2016-11-17 | 2019-01-01 | Robert Bosch Gmbh | System and method for ranking of hybrid speech recognition results with neural networks |
KR102676221B1 (ko) * | 2017-10-23 | 2024-06-19 | 삼성전자주식회사 | 음성 인식 방법 및 장치 |
JP7111758B2 (ja) * | 2020-03-04 | 2022-08-02 | 株式会社東芝 | 音声認識誤り訂正装置、音声認識誤り訂正方法及び音声認識誤り訂正プログラム |
KR102499299B1 (ko) * | 2020-12-22 | 2023-02-10 | 주식회사 카카오 | 음성 인식 장치, 프로그램 및 그것의 학습 제어 방법 |
CN113012705B (zh) * | 2021-02-24 | 2022-12-09 | 海信视像科技股份有限公司 | 一种语音文本的纠错方法及装置 |
KR102648689B1 (ko) * | 2023-05-26 | 2024-03-18 | 주식회사 액션파워 | 텍스트 오류를 검출하는 방법 |
KR102616598B1 (ko) * | 2023-05-30 | 2023-12-22 | 주식회사 엘솔루 | 번역 자막을 이용한 원문 자막 병렬 데이터 생성 방법 |
KR102632806B1 (ko) * | 2023-06-16 | 2024-02-05 | 주식회사 엘솔루 | Stt결과 조기 확정을 위한 음성 인식 방법 및 장치 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3304665B2 (ja) * | 1995-02-17 | 2002-07-22 | 松下電器産業株式会社 | 音声認識装置 |
JP4852448B2 (ja) * | 2007-02-28 | 2012-01-11 | 日本放送協会 | 誤り傾向学習音声認識装置及びコンピュータプログラム |
JP4981579B2 (ja) * | 2007-08-20 | 2012-07-25 | 日本電信電話株式会社 | 誤り訂正モデルの学習方法、装置、プログラム、このプログラムを記録した記録媒体 |
-
2012
- 2012-10-10 JP JP2012224985A patent/JP6047364B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2014077865A (ja) | 2014-05-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6047364B2 (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
JP6222821B2 (ja) | 誤り修正モデル学習装置、及びプログラム | |
US8019602B2 (en) | Automatic speech recognition learning using user corrections | |
JP6051004B2 (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
JP5530729B2 (ja) | 音声理解装置 | |
JP5172021B2 (ja) | 自動音声認識音響モデルの適合 | |
US8635070B2 (en) | Speech translation apparatus, method and program that generates insertion sentence explaining recognized emotion types | |
JP5932869B2 (ja) | N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム | |
EP1447792B1 (en) | Method and apparatus for modeling a speech recognition system and for predicting word error rates from text | |
JP4852448B2 (ja) | 誤り傾向学習音声認識装置及びコンピュータプログラム | |
US8494847B2 (en) | Weighting factor learning system and audio recognition system | |
JP6031316B2 (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
JP5276610B2 (ja) | 言語モデル生成装置、そのプログラムおよび音声認識システム | |
JP6183988B2 (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
JP6366166B2 (ja) | 音声認識装置、及びプログラム | |
JP5437204B2 (ja) | 言語モデル処理装置および音声認識装置、ならびにプログラム | |
JP6300394B2 (ja) | 誤り修正モデル学習装置、及びプログラム | |
JP2013117683A (ja) | 音声認識装置、誤り傾向学習方法、及びプログラム | |
Chen et al. | Acoustic data-driven pronunciation lexicon generation for logographic languages | |
JP6086714B2 (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
JP6027754B2 (ja) | 適応化装置、音声認識装置、およびそのプログラム | |
JP2007226091A (ja) | 音声認識装置及び音声認識プログラム | |
JP5124012B2 (ja) | 音声認識装置及び音声認識プログラム | |
Donaj et al. | Application Oriented Language Modeling | |
JP2002278584A (ja) | 言語モデル生成装置及びこれを用いた音声認識装置、並びにこれらの方法、これらのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150901 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20161018 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20161025 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20161121 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6047364 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |