JP6485941B2 - 言語モデル生成装置、およびそのプログラム、ならびに音声認識装置 - Google Patents
言語モデル生成装置、およびそのプログラム、ならびに音声認識装置 Download PDFInfo
- Publication number
- JP6485941B2 JP6485941B2 JP2014148223A JP2014148223A JP6485941B2 JP 6485941 B2 JP6485941 B2 JP 6485941B2 JP 2014148223 A JP2014148223 A JP 2014148223A JP 2014148223 A JP2014148223 A JP 2014148223A JP 6485941 B2 JP6485941 B2 JP 6485941B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- replacement
- language model
- frequency
- chain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- PWPJGUXAGUPAHP-UHFFFAOYSA-N lufenuron Chemical compound C1=C(Cl)C(OC(F)(F)C(C(F)(F)F)F)=CC(Cl)=C1NC(=O)NC(=O)C1=C(F)C=CC=C1F PWPJGUXAGUPAHP-UHFFFAOYSA-N 0.000 title 1
- 238000012545 processing Methods 0.000 claims description 31
- 230000006978 adaptation Effects 0.000 claims description 27
- 230000003044 adaptive effect Effects 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 6
- 238000000034 method Methods 0.000 description 23
- 238000004364 calculation method Methods 0.000 description 20
- 238000012986 modification Methods 0.000 description 18
- 230000004048 modification Effects 0.000 description 18
- 238000013515 script Methods 0.000 description 17
- 238000006467 substitution reaction Methods 0.000 description 13
- 230000014509 gene expression Effects 0.000 description 9
- 238000004519 manufacturing process Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
- 230000000699 topical effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
一例としては、置換前のn単語連鎖の出現頻度に、上記の比率を乗じることによって、置換後のn単語連鎖の出現頻度を推定する。
この構成により、置換後のn単語連鎖の出現頻度の推定のための処理が簡素化される。
これによって、特定の話題や、発話スタイルに適応した言語モデルを作成することができる。
[第1の実施形態]
図1は、本実施形態による置換言語モデル生成装置の概略構成を示す機能ブロック図である。図示するように、置換言語モデル生成装置1は、テキストデータ取得部11と、三つ組生成・頻度計算部12と、同義語置換部13と、頻度推定部14と、置換言語モデル生成部15と、置換言語モデル記憶部16と、モデル適応部17と、置換テーブル生成部21と、置換テーブル記憶部22と、小規模話題言語モデル記憶部31と、大規模話題言語モデル記憶部32とを含んで構成される。
三つ組生成・頻度計算部12は、テキストデータ取得部11が取得したテキストデータから、3単語連鎖を抽出するとともに、3単語連鎖の種類ごとの出現頻度を算出する。
置換言語モデル記憶部16は、置換言語モデル生成部15によって生成された置換言語モデルを、記憶する。
言い換えれば、モデル適応部17は、複数の言語モデル(特定の話題に基づき、且つ同義語による置換を用いて表現のバリエーションを持たされた言語モデルを含む)を線形補間することにより、言語モデルの適応化を行う。
置換テーブル記憶部22は、単語(置換元単語)と、その単語(置換元単語)と置換可能な同義語(置換単語)との対応関係を、テーブルとして記憶する。
発音辞書記憶部52は、単語ごとの発音辞書のデータを記憶する。発音辞書のデータは、外部のデータベースから予め得られるものである。
音響モデル記憶部53は、言語要素(音素や単語など)ごとの音響的特徴のデータを音響モデルとして記憶する。
認識処理部62は、モデル適応部17によって生成された適応言語モデルを言語モデルとして用いるとともに、発音辞書記憶部52を用いて音響モデル記憶部53から読み出した音響モデルを用いることによって、入力音声の認識処理を行う。認識処理部62は、入力音声のデータを、入力音声取得部61から受け取る。また、認識処理部62は、認識結果のテキストデータを認識結果出力部63に渡す。
認識結果出力部63は、認識処理部62から渡された認識結果のテキストデータを出力する。
図4は、置換言語モデル生成装置1による処理の手順を示すフローチャートである。以下、このフローチャートに沿って、装置の動作を説明する。
図5は、置換言語モデル生成装置1における、より詳細な手順を示すフローチャートである。この図5に示す手順は、図4におけるステップS5からステップS9までの処理を、より詳細に説明するものである。
「衣装−を−補強:頻度2」
というデータを一時的に生成する。テキストデータ内のすべての3単語連鎖についても、同様に、頻度を求める。
「衣装−を−補強:頻度2」
であったため、新たに生成される3単語連鎖は、
「お召し物−を−補強:頻度2」
「着物−を−補強:頻度2」
「ウェア−を−補強:頻度2」
「衣類−を−補強:頻度2」
「衣服−を−補強:頻度2」(以下、続く)
である。なお、同義語置換部13は、ここで、元の3単語連鎖の出現頻度を引き継いで、新たに生成される3単語連鎖に適用する。上の例では、頻度が2である。
単語連鎖のうち、置換対象の単語が1個だけの場合には、具体的には、頻度推定部14は、置換によって新たに生成された3単語連鎖の頻度Csynを、下の式(1)により算出する。言い換えれば、頻度Csynは推定によって得られた頻度である。
p(worig)=2.81×10−5
p(wsyn)=4.07×10−5
つまり、
p(wsyn)/p(worig)=1.45
であり、また、
Corig=2
であるから、
Csyn=2×1.45=2.90
である。
上記の実施形態では、3単語連鎖による言語モデルを用いた。本変形例では、3単語連鎖に限らず、一般に、n単語連鎖(n=1,2,3,4,・・・)を用いる。つまり、言語モデルは、n単語連鎖の出現頻度を統計的に表すデータである。また、三つ組生成・頻度計算部12、同義語置換部13、頻度推定部14、置換言語モデル生成部15、モデル適応部17、認識処理部62等の各部も、3単語連鎖に限らず、n単語連鎖を処理対象とする。
上記の実施形態では、頻度推定部14は、置換によって新たに生成された3単語連鎖の頻度を推定する際に、式(1)によって、置換元単語の単語ユニグラム確率p(worig)に対する、置換単語の単語ユニグラム確率p(wsyn)を用いた。本変形例では、ここで、単語ユニグラム確率の比率の代わりに、置換元の2単語連鎖の出現確率(バイグラム(bigram)確率)と置換後の2単語連鎖の出現確率との比率を用いる。
つまり、本変形例では、頻度推定部14は、式(1)を変形することにより、置換によって新たに生成されたn単語連鎖の出現確率を、m単語連鎖の出現確率の比率を用いて推定する。具体的には、頻度推定部14は、置換前のn単語連鎖の出現頻度と、置換前のn単語連鎖のうちの置換元単語を含むm単語連鎖の出現確率と、置換後の新たなn単語連鎖のうちの前記m単語連鎖に対応する前記同義語を含む置換後のm単語連鎖の出現確率との比率と、に基づいて、置換後のn単語連鎖の出現頻度を推定する。言い換えれば、その比率とは、置換元単語を含むm単語連鎖の出現確率を分母とし、そのm単語連鎖に対応する置換後のm単語連鎖の出現確率を分子とする値である。頻度推定部14は、例えば、置換前のn単語連鎖の出現頻度に、この比率の値を乗じることによって、置換後のn単語連鎖の出現頻度を推定する。
なお、m単語連鎖の出現確率は、大規模話題言語モデル記憶部32から読み出される。
本変形例では、頻度推定部14は、置換によって新たに生成された3単語連鎖の出現頻度を、置換前の3単語連鎖の出現頻度と同一であると推定する。
本変形例と変形例1とを組み合わせる場合には、頻度推定部14は、置換によって新たに生成されたn単語連鎖の出現頻度を、置換前のn単語連鎖の出現頻度と同一であると推定する。言い換えれば、頻度推定部14は、置換前のn単語連鎖の出現頻度を、そのまま用いて、置換後のn単語連鎖の出現頻度であると推定する。
本変形例では、置換言語モデル生成装置1は、モデル適応部17を具備しない。置換言語モデル生成装置1において、置換言語モデル生成部15は、上の実施形態に記載した通り、置換言語モデルを生成し、置換言語モデル記憶部16に書き込む。この置換言語モデルは、特定の話題に特化した言語モデルである。この置換言語モデルは、元のテキストデータ91に出現する単語連鎖の出現頻度、およびそれらの単語連鎖に含まれる単語を同義語で置換したことによって得られる単語連鎖の出現頻度(推定された出現頻度)にもとづく出現頻度のデータを保持する。
上記の実施形態においては、テキストデータ91として、放送番組の台本や進行表のテキストを用いることとしたが、利用するテキストデータはこれには限られない。本変形例では、学会や講演会等において事前に入手可能な発表概要やプレゼン資料を、テキストデータ91として用いる。そして、その学会や講演会等の音声認識による書き起こしテキストを生成するために、本変形例を適用できる。また、利用するテキストデータ91の例はこれらに限定されず、任意である。
2 音声認識装置
11 テキストデータ取得部
12 三つ組生成・頻度計算部
13 同義語置換部
14 頻度推定部
15 置換言語モデル生成部
16 置換言語モデル記憶部
17 モデル適応部
21 置換テーブル生成部
22 置換テーブル記憶部
31 小規模話題言語モデル記憶部
32 大規模話題言語モデル記憶部
51 適応言語モデル記憶部
52 発音辞書記憶部
53 音響モデル記憶部
61 入力音声取得部
62 認識処理部
63 認識結果出力部
Claims (4)
- 単語と前記単語と置換可能な同義語との関係を記憶する置換テーブル記憶部と、
テキストデータから抽出されたn単語連鎖(nは正整数)に含まれる単語の同義語を前記置換テーブル記憶部から読み出し、前記n単語連鎖における当該単語を当該同義語で置換することにより新たなn単語連鎖を生成する同義語置換部と、
置換前の前記n単語連鎖の出現頻度に基づいて、前記置換後のn単語連鎖の出現頻度を推定する頻度推定部と、
前記テキストデータから抽出されたn単語連鎖の出現頻度、および前記頻度推定部によって推定された前記置換後のn単語連鎖の出現頻度を含んだ置換言語モデルを生成する置換言語モデル生成部と、
を具備し、
前記頻度推定部は、置換前の前記n単語連鎖の出現頻度と、置換前の前記n単語連鎖のうちの置換元単語を含むm単語連鎖(mは正整数であり、1≦m≦n)の出現確率と、置換後の前記新たなn単語連鎖のうちの前記m単語連鎖に対応する前記同義語を含む置換後のm単語連鎖の出現確率との比率と、に基づいて、前記置換後のn単語連鎖の出現頻度を推定する、
ことを特徴とする言語モデル生成装置。 - 単語と前記単語と置換可能な同義語との関係を記憶する置換テーブル記憶部と、
テキストデータから抽出されたn単語連鎖(nは正整数)に含まれる単語の同義語を前記置換テーブル記憶部から読み出し、前記n単語連鎖における当該単語を当該同義語で置換することにより新たなn単語連鎖を生成する同義語置換部と、
置換前の前記n単語連鎖の出現頻度に基づいて、前記置換後のn単語連鎖の出現頻度を推定する頻度推定部と、
前記テキストデータから抽出されたn単語連鎖の出現頻度、および前記頻度推定部によって推定された前記置換後のn単語連鎖の出現頻度を含んだ置換言語モデルを生成する置換言語モデル生成部と、
前記置換言語モデル生成部によって生成された前記置換言語モデルと、前記テキストデータから抽出されたn単語連鎖の出現頻度に基づく小規模話題言語モデルと、一般的な話題による大規模な言語資源におけるn単語連鎖の出現頻度に基づく大規模話題言語モデルと、を補間して適応言語モデルを生成するモデル適応部と、
を具備することを特徴とする言語モデル生成装置。 - 請求項2に記載の言語モデル生成装置と、
言語要素の音響的特徴のデータを音響モデルとして記憶する音響モデル記憶部と、
前記モデル適応部によって生成された前記適応言語モデルを言語モデルとして用いるとともに、前記音響モデル記憶部から読み出した音響モデルを用いることによって、入力音声の認識処理を行う認識処理部と、
を具備することを特徴とする音声認識装置。 - コンピューターを、
請求項1または請求項2に記載の言語モデル生成装置、
として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014148223A JP6485941B2 (ja) | 2014-07-18 | 2014-07-18 | 言語モデル生成装置、およびそのプログラム、ならびに音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014148223A JP6485941B2 (ja) | 2014-07-18 | 2014-07-18 | 言語モデル生成装置、およびそのプログラム、ならびに音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016024325A JP2016024325A (ja) | 2016-02-08 |
JP6485941B2 true JP6485941B2 (ja) | 2019-03-20 |
Family
ID=55271109
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014148223A Active JP6485941B2 (ja) | 2014-07-18 | 2014-07-18 | 言語モデル生成装置、およびそのプログラム、ならびに音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6485941B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10217458B2 (en) * | 2016-09-23 | 2019-02-26 | Intel Corporation | Technologies for improved keyword spotting |
CN107146604B (zh) * | 2017-04-27 | 2020-07-03 | 北京捷通华声科技股份有限公司 | 一种语言模型优化方法及装置 |
JP7084761B2 (ja) * | 2018-04-10 | 2022-06-15 | 日本放送協会 | 文生成装置、文生成方法及び文生成プログラム |
US11545144B2 (en) | 2018-07-27 | 2023-01-03 | Samsung Electronics Co., Ltd. | System and method supporting context-specific language model |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002091967A (ja) * | 2000-09-14 | 2002-03-29 | Nippon Hoso Kyokai <Nhk> | 言語モデル作成装置および言語モデル作成プログラムを記録した記録媒体 |
JP4367713B2 (ja) * | 2003-01-15 | 2009-11-18 | パナソニック株式会社 | 放送受信方法、放送受信システム、第1装置、第2装置、音声認識方法、音声認識装置、プログラム及び記録媒体 |
JP2005031255A (ja) * | 2003-07-09 | 2005-02-03 | Mitsubishi Electric Corp | 辞書作成装置及び音声認識装置 |
WO2007138875A1 (ja) * | 2006-05-31 | 2007-12-06 | Nec Corporation | 音声認識用単語辞書・言語モデル作成システム、方法、プログラムおよび音声認識システム |
US8788266B2 (en) * | 2009-04-30 | 2014-07-22 | Nec Corporation | Language model creation device, language model creation method, and computer-readable storage medium |
JP5276610B2 (ja) * | 2010-02-05 | 2013-08-28 | 日本放送協会 | 言語モデル生成装置、そのプログラムおよび音声認識システム |
-
2014
- 2014-07-18 JP JP2014148223A patent/JP6485941B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016024325A (ja) | 2016-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6222821B2 (ja) | 誤り修正モデル学習装置、及びプログラム | |
JP3782943B2 (ja) | 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体 | |
JP6312942B2 (ja) | 言語モデル生成装置、言語モデル生成方法とそのプログラム | |
JP5932869B2 (ja) | N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム | |
JP6051004B2 (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
JP6485941B2 (ja) | 言語モデル生成装置、およびそのプログラム、ならびに音声認識装置 | |
JP2016075740A (ja) | 音声処理装置、音声処理方法、およびプログラム | |
CN107767858A (zh) | 发音词典生成方法及装置、存储介质、电子设备 | |
JP5180800B2 (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
JP6810580B2 (ja) | 言語モデル学習装置およびそのプログラム | |
JP2012018201A (ja) | テキスト補正方法及び認識方法 | |
JP6183988B2 (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
JP5914054B2 (ja) | 言語モデル作成装置、音声認識装置、およびそのプログラム | |
JP6366166B2 (ja) | 音声認識装置、及びプログラム | |
JP6300394B2 (ja) | 誤り修正モデル学習装置、及びプログラム | |
JP6027754B2 (ja) | 適応化装置、音声認識装置、およびそのプログラム | |
JP2010175765A (ja) | 音声認識装置および音声認識プログラム | |
JP2008241970A (ja) | 話者適応装置、話者適応方法及び話者適応プログラム | |
KR20200102309A (ko) | 단어 유사도를 이용한 음성 인식 시스템 및 그 방법 | |
JP2004348552A (ja) | 音声文書検索装置および方法およびプログラム | |
JP4362054B2 (ja) | 音声認識装置及び音声認識プログラム | |
JP5268825B2 (ja) | モデルパラメータ推定装置、方法及びプログラム | |
JP2017009691A (ja) | 言語モデル生成装置およびそのプログラム | |
JP5860439B2 (ja) | 言語モデル作成装置とその方法、そのプログラムと記録媒体 | |
WO2023036283A1 (zh) | 一种在线课堂交互的方法及在线课堂系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170529 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180514 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180619 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180815 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20181026 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190122 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190218 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6485941 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |