JP2005106853A - 言語モデル学習システム、音声認識システム、言語モデル学習方法、及びプログラム - Google Patents
言語モデル学習システム、音声認識システム、言語モデル学習方法、及びプログラム Download PDFInfo
- Publication number
- JP2005106853A JP2005106853A JP2003335977A JP2003335977A JP2005106853A JP 2005106853 A JP2005106853 A JP 2005106853A JP 2003335977 A JP2003335977 A JP 2003335977A JP 2003335977 A JP2003335977 A JP 2003335977A JP 2005106853 A JP2005106853 A JP 2005106853A
- Authority
- JP
- Japan
- Prior art keywords
- word
- language model
- corpus
- learning
- corpora
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
【解決手段】 必要単語選出部103は、コーパスA保持部101より必要な単語を選び出し、単語ID付与部105はそれにコーパスA固有の単語IDを付与し混合コーパス保持部107に保存する。コーパスB保持部102、必要単語選出部104、単語ID付与部106も同様に動作する。クラスID付与部108は混合コーパス保持部107に保存された単語にクラスIDを付与する。言語モデル学習部109は混合コーパス保持部107の内容から言語モデルを推定し単語言語モデル保持部110、クラス言語モデル保持部111、平滑化情報保持部112に格納する。
【選択図】 図1
Description
ことを特徴とする請求項9の言語モデル学習方法。
図1を参照すると、本発明の第一の実施の形態は、コーパスAを保持するコーパスA保持部101、コーパスBを保持するコーパスB保持部102と、各コーパスのための必要単語選出部103、必要単語選出部104と、各コーパスの単語を識別するための単語IDを付与する単語ID付与部105、単語ID付与部106と、混合コーパス保持部107と、クラスID付与部108と、言語モデル学習部109と、単語言語モデル保持部110と、平滑化情報保持部112と、クラス言語モデル保持部111と、認識用辞書保持部113と、言語スコア計算部114と、音声照合部115と、音声分析部116と、音響モデル保持部117とから構成されている。
言語スコア計算部114は、音声照合部115の要求した単語連鎖に対応する言語スコアを、まず単語言語モデル保持部110に探しに行き、発見すればその値を返す。発見できなければ単語連鎖に対応するクラス言語モデルをクラス言語モデル保持部111から読み出し、対応するバックオフ係数を平滑化情報保持部112から読み出し、両者を掛け算して音声照合部115に返す。音声照合部115は受け取ったスコアを当該単語連鎖に対するスコアとして照合スコアに加える。
第三の実施の形態の構成は本発明の第一の実施の形態と同じで図1のように構成されるので、構成の説明は省略する。ただし、言語モデル学習部109の機能が下記のように第1の実施の形態と異なる。
本発明の第三の実施の形態の動作について説明すると、言語モデル学習部109が混合コーパス保持部107の単語列のうち、コーパスB保持部102の単語からのみ単語言語モデルを推定し、単語言語モデル保持部110に格納し、対応する平滑化情報を平滑化情報保持部112に格納することのみが第一の実施の形態の動作と異なる。
102 コーパスB保持部
103 必要単語選出部
104 必要単語選出部
105 単語ID付与部
106 単語ID付与部
107 混合コーパス保持部
108 クラスID付与部
109 言語モデル学習部
110 単語言語モデル保持部
111 クラス言語モデル保持部
112 平滑化情報保持部
113 認識用辞書保持部
114 言語スコア計算部
115 音声照合部
116 音声分析部
117 音響モデル保持部
201 コーパスA保持部
202 コーパスB保持部
203 共通単語ID付与部
204 単語ID付与部
205 単語ID付与部
206 混合コーパス保持部
207 言語モデル学習部
208 言語モデル保持部
209 認識用辞書保持部
210 言語スコア計算部
211 音声照合部
212 音声分析部
213 音響モデル保持部
Claims (22)
- 複数のコーパスを混合して言語モデルを学習する言語モデル学習システムにおいて、コーパスを保持する2以上のコーパス保持部と、前記コーパス保持部にそれぞれ対応して設けられ前記対応するコーパス保持部から単語を選び出してコーパス間で互いに異なる固有の単語IDを付与する複数の単語ID付与部とを有し、言語モデルを学習することを特徴とする言語モデル学習システム。
- 前記コーパス固有に付与した単語IDを用いて推定した第1の言語モデルと、混合されたコーパス全体に共通の方法で混合されたコーパスのそれぞれの単語に前記コーパス固有に付与した単語IDとは別に付与したもう一つの単語IDを用いて推定した第2の言語モデルとを併用して学習を行うことを特徴とする請求項1の言語モデル学習システム。
- 前記第1の言語モデルと前記第2の言語モデルとを併用する方法として平滑化を用いることを特徴とする請求項2の言語モデル学習システム。
- 前記もう一つの単語IDとして単語をクラス分けした時のクラスのIDを用いることを特徴とする請求項2又は3の言語モデル学習システム。
- 複数のコーパスを混合して言語モデルを学習する前にそれぞれのコーパス毎に独立して混合する単語列を選び出す必要単語選出部を有することを特徴とする請求項1、2、3又は4の言語モデル学習システム。
- 前記必要単語選出部はコーパス毎に決められた出現頻度より多く出現する単語連鎖を抜き出すことを特徴とする請求項5の言語モデル学習システム。
- 複数のコーパスを混合して言語モデルを学習する言語モデル学習システムにおいて、それぞれのコーパスの一部の単語に混合するコーパス全体で共通の単語IDを付与する共通単語ID付与部と、それぞれのコーパスの前記一部の単語を除く単語にコーパス固有の単語IDを付与する単語ID付与部とを有し、言語モデルを学習することを特徴とする言語モデル学習システム。
- 請求項1乃至7のいずれかの言語モデル学習システムにより学習した言語モデルを用いて音声認識を行うことを特徴とする音声認識システム。
- 複数のコーパスを混合して言語モデルを学習する言語モデル学習方法において、複数のコーパスにそれぞれ対応してコーパス間で互いに異なる固有の単語IDを付与して言語モデルを学習することを特徴とする言語モデル学習方法。
- 前記コーパス固有に付与した単語IDを用いて推定した第1の言語モデルと、混合されたコーパス全体に共通の方法で混合されたコーパスのそれぞれの単語に前記コーパス固有に付与した単語IDとは別に付与したもう一つの単語IDを用いて推定した第2の言語モデルとを併用して学習を行うことを特徴とする請求項9の言語モデル学習方法。
- 前記第1の言語モデルと前記第2の言語モデルとを併用する方法として平滑化を用いることを特徴とする請求項10の言語モデル学習方法。
- 前記もう一つの単語IDとして単語をクラス分けした時のクラスのIDを用いることを特徴とする請求項10又は11の言語モデル学習方法。
- 複数のコーパスを混合して言語モデルを学習する前にそれぞれのコーパス毎に独立して混合する単語列を選び出すことを特徴とする請求項9、10、11、又は12の言語モデル学習方法。
- 前記必要単語選出部はコーパス毎に決められた出現頻度より多く出現する単語連鎖を抜き出すことを特徴とする請求項13の言語モデル学習方法。
- 複数のコーパスを混合して言語モデルを学習する言語モデル学習方法において、それぞれのコーパスの一部の単語に混合するコーパス全体で共通の単語IDを付与し、それぞれのコーパスの前記一部の単語を除く単語にコーパス固有の単語IDを付与し、言語モデルを学習することを特徴とする言語モデル学習方法。
- 複数のコーパスにそれぞれ対応してコーパス間で互いに異なる固有の単語IDを付与する手順と、複数のコーパスを混合して言語モデルを学習する手順とをコンピュータに実行させることを特徴とするプログラム。
- 前記コーパス固有に付与した単語IDを用いて推定した第1の言語モデルと、混合されたコーパス全体に共通の方法で混合されたコーパスのそれぞれの単語に前記コーパス固有に付与した単語IDとは別に付与したもう一つの単語IDを用いて推定した第2の言語モデルとを併用して学習を行う手順をコンピュータに実行させることを特徴とする請求項16のプログラム。
ことを特徴とする請求項9の言語モデル学習方法。 - 前記第1の言語モデルと前記第2の言語モデルとを併用する方法として平滑化を用いることを特徴とする請求項17のプログラム。
- 前記もう一つの単語IDとして単語をクラス分けした時のクラスのIDを用いることを特徴とする請求項17又は18のプログラム。
- 複数のコーパスを混合して言語モデルを学習する前にそれぞれのコーパス毎に独立して混合する単語列を選び出す手順をコンピュータに実行させることを特徴とする請求項16、17、18、又は19のプログラム。
- 前記単語列を選び出す手順はコーパス毎に決められた出現頻度より多く出現する単語連鎖を抜き出すことを特徴とする請求項20のプログラム。
- それぞれのコーパスの一部の単語に混合するコーパス全体で共通の単語IDを付与する手順と、それぞれのコーパスの前記一部の単語を除く単語にコーパス固有の単語IDを付与する手順と、複数のコーパスを混合して言語モデルを学習する手順とをコンピュータに実行させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003335977A JP4810789B2 (ja) | 2003-09-26 | 2003-09-26 | 言語モデル学習システム、音声認識システム、言語モデル学習方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003335977A JP4810789B2 (ja) | 2003-09-26 | 2003-09-26 | 言語モデル学習システム、音声認識システム、言語モデル学習方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005106853A true JP2005106853A (ja) | 2005-04-21 |
JP4810789B2 JP4810789B2 (ja) | 2011-11-09 |
Family
ID=34532263
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003335977A Expired - Fee Related JP4810789B2 (ja) | 2003-09-26 | 2003-09-26 | 言語モデル学習システム、音声認識システム、言語モデル学習方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4810789B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010191046A (ja) * | 2009-02-17 | 2010-09-02 | Nec Corp | 検出装置、音声認識装置、検出方法、及びプログラム |
JP2010224029A (ja) * | 2009-03-19 | 2010-10-07 | Ntt Docomo Inc | 言語モデル特定装置、言語モデル特定方法、音響モデル特定装置、および音響モデル特定方法 |
CN103871404A (zh) * | 2012-12-13 | 2014-06-18 | 北京百度网讯科技有限公司 | 一种语言模型的训练方法、查询方法和对应装置 |
CN115392189A (zh) * | 2022-10-28 | 2022-11-25 | 北京砍石高科技有限公司 | 多语种混合语料的生成方法及装置、训练方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000075886A (ja) * | 1998-08-28 | 2000-03-14 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 統計的言語モデル生成装置及び音声認識装置 |
JP2001034287A (ja) * | 1999-07-15 | 2001-02-09 | Matsushita Electric Ind Co Ltd | 言語モデルにおけるクラス決定方法、音声認識装置及びプログラム記録媒体 |
JP2002229588A (ja) * | 2001-01-29 | 2002-08-16 | Mitsubishi Electric Corp | 統計的言語モデル生成装置、音声認識装置、及び統計的言語モデル生成方法並びに記録媒体 |
JP2002268678A (ja) * | 2001-03-13 | 2002-09-20 | Mitsubishi Electric Corp | 言語モデル構成装置及び音声認識装置 |
JP2002342323A (ja) * | 2001-05-15 | 2002-11-29 | Mitsubishi Electric Corp | 言語モデル学習装置およびそれを用いた音声認識装置ならびに言語モデル学習方法およびそれを用いた音声認識方法ならびにそれらの方法を記憶した記憶媒体 |
JP2003099087A (ja) * | 2001-09-25 | 2003-04-04 | Canon Inc | 自然言語処理のための解析用辞書作成装置および方法、ならびにプログラム |
-
2003
- 2003-09-26 JP JP2003335977A patent/JP4810789B2/ja not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000075886A (ja) * | 1998-08-28 | 2000-03-14 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 統計的言語モデル生成装置及び音声認識装置 |
JP2001034287A (ja) * | 1999-07-15 | 2001-02-09 | Matsushita Electric Ind Co Ltd | 言語モデルにおけるクラス決定方法、音声認識装置及びプログラム記録媒体 |
JP2002229588A (ja) * | 2001-01-29 | 2002-08-16 | Mitsubishi Electric Corp | 統計的言語モデル生成装置、音声認識装置、及び統計的言語モデル生成方法並びに記録媒体 |
JP2002268678A (ja) * | 2001-03-13 | 2002-09-20 | Mitsubishi Electric Corp | 言語モデル構成装置及び音声認識装置 |
JP2002342323A (ja) * | 2001-05-15 | 2002-11-29 | Mitsubishi Electric Corp | 言語モデル学習装置およびそれを用いた音声認識装置ならびに言語モデル学習方法およびそれを用いた音声認識方法ならびにそれらの方法を記憶した記憶媒体 |
JP2003099087A (ja) * | 2001-09-25 | 2003-04-04 | Canon Inc | 自然言語処理のための解析用辞書作成装置および方法、ならびにプログラム |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010191046A (ja) * | 2009-02-17 | 2010-09-02 | Nec Corp | 検出装置、音声認識装置、検出方法、及びプログラム |
JP2010224029A (ja) * | 2009-03-19 | 2010-10-07 | Ntt Docomo Inc | 言語モデル特定装置、言語モデル特定方法、音響モデル特定装置、および音響モデル特定方法 |
CN103871404A (zh) * | 2012-12-13 | 2014-06-18 | 北京百度网讯科技有限公司 | 一种语言模型的训练方法、查询方法和对应装置 |
CN103871404B (zh) * | 2012-12-13 | 2017-04-12 | 北京百度网讯科技有限公司 | 一种语言模型的训练方法、查询方法和对应装置 |
CN115392189A (zh) * | 2022-10-28 | 2022-11-25 | 北京砍石高科技有限公司 | 多语种混合语料的生成方法及装置、训练方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
JP4810789B2 (ja) | 2011-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6493866B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
KR102447513B1 (ko) | 점증적 대화지식 자가학습 기반 대화장치 및 그 방법 | |
JP4737990B2 (ja) | 語彙強勢予測 | |
US7529657B2 (en) | Configurable parameters for grammar authoring for speech recognition and natural language understanding | |
JP4267385B2 (ja) | 統計的言語モデル生成装置、音声認識装置、統計的言語モデル生成方法、音声認識方法、およびプログラム | |
JP2004341520A (ja) | 音声認識方法 | |
JPH0320800A (ja) | 音声認識方法および装置 | |
JP2008539476A (ja) | スペル提示の生成方法およびシステム | |
JP2007115145A (ja) | 会話制御装置 | |
JP2006146008A (ja) | 音声認識装置及び方法ならびにプログラム | |
JP2005115328A (ja) | 自然言語理解(NLU)システムにおける規則ベース文法に関するスロットおよび前終端記号(preterminal)に関する統計モデル | |
JP2005258439A (ja) | 文字から音声への変換のための相互情報量基準を用いた大きな文字音素単位の生成 | |
JP6869835B2 (ja) | 音声認識システム、端末装置、及び辞書管理方法 | |
Sang et al. | Applying system combination to base noun phrase identification | |
JPH10105189A (ja) | シーケンス取出し方法及びその装置 | |
JP4810789B2 (ja) | 言語モデル学習システム、音声認識システム、言語モデル学習方法、及びプログラム | |
JP4756499B2 (ja) | 音声認識結果の検査装置及びコンピュータプログラム | |
JP5099367B2 (ja) | 要求内容識別システム、自然言語による要求内容の識別方法及びプログラム | |
JP2008058341A (ja) | 単語分類装置及び音声認識装置及び単語分類プログラム | |
JP4826719B2 (ja) | 音声認識システム、音声認識方法、および音声認識プログラム | |
JP5623380B2 (ja) | 誤り文修正装置、誤り文修正方法およびプログラム | |
WO2017094913A1 (ja) | 自然言語処理装置及び自然言語処理方法 | |
KR20130126570A (ko) | 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 | |
JP4220151B2 (ja) | 音声対話装置 | |
JP2005275348A (ja) | 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20050315 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060817 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20070118 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20080611 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20090508 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090825 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090908 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091106 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100525 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100709 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110215 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110415 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20110705 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110726 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110808 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140902 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |