JP2005106853A - 言語モデル学習システム、音声認識システム、言語モデル学習方法、及びプログラム - Google Patents

言語モデル学習システム、音声認識システム、言語モデル学習方法、及びプログラム Download PDF

Info

Publication number
JP2005106853A
JP2005106853A JP2003335977A JP2003335977A JP2005106853A JP 2005106853 A JP2005106853 A JP 2005106853A JP 2003335977 A JP2003335977 A JP 2003335977A JP 2003335977 A JP2003335977 A JP 2003335977A JP 2005106853 A JP2005106853 A JP 2005106853A
Authority
JP
Japan
Prior art keywords
word
language model
corpus
learning
corpora
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003335977A
Other languages
English (en)
Other versions
JP4810789B2 (ja
Inventor
Shinya Ishikawa
晋也 石川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2003335977A priority Critical patent/JP4810789B2/ja
Publication of JP2005106853A publication Critical patent/JP2005106853A/ja
Application granted granted Critical
Publication of JP4810789B2 publication Critical patent/JP4810789B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】 複数のコーパスを混合して言語モデルを学習する際、混合前コーパス固有の単語列によいスコアを与えられるようにする
【解決手段】 必要単語選出部103は、コーパスA保持部101より必要な単語を選び出し、単語ID付与部105はそれにコーパスA固有の単語IDを付与し混合コーパス保持部107に保存する。コーパスB保持部102、必要単語選出部104、単語ID付与部106も同様に動作する。クラスID付与部108は混合コーパス保持部107に保存された単語にクラスIDを付与する。言語モデル学習部109は混合コーパス保持部107の内容から言語モデルを推定し単語言語モデル保持部110、クラス言語モデル保持部111、平滑化情報保持部112に格納する。
【選択図】 図1

Description

本発明は言語モデル学習システム、音声認識システム、言語モデル学習方法、及びプログラムに関し、特に複数のコーパスから言語モデルを作成するシステムに関する。
従来、音声認識用言語モデルを特定のタスク用に適応するために、一般タスクの言語データと対象タスクの言語データを混合して言語モデルを学習する手法が知られている。この言語モデル学習システムの一例が、特開2002−342323号公報に記載されている。このシステムは一般タスクの言語データと、対象タスクの言語データと、それらの類似単語を選び出して対象タスクの言語データに含まれていない単語列を自動合成した言語データを混合した言語データを作成し、これを用いて言語モデルを推定することで、対象タスクに言語モデル適応するものである。
また、言語モデルの推定、言語スコア計算方法としては、例えば非特許文献1「北研二ら著、音声言語処理、森北出版、1996年11月15日」の2.4 N−gramモデル(p27−37)に記述される方法がある。また、音声照合、音声分析としては、例えば「非特許文献2「中川聖一著、確率モデルによる音声認識、電子情報通信学会、1988年7月1日」の第4章 HMM法による音声認識システム例(p90−144)に記述される方法がある。
また、「2002年、スピーチコミュニケーション、第38巻、186ページ」において、Fragment extraction algorithmなどを用いて、コーパス中によく現れる単語連鎖を句(Fragment)として分類し、名詞句に含まれる単語を選び出す方法が説明されている。
特開2002−342323号公報 北研二ら著、「音声言語処理」、第1版第1刷、森北出版、1996年11月15日、p.27−37 中川誠一著、「確率モデルによる音声認識」、初版第5刷、社団法人電子情報通信学会、平成9年11月20日、p.90−144 Chung−Hsien Wu他2名、Speech Communication、発行国?、発行所?、2002年、第38巻、p.186
従来の手法では複数の言語データを混合して全体で言語モデルを推定するので、対象タスクで特有の意味を持つ単語や、対象タスク特有の言い回しの単語列に含まれる単語などが、一般タスクの言語データ内の当該単語と同一とみなされ、言語的制約が弱まってしまう。これによって、一般タスクでの通常の表現や、特有タスクでの表現が正しく反映されない言語モデルが学習されるという問題があった。
本発明の目的は、複数の言語データ(以降コーパスともいう)を混合して言語モデルを学習する際、それぞれのコーパスに現れる単語連鎖の特徴を保存しつつ、それらの組み合わせで構成される単語列に良いスコアを与える言語モデル学習システム、言語モデル学習方法、及びプログラムを提供することと、さらにそれらを用いた認識精度の高い音声認識システムを提供することにある。
本発明の第1の言語モデル学習システムは、複数のコーパスを混合して言語モデルを学習する言語モデル学習システムにおいて、コーパスを保持する2以上のコーパス保持部と、前記コーパス保持部にそれぞれ対応して設けられ前記対応するコーパス保持部から単語を選び出してコーパス間で互いに異なる固有の単語IDを付与する複数の単語ID付与部とを有し、言語モデルを学習することを特徴とする。
本発明の第2の言語モデル学習システムは、本発明の第1の言語モデル学習システムにおいて、前記コーパス固有に付与した単語IDを用いて推定した第1の言語モデルと、混合されたコーパス全体に共通の方法で混合されたコーパスのそれぞれの単語に前記コーパス固有に付与した単語IDとは別に付与したもう一つの単語IDを用いて推定した第2の言語モデルとを併用して学習を行うことを特徴とする。
本発明の第3の言語モデル学習システムは、本発明の第2の言語モデル学習システムにおいて、前記第1の言語モデルと前記第2の言語モデルとを併用する方法として平滑化を用いることを特徴とする。
本発明の第4の言語モデル学習システムは、本発明の第2又は第3の言語モデル学習システムにおいて、前記もう一つの単語IDとして単語をクラス分けした時のクラスのIDを用いることを特徴とする。
本発明の第5の言語モデル学習システムは、本発明の第1、第2、第3、又は第4の言語モデル学習システムにおいて、複数のコーパスを混合して言語モデルを学習する前にそれぞれのコーパス毎に独立して混合する単語列を選び出す必要単語選出部を有することを特徴とする。
本発明の第6の言語モデル学習システムは、本発明の第5の言語モデル学習システムにおいて、前記必要単語選出部はコーパス毎に決められた出現頻度より多く出現する単語連鎖を抜き出すことを特徴とする。
本発明の第7の言語モデル学習システムは、複数のコーパスを混合して言語モデルを学習する言語モデル学習システムにおいて、それぞれのコーパスの一部の単語に混合するコーパス全体で共通の単語IDを付与する共通単語ID付与部と、それぞれのコーパスの前記一部の単語を除く単語にコーパス固有の単語IDを付与する単語ID付与部とを有し、言語モデルを学習することを特徴とする。
本発明の音声認識システムは、本発明の第1乃至第7のいずれかの言語モデル学習システムにより学習した言語モデルを用いて音声認識を行うことを特徴とする。
本発明の第1の言語モデル学習方法は、複数のコーパスを混合して言語モデルを学習する言語モデル学習方法において、複数のコーパスにそれぞれ対応してコーパス間で互いに異なる固有の単語IDを付与して言語モデルを学習することを特徴とする。
本発明の第2の言語モデル学習方法は、前記コーパス固有に付与した単語IDを用いて推定した第1の言語モデルと、混合されたコーパス全体に共通の方法で混合されたコーパスのそれぞれの単語に前記コーパス固有に付与した単語IDとは別に付与したもう一つの単語IDを用いて推定した第2の言語モデルとを併用して学習を行うことを特徴とする。
本発明の第3の言語モデル学習方法は、本発明の第2の言語モデル学習方法において、前記第1の言語モデルと前記第2の言語モデルとを併用する方法として平滑化を用いることを特徴とする。
本発明の第4の言語モデル学習方法は、本発明の第2又は第3の言語モデル学習方法において、前記もう一つの単語IDとして単語をクラス分けした時のクラスのIDを用いることを特徴とする。
本発明の第5の言語モデル学習方法は、本発明の第1、第2、第3、又は第4の言語モデル学習方法において、複数のコーパスを混合して言語モデルを学習する前にそれぞれのコーパス毎に独立して混合する単語列を選び出すことを特徴とする。
本発明の第6の言語モデル学習方法は、本発明の第5の言語モデル学習方法において、前記必要単語選出部はコーパス毎に決められた出現頻度より多く出現する単語連鎖を抜き出すことを特徴とする。
本発明の第7の言語モデル学習方法は、複数のコーパスを混合して言語モデルを学習する言語モデル学習方法において、それぞれのコーパスの一部の単語に混合するコーパス全体で共通の単語IDを付与し、それぞれのコーパスの前記一部の単語を除く単語にコーパス固有の単語IDを付与し、言語モデルを学習することを特徴とする。
本発明の第1のプログラムは、複数のコーパスにそれぞれ対応してコーパス間で互いに異なる固有の単語IDを付与する手順と、複数のコーパスを混合して言語モデルを学習する手順とをコンピュータに実行させることを特徴とする。
本発明の第2のプログラムは、本発明の第1のプログラムにおいて、前記コーパス固有に付与した単語IDを用いて推定した第1の言語モデルと、混合されたコーパス全体に共通の方法で混合されたコーパスのそれぞれの単語に前記コーパス固有に付与した単語IDとは別に付与したもう一つの単語IDを用いて推定した第2の言語モデルとを併用して学習を行う手順をコンピュータに実行させることを特徴とする。
ことを特徴とする請求項9の言語モデル学習方法。
本発明の第3のプログラムは、本発明の第2のプログラムにおいて、前記第1の言語モデルと前記第2の言語モデルとを併用する方法として平滑化を用いることを特徴とする。
本発明の第4のプログラムは、本発明の第2又は第3のプログラムにおいて、前記もう一つの単語IDとして単語をクラス分けした時のクラスのIDを用いることを特徴とする。
本発明の第5のプログラムは、本発明の第1、第2、第3、又は第4のプログラムにおいて、複数のコーパスを混合して言語モデルを学習する前にそれぞれのコーパス毎に独立して混合する単語列を選び出す手順をコンピュータに実行させることを特徴とする。
本発明の第6のプログラムは、本発明の第5のプログラムにおいて、前記単語列を選び出す手順はコーパス毎に決められた出現頻度より多く出現する単語連鎖を抜き出すことを特徴とする。
本発明の第7のプログラムは、それぞれのコーパスの一部の単語に混合するコーパス全体で共通の単語IDを付与する手順と、それぞれのコーパスの前記一部の単語を除く単語にコーパス固有の単語IDを付与する手順と、複数のコーパスを混合して言語モデルを学習する手順とをコンピュータに実行させることを特徴とする。
複数コーパスを混合して言語モデルを推定する場合に、混合コーパスの単語相互の連鎖を許しながら各コーパス依存の単語連鎖に良いスコアを与える言語スコアを出力できる言語モデルを推定できるという効果がある。
その理由は、第一、第三の実施の形態においては、混合前のコーパスに固有の単語を識別するための情報である単語IDを与えて単語言語モデルを推定し、混合コーパス全体でクラスを識別するための情報であるクラスIDを与えてクラス言語モデルを推定し、それらを平滑化して使用するためであり、第二の実施の形態においては、それぞれのコーパスの一部の単語では共通の単語IDを与え、一部の単語を除いてコーパスに固有の単語IDを与えて言語モデルを推定することで、異なるコーパスの単語連鎖にも妥当な言語スコアを付与できるためである。
次に、本発明の第一の実施の形態について図面を参照して詳細に説明する。
図1を参照すると、本発明の第一の実施の形態は、コーパスAを保持するコーパスA保持部101、コーパスBを保持するコーパスB保持部102と、各コーパスのための必要単語選出部103、必要単語選出部104と、各コーパスの単語を識別するための単語IDを付与する単語ID付与部105、単語ID付与部106と、混合コーパス保持部107と、クラスID付与部108と、言語モデル学習部109と、単語言語モデル保持部110と、平滑化情報保持部112と、クラス言語モデル保持部111と、認識用辞書保持部113と、言語スコア計算部114と、音声照合部115と、音声分析部116と、音響モデル保持部117とから構成されている。
コーパスA保持部101、コーパスB保持部102と、混合コーパス保持部107と、単語言語モデル保持部110と、平滑化情報保持部112と、クラス言語モデル保持部111と、認識用辞書保持部113と、音響モデル保持部117は図示しないがコンピュータの記憶手段に設けられた領域である。必要単語選出部103、104と、単語ID付与部105、106と、クラスID付与部108と、言語モデル学習部109と、言語スコア計算部114と、音声照合部115と、音声分析部116は、図示しないがコンピュータ上の記憶手段に格納されCPU上で実行されるプログラムで実現されるが、一部又は全部をハードウェア回路で実現しても良い。
本発明の第一の実施の形態の動作について説明する。図2のフローチャートを参照すると、コーパスA保持部101には、日本語のコーパスAが、文を単語などの単位に分かち書きした形式で、記録されている。各単語には品詞情報などが付加されていることもある。必要単語選出部103は、コーパスA保持部101を読み出して必要な単語列を選び出し、単語ID付与部105に送る(S301)。単語ID付与部105は受け取った単語列の各単語に各単語を一意に識別するためのコーパスA固有の単語IDを付与し、その単語列を混合コーパス保持部107に順に保存する。また、クラスIDとして、同一の単語でコーパスAに出現したものとコーパスBに出現したものをまとめて1つのクラスとして扱い、1クラスに1単語のみが属する場合を考えれば、個別コーパス固有の単語IDとは別の混合コーパス全体に共通の単語IDを付与するようにしてクラスIDに代えてもよい。
コーパスB保持部102、必要単語選出部104、単語ID付与部106もそれぞれコーパスA保持部101、必要単語選出部103、単語ID付与部105と同様に動作し、各単語にコーパスAとは重複しない単語IDがついた単語列を、混合コーパス保持部107に、順に保存する(S303、S304)。
クラスID付与部108は混合コーパス保持部107に保存された単語それぞれに対して、品詞をクラスとしたクラスIDを付与する(S305)。
この動作の後、言語モデル学習部109は混合コーパス保持部107から単語を全て読み出し、言語モデルを推定・学習し、単語言語モデル保持部110に単語言語モデルを、クラス言語モデル保持部111にクラス言語モデルを、平滑化情報保持部112に平滑化情報を、認識用辞書保持部113に認識用辞書を格納する(S306)。このように、各コーパス毎に単語IDを付与して各コーパスの特徴を独立させて推定・学習した言語モデルを作成する。
次に、上記動作で得られた言語モデルや辞書を用いて音声認識を行う動作を、図3のフローチャートを用いて説明する。まず、音声分析部116は入力された音声の分析を行い、音声照合部115に渡す(S401)。
音声照合部115は認識用辞書保持部113に保存された単語の組み合わせについて、対応する音響モデルを音響モデル保持部117から読み出し、分析された音声と照合を行い(S402)、単語の連鎖に対して言語スコアを付与するために言語スコア計算部114に言語スコアの計算要求を行う(S403)。
言語スコア計算部114は単語言語モデル保持部110、クラス言語モデル保持部111、平滑化情報保持部112より情報を読み出してそれらから言語スコアを計算し音声照合部115に渡す(S404)。音声照合部115は最もスコアの良い単語列を認識結果として出力する(S405)。
以上説明した動作において、言語モデルの推定、言語スコア計算方法には、例えば非特許文献1に記述されている方法を用いる。また、音声照合、音声分析としては、例えば非特許文献2に記述されている方法を用いる。
ここで記した必要単語選出部103の一例として非特許文献3において説明されているFragment extraction algorithmなどを用いて、コーパス中によく現れる単語連鎖を句(Fragment)として分類し、名詞句に含まれる単語を選び出すものを以下の具体例の説明で示しているが、必要単語選出部104にも適用できる。同様に必要単語選出部104の一例として、同手法で分類した名詞句以外の部分の単語を選び出すものを以下の具体例の説明で示しているが、必要単語選出部103にも適用できる。必要単語選出部103、必要単語選出部104の別の一例として、コーパス毎に決められた出現頻度より多く出現する単語連鎖を抜き出すものも考えられる。
また本実施の形態では、2組のコーパス保持部、必要単語選出部、単語ID付与部を用いる場合について説明したが、何組用いてもよい。
次に図4〜図10に示す具体例を参照して本発明の第一の実施の形態ついて説明する。通常は、コーパスA保持部101、およびコーパスB保持部102にはしばしば数千文以上の日本語が保持されるが、本実施例においては説明の簡単化のため、コーパスA保持部101には図4に示すような言語データが保持されているとする。図4に示した下線は説明のために付け加えている。図7、図8も同様である。
必要単語選出部103は、前述のFragment extraction algorithmにより図4における下線を引いた部分を必要な単語列として選び出しそれ以外の部分をダミー単語(句境界)に置き換え、図5のようなデータを作成し、単語ID付与部105に送る。105はそれに単語IDを付与して、混合コーパス保持部107に順に記録する。図6に混合コーパス保持部107に記録された結果の例を示す。例えば「言語モデル」という単語は2回出てきているが、同じ単語ID=9aが与えられている。
図7に示すデータがコーパスB保持部102に保持されており、必要単語選出部104は、Fragment extraction algorithmにより、図7における下線を引いた部分を必要な単語列として選び出し、それ以外をダミー単語(句)に置き換え、図8のようなデータを作成し、単語ID付与部106に送る。単語ID付与部106は、単語ID付与部105とは重複しない単語IDを各単語に付与し、混合コーパス保持部107に引き続き記録する。混合コーパス保持部107の中身は図9のようになる。
クラスID付与部108は混合コーパス107の単語を品詞によってクラス分けし、所属するクラスIDを各単語に付与する。図10に図9を処理した結果の例を示す。この例では「方法」や「一般」や「何」などは同じ名詞クラスに属すとして、同じクラスID=2が与えられている。また、コーパスAの単語「の」とコーパスBの単語「の」では、単語IDは異なるが、クラスIDは同じになる。
言語モデル学習部109は図10のようなデータを混合コーパス保持部107から読み出し、単語IDに従って学習した単語n−gram言語モデルを単語言語モデル保持部110に、クラスIDおよび単語IDに従って学習したクラスn−gram言語モデルをクラス言語モデル保持部111に、混合コーパス保持部107に含まれる全ての異なる単語で構成される認識用辞書を認識用辞書保持部113に、前記単語n−gram言語モデルに含まれない単語連鎖に対して前記クラスn−gram言語モデルによってバックオフ平滑化により言語スコアを与えるための、バックオフ係数を平滑化情報保持部112に保存する。バックオフ平滑化とは、参考文献1に説明されているように、前記単語n−gram言語モデルに含まれない単語連鎖に対しては、前記クラスn−gram言語モデルの与える言語スコアに、平滑化情報保持部112から得られたバックオフ平滑化情報を読み出し、両者をかけ算することによって、言語スコアとする。
言語スコア計算部114は、音声照合部115の要求した単語連鎖に対応する言語スコアを、まず単語言語モデル保持部110に探しに行き、発見すればその値を返す。発見できなければ単語連鎖に対応するクラス言語モデルをクラス言語モデル保持部111から読み出し、対応するバックオフ係数を平滑化情報保持部112から読み出し、両者を掛け算して音声照合部115に返す。音声照合部115は受け取ったスコアを当該単語連鎖に対するスコアとして照合スコアに加える。
次に、本実施の形態の効果について説明する。本実施の形態では、混合前の各コーパスに対して、他のコーパスとは異なる各コーパス固有の単語IDを付与するように構成されているため、異なるコーパスに同じ単語が存在しても、異なる単語として扱われて単語言語モデルが推定できる。
一方、混合されたコーパスに対してクラスIDを付与するように構成されているため、混合前にどのコーパスに属しているかに関わらず、同じ単語であれば、同じクラスIDが付与されて、クラス言語モデルが推定できる。単語言語モデルとクラス言語モデルは同じ混合コーパスから同時に推定されるように構成されているため、平滑化のための情報を含めて、統合した推定ができる。
このように統合的に推定された、単語言語モデルと、クラス言語モデルを平滑化のための情報を用いて、平滑化し出力する言語スコア計算部114を持つことで、混合されたコーパスに含まれる単語すべての接続を可能にしながらも、各コーパスに現れる単語連鎖を優先的に認識結果とする音声認識システムが構築できる。
例として図10の混合コーパスから言語モデルの学習を行った言語モデルを用いて「一般タスクの言語データの量はどれくらいですか」という発声を音声認識する場合を考える。従来の言語モデル学習方法を用いた場合、混合されたコーパスでコーパスAの「の」とコーパスBの「の」が区別されないため、「一般タスクの量はどれくらいですか」という文に対しても良い言語スコアを与えてしまい、音声認識誤りの原因となりうる。対して本発明によれば、「の」がコーパスAとコーパスBで区別されるため、「タスク の 量」という単語連鎖はコーパスに現れず、この連鎖にはバックオフにより比較的悪いスコアが与えられるため、コーパスAに現れる単語連鎖「タスク の 言語データ」が認識結果に出やすい。「言語データ の」という単語連鎖はコーパスA,Bともに含んでおらず、これについては従来手法、本手法とも同様の言語スコアを与える。このようにして、各コーパスに現れる単語連鎖を優先的に認識結果とする音声認識が可能となる。
次に、本発明の第二の実施の形態について図11を参照して詳細に説明する。本発明の第二の実施の形態は、コーパスAを保持するコーパスA保持部201、コーパスBを保持するコーパスB保持部202と、各コーパスに共通の共通単語ID付与部203と、各コーパスのための独立した単語ID付与部204、単語ID付与部205と、混合コーパス保持部206と、言語モデル学習部207と、言語モデル保持部208と、認識用辞書保持部209と、言語モデル計算部210と、音声照合部211と、音声分析部212と、音響モデル保持部213とから構成されている。
コーパスA保持部201、コーパスB保持部202と、混合コーパス保持部206と言語モデル保持部208と、認識用辞書保持部209と、音響モデル保持部213はコンピュータの記憶手段に設けられた領域である。また、共通単語ID付与部203と、単語ID付与部204、単語ID付与部205と、言語モデル学習部207と、言語モデル計算部210と、音声照合部211と、音声分析部212はコンピュータの記憶手段に格納されCPU上で実行されるプログラムであるが、一部又は全部をハードウェア回路で実現してもよい。
本発明の第二の実施の形態の動作について説明する。図12のフローチャートを参照すると、共通単語ID付与部203は、コーパスA保持部201とコーパスB保持部202を読み出して、あらかじめ定めた基準でコーパスA、コーパスB全体で同じ基準を用いて単語IDを付与する単語を選び出し、コーパスA,コーパスB中のそれらの単語に対して、コーパスA、コーパスBのどちらに属するかにかかわらず同じ単語には同一の単語IDが与えられるよう共通の基準で単語IDを付与し、コーパスA保持部201、コーパスB保持部202の中に記録する(S501)。
単語ID付与部204は、コーパスA保持部201に保存されている単語列を読み出し、共通単語ID付与部203によって単語IDがつけられていない単語に対して、コーパスA固有の単語IDを付与し、混合コーパス保持部206に順に記録する(S502)。次に単語ID付与部205はコーパスB保持部202に保存されている単語列を読み出し、共通単語ID付与部203によって単語IDがつけられていない単語に対して、コーパスAとは重複しないコーパスB固有の単語IDを付与し、混合コーパス保持部206に順に追記する(S503)。
この動作の後、言語モデル学習部207は混合コーパス保持部206から単語を読み出し、参考文献1の手法などで言語モデルを推定・学習し、言語モデルを言語モデル保持部208に、認識用辞書を認識用辞書保持部209にそれぞれ格納する(S504)。
次に、上記動作で得られた言語モデルや辞書を用いて音声認識を行う動作を説明する。まず、音声照合部211からの計算要求に応じて、言語スコア計算部210は208より情報を読み出して音声照合部211に渡す。音声照合部211、音声分析部212、音響モデル保持部213の動作は、それぞれ第一の実施の形態の音声照合部115、音声分析部116、音響モデル保持部117と同じであるので、説明を省略する。
共通単語ID付与部203としては、前述の参考文献2において説明されているFragment extraction algorithmなどを用いて、コーパス中によく現れる単語連鎖を句(Fragment)として抜き出し、句に含まれない単語に単語IDを付与する方法が考えられる。
次に、本発明の第三の実施の形態について図面を参照して詳細に説明する。
第三の実施の形態の構成は本発明の第一の実施の形態と同じで図1のように構成されるので、構成の説明は省略する。ただし、言語モデル学習部109の機能が下記のように第1の実施の形態と異なる。
本発明の第三の実施の形態の動作について説明すると、言語モデル学習部109が混合コーパス保持部107の単語列のうち、コーパスB保持部102の単語からのみ単語言語モデルを推定し、単語言語モデル保持部110に格納し、対応する平滑化情報を平滑化情報保持部112に格納することのみが第一の実施の形態の動作と異なる。
本発明の第三の実施の形態による効果について説明すると、コーパスAの単語同士の連鎖に対しては単語言語モデルが学習されず、コーパスAの単語同士の連鎖にも、コーパスA,B間の単語の連鎖にも、バックオフ平滑化によって言語スコアが与えられ、コーパスBに現れる単語列に対してのみ単語言語モデルがかかるため、前記コーパスBの単語連鎖に優先して良いスコアを与えられる。これによってコーパスBに現れる単語連鎖がコーパスAに現れる単語連鎖に認識誤りを起こすことが問題となる場合に有効である。
本発明の第一、第三の実施の形態の構成を示すブロック図である。 本発明の第一の実施の形態の動作を示すフローチャートである。 本発明の第一の実施の形態の動作を示すフローチャートである。 本発明の第一の実施の形態のコーパスA保持部101の内容の一例である。 本発明の第一の実施の形態の必要単語選出部103の実行結果の一例である。 本発明の第一の実施の形態の単語ID付与部105の実行結果の一例である。 本発明の第一の実施の形態のコーパスB保持部102の内容の一例である。 本発明の第一の実施の形態の必要単語選出部104の実行結果の一例である。 本発明の第一の実施の形態の混合コーパス保持部107のクラスID付与前の内容の一例である。 本発明の第一の実施の形態のクラスID付与部108の実行結果の混合コーパス保持部107内容の一例である。 本発明の第二の実施の形態の構成を示すブロック図である。 本発明の第二の実施の形態の動作を示すフローチャートである。
符号の説明
101 コーパスA保持部
102 コーパスB保持部
103 必要単語選出部
104 必要単語選出部
105 単語ID付与部
106 単語ID付与部
107 混合コーパス保持部
108 クラスID付与部
109 言語モデル学習部
110 単語言語モデル保持部
111 クラス言語モデル保持部
112 平滑化情報保持部
113 認識用辞書保持部
114 言語スコア計算部
115 音声照合部
116 音声分析部
117 音響モデル保持部
201 コーパスA保持部
202 コーパスB保持部
203 共通単語ID付与部
204 単語ID付与部
205 単語ID付与部
206 混合コーパス保持部
207 言語モデル学習部
208 言語モデル保持部
209 認識用辞書保持部
210 言語スコア計算部
211 音声照合部
212 音声分析部
213 音響モデル保持部

Claims (22)

  1. 複数のコーパスを混合して言語モデルを学習する言語モデル学習システムにおいて、コーパスを保持する2以上のコーパス保持部と、前記コーパス保持部にそれぞれ対応して設けられ前記対応するコーパス保持部から単語を選び出してコーパス間で互いに異なる固有の単語IDを付与する複数の単語ID付与部とを有し、言語モデルを学習することを特徴とする言語モデル学習システム。
  2. 前記コーパス固有に付与した単語IDを用いて推定した第1の言語モデルと、混合されたコーパス全体に共通の方法で混合されたコーパスのそれぞれの単語に前記コーパス固有に付与した単語IDとは別に付与したもう一つの単語IDを用いて推定した第2の言語モデルとを併用して学習を行うことを特徴とする請求項1の言語モデル学習システム。
  3. 前記第1の言語モデルと前記第2の言語モデルとを併用する方法として平滑化を用いることを特徴とする請求項2の言語モデル学習システム。
  4. 前記もう一つの単語IDとして単語をクラス分けした時のクラスのIDを用いることを特徴とする請求項2又は3の言語モデル学習システム。
  5. 複数のコーパスを混合して言語モデルを学習する前にそれぞれのコーパス毎に独立して混合する単語列を選び出す必要単語選出部を有することを特徴とする請求項1、2、3又は4の言語モデル学習システム。
  6. 前記必要単語選出部はコーパス毎に決められた出現頻度より多く出現する単語連鎖を抜き出すことを特徴とする請求項5の言語モデル学習システム。
  7. 複数のコーパスを混合して言語モデルを学習する言語モデル学習システムにおいて、それぞれのコーパスの一部の単語に混合するコーパス全体で共通の単語IDを付与する共通単語ID付与部と、それぞれのコーパスの前記一部の単語を除く単語にコーパス固有の単語IDを付与する単語ID付与部とを有し、言語モデルを学習することを特徴とする言語モデル学習システム。
  8. 請求項1乃至7のいずれかの言語モデル学習システムにより学習した言語モデルを用いて音声認識を行うことを特徴とする音声認識システム。
  9. 複数のコーパスを混合して言語モデルを学習する言語モデル学習方法において、複数のコーパスにそれぞれ対応してコーパス間で互いに異なる固有の単語IDを付与して言語モデルを学習することを特徴とする言語モデル学習方法。
  10. 前記コーパス固有に付与した単語IDを用いて推定した第1の言語モデルと、混合されたコーパス全体に共通の方法で混合されたコーパスのそれぞれの単語に前記コーパス固有に付与した単語IDとは別に付与したもう一つの単語IDを用いて推定した第2の言語モデルとを併用して学習を行うことを特徴とする請求項9の言語モデル学習方法。
  11. 前記第1の言語モデルと前記第2の言語モデルとを併用する方法として平滑化を用いることを特徴とする請求項10の言語モデル学習方法。
  12. 前記もう一つの単語IDとして単語をクラス分けした時のクラスのIDを用いることを特徴とする請求項10又は11の言語モデル学習方法。
  13. 複数のコーパスを混合して言語モデルを学習する前にそれぞれのコーパス毎に独立して混合する単語列を選び出すことを特徴とする請求項9、10、11、又は12の言語モデル学習方法。
  14. 前記必要単語選出部はコーパス毎に決められた出現頻度より多く出現する単語連鎖を抜き出すことを特徴とする請求項13の言語モデル学習方法。
  15. 複数のコーパスを混合して言語モデルを学習する言語モデル学習方法において、それぞれのコーパスの一部の単語に混合するコーパス全体で共通の単語IDを付与し、それぞれのコーパスの前記一部の単語を除く単語にコーパス固有の単語IDを付与し、言語モデルを学習することを特徴とする言語モデル学習方法。
  16. 複数のコーパスにそれぞれ対応してコーパス間で互いに異なる固有の単語IDを付与する手順と、複数のコーパスを混合して言語モデルを学習する手順とをコンピュータに実行させることを特徴とするプログラム。
  17. 前記コーパス固有に付与した単語IDを用いて推定した第1の言語モデルと、混合されたコーパス全体に共通の方法で混合されたコーパスのそれぞれの単語に前記コーパス固有に付与した単語IDとは別に付与したもう一つの単語IDを用いて推定した第2の言語モデルとを併用して学習を行う手順をコンピュータに実行させることを特徴とする請求項16のプログラム。
    ことを特徴とする請求項9の言語モデル学習方法。
  18. 前記第1の言語モデルと前記第2の言語モデルとを併用する方法として平滑化を用いることを特徴とする請求項17のプログラム。
  19. 前記もう一つの単語IDとして単語をクラス分けした時のクラスのIDを用いることを特徴とする請求項17又は18のプログラム。
  20. 複数のコーパスを混合して言語モデルを学習する前にそれぞれのコーパス毎に独立して混合する単語列を選び出す手順をコンピュータに実行させることを特徴とする請求項16、17、18、又は19のプログラム。
  21. 前記単語列を選び出す手順はコーパス毎に決められた出現頻度より多く出現する単語連鎖を抜き出すことを特徴とする請求項20のプログラム。
  22. それぞれのコーパスの一部の単語に混合するコーパス全体で共通の単語IDを付与する手順と、それぞれのコーパスの前記一部の単語を除く単語にコーパス固有の単語IDを付与する手順と、複数のコーパスを混合して言語モデルを学習する手順とをコンピュータに実行させることを特徴とするプログラム。
JP2003335977A 2003-09-26 2003-09-26 言語モデル学習システム、音声認識システム、言語モデル学習方法、及びプログラム Expired - Fee Related JP4810789B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003335977A JP4810789B2 (ja) 2003-09-26 2003-09-26 言語モデル学習システム、音声認識システム、言語モデル学習方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003335977A JP4810789B2 (ja) 2003-09-26 2003-09-26 言語モデル学習システム、音声認識システム、言語モデル学習方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2005106853A true JP2005106853A (ja) 2005-04-21
JP4810789B2 JP4810789B2 (ja) 2011-11-09

Family

ID=34532263

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003335977A Expired - Fee Related JP4810789B2 (ja) 2003-09-26 2003-09-26 言語モデル学習システム、音声認識システム、言語モデル学習方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP4810789B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010191046A (ja) * 2009-02-17 2010-09-02 Nec Corp 検出装置、音声認識装置、検出方法、及びプログラム
JP2010224029A (ja) * 2009-03-19 2010-10-07 Ntt Docomo Inc 言語モデル特定装置、言語モデル特定方法、音響モデル特定装置、および音響モデル特定方法
CN103871404A (zh) * 2012-12-13 2014-06-18 北京百度网讯科技有限公司 一种语言模型的训练方法、查询方法和对应装置
CN115392189A (zh) * 2022-10-28 2022-11-25 北京砍石高科技有限公司 多语种混合语料的生成方法及装置、训练方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000075886A (ja) * 1998-08-28 2000-03-14 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 統計的言語モデル生成装置及び音声認識装置
JP2001034287A (ja) * 1999-07-15 2001-02-09 Matsushita Electric Ind Co Ltd 言語モデルにおけるクラス決定方法、音声認識装置及びプログラム記録媒体
JP2002229588A (ja) * 2001-01-29 2002-08-16 Mitsubishi Electric Corp 統計的言語モデル生成装置、音声認識装置、及び統計的言語モデル生成方法並びに記録媒体
JP2002268678A (ja) * 2001-03-13 2002-09-20 Mitsubishi Electric Corp 言語モデル構成装置及び音声認識装置
JP2002342323A (ja) * 2001-05-15 2002-11-29 Mitsubishi Electric Corp 言語モデル学習装置およびそれを用いた音声認識装置ならびに言語モデル学習方法およびそれを用いた音声認識方法ならびにそれらの方法を記憶した記憶媒体
JP2003099087A (ja) * 2001-09-25 2003-04-04 Canon Inc 自然言語処理のための解析用辞書作成装置および方法、ならびにプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000075886A (ja) * 1998-08-28 2000-03-14 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 統計的言語モデル生成装置及び音声認識装置
JP2001034287A (ja) * 1999-07-15 2001-02-09 Matsushita Electric Ind Co Ltd 言語モデルにおけるクラス決定方法、音声認識装置及びプログラム記録媒体
JP2002229588A (ja) * 2001-01-29 2002-08-16 Mitsubishi Electric Corp 統計的言語モデル生成装置、音声認識装置、及び統計的言語モデル生成方法並びに記録媒体
JP2002268678A (ja) * 2001-03-13 2002-09-20 Mitsubishi Electric Corp 言語モデル構成装置及び音声認識装置
JP2002342323A (ja) * 2001-05-15 2002-11-29 Mitsubishi Electric Corp 言語モデル学習装置およびそれを用いた音声認識装置ならびに言語モデル学習方法およびそれを用いた音声認識方法ならびにそれらの方法を記憶した記憶媒体
JP2003099087A (ja) * 2001-09-25 2003-04-04 Canon Inc 自然言語処理のための解析用辞書作成装置および方法、ならびにプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010191046A (ja) * 2009-02-17 2010-09-02 Nec Corp 検出装置、音声認識装置、検出方法、及びプログラム
JP2010224029A (ja) * 2009-03-19 2010-10-07 Ntt Docomo Inc 言語モデル特定装置、言語モデル特定方法、音響モデル特定装置、および音響モデル特定方法
CN103871404A (zh) * 2012-12-13 2014-06-18 北京百度网讯科技有限公司 一种语言模型的训练方法、查询方法和对应装置
CN103871404B (zh) * 2012-12-13 2017-04-12 北京百度网讯科技有限公司 一种语言模型的训练方法、查询方法和对应装置
CN115392189A (zh) * 2022-10-28 2022-11-25 北京砍石高科技有限公司 多语种混合语料的生成方法及装置、训练方法及装置

Also Published As

Publication number Publication date
JP4810789B2 (ja) 2011-11-09

Similar Documents

Publication Publication Date Title
JP6493866B2 (ja) 情報処理装置、情報処理方法、およびプログラム
KR102447513B1 (ko) 점증적 대화지식 자가학습 기반 대화장치 및 그 방법
JP4737990B2 (ja) 語彙強勢予測
US7529657B2 (en) Configurable parameters for grammar authoring for speech recognition and natural language understanding
JP2004341520A (ja) 音声認識方法
JPH0320800A (ja) 音声認識方法および装置
JP2008539476A (ja) スペル提示の生成方法およびシステム
JP2007115142A (ja) 会話制御装置
JP2007115145A (ja) 会話制御装置
JP2006146008A (ja) 音声認識装置及び方法ならびにプログラム
JP2005024797A (ja) 統計的言語モデル生成装置、音声認識装置、統計的言語モデル生成方法、音声認識方法、およびプログラム
US20090106023A1 (en) Speech recognition word dictionary/language model making system, method, and program, and speech recognition system
JP6869835B2 (ja) 音声認識システム、端末装置、及び辞書管理方法
Sang et al. Applying system combination to base noun phrase identification
JPH10105189A (ja) シーケンス取出し方法及びその装置
JP4820240B2 (ja) 単語分類装置及び音声認識装置及び単語分類プログラム
JP4810789B2 (ja) 言語モデル学習システム、音声認識システム、言語モデル学習方法、及びプログラム
JP4756499B2 (ja) 音声認識結果の検査装置及びコンピュータプログラム
JP4826719B2 (ja) 音声認識システム、音声認識方法、および音声認識プログラム
JP5623380B2 (ja) 誤り文修正装置、誤り文修正方法およびプログラム
WO2017094913A1 (ja) 自然言語処理装置及び自然言語処理方法
JP4220151B2 (ja) 音声対話装置
JP2005275348A (ja) 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
JP2008293098A (ja) 応答スコア情報生成装置、対話処理装置
JP3950957B2 (ja) 言語処理装置および方法

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20050315

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060817

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20070118

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20080611

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20090508

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090908

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091106

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100525

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100709

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110215

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110415

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20110705

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110726

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110808

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140902

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees