JP2012078647A - 言語モデル学習装置及びコンピュータプログラム - Google Patents

言語モデル学習装置及びコンピュータプログラム Download PDF

Info

Publication number
JP2012078647A
JP2012078647A JP2010224870A JP2010224870A JP2012078647A JP 2012078647 A JP2012078647 A JP 2012078647A JP 2010224870 A JP2010224870 A JP 2010224870A JP 2010224870 A JP2010224870 A JP 2010224870A JP 2012078647 A JP2012078647 A JP 2012078647A
Authority
JP
Japan
Prior art keywords
word string
template
word
language model
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010224870A
Other languages
English (en)
Other versions
JP5807891B2 (ja
Inventor
Saeger Stijn De
デ サーガ ステイン
Varga Istvan
イシュトヴァーン ヴァルガ
Kiyotaka Otake
清敬 大竹
Kentaro Torisawa
健太郎 鳥澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2010224870A priority Critical patent/JP5807891B2/ja
Publication of JP2012078647A publication Critical patent/JP2012078647A/ja
Application granted granted Critical
Publication of JP5807891B2 publication Critical patent/JP5807891B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】対象となる分野またはアプリケーションで発せられる可能性のある自然言語文を効率よく生成できる自然言語文生成装置を提供する。
【解決手段】自然言語文生成装置30は、単語列テンプレートを記憶する拡張テンプレート集合記憶部56と、拡張テンプレート集合記憶部56に記憶された単語列テンプレートに合致する単語列パターンをWebコーパス32から抽出するフィルタ60と、予め選択された目的に沿った形式の自然言語の単語列が生成されるように準備された変形規則を記憶する変形規則記憶部64と、変形規則記憶部64に記憶された変形規則に基づいて、フィルタ60により抽出された単語列を変形する変形モジュール66とを含む。
【選択図】図1

Description

この発明は、コーパスに含まれる自然言語文から、多数の自然言語の単語列を得て、統計的言語モデルの学習を行なう言語モデル学習装置に関し、特に、コーパスに含まれる自然言語文から、所定の目的のために好適な言語モデルを自動的に生成可能な言語モデル学習装置に関する。
音声認識技術では、統計的言語モデルが使用される。統計的言語モデルとは、大量の自然言語文からなるコーパスにおける単語(または単語列。以下単に「単語等」と呼ぶ。)の出現頻度情報をモデル化したものである。コーパス内に出現する単語等の各々に対し、その単語等を、その出現頻度とともにリストしたものが統計的言語モデルである。N個の単語が所定の順序で連結された単語列(N−グラムと呼ばれる。)についての言語モデルはN−グラム言語モデルと呼ばれる。通常、1−グラムから3−グラムまでの言語モデルが使用されることが多い。
音声認識技術では、音声認識した結果得られる音素列の妥当性を、言語モデルを用いて検証する。音響的な尤度が高い音素列の中で、言語モデルにより算出される尤度が高い仮説のみが音声認識結果の候補として採用される。
こうした統計的言語モデルは、音声認識技術だけではなく、機械翻訳等においても翻訳結果の妥当性を算出するために使用される。
言語モデルを作成するためには、大量の自然言語文が必要である。ただし、自然言語文が大量にあればよいというものではない。言語モデルが使用されるアプリケーション、及び言語モデルが適用される対象領域に応じた適切な自然言語文から言語モデルを構築することが望ましい。例えば音声認識技術が適用される分野が明確に分かるのであれば、その分野に関連する自然言語文から言語モデルを作成することが望ましい。
現在は、大量の機械可読文書が利用可能である。このような機械可読文書から、言語モデルを作成するために必要な自然言語文を選択する技術が開発されてきている。
しかし、実際に人間が記述した自然言語文を用いる限り、言語モデルに含めたい表現がそこに含まれているという保証はない。逆に、大量の機械可読文書から抽出した文に、対象分野または言語モデルが適用されるアプリケーションとは関係のない言語表現が含まれる可能性は高い。したがって、例えばある分野またはアプリケーションが明確に意識されていたとしても、その分野またはアプリケーションに適した言語モデルを積極的に構築することが難しいという問題がある。
結局、従来の技術では、コーパスは所与のものとして、言語モデルのモデリング技術そのものを工夫し、言語モデルの性能を確保しようとする。
例えば後掲の特許文献1には、例えば言語モデルとして単語3‐グラム、2‐グラム、及び1‐グラムの出現頻度情報を持つものにおけるスムージングを開示している。3‐グラム言語モデルでは、学習データの不足により出現頻度が0となる3‐グラムが出現する可能性が高くなる。そのような言語モデルをそのまま使用すると、音声認識結果の単語列の尤度を正しく評価することができない。スムージングはそうした問題を緩和するための技術である。
特許文献1の技術では、予めスムージングに利用可能な言語モデルの種類とその依存関係(両者をあわせて「依存関係等」と呼ぶ。)とを記憶装置に記憶させておく。例えば学習に用いるコーパスに出現する総単語数が所定のしきい値より小さい場合には、例えば3‐グラムの言語モデルにスムージングを施すために、その依存関係等から、別の言語モデルを利用できる。
特開2009−145775号公報
しかし、上記した特許文献1に開示された技術も、もとになる学習データそのものに偏りがあったり、対象分野に関連するサンプルが不足していたりすると、言語モデルの性能を高めることはできない。すなわち、言語モデルが適用される分野またはアプリケーションに適した学習データをどのように準備するか、という問題を解決することがより本質的な解決策である。
理想的には、対象となる分野またはアプリケーションで発せられる可能性のある文章を全て含む学習データを準備し、その学習データに基づいて言語モデルを作成できればよい。現在のところ、Web上のデータの総体がそうした学習データに最も近いように思われる。しかし、上記したようにWeb上のデータにしても、人間が作成している以上、その総数には限界があり、ましては対象となる分野またはアプリケーションで発せられる可能性のある文章をすべて含んでいることはあり得ない。そこで、問題は、対象となる分野またはアプリケーションで発せられる可能性のある文章をできるだけ多く含む自然言語文を効率よく収集するためにはどうしたらよいか、ということである。
それゆえに本発明の目的は、対象となる分野またはアプリケーションで発せられる可能性のある自然言語の単語列に割当てられる確率が相対的に高くなるような言語モデルを効率よく生成できる言語モデル学習装置を提供することである。
本発明の第1の局面に係る言語モデル学習装置は、複数の自然言語文を含むコーパスを記憶する機械可読なコーパス記憶手段とともに用いられ、当該コーパスから特定用途に適した言語モデルの学習を行なうための言語モデル学習装置である。この装置は、特定用途のために予め準備された単語列テンプレートを記憶するためのテンプレート記憶手段と、テンプレート記憶手段に記憶された単語列テンプレートに合致する単語列パターンをコーパスから抽出するための単語列抽出手段と、予め選択された目的に沿った形式の自然言語の単語列が生成されるように予め準備された単語列変形規則に基づいて、単語列抽出手段により抽出された単語列パターンを変形するための変形手段と、変形手段により出力される単語列を学習データとして言語モデルの学習を行なうための学習手段とを含む。
予め、単語列テンプレートがテンプレート記憶手段に準備され、単語列テンプレートに合致する単語列パターンがコーパスから抽出される。それら単語列パターンに対し、予め選択された目的に沿った形式の自然言語の単語列が生成されるよう、単語列変形規則が適用される。その結果、コーパス内には存在しない表現が新たに生成される。その結果、コーパスに含まれる単語列の数の制限に関わらず、コーパスに含まれない表現まで含めて、目的に沿った多くの単語列からなる自然言語の単語列が生成できる。
好ましくは、テンプレート記憶手段は、機械可読な文から抽出すべき、基本的な単語列テンプレートであるシードテンプレートを記憶するためのシードテンプレート記憶手段と、シードテンプレート記憶手段に記憶されたシードテンプレートの各々に対し、予め準備されたテンプレート拡張規則を適用して拡張テンプレートを生成するための拡張テンプレート生成手段と、拡張テンプレート生成手段により生成された拡張テンプレートと、シードテンプレート記憶手段に記憶されたシードテンプレートとを記憶し、単語列抽出手段に単語列テンプレートとして与えるための拡張テンプレート記憶手段とを含む。
シードテンプレートをテンプレート拡張規則により拡張することで、最初に準備されたシードテンプレートより多くのテンプレートを生成できる。コーパスに含まれる単語列パターンのうちから、抽出される単語列パターンの数を多くできる。その結果、目的に沿った単語列からなる自然言語の単語列をより多く生成できる。
より好ましくは、テンプレート記憶手段が記憶する単語列テンプレートの各々は、それぞれ所定の制約条件を充足する任意の単語列を表す1または複数の変数と、その他の単語列を表すテキストデータとの配列を含む。
所定の制約条件は、各変数により表される単語の属する単語クラスであってもよい。単語列抽出手段は、コーパスに記憶された複数の自然言語文の各々を形態素解析し、各形態素に、当該形態素が属する単語クラスのタグを付して形態素列として出力するための形態素解析手段と、テンプレート記憶手段に記憶された単語列テンプレートの各々と、形態素解析手段により出力された形態素列とを比較し、単語列テンプレートと形態素列とが、単語列テンプレートに含まれる変数を除いて一致し、かつ形態素列中で単語列テンプレート内の変数に対応する位置にある形態素の単語クラスが、当該変数の単語クラスと一致しているものをコーパスから抽出するための手段とを含む。
好ましくは、テンプレート記憶手段が記憶する単語列テンプレートの各々は、それぞれ所定の制約条件を充足する任意の単語を表す1または複数の変数と、その他の単語列と、これら変数及び単語列の間の文法的関係を示す構文情報とを含む。
より好ましくは、所定の制約条件は、各変数により表される単語の属する単語クラスである。単語列抽出手段は、コーパスに記憶された複数の自然言語文の各々を形態素解析し、各形態素に、当該形態素が属する単語クラスのタグを付して形態素列として出力するための形態素解析手段と、形態素解析手段により出力される形態素列に対して構文解析を行ない、自然言語文の構文情報からなる単語列パターンを出力するための構文解析手段と、テンプレート記憶手段に記憶された単語列テンプレートの各々と、構文解析手段により出力された単語列パターンとを比較し、構文解析手段により出力された単語列パターン内の、変数を除いて単語列テンプレートと一致する構造を持つ部分であって、かつ当該部分の内で単語列テンプレート内の変数に対応する位置にある単語の単語クラスが、当該変数の単語クラスと一致しているものをコーパスから抽出するための手段とを含む。
さらに好ましくは、言語モデル学習装置はさらに、所定のコーパスに出現する単語列パターンの出現頻度を、当該単語列パターンごとに記憶するための頻度記憶手段と、変形手段から出力される変形後の単語列の各々に対し、当該単語列を構成する単語を生成した単語列パターンについて頻度記憶手段に記憶された出現頻度に基づいて、当該単語列の複写回数を決定して複写することにより、変形手段から出力される単語列中の単語の出現頻度を調整するための頻度調整手段とを含む。
言語モデル学習装置は、さらに、所定のコーパスに出現する単語の出現頻度を記憶するための頻度記憶手段と、変形手段から出力される変形後の単語列の各々に対し、当該単語列を構成する単語について頻度記憶手段に記憶された各単語の出現頻度に基づいて、当該単語列の複写回数を決定して複写することにより、変形手段から出力される単語列中の単語の出現頻度を調整するための頻度調整手段とを含む。
テンプレート記憶手段に記憶されたシードテンプレートの各々には予め重みが割当てられていてもよい。拡張テンプレート記憶手段に記憶された拡張テンプレートの各々には、当該拡張テンプレートのもとになったシードテンプレートの重みよりも小さな重みが割当てられている。自然言語装置はさらに、変形手段から出力される変形後の単語列の各々に対し、単語列抽出手段において使用された単語列テンプレートに割当てられた重みにしたがって、当該単語列を複写することにより、変形手段から出力される変形後の単語列に含まれる単語の出現頻度を調整するための頻度調整手段を含む。
本発明の第2の局面に係るコンピュータプログラムは、コンピュータを、上記したいずれかの言語モデル学習装置の各手段として機能させる。
本発明の第3の局面に係る音声認識装置は、上記した言語モデル学習装置のいずれかと、言語モデル学習装置により学習された言語モデルを記憶するための言語モデル記憶手段と、言語モデル記憶手段に記憶された言語モデルを用いることにより、入力される音声の音声認識を行なうための音声認識手段とを含む。
本発明の1実施の形態に係る言語モデル学習装置のブロック図である。 シードテンプレート集合の例を示す図である。 テンプレート拡張規則の例を示す図である。 単語列変形規則の例を示す図である。 シードテンプレートを拡張するためのプログラムの制御構造を示すフローチャートである。 Webコーパスからテンプレートに合致する単語列パターンを抽出するためのプログラムの制御構造を示すフローチャートである。 抽出された単語列パターンに変換規則を適用して所定の形の自然言語の単語列を生成して出力するためのプログラムの制御構造を示すフローチャートである。 本発明の1実施の形態に係る言語モデル学習装置を実現するコンピュータシステムの外観図である。 図8に示すコンピュータのハードウェア構成を示すブロック図である。
以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。
[構成]
図1を参照して、本発明の1実施の形態に係る言語モデル学習装置30は、Webから収集した文からなるWebコーパス32に含まれる自然言語文から、特定の分野に関する、特定の形の自然言語の単語列からなる学習コーパス34を生成し、学習コーパス34を学習データとして、言語モデル学習モジュール36により言語モデルの学習を行なうためのものである。この言語モデル学習装置30により、特定の分野に関する、特定の形の文についての音声認識に適した言語モデル38を構築できる。本実施の形態では、後述するように、病気に対する質問文である入力音声42の音声認識を行なって
音声認識結果44を出力する音声認識装置40のための言語モデルを構築する。なお、Webコーパス32、学習コーパス34、及び言語モデル38は、本実施の形態ではいずれもハードディスク等の不揮発性記憶媒体に記憶される。
言語モデル学習装置30は、Webコーパス32から抽出すべき単語列が満たすべき単語列パターンを記述したシードテンプレートからなるシードテンプレート集合を記憶するシードテンプレート集合記憶部50と、シードテンプレートから、シードテンプレートと異なる形の拡張テンプレートを生成するために参照されるテンプレート拡張規則を記憶するテンプレート拡張規則記憶部54と、シードテンプレート集合記憶部50に記憶された各シードテンプレートに対し、テンプレート拡張規則記憶部54に記憶されたテンプレート拡張規則のうち適用可能なものを適用し、拡張テンプレート集合を出力するためのテンプレート拡張処理部52と、テンプレート拡張処理部52により出力される拡張テンプレート集合を記憶するための拡張テンプレート集合記憶部56とを含む。
なお、本明細書では、単語列パターンとは、自然言語文または自然言語の単語列(以下「自然言語の単語列等」と呼ぶ。)を構成する単語の間の文法的関係を記述した構文情報のことをいう。たとえば構文解析木のようなものである。構文解析木の各リーフには、自然言語の単語列などに含まれる単語列が対応付けられる。テンプレートは、単語列パターンと同様の構造を構造を持ち、単語列パターンと比較されるもののことをいう。
図2を参照して、シードテンプレート集合記憶部50に記憶されたシードテンプレートは、Webコーパス32から抽出される単語列パターンが充足すべき基本的な構文構造を記述したものである。たとえば、シードテンプレートは、利用者が予め指定した構文解析木と、その解析木の各ノードに対応する単語列とからなる。シードテンプレートは、自然言語文から自動的に生成することも可能である。本実施の形態では、シードテンプレートは人間が手作業で準備するものとする。シードテンプレートは、本実施の形態ではいわゆる正規表現を用いて記述するものとする。正規表現としては種々のものが知られているが、ここではそれらのいずれも用いるようにしてもよい。
本実施の形態では、シードテンプレートを含む単語列テンプレートの構文解析木のリーフに相当する位置には単語が配置される。これら単語は、所定の制約条件を満たすべき単語を表す変数と、変数以外の単語列を表すテキストデータとを含む。テンプレートに変数が1つも含まれないものでもよい。テンプレートとして、ある単語が文頭または文末に来ていることを示す記号も記述可能とする。
図2に挙げたテンプレート(構文情報は除く。)はいずれも、変数(A,B)を含んでいる。これら変数も上記正規表現で定義されるものである。これら変数には、その変数に相当する位置の単語の単語クラス等の属性、またはこれらの組合せが指定される。単語クラスとは、例えば病名、薬品名、症状名、物質名、地名、人名、品詞、動詞の活用形、その他、単語をその属性によって分類したときに単語が属する集合を指定するものである。1つの変数に複数の属性が指定されていてもよい。その場合には、それら複数の属性がAND関係にあるのか、OR関係にあるのかを指定する情報も変数に付される。
図2の例では、「Aの原因はB」という単語列パターンがあればその単語列パターン(またはこの単語列パターンを含む文。以下単に「単語列パターン」と呼ぶ。)が抽出される。変数Aに「病名」という単語クラスが指定されていれば、「Aの原因はB」という形の文であって、かつ「A」が病名であるような単語列パターンが抽出される。「B」についても同様である。このように、特定の規則とマッチすることにより抽出された単語列パターンをここでは「インスタンス」と呼ぶ。
なお、図2に示す各シードテンプレートの右にある数値は、各シードテンプレートに割当てられた重みである。重みを用いない実施の形態もあり得るが、本実施の形態ではこの重みを用いて、最終的に得られた単語列の出現頻度(コーパスに出力する回数)を調整する。本実施の形態ではこの重みの範囲は0より大きく1以下である。
図2に示す例では、シードテンプレートは全て変数を2つ含んでいるが、シードテンプレートがこのようなものに限定されるわけではない。例えば変数を何も含まない表現、変数を1個だけ含む表現、文頭または文末を指定する表現等を用いることもできる。文頭または文末を表す場合、テンプレートにそれらを表す文字列(タグ)を付しておく。
シードテンプレートとして特定の単語のみを指定することもできるし、品詞列を指定することもできる。
図3を参照して、テンプレート拡張規則記憶部54に記憶されたテンプレート拡張規則は、シードテンプレート集合記憶部50に記憶されたシードテンプレートを拡張し、拡張テンプレートを生成するための規則である。テンプレート拡張規則も正規表現を用いて記述することができる。
例えばシードテンプレートとして図3の(1)に示す「A<病名>の理由はB」を考える。「<病名>」は変数Aに割当てられた単語タグであり、この位置の単語に「病名」というタグが割当てられていることを示す。
図3に示すテンプレート拡張規則によれば、「A<病名>の理由はB」というテンプレートから、「Aの理由はB」、「AはBにより引き起こされる」、「BによりAが発生」、「AはBのせい」等というテンプレートが生成できる。なお、ここでは変数に割当てられる単語クラスの記載は繰返していない。
このように、予めテンプレート拡張規則を多数準備しておき、シードテンプレートにこれらテンプレート拡張規則を適用することにより新たなテンプレート(これらを「拡張テンプレート」と呼ぶ。)を生成できる。テンプレート拡張規則を多数準備しておけば、1つのシードテンプレートから多数の拡張テンプレートを生成することができ、Webコーパス32から抽出されるインスタンスの数を増加させることができる。
図3には示していないが、単語を意味的な構造にしたがって配列したシソーラスを用いると、テンプレート拡張規則により生成できるテンプレート数をより多くすることができる。例えば単語クラス「薬品名」について、このクラスのより上位の単語クラスが「物質名」であれば、単語クラスが「薬品名」の変数がテンプレート中にあるときに、この変数の単語クラスを上位の「物質名」に置換するようなテンプレートを生成することもできる。このような置換を可能とするか否かは、システムの設計に依存する事項でもあるし、システムの動作時の設定に依存する事項でもある。
図3に示す例では、拡張規則の各々の右側に、各拡張規則の重みが付されている。本実施の形態では、各テンプレート拡張規則に割当てられた重みと、基となるシードテンプレートの重みとの積にしたがって、最終的に抽出または生成された単語列パターンの出現頻度を調整する。拡張規則により拡張されたテンプレートは、利用者がシードテンプレートとしては特に指定しなかったものである。したがって、最終的に得られる言語モデルでは、拡張テンプレートに基づいて抽出されたインスタンスについては、その出現頻度をシードテンプレートに基づいて抽出されたものよりも低めに設定した方が目的に沿っていると考えられる。したがって、本実施の形態では、各テンプレート拡張規則に割当てられた重みは0より大きく1より小さい値となっている。
再び図1を参照して、言語モデル学習装置30はさらに、拡張テンプレート集合記憶部56に記憶された拡張テンプレートを用い、Webコーパス32に含まれる文から、拡張テンプレートのいずれかに合致するインスタンスを抽出するフィルタ60と、フィルタ60がWebコーパス32内の各文の構文解析を行なう際に参照する構文解析用辞書58と、フィルタ60によりWebコーパス32から抽出されたインスタンスの文からなる抽出文コーパスを記憶する抽出文コーパス記憶装置62と、抽出文コーパス記憶装置62に記憶された抽出文を、最終的に得られる言語モデルの対象分野及びアプリケーションに応じた文型に変換するための単語列変形規則を記憶した単語列変形規則記憶部64と、抽出文コーパス記憶装置62に記憶された文の各々に、単語列変形規則記憶部64に記憶された単語列変形規則のうち適用可能なものを適用し、変形後の文を出力するための変形モジュール66と、変形モジュール66から出力される変形後の文からなる変形文集合を記憶するための変形単語列集合記憶部68とを含む。単語列変形規則記憶部64に記憶された単語列変形規則も、本実施の形態では正規表現で記述されている。
図4を参照して、単語列変形規則の簡単な例を示す。なお、ここでは、言語モデル学習装置30は、前述したとおり、病気に関する質問の音声入力を音声認識するための言語モデルの作成に用いられるものとする。図4の(1)に示す単語列変形規則は、「Aを引き起こすB」という形の単語列パターンから、「Aを引き起こすものについて教えてください。」という質問文を生成するための規則である。ここでも「A」と「B」とは変数である。変数には、テンプレートと同様、単語クラス等の属性の指定が付されていても良い。変数に属性が付されている場合には、その属性まで含めて単語列変形規則の左辺と一致した単語列パターンを、単語列変形規則の右辺に示された単語列に変形する。
図4に示す例では、単語列変形規則の左辺と右辺とが1つずつのものしか示されていない。しかし本発明はそのような実施の形態に限定されない。左辺が同一で右辺が異なるような複数の単語列変形規則を、1つの変形規則にまとめるような実装を行なってもよい。
再び図1を参照して、言語モデル学習装置30はさらに、Webコーパス32に出現する、構造を含めた各単語列の出現頻度を算出するための頻度算出モジュール70と、頻度算出モジュール70により各単語列について算出された出現頻度からなる頻度データを記憶する頻度データ記憶部72と、変形単語列集合記憶部68に記憶されている各変形文について、当該変形文に付されている重みと、頻度データ記憶部72に記憶された単語列の頻度データとに基づいて、変形文の出力回数を定め、その回数だけ繰返して当該変形文を出力することにより、最終的に得られるコーパス中の単語列の出現頻度を調整するための頻度調整モジュール74とを含む。頻度調整モジュール74の出力する変形文の集合が学習コーパス34を形成する。
本実施の形態では、頻度データ記憶部72に記憶される頻度データは、構造別の単語列ごとの出現確率である。
図5を参照して、図1のテンプレート拡張処理部52をコンピュータにより実現するためのプログラムは、以下のような制御構造を有する。このプログラムは、テンプレート拡張規則記憶部54に記憶されたテンプレート拡張規則を全てコンピュータの主記憶装置に読込むステップ100と、ステップ100で読込まれた各規則に対し、以下に説明するステップ104を実行するステップ102と、ステップ102の処理が完了した後、ステップ102の処理で得られた、シードテンプレートと拡張テンプレートとをマージしたものを拡張テンプレート集合として出力して処理を終了するステップ106とを含む。
ステップ104は、シードテンプレート集合記憶部50に記憶された全てのシードテンプレートに対し、現在処理対象となっている拡張規則が適用可能なら適用し、新たなテンプレート(拡張テンプレート)を作成するステップ110と、新たに作成されたテンプレートに、基となったシードテンプレートの重みと、拡張規則の重みとの積を計算し、重みとして付すステップ112と、ステップ112で作成された拡張テンプレートを、ステップ112で計算された重みとともに、シードテンプレートにマージするステップ114とを含む。なお、ステップ110で作成された新テンプレートが既にシードテンプレートにマージされている場合、そのテンプレートはシードテンプレートに追加されない。
図6を参照して、図1に示すフィルタ60を実現するためのプログラムは、Webコーパス32に記憶されている各文に対して以下のステップ132を実行するステップ130を含む。
ステップ130は、処理対象となっている文に対し、構文解析用辞書58を参照してそれぞれ形態素解析及び構文解析を行なうステップ140及び141と、形態素解析及び構文解析処理により単語クラス、活用形等を示すタグが付された単語列(形態素列)を持つ構文情報からなる単語列パターンを受け、拡張テンプレート集合記憶部56に記憶された各テンプレートについて、以下のステップ144を実行するステップ142とを含む。なお、ここでは対象言語を日本語としているため、ステップ140では形態素解析を含む構文解析を行なっている。対象言語が英語のように単語を空白で区切る言語の場合、ここでは形態素解析は不要であり、品詞解析等の解析処理を含む構文解析処理を実行すればよい。形態素解析には、既存の形態素解析プログラムを使用すればよい。形態素解析プログラムとして、例えば、JUMAN (URL=http://nlp.kuee.kyoto-u.ac.jp/nl-resource/juman.html)、またはChaSen(URL=http://chasen-legacy.sourceforge.jp/)を用いることができる。構文解析処理には、係り受け解析と句構造解析との2通りの技術が存在する。いずれを用いてもよいが、本実施の形態では係り受け解析を用いるものとする。既存の日本語構文解析システムKNP(URL=http://nlp.kuee.kyoto-u.ac.jp/nl-resource/knp.html)を用いてもよい。
ステップ144は、処理対象となっている単語列パターン中で、処理対象となっているテンプレートにマッチする箇所があるか否かを判定するステップ150と、ステップ150の判定が肯定のときに、そのマッチする箇所に、処理対象となっているテンプレートの重みを付して出力し、処理を次のテンプレートに移動させるステップ152とを含む。ステップ150の判定が否定のときには何もされず、処理は次のテンプレートに移動する。なお、ここでのマッチの判定の基準は、単語列パターンを構成する構文情報の内に、変数を除いて単語列テンプレートの構文情報と一致する部分があり、かつ当該部分の内で単語列テンプレートの構文情報内の変数に対応する位置にある単語の単語クラスが、当該変数の単語クラスと一致しているか否かである。この判定の際、処理対象となっている単語列パターン中の一部でも単語列パターンと一致していればそを出力する。なお、構文情報を用いず、形態素列(単語列)のみを用いる場合には、単語列テンプレートと形態素列とが、単語列テンプレートに含まれる変数を除いて一致し、かつ形態素列中で単語列テンプレート内の変数に対応する位置にある形態素の単語クラスが、当該変数の単語クラスと一致しているか否かを基準とすればよい。
図7を参照して、図1の変形モジュール66及び頻度調整モジュール74を実現するためのプログラムは、抽出文コーパス記憶装置62に記憶された文に含まれる各単語列に対し、以下のステップ182を実行するステップ180を含む。
ステップ182は、単語列変形規則記憶部64に記憶された各単語列変形規則について、以下のステップ202を実行するステップ200を含む。
ステップ202は、処理対象の単語列パターンが、処理対象の変形規則の左辺にマッチするか否かを判定し、マッチしなければ次の変形規則に処理を進めるステップ210と、ステップ210の判定が肯定のときに、この変形規則に従い、処理対象の単語列パターンを変形して新たな単語列を生成するステップ212と、ステップ212に続き、処理対象の単語列パターンに含まれる単語の、そのパターン(単語列の構造)における出現頻度(単語が複数あるときはそれらの積)と、処理対象の単語列パターンに割当てられている重みと、最終的に得られる学習コーパス34に含まれる文の数を調整するために予め定められる定数との積を計算するステップ214と、ステップ214で計算された値の整数部分により定められる回数だけ、ステップ212で得られた単語列を繰返して出力するステップ216とを含む。ステップ214で算出された値が1に満たない場合、本実施の形態ではステップ216において1回だけ変形後の単語列を出力する。
[動作]
図1〜図7に示した言語モデル学習装置30は以下のように動作する。予め、Webから多数の文を収集し、Webコーパス32に記憶させておく。頻度算出モジュール70は、予めWebコーパス32に含まれる各文について形態素解析及び構文解析し、各単語について、その出現する構造ごとにその出現頻度を算出し、頻度データ記憶部72に頻度データとして記憶させる。この処理は通常の言語モデルの学習とほとんど同じである。
本実施の形態では、利用者が予めシードテンプレート、テンプレート拡張規則、及び単語列変形規則を作成し、シードテンプレート集合記憶部50、テンプレート拡張規則記憶部54、及び単語列変形規則記憶部64にそれぞれ記憶させておく。これらはいずれも正規表現を使用する。これらはまた、最終的に得られる言語モデル38がどのような分野に適用されるのであり、どのようなアプリケーションにより使用されるのかにより、その作成方針が定められる。ただし、最終的にどのようなテンプレート及び規則を作成するかは利用者の選択により決まる。
シードテンプレート及びテンプレート拡張規則が準備できると、テンプレート拡張処理部52が動作し、シードテンプレート集合記憶部50に記憶されたシードテンプレートの各々に、テンプレート拡張規則記憶部54に記憶されたテンプレート拡張規則を適用してテンプレートを拡張する。この拡張により多数のテンプレートが生成され拡張テンプレート集合記憶部56に記憶される。
さらに、単語列変形規則を生成し、予め単語列変形規則記憶部64に格納しておく。構文解析用辞書58としては、フィルタ60で使用する形態素解析及び構文解析プログラムに適合したフォーマットのものを用意しておく。
拡張テンプレート集合記憶部56に格納された拡張テンプレートは予め全て読み出され、図示しない主記憶部に記憶される。フィルタ60は、Webコーパス32から文を読出し、それぞれについて形態素解析及び構文解析を行なう(図6のステップ140)。さらにフィルタ60は、構文解析により得られた単語列パターン(単語クラス、意味クラス等のタグが付された形態素列と、それらをリーフとして持つ構文解析木からなる構文情報)について、主記憶部に記憶された拡張テンプレートにマッチする部分を持つか否かを判定する(ステップ150)。拡張テンプレートのいずれかとマッチする部分がある場合(ステップ150の判定が肯定)、フィルタ60はその単語列パターンを、マッチしたテンプレートに付された重みとともに抽出文コーパス記憶装置62に出力する(ステップ152)。抽出文コーパス記憶装置62はこれらの単語列パターンを単語に付されたタグ及び重みとともに記憶する。フィルタ60は、Webコーパス32に記憶された全ての文についてこれを繰返す。
変形モジュール66は、抽出文コーパス記憶装置62に記憶された各単語列パターンに対し、単語列変形規則記憶部64を適用する。すなわち、変形モジュール66は処理対象の単語列パターンごとに、変形規則を呼出し、単語列パターンが変形規則の左辺とマッチするか否かを判定する(ステップ210)。単語列パターンが変形規則の左辺とマッチする場合(ステップ210の判定が肯定)、変形モジュール66は、変形規則の右辺にしたがって単語列パターンを変形し、その単語列パターンから単語列を生成する(ステップ212)。変形後の単語列は変形単語列集合記憶部68に記憶される。頻度調整モジュール74は、その変形後の単語列の重みを、単語列に出現する単語の出現頻度の積と、単語列に付されていた、フィルタ60において適用されたテンプレートの重みと、所定の定数との積として算出する(ステップ214)。頻度調整モジュール74は、こうして計算された重みの整数部分の回数だけ、変形後の単語列を繰返して出力する(ステップ216)。出力された変形後の文はいずれも学習コーパス34に記憶される。ステップ216の処理が終了すると、変形モジュール66は次の変形規則による処理を実行する。ステップ210の判定が否定なら、変形モジュール66その変形規則については何もせず、次の変形規則による処理を実行する。
このようにして、ある単語列パターンについて、変形モジュール66及び変形単語列集合記憶部68が全ての変形規則を適用する処理が完了すると、次の単語列パターンについて、同じ処理が実行される。
全ての単語列パターンについて、変形モジュール66及び頻度調整モジュール74が全ての変形規則を適用すると、処理を終了する。
このようにして学習コーパス34が作成される。学習コーパス34は、最初に準備したシードテンプレートに適合した文と、シードテンプレートから拡張した、シードテンプレートと関連した拡張テンプレートに適合した文とから、予め準備された単語列変形規則により変形された文からなる。拡張テンプレートは、シードテンプレートに含まれる単語の類義語、シードテンプレートの表現の言い換え等からなる。また、単語列変形規則は、最終的な目標となる言語モデルが使用されるアプリケーションでよく使用される文型を想定したものである。したがって、学習コーパス34は、特定の分野に関する発話によく出現する単語またはその類義語、及び特定のアプリケーションでよく用いられる言い回しを多く含む。しかもシードテンプレートは、テンプレート拡張規則により拡張されるため、拡張テンプレート集合記憶部56には非常に多数のテンプレートが含まれる。しかもこのテンプレートには正規表現が用いられるため、テンプレートとWebコーパス32に含まれる文とのマッチングにより非常に多くの単語列パターン(形態素列)がWebコーパス32から抽出される。ここでは「抽出」という語を用いているが、テンプレートとして言い換えも認めているため、Webコーパス32には含まれない表現もフィルタ60の処理により抽出されることになる。
Webコーパス32は、入手可能なコーパスとしては、最も多数の表現を含むと考えられる。しかし、Webコーパス32に含まれる表現は、人間により作成されたものであり、そのためにその数にはどうしても限りがある。それに対し、本実施の形態のように、テンプレートを拡張して様々な拡張テンプレートでWebコーパス32とマッチングを行ない、さらに拡張テンプレートにより表現を種々に変更することにより、変形モジュール66には人手で作成されたものよりもはるかに幅広い表現が格納されることになる。したがって、それら表現を用いて生成された学習コーパス34を学習データとして学習した言語モデル38は、最初に意図された分野またはアプリケーションに適合したものとなり、しかもWebコーパス32には含まれない表現を含む非常に幅広い表現に対しても出現確率を算出することが可能なものとなる。その結果、言語モデル38を用いた音声認識は、シードテンプレート及び単語列変形規則を作成したときに意図された分野及びアプリケーションに対して高い精度の認識率を実現することができる。
もっとも、本発明で使用するWebコーパス32がWebから収集した文のみを含むものに限定されないことは当業者には明らかであろう。Webコーパス32として、Webから収集したものに、別のソースから得た文を加えたものを用いてもよいし、Webから収集した文を含まないコーパスを用いることもできる。
なお、上記した実施の形態では、テンプレート拡張処理部52によるテンプレートの拡張はシードテンプレートに対するもののみであった。しかし本発明はそのようなものには限定されない。シードテンプレートに対してテンプレート拡張規則を適用して得られた拡張テンプレートに、さらにテンプレート拡張規則を適用することでさらにテンプレート数を増加させるようにしてもよい。この場合、所定の繰返し回数だけテンプレート拡張の処理を行なっても良いし、新たな拡張テンプレートが出現しなくなるまで、テンプレート拡張の処理を繰返し実行するようにしてもよい。
図4に示す例では、1つの単語列パターンを変形して1つの新たな単語列を生成する変形規則のみが示されている。しかし、本発明はそのような実施の形態に限定されるわけではない。例えば、規則中に、別の単語列パターンを参照する記述を含ませることにより、2つの単語列パターンから新たな単語列を作成するような規則を用いても良い。
例えば、変形後の単語列パターンの集合の中に、ある単語で終わっている単語列パターンと、同じ単語で始まっている単語列パターンとが存在しているときに、それら2つの単語列パターンを、共通の単語を中心に互いに接続して新たな単語列を作成することができる。例えば、「AのB」というテンプレートのインスタンスとして「ボリビアの首都」という単語列パターンが抽出され、「Xはどこ」というテンプレートに対して「首都はどこ」というインスタンスが抽出されたときを考える。前者の最後の単語と、後者の先頭の単語とは、いずれも「首都」である。こうしたときには、両者を「首都」を中心に接続し、「ボリビアの首都はどこ」という新たな単語列を生成できる。
他の例として、テンプレートの中に変数が存在しない場合には、テンプレート同士を単純に接続することも変形の一種として行なう。例えば、「ですね(文末)」のようなものがテンプレートに存在しており、変形後の単語列の中に「首都ですね」という表現がある場合を考える。この場合、「ボリビアの首都」というインスタンスと「ですね」という表現とを直接に接続して「ボリビアの首都ですね」という表現も変形後の単語列として生成する。
こうした処理のためには、そのための変形規則を単語列変形規則記憶部64に記憶された変形規則とは別に準備しておく必要がある。図7に示す処理が完了した後に、これら規則に従って、変形後の単語列をさらに加工するようにすればよい。
上記実施の形態では、頻度調整モジュール74は変形文に割当てられた重みと、変形文に含まれる単語の出現確率の積との積により、その変形文の複写数を調整している。しかし本発明はそのような実施の形態には限定されない。例えば、変形文に割当てる重みは全て等しい値としてもよい。また、変形文に含まれる全ての単語の出現確率の積ではなく、例えば名詞だけの出現確率を用いるようにしても良い。
上記実施の形態では、シードテンプレートに予め種々の重みを付与している。しかし本発明はそのような実施の形態には限定されない。シードテンプレートに付与している重みを一定とし、どのテンプレート拡張規則が用いられたかのみにより、テンプレートの重みを決定するようにしてもよい。または、Webコーパス32に含まれる単語列について、適用可能なテンプレートが複数個ある場合には、その個数に応じて大きくなる重みを与えるようにしてもよい。テンプレート拡張規則をシードテンプレートだけでなく拡張テンプレートにも適用してテンプレートを作成するようにした場合には、拡張テンプレートを適用するごとに、テンプレートの重みが軽くなるようにすることが望ましい。
さらに、フィルタ60によるフィルタリングの際に、上記実施の形態では、抽出された単語列に対し、抽出の際に適用されたテンプレートの重みを付しているだけである。しかし本発明はそのような実施の形態には限定されない。例えば、処理対象の文のうち、どの程度の大きさの部分があるテンプレートに適合したかにより、重みを変化させるようにしても良い。この場合、文の全体が1つのテンプレートに適合した場合に重みは変化させず、マッチした部分の文全体に対する割合が小さくなるにしたがって、重みも小さくなるようにすることが望ましい。
上記実施の形態では、単語列変形規則記憶部64に記憶される単語列変形規則については重みを付与していない。しかし本発明はそのような実施の形態には限定されない。例えば、予め単語列変形規則に対して0より大きく1以下の重みを付与しておき、マッチした文に付与されていた重みにこの重みを乗じて、変形後の文の重みとしてもよい。
上記実施の形態では、各規則はいずれも正規表現を用いて記述されている。しかし本発明はそのような実施の形態には限定されない。目的に応じて規則を的確に記述できるものであれば、どのような記述方式に従うものであってもよい。
さらに、上記した実施の形態では、コーパスの各文に対して構文解析を行なっている。しかし本発明はそのような実施の形態には限定されず、形態素解析のみを行なうようにしてもよい。この場合得られるのは1次元的に配列された形態素列となるが、これも一種の構造とみなせば、以後の処理としては上記実施の形態の処理をそのまま適用することができる。
[コンピュータによる実現]
この実施の形態に係る言語モデル学習装置30は、コンピュータハードウェアと、そのコンピュータハードウェアにより実行されるプログラムと、コンピュータハードウェアに格納されるデータとにより実現できる。
図8を参照して、このコンピュータシステム330は、FD(フレキシブルディスク)ドライブ352およびCD−ROM(コンパクトディスク読出専用メモリ)ドライブ350を有するコンピュータ340と、キーボード346と、マウス348と、モニタ342とを含む。
図9を参照して、コンピュータ340は、FDドライブ352およびCD−ROMドライブ350に加えて、CPU(中央処理装置)356と、CPU356、FDドライブ352およびCD−ROMドライブ350に接続されたバス366と、ブートアッププログラム等を記憶する読出専用メモリ(ROM)358と、バス366に接続され、プログラム命令、システムプログラム、および作業データ等を記憶するランダムアクセスメモリ(RAM)360とを含む。コンピュータシステム330はさらに、インターネットへの接続を提供するネットワークインターフェイス(I/F)344を含む。図示しないが、コンピュータ340はネットワークI/F344を介して携帯電話ネットワークと接続されており、携帯電話300とデータ通信を行なうことができる。
コンピュータシステム330に言語モデル学習装置30としての動作を行なわせるためのコンピュータプログラムは、CD−ROMドライブ350またはFDドライブ352に挿入されるCD−ROM362またはFD364に記憶され、さらにハードディスク354に転送される。または、プログラムは図示しないネットワークを通じてコンピュータ340に送信されハードディスク354に記憶されてもよい。プログラムは実行の際にRAM360にロードされる。CD−ROM362から、FD364から、またはネットワークを介して、直接にRAM360にプログラムをロードしてもよい。
このプログラムは、コンピュータ340にこの実施の形態の言語モデル学習装置30として動作を行なわせる複数の命令を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ340上で動作するオペレーティングシステム(OS)もしくはサードパーティのプログラム、またはコンピュータ340にインストールされる各種ツールキットのモジュールにより提供される。従って、このプログラムはこの実施の形態のシステムおよび方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能または「ツール」を呼出すことにより、上記した言語モデル学習装置30としての動作を実行する命令のみを含んでいればよい。
なお、図1に示すWebコーパス32、シードテンプレート集合記憶部50、テンプレート拡張規則記憶部54、拡張テンプレート集合記憶部56、構文解析用辞書58、抽出文コーパス記憶装置62、単語列変形規則記憶部64、変形単語列集合記憶部68、頻度データ記憶部72、学習コーパス34及び言語モデル38等は、いずれも図9に示すハードディスク354またはRAM360により実現される。特に、例えばWebコーパス32、シードテンプレート集合記憶部50、テンプレート拡張規則記憶部54、抽出文コーパス記憶装置62、単語列変形規則記憶部64等の領域は通常はハードディスク354内に確保されており、プログラムの実行時、必要に応じて必要な情報がこれら領域から読出されてRAM360にロードされる。拡張テンプレート集合記憶部56、抽出文コーパス記憶装置62、変形単語列集合記憶部68等に記憶されるデータはワークファイル的な性格を持つ。したがって、生成時にはRAM360に生成され、保存の必要があればハードディスク354に保存される。学習コーパス34及び言語モデル38も同様である。
コンピュータシステム330の動作は周知であるので、ここでは繰返さない。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。
30 言語モデル学習装置
32 Webコーパス
34 学習コーパス
36 言語モデル学習モジュール
38 言語モデル
50 シードテンプレート集合記憶部
52 テンプレート拡張処理部
54 テンプレート拡張規則記憶部
56 拡張テンプレート集合記憶部
58 構文解析用辞書
60 フィルタ
64 単語列変形規則記憶部
66 変形モジュール
74 頻度調整モジュール

Claims (11)

  1. 複数の自然言語文を含むコーパスを記憶する機械可読なコーパス記憶手段とともに用いられ、当該コーパスから特定用途に適した言語モデルの学習を行なうための言語モデル学習装置であって、
    前記特定用途のために予め準備された単語列テンプレートを記憶するためのテンプレート記憶手段と、
    前記テンプレート記憶手段に記憶された単語列テンプレートに合致する単語列パターンを前記コーパスから抽出するための単語列抽出手段と、
    予め選択された目的に沿った形式の自然言語の単語列が生成されるように予め準備された変形規則に基づいて、前記単語列抽出手段により抽出された単語列パターンを変形するための変形手段と、
    前記変形手段により出力される単語列を学習データとして言語モデルの学習を行なうための学習手段とを含む、言語モデル学習装置。
  2. 請求項1に記載の言語モデル学習装置であって、
    前記テンプレート記憶手段は、
    機械可読な文から抽出すべき、基本的な単語列テンプレートであるシードテンプレートを記憶するためのシードテンプレート記憶手段と、
    前記シードテンプレート記憶手段に記憶されたシードテンプレートの各々に対し、予め準備されたテンプレート拡張規則を適用して拡張テンプレートを生成するための拡張テンプレート生成手段と、
    前記拡張テンプレート生成手段により生成された拡張テンプレートと、前記シードテンプレート記憶手段に記憶されたシードテンプレートとを記憶し、前記単語列抽出手段に前記単語列テンプレートとして与えるための拡張テンプレート記憶手段とを含む、言語モデル学習装置。
  3. 請求項1または請求項2に記載の言語モデル学習装置であって、
    前記テンプレート記憶手段が記憶する単語列テンプレートの各々は、それぞれ所定の制約条件を充足する任意の単語を表す1または複数の変数と、その他の単語列パターンを表すテキストデータとの配列を含む、言語モデル学習装置。
  4. 請求項3に記載の言語モデル学習装置であって、
    前記所定の制約条件は、各変数により表される単語の属する単語クラスであり、
    前記単語列抽出手段は、
    前記コーパスに記憶された前記複数の自然言語文の各々を形態素解析し、各形態素に、当該形態素が属する単語クラスのタグを付して形態素列として出力するための形態素解析手段と、
    前記テンプレート記憶手段に記憶された単語列テンプレートの各々と、前記形態素解析手段により出力された形態素列とを比較し、単語列テンプレートと形態素列とが、単語列テンプレートに含まれる変数を除いて一致し、かつ形態素列中で単語列テンプレート内の変数に対応する位置にある形態素の単語クラスが、当該変数の単語クラスと一致しているものを前記コーパスから抽出するための手段とを含む、言語モデル学習装置。
  5. 請求項1または請求項2に記載の言語モデル学習装置であって、
    前記テンプレート記憶手段が記憶する単語列テンプレートの各々は、それぞれ所定の制約条件を充足する任意の単語を表す1または複数の変数と、その他の単語列と、これら変数及び単語列の間の文法的関係を示す構文情報とからなる単語列パターンを含む、言語モデル学習装置。
  6. 請求項5に記載の言語モデル学習装置であって、
    前記所定の制約条件は、各変数により表される単語の属する単語クラスであり、
    前記単語列抽出手段は、
    前記コーパスに記憶された前記複数の自然言語文の各々を形態素解析し、各形態素に、当該形態素が属する単語クラスのタグを付して形態素列として出力するための形態素解析手段と、
    前記形態素解析手段により出力される形態素列に対して構文解析を行ない、前記自然言語文の構文情報からなる単語列パターンを出力するための構文解析手段と、
    前記テンプレート記憶手段に記憶された単語列テンプレートの各々と、前記構文解析手段により出力された単語列パターンとを比較し、前記構文解析手段により出力された単語列パターンの内の、変数を除いて単語列テンプレートと一致する構造を持つ部分であって、かつ当該部分の内で単語列テンプレートの変数に対応する位置にある単語の単語クラスが、当該変数の単語クラスと一致しているものを前記コーパスから抽出するための手段とを含む、言語モデル学習装置。
  7. 請求項5〜請求項6のいずれかに記載の言語モデル学習装置であって、さらに、
    所定のコーパスに出現する単語列パターンの出現頻度を、当該単語単語列パターンごとに記憶するための頻度記憶手段と、
    前記変形手段から出力される変形後の単語列の各々に対し、当該単語列を生成した単語列パターンについて前記頻度記憶手段に記憶された出現頻度に基づいて、当該単語列の複写回数を決定して複写することにより、前記変形手段から出力される単語列中の単語の出現頻度を調整するための頻度調整手段とを含む、言語モデル学習装置。
  8. 請求項1〜請求項6のいずれかに記載の言語モデル学習装置であって、さらに、
    所定のコーパスに出現する単語の出現頻度を記憶するための頻度記憶手段と、
    前記変形手段から出力される変形後の単語列の各々に対し、当該単語列を構成する単語について前記頻度記憶手段に記憶された各単語の出現頻度に基づいて、当該単語列の複写回数を決定して複写することにより、前記変形手段から出力される単語列中の単語の出現頻度を調整するための頻度調整手段とを含む、言語モデル学習装置。
  9. 請求項2に記載の言語モデル学習装置であって、
    前記テンプレート記憶手段に記憶されたシードテンプレートの各々には予め重みが割当てられており、
    前記テンプレート記憶手段に記憶された前記拡張テンプレートの各々には、当該拡張テンプレートのもとになったシードテンプレートの重みよりも小さな重みが割当てられており、
    前記自然言語装置はさらに、
    前記変形手段から出力される変形後の単語列の各々に対し、前記単語列抽出手段において使用された単語列テンプレートに割当てられた重みにしたがって、当該単語列を複写することにより、前記変形手段から出力される変形後の単語列に含まれる単語の出現頻度を調整するための頻度調整手段を含む、言語モデル学習装置。
  10. コンピュータを、
    複数の自然言語文を含むコーパスを記憶する機械可読なコーパス記憶手段に接続されるコンピュータを、
    単語列テンプレートを記憶するためのテンプレート記憶手段と、
    前記テンプレート記憶手段に記憶された単語列テンプレートに合致する単語列パターンを前記コーパスから抽出するための単語列抽出手段と、
    予め選択された目的に沿った形式の自然言語の単語列が生成されるように予め準備された変形規則に基づいて、前記単語列抽出手段により抽出された単語列パターンを変形するための変形手段と、
    前記変形手段により出力される単語列の集合を学習データとして統計的言語モデルの学習を行なうための学習手段として機能させる、コンピュータプログラム。
  11. 請求項1〜請求項9のいずれかに記載の言語モデル学習装置と、
    前記言語モデル学習装置により学習された言語モデルを記憶するための言語モデル記憶手段と、
    前記言語モデル記憶手段に記憶された言語モデルを用いることにより、入力される音声の音声認識を行なうための音声認識手段とを含む、音声認識装置。
JP2010224870A 2010-10-04 2010-10-04 言語モデル学習装置及びコンピュータプログラム Expired - Fee Related JP5807891B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010224870A JP5807891B2 (ja) 2010-10-04 2010-10-04 言語モデル学習装置及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010224870A JP5807891B2 (ja) 2010-10-04 2010-10-04 言語モデル学習装置及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2012078647A true JP2012078647A (ja) 2012-04-19
JP5807891B2 JP5807891B2 (ja) 2015-11-10

Family

ID=46238957

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010224870A Expired - Fee Related JP5807891B2 (ja) 2010-10-04 2010-10-04 言語モデル学習装置及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP5807891B2 (ja)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014002257A (ja) * 2012-06-18 2014-01-09 Nippon Telegr & Teleph Corp <Ntt> 言語モデル生成装置、その方法及びプログラム
JP2015172880A (ja) * 2014-03-12 2015-10-01 株式会社デンソーアイティーラボラトリ テンプレート生成装置及びテンプレート生成プログラム
US9892727B2 (en) 2014-07-24 2018-02-13 International Business Machines Corporation Method of selecting training text for language model, and method of training language model using the training text, and computer and computer program for executing the methods
US10289674B2 (en) 2014-10-30 2019-05-14 International Business Machines Corporation Generation apparatus, generation method, and program
JP2019139629A (ja) * 2018-02-14 2019-08-22 株式会社Nttドコモ 機械翻訳装置、翻訳学習済みモデル及び判定学習済みモデル
JP6635460B1 (ja) * 2019-06-14 2020-01-22 ソプラ株式会社 情報生成装置、コーパスの生産方法、およびプログラム
CN110781660A (zh) * 2019-10-25 2020-02-11 腾讯科技(深圳)有限公司 语句识别方法、装置以及计算机可读介质
KR102078505B1 (ko) * 2019-05-28 2020-02-17 주식회사 에이플에이디 기사 생성 시스템 및 그 방법
JP2020112915A (ja) * 2019-01-09 2020-07-27 株式会社Nttドコモ データ生成装置
JP2020126141A (ja) * 2019-02-05 2020-08-20 日本電信電話株式会社 音響モデル学習装置、音響モデル学習方法、プログラム
JP6820632B1 (ja) * 2020-10-05 2021-01-27 株式会社グルーパー 情報処理装置、及びプログラム
WO2021144862A1 (ja) * 2020-01-14 2021-07-22 日本電信電話株式会社 情報処理装置、情報処理方法、および、情報処理プログラム
JP2022070208A (ja) * 2020-10-26 2022-05-12 株式会社エクサウィザーズ 作業記録作成方法、プログラム、作業記録作成装置、及び作業記録システム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102469712B1 (ko) 2018-02-22 2022-11-22 삼성전자주식회사 전자 장치 및 이의 자연어 생성 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002342323A (ja) * 2001-05-15 2002-11-29 Mitsubishi Electric Corp 言語モデル学習装置およびそれを用いた音声認識装置ならびに言語モデル学習方法およびそれを用いた音声認識方法ならびにそれらの方法を記憶した記憶媒体
JP2003177786A (ja) * 2001-12-11 2003-06-27 Matsushita Electric Ind Co Ltd 言語モデル作成装置及びそれを利用した音声認識装置
JP2004271615A (ja) * 2003-03-05 2004-09-30 Canon Inc 情報処理装置
WO2010125736A1 (ja) * 2009-04-30 2010-11-04 日本電気株式会社 言語モデル作成装置、言語モデル作成方法、およびコンピュータ読み取り可能な記録媒体

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002342323A (ja) * 2001-05-15 2002-11-29 Mitsubishi Electric Corp 言語モデル学習装置およびそれを用いた音声認識装置ならびに言語モデル学習方法およびそれを用いた音声認識方法ならびにそれらの方法を記憶した記憶媒体
JP2003177786A (ja) * 2001-12-11 2003-06-27 Matsushita Electric Ind Co Ltd 言語モデル作成装置及びそれを利用した音声認識装置
JP2004271615A (ja) * 2003-03-05 2004-09-30 Canon Inc 情報処理装置
WO2010125736A1 (ja) * 2009-04-30 2010-11-04 日本電気株式会社 言語モデル作成装置、言語モデル作成方法、およびコンピュータ読み取り可能な記録媒体

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
CSNG200800070001; 翠 輝久: '質問応答・情報推薦機能を備えた音声による情報案内システム' 情報処理学会論文誌 Vpl.48, No.12, 20071215, pp.3602-3611, 社団法人情報処理学会 Information Processing Socie *
CSNG201000459217; Stijn De Saeger: '単語の意味クラスを用いたパターン学習による大規模な意味的関係獲得' 言語処理学会第16回年次大会発表論文集 , 20100308, pp.932-935, 言語処理学会 *
JPN6014016357; Stijn De Saeger: '単語の意味クラスを用いたパターン学習による大規模な意味的関係獲得' 言語処理学会第16回年次大会発表論文集 , 20100308, pp.932-935, 言語処理学会 *
JPN6014016360; 翠 輝久: '質問応答・情報推薦機能を備えた音声による情報案内システム' 情報処理学会論文誌 Vpl.48, No.12, 20071215, pp.3602-3611, 社団法人情報処理学会 Information Processing Socie *
JPN6014016362; Stijn De Saeger et.al: 'Large Scale Relation Acquisition Using Class Dependent Patterns' Data Mining, 2009. ICDM '09. Ninth IEEE International Conference on , 20091206, pp.764-769, IEEE *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014002257A (ja) * 2012-06-18 2014-01-09 Nippon Telegr & Teleph Corp <Ntt> 言語モデル生成装置、その方法及びプログラム
JP2015172880A (ja) * 2014-03-12 2015-10-01 株式会社デンソーアイティーラボラトリ テンプレート生成装置及びテンプレート生成プログラム
US9892727B2 (en) 2014-07-24 2018-02-13 International Business Machines Corporation Method of selecting training text for language model, and method of training language model using the training text, and computer and computer program for executing the methods
US9934776B2 (en) 2014-07-24 2018-04-03 International Business Machines Corporation Method of selecting training text for language model, and method of training language model using the training text, and computer and computer program for executing the methods
US10289674B2 (en) 2014-10-30 2019-05-14 International Business Machines Corporation Generation apparatus, generation method, and program
US10296579B2 (en) 2014-10-30 2019-05-21 International Business Machines Corporation Generation apparatus, generation method, and program
JP2019139629A (ja) * 2018-02-14 2019-08-22 株式会社Nttドコモ 機械翻訳装置、翻訳学習済みモデル及び判定学習済みモデル
JP7122835B2 (ja) 2018-02-14 2022-08-22 株式会社Nttドコモ 機械翻訳装置、翻訳学習済みモデル及び判定学習済みモデル
JP2020112915A (ja) * 2019-01-09 2020-07-27 株式会社Nttドコモ データ生成装置
JP7103957B2 (ja) 2019-01-09 2022-07-20 株式会社Nttドコモ データ生成装置
JP2020126141A (ja) * 2019-02-05 2020-08-20 日本電信電話株式会社 音響モデル学習装置、音響モデル学習方法、プログラム
JP7036054B2 (ja) 2019-02-05 2022-03-15 日本電信電話株式会社 音響モデル学習装置、音響モデル学習方法、プログラム
KR102078505B1 (ko) * 2019-05-28 2020-02-17 주식회사 에이플에이디 기사 생성 시스템 및 그 방법
WO2020250426A1 (ja) * 2019-06-14 2020-12-17 ソプラ株式会社 情報生成装置、コーパスの生産方法、およびプログラム
JP6635460B1 (ja) * 2019-06-14 2020-01-22 ソプラ株式会社 情報生成装置、コーパスの生産方法、およびプログラム
CN110781660A (zh) * 2019-10-25 2020-02-11 腾讯科技(深圳)有限公司 语句识别方法、装置以及计算机可读介质
WO2021144862A1 (ja) * 2020-01-14 2021-07-22 日本電信電話株式会社 情報処理装置、情報処理方法、および、情報処理プログラム
JP6820632B1 (ja) * 2020-10-05 2021-01-27 株式会社グルーパー 情報処理装置、及びプログラム
JP2022060632A (ja) * 2020-10-05 2022-04-15 株式会社グルーパー 情報処理装置、及びプログラム
JP2022070208A (ja) * 2020-10-26 2022-05-12 株式会社エクサウィザーズ 作業記録作成方法、プログラム、作業記録作成装置、及び作業記録システム

Also Published As

Publication number Publication date
JP5807891B2 (ja) 2015-11-10

Similar Documents

Publication Publication Date Title
JP5807891B2 (ja) 言語モデル学習装置及びコンピュータプログラム
JP5540335B2 (ja) 自然言語文生成装置及びコンピュータプログラム
Belz Automatic generation of weather forecast texts using comprehensive probabilistic generation-space models
JP4559950B2 (ja) 韻律制御規則生成方法、音声合成方法、韻律制御規則生成装置、音声合成装置、韻律制御規則生成プログラム及び音声合成プログラム
US8117023B2 (en) Language understanding apparatus, language understanding method, and computer program
US10719668B2 (en) System for machine translation
JP5403696B2 (ja) 言語モデル生成装置、その方法及びそのプログラム
JP2009193448A (ja) 対話システム、方法及びプログラム
CN110334197A (zh) 语料处理方法及相关装置
JPH05189481A (ja) 翻訳用コンピュータ操作方法、字句モデル生成方法、モデル生成方法、翻訳用コンピュータシステム、字句モデル生成コンピュータシステム及びモデル生成コンピュータシステム
JP2008165786A (ja) 機械翻訳用のシーケンス分類
JP2000353161A (ja) 自然言語生成における文体制御方法及び装置
KR101735195B1 (ko) 운율 정보 기반의 자소열 음소열 변환 방법과 시스템 그리고 기록 매체
JP2008165783A (ja) シーケンス分類のためのモデルの識別トレーニング
CN105404621A (zh) 一种用于盲人读取汉字的方法及系统
JP6817556B2 (ja) 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム
Ringger et al. Linguistically informed statistical models of constituent structure for ordering in sentence realization
WO2009107441A1 (ja) 音声合成装置、テキスト生成装置およびその方法並びにプログラム
KR102204395B1 (ko) 개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법 및 시스템
JP5462819B2 (ja) 基本木獲得装置、構文解析装置、方法、及びプログラム
KR102129575B1 (ko) 단어 교정 시스템
Garay-Vitoria et al. Modelling text prediction systems in low-and high-inflected languages
Zeng et al. Lexicon expansion for latent variable grammars
JP5879989B2 (ja) 機械翻訳システム、機械翻訳方法および機械翻訳プログラム
Meng et al. Generating emphasis from neutral speech using hierarchical perturbation model by decision tree and support vector machine

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130927

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140415

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140422

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140604

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150106

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150128

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150818

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150902

R150 Certificate of patent or registration of utility model

Ref document number: 5807891

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees