JP3950957B2

JP3950957B2 - 言語処理装置および方法

Info

Publication number: JP3950957B2
Application number: JP2002071625A
Authority: JP
Inventors: 友良秋葉; 克亘伊藤; 敦藤井; 徹也石川
Original assignee: National Institute of Advanced Industrial Science and Technology AIST
Current assignee: National Institute of Advanced Industrial Science and Technology AIST
Priority date: 2002-03-15
Filing date: 2002-03-15
Publication date: 2007-08-01
Anticipated expiration: 2022-03-15
Also published as: JP2003271188A

Description

【０００１】
【発明の属する技術分野】
本発明は、言語モデルを使用して言語処理を行う言語処理装置および方法に関する。
【０００２】
【従来の技術】
音声認識装置は、音声信号の特徴量ａを観察し、それをもっとも良く説明する単語（列）ｗを推定する問題が下記式により定式化されている。
【０００３】
【数１】
argmax _wP (w|a) = argmax _wP (a|w)P (w)
【０００４】
音声認識装置の性能は、このＰ（ａ｜ｗ）、Ｐ（ｗ）の良いモデルを見いだすことに大きく依存している。
【０００５】
このうち、Ｐ（ｗ）は音声信号の発話内容が言語としてどれだけ尤もらしいかを表す確率で、言語モデルと呼ばれる。現在、言語モデルを構築する手法は、統計的手法によるものと記述文法によるものの２つに大別される。
【０００６】
統計的手法による言語モデルの代表的なものはＮ−ｇｒａｍモデルと呼ばれ、大語彙連続音声認識システムで現在もっとも広く利用されている。Ｎ−ｇｒａｍモデルは、新聞記事などの大量の言語データから、Ｎ個の連続する単語の並びの統計情報を抽出し、確率モデルとして表したものである。学習データさえ用意すれば、大語彙で比較的性能の良い言語モデルを簡単に構築することができる。
【０００７】
一方、その性能は用意した学習データの統計的性質に左右されるため、大量の学習データを用意することが困難なタスクを扱うのが難しいという問題点がある。たとえば、音声認識の応用分野として、ある特定のデータベースの検索を対象とした対話システムや、特定用途のために認識する発話を特化したシステムが考えられるが、このようなタスクの学習データは元から存在しないことがほとんどで、システム開発者が用意する必要があるが、作成のコストの面で困難である。
【０００８】
このような分野に用いられる言語モデルとしては、記述文法によるものが広く用いられている。自然言語の記述に広く用いられている文脈自由文法や、正規文法（ネットワーク文法）を用いて、そのタスクで扱われる発話をシステム設計者が人手で記述し、それを言語モデルとする方法である。Ｎ−ｇｒａｍモデルは単語長Ｎという言語の中でもきわめて短い間の依存関係しか表現できないのに対して、記述文法では、文単位の長距離の依存関係を記述する能力がある。また、記述文法の作成には、これまでの言語学の研究成果から得られた知見を利用できるという特徴もある。しかし、人手で作成する以上、作成する規模には限界があり広い範囲の言語表現に対応するのは難しい。また、統計的手法を用いないので大語彙の認識には不向きである。
【０００９】
Ｎ−ｇｒａｍモデルにおいて、種々のスムージング手法が提案されている（北研二．確率的言語モデル．東京大学出版会，１９９９）。スムージングとは、学習データに現れないＮ単語連鎖を確率０としてＮ−ｇｒａｍモデルを作成すると言語モデルの性能が悪化するため、０でない確率を割り当てるよう補完を行う手法のことを指す。現在、広く利用されているバックオフスムージングでは、学習データに現れないＮ単語連鎖の確率をＮ−１単語連鎖の確率で補完する。
【００１０】
【発明が解決しようとする課題】
上述したように統計的な言語モデルを使用する言語処理方法および記述文法の言語モデルを使用する言語処理方法にはそれぞれ一長一短がある。
【００１１】
そこで、本発明の目的は、上記２つの長所を取り入れて、統計的な言語モデルおよび記述文法の言語モデルを併用することができる言語処理装置および方法を提供することにある。
【００１２】
【課題を解決するための手段】
このような目的を達成するために、請求項１の発明は、複数組の文字列の各々の特徴を該特徴を表す文字列に変換するために、前記複数組の文字列の各々についての変換候補をネットワークの形態で接続し、該ネットワーク上の同一経路上で隣接する変換候補の連鎖の確率の値を求め、前記ネットワークの各経路の確率の値の中で、最も値が高い経路上の変換候補の列を前記複数組の文字列の特徴に対する変換結果とすると共にバックオフスムージング処理を行う言語処理装置において、予め定められた並びの複数組の文字列が前記ネットワーク上の経路に現れるか否かを判定する判定手段と、肯定判定が得られた場合には、予め定められた並びの複数組の文字列以外の変換候補から予め定められた並びの複数組の文字列の中の先頭以外の変換候補の文字列への経路の接続、および予め定められた並びの複数組の文字列の中の末尾以外の変換候補の文字列から予め定められた並びの複数組の文字列以外の変換候補への経路の接続、を禁止する制御手段とを具えたことを特徴とする。
【００１３】
請求項２の発明は、請求項１に記載の言語処理装置おいて、複数組の文字列およびその連鎖の確率の値および該確率の値に対する当該文字列の組数に応じた補正係数の値を記載した確率表を有し、経路の接続を禁止する文字列の組み合わせについては、その組み合わせの内容に応じて前記確率の値または補正係数の値を０（ゼロ）となすことを特徴とする。
【００１４】
請求項３の発明は、請求項２に記載の言語処理装置において、文字列の特徴およびその特徴に対応する変換候補の文字列を記載した単語辞書をさらに有し、該単語辞書に記載する文字列の中に、前記予め定めた並びの文字列の中に含まれる文字列を識別符号を付して含めておくことを特徴とする。
【００１５】
請求項４の発明は、請求項２に記載の言語処理装置において、文書を入力する手段と、当該入力された文書の中に含まれる文字列をその種類ごとに計数して、前記確率表を作成する手段をさらに具えたことを特徴とする。
【００１６】
請求項５の発明は、請求項４に記載の言語処理装置において、前記予め定められた並びの複数組の文字列を指定する手段をさらに具え、当該指定された文字列の組み合わせについては前記確率表中の各文字列に請求項３に記載の識別符号と同じ識別符号が付されることを特徴とする。
【００１７】
請求項６の発明は、複数組の文字列の各々の特徴を該特徴を表す文字列に変換するために、言語処理装置により、前記複数組の文字列の各々についての変換候補をネットワークの形態で接続し、該ネットワーク上の同一経路上で隣接する変換候補の連鎖の確率の値を求め、前記ネットワークの各経路の確率の値の中で、最も値が高い経路上の変換候補の列を前記複数組の文字列の特徴に対する変換結果とすると共にバックオフスムージング処理を行う言語処理方法において、前記言語処理装置の実行処理ステップは、予め定められた並びの複数組の文字列が前記ネットワーク上の経路に現れるか否かを判定する判定ステップと、肯定判定が得られた場合には、予め定められた並びの複数組の文字列以外の変換候補から予め定められた並びの複数組の文字列の中の先頭以外の変換候補の文字列への経路の接続、および予め定められた並びの複数組の文字列の中の末尾以外の変換候補の文字列から予め定められた並びの複数組の文字列以外の変換候補への経路の接続、を禁止する制御ステップとを具えたことを特徴とする。
【００１８】
請求項７の発明は、請求項６に記載の言語処理方法おいて、複数組の文字列およびその連鎖の確率の値および該確率の値に対する当該文字列の組数に応じた補正係数の値を記載した確率表を有し、経路の接続を禁止する文字列の組み合わせについては、その組み合わせの内容に応じて前記確率の値または補正係数の値を０（ゼロ）となすことを特徴とする。
【００１９】
請求項８の発明は、請求項７に記載の言語処理方法において、前記言語処理装置は文字列の特徴およびその特徴に対応する変換候補の文字列を記載した単語辞書をさらに有し、該単語辞書に記載する文字列の中に、前記予め定めた並びの文字列の中に含まれる文字列を識別符号を付して含めておくことを特徴とする。
【００２０】
請求項９の発明は、請求項７に記載の言語処理方法において、文書を入力するステップと、当該入力された文書の中に含まれる文字列をその種類ごとに計数して、前記確率表を作成するステップをさらに具えたことを特徴とする。
【００２１】
請求項１０の発明は、請求項９に記載の言語処理方法において、前記予め定められた並びの複数組の文字列を指定するステップをさらに具え、当該指定された文字列の組み合わせについては前記確率表中の各文字列に請求項８に記載の識別符号と同じ識別符号が付されることを特徴とする。
【００２２】
【発明の実施の形態】
以下、図面を参照して本発明の実施形態を詳細に説明する。
【００２３】
（本実施形態の言語処理方法）
従来技術で説明したように、統計的言語モデルでは広い範囲の言語表現を扱えるが、特定のタスク用途に用いるのは難しい。記述文法は、システム設計者が扱える言語表現を自由に記述することで、特定のタスク用途の言語モデルを容易に獲得することができるが、広い範囲の言語表現や大語彙に対応するのが難しい。
【００２４】
そこで、本実施形態では、記述文法で表した言語モデルをＮ−ｇｒａｍで表現し、統計的手法によるＮ−ｇｒａｍモデルと統合する。
【００２５】
本実施形態では、まず、記述文法で表した言語モデルを、ｂｉ−ｇｒａｍ（２つの単語の連鎖）で表現する。正規文法（ネットワーク文法）は、単語連接が可能な場合は確率値ｐ（＞０）で、単語連接が不可能な場合は確率値０としたｂｉ−ｇｒａｍで表現することができる（詳細は、ＡＰＰＥＮＤＩＸに記述する。）。また、文脈自由文法は、正規文法に近似するアルゴリズムが知られているので（Ｆ．Ｃ．Ｎ．ＰｅｒｅｉｒａａｎｄＲ．Ｒ．Ｗｒｉｇｈｔ．Ｆｉｎｉｔｅ−ｓｔａｔｅａｐｐｒｏｘｉｍａｔｉｏｎｏｆｐｈｒａｓｅ−ｓｔｒｕｃｔｕｒｅｇｒａｍｍａｒｓ．ＩｎＰｒｏｃ．ｏｆＡＣＬ１９９１，ｐｐ．２４６−２５５，１９９１）、正規文法に近似したあと同様の手法でｂｉ−ｇｒａｍ表現に変換することが可能である。
【００２６】
このようなｂｉ−ｇｒａｍ表現した記述文法を、新聞記事などから学習した統計的手法によるＮ−ｇｒａｍモデルと統合し、統合Ｎ−ｇｒａｍを作成する。その手順は、以下に説明する。音声認識装置は、
（１）記述文法部分の頻度情報を獲得する。
（２）獲得した頻度情報を用いて確率を学習する。
（３）作成した言語モデルを用いて音声認識を実行する。
の処理を実行する。
【００２７】
（１）頻度情報の獲得
【００２８】
【外１】

【００２９】
（１−１）ネットワーク文法の作成
まず、統計的手法で作成したＮ−ｇｒａｍの語彙を用いてネットワーク文法を作成する。もしＮ−ｇｒａｍ語彙に含まれない単語を使用する場合は、Ｎ−ｇｒａｍの未知語に対応づける。（例えば、日本語ディクテーション基本ソフトウェア（鹿野清宏，伊藤克亘，河原達也，武田一哉，山本幹雄（編）．音声認識システム．オーム社，２００１）の言語モデルは、２万語と６万語のものがあり、特殊な固有名詞を使わない限り、ネットワーク文法を記述するには十分である。）
【００３０】
開始単語と終了単語は、他のネットワーク内単語と区別して、それぞれ開始時、終了時のみ到達可能とするようにネットワークを構成する。これには、開始単語と終了単語のために、他の単語と区別する特別な単語記号を用意すればよい。すなわちネットワーク内単語集合W_Gは、互いに共通部分のない、開始単語集合W_Gs、終了単語集合W_Gf、中間に現れる単語集合W_Gmから構成されるとする。また、ネットワーク文法の単語は、元のＮ−ｇｒａｍの同じ単語と区別するために、別の単語記号を割り当てる。ここでは、Ｎ−ｇｒａｍ中の単語wに対して、ネットワーク文法の単語を、記号”＠”を付けて＠ｗと表すことにする。
【００３１】
【外２】
統合モデルの語彙W_Aは、元のＮ−ｇｒａｍからの単語w∈W_Uと、ネットワーク文法からの単語W_G（＝W_Gs∪W_Gm∪W_Gf）から構成される。（W_U∩W_G＝Φ）
【００３２】
（１−２）頻度情報のコピー
【００３３】
【外３】

【００３４】
普通、Ｎ−ｇｒａｍ確率学習では、高次の単語列頻度と低次の単語列頻度が無矛盾なので、高次の単語列頻度から低次の単語列頻度を求めることができる。しかし、ここでは、部分的に頻度情報を与えるため、高次の単語列頻度から低次の単語列頻度を求めることができない。そこで、以下では各単語長ごとに頻度Ｃを与えて表すことにする。
【００３５】
統合モデルの部分によって、次のような頻度を与える（図１）。ここでは、現在もっともよく用いられているｔｒｉ−ｇｒａｍ（Ｎ＝３）の場合について説明する。一般のＮの場合でも同様に求めることができる。
【００３６】
・Ｎ−ｇｒａｍ内単語列の頻度
元の単語列の、Ｎ−ｇｒａｍ頻度をそのまま使う。
【００３７】
【数２】

【００３８】
・ネットワーク文法内の単語列頻度
ネットワーク文法で連接可能な単語対（＠w_i，＠w_j）および（＠w_j，＠w_k）に対し、対応するＮ−ｇｒａｍモデル中の単語対（w_i，w_j）の頻度を与える。
【００３９】
【数３】

【００４０】
ただし、C₀(w_i,w_j)=0となるような単語対（＠w_i，＠w_j）が存在する可能性があるため、ディスカウンティングを行う必要がある。一方、開始単語＠w_sを除いて単単語頻度を０とする。
【００４１】
【数４】

【００４２】
・Ｎ−ｇｒａｍとネットワーク文法を結ぶ単語列頻度
ネットワーク文法の開始単語＠w_s∈W_Gsに対し、対応する単語w_sの頻度を用いて、次のような頻度を与える。
【００４３】
【数５】

【００４４】
γは、ネットワーク文法の表す単語列の、対応するＮ−ｇｒａｍモデルでの単語列に対する相対的な優先度を表す。１以上の値を与え、大きな値を与えるほど、ネットワーク文法の表現が優先的に考慮される。後で述べるように、γ＝１としても、ネットワーク文法の表現は優先的に扱われるようになる。
【００４５】
ネットワーク文法の終了単語＠w_f∈W_GfからＮ−ｇｒａｍへの単語列頻度も、同様に与える。ただし、＠w_fの単単語頻度は０とする。δは、γと同様、ネットワーク文法の表す単語列の、対応するＮ−ｇｒａｍモデルでの単語列に対する相対的な優先度を表す。
【００４６】
【数６】
Ｃ（＠ｗ_f，ｗ_j，ｗ_k）＝δＣ₀（ｗ_f，ｗ_j，ｗ_k）
Ｃ（＠ｗ_f，ｗ_j）＝δＣ₀（ｗ_f，ｗ_j）
Ｃ（＠ｗ_f）＝０
【００４７】
（２）確率モデルの学習
与えた部分的頻度情報からモデルを学習する。一般に、バックオフスムージングが行われたＮ−ｇｒａｍは、次の再帰式で表される。
【００４８】
【数７】

【００４９】
【外４】

【００５０】
（２−１）部分的頻度からの学習
従来法による確率学習手順を図２に示す。
【００５１】
学習データだけから頻度情報を獲得する場合、各長さｎの頻度情報は無矛盾であるので、目的のＮ−ｇｒａｍの長さＮの頻度情報だけを与えれば良い。より短いｎ（＜Ｎ）の頻度は、Ｎの頻度から一意に計算可能である。
【００５２】
これに対し、提案法の手順を図３に示す。
【００５３】
このように、人手で頻度情報を操作した場合、頻度情報の各長さｎで整合性がなくなる。そのため、各長さｎ毎の頻度情報が必要となる。また、Ｎ−ｇｒａｍモデルの確率計算方法の修正が必要となる。
【００５４】
バックオフスムージングモデルの計算において、長さｎの頻度
【００５５】
【外５】

【００５６】
は、
（ａ）（ｎ＋１）−ｇｒａｍ確率計算、
（ｂ）ｎ−ｇｒａｍ確率計算
の二通りに使用される。学習データだけから獲得した（完全な）頻度情報を使う場合は、（ａ）と（ｂ）のどちらの計算にも同じ長さｎの頻度情報を用いることができる。一方、部分的な頻度情報を用いる場合は、同じｎ頻度情報を用いると、正しい確率計算ができない。
【００５７】
【外６】

【００５８】
（ａ）（ｎ＋１）−ｇｒａｍ確率計算
【００５９】
【外７】

【００６０】
【数８】

【００６１】
ディスカウント係数の計算でもｎ頻度が必要な場合は、従来法のｎ頻度をコンテキストｎ頻度に置き換えて計算する。例えば、ｗｉｔｔｅｎ−ｂｅｌｌ法（Ｐ．Ｐｌａｃｅｗａｙ，Ｒ．Ｓｃｈｗａｒｔｚ，Ｐ．ＦｕｎｇａｎｄＬ．Ｎｇｕｙｅｎ．ＴｈｅＥｓｔｉｍａｔｉｏｎｏｆＰｏｗｅｒｆｕｌＬｎａｇｕａｇｅＭｏｄｅｌｓｆｒｏｍＳｍａｌｌａｎｄＬａｒｇｅＣｏｒｐｏｒａ．ＩｎＰｏｒｃ．ｏｆＩＣＡＳＳＰ，Ｖｏｌ．ＩＩ，ｐｐ．３３−３６，１９９３．）の場合は、
【００６２】
【数９】

【００６３】
であるが、本実施形態では、
【００６４】
【数１０】

【００６５】
【外８】

【００６６】
また、Ｇｏｏｄ−Ｔｕｒｉｎｇ法（Ｓ．Ｍ．Ｋａｔｚ．Ｅｓｔｉｍａｔｉｏｎｏｆｐｒｏｂａｂｉｌｉｔｉｅｓｆｒｏｍｓｐａｒｓｅｄａｔａｆｏｒｌａｎｇｕａｇｅｍｏｄｅｌｃｏｍｐｏｎｅｎｔｏｆａｓｐｅｅｃｈｒｅｃｏｇｎｉｚｅｒ．ＩＥＥＥＴｒａｎｓ．ＡＳＳＰ，Ｖｏｌ．３５，ｐｐ．４００−４０１，１９８７）では、長さｎ＋１の頻度情報
【００６７】
【外９】

【００６８】
から求めたＧｏｏｄ−Ｔｕｒｉｎｇ推定値
【００６９】
【外１０】

【００７０】
を使って、（従来法と同じ）次の式になる。
【００７１】
【数１１】

【００７２】
（ｂ）ｎ−ｇｒａｍ確率計算
長さｎの頻度
【００７３】
【外１１】

【００７４】
をそのまま用いる。
【００７５】
同時に計算に用いる長さｎ−１の頻度には、再帰的に、長さｎ−１のコンテキスト頻度
【００７６】
【外１２】

【００７７】
を用いる。
【００７８】
（計算例）ｔｒｉ−ｇｒａｍの場合
バックオフスムージングによるｔｒｉ−ｇｒａｍは、次の式で計算される。
【００７９】
【数１２】

【００８０】
従来法では、
・式（２）の中でｔｒｉ−ｇｒａｍ頻度Ｃ（w_i，w_j，w_k）とｂｉ−ｇｒａｍ頻度Ｃ（w_i，w_j）が、
・式（３）の中でｂｉ−ｇｒａｍ頻度Ｃ（w_i，w_j）とｕｎｉ−ｇｒａｍ頻度Ｃ（w_i）が、
・式（４）の中でｕｎｉ−ｇｒａｍ頻度Ｃ（w_i）が、
それぞれ計算に使用される。
【００８１】
本実施形態の言語処理方法では、
・式（２）の中でｔｒｉ−ｇｒａｍ頻度Ｃ（w_i，w_j，w_k）とそのコンテキスト頻度Ｃ_c（w_i，w_j）が、
・式（３）の中でｂｉ−ｇｒａｍ頻度Ｃ（w_i，w_j）とそのコンテキスト頻度Ｃ_c（w_i）が、
・式（４）の中でｕｎｉ−ｇｒａｍ頻度Ｃ（w_i）が、
それぞれ計算に使用される。
【００８２】
（応用）
部分的な頻度情報を用いることで、既存のＮ−ｇｒａｍモデルを簡単に改善することが可能になる。例えば、ｔｒｉ−ｇｒａｍモデルにおいて、ある単語w_oを優先的に認識したい場合、元の頻度情報Cに部分頻度情報を加えた、次のような頻度情報C’から確率を学習する。
【００８３】
【数１３】

【００８４】
すなわち、w_oを予測する確率のための頻度のみβ倍し、他の頻度はそのままとする。
【００８５】
同様の方法で、ある単語列w₁w₂...w_iを優先したり、単語列の集合（単語ネットワーク）を優先するように、部分頻度情報を与えることができる。
【００８６】
このような、特定の単語（列）の確率だけを操作することは、従来法のように学習データだけの変更だけで対処するのは非常に難しいことに注意されたい。例えば、上記の単語w_oを優先する場合、学習データに単語w_oだけを加えた場合、単語w_oだけから構成される文を学習してしまい、文中に現れる単語w_oだけを優先することにはならない。そのためには文中にw_oを含む学習データを用意する必要があるが、その場合もw_o以外の文脈も学習されてしまうという問題がある上、w_o以外の文脈を含む学習データを用意する必要がありコスト面でも問題が生じる。提案法では、簡単に、目的の単語（列）の確率だけを、直接制御することが可能である。
【００８７】
（２−２）統計的手法によるモデルと記述文法によるモデルの２種の異なる性質を持つモデルの学習統合モデルのうち、ネットワーク文法を表す部分では二値的な制約を、それ以外の部分では通常のＮ−ｇｒａｍの性質を持ったモデルを学習するため、各部分に応じて異なる計算方法を適用してモデルを作成する。
【００８８】
統合モデルの語彙W_Aのうち、開始単語を除くネットワーク文法中の単語w_n∈W_Gm∪W_Gfを予測する確率P_A（タイプＡ）と、Ｎ−ｇｒａｍ内の単語とネットワーク開始単語wj∈W_U∪W_Gsを予測する確率P_B（タイプＢ）で、異なるバックオフスムージングの計算を行う。
【００８９】
タイプＡの確率
【００９０】
【外１３】

【００９１】
は、ｕｎｉ−ｇｒａｍへのバックオフを行なわないで求める。すなわち、式１（数７）の再帰式のうち、ｂｉ−ｇｒａｍ確率を計算する式を次のように計算する。
【００９２】
【数１４】

【００９３】
ここでディスカウント係数
【００９４】
【外１４】

【００９５】
は、再配分を行わないで
【００９６】
【数１５】

【００９７】
となるように決める。もっとも簡単なものは、
【００９８】
【外１５】

【００９９】
である。この時、ｂｉ−ｇｒａｍのコンテキストを構成する単語は＠w_i∈W_Gs∪W_Gmとなっている点に注意されたい。
【０１００】
タイプＢの確率
【０１０１】
【外１６】

【０１０２】
は、普通にバックオフスムージングを行なって求める。ただし、ｕｎｉ−ｇｒａｍ確率のディスカウントの際、W_U∪W_Gsを全単語集合とみなしてｕｎｉ−ｇｒａｍの再配分を行なうことに注意する。
【０１０３】
本実施形態の言語処理方法により学習したモデルの持つ性質以上の方法で作成した統合言語モデルは、例えばＡＲＰＡ形式などの、従来のＮ−ｇｒａｍモデルと同じフォーマットで表現できる。そのため、Ｎ−ｇｒａｍを言語モデルとして利用する既存の音声認識デコーダでそのまま利用できる。そして以下に示すように、Ｎ−ｇｒａｍとネットワーク文法の両方の性質を併せ持ったモデルとして利用できる。
【０１０４】
・Ｎ−ｇｒａｍからネットワーク文法内部の単語を予測する確率は必ず０となる。
開始単語を除くＮｅｔwoｒｋ内単語＠w_k∈W_Gm∪W_Gfの予測モデルのｕｎｉ−ｇｒａｍは０となる。Ｎｅｔｗｏｒｋ内単語で、かつＮ−ｇｒａｍ（Ｎ＞０）確率の存在する（有向弧の存在する）単語からのみ予測可能となる。Ｎ−ｇｒａｍ内単語wi∈W_UからのＮ−ｇｒａｍ確率は、Ｎ−ｇｒａｍ（Ｎ＞０）が存在しないのでｕｎｉ−ｇｒａｍにバックオフされるが、
【０１０５】
【数１６】

【０１０６】
となり、wjから＠w_kへの遷移は生じない。
【０１０７】
・ネットワーク文法内部からＮ−ｇｒａｍ単語を予測する確率は必ず０となる。
終了単語を除くネットワーク内単語＠w_i∈W_Gs∪W_Gmに対し、ｂｉ−ｇｒａｍ確率のα（＠w_i）＝０となる。ネットワーク内単語＠w_iからＮ−ｇｒａｍ内単語w_jへの頻度C（＠w_i，wj）は必ず０なので、
【０１０８】
【数１７】

【０１０９】
したがって、＠w_iからw_jへの遷移は生じない。
【０１１０】
・ネットワーク文法の開始単語／終了単語ではＮ−ｇｒａｍとの連接が可能。
Ｎ−ｇｒａｍ内単語からネットワーク開始単語、およびネットワーク終了単語からＮ−ｇｒａｍ内単語は、通常のＮ−ｇｒａｍモデルと同様のスムージングされた確率値が割り当てられる。したがって、全てのＮ−ｇｒａｍ内単語からネットワーク文法開始単語への遷移、文法終了単語から全てのＮ−ｇｒａｍ内単語への遷移が可能である。
【０１１１】
・Ｎ−ｇｒａｍ内の単語列だけから成る文に割り当てられる確率値の順序関係は保存される。
Ｎ−ｇｒａｍ内単語列に与える頻度は、元のＮ−ｇｒａｍモデル学習用の頻度と同じである。
【０１１２】
・同じ単語列では、ネットワーク文法を通る単語列が優先される。
ネットワーク文法内単語列を含む文には、それに対応する（同じ音素列を持つ）Ｎ−ｇｒａｍ内単語だけで構成された文が必ず存在する。既存の認識デコーダは、文の確率をパスの最大確率で近似する方法（ビタビ・アルゴリズム）が普通であるので、認識時には両者の確率値を比較し、高い方が採用されることになる。両者のｂｉ−ｇｒａｍ確率は同じ頻度から学習されているが、ネットワーク文法内単語列は、連接しない単語（特にネットワーク外の単語）を予測するための確率配分がないこと、バックオフを行わないで学習したモデルであること、から相対的に高い確率値が割り当てられることになる。また、ネットワーク文法開始単語への単語列頻度をγ（およびδ）で調節することで、Ｎ−ｇｒａｍに対する優先性をコントロールすることができる。
【０１１３】
（３）本実施形態の言語モデルを用いた効率的な音声認識処理方法
本実施形態の言語モデルの性質を利用して音声認識器の計算方法を工夫することで、効率的な音声認識処理が可能である。大語彙音声認識器では、音声入力順（あるいは逆順）に単語仮説との照合を逐次的に行う。ある単語仮説との照合が終了すると、その次の単語仮説を生成して、再び照合を開始する（図５参照）。Ｎ−ｇｒａｍ言語モデルでは、すべての単語間で連接可能であるから、全単語を仮説として生成するのが普通である。
【０１１４】
この時、提案法の言語モデルでは、ネットワーク文法内とＮ−ｇｒａｍ内との間で互いの予測確率が０となる事実を利用して、仮説の生成を抑制する（図６）。
【０１１５】
照合が完了した単語仮説wiが、終了単語を除くＮｅｔｗｏｒｋ内単語w_i∈W_Gs∪W_Gmである場合、次の単語は、w_j∈W_Gm∪W_Gfである（それ以外の単語への言語モデル確率は０である）。よって、w_j∈W_Gm∪W_Gfだけを単語仮説として生成すれば良い。
【０１１６】
照合が完了した単語仮説w_iが、w_i∈W_U∪W_Gfである場合、次の単語は、w_j∈W_U∪W_Gsである（それ以外の単語への言語モデル確率は０である）。よって、w_j∈W_U∪W_Gsだけを単語仮説として生成すれば良い。
【０１１７】
しかるに、提案言語モデルの特殊な性質を利用すれば、認識した単語の属する集合に応じて展開する単語集合を限定することで、単語仮説の数を従来法より減少させることが可能であり、結果として効率の良い音声認識処理が可能となる。
【０１１８】
質問応答（ＱＡ）（佐々木裕，磯崎秀樹，平博順，廣田啓一，賀沢秀人，平尾努，中島浩之，加藤恒昭．質問応答システムの比較と評価．信学技報，ＮＬＣ２０００−２４，ｐｐ．１７−２４，２０００）は、１９９９年のＴＲＥＣ−８にタスクとして採択されて以来、次世代の情報検索技術を目指した評価タスクとして注目されている。従来の情報検索タスクも音声入力に対応するように拡張されてきたが（伊藤克亘，秋葉友良，藤井敦，石川徹也．音声入力型テキスト検索システムのための音声認識．日本音響学会講演論文集，ｐｐ．１９３−１９４，Ｏｃｔ．２００１）、質問応答では入力が質問文というより話し言葉に近い表現が使用されることから、より音声入力に適したタスクであると考えられる。
【０１１９】
質問応答システムへの入力となる検索者の発話は、質問文という定型的な表現となる一方、ＱＡの検索対象に関する多様な表現が使用される。そのため音声認識部では、これら性質の異なる２種の表現を同時に扱う言語モデルが必要となる。例として、ＱＡタスクの入力には、答えを得るための次のような質問文が想定される。
【０１２０】
この入力中、文末の「何という名前でしたか」の部分は質問文に典型的に現れるパターンであり、ネットワーク文法でモデル化することができる。一方、「１９７６年に火星に軟着陸した探査機は」の部分は汎用のＮ−ｇｒａｍモデルで扱うことができる。
【０１２１】
ＱＡタスクの質問文を想定した定型表現を受理可能なネットワーク文法（図７）を作成し、新聞記事１１１か月分から学習した２万語ｂｉ−ｇｒａｍおよびｔｒｉ−ｇｒａｍと統合、ネットワーク文法統合モデル（ｎｅｔ）を作成した。γは２とした。また比較のため、新聞記事のみから学習したＮ−ｇｒａｍモデル（ｂａｓｅ）を作成した。スムージング手法は、共にWitten-Bell法を用いた。
【０１２２】
評価データには、新聞記事１００文（ＮＰ）とＱＡタスク用質問文５０文（ＱＡ）を、男性２人女性２人によって読み上げた音声データを用いた。作成したネットワーク文法は、２９単語と比較的小規模のものであるが、質問文のうち７２％の３６文（ＱＡ’）が、この文法のモデル化する表現を含んでいた。
【０１２３】
デコーダには大語彙音声認識デコーダｊｕｌｉｕｓ（鹿野清宏，伊藤克亘，河原達也，武田一哉，山本幹雄（編）．音声認識システム．オーム社，２００１）のバージョン３．２を使用し、音響モデルには２０００状態１６混合性別非依存ｔｒｉｐｈｏｎｅを、言語モデル重みは新聞記事Ｎ−ｇｒａｍでの最適値を用いた。探索アルゴリズムの変更は行っていない。
【０１２４】
実験結果を表１に示す。新聞記事の認識精度を下げること無く、質問文の精度が向上することを確認した。
【０１２５】
【表１】

【０１２６】
ＣＯＲ＝単語正解率（％），ＡＣＣ＝単語正解精度（％）
【０１２７】
ＡＰＰＥＮＤＩＸ
ネットワーク文法のｂｉ−ｇｒａｍモデル表現単語ｂｉ−ｇｒａｍは、単語を頂点とし、全ての単語間の有向弧に確率が付与された、重み付き（ループのある）完全有向グラフと見ることができる。この時、有向弧のｂｉ−ｇｒａｍ確率が０である場合、その単語連続があり得ないことを表すため、弧が存在しないことと等価である。したがって、単語を頂点として表現した任意のネットワーク文法から、有向弧が存在する場合は０でない確率値を、有向弧が存在しない場合は確率０を割り当て、単語ｂｉ−ｇｒａｍで表現することが可能となる。もしネットワーク文法中で、ある単語から入出力する有向弧を、文脈に応じて変えたいのであれば、文脈の数だけ同じ単語を表す頂点を複製して表現すればよい。
【０１２８】
このような、単語ｂｉ−ｇｒａｍで表現されたネットワーク文法は、例文の集合から簡単に獲得可能である。例えば、年月日を尋ねる発話を表した以下の例文から文法を獲得することを考える。
【０１２９】
何／年／です／か
何／年／何／月／です／か
何／月／何／日／です／か
この３文から獲得できる連接可能な単語対は以下の通りである。
Ａ＝｛（何，年）（何，月）（何，日）（年，何）（月，何）（年，です）（月，です）（日，です）（です，か）｝
【０１３０】
この単語対だけが連接可能であると考えると、ネットワーク文法（G₁）は４つ組（W_a,W_s,W_f,A）で表現できる。ここで、W_a,W_s,W_fは、それぞれ、全単語集合、開始単語集合、終了単語集合であり、
W_a＝｛何年月日ですか｝，
W_s＝｛何｝，Ｗｆ＝｛か｝
となる。G₁のグラフ表現を図８左に示す。
【０１３１】
この時、ネットワーク文法は、以下の制約を満たすｂｉ−ｇｒａｍとして表現できる。
【０１３２】
【数１８】

【０１３３】
文法G₁は「何年何年ですか」「何月何年ですか」「何年何日ですか」のような、意図されない言語表現までモデル化してしまう。そこで、文法作成者の持つ言語知識を利用して、好ましくない表現を排除し、図８右のようなネットワーク文法G₂に修正することを考える。新たに導入したノード（文脈）毎に、新たな単語記号を導入して、次のような文法
【０１３４】
【外１７】

【０１３５】
として表現する。
【０１３６】
【数１９】

【０１３７】
文法G₂は、「何年何月ですか」「何月何日ですか」のような、作成者の意図する表現だけを受理し、それ以外を排除する。このように、ネットワーク文法では、人の持つ言語知識を利用して、Ｎ−ｇｒａｍでは獲得不可能な、単語間の長距離の依存関係も表現することが可能である。
【０１３８】
（本実施形態の言語処理装置）
上述の言語処理方法を適用した言語処理装置について、説明する。言語処理装置のハードウェアは市販のパソコン等、周知の情報処理機能を有するものを使用することができるので、ハードウェア構成については詳細な説明を省略する。
【０１３９】
言語処理装置に搭載するソフトウェアの構成を図９に示す。図９において、１０は音声認識プログラムであり、マイクロホンから入力された音声信号をその音声信号の示す文字列に変換して表示器等に出力する。音声認識プログラムの中に本発明に係わる言語処理方法を適用したプログラムが組み込まれている。このプログラムの内容については、図１２を使用して説明する。
【０１４０】
１１は、音声認識プログラム１０で使用する確率表である。この確率表は複数組の文字列およびその連鎖の確率の値および該確率の値に対する当該文字列の組数に応じた補正係数の値が記載されており、経路の接続を禁止する文字列の組み合わせについては、その組み合わせの内容に応じて前記確率の値または補正係数の値を０（ゼロ）となっている。このようにすることで、経路の接続を禁止する必要のある単語の間の確率を０とすることが可能となる。
【０１４１】
１２は音声の特徴を文字列に変換するために使用する単語辞書である。２０は、確率表１１を作成するためのプログラムである。
【０１４２】
確率表１１、いわゆる、言語モデルの記載の内容を図１０（Ａ）〜（Ｄ）に示す。確率表は、３組の文字列（以下、単に単語と略記する。ただし単語の概念には１文字の文字列も含まれる）用の確率表（図１０（Ａ）、２組の単語用の確率表（図１０（Ｂ））、１組の単語用の確率表が用意されている。１組の単語用の確率表は統計的確率モデル用（識別符号が付加されていない文字列用、図１０（Ｃ））と本発明で言う予め定められた並びの文字列の中に含まれる文字列のみを記載した、いわゆる記述文法の確率のモデル用（図１０（Ｄ））の２種類がある。予め定められた並びの文字列、すなわち記述文法に沿った文字列を検出すべき言語パターンと呼ぶことにする。
【０１４３】
３組および２組の単語用の確率表に記載する文字列には、検出すべき言語パターンの中に含まれる単語を許容している。検出すべき言語パターンの中に含まれる単語についてはそのことを示す＠の識別符号が付されている。＠はさらに他の単語が接続可能な位置をも示す。単語の前に＠が付されている場合には、その単語の前に＠が後に付された他の単語が接続可能であることを示す。単語の後に＠が付されている場合にはその単語の後に＠が前に付された他の単語が接続可能であることを示す。言語パターンの先頭単語は、その単語の後のみに＠が付され、言語パターン末尾単語はその単語の前にのみ＠が付される。
【０１４４】
本実施形態では、従来、使用されている統計的言語モデル（確率表の）の中に検出すべき言語パターンの単語の組み合わせを混在させ、これらの単語については識別符号を付して、統計的言語モデルの単語と区別可能としたことに新規特徴がある。
【０１４５】
図１０（Ｂ）〜図１０（Ｄ）に示す確率表には、単語と確率の値と、補正係数の値とが記載される。補正係数は上述の言語処理方法の説明の中の正規化係数のことである。補正係数を設けること自体は従来から周知であるが、１組用の単語の確率表（図１０（Ｄ））を設けることおよびその確率の値および補正係数の値を、他の単語との組み合わせ内容に応じて補正係数または確率の値を０（ゼロ）とすることに新規特徴がある。より具体的には、＠単語（言語パターンの末尾単語）については確率の値が０に設定されている。＠単語＠（言語パターン途中の単語）については補正係数および確率の値が０に設定されている。単語＠（言語パターンの先頭単語）については補正係数が０に設定されている。このような値を設定することにより、言語処理おける処理対象の単語の連鎖確率は、＠単語＠で接続される単語の連鎖の確率は正の値を持ち、＠を有さない単語と＠単語＠との連鎖の確率の値は０となる。これにより、検出すべき言語パターンの中の先頭および末尾の単語を除く、単語、統計的確率モデルの単語とのネットワーク上の経路の接続が禁止される。具体的な言語処理プロセスについては後で説明する。
【０１４６】
単語辞書１２の一例を図１１に示す。単語辞書１２には、音声信号から抽出される音声の特徴とその特徴に対応する文字列が記載されている。上記検出すべき言語パターンに含まれる単語については、上述した＠の識別符号がやはり付されている。
【０１４７】
音声の特徴は、音声信号の解析結果である音響特徴を使用してもよいし、音響特徴から得られる音韻ラベルを使用してもよい。いずれの特徴を使用するかは音声認識方法の種類に応じて適宜定めればよい。
【０１４８】
以上述べた確率表１１および単語辞書１２を使用する言語処理を次に説明する。
【０１４９】
（確率表の作成）
ユーザは、パソコンに搭載された確率表作成プログラム２０を起動して次の処理をパソコンのＣＰＵに実行させる。
【０１５０】
（処理１）
新聞等の文書ファイルを入力する。文書ファイルの入力は外部記憶装置（フロッピー（登録商標）ディスク、ハードディスク、CD-ROM等）からの読み取り、通信による他の装置からの転送、キーボードによる文字入力のいずれの入力方法を使用してもよい。
【０１５１】
（処理２）
検出すべき言語パターン、たとえば、図７で示される言語パターンを構成する文字列をキーボードから、あるいは言語パターン記録した外部記憶装置や通信による他の装置からの転送によって、指示する。処理２で指定された単語については、言語パターンの位置に基づいて＠の識別符号を付した単語を作成する。
【０１５２】
（処理３）
処理１で入力された文書の中の隣接する３つの単語の出現頻度、２つの出現頻度、１つの単語の出現頻度を計数する。
【０１５３】
（処理４）
出現頻度から予め定めた計算式により確率の値および補正係数（１および２単語用）を取得する。
【０１５４】
（処理５）
取得された確率の値および補正係数および組み合わせの単語を使用して図１０（Ａ）〜（Ｄ）の確率表をパソコンのハードディスク上に作成する。
【０１５５】
（音声認識処理）
以下では、音声認識のもっとも純粋な実施形態として、（１）音響信号から音韻ラベル候補を抽出、（２）音韻ラベル候補から単語列候補（単語ネットワーク）を作成、（３）単語ネットワークから言語処理により認識結果（単語列）を作成、の順に処理を進めるものとして説明を行う。実際は、このような純粋な実施形態は非常に処理効率が悪いので、（１）（２）（３）の処理を同時・並行・混合して認識を行う様々な効率化手法（鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄編著、音声認識システム、オーム社、２００１）が実施される。それらの様々な効率化のための変形手法が特許請求の範囲の記載の示す技術に基づく限り、その変形は本発明の技術範囲内となる。
【０１５６】
音声認識を行う場合ユーザはパソコンに搭載された音声認識プログラム１０をパソコンのＣＰＵに実行させる。音声認識プログラム１０は従来と同様の処理を行って、マイクロホンから入力された音声を音声特徴に変換する。たとえば、「１９７６年に火星に軟着陸した探査機は何という名前でしたか」という音声が入力されたとする。ここで、「何という名前でしたか」が予めパソコンに登録されている言語パターンであり、確率表１１および単語辞書１２にはこの言語パターンに含まれる単語が＠の識別符号を付して登録されているものとする。
【０１５７】
音声認識プログラム10により変換される音声特徴を音素ラベルとすると、上記音声は"silB s e N ky u: hy a k u n a n a j u: r o k u n e N n i k a s e i n i n a N ch a k u r i k u sh i t a t a N s a k i h a n a N t o i u n a m a e d e sh i t a k a silE"のような音素ラベル列候補に変換される。silB, silEは、発話区間の開始、終了の無音を表す、特別な音素ラベルである。このとき、音素照合処理の曖昧性のため、音響的に類似した非常に数多くの候補が生成される。例えば、上記候補以外にも"silB s e i ky u: ch u: n o ... n a m a e n i sh i t a k a silE"のような候補が得られる。各候補には、得られた音素ラベル列と入力音声信号とがどれだけ照合しているかを表す音響モデル確率が付与されている。
【０１５８】
上記の音素ラベル列候補は、単語辞書を参照し、すべての音素ラベルを洩れなく単語へ変換することにより、単語列へと変換される。例えば、上記最初の音素ラベル列は、「<s> 千九百七十六年に火星に軟着陸した探査機は何@ @という@ @名前@ @でし@ @た@ @か </s>」のように変換される。ただし、記号"<s>"および"</s>"は、それぞれ文頭、文末を表す特別な単語記号である。このような変換をすべての音素ラベル列候補に対して実行することにより、数多くの単語列候補が生成される。このような複数の単語列候補は、単語の共通部分を共有してネットワークの形状で表現することにより、図１３のような単語ネットワークで表現することができる。すなわち、単語ネットワーク上の一つの経路が、上記一つの単語列候補に相当する。音声認識の目的は、上記音響モデル確率と以下に述べる言語モデル確率の観点から、尤も確率の大きな経路を見つけ、その文字列を認識結果として出力することにある。
【０１５９】
なお、音素ラベル列から単語辞書を参照する際、予め登録してある言語パターン内の単語は図１２のように辞書の記載された単語に@が付されている。そのため、単語ネットワーク上では、予め登録してある言語パターン内の単語は@が付されている点に留意されたい。
【０１６０】
このようなネットワークが構築されると、次に音声認識プログラム中の図12の処理プログラムが実行されて、ネットワーク上の経路の累積確率値(言語モデル確率)が取得される。以下では、トライグラム（ｔｒｉ−ｇｒａｍ）の場合を説明する。
【０１６１】
トライグラムの場合、経路上のすべての3単語連鎖の確率値を確率表11から取得する。例えば、上記単語列の例では、(_,_,<s>)(_,<s>,千)(<s>,千,九百)(千,九百,七十) ... (@でし@,@た@,@か)(@た@,@か,</s>)の3単語連鎖から各確率値を求め、すべての値の積を計算する。ただし、"_"は文頭の確率値を計算するための(確率表や辞書には記載されていない)ダミーの単語記号である。確率値は、表１１を参照し、以下に述べるような従来のバックオフ言語モデルの処理方法と全く同じ方法で処理できる。
【０１６２】
３単語連鎖(w1,w2,w3)から確率表１１を参照し、確率値を求める手順は以下の通りである（図１２を参照）。取得した３つの単語の組合せが単語辞書１２の中の３単語用確率表(図１０（Ａ））で最初に参照される。３単語用確率表に3つの単語の組合せが記載されている場合にはその確率の値を取得する。（ステップＳ３０→Ｓ３５）
【０１６３】
３単語用確率表に上記3つの単語の組合せが記載されていない場合には、次にまず３単語の前２単語の組合せ(w1,w2)から補正係数の値を２単語用確率表（図１０（Ｂ））から取得する。この補正係数の値と以降の処理で得られた確率値と掛け合わせた値を３単語の確率値とする。
【０１６４】
次に、３単語の後ろ２単語の組合せ(w2,w3)が２単語用確率表（図１０（Ｂ））で参照される。２単語の組み合わせが記載されている場合にはその確率の値を取得する。(そして、前期の補正係数と掛け合わせた値を確率値とする。）（ステップＳ５０→Ｓ５５）
【０１６５】
２単語用確率表に前記２つの単語の組合せが記載されていない場合には、次に２単語の前１単語（最初の３単語の中央の単語)から補正係数の値を１単語確率表(図１０（Ｃ）および（Ｄ））から取得する。この補正係数の値を(前期の補正係数に加えて)さらに以降の処理で得られた確率値と掛け合わせた値を３単語の確率値とする。この時単語の後ろに＠のついた単語（「単語＠」および「＠単語＠」）の補正値は、図１０に示した確率表を用いることにより、０となる。
【０１６６】
最後に、３単語の最後の単語（ｗ３）が１単語用確率表（図１０（Ｃ）および（Ｄ））で参照される。記載されている場合には、その確率の値を取得する。（先に求めた２つの補正値を掛け合わせる。）（ステップＳ７０→Ｓ７５）この時、単語の前に＠のついた単語（「＠単語」および「＠単語＠」）の確率値は、図１０に示した確率表を用いることにより、０となる。記載がない場合は、あらかじめ計算した定数Ｐ０を確率値として取得する。（ステップＳ７０→Ｓ８０）
【０１６７】
このようにしてネットワーク上のすべての経路について連鎖の確率の値および累積値が計算されると、最も累積値の値が高い経路上の単語列が音声認識結果として決定される。
【０１６８】
以上説明したように、本実施形態では、図１０に示した確率表を用いることにより、予め登録した言語パターンの中の途中の単語(@単語@)については1単語用の確率表の確率の値および補正係数の値を０に設定しておくことにより、この単語への他の単語からの経路およびこの単語から他の単語への経路の接続が、３単語確率表か２単語確率表に記載されていない場合、禁止された扱いとなる。言語パターンの先頭単語(単語@)については１単語用の確率表の補正係数の値を０に設定しておくことにより、この単語から他の単語への経路の接続が、３単語確率表か２単語確率表に記載されていない場合、禁止された扱いとなる。言語パターンの末尾単語(@単語)については１単語用の確率表の確率の値を０に設定しておくことにより、この単語への他の単語からの経路の接続が、３単語確率表か２単語確率表に記載されていない場合、禁止された扱いとなる。これにより、予め登録した言語パターンと同じ言語パターンが音声の中に含まれている場合、正しくその言語パターンを検出することができる。
【０１６９】
以上述べた実施形態の他に次の形態を実施できる。
１）上述の言語処理方法は音声認識処理に適用される例であったが，ＯＣＲで読み取った文字画像列を文字コードに変換する文字認識など、文字の特徴を文字（コード）に変換する種々の言語処理に本発明を適用することができる。
２）上述の形態では、識別符号を有する１単語用確率表の確率の値または補正係数の値を０に設定することで、予め登録した言語パターンの先頭単語、途中の単語、最後尾の単語に対する他の単語からの経路の接続を制限しているが、＠（識別符号）の付加位置に基づいて経路の接続を制限してもよい。この場合にはネットワークの構築時に、単語辞書から得られる音声特徴の変換候補（単語）に識別符号が付してあるか否かを判定し、付してある場合には識別符号の位置に応じて他の単語の接続との接続を禁止してもよい。これにより登録の言語パターンの先頭語は他の単語からの経路の接続が許容され、末尾語は他の単語への経路の接続が許容される。
３）音声認識結果を表示や印刷出力する際に登録された言語パターンが含まれている場合には、その言語パターンを報知することができる。この場合、言語パターンには＠符号が付加されているので＠符号をそのまま出力してもよいし、＠符号を除去して、アンダーライン、異なる色、ボールド体等で上記言語パターンの単語を報知すればよい。また、識別符号には他の記号を使用してもよい。
【０１７０】
上述の実施形態以外にも種々の変形が考えられる。しかしながら、それらの変形が特許請求の範囲の記載の示す技術思想に基づく限り、その変形は本発明の技術範囲内となる。
【０１７１】
【発明の効果】
以上、説明したように、本発明によれば、予め定めた並びの文字列（実施形態の登録の言語パターン）がネットワークに変換候補として現れる場合には、これらの文字列の先頭および末尾を除いた途中の文字列と登録の言語パターン以外の単語文字列との間の経路の接続が禁止される。これにより、従来の統計的言語モデルの言語処理を行っても、記述文法的な確率モデルの言語処理の併用が可能となる。また、従来の統計的言語モデルのみの言語処理に比べると、登録の言語処理パターンに対する部分の変換処理の精度が著しく向上する。
【０１７２】
また、予め定めた並びの文字列については識別符号が付されるので、この識別符号を使用して、特徴から文字列への変換結果の中で報知が可能となる。
【図面の簡単な説明】
【図１】本発明実施形態の言語処理方法を示す説明図である。
【図２】従来のＮ−ｇｒａｍモデル学習手順を示す説明図である。
【図３】本発明実施形態のＮ−ｇｒａｍモデル学習手順を示す説明図である。
【図４】本発明実施形態の学習を説明するための説明図である。
【図５】仮説の生成を説明するための説明図である。
【図６】仮説の生成を説明するための説明図である。
【図７】ＱＡタスク定型表現の文法を示す説明図である。
【図８】ネットワーク文法を示す説明図である。
【図９】言語処理装置のソフトウェア構成を示すブロック図である。
【図１０】確率表の内容を示す説明図である。
【図１１】単語辞書の内容を示す説明図である。
【図１２】音声認識プログラム内の言語処理のためのプログラムの内容を示すフローチャートである。
【図１３】構築されるネットワークを模式的に示す説明図である。
【符号の説明】
１０音声認識プログラム
１１確率表
１２単語辞書
２０確率表作成プログラム

Claims

複数組の文字列の各々の特徴を該特徴を表す文字列に変換するために、前記複数組の文字列の各々についての変換候補をネットワークの形態で接続し、該ネットワーク上の同一経路上で隣接する変換候補の連鎖の確率の値を求め、前記ネットワークの各経路の確率の値の中で、最も値が高い経路上の変換候補の列を前記複数組の文字列の特徴に対する変換結果とすると共にバックオフスムージング処理を行う言語処理装置において、
予め定められた並びの複数組の文字列が前記ネットワーク上の経路に現れるか否かを判定する判定手段と、
肯定判定が得られた場合には、予め定められた並びの複数組の文字列以外の変換候補から予め定められた並びの複数組の文字列の中の先頭以外の変換候補の文字列への経路の接続、および予め定められた並びの複数組の文字列の中の末尾以外の変換候補の文字列から予め定められた並びの複数組の文字列以外の変換候補への経路の接続、を禁止する制御手段と
を具えたことを特徴とする言語処理装置。
請求項１に記載の言語処理装置において、複数組の文字列およびその連鎖の確率の値および該確率の値に対する当該文字列の組数に応じた補正係数の値を記載した確率表を有し、経路の接続を禁止する文字列の組み合わせについては、その組み合わせの内容に応じて前記確率の値または補正係数の値を０（ゼロ）となすことを特徴とする言語処理装置。
請求項２に記載の言語処理装置において、文字列の特徴およびその特徴に対応する変換候補の文字列を記載した単語辞書をさらに有し、該単語辞書に記載する文字列の中に、前記予め定めた並びの文字列の中に含まれる文字列を識別符号を付して含めておくことを特徴とする言語処理装置。
請求項２に記載の言語処理装置において、文書を入力する手段と、当該入力された文書の中に含まれる文字列をその種類ごとに計数して、前記確率表を作成する手段をさらに具えたことを特徴とする言語処理装置。
請求項４に記載の言語処理装置において、前記予め定められた並びの複数組の文字列を指定する手段をさらに具え、当該指定された文字列の組み合わせについては前記確率表中の各文字列に請求項３に記載の識別符号と同じ識別符号が付されることを特徴とする言語処理装置。
複数組の文字列の各々の特徴を該特徴を表す文字列に変換するために、言語処理装置により、前記複数組の文字列の各々についての変換候補をネットワークの形態で接続し、該ネットワーク上の同一経路上で隣接する変換候補の連鎖の確率の値を求め、前記ネットワークの各経路の確率の値の中で、最も値が高い経路上の変換候補の列を前記複数組の文字列の特徴に対する変換結果とすると共にバックオフスムージング処理を行う言語処理方法において、前記言語処理装置の実行処理ステップは、
予め定められた並びの複数組の文字列が前記ネットワーク上の経路に現れるか否かを判定する判定ステップと、
肯定判定が得られた場合には、予め定められた並びの複数組の文字列以外の変換候補から予め定められた並びの複数組の文字列の中の先頭以外の変換候補の文字列への経路の接続、および予め定められた並びの複数組の文字列の中の末尾以外の変換候補の文字列から予め定められた並びの複数組の文字列以外の変換候補への経路の接続、を禁止する制御ステップと
を具えたことを特徴とする言語処理方法。
請求項６に記載の言語処理方法おいて、複数組の文字列およびその連鎖の確率の値および該確率の値に対する当該文字列の組数に応じた補正係数の値を記載した確率表を有し、経路の接続を禁止する文字列の組み合わせについては、その組み合わせの内容に応じて前記確率の値または補正係数の値を０（ゼロ）となすことを特徴とする言語処理方法。
請求項７に記載の言語処理方法において、前記言語処理装置は文字列の特徴およびその特徴に対応する変換候補の文字列を記載した単語辞書をさらに有し、該単語辞書に記載する文字列の中に、前記予め定めた並びの文字列の中に含まれる文字列を識別符号を付して含めておくことを特徴とする言語処理方法。
請求項７に記載の言語処理方法において、文書を入力するステップと、当該入力された文書の中に含まれる文字列をその種類ごとに計数して、前記確率表を作成するステップをさらに具えたことを特徴とする言語処理方法。
請求項９に記載の言語処理方法において、前記予め定められた並びの複数組の文字列を指定するステップをさらに具え、当該指定された文字列の組み合わせについては前記確率表中の各文字列に請求項８に記載の識別符号と同じ識別符号が付されることを特徴とする言語処理方法。