JP2003271188A

JP2003271188A - 言語処理装置および方法

Info

Publication number: JP2003271188A
Application number: JP2002071625A
Authority: JP
Inventors: Tomoyoshi Akiba; 友良秋葉; Katsunobu Ito; 克亘伊藤; Atsushi Fujii; 敦藤井; Tetsuya Ishikawa; 徹也石川
Original assignee: National Institute of Advanced Industrial Science and Technology AIST
Current assignee: National Institute of Advanced Industrial Science and Technology AIST
Priority date: 2002-03-15
Filing date: 2002-03-15
Publication date: 2003-09-25
Anticipated expiration: 2022-03-15
Also published as: JP3950957B2

Abstract

(57)【要約】【課題】統計的確率モデルおよび記述文法的確率モデ
ルの併用を可能とする。【解決手段】特徴に対応する変換候補を接続順に並べ
たネットワークを構築する際に、予め登録された言語パ
ターン（図７）の中の途中の単語が含まれているか否か
を判定し（Ｓ７０）、単語が含まれている場合には、そ
の単語と登録された言語パターン以外の単語との間の経
路の接続が禁止される（Ｓ７５）。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、言語モデルを使用
して言語処理を行う言語処理装置および方法に関する。

【０００２】

【従来の技術】音声認識装置は、音声信号の特徴量ａを
観察し、それをもっとも良く説明する単語（列）ｗを推
定する問題が下記式により定式化されている。

【０００３】

【数１】argmax _wP (w|a) = argmax _wP (a|w)P (w)

【０００４】音声認識装置の性能は、このＰ（ａ｜
ｗ）、Ｐ（ｗ）の良いモデルを見いだすことに大きく依
存している。

【０００５】このうち、Ｐ（ｗ）は音声信号の発話内容
が言語としてどれだけ尤もらしいかを表す確率で、言語
モデルと呼ばれる。現在、言語モデルを構築する手法
は、統計的手法によるものと記述文法によるものの２つ
に大別される。

【０００６】統計的手法による言語モデルの代表的なも
のはＮ−ｇｒａｍモデルと呼ばれ、大語彙連続音声認識
システムで現在もっとも広く利用されている。Ｎ−ｇｒ
ａｍモデルは、新聞記事などの大量の言語データから、
Ｎ個の連続する単語の並びの統計情報を抽出し、確率モ
デルとして表したものである。学習データさえ用意すれ
ば、大語彙で比較的性能の良い言語モデルを簡単に構築
することができる。

【０００７】一方、その性能は用意した学習データの統
計的性質に左右されるため、大量の学習データを用意す
ることが困難なタスクを扱うのが難しいという問題点が
ある。たとえば、音声認識の応用分野として、ある特定
のデータベースの検索を対象とした対話システムや、特
定用途のために認識する発話を特化したシステムが考え
られるが、このようなタスクの学習データは元から存在
しないことがほとんどで、システム開発者が用意する必
要があるが、作成のコストの面で困難である。

【０００８】このような分野に用いられる言語モデルと
しては、記述文法によるものが広く用いられている。自
然言語の記述に広く用いられている文脈自由文法や、正
規文法（ネットワーク文法）を用いて、そのタスクで扱
われる発話をシステム設計者が人手で記述し、それを言
語モデルとする方法である。Ｎ−ｇｒａｍモデルは単語
長Ｎという言語の中でもきわめて短い間の依存関係しか
表現できないのに対して、記述文法では、文単位の長距
離の依存関係を記述する能力がある。また、記述文法の
作成には、これまでの言語学の研究成果から得られた知
見を利用できるという特徴もある。しかし、人手で作成
する以上、作成する規模には限界があり広い範囲の言語
表現に対応するのは難しい。また、統計的手法を用いな
いので大語彙の認識には不向きである。

【０００９】Ｎ−ｇｒａｍモデルにおいて、種々のスム
ージング手法が提案されている（北研二．確率的言語モ
デル．東京大学出版会，１９９９）。スムージングと
は、学習データに現れないＮ単語連鎖を確率０としてＮ
−ｇｒａｍモデルを作成すると言語モデルの性能が悪化
するため、０でない確率を割り当てるよう補完を行う手
法のことを指す。現在、広く利用されているバックオフ
スムージングでは、学習データに現れないＮ単語連鎖の
確率をＮ−１単語連鎖の確率で補完する。

【００１０】

【発明が解決しようとする課題】上述したように統計的
な言語モデルを使用する言語処理方法および記述文法の
言語モデルを使用する言語処理方法にはそれぞれ一長一
短がある。

【００１１】そこで、本発明の目的は、上記２つの長所
を取り入れて、統計的な言語モデルおよび記述文法の言
語モデルを併用することができる言語処理装置および方
法を提供することにある。

【００１２】

【課題を解決するための手段】このような目的を達成す
るために、請求項１の発明は、複数組の文字列の各々の
特徴を該特徴を表す文字列に変換するために、前記複数
組の文字列の各々についての変換候補をネットワークの
形態で接続し、該ネットワーク上の同一経路上で隣接す
る変換候補の連鎖の確率の値を求め、前記ネットワーク
の各経路の確率の値の中で、最も値が高い経路上の変換
候補の列を前記複数組の文字列の特徴に対する変換結果
とする言語処理装置において、予め定められた並びの複
数組の文字列が前記ネットワーク上の経路に現れるか否
かを判定する判定手段と、肯定判定が得られた場合に
は、予め定められた並びの複数組の文字列以外の変換候
補から予め定められた並びの複数組の文字列の中の先頭
以外の変換候補の文字列への経路の接続、および予め定
められた並びの複数組の文字列の中の末尾以外の変換候
補の文字列から予め定められた並びの複数組の文字列以
外の変換候補への経路の接続、を禁止する制御手段とを
具えたことを特徴とする。

【００１３】請求項２の発明は、請求項１に記載の言語
処理装置おいて、複数組の文字列およびその連鎖の確率
の値および該確率の値に対する当該文字列の組数に応じ
た補正係数の値を記載した確率表を有し、経路の接続を
禁止する文字列の組み合わせについては、その組み合わ
せの内容に応じて前記確率の値または補正係数の値を０
（ゼロ）となすことを特徴とする。

【００１４】請求項３の発明は、請求項２に記載の言語
処理装置において、文字列の特徴およびその特徴に対応
する変換候補の文字列を記載した単語辞書をさらに有
し、該単語辞書に記載する文字列の中に、前記予め定め
た並びの文字列の中に含まれる文字列を識別符号を付し
て含めておくことを特徴とする。

【００１５】請求項４の発明は、請求項２に記載の言語
処理装置において、文書を入力する手段と、当該入力さ
れた文書の中に含まれる文字列をその種類ごとに計数し
て、前記確率表を作成する手段をさらに具えたことを特
徴とする。

【００１６】請求項５の発明は、請求項４に記載の言語
処理装置において、前記予め定められた並びの複数組の
文字列を指定する手段をさらに具え、当該指定された文
字列の組み合わせについては前記確率表中の各文字列に
請求項３に記載の識別符号と同じ識別符号が付されるこ
とを特徴とする。

【００１７】請求項６の発明は、複数組の文字列の各々
の特徴を該特徴を表す文字列に変換するために、言語処
理装置により、前記複数組の文字列の各々についての変
換候補をネットワークの形態で接続し、該ネットワーク
上の同一経路上で隣接する変換候補の連鎖の確率の値を
求め、前記ネットワークの各経路の確率の値の中で、最
も値が高い経路上の変換候補の列を前記複数組の文字列
の特徴に対する変換結果とする言語処理方法において、
前記言語処理装置の実行処理ステップは、予め定められ
た並びの複数組の文字列が前記ネットワーク上の経路に
現れるか否かを判定する判定ステップと、肯定判定が得
られた場合には、予め定められた並びの複数組の文字列
以外の変換候補から予め定められた並びの複数組の文字
列の中の先頭以外の変換候補の文字列への経路の接続、
および予め定められた並びの複数組の文字列の中の末尾
以外の変換候補の文字列から予め定められた並びの複数
組の文字列以外の変換候補への経路の接続、を禁止する
制御ステップとを具えたことを特徴とする。

【００１８】請求項７の発明は、請求項６に記載の言語
処理方法おいて、複数組の文字列およびその連鎖の確率
の値および該確率の値に対する当該文字列の組数に応じ
た補正係数の値を記載した確率表を有し、経路の接続を
禁止する文字列の組み合わせについては、その組み合わ
せの内容に応じて前記確率の値または補正係数の値を０
（ゼロ）となすことを特徴とする。

【００１９】請求項８の発明は、請求項７に記載の言語
処理方法において、前記言語処理装置は文字列の特徴お
よびその特徴に対応する変換候補の文字列を記載した単
語辞書をさらに有し、該単語辞書に記載する文字列の中
に、前記予め定めた並びの文字列の中に含まれる文字列
を識別符号を付して含めておくことを特徴とする。

【００２０】請求項９の発明は、請求項７に記載の言語
処理方法において、文書を入力するステップと、当該入
力された文書の中に含まれる文字列をその種類ごとに計
数して、前記確率表を作成するステップをさらに具えた
ことを特徴とする。

【００２１】請求項１０の発明は、請求項９に記載の言
語処理方法において、前記予め定められた並びの複数組
の文字列を指定するステップをさらに具え、当該指定さ
れた文字列の組み合わせについては前記確率表中の各文
字列に請求項８に記載の識別符号と同じ識別符号が付さ
れることを特徴とする。

【００２２】

【発明の実施の形態】以下、図面を参照して本発明の実
施形態を詳細に説明する。

【００２３】（本実施形態の言語処理方法）従来技術で
説明したように、統計的言語モデルでは広い範囲の言語
表現を扱えるが、特定のタスク用途に用いるのは難し
い。記述文法は、システム設計者が扱える言語表現を自
由に記述することで、特定のタスク用途の言語モデルを
容易に獲得することができるが、広い範囲の言語表現や
大語彙に対応するのが難しい。

【００２４】そこで、本実施形態では、記述文法で表し
た言語モデルをＮ−ｇｒａｍで表現し、統計的手法によ
るＮ−ｇｒａｍモデルと統合する。

【００２５】本実施形態では、まず、記述文法で表した
言語モデルを、ｂｉ−ｇｒａｍ（２つの単語の連鎖）で
表現する。正規文法（ネットワーク文法）は、単語連接
が可能な場合は確率値ｐ（＞０）で、単語連接が不可能
な場合は確率値０としたｂｉ−ｇｒａｍで表現すること
ができる（詳細は、ＡＰＰＥＮＤＩＸに記述する。）。
また、文脈自由文法は、正規文法に近似するアルゴリズ
ムが知られているので（Ｆ．Ｃ．Ｎ．Ｐｅｒｅｉｒａａ
ｎｄＲ．Ｒ．Ｗｒｉｇｈｔ．Ｆｉｎｉｔｅ−ｓｔａｔ
ｅａｐｐｒｏｘｉｍａｔｉｏｎｏｆｐｈｒａｓｅ
−ｓｔｒｕｃｔｕｒｅｇｒａｍｍａｒｓ．ＩｎＰｒ
ｏｃ．ｏｆＡＣＬ１９９１，ｐｐ．２４６−２５
５，１９９１）、正規文法に近似したあと同様の手法ｂ
ｉ−ｇｒａｍ表現に変換することが可能である。

【００２６】このようなｂｉ−ｇｒａｍ表現した記述文
法を、新聞記事などから学習した統計的手法によるＮ−
ｇｒａｍモデルとどのように統合し、統合Ｎ−ｇｒａｍ
を作成する。その手順は、以下に説明する。音声認識装
置は、（１）記述文法部分の頻度情報を獲得する。（２）獲得した頻度情報を用いて確率を学習する。（３）作成した言語モデルを用いて音声認識を実行す
る。の処理を実行する。

【００２７】（１）頻度情報の獲得

【００２８】

【外１】

【００２９】（１−１）ネットワーク文法の作成まず、統計的手法で作成したＮ−ｇｒａｍの語彙を用い
てネットワーク文法を作成する。もしＮ−ｇｒａｍ語彙
に含まれない単語を使用する場合は、Ｎ−ｇｒａｍの未
知語に対応づける。（例えば、日本語ディクテーション
基本ソフトウェア（鹿野清宏，伊藤克亘，河原達也，武
田一哉，山本幹雄（編）．音声認識システム．オーム
社，２００１）の言語モデルは、２万語と６万語のもの
があり、特殊な固有名詞を使わない限り、ネットワーク
文法を記述するには十分である。）

【００３０】開始単語と終了単語は、他のネットワーク
内単語と区別して、それぞれ開始時、終了時のみ到達可
能とするようにネットワークを構成する。これには、開
始単語と終了単語のために、他の単語と区別する特別な
単語記号を用意すればよい。すなわちネットワーク内単
語集合W_Gは、互いに共通部分のない、開始単語集合
W_G _s、終了単語集合W_Gf、中間に現れる単語集合W_Gmから
構成されるとする。また、ネットワーク文法の単語は、
元のＮ−ｇｒａｍの同じ単語と区別するために、別の単
語記号を割り当てる。ここでは、Ｎ−ｇｒａｍ中の単語
wに対して、ネットワーク文法の単語を、記号”＠”を
付けて＠ｗと表すことにする。

【００３１】

【外２】統合モデルの語彙W_Aは、元のＮ−ｇｒａｍから
の単語w∈W_Uと、ネットワーク文法からの単語W_G（＝W_Gs
∪W_Gm∪W_Gf）から構成される。（W_U∩W_G＝Φ）

【００３２】（１−２）頻度情報のコピー

【００３３】

【外３】

【００３４】普通、Ｎ−ｇｒａｍ確率学習では、高次の
単語列頻度と低次の単語列頻度が無矛盾なので、高次の
単語列頻度から低次の単語列頻度を求めることができ
る。しかし、ここでは、部分的に頻度情報を与えるた
め、高次の単語列頻度から低次の単語列頻度を求めるこ
とができない。そこで、以下では各単語長ごとに頻度Ｃ
を与えて表すことにする。

【００３５】統合モデルの部分によって、次のような頻
度を与える（図１）。ここでは、現在もっともよく用い
られているｔｒｉ−ｇｒａｍ（Ｎ＝３）の場合について
説明する。一般のＮの場合でも同様に求めることができ
る。

【００３６】・Ｎ−ｇｒａｍ内単語列の頻度元の単語列の、Ｎ−ｇｒａｍ頻度をそのまま使う。

【００３７】

【数２】

【００３８】・ネットワーク文法内の単語列頻度ネットワーク文法で連接可能な単語対（＠w_i，＠w_j）お
よび（＠w_j，＠w_k）に対し、対応するＮ−ｇｒａｍモデ
ル中の単語対（w_i，w_j）の頻度を与える。

【００３９】

【数３】

【００４０】ただし、C₀(w_i,w_j)=0となるような単語対
（＠w_i，＠w_j）が存在する可能性があるため、ディスカ
ウンティングを行う必要がある。一方、開始単語＠w_sを
除いて単単語頻度を０とする。

【００４１】

【数４】

【００４２】・Ｎ−ｇｒａｍとネットワーク文法を結ぶ
単語列頻度ネットワーク文法の開始単語＠w_s∈W_Gsに対し、対応す
る単語w_sの頻度を用いて、次のような頻度を与える。

【００４３】

【数５】

【００４４】γは、ネットワーク文法の表す単語列の、
対応するＮ−ｇｒａｍモデルでの単語列に対する相対的
な優先度を表す。１以上の値を与え、大きな値を与える
ほど、ネットワーク文法の表現が優先的に考慮される。
後で述べるように、γ＝１としても、ネットワーク文法
の表現は優先的に扱われるようになる。

【００４５】ネットワーク文法の終了単語＠w_f∈W_Gfか
らＮ−ｇｒａｍへの単語列頻度も、同様に与える。ただ
し、＠w_fの単単語頻度は０とする。δは、γと同様、ネ
ットワーク文法の表す単語列の、対応するＮ−ｇｒａｍ
モデルでの単語列に対する相対的な優先度を表す。

【００４６】

【数６】Ｃ（＠ｗ_f，ｗ_j，ｗ_k）＝δＣ₀（ｗ_f，ｗ_j，ｗ_k）Ｃ（＠ｗ_f，ｗ_j）＝δＣ₀（ｗ_f，ｗ_j）Ｃ（＠ｗ_f）＝０

【００４７】（２）確率モデルの学習与えた部分的頻度情報からモデルを学習する。一般に、
バックオフスムージングが行われたＮ−ｇｒａｍは、次
の再帰式で表される。

【００４８】

【数７】

【００４９】

【外４】

【００５０】（２−１）部分的頻度からの学習従来法による確率学習まで手順を図２に示す。

【００５１】学習データだけから頻度情報を獲得する場
合、各長さｎの頻度情報は無矛盾であるので、目的のＮ
−ｇｒａｍの長さＮの頻度情報だけを与えれば良い。よ
り短いｎ（＜Ｎ）の頻度は、Ｎの頻度から一意に計算可
能である。

【００５２】これに対し、提案法の手順を図３に示す。

【００５３】このように、人手で頻度情報を操作した場
合、頻度情報の各長さｎで整合性がなくなる。そのた
め、各長さｎ毎の頻度情報が必要となる。また、Ｎ−ｇ
ｒａｍモデルの確率計算方法の修正が必要となる。

【００５４】バックオフスムージングモデルの計算にお
いて、長さｎの頻度

【００５５】

【外５】

【００５６】は、（ａ）（ｎ＋１）−ｇｒａｍ確率計
算、（ｂ）ｎ−ｇｒａｍ確率計算の二通りに使用され
る。学習データだけから獲得した（完全な）頻度情報を
使う場合は、（ａ）と（ｂ）のどちらの計算にも同じ長
さｎの頻度情報を用いることができる。一方、部分的な
頻度情報を用いる場合は、同じｎ頻度情報を用いると、
正しい確率計算ができない。

【００５７】

【外６】

【００５８】（ａ）（ｎ＋１）−ｇｒａｍ確率計算

【００５９】

【外７】

【００６０】

【数８】

【００６１】ディスカウント係数の計算でもｎ頻度が必
要な場合は、従来法のｎ頻度をコンテキストｎ頻度に置
き換えて計算する。例えば、ｗｉｔｔｅｎ−ｂｅｌｌ法
（Ｐ．Ｐｌａｃｅｗａｙ，Ｒ．Ｓｃｈｗａｒｔｚ，Ｐ．
ＦｕｎｇａｎｄＬ．Ｎｇｕｙｅｎ．ＴｈｅＥｓｔｉｍａ
ｔｉｏｎｏｆＰｏｗｅｒｆｕｌＬｎａｇｕａｇｅ
ＭｏｄｅｌｓｆｒｏｍＳｍａｌｌａｎｄＬａ
ｒｇｅＣｏｒｐｏｒａ．ＩｎＰｏｒｃ．ｏｆＩＣ
ＡＳＳＰ，Ｖｏｌ．ＩＩ，ｐｐ．３３−３６，１９９
３．）の場合は、

【００６２】

【数９】

【００６３】であるが、本実施形態では、

【００６４】

【数１０】

【００６５】

【外８】

【００６６】また、Ｇｏｏｄ−Ｔｕｒｉｎｇ法（Ｓ．
Ｍ．Ｋａｔｚ．Ｅｓｔｉｍａｔｉｏｎｏｆｐｒｏｂａ
ｂｉｌｉｔｉｅｓｆｒｏｍｓｐａｒｓｅｄａｔａ
ｆｏｒｌａｎｇｕａｇｅｍｏｄｅｌｃｏｍｐｏ
ｎｅｎｔｏｆａｓｐｅｅｃｈｒｅｃｏｇｎｉｚ
ｅｒ．ＩＥＥＥＴｒａｎｓ．ＡＳＳＰ，Ｖｏｌ．３５，
ｐｐ．４００−４０１，１９８７）では、長さｎ＋１の
頻度情報

【００６７】

【外９】

【００６８】から求めたＧｏｏｄ−Ｔｕｒｉｎｇ推定値

【００６９】

【外１０】

【００７０】を使って、（従来法と同じ）次の式にな
る。

【００７１】

【数１１】

【００７２】（ｂ）ｎ−ｇｒａｍ確率計算長さｎの頻度

【００７３】

【外１１】

【００７４】をそのまま用いる。

【００７５】同時に計算に用いる長さｎ−１の頻度に
は、再帰的に、長さｎ−１のコンテキスト頻度

【００７６】

【外１２】

【００７７】を用いる。

【００７８】（計算例）ｔｒｉ−ｇｒａｍの場合バックオフスムージングによるｔｒｉ−ｇｒａｍは、次
の式で計算される。

【００７９】

【数１２】

【００８０】従来法では、・式（２）の中でｔｒｉ−ｇｒａｍ頻度Ｃ（w_i，w_j，
w_k）とｂｉ−ｇｒａｍ頻度Ｃ（w_i，w_j）が、・式（３）の中でｂｉ−ｇｒａｍ頻度Ｃ（w_i，w_j）とｕ
ｎｉ−ｇｒａｍ頻度Ｃ（w_i）が、・式（４）の中でｕｎｉ−ｇｒａｍ頻度Ｃ（w_i）が、そ
れぞれ計算に使用される。

【００８１】本実施形態の言語処理方法では、・式（２）の中でｔｒｉ−ｇｒａｍ頻度Ｃ（w_i，w_j，
w_k）とそのコンテキスト頻度Ｃ_c（w_i，w_j）が、・式（３）の中でｂｉ−ｇｒａｍ頻度Ｃ（w_i，w_j）とそ
のコンテキスト頻度Ｃ_c（w_i）が、・式（４）の中でｕｎｉ−ｇｒａｍ頻度Ｃ（w_i）が、そ
れぞれ計算に使用される。

【００８２】（応用）部分的な頻度情報を用いること
で、既存のＮ−ｇｒａｍモデルを簡単に改善することが
可能になる。例えば、ｔｒｉ−ｇｒａｍモデルにおい
て、ある単語w_oを優先的に認識したい場合、元の頻度情
報Cに部分頻度情報を加えた、次のような頻度情報C’か
ら確率を学習する。

【００８３】

【数１３】

【００８４】すなわち、w_oを予測する確率のための頻度
のみβ倍し、他の頻度はそのままとする。

【００８５】同様の方法で、ある単語列w₁w₂...w_iを優
先したり、単語列の集合（単語ネットワーク）を優先す
るように、部分頻度情報を与えることができる。

【００８６】このような、特定の単語（列）の確率だけ
を操作することは、従来法のように学習データだけの変
更だけで対処するのは非常に難しいことに注意された
い。例えば、上記の単語w_oを優先する場合、学習データ
に単語w_oだけを加えた場合、単語w_oだけから構成される
文を学習してしまい、文中に現れる単語w_oだけを優先す
ることにはならない。そのためには文中にw_oを含む学習
データを用意する必要があるが、その場合もw_o以外の文
脈も学習されてしまうという問題がある上、w_o以外の文
脈を含む学習データを用意する必要がありコスト面でも
問題が生じる。提案法では、簡単に、目的の単語（列）
の確率だけを、直接制御することが可能である。

【００８７】（２−２）統計的手法によるモデルと記述
文法によるモデルの２種の異なる性質を持つモデルの学
習統合モデルのうち、ネットワーク文法を表す部分では
二値的な制約を、それ以外の部分では通常のＮ−ｇｒａ
ｍの性質を持ったモデルを学習するため、各部分に応じ
て異なる計算方法を適用してモデルを作成する。

【００８８】統合モデルの語彙W_Aのうち、開始単語を除
くネットワーク文法中の単語w_n∈W_G _m∪W_Gfを予測する確
率P_A（タイプＡ）と、Ｎ−ｇｒａｍ内の単語とネットワ
ーク開始単語wj∈W_U∪W_Gsを予測する確率P_B（タイプ
Ｂ）で、異なるバックオフスムージングの計算を行う。

【００８９】タイプＡの確率

【００９０】

【外１３】

【００９１】は、ｕｎｉ−ｇｒａｍへのバックオフを行
なわないで求める。すなわち、式１（数７）の再帰式の
うち、ｂｉ−ｇｒａｍ確率を計算する式を次のように計
算する。

【００９２】

【数１４】

【００９３】ここでディスカウント係数

【００９４】

【外１４】

【００９５】は、再配分を行わないで

【００９６】

【数１５】

【００９７】となるように決める。もっとも簡単なもの
は、

【００９８】

【外１５】

【００９９】である。この時、ｂｉ−ｇｒａｍのコンテ
キストを構成する単語は＠w_i∈W_Gs∪W_Gmとなっている点
に注意されたい。

【０１００】タイプＢの確率

【０１０１】

【外１６】

【０１０２】は、普通にバックオフスムージングを行な
って求める。ただし、ｕｎｉ−ｇｒａｍ確率のディスカ
ウントの際、W_U∪W_Gsを全単語集合とみなしてｕｎｉ−
ｇｒａｍの再配分を行なうことに注意する。

【０１０３】本実施形態の言語処理方法により学習した
モデルの持つ性質以上の方法で作成した統合言語モデル
は、例えばＡＲＰＡ形式などの、従来のＮ−ｇｒａｍモ
デルと同じフォーマットで表現できる。そのため、Ｎ−
ｇｒａｍを言語モデルとして利用する既存の音声認識デ
コーダでそのまま利用できる。そして以下に示すよう
に、Ｎ−ｇｒａｍとネットワーク文法の両方の性質を併
せ持ったモデルとして利用できる。

【０１０４】・Ｎ−ｇｒａｍからネットワーク文法内部
の単語を予測する確率は必ず０となる。開始単語を除く
Ｎｅｔwoｒｋ内単語＠w_k∈W_Gm∪W_Gfの予測モデルのｕｎ
ｉ−ｇｒａｍは０となる。Ｎｅｔｗｏｒｋ内単語で、か
つＮ−ｇｒａｍ（Ｎ＞０）確率の存在する（有向弧の存
在する）単語からのみ予測可能となる。Ｎ−ｇｒａｍ内
単語wi∈W_UからのＮ−ｇｒａｍ確率は、Ｎ−ｇｒａｍ
（Ｎ＞０）が存在しないのでｕｎｉ−ｇｒａｍにバック
オフされるが、

【０１０５】

【数１６】

【０１０６】となり、wjから＠w_kへの遷移は生じない。

【０１０７】・ネットワーク文法内部からＮ−ｇｒａｍ
単語を予測する確率は必ず０となる。終了単語を除くネ
ットワーク内単語＠w_i∈W_Gs∪W_Gmに対し、ｂｉ−ｇｒａ
ｍ確率のα（＠w_i）＝０となる。ネットワーク内単語＠
w_iからＮ−ｇｒａｍ内単語w_jへの頻度C（＠w_i，wj）は
必ず０なので、

【０１０８】

【数１７】

【０１０９】したがって、＠w_iからw_jへの遷移は生じな
い。

【０１１０】・ネットワーク文法の開始単語／終了単語
ではＮ−ｇｒａｍとの連接が可能。Ｎ−ｇｒａｍ内単語
からネットワーク開始単語、およびネットワーク終了単
語からＮ−ｇｒａｍ内単語は、通常のＮ−ｇｒａｍモデ
ルと同様のスムージングされた確率値が割り当てられ
る。したがって、全てのＮ−ｇｒａｍ内単語からネット
ワーク文法開始単語への遷移、文法終了単語から全ての
Ｎ−ｇｒａｍ内単語への遷移が可能である。

【０１１１】・Ｎ−ｇｒａｍ内の単語列だけから成る文
に割り当てられる確率値の順序関係は保存される。Ｎ−
ｇｒａｍ内単語列に与える頻度は、元のＮ−ｇｒａｍモ
デル学習用の頻度と同じである。

【０１１２】・同じ単語列では、ネットワーク文法を通
る単語列が優先される。ネットワーク文法内単語列を含
む文には、それに対応する（同じ音素列を持つ）Ｎ−ｇ
ｒａｍ内単語だけで構成された文が必ず存在する。既存
の認識デコーダは、文の確率をパスの最大確率で近似す
る方法（ビタビ・アルゴリズム）が普通であるので、認
識時には両者の確率値を比較し、高い方が採用されるこ
とになる。両者のｂｉ−ｇｒａｍ確率は同じ頻度から学
習されているが、ネットワーク文法内単語列は、連接し
ない単語（特にネットワーク外の単語）を予測するため
の確率配分がないこと、バックオフを行わないで学習し
たモデルであること、から相対的に高い確率値が割り当
てられることになる。また、ネットワーク文法開始単語
への単語列頻度をγ（およびδ）で調節することで、Ｎ
−ｇｒａｍに対する優先性をコントロールすることがで
きる。

【０１１３】（３）本実施形態の言語モデルを用いた効
率的な音声認識処理方法本実施形態の言語モデルの性質を利用して音声認識器の
計算方法を工夫することで、効率的な音声認識処理が可
能である。大語彙音声認識器では、音声入力順（あるい
は逆順）に単語仮説との照合を逐次的に行う。ある単語
仮説との照合が終了すると、その次の単語仮説を生成し
て、再び照合を開始する（図５参照）。Ｎ−ｇｒａｍ言
語モデルでは、すべての単語間で連接可能であるから、
全単語を仮説として生成するのが普通である。

【０１１４】この時、提案法の言語モデルでは、ネット
ワーク文法内とＮ−ｇｒａｍ内との間で互いの予測確率
が０となる事実を利用して、仮説の生成を抑制する（図
６）。

【０１１５】照合が完了した単語仮説wiが、終了単語を
除くＮｅｔｗｏｒｋ内単語w_i∈W_Gs∪W_Gmである場合、次
の単語は、w_j∈W_Gm∪W_Gfである（それ以外の単語への言
語モデル確率は０である）。よって、w_j∈W_Gm∪W_Gfだけ
を単語仮説として生成すれば良い。

【０１１６】照合が完了した単語仮説w_iが、w_i∈W_U∪W
_Gfである場合、次の単語は、w_j∈W_U∪W_Gsである（それ
以外の単語への言語モデル確率は０である）。よって、
w_j∈W _U∪W_Gsだけを単語仮説として生成すれば良い。

【０１１７】しかるに、提案言語モデルの特殊な性質を
利用すれば、認識した単語の属する集合に応じて展開す
る単語集合を限定することで、単語仮説の数を従来法よ
り減少させることが可能であり、結果として効率の良い
音声認識処理が可能となる。

【０１１８】質問応答（ＱＡ）（佐々木裕，磯崎秀樹，
平博順，廣田啓一，賀沢秀人，平尾努，中島浩之，加藤
恒昭．質問応答システムの比較と評価．信学技報，ＮＬ
Ｃ２０００−２４，ｐｐ．１７−２４，２０００）は、
１９９９年のＴＲＥＣ−８にタスクとして採択されて以
来、次世代の情報検索技術を目指した評価タスクとして
注目されている。従来の情報検索タスクも音声入力に対
応するように拡張されてきたが（伊藤克亘，秋葉友良，
藤井敦，石川徹也．音声入力型テキスト検索システムの
ための音声認識．日本音響学会講演論文集，ｐｐ．１９
３−１９４，Ｏｃｔ．２００１）、質問応答では入力が
質問文というより話し言葉に近い表現が使用されること
から、より音声入力に適したタスクであると考えられ
る。

【０１１９】質問応答システムへの入力となる検索者の
発話は、質問文という定型的な表現となる一方、ＱＡの
検索対象に関する多様な表現が使用される。そのため音
声認識部では、これら性質の異なる２種の表現を同時に
扱う言語モデルが必要となる。例として、ＱＡタスクの
入力には、答えを得るための次のような質問文が想定さ
れる。

【０１２０】この入力中、文末の「何という名前でした
か」の部分は質問文に典型的に現れるパターンであり、
ネットワーク文法でモデル化することができる。一方、
「１９７６年に火星に軟着陸した探査機は」の部分は汎
用のＮ−ｇｒａｍモデルで扱うことができる。

【０１２１】ＱＡタスクの質問文を想定した定型表現を
受理可能なネットワーク文法（図７）を作成し、新聞記
事１１１か月分から学習した２万語ｂｉ−ｇｒａｍおよ
びｔｒｉ−ｇｒａｍと統合、ネットワーク文法統合モデ
ル（ｎｅｔ）を作成した。γは２とした。また比較のた
め、新聞記事のみから学習したＮ−ｇｒａｍモデル（ｂ
ａｓｅ）を作成した。スムージング手法は、共にWitten
-Bell法を用いた。

【０１２２】評価データには、新聞記事１００文（Ｎ
Ｐ）とＱＡタスク用質問文５０文（ＱＡ）を、男性２人
女性２人によって読み上げた音声データを用いた。作成
したネットワーク文法は、２９単語と比較的小規模のも
のであるが、質問文のうち７２％の３６文（ＱＡ’）
が、この文法のモデル化する表現を含んでいた。

【０１２３】デコーダには大語彙音声認識デコーダｊｕ
ｌｉｕｓ（鹿野清宏，伊藤克亘，河原達也，武田一哉，
山本幹雄（編）．音声認識システム．オーム社，２００
１）のバージョン３．２を使用し、音響モデルには２０
００状態１６混合性別非依存ｔｒｉｐｈｏｎｅを、言語
モデル重みは新聞記事Ｎ−ｇｒａｍでの最適値を用い
た。探索アルゴリズムの変更は行っていない。

【０１２４】実験結果を表１に示す。新聞記事の認識精
度を下げること無く、質問文の精度が向上することを確
認した。

【０１２５】

【表１】

【０１２６】ＣＯＲ＝単語正解率（％），ＡＣＣ＝単語
正解精度（％）

【０１２７】ＡＰＰＥＮＤＩＸネットワーク文法のｂｉ−ｇｒａｍモデル表現単語ｂｉ
−ｇｒａｍは、単語を頂点とし、全ての単語間の有向弧
に確率が付与された、重み付き（ループのある）完全有
向グラフと見ることができる。この時、有向弧のｂｉ−
ｇｒａｍ確率が０である場合、その単語連続があり得な
いことを表すため、弧が存在しないことと等価である。
したがって、単語を頂点として表現した任意のネットワ
ーク文法から、有向弧が存在する場合は０でない確率値
を、有向弧が存在しない場合は確率０を割り当て、単語
ｂｉ−ｇｒａｍで表現することが可能となる。もしネッ
トワーク文法中で、ある単語から入出力する有向弧を、
文脈に応じて変えたいのであれば、文脈の数だけ同じ単
語を表す頂点を複製して表現すればよい。

【０１２８】このような、単語ｂｉ−ｇｒａｍで表現さ
れたネットワーク文法は、例文の集合から簡単に獲得可
能である。例えば、年月日を尋ねる発話を表した以下の
例文から文法を獲得することを考える。

【０１２９】何／年／です／か何／年／何／月／です／か何／月／何／日／です／かこの３文から獲得できる連接可能な単語対は以下の通り
である。Ａ＝｛（何，年）（何，月）（何，日）（年，何）
（月，何）（年，です）（月，です）（日，です）（で
す，か）｝

【０１３０】この単語対だけが連接可能であると考える
と、ネットワーク文法（G₁）は４つ組（W_a,W_s,W_f,A）で
表現できる。ここで、W_a,W_s,W_fは、それぞれ、全単語集
合、開始単語集合、終了単語集合であり、 W_a＝｛何年月日ですか｝， W_s＝｛何｝，Ｗｆ＝｛か｝となる。G₁のグラフ表現を図８左に示す。

【０１３１】この時、ネットワーク文法は、以下の制約
を満たすｂｉ−ｇｒａｍとして表現できる。

【０１３２】

【数１８】

【０１３３】文法G₁は「何年何年ですか」「何月何年で
すか」「何年何日ですか」のような、意図されない言語
表現までモデル化してしまう。そこで、文法作成者の持
つ言語知識を利用して、好ましくない表現を排除し、図
８右のようなネットワーク文法G₂に修正することを考え
る。新たに導入したノード（文脈）毎に、新たな単語記
号を導入して、次のような文法

【０１３４】

【外１７】

【０１３５】として表現する。

【０１３６】

【数１９】

【０１３７】文法G₂は、「何年何月ですか」「何月何日
ですか」のような、作成者の意図する表現だけを受理
し、それ以外を排除する。このように、ネットワーク文
法では、人の持つ言語知識を利用して、Ｎ−ｇｒａｍで
は獲得不可能な、単語間の長距離の依存関係も表現する
ことが可能である。

【０１３８】（本実施形態の言語処理装置）上述の言語
処理方法を適用した言語処理装置について、説明する。
言語処理装置のハードウェアは市販のパソコン等、周知
の情報処理機能を有するものを使用することができるの
で、ハードウェア構成については詳細な説明を省略す
る。

【０１３９】言語処理装置に搭載するソフトウェアの構
成を図９に示す。図９において、１０は音声認識プログ
ラムであり、マイクロホンから入力された音声信号をそ
の音声信号の示す文字列に変換して表示器等に出力す
る。音声認識プログラムの中に本発明に係わる言語処理
方法を適用したプログラムが組み込まれている。このプ
ログラムの内容については、図１２を使用して説明す
る。

【０１４０】１１は、音声認識プログラム１０で使用す
る確率表である。この確率表は複数組の文字列およびそ
の連鎖の確率の値および該確率の値に対する当該文字列
の組数に応じた補正係数の値が記載されており、経路の
接続を禁止する文字列の組み合わせについては、その組
み合わせの内容に応じて前記確率の値または補正係数の
値を０（ゼロ）となっている。このようにすることで、
経路の接続を禁止する必要のある単語の間の確率を０と
することが可能となる。

【０１４１】１２は音声の特徴を文字列に変換するため
に使用する単語辞書である。２０は、確率表１１を作成
するためのプログラムである。

【０１４２】確率表１１、いわゆる、言語モデルの記載
の内容を図１０（Ａ）〜（Ｄ）に示す。確率表は、３組
の文字列（以下、単に単語と略記する。ただし単語の概
念には１文字の文字列も含まれる）用の確率表（図１０
（Ａ）、２組の単語用の確率表（図１０（Ｂ））、１組
の単語用の確率表が用意されている。１組の単語用の確
率表は統計的確率モデル用（識別符号が付加されていな
い文字列用、図１０（Ｃ））と本発明で言う予め定めら
れた並びの文字列の中に含まれる文字列のみを記載し
た、いわゆる記述文法の確率のモデル用（図１０
（Ｄ））の２種類がある。予め定められた並びの文字
列、すなわち記述文法に沿った文字列を検出すべき言語
パターンと呼ぶことにする。

【０１４３】３組および２組の単語用の確率表に記載す
る文字列には、検出すべき言語パターンの中に含まれる
単語を許容している。検出すべき言語パターンの中に含
まれる単語についてはそのことを示す＠の識別符号が付
されている。＠はさらに他の単語が接続可能な位置をも
示す。単語の前に＠が付されている場合には、その単語
の前に＠が後に付された他の単語が接続可能であること
を示す。単語の後に＠が付されている場合にはその単語
の後に＠が前に付された他の単語が接続可能であること
を示す。言語パターンの先頭単語は、その単語の後のみ
に＠が付され、言語パターン末尾単語はその単語の前に
のみ＠が付される。

【０１４４】本実施形態では、従来、使用されている統
計的言語モデル（確率表の）の中に検出すべき言語パタ
ーンの単語の組み合わせを混在させ、これらの単語につ
いては識別符号を付して、統計的言語モデルの単語と区
別可能としたことに新規特徴がある。

【０１４５】図１０（Ｂ）〜図１０（Ｄ）に示す確率表
には、単語と確率の値と、補正係数の値とが記載され
る。補正係数は上述の言語処理方法の説明の中の正規化
係数のことである。補正係数を設けること自体は従来か
ら周知であるが、１組用の単語の確率表（図１０
（Ｄ））を設けることおよびその確率の値および補正係
数の値を、他の単語との組み合わせ内容に応じて補正係
数または確率の値を０（ゼロ）とすることに新規特徴が
ある。より具体的には、＠単語（言語パターンの末尾単
語）については確率の値が０に設定されている。＠単語
＠（言語パターン途中の単語）については補正係数およ
び確率の値が０に設定されている。単語＠（言語パター
ンの先頭単語）については補正係数が０に設定されてい
る。このような値を設定することにより、言語処理おけ
る処理対象の単語の連鎖確率は、＠単語＠で接続される
単語の連鎖の確率は正の値を持ち、＠を有さない単語と
＠単語＠との連鎖の確率の値は０となる。これにより、
検出すべき言語パターンの中の先頭および末尾の単語を
除く、単語、統計的確率モデルの単語とのネットワーク
上の経路の接続が禁止される。具体的な言語処理プロセ
スについては後で説明する。

【０１４６】単語辞書１２の一例を図１１に示す。単語
辞書１２には、音声信号から抽出される音声の特徴とそ
の特徴に対応する文字列が記載されている。上記検出す
べき言語パターンに含まれる単語については、上述した
＠の識別符号がやはり付されている。

【０１４７】音声の特徴は、音声信号の解析結果である
音響特徴を使用してもよいし、音響特徴から得られる音
韻ラベルを使用してもよい。いずれの特徴を使用するか
は音声認識方法の種類に応じて適宜定めればよい。

【０１４８】以上述べた確率表１１および単語辞書１２
を使用する言語処理を次に説明する。

【０１４９】（確率表の作成）ユーザは、パソコンに搭
載された確率表作成プログラム２０を起動して次の処理
をパソコンのＣＰＵに実行させる。

【０１５０】（処理１）新聞等の文書ファイルを入力す
る。文書ファイルの入力は外部記憶装置（フロッピー
（登録商標）ディスク、ハードディスク、CD-ROM等）か
らの読み取り、通信による他の装置からの転送、キーボ
ードによる文字入力のいずれの入力方法を使用してもよ
い。

【０１５１】（処理２）検出すべき言語パターン、たと
えば、図７で示される言語パターンを構成する文字列を
キーボードから、あるいは言語パターン記録した外部記
憶装置や通信による他の装置からの転送によって、指示
する。処理２で指定された単語については、言語パター
ンの位置に基づいて＠の識別符号を付した単語を作成す
る。

【０１５２】（処理３）処理１で入力された文書の中の
隣接する３つの単語の出現頻度、２つの出現頻度、１つ
の単語の出現頻度を計数する。

【０１５３】（処理４）出現頻度から予め定めた計算式
により確率の値および補正係数（１および２単語用）を
取得する。

【０１５４】（処理５）取得された確率の値および補正
係数および組み合わせの単語を使用して図１０（Ａ）〜
（Ｄ）の確率表をパソコンのハードディスク上に作成す
る。

【０１５５】（音声認識処理）以下では、音声認識のも
っとも純粋な実施形態として、（１）音響信号から音韻
ラベル候補を抽出、（２）音韻ラベル候補から単語列候
補（単語ネットワーク）を作成、（３）単語ネットワー
クから言語処理により認識結果（単語列）を作成、の順
に処理を進めるものとして説明を行う。実際は、このよ
うな純粋な実施形態は非常に処理効率が悪いので、
（１）（２）（３）の処理を同時・並行・混合して認識
を行う様々な効率化手法（鹿野清宏、伊藤克亘、河原達
也、武田一哉、山本幹雄編著、音声認識システム、オ
ーム社、２００１）が実施される。それらの様々な効率
化のための変形手法が特許請求の範囲の記載の示す技術
に基づく限り、その変形は本発明の技術範囲内となる。

【０１５６】音声認識を行う場合ユーザはパソコンに搭
載された音声認識プログラム１０をパソコンのＣＰＵに
実行させる。音声認識プログラム１０は従来と同様の処
理を行って、マイクロホンから入力された音声を音声特
徴に変換する。たとえば、「１９７６年に火星に軟着陸
した探査機は何という名前でしたか」という音声が入力
されたとする。ここで、「何という名前でしたか」が予
めパソコンに登録されている言語パターンであり、確率
表１１および単語辞書１２にはこの言語パターンに含ま
れる単語が＠の識別符号を付して登録されているものと
する。

【０１５７】音声認識プログラム10により変換される音
声特徴を音素ラベルとすると、上記音声は"silB s e N
ky u: hy a k u n a n a j u: r o k u n e N n i k a
s ei n i n a N ch a k u r i k u sh i t a t a N s a
k i h a n a N t o i u na m a e d e sh i t a k a s
ilE"のような音素ラベル列候補に変換される。silB, si
lEは、発話区間の開始、終了の無音を表す、特別な音素
ラベルである。このとき、音素照合処理の曖昧性のた
め、音響的に類似した非常に数多くの候補が生成され
る。例えば、上記候補以外にも"silB s e i ky u: ch
u: n o ... n a ma e n i sh i t a k a silE"のような
候補が得られる。各候補には、得られた音素ラベル列と
入力音声信号とがどれだけ照合しているかを表す音響モ
デル確率が付与されている。

【０１５８】上記の音素ラベル列候補は、単語辞書を参
照し、すべての音素ラベルを洩れなく単語へ変換するこ
とにより、単語列へと変換される。例えば、上記最初の
音素ラベル列は、「<s> 千九百七十六年に火星
に軟着陸した探査機は何@ @という@ @名前@ @でし
@ @た@ @か </s>」のように変換される。ただし、記号"
<s>"および"</s>"は、それぞれ文頭、文末を表す特別な
単語記号である。このような変換をすべての音素ラベル
列候補に対して実行することにより、数多くの単語列候
補が生成される。このような複数の単語列候補は、単語
の共通部分を共有してネットワークの形状で表現するこ
とにより、図１３のような単語ネットワークで表現する
ことができる。すなわち、単語ネットワーク上の一つの
経路が、上記一つの単語列候補に相当する。音声認識の
目的は、上記音響モデル確率と以下に述べる言語モデル
確率の観点から、尤も確率の大きな経路を見つけ、その
文字列を認識結果として出力することにある。

【０１５９】なお、音素ラベル列から単語辞書を参照す
る際、予め登録してある言語パターン内の単語は図１２
のように辞書の記載された単語に@が付されている。そ
のため、単語ネットワーク上では、予め登録してある言
語パターン内の単語は@が付されている点に留意された
い。

【０１６０】このようなネットワークが構築されると、
次に音声認識プログラム中の図12の処理プログラムが実
行されて、ネットワーク上の経路の累積確率値(言語モ
デル確率)が取得される。以下では、トライグラム（ｔ
ｒｉ−ｇｒａｍ）の場合を説明する。

【０１６１】トライグラムの場合、経路上のすべての3
単語連鎖の確率値を確率表11から取得する。例えば、上
記単語列の例では、(_,_,<s>)(_,<s>,千)(<s>,千,九百)
(千,九百,七十) ... (@でし@,@た@,@か)(@た@,@か,</s
>)の3単語連鎖から各確率値を求め、すべての値の積を
計算する。ただし、"_"は文頭の確率値を計算するため
の(確率表や辞書には記載されていない)ダミーの単語記
号である。確率値は、表１１を参照し、以下に述べるよ
うな従来のバックオフ言語モデルの処理方法と全く同じ
方法で処理できる。

【０１６２】３単語連鎖(w1,w2,w3)から表１１を参照
し、確率値を求める手順は以下の通りである（図１２を
参照）。取得した３つの単語の組合せが単語辞書１１の
中の３単語用確率表(図１０（Ａ））で最初に参照され
る。３単語用確率表に3つの単語の組合せが記載されて
いる場合にはその確率の値を取得する。（ステップＳ３
０→Ｓ３５）

【０１６３】３単語用確率表に上記3つの単語の組合せ
が記載されていない場合には、次にまず３単語の前２単
語の組合せ(w1,w2)から補正係数の値を２単語用確率表
（図１０（Ｂ））から取得する。この補正係数の値と以
降の処理で得られた確率値と掛け合わせた値を３単語の
確率値とする。

【０１６４】次に、３単語の後ろ２単語の組合せ(w2,w
3)が２単語用確率表（図１０（Ｂ））で参照される。２
単語の組み合わせが記載されている場合にはその確率の
値を取得する。(そして、前期の補正係数と掛け合わせ
た値を確率値とする。）（ステップＳ５０→Ｓ５５）

【０１６５】２単語用確率表に前記２つの単語の組合せ
が記載されていない場合には、次に２単語の前１単語
（最初の３単語の中央の単語)から補正係数の値を１単
語確率表(図１０（Ｃ）および（Ｄ））から取得する。
この補正係数の値を(前期の補正係数に加えて)さらに以
降の処理で得られた確率値と掛け合わせた値を３単語の
確率値とする。この時単語の後ろに＠のついた単語
（「単語＠」および「＠単語＠」）の補正値は、図１０
に示した確率表を用いることにより、０となる。

【０１６６】最後に、３単語の最後の単語（ｗ３）が１
単語用確率表（図１０（Ｃ）および（Ｄ））で参照され
る。記載されている場合には、その確率の値を取得す
る。（先に求めた２つの補正値を掛け合わせる。）（ス
テップＳ７０→Ｓ７５）この時、単語の前に＠のついた
単語（「＠単語」および「＠単語＠」）の確率値は、図
１０に示した確率表を用いることにより、０となる。記
載がない場合は、あらかじめ計算した定数Ｐ０を確率値
として取得する。（ステップＳ７０→Ｓ８０）

【０１６７】このようにしてネットワーク上のすべての
経路について連鎖の確率の値および累積値が計算される
と、最も累積値の値が高い経路上の単語列が音声認識結
果として決定される。

【０１６８】以上説明したように、本実施形態では、図
１０に示した確率表を用いることにより、予め登録した
言語パターンの中の途中の単語(@単語@)については1単
語用の確率表の確率の値および補正係数の値を０に設定
しておくことにより、この単語への他の単語からの経路
およびこの単語から他の単語への経路の接続が、３単語
確率表か２単語確率表に記載されていない場合、禁止さ
れた扱いとなる。言語パターンの先頭単語(単語@)につ
いては１単語用の確率表の補正係数の値を０に設定して
おくことにより、この単語から他の単語への経路の接続
が、３単語確率表か２単語確率表に記載されていない場
合、禁止された扱いとなる。言語パターンの末尾単語(@
単語)については１単語用の確率表の確率の値を０に設
定しておくことにより、この単語への他の単語からの経
路の接続が、３単語確率表か２単語確率表に記載されて
いない場合、禁止された扱いとなる。これにより、予め
登録した言語パターンと同じ言語パターンが音声の中に
含まれている場合、正しくその言語パターンを検出する
ことができる。

【０１６９】以上述べた実施形態の他に次の形態を実施
できる。１）上述の言語処理方法は音声認識処理に適用される例
であったが，ＯＣＲで読み取った文字画像列を文字コー
ドに変換する文字認識など、文字の特徴を文字（コー
ド）に変換する種々の言語処理に本発明を適用すること
ができる。２）上述の形態では、識別符号を有する１単語用確率表
の確率の値または補正係数の値を０に設定することで、
予め登録した言語パターンの先頭単語、途中の単語、最
後尾の単語に対する他の単語からの経路の接続を制限し
ているが、＠（識別符号）の付加位置に基づいて経路の
接続を制限してもよい。この場合にはネットワークの構
築時に、単語辞書から得られる音声特徴の変換候補（単
語）に識別符号が付してあるか否かを判定し、付してあ
る場合には識別符号の位置に応じて他の単語の接続との
接続を禁止してもよい。これにより登録の言語パターン
の先頭語は他の単語からの経路の接続が許容され、末尾
語は他の単語への経路の接続が許容される。３）音声認識結果を表示や印刷出力する際に登録された
言語パターンが含まれている場合には、その言語パター
ンを報知することができる。この場合、言語パターンに
は＠符号が付加されているので＠符号をそのまま出力し
てもよいし、＠符号を除去して、アンダーライン、異な
る色、ボールド体等で上記言語パターンの単語を報知す
ればよい。また、識別符号には他の記号を使用してもよ
い。

【０１７０】上述の実施形態以外にも種々の変形が考え
られる。しかしながら、それらの変形が特許請求の範囲
の記載の示す技術思想に基づく限り、その変形は本発明
の技術範囲内となる。

【０１７１】

【発明の効果】以上、説明したように、本発明によれ
ば、予め定めた並びの文字列（実施形態の登録の言語パ
ターン）がネットワークに変換候補として現れる場合に
は、これらの文字列の先頭および末尾を除いた途中の文
字列と登録の言語パターン以外の単語文字列との間の経
路の接続が禁止される。これにより、従来の統計的言語
モデルの言語処理を行っても、記述文法的な確率モデル
の言語処理の併用が可能となる。また、従来の統計的言
語モデルのみの言語処理に比べると、登録の言語処理パ
ターンに対する部分の変換処理の精度が著しく向上す
る。

【０１７２】また、予め定めた並びの文字列については
識別符号が付されるので、この識別符号を使用して、特
徴から文字列への変換結果の中で報知が可能となる。

【図面の簡単な説明】

【図１】本発明実施形態の言語処理方法を示す説明図で
ある。

【図２】従来のＮ−ｇｒａｍモデル学習手順を示す説明
図である。

【図３】本発明実施形態のＮ−ｇｒａｍモデル学習手順
を示す説明図である。

【図４】本発明実施形態の学習を説明するための説明図
である。

【図５】仮説の生成を説明するための説明図である。

【図６】仮説の生成を説明するための説明図である。

【図７】ＱＡタスク定型表現の文法を示す説明図であ
る。

【図８】ネットワーク文法を示す説明図である。

【図９】言語処理装置のソフトウェア構成を示すブロッ
ク図である。

【図１０】確率表の内容を示す説明図である。

【図１１】単語辞書の内容を示す説明図である。

【図１２】音声認識プログラム内の言語処理のためのプ
ログラムの内容を示すフローチャートである。

【図１３】構築されるネットワークを模式的に示す説明
図である。

【符号の説明】

１０音声認識プログラム１１確率表１２単語辞書２０確率表作成プログラム

───────────────────────────────────────────────────── フロントページの続き (72)発明者石川徹也千葉県松戸市西馬橋４−223 Ｆターム(参考） 5B091 AA15 CA02 CB12 CC02 EA08 5D015 BB01 HH11

Claims

【特許請求の範囲】

【請求項１】複数組の文字列の各々の特徴を該特徴を
表す文字列に変換するために、前記複数組の文字列の各
々についての変換候補をネットワークの形態で接続し、
該ネットワーク上の同一経路上で隣接する変換候補の連
鎖の確率の値を求め、前記ネットワークの各経路の確率
の値の中で、最も値が高い経路上の変換候補の列を前記
複数組の文字列の特徴に対する変換結果とする言語処理
装置において、予め定められた並びの複数組の文字列が前記ネットワー
ク上の経路に現れるか否かを判定する判定手段と、肯定判定が得られた場合には、予め定められた並びの複
数組の文字列以外の変換候補から予め定められた並びの
複数組の文字列の中の先頭以外の変換候補の文字列への
経路の接続、および予め定められた並びの複数組の文字
列の中の末尾以外の変換候補の文字列から予め定められ
た並びの複数組の文字列以外の変換候補への経路の接
続、を禁止する制御手段とを具えたことを特徴とする言
語処理装置。
【請求項２】請求項１に記載の言語処理装置におい
て、複数組の文字列およびその連鎖の確率の値および該
確率の値に対する当該文字列の組数に応じた補正係数の
値を記載した確率表を有し、経路の接続を禁止する文字
列の組み合わせについては、その組み合わせの内容に応
じて前記確率の値または補正係数の値を０（ゼロ）とな
すことを特徴とする言語処理装置。
【請求項３】請求項２に記載の言語処理装置におい
て、文字列の特徴およびその特徴に対応する変換候補の
文字列を記載した単語辞書をさらに有し、該単語辞書に
記載する文字列の中に、前記予め定めた並びの文字列の
中に含まれる文字列を識別符号を付して含めておくこと
を特徴とする言語処理装置。
【請求項４】請求項２に記載の言語処理装置におい
て、文書を入力する手段と、当該入力された文書の中に
含まれる文字列をその種類ごとに計数して、前記確率表
を作成する手段をさらに具えたことを特徴とする言語処
理装置。
【請求項５】請求項４に記載の言語処理装置におい
て、前記予め定められた並びの複数組の文字列を指定す
る手段をさらに具え、当該指定された文字列の組み合わ
せについては前記確率表中の各文字列に請求項３に記載
の識別符号と同じ識別符号が付されることを特徴とする
言語処理装置。
【請求項６】複数組の文字列の各々の特徴を該特徴を
表す文字列に変換するために、言語処理装置により、前
記複数組の文字列の各々についての変換候補をネットワ
ークの形態で接続し、該ネットワーク上の同一経路上で
隣接する変換候補の連鎖の確率の値を求め、前記ネット
ワークの各経路の確率の値の中で、最も値が高い経路上
の変換候補の列を前記複数組の文字列の特徴に対する変
換結果とする言語処理方法において、前記言語処理装置
の実行処理ステップは、予め定められた並びの複数組の文字列が前記ネットワー
ク上の経路に現れるか否かを判定する判定ステップと、肯定判定が得られた場合には、予め定められた並びの複
数組の文字列以外の変換候補から予め定められた並びの
複数組の文字列の中の先頭以外の変換候補の文字列への
経路の接続、および予め定められた並びの複数組の文字
列の中の末尾以外の変換候補の文字列から予め定められ
た並びの複数組の文字列以外の変換候補への経路の接
続、を禁止する制御ステップとを具えたことを特徴とす
る言語処理方法。
【請求項７】請求項６に記載の言語処理方法おいて、
複数組の文字列およびその連鎖の確率の値および該確率
の値に対する当該文字列の組数に応じた補正係数の値を
記載した確率表を有し、経路の接続を禁止する文字列の
組み合わせについては、その組み合わせの内容に応じて
前記確率の値または補正係数の値を０（ゼロ）となすこ
とを特徴とする言語処理方法。
【請求項８】請求項７に記載の言語処理方法におい
て、前記言語処理装置は文字列の特徴およびその特徴に
対応する変換候補の文字列を記載した単語辞書をさらに
有し、該単語辞書に記載する文字列の中に、前記予め定
めた並びの文字列の中に含まれる文字列を識別符号を付
して含めておくことを特徴とする言語処理方法。
【請求項９】請求項７に記載の言語処理方法におい
て、文書を入力するステップと、当該入力された文書の
中に含まれる文字列をその種類ごとに計数して、前記確
率表を作成するステップをさらに具えたことを特徴とす
る言語処理方法。
【請求項１０】請求項９に記載の言語処理方法におい
て、前記予め定められた並びの複数組の文字列を指定す
るステップをさらに具え、当該指定された文字列の組み
合わせについては前記確率表中の各文字列に請求項８に
記載の識別符号と同じ識別符号が付されることを特徴と
する言語処理方法。