JP2007065029A

JP2007065029A - 構文・意味解析装置、音声認識装置、及び構文・意味解析プログラム

Info

Publication number: JP2007065029A
Application number: JP2005247449A
Authority: JP
Inventors: Toru Imai; 亨今井; Akio Kobayashi; 彰夫小林
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2005-08-29
Filing date: 2005-08-29
Publication date: 2007-03-15
Anticipated expiration: 2025-08-29
Also published as: JP4653598B2

Abstract

【課題】単語列に対して高精度な解析結果を取得する。
【解決手段】評価対象単語列に対する構文及び意味の解析を行う構文・意味解析装置において、文節内の品詞及び文節境界の生起確率である文節モデルを用いて、前記評価対象単語列の品詞・文節境界候補の探索を行い、構文スコアを算出する品詞・文節境界候補探索手段と、自立語の意味素性の文節間での依存確率である意味依存モデルを用いて、前記品詞・文節境界候補探索手段により得られる品詞・文節境界候補に対して各自立語の意味素性の文節間での依存構造の同定を行い、意味スコアを算出する意味依存構造同定手段と、前記構文スコア及び前記意味スコアに基づいて妥当性スコアを算出し、前記品詞・文節境界候補のうち、特定の妥当性スコア及び／又は特定の妥当性スコアの構文・意味解析結果を出力する解析スコア算出手段とを有することにより、上記課題を解決する。
【選択図】図１

Description

本発明は、構文・意味解析装置、音声認識装置、及び構文・意味解析プログラムに係り、特に単語列に対して高精度な解析結果を取得するための構文・意味解析装置、音声認識装置、及び構文・意味解析プログラムに関する。

従来より、単語列や音声等の解析（認識）技術において様々な手法が提案されている。（例えば、非特許文献１参照。）。非特許文献１は、文の構造を明らかにするための構文解析技術であるが、文脈自由文法で記述可能な範囲の言語を対象とすることが多く、話し言葉等の現実世界の複雑な言語では柔軟かつ簡易に解析することは困難となる。

また、非特許文献１には、文を構成する単語の意味関係を解析する手法についても示されているが、この手法の場合には表層と深層の意味の違いや多義語等の曖昧性が問題となり、話し言葉等の現実世界の複雑な言語を柔軟かつ簡易に解析することは困難となる。

更に、従来の構文・意味解析は、解析できるか否かのどちらかの結果しか出力しないため、構文的・意味的な妥当性を連続数値で評価することができない。また、音声認識の探索途中の単語列等、誤りを含む言語に対しては、解析処理が中断してしまうことがある。

また、従来の汎用的なディクテーションを目的とした数万単語規模の連続音声認識装置では、言語モデルとして単語連鎖の生起確率（以下、単語Ｎグラムモデルという）が一般に利用されている（例えば、非特許文献２参照。）。しかしながら、非特許文献２に示されている手法では、単語Ｎグラムモデルと効率的に組み合わせることの困難さから、文法や意味等の言語的な情報を単語列候補の評価に利用することは行われていない。

一方、語彙が比較的小さく、認識対象も限られた音声対話システム等の音声認識手法については、人手あるいは確率統計的に記述した小規模な文節係り受け規則等の構文規則や、人手で記述した単語クラスや特定ドメイン（用途）の用例による意味情報を利用して、構文的・意味的に妥当な音声認識結果を探索する手法が提案されている（例えば、特許文献１参照。）。
「自然言語処理」、長尾真編、岩波書店、ｐ．１３９，１９９、１９９６年「確率的言語モデル」、北研二著、東京大学出版会、ｐ．６０〜６２特開２０００−２２１９９１号公報

しかしながら、汎用的なディクテーションを目的とした数万単語規模の大語彙連続音声認識等では、上述したように文法や意味等の言語的な情報が利用されていないため、構文的・意味的に不適当な認識結果を出力することがある。

一方、語彙が比較的小さく、認識対象も限られた音声対話システム等の音声認識では、人手で構文規則や特定ドメインの意味情報を記述することが可能であるが、数万単語規模の大語彙連続音声認識では単語の組み合わせによる文節候補の数が膨大となるため、文節係り受け規則等の構文規則や意味情報を人手で記述して単語Ｎグラムモデル等と効率的に組み合わせることは困難であり、こうした手法はこれまでに提案されていなかった。

また、従来の構文・意味解析は、上述したように話し言葉等の現実世界の複雑な言語や、誤りを含む言語に対して何らかの解析結果を出力することができなかった。

本発明は、上述した問題点に鑑みなされたものであり、単語列に対して高精度な解析結果を取得するための構文・意味解析装置、音声認識装置、及び構文・意味解析プログラムを提供することを目的とする。

上記課題を解決するために、本件発明は、以下の特徴を有する課題を解決するための手段を採用している。

請求項１に記載された発明は、評価対象単語列に対する構文及び意味の解析を行う構文・意味解析装置において、文節内の品詞及び文節境界の生起確率である文節モデルを用いて、前記評価対象単語列の品詞・文節境界候補の探索を行い、構文スコアを算出する品詞・文節境界候補探索手段と、自立語の意味素性の文節間での依存確率である意味依存モデルを用いて、前記品詞・文節境界候補探索手段により得られる品詞・文節境界候補に対して各自立語の意味素性の文節間での依存構造の同定を行い、意味スコアを算出する意味依存構造同定手段と、前記構文スコア及び前記意味スコアに基づいて妥当性スコアを算出し、前記品詞・文節境界候補のうち、特定の妥当性スコア及び／又は特定の妥当性スコアの構文・意味解析結果を出力する解析スコア算出手段とを有することを特徴とする。

請求項１記載の発明によれば、評価対象単語列の構文的・意味的な妥当性に対する高精度な解析結果を取得することができる。

請求項２に記載された発明は、前記予め構文情報と意味素性が付与された学習テキストから前記文節モデルを学習する文節モデル学習手段と、前記学習テキストから前記意味依存モデルを学習する意味依存モデル学習手段とを有することを特徴とする。

請求項２記載の発明によれば、文節モデル学習手段及び意味依存モデル学習手段を有することで、予め文節モデル及び意味依存モデルを用意しておかなくても学習テキストから容易に文節モデル及び意味依存モデルを生成することができる。

請求項３に記載された発明は、前記品詞・文節境界候補探索手段は、前記文節モデルを用いて品詞・文節境界候補を探索し、それぞれの品詞・文節境界の生起確率が最大となる単語列又は前記生起確率の上位から所定数の単語列を前記評価対象単語列の品詞・文節境界候補として出力することを特徴とする。

請求項３記載の発明によれば、生起確率が最大の単語列のみを用いることで、構文的・意味的な妥当性に対する解析を迅速かつ高精度に行うことができる。また、所定数の単語列を候補として出力することで、複数の単語列を用いて構文的・意味的な妥当性に対する統計的な解析を行うことができる。

請求項４に記載された発明は、前記意味依存構造同定手段は、前記品詞・文節境界候補に対する各文節の自立語の意味素性を前記学習テキストと同一のシソーラス辞書により取得し、前記意味依存モデルを用いて文節間の意味素性の依存確率を算出し、依存確率最大の意味依存構造を同定し、その確率値を意味スコアとして出力することを特徴とする。

請求項４記載の発明によれば、学習テキストと同一のシソーラス辞書を用いて、各文節の自立語の意味素性を取得することで、高精度な意味スコアを出力することができる。

請求項５に記載された発明は、前記解析スコア算出手段は、前記構文スコアと、前記意味スコアを蓄積するための蓄積手段を有し、前記評価対象単語列又は前記品詞・文節境界候補が、前記蓄積手段に蓄積されている前記構文スコア及び前記意味スコアを算出した際の評価対象単語列又は品詞・文節境界候補と類似する場合に、前記蓄積手段に蓄積された構文スコア及び意味スコアを用いて、前記妥当性スコアを算出することを特徴とする。

請求項５記載の発明によれば、類似した評価対象単語列や品詞・文節境界候補に対して、動的計画法による少ない計算量で構文的・意味的妥当性スコアを求めることができる。

請求項６に記載された発明は、前記請求項１乃至５の何れか１項に記載の構文・意味解析装置を備えた音声認識装置である。

請求項６記載の発明によれば、音声認識の単語列候補の構文的・意味的な妥当性の評価、より正解率の高い音声認識候補の選択、音声認識結果やテキストの誤り修正等を実現することができる。

請求項７に記載された発明は、評価対象単語列に対する構文及び意味の解析を行う構文・意味解析処理をコンピュータに実行させるための構文・意味解析プログラムにおいて、文節内の品詞及び文節境界の生起確率である文節モデルを用いて、前記評価対象単語列の品詞・文節境界候補の探索を行い、構文スコアを算出する品詞・文節境界候補探索処理と、自立語の意味素性の文節間での依存確率である意味依存モデルを用いて、前記品詞・文節境界候補探索処理により得られる品詞・文節境界候補に対して各自立語の意味素性の文節間での依存構造の同定を行い、意味スコアを算出する意味依存構造同定処理と、前記構文スコア及び前記意味スコアに基づいて妥当性スコアを算出し、前記品詞・文節境界候補のうち、特定の妥当性スコア及び／又は特定の妥当性スコアの構文・意味解析結果を出力する解析スコア算出処理とをコンピュータに実行させる。

請求項７記載の発明によれば、評価対象単語列の構文的・意味的な妥当性に対する高精度な解析結果を取得することができる。また、実行プログラムをコンピュータにインストールすることにより、容易に構文・意味解析処理を実現することができる。

本発明によれば、単語列の構文的・意味的な妥当性に対する高精度な解析結果を取得することができる。

＜本発明の概要＞
本発明は、話し言葉等の現実世界の複雑な言語（単語列）や音声認識誤りを含む言語等の評価対象に対して、構文的・意味的な妥当性（人が単語列を構文や意味的な観点から妥当な（正しい）結果であると判断すること）を確率統計処理によって簡易に評価して評価対象の構文的・意味的な妥当性に対する高精度な解析結果を取得する。

具体的には、評価単語列の品詞・文節境界候補を、複数の正解単語列から得られる文節内の品詞及び文節境界の生起確率である文節モデルによって探索すると共に、構文スコアを算出する。また、品詞・文節境界候補に対して、各自立語の意味素性の文節間での依存構造を、複数の正解単語列から得られる自立語の意味素性の文節間での依存確率である意味依存モデルによって同定すると共に、意味スコアを算出する。その後、構文スコアと意味スコアから構文的・意味的妥当性スコアを算出する。

なお、以下の説明においては、構文的・意味的に妥当な単語列に対しては高いスコアを与え、妥当でない単語列に対しては低いスコアを与えているが、本発明においてはこの限りではなく、例えば、上述とは逆に構文的・意味的に妥当な単語列に対しては低いスコアを与え、妥当でない単語列に対しては高いスコアを与えてもよい。更に、妥当性の解析結果と、その構文や意味の内容に応じて重み付けしたスコアを与えてもよい。

以下に、上記のような特徴を有する本発明における構文・意味解析装置、音声認識装置、及び構文・意味解析プログラムを好適に実施した形態について、図面を用いて詳細に説明する。

＜構文・意味解析装置：装置構成＞
図１は、本発明における構文・意味解析装置の一構成例を示す図である。図１に示す構文・意味解析装置１０は、文節モデル学習手段１１と、意味依存モデル学習手段１２と、品詞・文節境界候補探索手段１３と、意味依存構造同定手段１４と、解析スコア算出手段１５とを有するよう構成されている。なお、文節モデル学習手段１１及び意味依存モデル学習手段１２は、自然言語における構文・意味解析の学習フェーズとしての構成であり、品詞・文節境界候補探索手段１３、意味依存構造同定手段１４、及び解析スコア算出手段１５は、入力される評価対象単語列を評価する評価フェーズとしての構成である。以下に、構文・意味解析装置１０を学習フェーズと評価フェーズとに分けて説明する。

＜学習フェーズ＞
まず、図１に示す学習フェーズにおいて、文節モデル学習手段１１は、例えば予め構文情報・意味素性が付与された複数の単語列からなる学習テキスト２１から、文節モデル２２を確率統計的に学習して出力する。出力された文節モデル２２は、評価フェーズの品詞・文節境界候補探索手段１３に入力される。

また、意味依存モデル学習手段１２は、学習テキスト２１から、意味依存モデル２３を確率統計的に学習して出力する。出力された意味依存モデルは、評価フェーズの意味依存構造同定手段１４に入力される。

ここで、学習テキスト２１に付与されている構文情報とは、単語境界、品詞、文節境界、文節係り受け等の情報である。また、意味素性とは、各単語の同義語が属するシソーラス等の分類情報のことである。これらの構文情報・意味素性は、自然言語処理で一般的な構文解析ツール（例えば、「茶筌と南瓜による日本語解析」、松本ら著、人口知能学会誌、１９巻３号、２００４年等）や既存のシソーラス辞書（例えば、「分類語彙表」、国立国語研究所編、大日本図書、２００４年等）、あるいは単語クラスタリングによって自動作成した単語クラス辞書を利用して自動処理した後に、誤りを人手で修正する等して作成することができる。

次に、上述した文節モデル学習手段１１及び意味依存モデル学習手段１２について具体的に説明する。

＜文節モデル学習手段１１＞
文節モデル学習手段１１は、例えば文節内の品詞クラスモデルや品詞マルチグラムモデル（例えば、「確率的言語モデル」、北研二著、東京大学出版会、ｐ．１２２〜１２５等）等、文節内の品詞及び文節境界に関する確率統計モデルを算出し、これを文節モデル２２として出力する。

すなわち、文節モデル学習手段１１は、学習テキスト２１の単語列Ｗ＝ｗ_１，ｗ_２，・・・，ｗ_ｉ，・・・，ｗ_Ｌ中の単語ｗ_ｉに対して、品詞クラスｃ_ｉが付与されている場合、予め設定された文節モデル、例えば文節内の品詞クラスモデルＰ（ｃ_ｉ｜ｃ_ｉ−１）とＰ（ｗ_ｉ｜ｃ_ｉ）を学習する。なお、本発明においてはこの限りではなく、例えば品詞マルチグラムモデルＰ（ｃ_ｉ，ｃ_ｉ−１｜ｎ_ｊ単語文節）とＰ（ｎ_ｊ単語文節｜ｎ_ｊ−１単語文節）、あるいは品詞列単位の文節Ｎグラムモデル等を学習してもよい。

なお、上述したｉは単語番号を表し、ｉ＝１，２，・・・，Ｌ（Ｌ：総学習単語数）からなる。また、ｊは文節番号を表し、ｊ＝１，２，・・・，Ｍ（Ｍ：総学習文節数であり、ｎ_ｊ∈｛１，２，・・・，Ｂ（Ｂ：１文節を構成する最大の単語数）｝）からなる。

ここで、文節モデル学習手段１１における単語列の処理について図を用いて説明する。図２は、単語列の処理の一例を示す図である。図２に示すように、例えば「家族の再会の日程です」という学習テキストに対しては、予め単語境界、品詞、文節境界が付与されている（例えば、「家族」の品詞は名詞一般、「の」の品詞は助詞等）。

ここで、文節モデルとして文節内の品詞クラスモデルを用いる場合、文節モデル学習手段１１は確率統計モデルＰ（助詞｜名詞一般）やＰ（文節境界｜助詞）等を学習する。また、他の例として、品詞マルチグラムモデルを用いる場合には、確率統計モデルＰ（名詞一般、助詞｜２単語文節）、Ｐ（２単語文節｜２単語文節）等を学習し、品詞列単位の文節Ｎグラムモデルを用いる場合には、Ｐ（名詞サ変、助詞｜名詞一般、助詞）等を学習する。なお、助詞等の頻度の高い単語については、統計精度を高めるため、品詞ではなく単語そのものを品詞の一つとみなすことも可能である。

＜意味依存モデル学習手段１２＞
意味依存モデル学習手段１２は、学習テキスト２１のうち、文節係り受け関係にある自立語の組に対して、それらの意味素性に関する確率統計モデルを算出し、これを意味依存モデル２３として出力する。

例えば、図２に示す単語列「家族の再会の日程です」という学習テキストでは、第１文節「家族の」が第２文節「再会の」に係るため、第１文節の自立語「家族」の意味素性「家族」が、第２文節の自立語「再会」の意味素性「出会い」に係る確率統計モデルＰ（出会い｜家族）等が学習される。

なお、意味依存モデル２３は、係る自立語の意味素性から受ける自立語の意味素性への条件付き確率だけでなく、受ける自立語の意味素性から係る自立語の意味素性への条件付き確率を利用することも可能である。

＜評価フェーズ＞
次に、構文・意味解析装置１０における評価フェーズについて説明する。まず、評価対象となる文書中の単語列や音声認識の単語列候補等の評価対象単語列２４が構文・意味解析装置１０に入力されると、品詞・文節境界候補探索手段１３は、文節モデル２２によって品詞・文節境界候補を探索し、その時のそれぞれの品詞・文節境界の生起確率が最大となる単語列、又は上位から所定数の単語列を評価対象単語列の品詞・文節境界候補２５として出力する。出力された評価対象単語列の品詞・文節境界候補２５は、意味依存構造同定手段１４に出力される。

また、品詞・文節境界候補探索手段１３は、品詞・文節境界の生起確率を構文スコア２６として出力する。出力された構文スコア２６は、解析スコア算出手段１５に入力される。

ここで、品詞・文節境界候補探索手段１３における処理内容について、具体的に説明する。品詞・文節境界候補探索手段１３は、文節モデル２２が例えば文節内品詞クラスモデルの場合には、
ｍａｘΠＰ（ｃ_ｉ｜ｃ_ｉ−１）＊Ｐ（ｗ_ｉ｜ｃ_ｉ）
により構文スコアが最大の品詞・文節境界候補を求める。また、他の例として文節モデル２２が品詞マルチグラムモデルの場合には、
ｍａｘΠＰ（ｃ_ｉ，ｃ_ｉ−１｜ｎ_ｊ単語文節）＊Ｐ（ｎ_ｊ単語文節｜ｎ_ｊ−１単語文節）
により構文スコアが最大の品詞・文節境界候補を求める。

例えば、図２に示す単語列が評価対象単語列である場合には、文頭記号＜ｓ＞や文末記号＜／ｓ＞も文節境界＜ｂ＞であるとみなして、文節モデル２２が文節内品詞クラスモデルの場合には、
Ｐ（名詞一般｜文節境界）＊Ｐ（助詞｜名詞一般）＊Ｐ（文節境界｜助詞）＊Ｐ（名詞サ変｜文節境界）＊Ｐ（助詞｜名詞サ変）＊Ｐ（文節境界｜助詞）＊Ｐ（名詞一般｜文節境界）＊Ｐ（助動詞｜名詞一般）＊Ｐ（文節境界｜助動詞）
による生起確率を求め、これを構文スコア２６とする。

また、文節モデル２２が品詞マルチグラムモデルの場合には、
Ｐ（名詞一般、助詞｜２単語文節）＊Ｐ（２単語文節｜２単語文節）＊Ｐ（名詞サ変、助詞｜２単語文節）＊Ｐ（２単語文節｜２単語文節）＊Ｐ（名詞一般、助動詞｜２単語文節）
による生起確率を求め、これを構文スコア２６とする。

また、文節モデル２２が品詞列単位の文節Ｎグラムモデルの場合には、
Ｐ（名詞一般、助詞）＊Ｐ（名詞サ変、助詞｜名詞一般、助詞）＊Ｐ（名詞一般、助動詞｜名詞サ変、助詞）と任意の品詞クラスモデルとの積
による生起確率を求め、これを構文スコア２６とする。

なお、上述した式中のｍａｘが意味するように、構文スコアが最大となる品詞・文節境界候補２５だけでなく、構文スコアの高い上位から所定数の品詞・文節境界候補２５を求めることも可能である。また、評価対象単語列に含まれるある単語が、複数の品詞が対応可能な多品詞語である場合には、あらゆる品詞の組み合わせの中で、構文スコア２６が最大あるいは上位となる組み合わせの幾つかを品詞・文節境界候補２５とする。

意味依存構造同定手段１４は、評価対象単語列２４と、品詞・文節境界候補２５を入力し、品詞・文節境界候補２５に対して、各文節の自立語（名詞、動詞、形容詞等）の意味素性を予め蓄積されている意味素性辞書２７から取得し、文節間の意味素性の依存確率を意味依存モデル２３によって算出して、依存確率が最大の意味依存構造を同定する。また、意味依存構造同定手段１４は、各候補に対するそれぞれの確率値を意味スコア２８として出力する。出力された意味スコア２８は、解析スコア算出手段１５に入力される。

なお、意味素性辞書２７は、学習フェーズの学習テキスト２１で用いたのと同一のシソーラス辞書を利用することが好ましい。これにより、学習テキストと同一のシソーラス辞書を用いて、各文節の自立語の意味素性を取得することで、高精度な意味スコアを出力することができる。

ここで、意味スコアの算出例について説明する。例えば、図２に示す単語列が評価対象単語列である場合、意味依存構造同定手段１４は、第１文節の自立語「家族」の意味素性「家族」と、第２文節の自立語「再会」の意味素性「出会い」と、第３文節の自立語「日程」の意味素性「過程」に対して、
Ｐ（出会い｜家族）＊Ｐ（日程｜出会い）
及び、
Ｐ（日程｜家族）＊Ｐ（日程｜出会い）
の２通りの依存確率を算出し、これらの値の大きい方を意味スコア２８として出力する。

なお、意味依存構造同定手段１４は、前の文節から後ろの文節に係り受けすることや複数の係り受け関係が互いに交差しない等の日本語の文節の係り受けの特徴等を制約条件や重み付けとして設定することで、目的に応じた種々の意味スコアを算出することができる。

また、一つの自立語に対して複数の意味素性が対応可能な場合には、あらゆる意味素性の組み合わせの中で、自立語の意味素性の文節間での依存確率が最大となる組み合わせを採用し、その確率値を意味スコア２８として出力する。

次に、解析スコア算出手段１５は、品詞・文節境界候補探索手段１３から得られた構文スコア２６と、意味依存構造同定手段１４から得られた意味スコア２８の重み付けの和を算出し、算出した値を妥当性スコアとする。また、解析スコア算出手段１５は、評価対象単語列２４に対する品詞・文節境界候補２５のうちで最大等の特定の妥当性スコアを出力する。

なお、解析スコア算出手段１５は、妥当性スコアの出力だけでなく、例えば、出力される妥当性スコアに対応する品詞、文節等の構文・意味の解析結果のみを出力してもよく、また、スコア及び解析結果を出力してもよい。つまり、解析スコア算出手段１５は、特定の妥当性スコア及び／又は特定の妥当性スコアの解析結果を構文的・意味的妥当性スコア・解析結果２９として出力する。

また、解析スコア算出手段１５は、上述した構文スコア２６及び意味スコア２８を一定期間保持（蓄積）しておくための蓄積手段を設けてもよい。これにより、類似した評価対象単語列２４や類似した品詞・文節境界候補２５に対して、動的計画法による少ない計算量で構文的・意味的妥当性スコア・解析結果２９を求めることができる。これは、特に評価対象単語列２４を構成する単語数が多い場合や、発話途中に音声認識の単語列候補が逐次出力されるような場合に、計算量の削減効果が高い。

上述したように、構文・意味解析装置１０により、評価対象単語列の構文的・意味的な妥当性に対する高精度な解析結果を取得することができる。

なお、上述した構文・意味解析装置１０においては、文節モデル学習手段１１及び意味依存モデル学習手段１２を有することで、予め文節モデル２２及び意味依存モデル２３を用意しておかなくても学習テキスト２１から容易に生成することができる。しかしながら、本発明においては予め学習されている文節モデル２２及び意味依存モデル２３等を外部から取得する等により、文節モデル学習手段１１及び意味依存モデル学習手段１２を省略した構成にすることもできる。

＜音声認識装置＞
次に、上述した構文・意味解析装置１０の適用例として、構文・意味解析装置１０を音声認識装置に組み合わせた実施例について、図を用いて説明する。なお、以下の説明において、図１に示した構文・意味解析装置１０と同様の構成については同一符号を用いることとし、その説明は省略する。

図３は、本発明における構文・意味解析装置を適用した音声認識装置の一構成例を示す図である。音声認識装置３０は、単語列生成手段３１と、構文・意味解析手段３２と、言語スコア算出手段３３と、音響スコア算出手段３４と、正解単語列探索手段３５とを有するよう構成されている。また、音声認識装置３０における構文・意味解析手段３２は、上述した構文・意味解析装置１０のうち、上述した評価フェーズの構成のみを有したものであるが本発明においてはこの限りではなく、上述した学習フェーズの構成を有していてもよい。

音声認識しようとする音声４１（Ｘ）が音声認識装置３０に入力されると、単語列生成手段３１は、入力音声４１から例えば認識語彙辞書等に登録されている単語の集まりを生成し、その単語の集まりを音声が発せられた時間的な情報等に基づいて複数の単語列候補３６を生成する。また、単語列生成手段３１は、生成した単語列候補３６を構文・意味解析手段３２、言語スコア算出手段３３、音響スコア算出手段３４、及び正解単語列探索手段３５に出力する。

構文・意味解析手段３２は、上述したように文節モデル２２及び意味依存モデル２３を用いて、入力する単語列に対して構文的・意味的妥当性スコア・解析結果２９を出力する。

また、言語スコア算出手段３３は、入力する単語列候補３６（Ｗ）に対して、予め蓄積された単語Ｎグラムモデル４２を用いて言語的スコア４３（Ｐ（Ｗ））を算出して出力する。出力された言語スコア４３は、正解単語列探索手段３５に入力される。

また、音響スコア算出手段３４は、入力音声４１（Ｘ）及び単語列候補３６（Ｗ）に対して予め蓄積されている音響モデル４４及び発音辞書４５を用いて音響的スコア４６（Ｐ（Ｘ｜Ｗ））を算出して出力する。出力された音響スコア４６は、正解単語列探索手段３５に入力される。

正解単語列探索手段３５は、本発明における構文・意味解析手段３２から得られる構文的・意味的妥当性スコア・解析結果２９、言語スコア４３、音響スコア４６に基づいて、単語列候補３６に対する最大スコア及び／最大スコアの単語列を認識結果の単語列４７として出力する。

なお、図３に示す音声認識装置３０の構文・意味解析手段３２においては、解析スコア算出手段１５を設けず、構文的・意味的妥当性スコア・解析結果２９の代わりに構文スコア２６及び意味スコア２８を直接正解単語列探索手段３５に入力し、正解単語列探索手段３５は言語スコア４３、音響スコア４６、構文スコア２６、及び意味スコア２８を用いて認識結果の単語列４７を出力するような構成にすることもできる。

上述したように、本発明における音声認識装置３０により、従来では単語列候補Ｗに対する言語的なスコアＰ（Ｗ）を単語Ｎグラムモデルで算出し、更に音響モデルと発音辞書により音響的スコアＰ（Ｘ｜Ｗ）を算出した結果を用いて、
ｍａｘＰ（Ｗ）＊Ｐ（Ｘ｜Ｗ）
となる単語列候補Ｗを認識結果として出力するだけであったが、本発明の構文・意味解析手法を音声認識装置３０に組み込むことによって、文節モデルにより構文スコア（Ｐ（ＳＹ｜Ｗ））を算出すると共に、意味依存モデルにより意味スコア（Ｐ（ＳＭ｜ＳＹ，Ｗ））を算出し、その構文スコア（Ｐ（ＳＹ｜Ｗ））及び意味スコア（Ｐ（ＳＭ｜ＳＹ，Ｗ））を入力して、
ｍａｘＰ（Ｗ）＊Ｐ（Ｘ｜Ｗ）＊Ｐ（ＳＹ｜Ｗ）＊Ｐ（ＳＭ｜ＳＹ，Ｗ）＝ｍａｘＰ（Ｗ，ＳＹ，ＳＭ｜Ｘ）
となる単語列候補Ｗを認識結果として出力することができる。なお、上述の“ＳＹ”は、品詞・文節境界の文節構造を示し、“ＳＭ”は、自立語の意味素性の文節間での依存構造を示す。

以上のように、本発明の構文・意味解析手法を音声認識装置と組み合わせることにより、従来は考慮されていなかった構文的・意味的な妥当性を認識結果として出力する判断条件とすることができ、更に上述した構成により汎用的なディクテーションを目的とした数万単語規模の大語彙連続音声認識装置でも構文的・意味的な妥当性を考慮できるようになるため、従来よりも高精度な音声認識結果を取得することができる。

したがって、上述した本発明における音声認識装置を用いて音声認識の単語列候補や文書中の単語列の構文的・意味的な妥当性の評価、より正解率の高い音声認識候補の選択、音声認識結果やテキストの誤り修正等を実現することができる。

＜実行プログラム＞
ここで、上述した構文・意味解析装置１０及び音声認識装置３０は、上述した専用の装置構成等を用いて本発明における構文・意味解析処理及び音声認識処理を行うこともできるが、各構成における処理をコンピュータに実行させることができる実行プログラムを生成し、例えば、汎用のパーソナルコンピュータ、ワークステーション等にそのプログラムをインストールすることにより、本発明に係る構文・意味解析処理及び音声認識処理を実現することができる。

＜ハードウェア構成＞
ここで、本発明における構文・意味解析処理及び音声認識処理が実行可能なコンピュータのハードウェア構成例について図を用いて説明する。図４は、本発明における構文・意味解析処理及び音声認識処理が実現可能なハードウェア構成の一例を示す図である。

図４におけるコンピュータ本体には、入力装置５１と、出力装置５２と、ドライブ装置５３と、補助記憶装置５４と、メモリ装置５５と、各種制御を行うＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）５６と、ネットワーク接続装置５７とを有するよう構成されており、これらはシステムバスＢで相互に接続されている。

入力装置５１は、ユーザが操作するキーボード及びマウス等のポインティングデバイス及び音声入力デバイスを有しており、ユーザからのプログラムの実行指示等、各種操作信号、音声信号を入力する。出力装置５２は、本発明における処理を行うためのコンピュータ本体を操作するのに必要な各種ウィンドウやデータ等を表示するディスプレイ（モニタ）を有し、ＣＰＵ５６が有する制御プログラムにより実行経過や結果等を表示することができる。

ここで、本発明において、コンピュータ本体にインストールされる実行プログラムは、例えば、ＣＤ−ＲＯＭ等の記録媒体５８等により提供される。プログラムを記録した記録媒体５８は、ドライブ装置５３にセット可能であり、記録媒体５８に含まれる実行プログラムが、記録媒体５８からドライブ装置５３を介して補助記憶装置５４にインストールされる。

また、ドライブ装置５３は、本発明に係る実行プログラムを記録媒体５８に記録することができる。これにより、その記録媒体５８を用いて、他の複数のコンピュータに容易にインストールすることができ、容易に構文・意味解析処理及び音声認識処理を実現することができる。

補助記憶装置５４は、ハードディスク等のストレージ手段であり、本発明における実行プログラムや、コンピュータに設けられた制御プログラム等を蓄積し必要に応じて入出力を行うことができる。また、補助記憶装置５４は、上述した構文スコア２６や意味スコア２８、意味素性辞書２７等を蓄積する蓄積手段として用いることもできる。

ＣＰＵ５６は、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）等の制御プログラム、及びメモリ装置５５により読み出され格納されている実行プログラムに基づいて、各種演算や各ハードウェア構成部とのデータの入出力等、コンピュータ全体の処理を制御して、構文・意味解析処理や音声認識処理における各処理を実現することができる。また、プログラムの実行中に必要な各種情報等は、補助記憶装置５４から取得することができ、また格納することもできる。

ネットワーク接続装置５７は、電話回線やＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）ケーブル等の通信ネットワーク等と接続することにより、実行プログラムを通信ネットワークに接続されている他の端末等から取得したり、プログラムを実行することで得られた実行結果又は本発明における実行プログラムを他の端末等に提供することができる。

上述したようなハードウェア構成により、特別な装置構成を必要とせず、低コストで上述した構文・意味解析処理及び音声認識処理を実現することができる。また、プログラムをインストールすることにより、容易に構文・意味解析処理及び音声認識処理を実現することができる。

＜構文・意味解析処理手順＞
次に、本発明における実行プログラム（構文・意味解析プログラム）を用いた構文・意味解析処理手順についてフローチャートを用いて説明する。図５は、構文・意味解析処理手順の一例を示すフローチャートである。

図５において、まず、構文情報・意味素性が付与された学習テキストを入力し（Ｓ０１）、文節モデルの学習を行う（Ｓ０２）。また、Ｓ０１の処理にて入力された学習テキストを用いて意味依存モデルの学習を行う（Ｓ０３）。なお、Ｓ０１〜Ｓ０３の処理は、上述した学習フェーズの処理である。

次に、評価する対象である評価対象単語列を入力し（Ｓ０４）、Ｓ０２により得られた文節モデルを用いて品詞・文節境界候補を探索し、品詞・文節境界候補及び構文スコアを出力する（Ｓ０５）。また、Ｓ０３の処理により得られた意味依存モデルと、Ｓ０５の処理により得られた評価対象単語列の品詞・文節境界候補とに基づいて、単語列の意味依存構造の同定を行い、意味スコアを出力する（Ｓ０６）。

次に、Ｓ０５の処理により得られる構文スコア及びＳ０６の処理により得られる意味スコアに基づいて解析スコアを算出し、特定（最大等）の構文的・意味的妥当性スコア及び／又妥当性スコアに対応する単語列を出力する（Ｓ０７）。なお、Ｓ０４〜Ｓ０７の処理は、上述した評価フェーズの処理である。

なお、上述した構文・意味解析処理においては、予め文節モデル、意味依存モデルを取得している場合、Ｓ０１〜Ｓ０３の処理は省略することができる。

上述した構文・意味解析処理手順により、単語列に対して構文的・意味的妥当性の高い高精度な認識結果を出力することができる。また、プログラムをインストールすることにより、容易に構文・意味解析処理を実現することができる。

＜音声認識処理手順＞
次に、本発明における構文意味解析処理を有する実行プログラム（音声認識プログラム）を用いた音声認識処理手順についてフローチャートを用いて説明する。図６は、音声認識処理手順の一例を示すフローチャートである。

図６において、まず、音声認識するための音声を入力し（Ｓ１１）、音声中に含まれる単語列候補の生成を行う（Ｓ１２）。また、Ｓ１２の処理により得られた単語列候補と、予め蓄積された単語Ｎグラムモデルとに基づいて言語スコアの算出を行う（Ｓ１３）。また、Ｓ１１の処理により得られた音声と、予め蓄積された音響モデル、発音辞書に基づいて音響スコアの算出を行う（Ｓ１４）。更に、Ｓ１２の処理により得られた単語列候補を評価対象単語列候補として、予め蓄積された文節モデル、意味依存モデル、意味素性辞書を用いて上述した本発明における構文・意味解析処理を行い、構文的・意味的妥当性スコアの算出を行う（Ｓ１５）。

次に、Ｓ１３の処理により得られた言語スコア、Ｓ１４の処理により得られた音響スコア、Ｓ１５の処理により得られた構文的・意味的妥当性スコアから、正解単語列の探索を行い（Ｓ１６）、認識結果の単語列を出力する（Ｓ１７）。

上述したように、音声認識プログラムを用いた音声認識処理により、音声認識の単語列候補や文書中の単語列の構文的・意味的な妥当性の評価、より正解率の高い音声認識候補の選択、音声認識結果やテキストの誤り修正等を実現することができる。また、プログラムをインストールすることにより、容易に音声認識処理を実現することができる。

上述したように本発明によれば、単語列の構文的・意味的な妥当性に対する高精度な解析結果を取得することができる。具体的には、文節内の品詞及び文節境界の生起確率モデルによる構文スコアと、各自立語の意味素性の文節間での依存確率モデルによる意味スコアとから、音声認識の単語列候補や文書中の単語列の構文的・意味的な妥当性を評価し、より正解率の高い音声認識候補の選択、音声認識結果やテキストの誤り修正等を可能とする。また、話し言葉等の現実世界の複雑な言語や、音声認識の探索途中結果の単語列候補等、誤りを含む言語に対しても解析処理が中断することなく、構文的・意味的妥当性スコア等の解析結果を取得することができる。

また、本発明によれば、汎用的なディクテーションを目的とした数万単語規模の大語彙連続音声認識においても、構文的・意味的な妥当性の評価を単語Ｎグラムモデルと効率的に組み合わせることができる。

また、本発明によれば、放送番組の字幕制作、音声対話システム、音声ワープロ、会議の議事録の自動作成、声による機器の制御等、音声認識や言語処理を利用した様々な分野の技術に適用することができる。

以上本発明の好ましい実施例について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。

本発明における構文・意味解析装置の一構成例を示す図である。単語列の処理の一例を示す図である。本発明における構文・意味解析装置を適用した音声認識装置の一構成例を示す図である。本発明における構文・意味解析処理及び音声認識処理が実現可能なハードウェア構成の一例を示す図である。構文・意味解析処理手順の一例を示すフローチャートである。音声認識処理手順の一例を示すフローチャートである。

符号の説明

１０構文・意味解析装置
１１文節モデル学習手段
１２意味依存モデル学習手段
１３品詞・文節境界候補探索手段
１４意味依存構造同定手段
１５解析スコア算出手段
２１学習テキスト
２２文節モデル
２３意味依存モデル
２４評価対象単語列
２５評価対象単語列の品詞・文節境界候補
２６構文スコア
２７意味素性辞書
２８意味スコア
２９構文的・意味的妥当性スコア・解析結果
３０音声認識装置
３１単語列生成手段
３２構文・意味解析手段
３３言語スコア算出手段
３４音響スコア算出手段
３５正解単語列探索手段
３６単語列候補
４１入力音声
４２単語Ｎグラムモデル
４３言語スコア
４４音響モデル
４５発音辞書
４６音響スコア
４７認識結果の単語列
５１入力装置
５２出力装置
５３ドライブ装置
５４補助記憶装置
５５メモリ装置
５６ＣＰＵ
５７ネットワーク接続装置
５８記録媒体

Claims

評価対象単語列に対する構文及び意味の解析を行う構文・意味解析装置において、
文節内の品詞及び文節境界の生起確率である文節モデルを用いて、前記評価対象単語列の品詞・文節境界候補の探索を行い、構文スコアを算出する品詞・文節境界候補探索手段と、
自立語の意味素性の文節間での依存確率である意味依存モデルを用いて、前記品詞・文節境界候補探索手段により得られる品詞・文節境界候補に対して各自立語の意味素性の文節間での依存構造の同定を行い、意味スコアを算出する意味依存構造同定手段と、
前記構文スコア及び前記意味スコアに基づいて妥当性スコアを算出し、前記品詞・文節境界候補のうち、特定の妥当性スコア及び／又は特定の妥当性スコアの構文・意味解析結果を出力する解析スコア算出手段とを有することを特徴とする構文・意味解析装置。
前記予め構文情報と意味素性が付与された学習テキストから前記文節モデルを学習する文節モデル学習手段と、
前記学習テキストから前記意味依存モデルを学習する意味依存モデル学習手段とを有することを特徴とする請求項１に記載の構文・意味解析装置。
前記品詞・文節境界候補探索手段は、
前記文節モデルを用いて品詞・文節境界候補を探索し、それぞれの品詞・文節境界の生起確率が最大となる単語列又は前記生起確率の上位から所定数の単語列を前記評価対象単語列の品詞・文節境界候補として出力することを特徴とする請求項１又は２に記載の構文・意味解析装置。
前記意味依存構造同定手段は、
前記品詞・文節境界候補に対する各文節の自立語の意味素性を前記学習テキストと同一のシソーラス辞書により取得し、前記意味依存モデルを用いて文節間の意味素性の依存確率を算出し、依存確率最大の意味依存構造を同定し、その確率値を意味スコアとして出力することを特徴とする請求項２又は３に記載の構文・意味解析装置。
前記解析スコア算出手段は、
前記構文スコアと、前記意味スコアを蓄積するための蓄積手段を有し、
前記評価対象単語列又は前記品詞・文節境界候補が、前記蓄積手段に蓄積されている前記構文スコア及び前記意味スコアを算出した際の評価対象単語列又は品詞・文節境界候補と類似する場合に、前記蓄積手段に蓄積された構文スコア及び意味スコアを用いて、前記妥当性スコアを算出することを特徴とする請求項１乃至４の何れか１項に記載の構文・意味解析装置。
前記請求項１乃至５の何れか１項に記載の構文・意味解析装置を備えた音声認識装置。
評価対象単語列に対する構文及び意味の解析を行う構文・意味解析処理をコンピュータに実行させるための構文・意味解析プログラムにおいて、
文節内の品詞及び文節境界の生起確率である文節モデルを用いて、前記評価対象単語列の品詞・文節境界候補の探索を行い、構文スコアを算出する品詞・文節境界候補探索処理と、
自立語の意味素性の文節間での依存確率である意味依存モデルを用いて、前記品詞・文節境界候補探索処理により得られる品詞・文節境界候補に対して各自立語の意味素性の文節間での依存構造の同定を行い、意味スコアを算出する意味依存構造同定処理と、
前記構文スコア及び前記意味スコアに基づいて妥当性スコアを算出し、前記品詞・文節境界候補のうち、特定の妥当性スコア及び／又は特定の妥当性スコアの構文・意味解析結果を出力する解析スコア算出処理とをコンピュータに実行させるための構文・意味解析プログラム。