JP2007065029A - 構文・意味解析装置、音声認識装置、及び構文・意味解析プログラム - Google Patents

構文・意味解析装置、音声認識装置、及び構文・意味解析プログラム Download PDF

Info

Publication number
JP2007065029A
JP2007065029A JP2005247449A JP2005247449A JP2007065029A JP 2007065029 A JP2007065029 A JP 2007065029A JP 2005247449 A JP2005247449 A JP 2005247449A JP 2005247449 A JP2005247449 A JP 2005247449A JP 2007065029 A JP2007065029 A JP 2007065029A
Authority
JP
Japan
Prior art keywords
semantic
score
syntax
speech
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005247449A
Other languages
English (en)
Other versions
JP4653598B2 (ja
Inventor
Toru Imai
亨 今井
Akio Kobayashi
彰夫 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2005247449A priority Critical patent/JP4653598B2/ja
Publication of JP2007065029A publication Critical patent/JP2007065029A/ja
Application granted granted Critical
Publication of JP4653598B2 publication Critical patent/JP4653598B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】 単語列に対して高精度な解析結果を取得する。
【解決手段】 評価対象単語列に対する構文及び意味の解析を行う構文・意味解析装置において、文節内の品詞及び文節境界の生起確率である文節モデルを用いて、前記評価対象単語列の品詞・文節境界候補の探索を行い、構文スコアを算出する品詞・文節境界候補探索手段と、自立語の意味素性の文節間での依存確率である意味依存モデルを用いて、前記品詞・文節境界候補探索手段により得られる品詞・文節境界候補に対して各自立語の意味素性の文節間での依存構造の同定を行い、意味スコアを算出する意味依存構造同定手段と、前記構文スコア及び前記意味スコアに基づいて妥当性スコアを算出し、前記品詞・文節境界候補のうち、特定の妥当性スコア及び/又は特定の妥当性スコアの構文・意味解析結果を出力する解析スコア算出手段とを有することにより、上記課題を解決する。
【選択図】 図1

Description

本発明は、構文・意味解析装置、音声認識装置、及び構文・意味解析プログラムに係り、特に単語列に対して高精度な解析結果を取得するための構文・意味解析装置、音声認識装置、及び構文・意味解析プログラムに関する。
従来より、単語列や音声等の解析(認識)技術において様々な手法が提案されている。(例えば、非特許文献1参照。)。非特許文献1は、文の構造を明らかにするための構文解析技術であるが、文脈自由文法で記述可能な範囲の言語を対象とすることが多く、話し言葉等の現実世界の複雑な言語では柔軟かつ簡易に解析することは困難となる。
また、非特許文献1には、文を構成する単語の意味関係を解析する手法についても示されているが、この手法の場合には表層と深層の意味の違いや多義語等の曖昧性が問題となり、話し言葉等の現実世界の複雑な言語を柔軟かつ簡易に解析することは困難となる。
更に、従来の構文・意味解析は、解析できるか否かのどちらかの結果しか出力しないため、構文的・意味的な妥当性を連続数値で評価することができない。また、音声認識の探索途中の単語列等、誤りを含む言語に対しては、解析処理が中断してしまうことがある。
また、従来の汎用的なディクテーションを目的とした数万単語規模の連続音声認識装置では、言語モデルとして単語連鎖の生起確率(以下、単語Nグラムモデルという)が一般に利用されている(例えば、非特許文献2参照。)。しかしながら、非特許文献2に示されている手法では、単語Nグラムモデルと効率的に組み合わせることの困難さから、文法や意味等の言語的な情報を単語列候補の評価に利用することは行われていない。
一方、語彙が比較的小さく、認識対象も限られた音声対話システム等の音声認識手法については、人手あるいは確率統計的に記述した小規模な文節係り受け規則等の構文規則や、人手で記述した単語クラスや特定ドメイン(用途)の用例による意味情報を利用して、構文的・意味的に妥当な音声認識結果を探索する手法が提案されている(例えば、特許文献1参照。)。
「自然言語処理」、長尾真編、岩波書店、p.139,199、1996年 「確率的言語モデル」、北研二著、東京大学出版会、p.60〜62 特開2000−221991号公報
しかしながら、汎用的なディクテーションを目的とした数万単語規模の大語彙連続音声認識等では、上述したように文法や意味等の言語的な情報が利用されていないため、構文的・意味的に不適当な認識結果を出力することがある。
一方、語彙が比較的小さく、認識対象も限られた音声対話システム等の音声認識では、人手で構文規則や特定ドメインの意味情報を記述することが可能であるが、数万単語規模の大語彙連続音声認識では単語の組み合わせによる文節候補の数が膨大となるため、文節係り受け規則等の構文規則や意味情報を人手で記述して単語Nグラムモデル等と効率的に組み合わせることは困難であり、こうした手法はこれまでに提案されていなかった。
また、従来の構文・意味解析は、上述したように話し言葉等の現実世界の複雑な言語や、誤りを含む言語に対して何らかの解析結果を出力することができなかった。
本発明は、上述した問題点に鑑みなされたものであり、単語列に対して高精度な解析結果を取得するための構文・意味解析装置、音声認識装置、及び構文・意味解析プログラムを提供することを目的とする。
上記課題を解決するために、本件発明は、以下の特徴を有する課題を解決するための手段を採用している。
請求項1に記載された発明は、評価対象単語列に対する構文及び意味の解析を行う構文・意味解析装置において、文節内の品詞及び文節境界の生起確率である文節モデルを用いて、前記評価対象単語列の品詞・文節境界候補の探索を行い、構文スコアを算出する品詞・文節境界候補探索手段と、自立語の意味素性の文節間での依存確率である意味依存モデルを用いて、前記品詞・文節境界候補探索手段により得られる品詞・文節境界候補に対して各自立語の意味素性の文節間での依存構造の同定を行い、意味スコアを算出する意味依存構造同定手段と、前記構文スコア及び前記意味スコアに基づいて妥当性スコアを算出し、前記品詞・文節境界候補のうち、特定の妥当性スコア及び/又は特定の妥当性スコアの構文・意味解析結果を出力する解析スコア算出手段とを有することを特徴とする。
請求項1記載の発明によれば、評価対象単語列の構文的・意味的な妥当性に対する高精度な解析結果を取得することができる。
請求項2に記載された発明は、前記予め構文情報と意味素性が付与された学習テキストから前記文節モデルを学習する文節モデル学習手段と、前記学習テキストから前記意味依存モデルを学習する意味依存モデル学習手段とを有することを特徴とする。
請求項2記載の発明によれば、文節モデル学習手段及び意味依存モデル学習手段を有することで、予め文節モデル及び意味依存モデルを用意しておかなくても学習テキストから容易に文節モデル及び意味依存モデルを生成することができる。
請求項3に記載された発明は、前記品詞・文節境界候補探索手段は、前記文節モデルを用いて品詞・文節境界候補を探索し、それぞれの品詞・文節境界の生起確率が最大となる単語列又は前記生起確率の上位から所定数の単語列を前記評価対象単語列の品詞・文節境界候補として出力することを特徴とする。
請求項3記載の発明によれば、生起確率が最大の単語列のみを用いることで、構文的・意味的な妥当性に対する解析を迅速かつ高精度に行うことができる。また、所定数の単語列を候補として出力することで、複数の単語列を用いて構文的・意味的な妥当性に対する統計的な解析を行うことができる。
請求項4に記載された発明は、前記意味依存構造同定手段は、前記品詞・文節境界候補に対する各文節の自立語の意味素性を前記学習テキストと同一のシソーラス辞書により取得し、前記意味依存モデルを用いて文節間の意味素性の依存確率を算出し、依存確率最大の意味依存構造を同定し、その確率値を意味スコアとして出力することを特徴とする。
請求項4記載の発明によれば、学習テキストと同一のシソーラス辞書を用いて、各文節の自立語の意味素性を取得することで、高精度な意味スコアを出力することができる。
請求項5に記載された発明は、前記解析スコア算出手段は、前記構文スコアと、前記意味スコアを蓄積するための蓄積手段を有し、前記評価対象単語列又は前記品詞・文節境界候補が、前記蓄積手段に蓄積されている前記構文スコア及び前記意味スコアを算出した際の評価対象単語列又は品詞・文節境界候補と類似する場合に、前記蓄積手段に蓄積された構文スコア及び意味スコアを用いて、前記妥当性スコアを算出することを特徴とする。
請求項5記載の発明によれば、類似した評価対象単語列や品詞・文節境界候補に対して、動的計画法による少ない計算量で構文的・意味的妥当性スコアを求めることができる。
請求項6に記載された発明は、前記請求項1乃至5の何れか1項に記載の構文・意味解析装置を備えた音声認識装置である。
請求項6記載の発明によれば、音声認識の単語列候補の構文的・意味的な妥当性の評価、より正解率の高い音声認識候補の選択、音声認識結果やテキストの誤り修正等を実現することができる。
請求項7に記載された発明は、評価対象単語列に対する構文及び意味の解析を行う構文・意味解析処理をコンピュータに実行させるための構文・意味解析プログラムにおいて、文節内の品詞及び文節境界の生起確率である文節モデルを用いて、前記評価対象単語列の品詞・文節境界候補の探索を行い、構文スコアを算出する品詞・文節境界候補探索処理と、自立語の意味素性の文節間での依存確率である意味依存モデルを用いて、前記品詞・文節境界候補探索処理により得られる品詞・文節境界候補に対して各自立語の意味素性の文節間での依存構造の同定を行い、意味スコアを算出する意味依存構造同定処理と、前記構文スコア及び前記意味スコアに基づいて妥当性スコアを算出し、前記品詞・文節境界候補のうち、特定の妥当性スコア及び/又は特定の妥当性スコアの構文・意味解析結果を出力する解析スコア算出処理とをコンピュータに実行させる。
請求項7記載の発明によれば、評価対象単語列の構文的・意味的な妥当性に対する高精度な解析結果を取得することができる。また、実行プログラムをコンピュータにインストールすることにより、容易に構文・意味解析処理を実現することができる。
本発明によれば、単語列の構文的・意味的な妥当性に対する高精度な解析結果を取得することができる。
<本発明の概要>
本発明は、話し言葉等の現実世界の複雑な言語(単語列)や音声認識誤りを含む言語等の評価対象に対して、構文的・意味的な妥当性(人が単語列を構文や意味的な観点から妥当な(正しい)結果であると判断すること)を確率統計処理によって簡易に評価して評価対象の構文的・意味的な妥当性に対する高精度な解析結果を取得する。
具体的には、評価単語列の品詞・文節境界候補を、複数の正解単語列から得られる文節内の品詞及び文節境界の生起確率である文節モデルによって探索すると共に、構文スコアを算出する。また、品詞・文節境界候補に対して、各自立語の意味素性の文節間での依存構造を、複数の正解単語列から得られる自立語の意味素性の文節間での依存確率である意味依存モデルによって同定すると共に、意味スコアを算出する。その後、構文スコアと意味スコアから構文的・意味的妥当性スコアを算出する。
なお、以下の説明においては、構文的・意味的に妥当な単語列に対しては高いスコアを与え、妥当でない単語列に対しては低いスコアを与えているが、本発明においてはこの限りではなく、例えば、上述とは逆に構文的・意味的に妥当な単語列に対しては低いスコアを与え、妥当でない単語列に対しては高いスコアを与えてもよい。更に、妥当性の解析結果と、その構文や意味の内容に応じて重み付けしたスコアを与えてもよい。
以下に、上記のような特徴を有する本発明における構文・意味解析装置、音声認識装置、及び構文・意味解析プログラムを好適に実施した形態について、図面を用いて詳細に説明する。
<構文・意味解析装置:装置構成>
図1は、本発明における構文・意味解析装置の一構成例を示す図である。図1に示す構文・意味解析装置10は、文節モデル学習手段11と、意味依存モデル学習手段12と、品詞・文節境界候補探索手段13と、意味依存構造同定手段14と、解析スコア算出手段15とを有するよう構成されている。なお、文節モデル学習手段11及び意味依存モデル学習手段12は、自然言語における構文・意味解析の学習フェーズとしての構成であり、品詞・文節境界候補探索手段13、意味依存構造同定手段14、及び解析スコア算出手段15は、入力される評価対象単語列を評価する評価フェーズとしての構成である。以下に、構文・意味解析装置10を学習フェーズと評価フェーズとに分けて説明する。
<学習フェーズ>
まず、図1に示す学習フェーズにおいて、文節モデル学習手段11は、例えば予め構文情報・意味素性が付与された複数の単語列からなる学習テキスト21から、文節モデル22を確率統計的に学習して出力する。出力された文節モデル22は、評価フェーズの品詞・文節境界候補探索手段13に入力される。
また、意味依存モデル学習手段12は、学習テキスト21から、意味依存モデル23を確率統計的に学習して出力する。出力された意味依存モデルは、評価フェーズの意味依存構造同定手段14に入力される。
ここで、学習テキスト21に付与されている構文情報とは、単語境界、品詞、文節境界、文節係り受け等の情報である。また、意味素性とは、各単語の同義語が属するシソーラス等の分類情報のことである。これらの構文情報・意味素性は、自然言語処理で一般的な構文解析ツール(例えば、「茶筌と南瓜による日本語解析」、松本ら著、人口知能学会誌、19巻3号、2004年等)や既存のシソーラス辞書(例えば、「分類語彙表」、国立国語研究所編、大日本図書、2004年等)、あるいは単語クラスタリングによって自動作成した単語クラス辞書を利用して自動処理した後に、誤りを人手で修正する等して作成することができる。
次に、上述した文節モデル学習手段11及び意味依存モデル学習手段12について具体的に説明する。
<文節モデル学習手段11>
文節モデル学習手段11は、例えば文節内の品詞クラスモデルや品詞マルチグラムモデル(例えば、「確率的言語モデル」、北研二著、東京大学出版会、p.122〜125等)等、文節内の品詞及び文節境界に関する確率統計モデルを算出し、これを文節モデル22として出力する。
すなわち、文節モデル学習手段11は、学習テキスト21の単語列W=w,w,・・・,w,・・・,w中の単語wに対して、品詞クラスcが付与されている場合、予め設定された文節モデル、例えば文節内の品詞クラスモデルP(c|ci−1)とP(w|c)を学習する。なお、本発明においてはこの限りではなく、例えば品詞マルチグラムモデルP(c,ci−1|n単語文節)とP(n単語文節|nj−1単語文節)、あるいは品詞列単位の文節Nグラムモデル等を学習してもよい。
なお、上述したiは単語番号を表し、i=1,2,・・・,L(L:総学習単語数)からなる。また、jは文節番号を表し、j=1,2,・・・,M(M:総学習文節数であり、n∈{1,2,・・・,B(B:1文節を構成する最大の単語数)})からなる。
ここで、文節モデル学習手段11における単語列の処理について図を用いて説明する。図2は、単語列の処理の一例を示す図である。図2に示すように、例えば「家族の再会の日程です」という学習テキストに対しては、予め単語境界、品詞、文節境界が付与されている(例えば、「家族」の品詞は名詞一般、「の」の品詞は助詞等)。
ここで、文節モデルとして文節内の品詞クラスモデルを用いる場合、文節モデル学習手段11は確率統計モデルP(助詞|名詞一般)やP(文節境界|助詞)等を学習する。また、他の例として、品詞マルチグラムモデルを用いる場合には、確率統計モデルP(名詞一般、助詞|2単語文節)、P(2単語文節|2単語文節)等を学習し、品詞列単位の文節Nグラムモデルを用いる場合には、P(名詞サ変、助詞|名詞一般、助詞)等を学習する。なお、助詞等の頻度の高い単語については、統計精度を高めるため、品詞ではなく単語そのものを品詞の一つとみなすことも可能である。
<意味依存モデル学習手段12>
意味依存モデル学習手段12は、学習テキスト21のうち、文節係り受け関係にある自立語の組に対して、それらの意味素性に関する確率統計モデルを算出し、これを意味依存モデル23として出力する。
例えば、図2に示す単語列「家族の再会の日程です」という学習テキストでは、第1文節「家族の」が第2文節「再会の」に係るため、第1文節の自立語「家族」の意味素性「家族」が、第2文節の自立語「再会」の意味素性「出会い」に係る確率統計モデルP(出会い|家族)等が学習される。
なお、意味依存モデル23は、係る自立語の意味素性から受ける自立語の意味素性への条件付き確率だけでなく、受ける自立語の意味素性から係る自立語の意味素性への条件付き確率を利用することも可能である。
<評価フェーズ>
次に、構文・意味解析装置10における評価フェーズについて説明する。まず、評価対象となる文書中の単語列や音声認識の単語列候補等の評価対象単語列24が構文・意味解析装置10に入力されると、品詞・文節境界候補探索手段13は、文節モデル22によって品詞・文節境界候補を探索し、その時のそれぞれの品詞・文節境界の生起確率が最大となる単語列、又は上位から所定数の単語列を評価対象単語列の品詞・文節境界候補25として出力する。出力された評価対象単語列の品詞・文節境界候補25は、意味依存構造同定手段14に出力される。
また、品詞・文節境界候補探索手段13は、品詞・文節境界の生起確率を構文スコア26として出力する。出力された構文スコア26は、解析スコア算出手段15に入力される。
ここで、品詞・文節境界候補探索手段13における処理内容について、具体的に説明する。品詞・文節境界候補探索手段13は、文節モデル22が例えば文節内品詞クラスモデルの場合には、
maxΠP(c|ci−1)*P(w|c
により構文スコアが最大の品詞・文節境界候補を求める。また、他の例として文節モデル22が品詞マルチグラムモデルの場合には、
maxΠP(c,ci−1|n単語文節)*P(n単語文節|nj−1単語文節)
により構文スコアが最大の品詞・文節境界候補を求める。
例えば、図2に示す単語列が評価対象単語列である場合には、文頭記号<s>や文末記号</s>も文節境界<b>であるとみなして、文節モデル22が文節内品詞クラスモデルの場合には、
P(名詞一般|文節境界)*P(助詞|名詞一般)*P(文節境界|助詞)*P(名詞サ変|文節境界)*P(助詞|名詞サ変)*P(文節境界|助詞)*P(名詞一般|文節境界)*P(助動詞|名詞一般)*P(文節境界|助動詞)
による生起確率を求め、これを構文スコア26とする。
また、文節モデル22が品詞マルチグラムモデルの場合には、
P(名詞一般、助詞|2単語文節)*P(2単語文節|2単語文節)*P(名詞サ変、助詞|2単語文節)*P(2単語文節|2単語文節)*P(名詞一般、助動詞|2単語文節)
による生起確率を求め、これを構文スコア26とする。
また、文節モデル22が品詞列単位の文節Nグラムモデルの場合には、
P(名詞一般、助詞)*P(名詞サ変、助詞|名詞一般、助詞)*P(名詞一般、助動詞|名詞サ変、助詞)と任意の品詞クラスモデルとの積
による生起確率を求め、これを構文スコア26とする。
なお、上述した式中のmaxが意味するように、構文スコアが最大となる品詞・文節境界候補25だけでなく、構文スコアの高い上位から所定数の品詞・文節境界候補25を求めることも可能である。また、評価対象単語列に含まれるある単語が、複数の品詞が対応可能な多品詞語である場合には、あらゆる品詞の組み合わせの中で、構文スコア26が最大あるいは上位となる組み合わせの幾つかを品詞・文節境界候補25とする。
意味依存構造同定手段14は、評価対象単語列24と、品詞・文節境界候補25を入力し、品詞・文節境界候補25に対して、各文節の自立語(名詞、動詞、形容詞等)の意味素性を予め蓄積されている意味素性辞書27から取得し、文節間の意味素性の依存確率を意味依存モデル23によって算出して、依存確率が最大の意味依存構造を同定する。また、意味依存構造同定手段14は、各候補に対するそれぞれの確率値を意味スコア28として出力する。出力された意味スコア28は、解析スコア算出手段15に入力される。
なお、意味素性辞書27は、学習フェーズの学習テキスト21で用いたのと同一のシソーラス辞書を利用することが好ましい。これにより、学習テキストと同一のシソーラス辞書を用いて、各文節の自立語の意味素性を取得することで、高精度な意味スコアを出力することができる。
ここで、意味スコアの算出例について説明する。例えば、図2に示す単語列が評価対象単語列である場合、意味依存構造同定手段14は、第1文節の自立語「家族」の意味素性「家族」と、第2文節の自立語「再会」の意味素性「出会い」と、第3文節の自立語「日程」の意味素性「過程」に対して、
P(出会い|家族)*P(日程|出会い)
及び、
P(日程|家族)*P(日程|出会い)
の2通りの依存確率を算出し、これらの値の大きい方を意味スコア28として出力する。
なお、意味依存構造同定手段14は、前の文節から後ろの文節に係り受けすることや複数の係り受け関係が互いに交差しない等の日本語の文節の係り受けの特徴等を制約条件や重み付けとして設定することで、目的に応じた種々の意味スコアを算出することができる。
また、一つの自立語に対して複数の意味素性が対応可能な場合には、あらゆる意味素性の組み合わせの中で、自立語の意味素性の文節間での依存確率が最大となる組み合わせを採用し、その確率値を意味スコア28として出力する。
次に、解析スコア算出手段15は、品詞・文節境界候補探索手段13から得られた構文スコア26と、意味依存構造同定手段14から得られた意味スコア28の重み付けの和を算出し、算出した値を妥当性スコアとする。また、解析スコア算出手段15は、評価対象単語列24に対する品詞・文節境界候補25のうちで最大等の特定の妥当性スコアを出力する。
なお、解析スコア算出手段15は、妥当性スコアの出力だけでなく、例えば、出力される妥当性スコアに対応する品詞、文節等の構文・意味の解析結果のみを出力してもよく、また、スコア及び解析結果を出力してもよい。つまり、解析スコア算出手段15は、特定の妥当性スコア及び/又は特定の妥当性スコアの解析結果を構文的・意味的妥当性スコア・解析結果29として出力する。
また、解析スコア算出手段15は、上述した構文スコア26及び意味スコア28を一定期間保持(蓄積)しておくための蓄積手段を設けてもよい。これにより、類似した評価対象単語列24や類似した品詞・文節境界候補25に対して、動的計画法による少ない計算量で構文的・意味的妥当性スコア・解析結果29を求めることができる。これは、特に評価対象単語列24を構成する単語数が多い場合や、発話途中に音声認識の単語列候補が逐次出力されるような場合に、計算量の削減効果が高い。
上述したように、構文・意味解析装置10により、評価対象単語列の構文的・意味的な妥当性に対する高精度な解析結果を取得することができる。
なお、上述した構文・意味解析装置10においては、文節モデル学習手段11及び意味依存モデル学習手段12を有することで、予め文節モデル22及び意味依存モデル23を用意しておかなくても学習テキスト21から容易に生成することができる。しかしながら、本発明においては予め学習されている文節モデル22及び意味依存モデル23等を外部から取得する等により、文節モデル学習手段11及び意味依存モデル学習手段12を省略した構成にすることもできる。
<音声認識装置>
次に、上述した構文・意味解析装置10の適用例として、構文・意味解析装置10を音声認識装置に組み合わせた実施例について、図を用いて説明する。なお、以下の説明において、図1に示した構文・意味解析装置10と同様の構成については同一符号を用いることとし、その説明は省略する。
図3は、本発明における構文・意味解析装置を適用した音声認識装置の一構成例を示す図である。音声認識装置30は、単語列生成手段31と、構文・意味解析手段32と、言語スコア算出手段33と、音響スコア算出手段34と、正解単語列探索手段35とを有するよう構成されている。また、音声認識装置30における構文・意味解析手段32は、上述した構文・意味解析装置10のうち、上述した評価フェーズの構成のみを有したものであるが本発明においてはこの限りではなく、上述した学習フェーズの構成を有していてもよい。
音声認識しようとする音声41(X)が音声認識装置30に入力されると、単語列生成手段31は、入力音声41から例えば認識語彙辞書等に登録されている単語の集まりを生成し、その単語の集まりを音声が発せられた時間的な情報等に基づいて複数の単語列候補36を生成する。また、単語列生成手段31は、生成した単語列候補36を構文・意味解析手段32、言語スコア算出手段33、音響スコア算出手段34、及び正解単語列探索手段35に出力する。
構文・意味解析手段32は、上述したように文節モデル22及び意味依存モデル23を用いて、入力する単語列に対して構文的・意味的妥当性スコア・解析結果29を出力する。
また、言語スコア算出手段33は、入力する単語列候補36(W)に対して、予め蓄積された単語Nグラムモデル42を用いて言語的スコア43(P(W))を算出して出力する。出力された言語スコア43は、正解単語列探索手段35に入力される。
また、音響スコア算出手段34は、入力音声41(X)及び単語列候補36(W)に対して予め蓄積されている音響モデル44及び発音辞書45を用いて音響的スコア46(P(X|W))を算出して出力する。出力された音響スコア46は、正解単語列探索手段35に入力される。
正解単語列探索手段35は、本発明における構文・意味解析手段32から得られる構文的・意味的妥当性スコア・解析結果29、言語スコア43、音響スコア46に基づいて、単語列候補36に対する最大スコア及び/最大スコアの単語列を認識結果の単語列47として出力する。
なお、図3に示す音声認識装置30の構文・意味解析手段32においては、解析スコア算出手段15を設けず、構文的・意味的妥当性スコア・解析結果29の代わりに構文スコア26及び意味スコア28を直接正解単語列探索手段35に入力し、正解単語列探索手段35は言語スコア43、音響スコア46、構文スコア26、及び意味スコア28を用いて認識結果の単語列47を出力するような構成にすることもできる。
上述したように、本発明における音声認識装置30により、従来では単語列候補Wに対する言語的なスコアP(W)を単語Nグラムモデルで算出し、更に音響モデルと発音辞書により音響的スコアP(X|W)を算出した結果を用いて、
max P(W)*P(X|W)
となる単語列候補Wを認識結果として出力するだけであったが、本発明の構文・意味解析手法を音声認識装置30に組み込むことによって、文節モデルにより構文スコア(P(SY|W))を算出すると共に、意味依存モデルにより意味スコア(P(SM|SY,W))を算出し、その構文スコア(P(SY|W))及び意味スコア(P(SM|SY,W))を入力して、
max P(W)*P(X|W)*P(SY|W)*P(SM|SY,W)=max P(W,SY,SM|X)
となる単語列候補Wを認識結果として出力することができる。なお、上述の“SY”は、品詞・文節境界の文節構造を示し、“SM”は、自立語の意味素性の文節間での依存構造を示す。
以上のように、本発明の構文・意味解析手法を音声認識装置と組み合わせることにより、従来は考慮されていなかった構文的・意味的な妥当性を認識結果として出力する判断条件とすることができ、更に上述した構成により汎用的なディクテーションを目的とした数万単語規模の大語彙連続音声認識装置でも構文的・意味的な妥当性を考慮できるようになるため、従来よりも高精度な音声認識結果を取得することができる。
したがって、上述した本発明における音声認識装置を用いて音声認識の単語列候補や文書中の単語列の構文的・意味的な妥当性の評価、より正解率の高い音声認識候補の選択、音声認識結果やテキストの誤り修正等を実現することができる。
<実行プログラム>
ここで、上述した構文・意味解析装置10及び音声認識装置30は、上述した専用の装置構成等を用いて本発明における構文・意味解析処理及び音声認識処理を行うこともできるが、各構成における処理をコンピュータに実行させることができる実行プログラムを生成し、例えば、汎用のパーソナルコンピュータ、ワークステーション等にそのプログラムをインストールすることにより、本発明に係る構文・意味解析処理及び音声認識処理を実現することができる。
<ハードウェア構成>
ここで、本発明における構文・意味解析処理及び音声認識処理が実行可能なコンピュータのハードウェア構成例について図を用いて説明する。図4は、本発明における構文・意味解析処理及び音声認識処理が実現可能なハードウェア構成の一例を示す図である。
図4におけるコンピュータ本体には、入力装置51と、出力装置52と、ドライブ装置53と、補助記憶装置54と、メモリ装置55と、各種制御を行うCPU(Central Processing Unit)56と、ネットワーク接続装置57とを有するよう構成されており、これらはシステムバスBで相互に接続されている。
入力装置51は、ユーザが操作するキーボード及びマウス等のポインティングデバイス及び音声入力デバイスを有しており、ユーザからのプログラムの実行指示等、各種操作信号、音声信号を入力する。出力装置52は、本発明における処理を行うためのコンピュータ本体を操作するのに必要な各種ウィンドウやデータ等を表示するディスプレイ(モニタ)を有し、CPU56が有する制御プログラムにより実行経過や結果等を表示することができる。
ここで、本発明において、コンピュータ本体にインストールされる実行プログラムは、例えば、CD−ROM等の記録媒体58等により提供される。プログラムを記録した記録媒体58は、ドライブ装置53にセット可能であり、記録媒体58に含まれる実行プログラムが、記録媒体58からドライブ装置53を介して補助記憶装置54にインストールされる。
また、ドライブ装置53は、本発明に係る実行プログラムを記録媒体58に記録することができる。これにより、その記録媒体58を用いて、他の複数のコンピュータに容易にインストールすることができ、容易に構文・意味解析処理及び音声認識処理を実現することができる。
補助記憶装置54は、ハードディスク等のストレージ手段であり、本発明における実行プログラムや、コンピュータに設けられた制御プログラム等を蓄積し必要に応じて入出力を行うことができる。また、補助記憶装置54は、上述した構文スコア26や意味スコア28、意味素性辞書27等を蓄積する蓄積手段として用いることもできる。
CPU56は、OS(Operating System)等の制御プログラム、及びメモリ装置55により読み出され格納されている実行プログラムに基づいて、各種演算や各ハードウェア構成部とのデータの入出力等、コンピュータ全体の処理を制御して、構文・意味解析処理や音声認識処理における各処理を実現することができる。また、プログラムの実行中に必要な各種情報等は、補助記憶装置54から取得することができ、また格納することもできる。
ネットワーク接続装置57は、電話回線やLAN(Local Area Network)ケーブル等の通信ネットワーク等と接続することにより、実行プログラムを通信ネットワークに接続されている他の端末等から取得したり、プログラムを実行することで得られた実行結果又は本発明における実行プログラムを他の端末等に提供することができる。
上述したようなハードウェア構成により、特別な装置構成を必要とせず、低コストで上述した構文・意味解析処理及び音声認識処理を実現することができる。また、プログラムをインストールすることにより、容易に構文・意味解析処理及び音声認識処理を実現することができる。
<構文・意味解析処理手順>
次に、本発明における実行プログラム(構文・意味解析プログラム)を用いた構文・意味解析処理手順についてフローチャートを用いて説明する。図5は、構文・意味解析処理手順の一例を示すフローチャートである。
図5において、まず、構文情報・意味素性が付与された学習テキストを入力し(S01)、文節モデルの学習を行う(S02)。また、S01の処理にて入力された学習テキストを用いて意味依存モデルの学習を行う(S03)。なお、S01〜S03の処理は、上述した学習フェーズの処理である。
次に、評価する対象である評価対象単語列を入力し(S04)、S02により得られた文節モデルを用いて品詞・文節境界候補を探索し、品詞・文節境界候補及び構文スコアを出力する(S05)。また、S03の処理により得られた意味依存モデルと、S05の処理により得られた評価対象単語列の品詞・文節境界候補とに基づいて、単語列の意味依存構造の同定を行い、意味スコアを出力する(S06)。
次に、S05の処理により得られる構文スコア及びS06の処理により得られる意味スコアに基づいて解析スコアを算出し、特定(最大等)の構文的・意味的妥当性スコア及び/又妥当性スコアに対応する単語列を出力する(S07)。なお、S04〜S07の処理は、上述した評価フェーズの処理である。
なお、上述した構文・意味解析処理においては、予め文節モデル、意味依存モデルを取得している場合、S01〜S03の処理は省略することができる。
上述した構文・意味解析処理手順により、単語列に対して構文的・意味的妥当性の高い高精度な認識結果を出力することができる。また、プログラムをインストールすることにより、容易に構文・意味解析処理を実現することができる。
<音声認識処理手順>
次に、本発明における構文意味解析処理を有する実行プログラム(音声認識プログラム)を用いた音声認識処理手順についてフローチャートを用いて説明する。図6は、音声認識処理手順の一例を示すフローチャートである。
図6において、まず、音声認識するための音声を入力し(S11)、音声中に含まれる単語列候補の生成を行う(S12)。また、S12の処理により得られた単語列候補と、予め蓄積された単語Nグラムモデルとに基づいて言語スコアの算出を行う(S13)。また、S11の処理により得られた音声と、予め蓄積された音響モデル、発音辞書に基づいて音響スコアの算出を行う(S14)。更に、S12の処理により得られた単語列候補を評価対象単語列候補として、予め蓄積された文節モデル、意味依存モデル、意味素性辞書を用いて上述した本発明における構文・意味解析処理を行い、構文的・意味的妥当性スコアの算出を行う(S15)。
次に、S13の処理により得られた言語スコア、S14の処理により得られた音響スコア、S15の処理により得られた構文的・意味的妥当性スコアから、正解単語列の探索を行い(S16)、認識結果の単語列を出力する(S17)。
上述したように、音声認識プログラムを用いた音声認識処理により、音声認識の単語列候補や文書中の単語列の構文的・意味的な妥当性の評価、より正解率の高い音声認識候補の選択、音声認識結果やテキストの誤り修正等を実現することができる。また、プログラムをインストールすることにより、容易に音声認識処理を実現することができる。
上述したように本発明によれば、単語列の構文的・意味的な妥当性に対する高精度な解析結果を取得することができる。具体的には、文節内の品詞及び文節境界の生起確率モデルによる構文スコアと、各自立語の意味素性の文節間での依存確率モデルによる意味スコアとから、音声認識の単語列候補や文書中の単語列の構文的・意味的な妥当性を評価し、より正解率の高い音声認識候補の選択、音声認識結果やテキストの誤り修正等を可能とする。また、話し言葉等の現実世界の複雑な言語や、音声認識の探索途中結果の単語列候補等、誤りを含む言語に対しても解析処理が中断することなく、構文的・意味的妥当性スコア等の解析結果を取得することができる。
また、本発明によれば、汎用的なディクテーションを目的とした数万単語規模の大語彙連続音声認識においても、構文的・意味的な妥当性の評価を単語Nグラムモデルと効率的に組み合わせることができる。
また、本発明によれば、放送番組の字幕制作、音声対話システム、音声ワープロ、会議の議事録の自動作成、声による機器の制御等、音声認識や言語処理を利用した様々な分野の技術に適用することができる。
以上本発明の好ましい実施例について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。
本発明における構文・意味解析装置の一構成例を示す図である。 単語列の処理の一例を示す図である。 本発明における構文・意味解析装置を適用した音声認識装置の一構成例を示す図である。 本発明における構文・意味解析処理及び音声認識処理が実現可能なハードウェア構成の一例を示す図である。 構文・意味解析処理手順の一例を示すフローチャートである。 音声認識処理手順の一例を示すフローチャートである。
符号の説明
10 構文・意味解析装置
11 文節モデル学習手段
12 意味依存モデル学習手段
13 品詞・文節境界候補探索手段
14 意味依存構造同定手段
15 解析スコア算出手段
21 学習テキスト
22 文節モデル
23 意味依存モデル
24 評価対象単語列
25 評価対象単語列の品詞・文節境界候補
26 構文スコア
27 意味素性辞書
28 意味スコア
29 構文的・意味的妥当性スコア・解析結果
30 音声認識装置
31 単語列生成手段
32 構文・意味解析手段
33 言語スコア算出手段
34 音響スコア算出手段
35 正解単語列探索手段
36 単語列候補
41 入力音声
42 単語Nグラムモデル
43 言語スコア
44 音響モデル
45 発音辞書
46 音響スコア
47 認識結果の単語列
51 入力装置
52 出力装置
53 ドライブ装置
54 補助記憶装置
55 メモリ装置
56 CPU
57 ネットワーク接続装置
58 記録媒体

Claims (7)

  1. 評価対象単語列に対する構文及び意味の解析を行う構文・意味解析装置において、
    文節内の品詞及び文節境界の生起確率である文節モデルを用いて、前記評価対象単語列の品詞・文節境界候補の探索を行い、構文スコアを算出する品詞・文節境界候補探索手段と、
    自立語の意味素性の文節間での依存確率である意味依存モデルを用いて、前記品詞・文節境界候補探索手段により得られる品詞・文節境界候補に対して各自立語の意味素性の文節間での依存構造の同定を行い、意味スコアを算出する意味依存構造同定手段と、
    前記構文スコア及び前記意味スコアに基づいて妥当性スコアを算出し、前記品詞・文節境界候補のうち、特定の妥当性スコア及び/又は特定の妥当性スコアの構文・意味解析結果を出力する解析スコア算出手段とを有することを特徴とする構文・意味解析装置。
  2. 前記予め構文情報と意味素性が付与された学習テキストから前記文節モデルを学習する文節モデル学習手段と、
    前記学習テキストから前記意味依存モデルを学習する意味依存モデル学習手段とを有することを特徴とする請求項1に記載の構文・意味解析装置。
  3. 前記品詞・文節境界候補探索手段は、
    前記文節モデルを用いて品詞・文節境界候補を探索し、それぞれの品詞・文節境界の生起確率が最大となる単語列又は前記生起確率の上位から所定数の単語列を前記評価対象単語列の品詞・文節境界候補として出力することを特徴とする請求項1又は2に記載の構文・意味解析装置。
  4. 前記意味依存構造同定手段は、
    前記品詞・文節境界候補に対する各文節の自立語の意味素性を前記学習テキストと同一のシソーラス辞書により取得し、前記意味依存モデルを用いて文節間の意味素性の依存確率を算出し、依存確率最大の意味依存構造を同定し、その確率値を意味スコアとして出力することを特徴とする請求項2又は3に記載の構文・意味解析装置。
  5. 前記解析スコア算出手段は、
    前記構文スコアと、前記意味スコアを蓄積するための蓄積手段を有し、
    前記評価対象単語列又は前記品詞・文節境界候補が、前記蓄積手段に蓄積されている前記構文スコア及び前記意味スコアを算出した際の評価対象単語列又は品詞・文節境界候補と類似する場合に、前記蓄積手段に蓄積された構文スコア及び意味スコアを用いて、前記妥当性スコアを算出することを特徴とする請求項1乃至4の何れか1項に記載の構文・意味解析装置。
  6. 前記請求項1乃至5の何れか1項に記載の構文・意味解析装置を備えた音声認識装置。
  7. 評価対象単語列に対する構文及び意味の解析を行う構文・意味解析処理をコンピュータに実行させるための構文・意味解析プログラムにおいて、
    文節内の品詞及び文節境界の生起確率である文節モデルを用いて、前記評価対象単語列の品詞・文節境界候補の探索を行い、構文スコアを算出する品詞・文節境界候補探索処理と、
    自立語の意味素性の文節間での依存確率である意味依存モデルを用いて、前記品詞・文節境界候補探索処理により得られる品詞・文節境界候補に対して各自立語の意味素性の文節間での依存構造の同定を行い、意味スコアを算出する意味依存構造同定処理と、
    前記構文スコア及び前記意味スコアに基づいて妥当性スコアを算出し、前記品詞・文節境界候補のうち、特定の妥当性スコア及び/又は特定の妥当性スコアの構文・意味解析結果を出力する解析スコア算出処理とをコンピュータに実行させるための構文・意味解析プログラム。
JP2005247449A 2005-08-29 2005-08-29 構文・意味解析装置、音声認識装置、及び構文・意味解析プログラム Expired - Fee Related JP4653598B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005247449A JP4653598B2 (ja) 2005-08-29 2005-08-29 構文・意味解析装置、音声認識装置、及び構文・意味解析プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005247449A JP4653598B2 (ja) 2005-08-29 2005-08-29 構文・意味解析装置、音声認識装置、及び構文・意味解析プログラム

Publications (2)

Publication Number Publication Date
JP2007065029A true JP2007065029A (ja) 2007-03-15
JP4653598B2 JP4653598B2 (ja) 2011-03-16

Family

ID=37927354

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005247449A Expired - Fee Related JP4653598B2 (ja) 2005-08-29 2005-08-29 構文・意味解析装置、音声認識装置、及び構文・意味解析プログラム

Country Status (1)

Country Link
JP (1) JP4653598B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103377184A (zh) * 2012-04-16 2013-10-30 富士通株式会社 处理语言数据的装置、方法以及设备
CN110851560A (zh) * 2018-07-27 2020-02-28 杭州海康威视数字技术股份有限公司 信息检索方法、装置及设备
CN112163407A (zh) * 2020-10-29 2021-01-01 华东理工大学 一种基于语义依存关系的医疗文本标注方法
CN112262430A (zh) * 2018-08-23 2021-01-22 谷歌有限责任公司 自动确定经由自动助理界面接收到的口头话语的语音识别的语言
JP2022540784A (ja) * 2019-07-02 2022-09-20 サービスナウ, インコーポレイテッド 自然言語理解フレームワークでの発言についての複数意味表現の導出

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06342298A (ja) * 1993-06-01 1994-12-13 A T R Jido Honyaku Denwa Kenkyusho:Kk 音声認識方式
JP2000172294A (ja) * 1998-12-07 2000-06-23 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法、その装置及びプログラム記録媒体
JP2001092488A (ja) * 1999-09-17 2001-04-06 Atr Interpreting Telecommunications Res Lab 統計的言語モデル生成装置及び音声認識装置
JP2005084681A (ja) * 2003-09-05 2005-03-31 Internatl Business Mach Corp <Ibm> 意味的言語モデル化および信頼性測定のための方法およびシステム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06342298A (ja) * 1993-06-01 1994-12-13 A T R Jido Honyaku Denwa Kenkyusho:Kk 音声認識方式
JP2000172294A (ja) * 1998-12-07 2000-06-23 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法、その装置及びプログラム記録媒体
JP2001092488A (ja) * 1999-09-17 2001-04-06 Atr Interpreting Telecommunications Res Lab 統計的言語モデル生成装置及び音声認識装置
JP2005084681A (ja) * 2003-09-05 2005-03-31 Internatl Business Mach Corp <Ibm> 意味的言語モデル化および信頼性測定のための方法およびシステム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103377184A (zh) * 2012-04-16 2013-10-30 富士通株式会社 处理语言数据的装置、方法以及设备
CN103377184B (zh) * 2012-04-16 2016-03-30 富士通株式会社 处理语言数据的装置、方法以及设备
CN110851560A (zh) * 2018-07-27 2020-02-28 杭州海康威视数字技术股份有限公司 信息检索方法、装置及设备
CN112262430A (zh) * 2018-08-23 2021-01-22 谷歌有限责任公司 自动确定经由自动助理界面接收到的口头话语的语音识别的语言
JP2022540784A (ja) * 2019-07-02 2022-09-20 サービスナウ, インコーポレイテッド 自然言語理解フレームワークでの発言についての複数意味表現の導出
US11720756B2 (en) 2019-07-02 2023-08-08 Servicenow, Inc. Deriving multiple meaning representations for an utterance in a natural language understanding (NLU) framework
JP7346610B2 (ja) 2019-07-02 2023-09-19 サービスナウ, インコーポレイテッド 自然言語理解フレームワークでの発言についての複数意味表現の導出
CN112163407A (zh) * 2020-10-29 2021-01-01 华东理工大学 一种基于语义依存关系的医疗文本标注方法

Also Published As

Publication number Publication date
JP4653598B2 (ja) 2011-03-16

Similar Documents

Publication Publication Date Title
US11164566B2 (en) Dialect-specific acoustic language modeling and speech recognition
JP5162697B2 (ja) 情報検索手法による統一化されたタスク依存の言語モデルの生成
US7072837B2 (en) Method for processing initially recognized speech in a speech recognition session
US7567902B2 (en) Generating speech recognition grammars from a large corpus of data
US8566076B2 (en) System and method for applying bridging models for robust and efficient speech to speech translation
US11016968B1 (en) Mutation architecture for contextual data aggregator
US7805305B2 (en) Enhancement to Viterbi speech processing algorithm for hybrid speech models that conserves memory
Ostendorf et al. Human language technology: Opportunities and challenges
US20060277028A1 (en) Training a statistical parser on noisy data by filtering
CN109754809A (zh) 语音识别方法、装置、电子设备及存储介质
KR20030078388A (ko) 음성대화 인터페이스를 이용한 정보제공장치 및 그 방법
WO2003010754A1 (fr) Systeme de recherche a entree vocale
WO2016200902A2 (en) Systems and methods for learning semantic patterns from textual data
JP2011154099A (ja) 音声認識装置で利用される音声認識用辞書、音声認識用言語モデルの学習方法
KR20170090127A (ko) 음성 언어 이해 장치
Li et al. Asr2k: Speech recognition for around 2000 languages without audio
Moyal et al. Phonetic search methods for large speech databases
JP4653598B2 (ja) 構文・意味解析装置、音声認識装置、及び構文・意味解析プログラム
Stüker et al. Quaero speech-to-text and text translation evaluation systems
Mamou et al. Combination of multiple speech transcription methods for vocabulary independent search
Kuo et al. Syntactic features for Arabic speech recognition
Le et al. Automatic quality estimation for speech translation using joint ASR and MT features
Pinto et al. Design and evaluation of an ultra low-power human-quality speech recognition system
Lease et al. A look at parsing and its applications
JP2006107353A (ja) 情報処理装置および方法、記録媒体、並びにプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080122

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100618

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100706

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100824

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101124

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101217

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131224

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees