JP5066483B2 - 言語理解装置 - Google Patents

言語理解装置 Download PDF

Info

Publication number
JP5066483B2
JP5066483B2 JP2008134401A JP2008134401A JP5066483B2 JP 5066483 B2 JP5066483 B2 JP 5066483B2 JP 2008134401 A JP2008134401 A JP 2008134401A JP 2008134401 A JP2008134401 A JP 2008134401A JP 5066483 B2 JP5066483 B2 JP 5066483B2
Authority
JP
Japan
Prior art keywords
word
concept
language understanding
understanding
weight value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008134401A
Other languages
English (en)
Other versions
JP2008293019A (ja
Inventor
幹生 中野
博 奥乃
和範 駒谷
雄一朗 福林
孝太郎 船越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Publication of JP2008293019A publication Critical patent/JP2008293019A/ja
Application granted granted Critical
Publication of JP5066483B2 publication Critical patent/JP5066483B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Description

本発明は、自然言語処理に関する。特に、音声認識結果などに基づく言語理解をするための言語理解装置に関する。
音声認識に基づく言語理解のための手法として、非特許文献1には、ユーザの発話をキーワードスポッティングやヒューリスティックなルールで分類する手法が記載されている。また、非特許文献2には、コーパスを利用してコンセプトの出現確率を学習する手法が記載されている。また、非特許文献3や非特許文献4には、Weighted Finite State Transducer(WFST)を利用した手法が記載されている。
Stephanie Seneff,"TINA: A natural language system for spoken language applications.",Computational Linguistics, Vol.18, No.1, pp. 61-86, 1992. Katsuhito Sudoh and Hajime Tsukada,"Tightly integrated spoken language understanding using word-to-concept translation.",In Proc. EUROSPEECH, pp. 429-432, 2005. Alexandors Potamianos and Hong-KwangJ. Kuo.,"Statistical recursive finite state machine parsing for speech understanding.",In Proc. ICSLP, pp. 510-513, 2000. Chai Wutiwiwatchai and Sadaoki Furui,"Hybrid statistical and structural semantic modeling for Thai multi-stage spoken language understanding.",In Proc. HLT-NAACL Workshop on Spoken Language Understanding for Conversational Systems and Higher Level Linguistic Information for Speech Processing, pp. 2-9, 2004.
音声対話システムにおける言語理解として音声認識誤りに頑健なものが求められている。また、そうした言語理解装置は少量の学習データで構築できることが望ましい。学習データの収集には、大量の時間と手間がかかるので、必要な学習データが少ない方が新たな対話システムの言語理解装置を作りやすくなるからである。これまで、音声対話システムにおける言語理解装置の実装手法としていくつかの方法が提案されてきた。音声認識器に文法ベースのものを利用する方法が最も単純な方法である。この方法では、音声認識結果からシステムの内部表現であるコンセプトへの変換が容易である。しかし、ユーザの様々な表現を受け入れるためには複雑な文法を用意する必要があり、システム制作者への負担が大きい。
また、他の方法としては、ユーザの発話をキーワードスポッティングやヒューリスティックなルールで分類する手法がある(非特許文献1)。この方法では、ルールに大きな修正を加えることなくユーザの発話をコンセプトへ変換できる。しかし、複雑なルールの準備には時間や手間がかかり、文法を利用した手法と同様にシステム制作者への負担が大きい。
この問題に対処するために、コーパスを利用してコンセプトの出現確率を学習する手法(非特許文献2)やWeighted Finite State Transducer(WFST)を利用した手法(非特許文献3,非特許文献4)が提案されてきた。しかし、これらの手法は大量の学習データを必要とし、新たなドメイン向けの言語理解装置を構築するのは容易ではない。また、学習した結果は利用したコーパスのドメインに依存したものである。しかも、重みは固定なので発話の状況やユーザの変化には対応できない。
本発明は、上記の課題認識に基づいて行なわれたものであり、大量の学習データや複雑なルールを用いずに、比較的容易に構築可能でかつ頑健さも兼ね備えた言語理解装置を提供することを目的とする。
記の課題を解決するため、本発明の一態様による言語理解装置(1,201)は、遷移前状態と入力単語と出力と正の値である単語重み値情報と遷移先状態とを含む組である単語遷移データと、単数又は複数の単語に対応する言語理解結果であるコンセプトと該コンセプトに対応する正の値であるコンセプト重み値情報とを含む組であるコンセプト重みデータと、遷移前状態、任意の単語にマッチするフィラー、負の値であるフィラー重み値情報及び遷移先状態を含む組であるフィラー遷移データと、を言語理解モデルとして記憶する言語理解モデル記憶部(10,210)と、入力される単語系列に含まれる単語と現状態とに基づき、前記言語理解モデル記憶部から読み出した前記単語遷移データに従って、定義された前記出力を理解結果候補として出力し、単語重み値を累積し、前記言語理解モデル記憶部から読み出した前記フィラー遷移データに従って、フィラー重み値を累積し、前記遷移先状態に遷移する状態遷移動作を順次行なう有限状態変換器処理部(20,220)と、前記言語理解モデル記憶部から読み出した前記コンセプト重みデータに従って、前記有限状態変換器処理部から出力された前記理解結果候補に含まれるコンセプトに対応するコンセプト重み値を累積するコンセプト重み付け処理部(30,230)と、出力された複数の系列の前記理解結果候補の中から、前記累積された単語重み値と前記累積されたコンセプト重み値と前記累積されたフィラー重み値との重み付き和である累積重みが最大となる理解結果を決定する理解結果決定部(40,240)とを具備することを特徴とする。
この構成によれば、有限状態変換器処理部は、単語遷移データに基づき、入力される単語系列に従って順次状態遷移をしながら、理解結果候補を出力するとともに、その理解結果候補に対する単語重み値を累積していく。入力される単語系列に含まれるすべての単語に基づく状態遷移が終了すると、理解結果候補と累積された単語重み値が得られる。コンセプト重み付け処理部は、コンセプト重みデータに基づき、前記の理解結果候補に含まれるコンセプトについてのコンセプト重み値を累積していく。理解結果候補に含まれるすべてのコンセプトについての処理が終了すると、累積されたコンセプト重み値が得られる。理解結果候補が複数出力されたとき、それぞれに対して、累積された単語重み値と累積されたコンセプト重み値が得られている。理解結果決定部は、累積された単語重み値と累積されたコンセプト重み値に基づく所定の計算を行なうことにより、最良の候補を理解結果として決定する。このように、入力単語列に基づいて、その最良の理解結果が得られる。
つまり、WFSTに対する重みづけを、音声認識結果のレベル(単語ごとのレベル)と言語理解結果であるコンセプトのレベル(コンセプトごとのレベル)の2つのレベルで行なうことにより、膨大な学習データを用意することなく、言語理解の精度を比較的容易に向上させることができる。
この構成により、有限状態変換器処理部が取り込む単語系列に含まれる任意の単語(空単語を含む)にフィラーをマッチさせ、有限状態変換器処理部は、そのマッチに基づく状態遷移の処理を行う。また、その状態遷移の際に、フィラー重み値の累積を行なう。入力される単語系列に含まれるすべての単語による状態遷移が完了すると、理解結果候補とともに、累積されたフィラー重み値が得られる。理解結果決定部は、単語重み値とコンセプト重み値に加えて、フィラー重み値にも基づき、理解結果を決定する。
冗長な発話による単語(例えば、「えーと」、「あのー」など)がフィラーにマッチすることにより、頑健な言語理解が可能となる。
なお、単語重み値やコンセプト重み値が正の値であるとき、フィラー重み値は負の値とすることが好適である。これにより、フィラーにマッチした度合いの高い理解結果が選択されにくくなり、言語理解の精度向上の観点から都合が良い。
た、本発明の一態様は上記の言語理解装置において、前記入力される単語系列は、音声認識処理の結果得られる単語系列であり、前記言語理解モデル記憶部(10,210)は、前記音声認識処理の音声認識率に応じた前記単語重み値情報と前記コンセプト重み値情報とを記憶するものであり、前記理解結果決定部(40,240)は、前記音声認識率に応じた前記単語重み値情報に基づいて得られた前記累積された単語重み値と、前記音声認識率に応じた前記コンセプト重み値情報に基づいて得られた前記累積されたコンセプト重み値と、に基づき前記理解結果を決定するものであることを特徴とする。
この構成により、音声認識率に応じた最適な重みの種類を用いることが可能となる。単語重み値とコンセプト重み値(さらに、フィラー重み値も)のいずれを重視するかを音声認識率に応じて変えることができる。なお、予め、学習を行なっておくことにより、音声認識率に応じた最適な結果が得られる言語理解モデルを構築できる。
この結果、言語理解の精度をさらに向上させることができる。
た、本発明の一態様は上記の言語理解装置において、前記入力される単語系列は、N種類(Nは2以上の自然数)あり、前記有限状態変換器処理部(220)は、N種類の前記単語系列それぞれについて前記状態遷移動作を行なって対応する前記理解結果候補を出力するものであり、前記理解結果決定部(240)は、前記N種類の前記単語系列に対応するすべての理解結果候補の中から前記理解結果を決定するものであることを特徴とする。
この構成により、仮に言語理解の前段の音声認識の段階では2番目以下(N番目まで)の信頼度であった入力系列についても、言語理解の対象とすることができる。これらN種類の単語系列について、音声認識と言語理解の両方の段階におけるトータルな最適解を、言語理解結果として出力することができるようになる。
この結果、言語理解の精度をさらに向上させることができる。
本発明によれば、大量の学習データなどを準備して用いることなく、比較的容易に構築可能で、かつ頑健さも兼ね備えた言語理解装置を提供することができる。また、上に述べたそれぞれの解決手段により、より一層、言語理解の精度を向上させることが可能となる。
次に、本発明の実施形態について、図面を参照しながら説明する。
[第1の実施の形態]
図1は、本発明の第1の実施形態による言語理解装置の機能構成を示すブロック図である。図示するように、言語理解装置1は、言語理解モデル記憶部10と、有限状態変換器処理部20と、コンセプト重み付け処理部30と、理解結果決定部40とを含んで構成される。
図2は、同実施形態による音声応答システムの機能構成を示すブロック図である。図示するように、音声応答システムは、上記の言語理解装置1を用いて構成され、他に、音声検出部2と、音響モデル記憶部3と、ドメイン依存言語モデル記憶部4と、音声認識部5と、音声応答部6とを含んでいる。
以下においては、まず、言語理解装置1および音声応答システム100で用いている技術について詳しく説明した後で、上記構成の具体的な動作について説明する。
<概略> 音声認識結果とコンセプトへの重みづけによるWFSTに基づく音声言語理解の高精度化
Weighted Finite State Transducer(WFST,重み付き有限状態変換器)を用いた言語理解では、入力となる音声認識結果の単語列に対して、各単語に適切な重みを与えることで頑健な言語理解を実現する。しかし一般にその学習には大量のデータが必要であるため、新たなドメインで構築した音声対話システムにおいてWFSTを用いた言語理解は困難であった。そこで我々は、音声認識結果をフィラーや単語、コンセプトなどとして抽象化し、これらに対して音素数や音声認識の信頼度を利用した重みを割当てる方法を開発した。これにより、大量の学習データが用意できない状況でも頑健な言語理解装置を容易に構築できる。評価実験では、発話の音声認識率に応じて重みを適切に設定することで、言語理解精度が向上することを確認した。この結果は、音声認識率やユーザなどの状況に合わせて重みづけを選択することで言語理解精度が向上する可能性を示した。
我々は、WFSTに基づく言語理解の新しい手法を開発した。WFSTへの入力は、統計的言語モデルに基づく音声認識器による音声認識結果である。我々の手法では、WFSTに対する重みづけを、認識された単語と言語理解結果であるコンセプトの2つのレベルで行う。この重みづけは、従来手法に比べ単純であり、少ないデータで言語理解装置の構築が可能である。また、重みづけに利用する特徴量はドメイン非依存であり、一般的な音声対話システムに適用できる。評価実験では、対象とするドメインで適切なパラメータを選択することで言語理解精度が向上することを確認した。さらなる調査の結果、このパラメータは、音声認識率に依存して変化するため,我々の手法では当該ドメインで予測される音声認識率に応じて適切なパラメータを選択することで言語理解精度が向上する。この結果は、音声認識率やユーザなどの状況に応じて適切にパラメータを選択することで、適応的に言語理解精度が向上する可能性を示している。
<1.関連研究とWFSTに基づく言語理解>
音声対話システムの言語理解として、タグ付けされたコーパスを利用した学習による方法が提案されている(非特許文献2)。この方法では、コーパスから音声認識結果とそれに対応するコンセプトの組の出現確率を学習する。したがって、言語理解装置の構築には大量のタグ付けされたコーパスが必要であり、新たなドメインの言語理解装置を構築するのは容易ではない。言語理解の手法として、WFSTを利用した方法も提案されている(非特許文献3,非特許文献4)。ここでまず、FSTについて簡単に説明する。一般に、FSTは入力列に対して、状態を遷移しながら入力に応じた列を出力するオートマトンで、一種の変換器とみなせる。WFSTでは、各状態遷移に対して重みを設定でき、最終的な出力列の他に累積重みが得られる。図3にWFSTの例を示す。この図では、“a:y/0.7”は“a”が入力されたら“y”を出力し、0.7を累積重みに足して遷移することを示している。この例では、入力“abbd”に対して“yzz”が出力される。その時の累積重みは2.5である。
FSTに基づく言語理解装置では、音声認識結果を入力し、出力として言語理解結果を得る。図4はビデオ予約システムの言語理解装置のFSTの例である。入力のεは、入力なしでの遷移が可能であることを表す。この例では、「開始時間は10時30分です」という入力列に対して、「開始時間は $ 10時 hour=10 $ 30分 minute=30 です」という出力列が得られる(「$」は何も出力されなかった場合を考慮したダミー記号である)。最終的に言語理解結果として、[hour=10, minute=30]を得る。しかし、この方法では「えーと開始時間は10時30分です」という入力に対しては、「えーと」に対して遷移先がなく、言語理解結果が得られない。そこで、我々は任意の入力を受け入れるFILLER(フィラー)遷移を導入した。0回以上のFILLER遷移(図4の‘F’)を各フレーズ間に挿入することで、フィラーの影響を受けることなく正しい言語理解結果が得られる。
しかしながら、FILLER遷移を導入すると、ひとつの入力列に対して何通りもの出力列が結果として得られることになる。ひとつの入力列に対して、WFST上での遷移は何通りもあるからである。WFSTに基づく言語理解では、何通りもある出力列から累積重みw が最も大きいものを言語理解結果として採用する。図5(A)では、累積重みwが2.0と最も高い[hour=10, minute=30]が言語理解結果として採用される。また、図5(B)は、入力列に含まれる一部の単語にFILLERがマッチする例と、それぞれの言語理解結果とを示す。図5(B)の1行目の入力列「well, start at 10 30 please」については「well,」がFILLERにマッチし、言語理解結果は「hour=10,minute=30」となる。同じく2行目の入力列「OK, well, start at 10 30 please」については「OK,」と「well,」がFILLERにマッチし、言語理解結果は「hour=10,minute=30」となる。また、以下同様である。
WFSTを利用した従来の手法では、各遷移の重みを大量のコーパスから学習していた(非特許文献3,非特許文献4)。しかし,コーパスの収集には大きな労力が必要で、新たなドメインの言語理解装置の構築は難しかった。また、重みは固定であるので、発話の状況やユーザの違いにより言語理解精度が大きく変わる可能性がある。特に、言語理解は音声認識の精度に強く依存したものであり、その精度に応じたモデル化が必要である。我々の手法では、重みづけを音声認識結果の単語の長さや信頼度などのドメインに非依存な特徴量を利用して行う。したがって、大量のコーパスがなくても容易に言語理解装置を構築できる。さらに、評価実験では音声認識率ごとに最適な重みづけの組み合わせを調べ、すべての発話に対して同じ重みづけをした場合よりも言語理解精度が向上することを確認した。
<2.音声認識結果とコンセプトに対する重みづけ>
我々はWFSTに対する重みづけを2つのレベルで定義する。ひとつは、音声認識結果に対する重みづけで単語レベルで信頼できる出力結果を選択するために設定する。もうひとつは、コンセプトに対する重みづけでコンセプトレベルで信頼できる出力結果を選択するために設定する。コンセプトに対する重みづけは、認識された単語よりも抽象的なレベルでの正しさを反映する。また、音声認識結果に対する重みづけは受理単語に対する重みづけとFILLERに対する重みづけの2つに分けられる。本節では、これらの重みづけを説明する。
<2.1 受理単語に対する重みづけ>
WFSTに入力し受理された単語、つまりFILLER以外の単語に対して重みづけを行う。この重みづけでは、音声認識結果の単語レベルで信頼できる単語に対してより大きな重みを与える。通常は、フィラー以外の単語が出力列に多くなるように、音声認識結果が信頼できる入力が優先されるように設定する。我々は、この重みづけwを以下のように設計した。
(1)word(const.): w=1.0
(2)word(#phone): w=l(W)
(3)word(CM): w=CM(W)
word(const.)は受理された全ての単語に対して一定の重みを加える。この重みづけは、受理単語の数が多い出力を優先するための設計である。word(#phone)は、各受理単語の長さを考慮に入れた重みづけである。各単語の長さは、それぞれの音素数で計算し、システムの語彙中で最も長い単語の長さで正規化する。単語Wに対してこの正規化された値をl(W)(0<l(W)≦1)とする。word(#phone)は、入力列の長さをword(const.)よりも詳細に表現していると言える。さらに、受理単語の信頼度を考慮に入れたword(CM)も提案する。この重みづけは、音声認識結果中の単語Wに対する信頼度CM(W)を利用している。この重みづけは、Wに対する音声認識結果がどれだけ信頼できるかを反映しており、長くかつ信頼できる出力列を優先するための設計と言える。
ここで、単語Wに対する信頼度CM(W)とは、音声認識処理の際に単語Wが認識結果候補の一部に含まれるとき、この単語Wの尤度と、対立候補である他の単語の尤度との関係により算出される。対立候補の尤度に比して当該候補(単語W)の尤度が相対的に高いほど、信頼度CM(W)は高い値となる。なお、単語Wに対する信頼度CM(W)については、下記の文献にも記載されている。
文献: Akinobu Lee, Kiyohiro Shikano, and Tatsuya Kawahara,“Real-time word confidence scoring using local posterior probabilities on tree trellis search.”,In Proc. ICASSP, Vol.1, pp. 793-796, 2004.
<2.2 FILLERに対する重みづけ>
我々はフィラーに対する重みも設計した。すべての入力単語をフィラーとして扱えるので、フィラーに対する重みはペナルティとして考え、負の値を設定した。一般的には、入力となる音声認識結果が信頼でき、正しい理解結果が含まれているならば、フィラーが少なくかつ短い出力列を優先するように設定する。我々は、受理単語に対する重みづけと同様にして以下のように重みづけwを2 種類設計した。
(1)FILLER(const.): w=−1.0
(2)FILLER(#phone): w=−l(W)
FILLER(const.)はフィラーの数に対するペナルティであり、FILLER(#phone)はフィラーとされた単語の長さも考慮したペナルティである。
<2.3 コンセプトに対する重みづけ>
我々は、単語レベルでの重みに加えて、コンセプトレベルにおける重みも設計した。コンセプトは、複数の単語から成り,音声認識結果をWFSTに入力することで得られる。コンセプトに対する重みは、それぞれのコンセプトに含まれる単語の信頼度などを用いて計算する。
我々は、以下のように重みづけwを5 種類設計した。
(1)cpt(const.): w=1.0
(2)cpt(avg):
Figure 0005066483
(3)cpt(min):
Figure 0005066483
(4)cpt(lenCM(avg)):
Figure 0005066483
(5)cpt(lenCM(min)):
Figure 0005066483
但し、W(太字)は当該コンセプトに含まれる単語の集合で、Wは集合W(太字)に含まれる単語である。また、#W(太字)はW(太字)に含まれる単語の数である。
cpt(const.)は、1発話から得られるコンセプトが多くなるようにするための重みづけである。また、cpt(avg)やcpt(min)はコンセプトを構成する単語の認識結果が信頼できないものを棄却するための設定である。cpt(lenCM(avg))やcpt(lenCM(min))は、コンセプトに含まれる単語の信頼度の他にそれらの長さも考慮に入れた重みづけである。どちらもコンセプト部分が長くかつ信頼できる発話を優先するための設定である。cpt(avg)やcpt(lenCM(avg))で平均を計算しているのは、コンセプトを構成するすべての単語の影響を反映するためである。また、cpt(min)やcpt(lenCM(min))で最小値を選ぶのは、不当に信頼度が高い単語による湧き出し誤りを防ぐためである。
<2.4 累積重みの計算>
言語理解結果は、以上で示した3種類の重みw,w,wの重みつき和である累積重みwによって選ばれる。言語理解装置は、累積重みw が最も大きい出力列を選ぶ。
Figure 0005066483
累積重みw の計算方法を図6を用いて説明する。この例では、パラメータとしてword(CM),FILLER(const.),cpt(lenCM(avg))を選択している。入力が「いいえ2月22日です」である場合、この表では受理単語に対する重みの総和は3.5αで、FILLERに対する重みの総和は−1.0αである。また、コンセプト“month=2”に対する重みα(0.9・0.9)/1=0.81αとコンセプト“day=22”に対する重みα(1.0・0.9+0.9・0.6)=0.72αにより、コンセプトに対する重みの総和は1.53αである。したがって、この入力列に対する累積重みwは3.5α−1.0α+1.53αとなる。
<3.評価実験>
<3.1 実験条件>
上の「2.音声認識結果とコンセプトに対する重みづけ」で定義した重みづけを実験的に評価する。実験ではまず、ユーザ発話の音声認識結果をWFSTに入力し、累積重みwが最も高い出力列を言語理解結果として採用する。この言語理解結果を正解データと比較して言語理解精度を計算する。なお、言語理解が得られない「なし」が正解であることもあるので、音声認識率が0%でも言語理解精度が100%になることはありうる。実験では、重みづけや各重みの係数α,α,αをさまざまな組合せで変化させ言語理解精度を比べた。係数αは1.0に固定し,他の係数αとαを0,0.5,1.0,2.0,3.0,4.0,5.0と変化させた。α=0あるいはα=0は、対応する重みが利用されないことを表している。
実験では、ビデオ予約ドメインの4186発話とレンタカー予約ドメインの3281発話を用いた。ビデオ予約ドメインは25人の被験者の8対話から、レンタカー予約ドメインは23人の被験者の8対話から発話を収集した。音声認識器はJulius(http://julius.sourceforge.jp/)を用いた。言語モデルは、各ドメインの認識文法から生成した例文10000文から作成した統計的言語モデルである。ビデオ予約ドメインの言語モデルの語彙サイズは209で、レンタカー予約ドメインの言語モデルの語彙サイズは226であった。平均の音声認識率(本稿では音声認識率を挿入誤りまで考慮して計算したので、音声認識率は負になることもある。)はビデオ予約ドメインで80.3%、レンタカー予約ドメインで52.8%であった。それぞれのドメインの言語理解の正解は、書き起こしをWFSTに入力して作っている。
<3.2 すべての発話に対して最適なパラメータの組み合わせ>
本稿では、入力に対して単純に文法との最長一致をとる言語理解をベースラインとする。このベースラインは、重みづけをw=word(const.)に、αを0に(FILLERに対する重みづけは利用しない)、αを0に(コンセプトに対する重みづけは利用しない)する場合が相当する。
全発話に対して最適な重みと係数の組み合わせを求めた。ビデオ予約ドメインでは、w=word(const.),α=1.0,w=FILLER(#phone),α=5.0,w=cpt(lenCM(avg))の時で平均言語理解精度は87.3%、レンタカー予約ドメインでは、w=word(CM),α=0.5,w=FILLER(#phone),α=0の時で平均言語理解精度は65.0%であった。ビデオ予約ドメインのベースラインの平均言語理解精度は81.5%で、最適時とそれほど大きな差はなかった。これは、ビデオ予約ドメインの平均音声認識率が80.3%と比較的高かったことが原因であると考えられる。つまり、音声認識に誤りがほとんどないならば、単純に最も長く一致するような出力結果を選択すればよいということである。一方で、レンタカー予約ドメインの平均音声認識率は52.8%と低く、最適時の平均言語理解精度65.0%と比べて、ベースラインでは45.5%と大きな差ができている。つまり、音声認識率が低い場合、最適となる組み合わせはベースラインとして設定した組み合せとは異なる。
<3.3 音声認識率に合わせたパラメータの組み合わせ>
3.2節の結果より、最適な重みづけの組み合わせは発話の音声認識率に合わせて決定すると改善することが分かる。そこで、音声認識率ごとに適切なパラメータの組み合わせを調べた。発話データを音声認識率ごとに分類し、それぞれの音声認識率ごとに言語理解精度を計算した。そして、各認識精度ごとにベースラインと言語理解精度を比べた。図7、図8はその結果である。表中のクラス10〜30は、音声認識率が10%以上30%未満であることを表す。ただし、90〜100は100%も含む。
この表からすべてのクラスでベースラインより言語理解精度が向上していることが分かる。特にレンタカー予約ドメインでは、言語理解精度がベースラインと比べて大きく向上している。
この結果から、どちらのドメインでも音声認識率が高い発話では受理単語に対する重みづけとして、word(const.)やword(#phone)が有効で、音声認識率が低い発話ではword(CM)が有効であることが分かる。特にレンタカー予約ドメインではその傾向が強い。これは、発話が正しく認識されているときは、受理単語が最も多い出力を選択し、音声認識率があまりよくないときには、信頼できる部分だけを選択すると正しい言語理解が得られるからであると考えられる。
両ドメインのどのクラスでもフィラーに対するペナルティが必要であることが分かる。これは、フィラーによるコンセプトの湧き出し誤りを抑制する必要があるためと考えられる。また、どちらのドメインでもほとんどのクラスでFILLER(#phone)が最適である。確かに、フィラーは言語理解には意味のない情報であるから、単語数よりも音素数(継続時間) の方がペナルティの基準としては適切であると考えられる。
コンセプトに対する重みは、どちらのドメインでも必要であり、単語レベルの重みに加えて、コンセプトレベルの重みも有効であることが示されている。レンタカー予約ドメインの−∞ 〜 100(全発話)クラスでは、コンセプトに対する重みはなしが最適となっているが、cpt(lenCM(avg))やcpt(lenCM(min))としても言語理解精度は64.9%とほとんど変わらない。どちらのドメインでも、ほとんどのクラスでcpt(avg)やcpt(lenCM(min))など単語信頼度を利用したものが最適である。コンセプトに対する重みとして単語信頼度が有効に働いていると言える。
以上に示した結果は、重みづけのパラメータの組み合わせを音声認識率に応じて適切に選択することで、言語理解精度が向上することを示している。音声対話システムにおける音声認識率は、それほど大量の発話データがなくても計算できる。したがって、我々の手法は、大量のコーパスが用意できない新しいドメインにおいて言語理解装置を構築する場合に効果的であると言える。また、今回の実験の結果は、事前に認識率を計算できなくても、ユーザや状況に合わせて重みづけの組み合せを変えることで、言語理解精度が向上する可能性を示していると考えられる。例えば、ユーザが音声対話システムに慣れていない初心者ならば低い音声認識率に合わせたパラメータを選択し、周囲が静かで雑音が少ない環境ならば高い音声認識率に合わせたパラメータを選択すれば、言語理解精度のさらなる向上が期待できる。
最後に本手法の動作例を図9に示す。この例では、ユーザの発話は「ろくがつみっかおねがいします」であるが「ろくがつみっかあーふぃっとおねがいします」(「FIT」は登録商標)と誤って認識されている。ベースライン手法では、単純に受理単語が最も多くなるように「ふぃっとおねがいします」(「FIT」は登録商標)が受理され、「ろくがつ」「みっか」は誤って棄却されてしまう。一方で、我々の手法では、「ろくがつ」「みっか」の信頼度やフィラーの長さを考慮することで正しい言語理解結果が得られる。
ここで、図1に戻って、言語理解装置1の各部の動作について説明する。
言語理解装置1には、音声認識結果が入力される。この音声認識結果は、単語の列である。また、この音声認識結果に、前段の音声認識の処理の際の音声認識率のデータや、単語ごとの信頼度のデータが含まれていても良い。
言語理解モデル記憶部10は、単語遷移データとコンセプト重みデータとを言語理解モデルとして記憶している。また、言語理解モデルにフィラー遷移データが含まれていても良い。単語遷移データは、入力される単語による状態遷移を定義するデータであり、遷移前状態と入力単語と出力と単語重み値情報と遷移先状態との組のデータが複数含まれている。フィラー遷移データは、任意の単語(空単語も含む)の入力による状態遷移を定義するデータであり、遷移前状態と任意の単語にマッチするフィラーとフィラー重み値情報と遷移先状態との組のデータが複数含まれている。コンセプト重みデータは、コンセプトに対する重みを定義するためのデータであり、コンセプトとそのコンセプトに対応するコンセプト重み値情報との組のデータが複数含まれている。
なお、単語重み値情報、フィラー重み値情報、コンセプト重み値情報は、それぞれの重み値としてどの種類(関数)を使うかという情報と、複数種類の重み(w,w,w)の重みつき和である累積重みwを算出する際のパラメータであるα,α,αの値をそれぞれ含んでいる。また、言語理解モデルが、音声認識率の範囲ごとに最適な単語重み値情報、フィラー重み値情報、コンセプト重み値情報を持つようにしても良い。
有限状態変換器処理部20は、入力される単語系列に含まれる単語と現状態とに基づき、言語理解モデル記憶部10から読み出した単語遷移データに従って、定義された出力を理解結果候補として出力し、単語重み値を累積するとともに、遷移先状態に遷移する状態遷移動作を順次行なう。また、フィラーを用いる場合には、任意の単語(空単語を含む)をフィラーとしてマッチさせ、フィラー遷移データに従って、フィラー重み値を累積するとともに遷移先状態に遷移する状態遷移動作を行なう。なお当然、一つの出力系列(理解結果候補)を得るために、フィラーによる遷移とフィラー以外の入力単語による遷移とが混合しても良い。なお、有限状態変換器処理部20の内部のメモリを適宜更新することにより遷移中の現状態を一時的に保持する。
有限状態変換器処理部20は、上記の処理の結果として、上記の定義された出力の系列を理解結果候補としてコンセプト重み付け処理部30に渡す。一つの入力系列に対して複数の理解結果候補が出力される。また、各々の理解結果候補について、累積された単語重み値(Σα)が出力される。また、フィラーを用いる場合には、累積されたフィラー重み値(Σα)も各々の理解結果候補について出力される。
コンセプト重み付け処理部30は、言語理解モデル記憶部10から読み出したコンセプト重みデータに従って、有限状態変換器処理部20から出力された理解結果候補に含まれるコンセプトに対応するコンセプト重み値を累積する処理を行なう。その結果、有限状態変換器処理部20からの出力に加えて、コンセプト重み付け処理部30は、累積されたコンセプト重み値(Σα)を各理解結果候補について出力する。
なお、コンセプトは、予め定めておくスロットとそのスロットに対応する値の組とする。言語理解結果(候補も含む)は、コンセプトの集合である。例えば、[month=2,day=22]という言語理解結果(候補)は、スロット「month」に値「2」が設定され、スロット「day」に値「22」が設定されたコンセプトにより構成される。言語理解結果(候補)は、予め定められた言語理解モデルに従って有限状態変換器処理部20が出力した系列である。つまり、言語理解モデルを参照することにより、コンセプトと単語集合との対応付けがわかる。つまり、コンセプト重み付け処理部30は、言語理解モデルを参照することによって、理解結果候補に対応するコンセプト重み値を算出することができる。
理解結果決定部40は、出力された複数の系列の理解結果候補の中から、累積された単語重み値と累積されたコンセプト重み値とに基づき理解結果を決定し出力する。また、フィラーを用いる場合には、理解結果決定部40は、累積された単語重み値と累積されたフィラー重み値と累積されたコンセプト重み値とに基づき理解結果を決定し出力する。
なお、上記の一連の処理において、音声認識率に基づいて言語理解処理を行なう場合には、有限状態変換器処理部20とコンセプト重み付け処理部30は、入力される音声認識率の情報に基づき、言語理解モデル記憶部10からその音声認識率に該当するデータを読み出して処理を行なう。
次に、図2に示した音声応答システム100の各部の動作について説明する。
音声検出部2は、マイクを通して入力される外部からの音声信号に基づき、利用者の声の区間を検出し、その音声区間の音声波形のデータを出力する。
音響モデル記憶部3は、音素ごとの音響特徴量のデータを音響モデルとして予め記憶している。音響特徴量としては、例えば、MFCC(Mel-Frequency Cepstrum Coefficient、メル周波数ケプストラム係数)などを用いる。ドメイン依存言語モデル記憶部4は、当該ドメインにおける単語出現頻度や、当該ドメインにおける複数の単語間の接続確率(条件付き確率)のデータをドメインに依存する言語モデルとして予め記憶している。音声認識部5は、音響モデル記憶部3から読み出した音響モデルとドメイン依存言語モデル記憶部4から読み出した言語モデルとを用いて、音声検出部2から渡される音声波形データの音声認識処理を行い、その結果として得られる最尤単語系列を、音声認識結果として出力する。
言語理解装置1は、音声認識部5から出力された単語系列を基に、上述した言語理解処理を行い、その結果得られる理解結果を出力する。そして、応答生成部6は、得られた理解結果を基に、当該ドメイン特有の処理(例えば、レンタカー予約や、ビデオ予約など)を行い、その結果として利用者に対する応答を出力する。この応答は、文字列データとして出力するようにしても良いし、音声合成処理によって合成音声として出力するようにしても良い。
我々は、音声対話システムにおけるWFSTを利用した言語理解装置を開発した。利用するWFSTでは、2レベルの重みづけを設計した。この2レベルの重みづけは、認識単語レベルの言語理解とコンセプトレベルの言語理解に対応している。これらの重みは、音声認識結果中の単語の音素数や信頼度を利用して計算される。したがって、重みづけが比較的単純であり、新たなドメイン向けの言語理解装置の構築が容易である。
評価実験では、2つの異なるドメインの発話データに対して、音声認識率ごとに最適なパラメータを求めた。音声認識率ごとにパラメータを選択することで、ベースラインと比べて言語理解精度が向上することを確認した。また、2つのドメインの音声認識率と最適な重みづけの違いから、音声認識率と最適な重みづけの関係を考察した。この結果は、音声認識率やユーザなどの発話の状況に合わせた重みづけによる言語理解精度の向上の可能性を示したと言える。
[第2の実施形態]
次に、本発明の第2の実施形態について説明する。本実施形態では、音声認識結果のNベスト候補(N−Best候補)を利用する。Nベスト候補を利用すれば、認識結果の第1候補に正しい認識結果が含まれていない場合でも、Nベスト候補中に正しい認識結果が含まれていれば、その結果を利用して言語理解精度のさらなる向上が可能となる。
図10は、本実施形態による言語理解装置の機能構成を示すブロック図である。図示するように、言語理解装置201は、言語理解モデル記憶部210と、有限状態変換器処理部220と、コンセプト重み付け処理部230と、理解結果決定部240とを含んで構成される。言語理解装置201が第1の実施形態による装置と異なる点は、主として、入力される音声認識結果がNベスト(Nは2以上の自然数)である点である。以下では、第1の実施形態と共通の事項については記載を省略し、本実施形態特有の事項を中心に説明する。
本実施形態による言語理解装置は、音声認識部5からのNベスト出力の音声認識結果を入力とする。Nベスト出力とは、音声認識結果の候補のうち信頼度が高い上位N個の単語列である。
本実施形態の有限状態変換器処理部220とコンセプト重み付け処理部230は、音声認識結果のNベスト候補の文それぞれの全ての出力系列に対して、3種類の重みw,w,wの重み付き和wを計算し理解結果候補を出力する。その後、理解結果決定部240は、それらの全ての出力系列の中で最も重み付き和wの大きい出力列(言語理解結果候補)を選ぶことにより、言語理解結果を決定する。
図11は、音声認識結果のNベスト出力の一例を示す概略図である。図示する例では、ランクにおいて1番目の音声認識結果は「No, it is January twenty second」(いいえ、1月22日です)であり、2番目の音声認識結果は「No, it is February twenty second」(いいえ、2月22日です)である。本実施形態の言語理解装置は、ランクにおいて1番目の音声認識結果だけでなく、2番目の音声認識結果による言語理解結果も言語理解結果候補となり得る。そして、重み付き和wの結果に応じて、2番目あるいはそれ以下のランクの音声認識結果に基づく言語理解結果候補が最終的に出力される。
なお、上述した実施形態における言語理解装置や音声応答システムの機能の全部または一部をコンピュータで実現するようにしても良い。その場合、それらの機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこれらの実施形態に限られるものではなく、これらの実施形態を変形した実施形態や、この発明の要旨を逸脱しない範囲の設計等も含まれる。
例えば、有限状態変換器処理部とコンセプト重み付け処理部を一体として構成しても良い。これは、言い換えれば、有限状態変換器処理部の処理をすべて終えてからコンセプト重み付け処理部の処理を行なう代わりに、有限状態変換器処理部による状態遷移動作をしながら、入力単語系列のうちの直前のj語(jは、適宜決められる整数)の系列に基づいてコンセプトを同定し、そのコンセプトに対応するコンセプト重み値を順次累積していくという処理方法である。なお、このように有限状態変換器処理部による処理とコンセプト重み付け処理部による処理が一部並行して行なわれる場合にも、コンセプト重み付け処理部が、言語理解モデル記憶部から読み出したコンセプト重みデータに従って、有限状態変換器処理部から出力された理解結果候補に含まれるコンセプトに対応するコンセプト重み値を累積していることには変わりはない。
また例えば、上述した実施形態では、有限状態変換器処理部とコンセプト重み付け処理部が、音声認識率に応じて選んだ単語重み値情報、フィラー重み値情報、コンセプト重み値情報を用いて累積重みを算出していたが、その代わりに、有限状態変換器処理部とコンセプト重み付け処理部の側では必要となる可能性のあるすべての種類の重み値を算出しておき、理解結果決定部40において音声認識率に応じて最終的な全体の重みを算出するようにしても良い。
また例えば、音声認識結果のNベスト候補を用いる場合、これらの候補についての音声認識処理の信頼度をも加味して理解結果決定部が理解結果候補の中から理解結果を決定するようにしても良い。
本発明は、機械による音声言語理解に応用できる。具体的には、例えば、音声によるヒューマン・マシン・インタフェース(ビジネスシステムにおけるヒューマン・インタフェースや、人とロボットとの間のコミュニケーションや、人と乗り物(自動車など)との間のコミュニケーションなど)に利用できる。
本発明の第1の実施形態による言語理解装置の機能構成を示すブロック図である。 同実施形態による音声応答システムの機能構成を示すブロック図である。 WFSTの例を示す概略図である。 ビデオ予約システムの言語理解装置におけるフィラー(「F」で表わす)を導入したFSTの例を示す概略図である。 同実施形態による言語理解結果(候補)とその累積重みwの例を示す概略図である。 同実施形態により特定のパラメータを選択したときの重み付けの計算例を示す概略図である。 同実施形態による、音声認識率に応じた最適な重み付けの組み合わせの例を示す概略図(ビデオ予約ドメイン)である。 同実施形態による、音声認識率に応じた最適な重み付けの組み合わせの例を示す概略図(レンタカー予約ドメイン)である。 同実施形態による言語理解装置の動作例を示した概略図である。 本発明の第2の実施形態による言語理解装置の機能構成を示すブロック図である。 同実施形態による言語理解装置への入力となる音声認識結果のNベスト出力を示す概略図である。
符号の説明
1,201 言語理解装置
10,210 言語理解モデル記憶部
20,220 有限状態変換器処理部(WFST)
30,230 コンセプト重み付け処理部
40,240 理解結果決定部

Claims (3)

  1. 遷移前状態と入力単語と出力と正の値である単語重み値情報と遷移先状態とを含む組である単語遷移データと、単数又は複数の単語に対応する言語理解結果であるコンセプトと該コンセプトに対応する正の値であるコンセプト重み値情報とを含む組であるコンセプト重みデータと、遷移前状態、任意の単語にマッチするフィラー、負の値であるフィラー重み値情報及び遷移先状態を含む組であるフィラー遷移データと、を言語理解モデルとして記憶する言語理解モデル記憶部と、
    入力される単語系列に含まれる単語と現状態とに基づき、前記言語理解モデル記憶部から読み出した前記単語遷移データに従って、定義された前記出力を理解結果候補として出力し、単語重み値を累積し、前記言語理解モデル記憶部から読み出した前記フィラー遷移データに従って、フィラー重み値を累積し、前記遷移先状態に遷移する状態遷移動作を順次行なう有限状態変換器処理部と、
    前記言語理解モデル記憶部から読み出した前記コンセプト重みデータに従って、前記有限状態変換器処理部から出力された前記理解結果候補に含まれるコンセプトに対応するコンセプト重み値を累積するコンセプト重み付け処理部と、
    出力された複数の系列の前記理解結果候補の中から、前記累積された単語重み値と前記累積されたコンセプト重み値と、前記累積されたフィラー重み値と、の重み付き和である累積重みが最大となる理解結果を決定する理解結果決定部と、
    を具備する言語理解装置。
  2. 請求項1に記載の言語理解装置において、
    前記入力される単語系列は、音声認識処理の結果得られる単語系列であり、
    前記言語理解モデル記憶部は、前記音声認識処理の音声認識率に応じた前記単語重み値情報と前記コンセプト重み値情報とを記憶するものであり、
    前記理解結果決定部は、前記音声認識率に応じた前記単語重み値情報に基づいて得られた前記累積された単語重み値と、前記音声認識率に応じた前記コンセプト重み値情報に基づいて得られた前記累積されたコンセプト重み値と、に基づき理解結果を決定するものである、
    ことを特徴とする言語理解装置。
  3. 請求項1又は2に記載の言語理解装置において、
    前記入力される単語系列は、N種類(Nは2以上の自然数)あり、
    前記有限状態変換器処理部は、N種類の前記単語系列それぞれについて前記状態遷移動作を行なって対応する前記理解結果候補を出力するものであり、
    前記理解結果決定部は、前記N種類の前記単語系列に対応するすべての理解結果候補の中から前記理解結果を決定するものである、
    ことを特徴とする言語理解装置。
JP2008134401A 2007-05-22 2008-05-22 言語理解装置 Expired - Fee Related JP5066483B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US93942207P 2007-05-22 2007-05-22
US60/939,422 2007-05-22

Publications (2)

Publication Number Publication Date
JP2008293019A JP2008293019A (ja) 2008-12-04
JP5066483B2 true JP5066483B2 (ja) 2012-11-07

Family

ID=39592581

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008134401A Expired - Fee Related JP5066483B2 (ja) 2007-05-22 2008-05-22 言語理解装置

Country Status (4)

Country Link
US (1) US8244522B2 (ja)
EP (1) EP2003572B1 (ja)
JP (1) JP5066483B2 (ja)
DE (1) DE602008002017D1 (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
JP5530729B2 (ja) 2009-01-23 2014-06-25 本田技研工業株式会社 音声理解装置
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
JP5311500B2 (ja) * 2010-02-05 2013-10-09 Kddi株式会社 音声認識装置
US8650031B1 (en) * 2011-07-31 2014-02-11 Nuance Communications, Inc. Accuracy improvement of spoken queries transcription using co-occurrence information
US9594744B2 (en) * 2012-11-28 2017-03-14 Google Inc. Speech transcription including written text
JP6245846B2 (ja) 2013-05-30 2017-12-13 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 音声認識における読み精度を改善するシステム、方法、およびプログラム
US10102851B1 (en) * 2013-08-28 2018-10-16 Amazon Technologies, Inc. Incremental utterance processing and semantic stability determination
US8825585B1 (en) * 2014-03-11 2014-09-02 Fmr Llc Interpretation of natural communication
US9898459B2 (en) 2014-09-16 2018-02-20 Voicebox Technologies Corporation Integration of domain information into state transitions of a finite state transducer for natural language processing
EP3195145A4 (en) 2014-09-16 2018-01-24 VoiceBox Technologies Corporation Voice commerce
US9747896B2 (en) 2014-10-15 2017-08-29 Voicebox Technologies Corporation System and method for providing follow-up responses to prior natural language inputs of a user
US9792095B2 (en) 2014-11-25 2017-10-17 Symbol Technologies, Llc Apparatus and method for converting a procedure manual to an automated program
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
WO2018023106A1 (en) 2016-07-29 2018-02-01 Erik SWART System and method of disambiguating natural language processing requests
JP6599914B2 (ja) 2017-03-09 2019-10-30 株式会社東芝 音声認識装置、音声認識方法およびプログラム
US11449762B2 (en) 2018-02-20 2022-09-20 Pearson Education, Inc. Real time development of auto scoring essay models for custom created prompts
WO2019164981A1 (en) 2018-02-20 2019-08-29 Pearson Education, Inc. Systems and methods for automated evaluation model customization
CN108564941B (zh) * 2018-03-22 2020-06-02 腾讯科技(深圳)有限公司 语音识别方法、装置、设备及存储介质
CN112884440B (zh) * 2021-03-02 2024-05-24 岭东核电有限公司 核电试验中的试验工序执行方法、装置和计算机设备

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6009382A (en) * 1996-08-19 1999-12-28 International Business Machines Corporation Word storage table for natural language determination
US6377949B1 (en) * 1998-09-18 2002-04-23 Tacit Knowledge Systems, Inc. Method and apparatus for assigning a confidence level to a term within a user knowledge profile
US6278968B1 (en) * 1999-01-29 2001-08-21 Sony Corporation Method and apparatus for adaptive speech recognition hypothesis construction and selection in a spoken language translation system
JP2001188783A (ja) 1999-12-28 2001-07-10 Sony Corp 情報処理装置および方法、並びに記録媒体
US6859778B1 (en) * 2000-03-16 2005-02-22 International Business Machines Corporation Method and apparatus for translating natural-language speech using multiple output phrases
US7197460B1 (en) * 2002-04-23 2007-03-27 At&T Corp. System for handling frequently asked questions in a natural language dialog service
US7299180B2 (en) * 2002-12-10 2007-11-20 International Business Machines Corporation Name entity extraction using language models
JP4293340B2 (ja) 2003-02-18 2009-07-08 幸宏 伊東 対話理解装置
JP2005257917A (ja) 2004-03-10 2005-09-22 Nippon Telegr & Teleph Corp <Ntt> 音声解釈方法、音声解釈装置、音声解釈プログラム
JP4661239B2 (ja) 2005-01-31 2011-03-30 日産自動車株式会社 音声対話装置及び音声対話方法
US8898052B2 (en) * 2006-05-22 2014-11-25 Facebook, Inc. Systems and methods for training statistical speech translation systems from speech utilizing a universal speech recognizer
US7437291B1 (en) * 2007-12-13 2008-10-14 International Business Machines Corporation Using partial information to improve dialog in automatic speech recognition systems
JP5530729B2 (ja) * 2009-01-23 2014-06-25 本田技研工業株式会社 音声理解装置

Also Published As

Publication number Publication date
US8244522B2 (en) 2012-08-14
JP2008293019A (ja) 2008-12-04
DE602008002017D1 (de) 2010-09-16
US20080294437A1 (en) 2008-11-27
EP2003572B1 (en) 2010-08-04
EP2003572A1 (en) 2008-12-17

Similar Documents

Publication Publication Date Title
JP5066483B2 (ja) 言語理解装置
US9911413B1 (en) Neural latent variable model for spoken language understanding
US9972318B1 (en) Interpreting voice commands
US10678504B1 (en) Maintaining context for voice processes
US10923111B1 (en) Speech detection and speech recognition
US8019602B2 (en) Automatic speech recognition learning using user corrections
US10170107B1 (en) Extendable label recognition of linguistic input
US10446147B1 (en) Contextual voice user interface
JP4301102B2 (ja) 音声処理装置および音声処理方法、プログラム、並びに記録媒体
Souvignier et al. The thoughtful elephant: Strategies for spoken dialog systems
JP4195428B2 (ja) 多数の音声特徴を利用する音声認識
JP4705023B2 (ja) 音声認識装置、音声認識方法、及びプログラム
JP5172021B2 (ja) 自動音声認識音響モデルの適合
US20030216912A1 (en) Speech recognition method and speech recognition apparatus
JP2011033680A (ja) 音声処理装置及び方法、並びにプログラム
JP2005010691A (ja) 音声認識装置、音声認識方法、会話制御装置、会話制御方法及びこれらのためのプログラム
JP2013218095A (ja) 音声認識サーバ統合装置および音声認識サーバ統合方法
JP4072718B2 (ja) 音声処理装置および方法、記録媒体並びにプログラム
JP2007047412A (ja) 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置
US20020116190A1 (en) Method and system for frame alignment and unsupervised adaptation of acoustic models
JP6552999B2 (ja) テキスト補正装置、テキスト補正方法、およびプログラム
JP4634156B2 (ja) 音声対話方法および音声対話装置
JP7192882B2 (ja) 発話リズム変換装置、モデル学習装置、それらの方法、およびプログラム
US20040006469A1 (en) Apparatus and method for updating lexicon
JP2000172294A (ja) 音声認識方法、その装置及びプログラム記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101126

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111024

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120717

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120813

R150 Certificate of patent or registration of utility model

Ref document number: 5066483

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150817

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees