JP2011018327A - 質問応答データベース拡張装置および質問応答データベース拡張方法 - Google Patents
質問応答データベース拡張装置および質問応答データベース拡張方法 Download PDFInfo
- Publication number
- JP2011018327A JP2011018327A JP2010153020A JP2010153020A JP2011018327A JP 2011018327 A JP2011018327 A JP 2011018327A JP 2010153020 A JP2010153020 A JP 2010153020A JP 2010153020 A JP2010153020 A JP 2010153020A JP 2011018327 A JP2011018327 A JP 2011018327A
- Authority
- JP
- Japan
- Prior art keywords
- question
- response
- database
- speech recognition
- recognition result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000004044 response Effects 0.000 claims description 271
- 238000001514 detection method Methods 0.000 claims description 35
- 230000006870 function Effects 0.000 claims description 23
- 238000011156 evaluation Methods 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 description 37
- 238000010586 diagram Methods 0.000 description 13
- 230000014509 gene expression Effects 0.000 description 9
- 239000000284 extract Substances 0.000 description 8
- 238000012549 training Methods 0.000 description 6
- 241000288113 Gallirallus australis Species 0.000 description 5
- 238000007635 classification algorithm Methods 0.000 description 5
- 230000009118 appropriate response Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 239000000470 constituent Substances 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
【解決手段】質問と質問に対応する応答とが関連づけられて登録されている質問応答データベース14と、音声入力部に入力された音声信号を質問応答データベースに基づく言語モデルを用いて音声認識を行い認識結果である第1の音声認識結果を出力する第1音声認識部12と、入力された音声信号を大語彙データベースに基づく言語モデルを用いて音声認識を行い認識結果である第2の音声認識結果を出力する第2音声認識部13と、第1の音声認識結果と第2の音声認識結果に基づき入力された音声の中から前記質問応答データベースに登録されていない未登録発話を検出し、検出した未登録発話を出力する質問検出部(17,18)とを備える。
【選択図】図1
Description
請求項2に記載した発明によれば、質問応答データベースに未登録の発話を文章単位で自動的に検出することができる。
請求項3に記載した発明によれば、第1の音声認識結果に基づく質問と質問に対応した応答とが質問応答データベースに登録されているか否かの判別結果と、第2の音声認識結果に基づく質問と質問に対応した応答とが質問応答データベースに登録されているか否かの判別結果と、第1の音声認識結果に基づく第1の特徴量と、第2の音声認識結果に基づく第2の特徴量とを用いて質問応答データベースに含まれていない発話を検出するようにしたので、質問応答データベースに未登録の発話を精度良く自動的に検出することができる。
請求項4に記載した発明によれば、第1の特徴量と第2の特徴量と用いて行った学習結果に基づき、質問応答データベースに登録されているか否かの判別を行う判別関数を算出し、判別関数で算出した評価値に基づき質問応答データベースに含まれていない発話を検出するようにしたので、質問応答データベースに未登録の発話を精度良く自動的に検出することができる。
請求項5に記載した発明によれば、質問応答データベースに未登録の発話にみられる複数の特徴量を用いて質問応答データベースに含まれていない発話を検出するようにしたので、質問応答データベースに未登録の発話を精度良く自動的に検出することができる。
図1は、第1実施形態における質問応答データベース拡張装置のブロック図である。図1のように、質問応答データベース拡張装置1は、マイク11と、第1音声認識部12と、第2音声認識部13と、質問応答DB14と、第1応答選択部15と、第2応答選択部16と、特徴量算出部17と、DB外の質問検出部18と、提示部19とを備えている。
以上のように、第1音声認識部12は、確率的なデータベースから生成した言語モデルを用いてユーザ発話の認識を行い、一方、第2音声認識部13は、多数の語彙から生成したモデルを用いてユーザ発話の認識を行っている。
さらに、質問文「仙川にある公園について教えてください」と「仙川に広場はありますか」に対して、応答文「仙川には武者小路実篤の公園があります」が関連づけられ、ペアで登録されている。このように、質問応答ペアは、質問文1つに対して応答文1つではなく、1つの応答分と複数の応答文とを関連づけて質問応答ペアとして登録してもよい。
また、図2のように、応答文と、応答文に対応する画像データ(武者小路実篤公園の写真)とを関連づけて登録しておいてもよく、この場合、提示部19に応答文に合わせて登録されている画像データを表示するようにしてもよい。
図3は、質問者(ユーザ)の発話(質問)に対する初期データベースに基づく応答選択と拡張データベースに基づく応答選択の例を示す図である。使用したコンテンツは、タウン情報であり、232個の質問応答ペアを予め作成し、データベース作成者が質問応答DB14に登録を行った。また、質問文例の数は890、言語モデルの語彙サイズは460である。データ収集は、質問者は、提示部19上に表示されているキャラクターエージェントに向かって質問し、質問者が知りたい情報を聞き出すという形態で行った。また、評価は25人の話者(ユーザ、質問者)にしてもらった質問のうち最初の25発話分を用い、すなわち25発話×25人分=625発話のデータを用いた。
「Trans+IniDB」は、ユーザ発話から書き起こした発話(Trans)を用いて、初期DB(IniDB)に基づき応答選択を行った結果である。「Trans+ExpDB」は、ユーザ発話から書き起こした発話(Trans)を用いて、拡張DB(ExpDB)に基づき応答選択を行った結果である。「ASR+IniDB」は、ユーザ発話から音声認識により得られた発話(ASR)を用いて、初期DB(IniDB)に基づき応答選択を行った結果である。
符号の欄114は、「ユーザ発話から書き起こした発話を用いて初期DBに基づき応答選択を行った結果」と「ユーザ発話から書き起こした発話を用いて拡張DBに基づき応答選択を行った結果」とが一致し、且つ音声認識を用いての発話が誤認識した場合であり、このような発話が15発話あったことを示している。
符号の欄115は、「ユーザ発話から書き起こした発話を用いて初期DBに基づき応答選択を行った結果」と「ユーザ発話から書き起こした発話を用いて拡張DBに基づき応答選択を行った結果」とが一致し、且つ「ユーザ発話から音声認識により得られた発話を用いて初期DBに基づき応答選択を行った結果」、質問応答ペアが初期DBに存在しなかった場合であり、このような発話が31発話あったことを示している。
「ユーザ発話から書き起こした発話を用いて初期DBに基づき応答選択を行った結果」と「ユーザ発話から書き起こした発話を用いて拡張DBに基づき応答選択を行った結果」とが一致する場合とは、質問応答システムから応答があり、その応答がユーザ発話の意図と合致するもの、すなわち適切な応答であった発話が292発話(欄111〜115の合計発話数)あったことを示している。
符号の欄123は、「ユーザ発話から書き起こした発話を用いて初期DBに基づき応答選択を行った結果」と「ユーザ発話から書き起こした発話を用いて拡張DBに基づき応答選択を行った結果」とが一致せず、且つ「ユーザ発話から音声認識により得られた発話を用いて初期DBに基づき応答選択を行った結果」と「ユーザ発話から書き起こした発話を用いて拡張DBに基づき応答選択を行った結果」は一致した場合であり、このような発話が2発話あったことを示している。
符号の欄124は、「ユーザ発話から書き起こした発話を用いて初期DBに基づき応答選択を行った結果」と「ユーザ発話から書き起こした発話を用いて拡張DBに基づき応答選択を行った結果」とが一致せず、且つ「ユーザ発話から音声認識により得られた発話を用いて初期DBに基づき応答選択を行った結果」、誤認識した場合であり、このような発話が26発話あったことを示している。
符号の欄125は、「ユーザ発話から書き起こした発話を用いて初期DBに基づき応答選択を行った結果」と「ユーザ発話から書き起こした発話を用いて拡張DBに基づき応答選択を行った結果」とが一致せず、且つ「ユーザ発話から音声認識により得られた発話を用いて初期DBに基づき応答選択を行った結果」、質問応答ペアが初期DBに存在しなかった場合であり、このような発話が4発話あったことを示している。
そして、「ユーザ発話から書き起こした発話を用いて初期DBに基づき応答選択を行った結果」と「ユーザ発話から書き起こした発話を用いて拡張DBに基づき応答選択を行った結果」とが一致しない場合とは、質問応答システムから応答があったが、ユーザ発話の意図と異なるもの、すなわち適切な応答でなかった発話が76発話(欄122〜125の合計発話数)あったことを示している。
符号の欄134は、「ユーザ発話から書き起こした発話を用いて初期DBに基づき応答選択を行った結果」、質問応答ペアが初期DBに存在せず、且つ「ユーザ発話から音声認識により得られた発話を用いて初期DBに基づき応答選択を行った結果」、誤認識した場合であり、このような発話が38発話あったことを示している。
符号の欄135は、「ユーザ発話から書き起こした発話を用いて初期DBに基づき応答選択を行った結果」、質問応答ペアが初期DBに存在せず、且つ「ユーザ発話から音声認識により得られた発話を用いて初期DBに基づき応答選択を行った結果」、質問応答ペアが初期DBに存在しなかった場合であり、このような発話が91発話あったことを示している。
「ユーザ発話から書き起こした発話を用いて初期DBに基づき応答選択を行った結果」質問応答ペアが初期DBに存在しない場合の合計発話数は、135発話(欄13欄123〜135の合計発話数)あったことを示している。
さらに、拡張DBを用いても応答が得られなかった場合、ノイズ、区間誤りを含む発話数が122発話(欄143〜145の合計発話数)あったことを示している。
「Trans+IniDB」の認識と「Trans+ExpDB」の認識の結果が異なるが、理解結果が正解と一致する場合、データベース内にその質問に対しての質問応答ペアが存在するため応答を行う。なお、理解結果とは、検討に用いた質問応答DB14を有する質問応答システムが、質問に対する応答を選択した結果である。キーフレーズが一致するかだけではキーフレーズが適切に登録されていない場合、ユーザ意図であるユーザが聞きたかった応答が得られないこともあり得る。すなわち、「Trans+IniDB」と「Trans+ExpDB」が一致していないことよりユーザが意図した応答とは異なるため、キーフレーズの指定方法に修正の必要があるか、または、ユーザがその内容についてより詳しい内容を要求している場合が考えられる。
すなわち、ユーザ発話の意図とシステムの理解が異なる場合、またユーザの発話がもともとデータベースに存在しない場合、データベースのコンテンツに追加すべきと考えられる。
以上のように、データベースに追加すべき発話は、欄123のデータベース外の発話がデータベース内にあると誤って分類された場合と、欄133〜135の実際にデータベース外の発話である。
次に、第1音声認識部12と第2音声認識部13が行う音声認識について説明する。第1音声認識部12は、隠れマルコフモデルによる音響モデルと、トライグラム(3単語の連鎖確率)による初期質問DBから生成した言語モデルdbを利用した公知の音声認識を用いる。そして、第1音声認識部12は、入力された音声信号から単語列を抽出し、音響スコアと言語スコアを算出する。さらに、第1音声認識部12は、各単語の信頼度を算出する。さらに、第1音声認識部12は、入力された音声信号と所定の整数n(結果の最大数)に対して、次式(1)の認識結果列を生成して、生成した認識結果列を、第1応答選択部15と特徴量算出部17に出力する。また、入力された音声信号における音声の長さをdとする。
この場合、第1音声認識部12は、次式(3)〜(7)の認識結果Rdb,iを認識結果として第1応答選択部15と特徴量算出部17に出力する。
次に、特徴量算出部17が行う特徴量の算出方法について説明する。特徴量算出部17には、第1音声認識部12が生成した式(1)の認識結果列と第2音声認識部13が生成した認識結果列と第1応答選択部15の判定結果と第2応答選択部16の判定結果とが入力される。
図4は、本実施形態における特徴量の例を説明する図である。図4において、Fdb1〜Fdb18は、第1音声認識部12による初期質問応答DBに基づく認識結果から抽出される特徴量であり、Flv1〜Flv9は、第2音声認識部13による大語彙DBに基づく認識結果から抽出される特徴量であり、Fdblv1とFdblv2は、第1音声認識部12による認識結果と第2音声認識部13による認識結果との差である。なお、図4において、システムとは、本実施形態における質問応答データベース拡張装置を適用した質問応答システムである。
Fdb1は、第1応答選択部15の判定結果そのものであり、システムが質問応答DB14外と判断したかどうかの判別結果(選択された応答の有無)である。すなわち、第1応答選択部15が、質問文に対応する応答が質問応答DB14に登録されているか否かを判別した結果である。質問文に対応する応答が質問応答DB14に登録されていた場合、特徴量算出部17が第1応答選択部15は質問応答DB14内に応答が存在する(有)と設定する。質問文に対応する応答が質問応答DB14に登録されていない場合、特徴量算出部17が第1応答選択部15は質問応答DB14内に応答が存在しない(無)、すなわち、応答が質問応答DB14外と設定する。応答が、質問応答DB14に存在していなかった場合、第1音声認識部12による誤認識、またはユーザ発話が質問応答DB14外である可能性が高い。
特徴量算出部17は、以上のように算出した特徴量をDB外の質問検出部18に出力する。
DB外の質問検出部18は、まず訓練データを、wekaを用いて学習させて、入力された特徴量を、wekaを用いて学習させる。また、分類のアルゴリズムには、NavieBayesを用いる。なお、学習に用いるツールは他の手法でも良く、また分類のアルゴリズムも他の手法でも良い。
DB外の質問検出部18が行う質問応答DB14外の質問検出は、図3で説明したように質問応答DB14に追加すべき発話を検出することである。すなわち、質問応答DB14外の発話であるのに、質問応答DB14内にあると誤って認識された発話や、実際の質問応答DB14外の発話を検出する。
図6は、2つの2次元正規母集団に対する線形判別関数の概略を説明する図である。図6において、線形判別関数101により、母集団111と母集団112とに分類されていることを表している。例えば、この母集団111がDB外の発話に相当し、母集団112がDB内の発話に相当する。なお、判別関数として線形判別関数を用いる例を説明したが、他の判別関数でもよく、学習の方法や判別方法はこれに限られず、他の公知の手法を用いても良い。
一例として、『仙川の本屋について教えてください』が、すでに質問応答DB14に登録されていて、キーフレーズとして{仙川}と{本屋}が登録されているとする。次に、『仙川の本屋さんはどこにありますか』という発話が入力された場合、この発話のキーフレーズとして{仙川}と{本屋}と{どこ}が抽出される。この発話から抽出された3つのキーフレーズのうち、すでに2つのキーフレーズ{仙川}と{本屋}が質問応答DB14に登録されているので、『仙川の本屋さんはどこにありますか』という質問文とキーフレーズ{どこ}、および質問に対する応答を、データベース作成者が質問応答DB14に登録する。また、提示部19に提示する情報は、質問者毎に提示しても良く、または、複数の質問者についてまとめて提示するようにしてもよい。質問応答DBに登録されていない質問文が複数存在していると判断された場合、質問者順に提示してもよく、または、質問応答DBに登録されているキーフレーズと質問に含まれるキーフレーズとが一致している割合に基づき優先順位を提示部19が算出して表示するようにしてもよい。
この結果、データベース作成者が、全てのユーザ発話を聞き取ってデータベースの拡張を行うことなく、または全てのユーザ発話を書き起こすことなくデータベースの拡張を行うことができる。
第1実施形態では、検出した質問応答DBに追加すべき発話を提示部19に提示し、提示された発話を質問応答DBの作成者が登録する方法について説明した。検出された発話の登録は、質問応答データベース拡張装置が自動的に行うことも可能である。図7は、本実施形態おける質問応答データベース拡張装置のブロック図である。第1実施形態と同じ機能部は、同じ符号を用いて説明は省略する。第1実施形態における構成との差異は質問応答DB14aとDB外の質問検出部18aと登録部201である。
この結果、データベース作成者が、全てのユーザ発話を聞き取ってデータベースの拡張を行うことなく、または全てのユーザ発話を書き起こすことなくデータベースの拡張を行うことができる。
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM(Read Only Memory)、CD−ROM等の可搬媒体、USB(Universal Serial Bus) I/F(インタフェース)を介して接続されるUSBメモリー、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
次に、本実施形態の質問応答データベース拡張装置を適用した質問応答システムを用いて実験を行った結果を説明する。
実験は、質問応答データベースを拡張するための検討を行った625発話(25人、各25発話)のうち、書き起こしの発話分類でも該当する応答のなかったノイズなど(T4)を除いた505発話を用いた。また、分類器は、抽出した特徴量をデータマイニングツールであるwekaを用いて学習させて生成した。また、分類のアルゴリズムには、NavieBayesを用いた。
ベースライン1の「全てデータベース外発話と判断」とは、全ての発話をデータベース外と判別することであり、質問応答データベース拡張装置を適用していない質問応答システムである。ベースライン2の「iniDB」とは、全ての発話を初期データベースで判断することであり、質問応答データベース拡張装置を適用していない質問応答システムである。なお、実施形態による方法(提案手法)においては、NavieBayesを用いて学習を行い、10−fold cross validation(交差検定)を用いて学習と評価を行った。
図8のように、ベースライン1の手法による結果は、F値は高くなっているが、実際検出をしているわけではないので良い結果ではない。ベースライン2の手法の結果は、LMdbの結果を、IniDB(初期データベース)を用いて応答選択を行ったとき、その結果がデータベース外となっているかどうかという情報のみを用いたものであるが、分類精度は高くないことがわかる。さらに、実施形態による方法(提案手法)の評価結果は、ベースラインより高い判別精度が得られた。
次に,判別精度向上に最も効果のある特徴量について検討した結果を説明する。検討は、1つの特徴量を削除し評価値を求めるという手順を、それぞれの特徴量について行うことで、どの特徴量が最も寄与しているかを検討した。質問文が質問応答DB外であることを検出する上で有効な特徴量の上位5個と、その特徴量を削除した場合のF 値は、図9のような結果であった。図9は、特徴量を1つ削除した場合の評価値の一例を示す図である。
図9のように、有効だった特徴量は、発話分類に使用したキーフレーズの音声認識信頼度の最小値であるFdb15であり、特徴量Fdb15を削除した場合のF値は0.685であった。また、有効だった特徴量は、LMdbとLMlvの第一候補の音響モデルの差Fdblv1であり、特徴量Fdblv1を削除した場合のF値は0.685であった。さらに、有効だった特徴量は、LMdbの認識結果の候補数であるFdb16であり、特徴量Fdb16を削除した場合のF値は0.685であった。さらに、有効だった特徴量は、LMdbの認識結果の単語数であるFdb11であり、特徴量Fdb11を削除した場合のF値は0.688であった。さらに、有効だった特徴量は、LMdbのキーフレーズのJulius confidence(信頼度)の平均値であるFdb13であり、特徴量Fdb13を削除した場合のF値は0.688であった。
Fdb15とFdb13は,キーフレーズの音声認識結果がどれくらい正しいかを示唆している。Fdb11は、認識の精度を示し、Fdb16は、単語数が多ければ複数のトピックについての質問の可能性であるということを示唆している。さらに、差Fdblv1は、LMdbとLMlvの認識結果が、どれくらい実際の音声発話とずれているかを示唆している。以上により、キーフレーズが正しく認識されたかの推定が有効な特徴量であることが確認できた。
DB外の質問検出部18の判別部が行う学習において、大量のデータが必要であるならば、学習データを構築する際に書き起こし等が必要となるため,データベース拡張の際に、データベース作成者の労力削減にならない。このため、DB外の質問検出部18の判別部の訓練データ数が少ない場合の判別精度を確認した。図10は、学習データ量を変化させた場合の判別精度の一例を示す図であり、図11は、図10の結果をグラフに示した図である。図10のように、図8に結果を示した実験結果で用いた10−fold cross validationの場合のF値0.698と比較すると学習データ数を削減した場合のF値(0.602〜0.665)は低い。しかしながら、ベースラインの手法によるF値0.401よりは高い。このため、本実施形態による方法は、学習データ数を削減した場合においても有効である。
11・・・マイク
12・・・第1音声認識部
13・・・第2音声認識部
14・・・質問応答DB
15・・・第1応答選択部
16・・・第2応答選択部
17・・・特徴量算出部
18・・・DB外の質問検出部
19・・・提示部
Claims (6)
- 質問と当該質問に対応する応答とが関連づけられて登録されている質問応答データベースと、
入力された音声信号を前記質問応答データベースに基づく言語モデルを用いて音声認識を行い、認識結果である第1の音声認識結果を出力する第1音声認識部と、
前記入力された音声信号を大語彙データベースに基づく言語モデルを用いて音声認識を行い、認識結果である第2の音声認識結果を出力する第2音声認識部と、
前記第1の音声認識結果と前記第2の音声認識結果に基づき、前記入力された音声の中から前記質問応答データベースに登録されていない未登録発話を検出し、検出した前記未登録発話を出力する質問検出部と、
を備えることを特徴とする質問応答データベース拡張装置。 - 前記質問検出部は、前記入力された音声のうち前記質問応答データベースに登録されていない未登録発話を文章単位で検出する
ことを特徴とする請求項1に記載の質問応答データベース拡張装置。 - 前記第1の音声認識結果に基づく質問と当該質問に対応した応答とが、前記質問応答データベースに登録されているか否かを判別する第1応答選択部と、
前記第2の音声認識結果に基づく質問と当該質問に対応した応答とが、前記質問応答データベースに登録されているか否かを判別する第2応答選択部と、
をさらに備え、
前記質問検出部は、前記第1の音声認識結果に基づく第1の特徴量を算出し、前記第2の音声認識結果に基づく第2の特徴量を算出し、算出した前記第1の特徴量と算出した前記第2の特徴量と前記第1応答選択部による判別結果と前記第2応答選択部による判別結果とを用いて前記質問応答データベースに含まれていない発話を検出する
ことを特徴とする請求項1または請求項2に記載の質問応答データベース拡張装置。 - 前記質問検出部は、前記第1の特徴量と前記第2の特徴量と用いて学習を行い、学習結果に基づき、前記質問応答データベースに登録されているか否かの判別を行う判別関数を算出し、前記判別関数で算出した評価値に基づき、前記質問応答データベースに含まれていない発話を検出する
ことを特徴とする請求項3に記載の質問応答データベース拡張装置。 - 前記第1の特徴量は、前記音声認識を行ったときに得られたあいづちに基づく発話の有無、発話の長さ、前記音声認識を行ったときに得られた音響スコア、前記音声認識を行ったときに得られた言語スコア、前記第1の音声認識結果の認識精度、前記第1の音声認識結果の信頼度に基づいて得られる値のうち一以上であり、または、前記第2の特徴量は、前記音声認識を行ったときに得られたあいづちの有無、発話の長さ、前記音声認識を行ったときに得られた音響スコア、前記音声認識を行ったときに得られた言語スコアに基づいて得られる値のうち一以上である
ことを特徴とする請求項3または請求項4に記載の質問応答データベース拡張装置。 - 質問応答データベース拡張装置の質問応答データベース拡張方法において、
質問と当該質問に対応する応答とが関連づけられて登録されている質問応答データベースと、
第1音声認識部が、入力された音声信号を前記質問応答データベースに基づく言語モデルを用いて音声認識を行い、認識結果である第1の音声認識結果を出力する第1音声認識工程と、
第2音声認識部が、前記入力された音声信号を大語彙データベースに基づく言語モデルを用いて音声認識を行い、認識結果である第2の音声認識結果を出力する第2音声認識工程と、
質問検出部が、前記第1の音声認識結果と前記第2の音声認識結果に基づき、前記入力された音声の中から前記質問応答データベースに登録されていない未登録発話を検出し、検出した前記未登録発話を出力する質問検出工程と、
を備えることを特徴とする質問応答データベース拡張方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US22381709P | 2009-07-08 | 2009-07-08 | |
US61/223,817 | 2009-07-08 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011018327A true JP2011018327A (ja) | 2011-01-27 |
JP5377430B2 JP5377430B2 (ja) | 2013-12-25 |
Family
ID=43428162
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010153020A Expired - Fee Related JP5377430B2 (ja) | 2009-07-08 | 2010-07-05 | 質問応答データベース拡張装置および質問応答データベース拡張方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8515764B2 (ja) |
JP (1) | JP5377430B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016099967A (ja) * | 2014-11-26 | 2016-05-30 | 株式会社ユニバーサルエンターテインメント | 情報提供システム、情報提供方法、及びプログラム |
WO2019208222A1 (ja) * | 2018-04-27 | 2019-10-31 | 日本電信電話株式会社 | 回答選択装置、回答選択方法、回答選択プログラム |
JP2020184294A (ja) * | 2019-04-26 | 2020-11-12 | Arithmer株式会社 | 対話管理サーバ、対話管理方法、及びプログラム |
US11487953B2 (en) | 2019-11-19 | 2022-11-01 | Samsung Electronics Co., Ltd. | Method and apparatus with natural language processing |
JP7466143B2 (ja) | 2020-03-16 | 2024-04-12 | カラクリ株式会社 | 情報処理装置、学習提案プログラム、及び学習提案方法 |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8812321B2 (en) * | 2010-09-30 | 2014-08-19 | At&T Intellectual Property I, L.P. | System and method for combining speech recognition outputs from a plurality of domain-specific speech recognizers via machine learning |
CN102479510A (zh) * | 2010-11-24 | 2012-05-30 | 株式会社东芝 | 用于生成语音标签的方法和装置 |
CN102737631A (zh) * | 2011-04-15 | 2012-10-17 | 富泰华工业(深圳)有限公司 | 互功式语音识别电子装置及方法 |
US8560567B2 (en) | 2011-06-28 | 2013-10-15 | Microsoft Corporation | Automatic question and answer detection |
EP2864982B1 (en) * | 2012-06-22 | 2018-10-17 | Visteon Global Technologies, Inc. | Multi-pass vehicle voice recognition systems and methods |
KR101961139B1 (ko) * | 2012-06-28 | 2019-03-25 | 엘지전자 주식회사 | 이동 단말기 및 그것의 음성 인식 방법 |
US9336269B1 (en) | 2013-03-14 | 2016-05-10 | Google Inc. | Determining question and answer alternatives |
US10380177B2 (en) | 2015-12-02 | 2019-08-13 | International Business Machines Corporation | Expansion of a question and answer database |
US20170229124A1 (en) * | 2016-02-05 | 2017-08-10 | Google Inc. | Re-recognizing speech with external data sources |
WO2017200081A1 (ja) * | 2016-05-20 | 2017-11-23 | 日本電信電話株式会社 | 取得方法、生成方法、それらのシステム、及びプログラム |
JP6777002B2 (ja) * | 2017-04-27 | 2020-10-28 | トヨタ自動車株式会社 | 対話装置、対話方法及び対話プログラム |
JP6940428B2 (ja) * | 2018-02-15 | 2021-09-29 | アルパイン株式会社 | 検索結果提供装置および検索結果提供方法 |
JP6775545B2 (ja) * | 2018-05-09 | 2020-10-28 | 日本電信電話株式会社 | 対話データ生成装置、対話データ生成方法、およびプログラム |
CN109346065A (zh) * | 2018-11-14 | 2019-02-15 | 深圳航天科创智能科技有限公司 | 一种语音识别方法及系统 |
CN110706704A (zh) * | 2019-10-17 | 2020-01-17 | 四川长虹电器股份有限公司 | 用于生成语音交互原型的方法、装置和计算机设备 |
WO2024006431A1 (en) * | 2022-06-29 | 2024-01-04 | Cytel Inc. | Systems and methods for systematic literature review |
CN116932731B (zh) * | 2023-09-18 | 2024-01-30 | 上海帜讯信息技术股份有限公司 | 面向5g消息的多模态知识问答方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06274539A (ja) * | 1993-03-18 | 1994-09-30 | Fujitsu Ltd | 質疑応答システム |
JP2004118740A (ja) * | 2002-09-27 | 2004-04-15 | Toshiba Corp | 質問応答システム、質問応答方法、質問応答プログラム |
JP2004295396A (ja) * | 2003-03-26 | 2004-10-21 | Osaka Gas Co Ltd | 受付処理支援装置 |
JP2005190100A (ja) * | 2003-12-25 | 2005-07-14 | Toshiba Corp | 質問応答システムおよび方法 |
WO2006085661A1 (ja) * | 2005-02-08 | 2006-08-17 | Nec Corporation | 質問応答データ編集装置、質問応答データ編集方法、質問応答データ編集プログラム |
JP2008033835A (ja) * | 2006-07-31 | 2008-02-14 | Fujitsu Ltd | オペレータ支援プログラム、オペレータ支援装置およびオペレータ支援方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7392185B2 (en) * | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
US7725307B2 (en) * | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US7050977B1 (en) * | 1999-11-12 | 2006-05-23 | Phoenix Solutions, Inc. | Speech-enabled server for internet website and method |
US6526382B1 (en) * | 1999-12-07 | 2003-02-25 | Comverse, Inc. | Language-oriented user interfaces for voice activated services |
GB0027178D0 (en) * | 2000-11-07 | 2000-12-27 | Canon Kk | Speech processing system |
JP2003255991A (ja) * | 2002-03-06 | 2003-09-10 | Sony Corp | 対話制御システム、対話制御方法及びロボット装置 |
US20030191639A1 (en) * | 2002-04-05 | 2003-10-09 | Sam Mazza | Dynamic and adaptive selection of vocabulary and acoustic models based on a call context for speech recognition |
US7640164B2 (en) * | 2002-07-04 | 2009-12-29 | Denso Corporation | System for performing interactive dialog |
US7584103B2 (en) * | 2004-08-20 | 2009-09-01 | Multimodal Technologies, Inc. | Automated extraction of semantic content and generation of a structured document from speech |
US8301448B2 (en) * | 2006-03-29 | 2012-10-30 | Nuance Communications, Inc. | System and method for applying dynamic contextual grammars and language models to improve automatic speech recognition accuracy |
-
2010
- 2010-07-05 JP JP2010153020A patent/JP5377430B2/ja not_active Expired - Fee Related
- 2010-07-08 US US12/832,426 patent/US8515764B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06274539A (ja) * | 1993-03-18 | 1994-09-30 | Fujitsu Ltd | 質疑応答システム |
JP2004118740A (ja) * | 2002-09-27 | 2004-04-15 | Toshiba Corp | 質問応答システム、質問応答方法、質問応答プログラム |
JP2004295396A (ja) * | 2003-03-26 | 2004-10-21 | Osaka Gas Co Ltd | 受付処理支援装置 |
JP2005190100A (ja) * | 2003-12-25 | 2005-07-14 | Toshiba Corp | 質問応答システムおよび方法 |
WO2006085661A1 (ja) * | 2005-02-08 | 2006-08-17 | Nec Corporation | 質問応答データ編集装置、質問応答データ編集方法、質問応答データ編集プログラム |
JP2008033835A (ja) * | 2006-07-31 | 2008-02-14 | Fujitsu Ltd | オペレータ支援プログラム、オペレータ支援装置およびオペレータ支援方法 |
Non-Patent Citations (4)
Title |
---|
CSNJ200810074173; 李 晃伸: '大語彙連続音声認識エンジンJuliusバージョン4.0の構成と機能' 情報処理学会第70回(平成20年)全国大会講演論文集 Vol.5,No.3L-6, 20080313, pp.5-345〜5-346., 社団法人情報処理学会 * |
CSNJ200910054057; 勝丸 真樹 他: '音声認識と言語理解を動的に選択する音声理解フレームワーク' 情報処理学会第71回(平成21年)全国大会講演論文集 Vol.5,No.4Q-2, 20090310, pp.2-117〜2-118., 社団法人情報処理学会 * |
JPN6013042625; 李 晃伸: '大語彙連続音声認識エンジンJuliusバージョン4.0の構成と機能' 情報処理学会第70回(平成20年)全国大会講演論文集 Vol.5,No.3L-6, 20080313, pp.5-345〜5-346., 社団法人情報処理学会 * |
JPN6013042629; 勝丸 真樹 他: '音声認識と言語理解を動的に選択する音声理解フレームワーク' 情報処理学会第71回(平成21年)全国大会講演論文集 Vol.5,No.4Q-2, 20090310, pp.2-117〜2-118., 社団法人情報処理学会 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016099967A (ja) * | 2014-11-26 | 2016-05-30 | 株式会社ユニバーサルエンターテインメント | 情報提供システム、情報提供方法、及びプログラム |
WO2019208222A1 (ja) * | 2018-04-27 | 2019-10-31 | 日本電信電話株式会社 | 回答選択装置、回答選択方法、回答選択プログラム |
JPWO2019208222A1 (ja) * | 2018-04-27 | 2021-05-13 | 日本電信電話株式会社 | 回答選択装置、回答選択方法、回答選択プログラム |
JP7111154B2 (ja) | 2018-04-27 | 2022-08-02 | 日本電信電話株式会社 | 回答選択装置、回答選択方法、回答選択プログラム |
JP2020184294A (ja) * | 2019-04-26 | 2020-11-12 | Arithmer株式会社 | 対話管理サーバ、対話管理方法、及びプログラム |
US11487953B2 (en) | 2019-11-19 | 2022-11-01 | Samsung Electronics Co., Ltd. | Method and apparatus with natural language processing |
JP7466143B2 (ja) | 2020-03-16 | 2024-04-12 | カラクリ株式会社 | 情報処理装置、学習提案プログラム、及び学習提案方法 |
Also Published As
Publication number | Publication date |
---|---|
JP5377430B2 (ja) | 2013-12-25 |
US8515764B2 (en) | 2013-08-20 |
US20110010177A1 (en) | 2011-01-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5377430B2 (ja) | 質問応答データベース拡張装置および質問応答データベース拡張方法 | |
US9911413B1 (en) | Neural latent variable model for spoken language understanding | |
US9020819B2 (en) | Recognition dictionary system and recognition dictionary system updating method | |
JP6066471B2 (ja) | 対話システム及び対話システム向け発話の判別方法 | |
US10432789B2 (en) | Classification of transcripts by sentiment | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
US6587818B2 (en) | System and method for resolving decoding ambiguity via dialog | |
US7603279B2 (en) | Grammar update system and method for speech recognition | |
US10170107B1 (en) | Extendable label recognition of linguistic input | |
US6618702B1 (en) | Method of and device for phone-based speaker recognition | |
US20140278372A1 (en) | Ambient sound retrieving device and ambient sound retrieving method | |
US20090112593A1 (en) | System for recognizing speech for searching a database | |
JP4680714B2 (ja) | 音声認識装置および音声認識方法 | |
US20090258333A1 (en) | Spoken language learning systems | |
CN109791761B (zh) | 使用校正的术语的声学模型训练 | |
US8909528B2 (en) | Method and system for prompt construction for selection from a list of acoustically confusable items in spoken dialog systems | |
JP2003036093A (ja) | 音声入力検索システム | |
Alon et al. | Contextual speech recognition with difficult negative training examples | |
JP5326169B2 (ja) | 音声データ検索システム及び音声データ検索方法 | |
JP4950024B2 (ja) | 会話システムおよび会話ソフトウェア | |
JP4758919B2 (ja) | 音声認識装置及び音声認識プログラム | |
JP3825526B2 (ja) | 音声認識装置 | |
KR101483947B1 (ko) | 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 | |
JP2005275348A (ja) | 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体 | |
CN111078937B (zh) | 语音信息检索方法、装置、设备和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121127 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130821 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130827 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130924 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5377430 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |