JP2011018327A - 質問応答データベース拡張装置および質問応答データベース拡張方法 - Google Patents

質問応答データベース拡張装置および質問応答データベース拡張方法 Download PDF

Info

Publication number
JP2011018327A
JP2011018327A JP2010153020A JP2010153020A JP2011018327A JP 2011018327 A JP2011018327 A JP 2011018327A JP 2010153020 A JP2010153020 A JP 2010153020A JP 2010153020 A JP2010153020 A JP 2010153020A JP 2011018327 A JP2011018327 A JP 2011018327A
Authority
JP
Japan
Prior art keywords
question
response
database
speech recognition
recognition result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010153020A
Other languages
English (en)
Other versions
JP5377430B2 (ja
Inventor
Mikio Nakano
幹生 中野
Hiromi Narimatsu
宏美 成松
Kotaro Funakoshi
孝太郎 船越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Publication of JP2011018327A publication Critical patent/JP2011018327A/ja
Application granted granted Critical
Publication of JP5377430B2 publication Critical patent/JP5377430B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

【課題】質問応答データベースに未登録の質問を自動的に検出する質問応答データベース拡張装置および質問応答データベース拡張方法を提供することを課題としている。
【解決手段】質問と質問に対応する応答とが関連づけられて登録されている質問応答データベース14と、音声入力部に入力された音声信号を質問応答データベースに基づく言語モデルを用いて音声認識を行い認識結果である第1の音声認識結果を出力する第1音声認識部12と、入力された音声信号を大語彙データベースに基づく言語モデルを用いて音声認識を行い認識結果である第2の音声認識結果を出力する第2音声認識部13と、第1の音声認識結果と第2の音声認識結果に基づき入力された音声の中から前記質問応答データベースに登録されていない未登録発話を検出し、検出した未登録発話を出力する質問検出部(17,18)とを備える。
【選択図】図1

Description

本発明は、質問応答データベース拡張装置および質問応答データベース拡張方法に関する。
近年、質問者からの質問に対して、自動で応答するシステムが知られている。例えば、図12のような質問文例と応答文例のペアからなるデータベースを用いた質問応答システムにおいては、質問に対して正確に応答するためには、データベースの作成者がありとあらゆる質問を想定して、それらをカバーする応答を有するデータベースを作成する必要がある。図12は、質問応答データベースを有する質問応答システムの例を説明する図である。質問者からの質問がデータベースに対応する応答が存在しない場合、データベースを有するシステムは、質問の繰り返しを要求したり、または、質問と応答のペアの中から適切ではない応答を選択して間違った返答を行ってしまう場合がある。
このため、質問応答データベースを用いたシステムでは、回答の正答率の範囲を広げる必要がある。回答の正答率の範囲を広げるために、質問応答データベースを用いたシステムは複数のデータベースを有し、当該複数の言語データベースを探索して回答候補を選ぶ手法が提案されている(例えば、特許文献1参照)。データベース作成において、回答の正答率を上げるため、質問内容を全て録音しておき、データベース作成者が録音された質問を全て聞き、質問応答データベースの登録されていない質問を探し出す。そして、データベース作成者が、探し出した未登録の質問を質問応答データベースに登録していた。
特開2004−118740号公報
しかしながら、データベース作成者が、録音された全ての質問を聞いて、この質問を書き起こし、質問データデースに未登録の質問(発話)を検出して登録していたので、未登録の質問を探し出すために多くの工数を必要とするという問題点があった。
本発明は、上記の問題点に鑑みてなされたものであって、質問応答データベースに未登録の質問を自動的に検出する質問応答データベース拡張装置および質問応答データベース拡張方法を提供することを課題としている。
上記目的を達成するため、本発明の質問応答データベース拡張装置が、質問と当該質問に対応する応答とが関連づけられて登録されている質問応答データベースと、入力された音声信号を前記質問応答データベースに基づく言語モデルを用いて音声認識を行い、認識結果である第1の音声認識結果を出力する第1音声認識部と、前記入力された音声信号を大語彙データベースに基づく言語モデルを用いて音声認識を行い、認識結果である第2の音声認識結果を出力する第2音声認識部と、前記第1の音声認識結果と前記第2の音声認識結果に基づき、前記入力された音声の中から前記質問応答データベースに登録されていない未登録発話を検出し、検出した前記未登録発話を出力する質問検出部とを備えることを特徴としている。
また、本発明の質問応答データベース拡張装置において、前記質問検出部は、前記入力された音声のうち前記質問応答データベースに登録されていない未登録発話を文章単位で検出するようにしてもよい。
また、本発明の質問応答データベース拡張装置において、前記第1の音声認識結果に基づく質問と当該質問に対応した応答とが、前記質問応答データベースに登録されているか否かを判別する第1応答選択部と、前記第2の音声認識結果に基づく質問と当該質問に対応した応答とが、前記質問応答データベースに登録されているか否かを判別する第2応答選択部とをさらに備え、前記質問検出部は、前記第1の音声認識結果に基づく第1の特徴量を算出し、前記第2の音声認識結果に基づく第2の特徴量を算出し、算出した前記第1の特徴量と算出した前記第2の特徴量と前記第1応答選択部による判別結果と前記第2応答選択部による判別結果とを用いて前記質問応答データベースに含まれていない発話を検出するようにしてもよい。
また、本発明の質問応答データベース拡張装置において、前記質問検出部は、前記第1の特徴量と前記第2の特徴量と用いて学習を行い、学習結果に基づき、前記質問応答データベースに登録されているか否かの判別を行う判別関数を算出し、前記判別関数で算出した評価値に基づき、前記質問応答データベースに含まれていない発話を検出するようにしてもよい。
また、本発明の質問応答データベース拡張装置において、前記第1の特徴量は、前記音声認識を行ったときに得られたあいづちに基づく発話の有無、発話の長さ、前記音声認識を行ったときに得られた音響スコア、前記音声認識を行ったときに得られた言語スコア、前記第1の音声認識結果の認識精度、前記第1の音声認識結果の信頼度に基づいて得られる値のうち一以上であり、または、前記第2の特徴量は、前記音声認識を行ったときに得られたあいづちの有無、発話の長さ、前記音声認識を行ったときに得られた音響スコア、前記音声認識を行ったときに得られた言語スコアに基づいて得られる値のうち一以上であるようにしてもよい。
上記目的を達成するため、本発明の質問応答データベース拡張装置の質問応答データベース拡張方法は、質問と当該質問に対応する応答とが関連づけられて登録されている質問応答データベースと、第1音声認識部が、入力された音声信号を前記質問応答データベースに基づく言語モデルを用いて音声認識を行い、認識結果である第1の音声認識結果を出力する第1音声認識工程と、第2音声認識部が、前記入力された音声信号を大語彙データベースに基づく言語モデルを用いて音声認識を行い、認識結果である第2の音声認識結果を出力する第2音声認識工程と、質問検出部が、前記第1の音声認識結果と前記第2の音声認識結果に基づき、前記入力された音声の中から前記質問応答データベースに登録されていない未登録発話を検出し、検出した前記未登録発話を出力する質問検出工程とを備えることを特徴としている。
請求項1に記載した発明によれば、音声信号を質問応答データベースに基づく言語モデルを用いて音声認識を行った第1の音声認識結果と、音声信号を大語彙データベースに基づく言語モデルを用いて音声認識を行った第2の音声認識結果とを比較して、入力された音声の中から質問応答データベースに登録されていない未登録発話を検出して出力するようにしたので、質問応答データベースに未登録の発話を自動的に検出することができる。
請求項2に記載した発明によれば、質問応答データベースに未登録の発話を文章単位で自動的に検出することができる。
請求項3に記載した発明によれば、第1の音声認識結果に基づく質問と質問に対応した応答とが質問応答データベースに登録されているか否かの判別結果と、第2の音声認識結果に基づく質問と質問に対応した応答とが質問応答データベースに登録されているか否かの判別結果と、第1の音声認識結果に基づく第1の特徴量と、第2の音声認識結果に基づく第2の特徴量とを用いて質問応答データベースに含まれていない発話を検出するようにしたので、質問応答データベースに未登録の発話を精度良く自動的に検出することができる。
請求項4に記載した発明によれば、第1の特徴量と第2の特徴量と用いて行った学習結果に基づき、質問応答データベースに登録されているか否かの判別を行う判別関数を算出し、判別関数で算出した評価値に基づき質問応答データベースに含まれていない発話を検出するようにしたので、質問応答データベースに未登録の発話を精度良く自動的に検出することができる。
請求項5に記載した発明によれば、質問応答データベースに未登録の発話にみられる複数の特徴量を用いて質問応答データベースに含まれていない発話を検出するようにしたので、質問応答データベースに未登録の発話を精度良く自動的に検出することができる。
第1実施形態に係る質問応答データベース拡張装置のブロック図である。 同実施形態における質問応答DB14に登録されている質問文、応答文およびキーフレーズの一例を示す図である。 質問者(ユーザ)の発話(質問)に対する初期データベースに基づく応答選択と拡張データベースに基づく応答選択の例を示す図である。 同実施形態に係る特徴量の例を説明する図である。 同実施形態に係る図4の特徴量の概略を説明する図である。 2つの2次元正規母集団に対する線形判別関数の概略を説明する図である。 第2実施形態に係る質問応答データベース拡張装置のブロック図である。 質問応答データベース拡張装置を適用した質問応答システムと適用していない質問応答システムによる評価値を示す図である。 特徴量を1つ削除した場合の評価値の一例を示す図である。 学習データ量を変化させた場合の判別精度の一例を示す図である。 図10の結果をグラフに示した図である。 従来技術に係る質問応答データベースを有する質問応答システムの例を説明する図である。
以下、図面を用いて本発明の実施形態について詳細に説明する。なお、本発明は斯かる実施形態に限定されず、その技術思想の範囲内で種々の変更が可能である。
[第1実施形態]
図1は、第1実施形態における質問応答データベース拡張装置のブロック図である。図1のように、質問応答データベース拡張装置1は、マイク11と、第1音声認識部12と、第2音声認識部13と、質問応答DB14と、第1応答選択部15と、第2応答選択部16と、特徴量算出部17と、DB外の質問検出部18と、提示部19とを備えている。
マイク11は、ユーザの発話(以下、ユーザ発話という)を集音し、集音したユーザ発話の音声信号を第1音声認識部12と第2音声認識部13とに出力する。
第1音声認識部12は、マイク11から入力された音声信号を、初期質問DB(データベース)から作成した言語モデルを用いて解析することでユーザ発話の認識を行う。なお、言語モデルは、例えば、どのような単語が発話されやすいのか確率的なモデル等である。ここで、第1音声認識部12は、隠れマルコフモデルによる音響モデルと、トライグラム(3単語の連鎖確率)による初期質問DBから生成した言語モデルdbを利用した公知の音声認識を用いる。第1音声認識部12は、入力された音声信号から単語列を抽出し、音響スコアと言語スコアを算出する。第1音声認識部12は、各単語の信頼度を算出する。第1音声認識部12は、後述するように、入力された音声信号に基づき認識結果列を生成して、生成した認識結果列を第1応答選択部15と特徴量算出部17に出力する。なお、音響スコアとは、観測された音声波形と単語との音響的な類似度であり、言語スコアとは、単語と単語のつながりやすさを表すものである。また初期質問DBとは、予めデータベース作成者が想定される質問と応答とのペア(以下、質問応答ペアという)を関連づけて質問応答データベースに登録して作成したデータベースである。
第2音声認識部13は、マイク11から入力された音声信号を、大語彙DBから作成した言語モデルを用いて解析することでユーザ発話の認識を行う。ここで、第2音声認識部13は、隠れマルコフモデルによる音響モデルと、トライグラム(3単語の連鎖確率)による大語彙DBから生成した言語モデルlvを利用した公知の音声認識を用いる。第2音声認識部13は、入力された音声信号から単語列を抽出し、音響スコアと言語スコアを算出する。第2音声認識部13は、各単語の信頼度を算出する。第2音声認識部13は、後述するように、入力された音声信号に基づき認識結果列を生成して、生成した認識結果列を特徴量算出部17と第2応答選択部16とに出力する。
以上のように、第1音声認識部12は、確率的なデータベースから生成した言語モデルを用いてユーザ発話の認識を行い、一方、第2音声認識部13は、多数の語彙から生成したモデルを用いてユーザ発話の認識を行っている。
質問応答DB14は、データベース作成者が予め作成し、質問文と質問文に対応した応答文、キーフレーズとが関連づけられて登録されている。なお、キーフレーズとは、単語、または1つの意味をなす複数の単語である。
第1応答選択部15は、第1音声認識部12から認識結果が入力される。また、第1応答選択部15は、入力された認識結果の組み合わせからキーフレーズを抽出する。さらに、第1応答選択部15は、抽出したキーフレーズに基づき質問応答DB14にユーザ発話に対応した質問応答ペアが登録されているか否かを判別する。第1応答選択部15は、質問応答DB14に質問応答ペアが登録されていると判別された場合、判別結果として「登録有り」情報を特徴量算出部17に出力し、質問応答DB14に質問応答ペアが登録されていない判別された場合、判別結果として「登録無し」情報を特徴量算出部17に出力する。
第2応答選択部16は、第2音声認識部13から認識結果が入力される。また、第2応答選択部16は、入力された認識結果の組み合わせからキーフレーズを抽出する。さらに、第2応答選択部16は、抽出したキーフレーズに基づき質問応答DB14にユーザ発話に対応した質問応答ペアが登録されているか否かを判別する。第2応答選択部16は、質問応答DB14に質問応答ペアが登録されていると判別された場合、判別結果として「登録有り」情報を特徴量算出部17に出力し、質問応答DB14に質問応答ペアが登録されていない判別された場合、判別結果として「登録無し」情報を特徴量算出部17に出力する。
特徴量算出部17には、第1音声認識部12が生成した認識結果列と第2音声認識部13が生成した認識結果列と第1応答選択部15の判定結果と第2応答選択部16の判定結果とが入力される。また、特徴量算出部17は、後述するように、入力された認識結果列と第1応答選択部15の判定結果と第2応答選択部16の判定結果に基づき、後述する特徴量を算出し、算出した特徴量をDB外の質問検出部18に出力する。
DB外の質問検出部18(質問検出部)には、特徴量算出部17が算出した特徴量が入力される。さらに、DB外の質問検出部18は、訓練データおよび入力された特徴量を用いて、weka(I. H. Witten and E.Frank. Data Mining: Practical machine learning tools and techniques, 2nd Edition. Morgan Kaufmann, San Francisco, 2005.)を用いて学習する。また、分類のアルゴリズムには、NavieBayes(吉見、南角、李、徳田 音声対話システムにおける条件付確率場に基づく自動応答文選択 日本音響学会2008年春季研究発表会論文集、2008)を用いる。さらに、DB外の質問検出部18は、学習結果に基づき、線形評価関数を算出する。さらに、DB外の質問検出部18は、算出した線形評価関数の判断得点に基づき、ユーザ発話が質問応答DB14内にあるグループと質問応答DB14外にあるグループとに分類し、分類結果に基づきユーザ発話が質問応答DB14内にあるか質問応答DB外にあるか判別する。さらに、DB外の質問検出部18は、質問応答DB14外と判別した場合、判別結果と質問応答DB14外と判別された質問文を提示部19に出力し、質問応答DB内と判別した場合、判別結果を提示部19に出力する。すなわち、DB外の質問検出部18は、質問応答DB14外の質問文を検出する。
提示部19は、DB外の質問検出部18から入力された質問応答DB14外の質問を表示する。
図2は、本実施形態における質問応答DB14に登録されている質問文、応答文およびキーフレーズの一例を示す図である。図2のように、質問応答DB14は、質問と応答を文章で記述し、認識を行うときのマッチングに用いるキーフレーズを、波括弧で囲んだ情報がキーフレーズ情報として登録されている。質問文は、「仙川にある公園について教えてください」と「仙川に広場はありますか」であり、応答文は、「仙川には武者小路実篤の公園があります。」。また、質問文「仙川にある公園について教えてください」において「仙川」と「公園」とがキーフレーズに指定されていて、質問文「仙川に広場はありますか」において、「仙川」と「広場」とがキーフレーズに指定されている。
さらに、質問文「仙川にある公園について教えてください」と「仙川に広場はありますか」に対して、応答文「仙川には武者小路実篤の公園があります」が関連づけられ、ペアで登録されている。このように、質問応答ペアは、質問文1つに対して応答文1つではなく、1つの応答分と複数の応答文とを関連づけて質問応答ペアとして登録してもよい。
次に、図2のような質問応答データベースを有する質問応答システムにおける動作の概略を説明する。質問者からの質問から、予め質問応答DB14に登録されているキーフレーズを抽出し、抽出されたキーフレーズとマッチングする質問文を探索する。このため、例えば、「仙川にどんな公園があるか教えて」や「仙川に大きい広場はありますか」などキーフレーズを含む質問が、図2の質問応答ペアにマッチする。質問者からの質問とマッチする応答のあるペアが存在する場合、質問に対する応答を提示部19または非図示のスピーカに出力する。一方、質問にマッチする応答が存在しない場合、データベース中に登録されている予め用意された応答である「もう一度おっしゃってください」、または「その質問には答えられないかもしれません」等の応答を提示部19または非図示のスピーカに出力する。
また、図2のように、応答文と、応答文に対応する画像データ(武者小路実篤公園の写真)とを関連づけて登録しておいてもよく、この場合、提示部19に応答文に合わせて登録されている画像データを表示するようにしてもよい。
本実施形態では、データベースに存在しない質問を効率よく抽出し、抽出した質問をデータベース作成者に提示する。そして、データベース作成者は、提示されたデータベース外の質問をデータベースに登録して更新することで、質問応答データベース拡張を行う。
[データベースに追加すべき発話]
図3は、質問者(ユーザ)の発話(質問)に対する初期データベースに基づく応答選択と拡張データベースに基づく応答選択の例を示す図である。使用したコンテンツは、タウン情報であり、232個の質問応答ペアを予め作成し、データベース作成者が質問応答DB14に登録を行った。また、質問文例の数は890、言語モデルの語彙サイズは460である。データ収集は、質問者は、提示部19上に表示されているキャラクターエージェントに向かって質問し、質問者が知りたい情報を聞き出すという形態で行った。また、評価は25人の話者(ユーザ、質問者)にしてもらった質問のうち最初の25発話分を用い、すなわち25発話×25人分=625発話のデータを用いた。
次に、図3における用語の説明と定義を行う。「書き起こし」とは、ユーザ発話を書き起こした文章である。初期DB(データベース)とは、予め想定される質問と応答とがデータベース作成者により登録されたデータベースである。拡張DBとは、初期DBに質問応答のペアが存在しない場合、データベースにペアの存在しなかった質問と、その質問に応じた応答のペアを追加登録することで拡張されたデータベースである。すなわち、データベース作成者は、初期DBになかった質問に対する応答を生成し、生成した応答をデータベースに存在しなかった質問とペアにして順次、登録することで拡張していく。そして、この確証されたデータベースに基づき応答選択を繰り替えし、拡張されたデータベースに質問応答が存在しない場合は、さらに更新を繰り返すことで拡張していく。
「Trans+IniDB」は、ユーザ発話から書き起こした発話(Trans)を用いて、初期DB(IniDB)に基づき応答選択を行った結果である。「Trans+ExpDB」は、ユーザ発話から書き起こした発話(Trans)を用いて、拡張DB(ExpDB)に基づき応答選択を行った結果である。「ASR+IniDB」は、ユーザ発話から音声認識により得られた発話(ASR)を用いて、初期DB(IniDB)に基づき応答選択を行った結果である。
図3において、符号の欄111は、「ユーザ発話から書き起こした発話を用いて初期DBに基づき応答選択を行った結果」と「ユーザ発話から書き起こした発話を用いて拡張DBに基づき応答選択を行った結果」とが一致し、且つ「ユーザ発話から音声認識により得られた発話を用いて初期DBに基づき応答選択を行った結果」が全て一致した場合であり、このような発話が246発話あったことを示している。
符号の欄114は、「ユーザ発話から書き起こした発話を用いて初期DBに基づき応答選択を行った結果」と「ユーザ発話から書き起こした発話を用いて拡張DBに基づき応答選択を行った結果」とが一致し、且つ音声認識を用いての発話が誤認識した場合であり、このような発話が15発話あったことを示している。
符号の欄115は、「ユーザ発話から書き起こした発話を用いて初期DBに基づき応答選択を行った結果」と「ユーザ発話から書き起こした発話を用いて拡張DBに基づき応答選択を行った結果」とが一致し、且つ「ユーザ発話から音声認識により得られた発話を用いて初期DBに基づき応答選択を行った結果」、質問応答ペアが初期DBに存在しなかった場合であり、このような発話が31発話あったことを示している。
「ユーザ発話から書き起こした発話を用いて初期DBに基づき応答選択を行った結果」と「ユーザ発話から書き起こした発話を用いて拡張DBに基づき応答選択を行った結果」とが一致する場合とは、質問応答システムから応答があり、その応答がユーザ発話の意図と合致するもの、すなわち適切な応答であった発話が292発話(欄111〜115の合計発話数)あったことを示している。
符号の欄122は、「ユーザ発話から書き起こした発話を用いて初期DBに基づき応答選択を行った結果」と「ユーザ発話から書き起こした発話を用いて拡張DBに基づき応答選択を行った結果」とが一致せず、且つ「ユーザ発話から音声認識により得られた発話を用いて初期DBに基づき応答選択を行った結果」と「ユーザ発話から書き起こした発話を用いて初期DBに基づき応答選択を行った結果」は一致した場合であり、このような発話が44発話あったことを示している。
符号の欄123は、「ユーザ発話から書き起こした発話を用いて初期DBに基づき応答選択を行った結果」と「ユーザ発話から書き起こした発話を用いて拡張DBに基づき応答選択を行った結果」とが一致せず、且つ「ユーザ発話から音声認識により得られた発話を用いて初期DBに基づき応答選択を行った結果」と「ユーザ発話から書き起こした発話を用いて拡張DBに基づき応答選択を行った結果」は一致した場合であり、このような発話が2発話あったことを示している。
符号の欄124は、「ユーザ発話から書き起こした発話を用いて初期DBに基づき応答選択を行った結果」と「ユーザ発話から書き起こした発話を用いて拡張DBに基づき応答選択を行った結果」とが一致せず、且つ「ユーザ発話から音声認識により得られた発話を用いて初期DBに基づき応答選択を行った結果」、誤認識した場合であり、このような発話が26発話あったことを示している。
符号の欄125は、「ユーザ発話から書き起こした発話を用いて初期DBに基づき応答選択を行った結果」と「ユーザ発話から書き起こした発話を用いて拡張DBに基づき応答選択を行った結果」とが一致せず、且つ「ユーザ発話から音声認識により得られた発話を用いて初期DBに基づき応答選択を行った結果」、質問応答ペアが初期DBに存在しなかった場合であり、このような発話が4発話あったことを示している。
そして、「ユーザ発話から書き起こした発話を用いて初期DBに基づき応答選択を行った結果」と「ユーザ発話から書き起こした発話を用いて拡張DBに基づき応答選択を行った結果」とが一致しない場合とは、質問応答システムから応答があったが、ユーザ発話の意図と異なるもの、すなわち適切な応答でなかった発話が76発話(欄122〜125の合計発話数)あったことを示している。
符号の欄133は、「ユーザ発話から書き起こした発話を用いて初期DBに基づき応答選択を行った結果」、質問応答ペアが初期DBに存在せず、且つ「ユーザ発話から音声認識により得られた発話を用いて初期DBに基づき応答選択を行った結果」と「ユーザ発話から書き起こした発話を用いて拡張DBに基づき応答選択を行った結果」は一致した場合であり、このような発話が6発話あったことを示している。
符号の欄134は、「ユーザ発話から書き起こした発話を用いて初期DBに基づき応答選択を行った結果」、質問応答ペアが初期DBに存在せず、且つ「ユーザ発話から音声認識により得られた発話を用いて初期DBに基づき応答選択を行った結果」、誤認識した場合であり、このような発話が38発話あったことを示している。
符号の欄135は、「ユーザ発話から書き起こした発話を用いて初期DBに基づき応答選択を行った結果」、質問応答ペアが初期DBに存在せず、且つ「ユーザ発話から音声認識により得られた発話を用いて初期DBに基づき応答選択を行った結果」、質問応答ペアが初期DBに存在しなかった場合であり、このような発話が91発話あったことを示している。
「ユーザ発話から書き起こした発話を用いて初期DBに基づき応答選択を行った結果」質問応答ペアが初期DBに存在しない場合の合計発話数は、135発話(欄13欄123〜135の合計発話数)あったことを示している。
さらに、拡張DBを用いても応答が得られなかった場合、ノイズ、区間誤りを含む発話数が122発話(欄143〜145の合計発話数)あったことを示している。
また、「Trans+IniDB」と「Trans+ExpDB」とが一致するものが(T1)である。質問応答システムによる応答はあったがユーザ発話の意図と異なるものが(T2)である。ユーザ発話をデータベース作成者が書き起こしたものを元にデータベースから応答選択を行ったときに質問応答ペアが見つからなかったものが(T3)である。拡張データベースを用いても応答選択で質問応答システムの応答が得られなかったものやノイズや区間検出誤りを含む発話であったものが(T4)である。
次に、質問応答DB14の拡張のために、図3の中で、どの発話をデータベースに入れるべきかを検討する。
「Trans+IniDB」の認識と「Trans+ExpDB」の認識の結果が異なるが、理解結果が正解と一致する場合、データベース内にその質問に対しての質問応答ペアが存在するため応答を行う。なお、理解結果とは、検討に用いた質問応答DB14を有する質問応答システムが、質問に対する応答を選択した結果である。キーフレーズが一致するかだけではキーフレーズが適切に登録されていない場合、ユーザ意図であるユーザが聞きたかった応答が得られないこともあり得る。すなわち、「Trans+IniDB」と「Trans+ExpDB」が一致していないことよりユーザが意図した応答とは異なるため、キーフレーズの指定方法に修正の必要があるか、または、ユーザがその内容についてより詳しい内容を要求している場合が考えられる。
また、「Trans+IniDB」の認識の結果、発話がデータベース外と認識されているのに、応答選択結果でデータベース内のものに一致していると判定された場合、ユーザ発話がデータベース外であってもデータベース内に類似した発話があることを示している。すなわち、データベース外の発話であるのに、音声認識の結果、データベース内にある単語を誤って認識してしまった場合を表している。
すなわち、ユーザ発話の意図とシステムの理解が異なる場合、またユーザの発話がもともとデータベースに存在しない場合、データベースのコンテンツに追加すべきと考えられる。
以上のように、データベースに追加すべき発話は、欄123のデータベース外の発話がデータベース内にあると誤って分類された場合と、欄133〜135の実際にデータベース外の発話である。
[音声認識の説明]
次に、第1音声認識部12と第2音声認識部13が行う音声認識について説明する。第1音声認識部12は、隠れマルコフモデルによる音響モデルと、トライグラム(3単語の連鎖確率)による初期質問DBから生成した言語モデルdbを利用した公知の音声認識を用いる。そして、第1音声認識部12は、入力された音声信号から単語列を抽出し、音響スコアと言語スコアを算出する。さらに、第1音声認識部12は、各単語の信頼度を算出する。さらに、第1音声認識部12は、入力された音声信号と所定の整数n(結果の最大数)に対して、次式(1)の認識結果列を生成して、生成した認識結果列を、第1応答選択部15と特徴量算出部17に出力する。また、入力された音声信号における音声の長さをdとする。
Figure 2011018327
式(1)において、lmは言語モデルであり、Rlm,iは、単語列slm,iと音響スコアamscorelm,iと言語スコアlmscorelm,iから構成されている。また、単語列slm,iは、次式(2)のように単語wlm,iとその単語の信頼度cmim,iとの組の列である。
Figure 2011018327
また、入力された音声信号における音声の長さをdとする。以下、ユーザ発話の質問が、『仙川の本屋について教えてください』であったとして説明する。
この場合、第1音声認識部12は、次式(3)〜(7)の認識結果Rdb,iを認識結果として第1応答選択部15と特徴量算出部17に出力する。
Figure 2011018327
Figure 2011018327
Figure 2011018327
Figure 2011018327
Figure 2011018327
式(3)〜(7)において、(仙川、0.57)は単語とその単語の信頼度の区組み合わせを表している。単語の信頼性は、音声認識エンジンであるJulius(http://julius.sourceforge.jp/)を用いて算出する。単語の信頼性とは、音声認識結果である単語を、どの程度、信頼して良いかを示す尺度である。単語の信頼性は、値の範囲は0〜1.0であり、数値が1.0に近いほど、その単語に似たスコアを有する他の競合候補がほとんどなかったことを表し、数値が0に近いほど、その単語に似たスコアを有する他の単語候補が多いことを表している。なお、式(3)〜(7)は、認識結果の一例であり、さらに多くの組み合わせについて、各々の場合について、単語とその単語の信頼度の区組み合わせで表した単語列を認識結果として第1応答選択部15と特徴量算出部17に出力する。なお、単語の信頼度をJuliusにより算出する例を説明したが、音声信号から、その音声に含まれる単語とその信頼度を算出する他の公知の手法を用いて算出してもよい。
同様に、第2音声認識部13は、隠れマルコフモデルによる音響モデルと、トライグラム(3単語の連鎖確率)によるJulius付属の大語彙DBから生成した言語モデルlvを利用した公知の音声認識を用いる。そして、第2音声認識部13は、入力された音声信号と所定の整数n(結果の最大数)に対して、式(1)の認識結果列を生成して、生成した認識結果列を、第2応答選択部16と特徴量算出部17に出力する。なお、大語彙DBから生成した言語モデルを用いる理由は、大語彙DBから生成した言語モデルによる音声認識の認識結果は、誤った認識も発生するが、音韻を正しく認識している場合が多い。このため、大語彙DBから生成した言語モデルを用いた音声認識の結果を用いることにより、質問応答DB14から生成した言語モデルを用いて音声認識した結果の確からしさを推定することができるからである。
第1応答選択部15には、第1音声認識部12から認識結果Rdb,iが入力される。また、第1応答選択部15は、入力された認識結果の組み合わせからキーフレーズを抽出し、抽出したキーフレーズを用いて、質問応答DB14に各単語列Ssbが登録されているか否かを判別する。この結果、第1応答選択部15は、式(3)〜(7)の単語列にも基づく質問とペアの応答が質問応答DB14に登録されていると判別し、応答結果として応答が存在していたことを特徴量算出部17に出力する。以下の例では、説明を簡略化するため、キーフレーズは、1単語であるとして説明する。また、各キーフレーズを、K、K、・・・、Kとする。
第2応答選択部16には、第2音声認識部13から認識結果Rlv,iが入力される。また、第2応答選択部16は、入力された認識結果の組み合わせからキーフレーズを抽出し、抽出したキーフレーズを用いて、質問応答DB14に各単語列Ssbが登録されているか否かを判別する。質問応答DBに単語列に対応する質問文が登録されていると判別された場合、第2応答選択部16は、単語列に対応する質問文とペアの応答が質問応答DB14に登録されていると判別する。質問に対する応答が登録されていた場合、第2応答選択部16には、応答結果として応答が存在していたことを特徴量算出部17に出力する。
[特徴量の算出の説明]
次に、特徴量算出部17が行う特徴量の算出方法について説明する。特徴量算出部17には、第1音声認識部12が生成した式(1)の認識結果列と第2音声認識部13が生成した認識結果列と第1応答選択部15の判定結果と第2応答選択部16の判定結果とが入力される。
図4は、本実施形態における特徴量の例を説明する図である。図4において、Fdb1〜Fdb18は、第1音声認識部12による初期質問応答DBに基づく認識結果から抽出される特徴量であり、Flv1〜Flv9は、第2音声認識部13による大語彙DBに基づく認識結果から抽出される特徴量であり、Fdblv1とFdblv2は、第1音声認識部12による認識結果と第2音声認識部13による認識結果との差である。なお、図4において、システムとは、本実施形態における質問応答データベース拡張装置を適用した質問応答システムである。
db1は、システムが質問応答DB14外と判断したか否か(選択された応答の有無)である。Fdb2は、認識結果の第一候補の音響スコア÷発話長である。なお、発話長とは、1文の長さであり、1文の文構成素数(文節数または形態素数)である。Fdb3は、認識結果の第一候補の言語スコアである。Fdb4は、(応答選択に利用したキーフレーズの認識結果の第n候補に出現する個数÷第n候補の単語数) ÷認識結果の候補数の総和である。Fdb5は、(応答選択に用いたキーフレーズiの全認識結果での出現回数)の最小値である。Fdb6は、(応答選択に用いたキーフレーズiの全認識結果での出現回数)の最大値である。Fdb7は、(認識結果の第一候補に含まれる質問応答DB14内のキーフレーズ数)−(応答選択に用いたキーフレーズ数)である。Fdb8は、(応答選択に利用したキーフレーズiの認識結果の第n候補に出現する個数÷第n候補の単語数)の最小値である。Fdb9は、(応答選択に利用したキーフレーズiの認識結果の第n候補に出現する個数÷第n候補の単語数)の最大値である。Fdb10は、認識結果があいづちリストに含まれているか否かである。Fdb11は、認識結果の第一候補の単語数である。Fdb12は、認識結果全ての単語数である。Fdb13は、(応答選択に用いたキーフレーズの第一候補のJulius confidence(認識信頼度))の平均値である。Fdb14は、(応答選択に用いたキーフレーズiの第一候補のJulius confidence)の最大値である。Fdb15は、(応答選択に用いたキーフレーズiの第一候補のJulius confidence)の最小値である。Fdb16は、認識結果の候補数である。Fdb17は、認識結果の第一候補に含まれる名詞の数÷認識結果の第一候補の単語数である。Fdb18は、認識結果の全候補に含まれる名詞の数÷認識結果の全候補の単語数である。
lv1は、システムが質問応答DB外と判断したか否か(選択された応答の有無)である。Flv2は、認識結果の第一候補の音響スコア÷発話長である。Flv3は、認識結果の第一候補の言語スコアである。Flv4は、認識結果があいづちリストに含まれているか否かである。Flv5は、認識結果の第一候補の語彙数である。Flv6は、認識結果全ての語彙数である。Flv7は、認識結果の候補数である。Flv8は、認識結果の第一候補に出現する名詞の数÷認識結果の第一候補の単語数である。Flv9は、認識結果の全候補に出現する名詞の数÷認識結果の全候補の単語数である。
dblv1は、第1音声認識部12が算出した音響スコアと第2音声認識部13が算出した音響スコアとの差である。Fdblv2は、第1音声認識部12が算出した言語スコアと第2音声認識部14が算出した言語スコアとの差である。
また、「あいづちリスト」とは、あいづちや、ユーザが質問応答システムに対する反応として期待しない発話などのリストであり、データベース作成者が手動で作成するか、または、質問応答システムが自動的に生成する。Fdb10は、入力された発話があいづちリストに一致する場合、質問応答DB14外であることを示唆している。また、発話の中の名詞の数や出現頻度を比較することで、トピック量などを判別でき、例えば、発話に含まれる単語に対して、名詞の数が多い場合、複数のトピックを含んだ発話であることが示唆される。
次に、特徴量算出部17による特徴量の算出方法の例を説明する。
db1は、第1応答選択部15の判定結果そのものであり、システムが質問応答DB14外と判断したかどうかの判別結果(選択された応答の有無)である。すなわち、第1応答選択部15が、質問文に対応する応答が質問応答DB14に登録されているか否かを判別した結果である。質問文に対応する応答が質問応答DB14に登録されていた場合、特徴量算出部17が第1応答選択部15は質問応答DB14内に応答が存在する(有)と設定する。質問文に対応する応答が質問応答DB14に登録されていない場合、特徴量算出部17が第1応答選択部15は質問応答DB14内に応答が存在しない(無)、すなわち、応答が質問応答DB14外と設定する。応答が、質問応答DB14に存在していなかった場合、第1音声認識部12による誤認識、またはユーザ発話が質問応答DB14外である可能性が高い。
db2は、特徴量算出部17が(認識結果の第一候補の音響スコア)÷(発話長)により算出する。すなわち、特徴量算出部17が、認識結果列に含まれている音響スコアamscoreと音声の長さdを用いて、(amscoredb,1)÷dにより算出する。なお、amscoredbは、初期質問データベースから作成した言語モデルdbによる音響スコアを表している。すなわち、Fdb2は、認識結果の精度を表している。
db3は、認識結果の第一候補の言語スコアであり、認識結果の精度を表している。すなわち、認識結果列に含まれている言語スコアlmscoredbである。
db5は、応答選択に用いたキーフレーズiの全認識結果での出現回数における最小値minである。ここで、キーフレーズを波括弧で囲って示すと、質問文『仙川の本屋について教えてください』のうち、{仙川}と{本屋}がキーフレーズであり、K={仙川}、K={本屋}である。このため、各単語列である次式(8)に出現する単語wdb,i,j=Kとなるような(i,j)の組み合わせは、K=仙川に対して、(i,j)=(1,1),(2,1),(3,1),(5,1)の4つが存在する。
同様に、各単語列である次式(8)に出現する単語wdb,i,j=Kとなるような(i,j)の組み合わせは、K=本屋に対して、(i,j)=(1,3),(2,3),(4,3)の3つが存在する。すなわち、Kの方がKより大きいため、wdb,i,j=Kとなる(i,j)の組み合わせ数の方が、wdb,i,j=Kとなる(i,j)の組み合わせ数より大きいことを意味している。このため、特徴量算出部17は、Fdb5として、最小値minであるwdb,i,j=Kとなる(i,j)の組み合わせ数=3を算出する。
Figure 2011018327
db6は、第1応答選択部15が応答選択に用いたキーフレーズiの全認識結果での出現回数における最大値maxである。このため、特徴量算出部17が、Fdb6=4として、最大値maxであるwdb,i,j=Kとなる(i,j)の組み合わせ数=4を算出する。このように、Fdb4〜Fdb9は、応答選択に用いたキーフレーズに関しての認識精度を表している。
db14は、第1応答選択部15による応答選択の際に一致したキーフレーズの認識信頼度の最大値maxであり、特徴量算出部17が求める。このため、式(3)〜(7)において、全てのkに対して、認識結果の第一候補の単語がwdb,i,j=Kであるjは、wdb,i,1=K(仙川)、wdb,i,3=K(本屋)となるj=1,3である。次に、選択された全てのjに対し、信頼度cmsb,1,jを比較すると、cmsb,1,1=0.57でありcmsb,1,3=0.45のため、cmsb,1,1の方がcmsb,1,3より大きい。このため、特徴量算出部17が、Fdb14として、最大値maxであるcmsb,1,1=0.57を算出する。
db15は、第1応答選択部15による応答選択した際に一致したキーフレーズの認識信頼度の最小値minである。このため、特徴量算出部17は、Fdb15として、最小値minであるcmsb,1,3=0.45を算出する。
lv1は、システムが質問応答DB14外と判断したかどうかの判別結果(選択された応答の有無)である。すなわち、第2応答選択部16が、質問文に対応する応答が質問応答DB14に登録されているか否かを判別した結果である。質問文に対応する応答が質問応答DB14に登録されていた場合、特徴量算出部17が質問応答DB14内に応答が存在する(有)と設定する。質問文に対応する応答が質問応答DB14に登録されていない場合、特徴量算出部17が質問応答DB14内に応答が存在しない(無)、すなわち、応答が質問応答DB14外と設定する。
lv2は、特徴量算出部17が(認識結果の第一候補の音響スコア)÷(発話長)により算出する。すなわち、特徴量算出部17が、認識結果列に含まれている音響スコアamscoreと音声の長さdを用いて、(amscorelv,1)÷dにより算出する。なお、amscorelvは、大語彙データベースから作成した言語モデルlvによる音響スコアを表している。
lv3は、認識結果の第一候補の言語スコアである。すなわち、認識結果列に含まれている言語スコアlmscorelvである。
図5は、本実施形態における図4の特徴量の概略を説明する図である。図5のように、「キーフレーズの出現頻度」(Fdb5,Fdb6)は、キーフレーズの認識の正確さを表している。また、「応答選択に用いたキーフレーズ以外の名刺の存在の有無」(Fdb17,Fdb18)は、応答選択が誤っている可能性を表している。さらに、「キーフレーズの認識精度」(Fdb4〜Fdb9)は、キーフレーズの認識の正確さ(精度)を表している。さらに「あいづちかどうか」(Fdb10)は、質問応答DB14に追加すべきかの判断材料となる情報であることを表している。例えば、ユーザ発話に「あいづち」が含まれていた場合、ユーザの質問に対して、適正な応答が行われたことを意味している。
特徴量算出部17は、以上のように算出した特徴量をDB外の質問検出部18に出力する。
次に、DB外の質問検出部18が行うDB外の質問検出方法について説明する。DB外の質問検出部18には、特徴量算出部17が算出した特徴量が入力される。
DB外の質問検出部18は、まず訓練データを、wekaを用いて学習させて、入力された特徴量を、wekaを用いて学習させる。また、分類のアルゴリズムには、NavieBayesを用いる。なお、学習に用いるツールは他の手法でも良く、また分類のアルゴリズムも他の手法でも良い。
DB外の質問検出部18が行う質問応答DB14外の質問検出は、図3で説明したように質問応答DB14に追加すべき発話を検出することである。すなわち、質問応答DB14外の発話であるのに、質問応答DB14内にあると誤って認識された発話や、実際の質問応答DB14外の発話を検出する。
そして、DB外の質問検出部18は、このように発話から抽出された特徴量を用いて学習を行い、DB外の質問か否かを判別する判別関数を自動的に生成する。そして、DB外の質問検出部18は、生成した判別関数の評価得点を用いて、DB外の質問か否かを検出し、DB外の質問と判別された質問を提示部19に出力する。
次に、DB外の質問検出部18が行うDB外の質問か否かの判別方法の一例を説明する。学習した発話毎の特徴量(Fdb1〜Fdb18、Flv1〜Flv9、Fdblv1、Fdblv2)について、DB外の質問検出部18は、次式(9)の線形判別関数を算出する。なお、線形判別関数の算出は公知の手法を用いて行い、まず、訓練データの発話を用いて学習させる。
w1×Fdb1+w2×Fdb2+・・・+w29×Fdblv2 ・・・(9)
式(9)において、w1〜w29は、各特徴量の重み係数である。重み係数は、例えば、DB内であると予め分かっている訓練データの発話と、DB外であると予め分かっている訓練データの発話とが判別できるように設定する。この式(9)を用いて算出された値は、判断得点(線形結合の値)である。次に、DB外の質問検出部18は、算出した判断得点に基づき、ユーザ発話がDB内にあるかグループとDB外にあるグループとに分類し、分離結果に基づきユーザ発話がDB内にあるかDB外にあるか判別する。
図6は、2つの2次元正規母集団に対する線形判別関数の概略を説明する図である。図6において、線形判別関数101により、母集団111と母集団112とに分類されていることを表している。例えば、この母集団111がDB外の発話に相当し、母集団112がDB内の発話に相当する。なお、判別関数として線形判別関数を用いる例を説明したが、他の判別関数でもよく、学習の方法や判別方法はこれに限られず、他の公知の手法を用いても良い。
提示部19は、入力されたDB外の質問と判別された質問を、提示部の表示部に表示し、質問応答DBの作成者に提示する。質問応答DBの作成者は、提示部19に提示されたDB外の質問と判別された質問、その質問に対応する応答等を関連づけて質問応答DBに登録することで、質問応答DBの拡張を行う。
一例として、『仙川の本屋について教えてください』が、すでに質問応答DB14に登録されていて、キーフレーズとして{仙川}と{本屋}が登録されているとする。次に、『仙川の本屋さんはどこにありますか』という発話が入力された場合、この発話のキーフレーズとして{仙川}と{本屋}と{どこ}が抽出される。この発話から抽出された3つのキーフレーズのうち、すでに2つのキーフレーズ{仙川}と{本屋}が質問応答DB14に登録されているので、『仙川の本屋さんはどこにありますか』という質問文とキーフレーズ{どこ}、および質問に対する応答を、データベース作成者が質問応答DB14に登録する。また、提示部19に提示する情報は、質問者毎に提示しても良く、または、複数の質問者についてまとめて提示するようにしてもよい。質問応答DBに登録されていない質問文が複数存在していると判断された場合、質問者順に提示してもよく、または、質問応答DBに登録されているキーフレーズと質問に含まれるキーフレーズとが一致している割合に基づき優先順位を提示部19が算出して表示するようにしてもよい。
以上のように、ユーザ発話を初期質問DBから生成した言語モデルで音声認識し、さらにユーザ発話を公知の大語彙DBから生成した言語モデルで音声認識する。そして、音声認識された認識結果から、各々特徴量を算出し、算出した特徴量に基づき、ユーザ発話の中から、質問応答DBに追加すべき発話を抽出するようにしたので、データベース外の発話を適切かつ自動的に検出することができる。そして、データベース作成者は、検出された発話をデータベースに登録することでデータベースを拡張する。
この結果、データベース作成者が、全てのユーザ発話を聞き取ってデータベースの拡張を行うことなく、または全てのユーザ発話を書き起こすことなくデータベースの拡張を行うことができる。
[第2実施形態]
第1実施形態では、検出した質問応答DBに追加すべき発話を提示部19に提示し、提示された発話を質問応答DBの作成者が登録する方法について説明した。検出された発話の登録は、質問応答データベース拡張装置が自動的に行うことも可能である。図7は、本実施形態おける質問応答データベース拡張装置のブロック図である。第1実施形態と同じ機能部は、同じ符号を用いて説明は省略する。第1実施形態における構成との差異は質問応答DB14aとDB外の質問検出部18aと登録部201である。
DB外の質問検出部18aには、特徴量算出部17が算出した特徴量が入力される。また、DB外の質問検出部18aは、入力された特徴量を用いて、wekaを用いて学習させて分類部を生成する。また、分類のアルゴリズムには、NavieBayesを用いる。さらに、DB外の質問検出部18aの分類部は、学習結果に基づき、線形評価関数を算出する。さらに、DB外の質問検出部18aの判別部は、算出した線形評価関数の判断得点に基づき、ユーザ発話が質問応答DB14a内にあるかグループと質問応答DB14a外にあるグループとに分類し、分類結果に基づきユーザ発話が質問応答DB14a内にあるか質問応答DBa外にあるか判別する。さらに、DB外の質問検出部18aは、質問応答DB14a外と判別された場合、判別結果と質問応答DB14a外と判別された質問文を提示部19に出力し、質問応答DB14a内と判別された場合、判別結果を提示部19と登録部201に出力する。
登録部201には、質問応答DB14a外と判別された場合、判別結果と質問応答DB14a外と判別された質問文が入力され、質問応答DB14a内と判別された場合、判別結果が入力される。また、登録部201は、入力された判別結果が質問応答DB14a外であるか否かを判別し、質問応答DB14a外の場合、質問応答DB14a外と判別された質問文を質問応答DB14aに登録する。さらに、登録部201は、質問応答DB14a外と判別された質問文から所定の規則に従ってキーフレーズを抽出し、抽出したキーフレーズの中で質問応答DB14aに未登録のキーフレーズを質問応答DB14aに対して探索する。さらに、登録部201は、未登録のキーフレーズが存在する場合、未登録のキーフレーズを質問応答DB14aに登録する。
以上のように、質問応答DBに登録されていないユーザ発話による質問文を検出し、検出された質問文およびその質問文に含まれるキーフレーズを自動的に質問応答DBに登録することでデータベースを拡張する。
この結果、データベース作成者が、全てのユーザ発話を聞き取ってデータベースの拡張を行うことなく、または全てのユーザ発話を書き起こすことなくデータベースの拡張を行うことができる。
また、本実施形態では、29種類の特徴量を用いる例を説明したが、特徴量の個数はこれに限られず、また、特徴量の種類も説明したものに限られず、他のものであってもよい。
また、本実施形態では、質問応答データベース拡張装置を質問応答システムに適用する例を説明したが、例えば、ユーザ発話に対して応答する受付システムやヒト型ロボットなどに適用してもよい。
また、本実施形態では、質問応答データベース拡張装置の内部にデータベースを備える例を説明したが、データベースは無線または有線で接続されていてもよい。
なお、本実施形態では、大語彙DBとして、Julius付属の大語彙DBを用いる例を示したが、例えば1万語程度備える一般的な他の大語彙DBでもよい。また、音声認識にJuliusを用いる例を説明したが、他の一般的な音声認識手法を用いるようにしてもよい。
なお、実施形態の図1または図7の各部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより各部の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM(Read Only Memory)、CD−ROM等の可搬媒体、USB(Universal Serial Bus) I/F(インタフェース)を介して接続されるUSBメモリー、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
[実験結果]
次に、本実施形態の質問応答データベース拡張装置を適用した質問応答システムを用いて実験を行った結果を説明する。
実験は、質問応答データベースを拡張するための検討を行った625発話(25人、各25発話)のうち、書き起こしの発話分類でも該当する応答のなかったノイズなど(T4)を除いた505発話を用いた。また、分類器は、抽出した特徴量をデータマイニングツールであるwekaを用いて学習させて生成した。また、分類のアルゴリズムには、NavieBayesを用いた。
次に、実験結果の評価に用いた評価値Precision、Recall、F値について説明する。各評価値は、次式(10)〜(12)により算出する。
Precision=(データベース外発話と分類された中のデータベース外発話数)/(データベース外発話と分類された数)・・・(10)
Recall=(データベース外発話と分類された中のデータベース外発話数)/(データベース外発話の数)・・・(11)
F値=2/((1/Precision)+(1/Recall))・・・(12)
図8は、質問応答データベース拡張装置を適用した質問応答システムと適用していない質問応答システムによる評価値を示す図である。実験は、ベースライン1、ベースライン2、実施形態による方法(提案手法)により行った。
ベースライン1の「全てデータベース外発話と判断」とは、全ての発話をデータベース外と判別することであり、質問応答データベース拡張装置を適用していない質問応答システムである。ベースライン2の「iniDB」とは、全ての発話を初期データベースで判断することであり、質問応答データベース拡張装置を適用していない質問応答システムである。なお、実施形態による方法(提案手法)においては、NavieBayesを用いて学習を行い、10−fold cross validation(交差検定)を用いて学習と評価を行った。
図8のように、ベースライン1の手法による結果は、F値は高くなっているが、実際検出をしているわけではないので良い結果ではない。ベースライン2の手法の結果は、LMdbの結果を、IniDB(初期データベース)を用いて応答選択を行ったとき、その結果がデータベース外となっているかどうかという情報のみを用いたものであるが、分類精度は高くないことがわかる。さらに、実施形態による方法(提案手法)の評価結果は、ベースラインより高い判別精度が得られた。
[有効な特徴量の検討]
次に,判別精度向上に最も効果のある特徴量について検討した結果を説明する。検討は、1つの特徴量を削除し評価値を求めるという手順を、それぞれの特徴量について行うことで、どの特徴量が最も寄与しているかを検討した。質問文が質問応答DB外であることを検出する上で有効な特徴量の上位5個と、その特徴量を削除した場合のF 値は、図9のような結果であった。図9は、特徴量を1つ削除した場合の評価値の一例を示す図である。
図9のように、有効だった特徴量は、発話分類に使用したキーフレーズの音声認識信頼度の最小値であるFdb15であり、特徴量Fdb15を削除した場合のF値は0.685であった。また、有効だった特徴量は、LMdbとLMlvの第一候補の音響モデルの差Fdblv1であり、特徴量Fdblv1を削除した場合のF値は0.685であった。さらに、有効だった特徴量は、LMdbの認識結果の候補数であるFdb16であり、特徴量Fdb16を削除した場合のF値は0.685であった。さらに、有効だった特徴量は、LMdbの認識結果の単語数であるFdb11であり、特徴量Fdb11を削除した場合のF値は0.688であった。さらに、有効だった特徴量は、LMdbのキーフレーズのJulius confidence(信頼度)の平均値であるFdb13であり、特徴量Fdb13を削除した場合のF値は0.688であった。
db15とFdb13は,キーフレーズの音声認識結果がどれくらい正しいかを示唆している。Fdb11は、認識の精度を示し、Fdb16は、単語数が多ければ複数のトピックについての質問の可能性であるということを示唆している。さらに、差Fdblv1は、LMdbとLMlvの認識結果が、どれくらい実際の音声発話とずれているかを示唆している。以上により、キーフレーズが正しく認識されたかの推定が有効な特徴量であることが確認できた。
[データ量に対する精度の検討]
DB外の質問検出部18の判別部が行う学習において、大量のデータが必要であるならば、学習データを構築する際に書き起こし等が必要となるため,データベース拡張の際に、データベース作成者の労力削減にならない。このため、DB外の質問検出部18の判別部の訓練データ数が少ない場合の判別精度を確認した。図10は、学習データ量を変化させた場合の判別精度の一例を示す図であり、図11は、図10の結果をグラフに示した図である。図10のように、図8に結果を示した実験結果で用いた10−fold cross validationの場合のF値0.698と比較すると学習データ数を削減した場合のF値(0.602〜0.665)は低い。しかしながら、ベースラインの手法によるF値0.401よりは高い。このため、本実施形態による方法は、学習データ数を削減した場合においても有効である。
1・・・質問応答データベース拡張装置
11・・・マイク
12・・・第1音声認識部
13・・・第2音声認識部
14・・・質問応答DB
15・・・第1応答選択部
16・・・第2応答選択部
17・・・特徴量算出部
18・・・DB外の質問検出部
19・・・提示部

Claims (6)

  1. 質問と当該質問に対応する応答とが関連づけられて登録されている質問応答データベースと、
    入力された音声信号を前記質問応答データベースに基づく言語モデルを用いて音声認識を行い、認識結果である第1の音声認識結果を出力する第1音声認識部と、
    前記入力された音声信号を大語彙データベースに基づく言語モデルを用いて音声認識を行い、認識結果である第2の音声認識結果を出力する第2音声認識部と、
    前記第1の音声認識結果と前記第2の音声認識結果に基づき、前記入力された音声の中から前記質問応答データベースに登録されていない未登録発話を検出し、検出した前記未登録発話を出力する質問検出部と、
    を備えることを特徴とする質問応答データベース拡張装置。
  2. 前記質問検出部は、前記入力された音声のうち前記質問応答データベースに登録されていない未登録発話を文章単位で検出する
    ことを特徴とする請求項1に記載の質問応答データベース拡張装置。
  3. 前記第1の音声認識結果に基づく質問と当該質問に対応した応答とが、前記質問応答データベースに登録されているか否かを判別する第1応答選択部と、
    前記第2の音声認識結果に基づく質問と当該質問に対応した応答とが、前記質問応答データベースに登録されているか否かを判別する第2応答選択部と、
    をさらに備え、
    前記質問検出部は、前記第1の音声認識結果に基づく第1の特徴量を算出し、前記第2の音声認識結果に基づく第2の特徴量を算出し、算出した前記第1の特徴量と算出した前記第2の特徴量と前記第1応答選択部による判別結果と前記第2応答選択部による判別結果とを用いて前記質問応答データベースに含まれていない発話を検出する
    ことを特徴とする請求項1または請求項2に記載の質問応答データベース拡張装置。
  4. 前記質問検出部は、前記第1の特徴量と前記第2の特徴量と用いて学習を行い、学習結果に基づき、前記質問応答データベースに登録されているか否かの判別を行う判別関数を算出し、前記判別関数で算出した評価値に基づき、前記質問応答データベースに含まれていない発話を検出する
    ことを特徴とする請求項3に記載の質問応答データベース拡張装置。
  5. 前記第1の特徴量は、前記音声認識を行ったときに得られたあいづちに基づく発話の有無、発話の長さ、前記音声認識を行ったときに得られた音響スコア、前記音声認識を行ったときに得られた言語スコア、前記第1の音声認識結果の認識精度、前記第1の音声認識結果の信頼度に基づいて得られる値のうち一以上であり、または、前記第2の特徴量は、前記音声認識を行ったときに得られたあいづちの有無、発話の長さ、前記音声認識を行ったときに得られた音響スコア、前記音声認識を行ったときに得られた言語スコアに基づいて得られる値のうち一以上である
    ことを特徴とする請求項3または請求項4に記載の質問応答データベース拡張装置。
  6. 質問応答データベース拡張装置の質問応答データベース拡張方法において、
    質問と当該質問に対応する応答とが関連づけられて登録されている質問応答データベースと、
    第1音声認識部が、入力された音声信号を前記質問応答データベースに基づく言語モデルを用いて音声認識を行い、認識結果である第1の音声認識結果を出力する第1音声認識工程と、
    第2音声認識部が、前記入力された音声信号を大語彙データベースに基づく言語モデルを用いて音声認識を行い、認識結果である第2の音声認識結果を出力する第2音声認識工程と、
    質問検出部が、前記第1の音声認識結果と前記第2の音声認識結果に基づき、前記入力された音声の中から前記質問応答データベースに登録されていない未登録発話を検出し、検出した前記未登録発話を出力する質問検出工程と、
    を備えることを特徴とする質問応答データベース拡張方法。
JP2010153020A 2009-07-08 2010-07-05 質問応答データベース拡張装置および質問応答データベース拡張方法 Expired - Fee Related JP5377430B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US22381709P 2009-07-08 2009-07-08
US61/223,817 2009-07-08

Publications (2)

Publication Number Publication Date
JP2011018327A true JP2011018327A (ja) 2011-01-27
JP5377430B2 JP5377430B2 (ja) 2013-12-25

Family

ID=43428162

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010153020A Expired - Fee Related JP5377430B2 (ja) 2009-07-08 2010-07-05 質問応答データベース拡張装置および質問応答データベース拡張方法

Country Status (2)

Country Link
US (1) US8515764B2 (ja)
JP (1) JP5377430B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016099967A (ja) * 2014-11-26 2016-05-30 株式会社ユニバーサルエンターテインメント 情報提供システム、情報提供方法、及びプログラム
WO2019208222A1 (ja) * 2018-04-27 2019-10-31 日本電信電話株式会社 回答選択装置、回答選択方法、回答選択プログラム
JP2020184294A (ja) * 2019-04-26 2020-11-12 Arithmer株式会社 対話管理サーバ、対話管理方法、及びプログラム
US11487953B2 (en) 2019-11-19 2022-11-01 Samsung Electronics Co., Ltd. Method and apparatus with natural language processing
JP7466143B2 (ja) 2020-03-16 2024-04-12 カラクリ株式会社 情報処理装置、学習提案プログラム、及び学習提案方法

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8812321B2 (en) * 2010-09-30 2014-08-19 At&T Intellectual Property I, L.P. System and method for combining speech recognition outputs from a plurality of domain-specific speech recognizers via machine learning
CN102479510A (zh) * 2010-11-24 2012-05-30 株式会社东芝 用于生成语音标签的方法和装置
CN102737631A (zh) * 2011-04-15 2012-10-17 富泰华工业(深圳)有限公司 互功式语音识别电子装置及方法
US8560567B2 (en) 2011-06-28 2013-10-15 Microsoft Corporation Automatic question and answer detection
EP2864982B1 (en) * 2012-06-22 2018-10-17 Visteon Global Technologies, Inc. Multi-pass vehicle voice recognition systems and methods
KR101961139B1 (ko) * 2012-06-28 2019-03-25 엘지전자 주식회사 이동 단말기 및 그것의 음성 인식 방법
US9336269B1 (en) 2013-03-14 2016-05-10 Google Inc. Determining question and answer alternatives
US10380177B2 (en) 2015-12-02 2019-08-13 International Business Machines Corporation Expansion of a question and answer database
US20170229124A1 (en) * 2016-02-05 2017-08-10 Google Inc. Re-recognizing speech with external data sources
WO2017200081A1 (ja) * 2016-05-20 2017-11-23 日本電信電話株式会社 取得方法、生成方法、それらのシステム、及びプログラム
JP6777002B2 (ja) * 2017-04-27 2020-10-28 トヨタ自動車株式会社 対話装置、対話方法及び対話プログラム
JP6940428B2 (ja) * 2018-02-15 2021-09-29 アルパイン株式会社 検索結果提供装置および検索結果提供方法
JP6775545B2 (ja) * 2018-05-09 2020-10-28 日本電信電話株式会社 対話データ生成装置、対話データ生成方法、およびプログラム
CN109346065A (zh) * 2018-11-14 2019-02-15 深圳航天科创智能科技有限公司 一种语音识别方法及系统
CN110706704A (zh) * 2019-10-17 2020-01-17 四川长虹电器股份有限公司 用于生成语音交互原型的方法、装置和计算机设备
WO2024006431A1 (en) * 2022-06-29 2024-01-04 Cytel Inc. Systems and methods for systematic literature review
CN116932731B (zh) * 2023-09-18 2024-01-30 上海帜讯信息技术股份有限公司 面向5g消息的多模态知识问答方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06274539A (ja) * 1993-03-18 1994-09-30 Fujitsu Ltd 質疑応答システム
JP2004118740A (ja) * 2002-09-27 2004-04-15 Toshiba Corp 質問応答システム、質問応答方法、質問応答プログラム
JP2004295396A (ja) * 2003-03-26 2004-10-21 Osaka Gas Co Ltd 受付処理支援装置
JP2005190100A (ja) * 2003-12-25 2005-07-14 Toshiba Corp 質問応答システムおよび方法
WO2006085661A1 (ja) * 2005-02-08 2006-08-17 Nec Corporation 質問応答データ編集装置、質問応答データ編集方法、質問応答データ編集プログラム
JP2008033835A (ja) * 2006-07-31 2008-02-14 Fujitsu Ltd オペレータ支援プログラム、オペレータ支援装置およびオペレータ支援方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7392185B2 (en) * 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US7050977B1 (en) * 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US6526382B1 (en) * 1999-12-07 2003-02-25 Comverse, Inc. Language-oriented user interfaces for voice activated services
GB0027178D0 (en) * 2000-11-07 2000-12-27 Canon Kk Speech processing system
JP2003255991A (ja) * 2002-03-06 2003-09-10 Sony Corp 対話制御システム、対話制御方法及びロボット装置
US20030191639A1 (en) * 2002-04-05 2003-10-09 Sam Mazza Dynamic and adaptive selection of vocabulary and acoustic models based on a call context for speech recognition
US7640164B2 (en) * 2002-07-04 2009-12-29 Denso Corporation System for performing interactive dialog
US7584103B2 (en) * 2004-08-20 2009-09-01 Multimodal Technologies, Inc. Automated extraction of semantic content and generation of a structured document from speech
US8301448B2 (en) * 2006-03-29 2012-10-30 Nuance Communications, Inc. System and method for applying dynamic contextual grammars and language models to improve automatic speech recognition accuracy

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06274539A (ja) * 1993-03-18 1994-09-30 Fujitsu Ltd 質疑応答システム
JP2004118740A (ja) * 2002-09-27 2004-04-15 Toshiba Corp 質問応答システム、質問応答方法、質問応答プログラム
JP2004295396A (ja) * 2003-03-26 2004-10-21 Osaka Gas Co Ltd 受付処理支援装置
JP2005190100A (ja) * 2003-12-25 2005-07-14 Toshiba Corp 質問応答システムおよび方法
WO2006085661A1 (ja) * 2005-02-08 2006-08-17 Nec Corporation 質問応答データ編集装置、質問応答データ編集方法、質問応答データ編集プログラム
JP2008033835A (ja) * 2006-07-31 2008-02-14 Fujitsu Ltd オペレータ支援プログラム、オペレータ支援装置およびオペレータ支援方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSNJ200810074173; 李 晃伸: '大語彙連続音声認識エンジンJuliusバージョン4.0の構成と機能' 情報処理学会第70回(平成20年)全国大会講演論文集 Vol.5,No.3L-6, 20080313, pp.5-345〜5-346., 社団法人情報処理学会 *
CSNJ200910054057; 勝丸 真樹 他: '音声認識と言語理解を動的に選択する音声理解フレームワーク' 情報処理学会第71回(平成21年)全国大会講演論文集 Vol.5,No.4Q-2, 20090310, pp.2-117〜2-118., 社団法人情報処理学会 *
JPN6013042625; 李 晃伸: '大語彙連続音声認識エンジンJuliusバージョン4.0の構成と機能' 情報処理学会第70回(平成20年)全国大会講演論文集 Vol.5,No.3L-6, 20080313, pp.5-345〜5-346., 社団法人情報処理学会 *
JPN6013042629; 勝丸 真樹 他: '音声認識と言語理解を動的に選択する音声理解フレームワーク' 情報処理学会第71回(平成21年)全国大会講演論文集 Vol.5,No.4Q-2, 20090310, pp.2-117〜2-118., 社団法人情報処理学会 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016099967A (ja) * 2014-11-26 2016-05-30 株式会社ユニバーサルエンターテインメント 情報提供システム、情報提供方法、及びプログラム
WO2019208222A1 (ja) * 2018-04-27 2019-10-31 日本電信電話株式会社 回答選択装置、回答選択方法、回答選択プログラム
JPWO2019208222A1 (ja) * 2018-04-27 2021-05-13 日本電信電話株式会社 回答選択装置、回答選択方法、回答選択プログラム
JP7111154B2 (ja) 2018-04-27 2022-08-02 日本電信電話株式会社 回答選択装置、回答選択方法、回答選択プログラム
JP2020184294A (ja) * 2019-04-26 2020-11-12 Arithmer株式会社 対話管理サーバ、対話管理方法、及びプログラム
US11487953B2 (en) 2019-11-19 2022-11-01 Samsung Electronics Co., Ltd. Method and apparatus with natural language processing
JP7466143B2 (ja) 2020-03-16 2024-04-12 カラクリ株式会社 情報処理装置、学習提案プログラム、及び学習提案方法

Also Published As

Publication number Publication date
JP5377430B2 (ja) 2013-12-25
US8515764B2 (en) 2013-08-20
US20110010177A1 (en) 2011-01-13

Similar Documents

Publication Publication Date Title
JP5377430B2 (ja) 質問応答データベース拡張装置および質問応答データベース拡張方法
US9911413B1 (en) Neural latent variable model for spoken language understanding
US9020819B2 (en) Recognition dictionary system and recognition dictionary system updating method
JP6066471B2 (ja) 対話システム及び対話システム向け発話の判別方法
US10432789B2 (en) Classification of transcripts by sentiment
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US6587818B2 (en) System and method for resolving decoding ambiguity via dialog
US7603279B2 (en) Grammar update system and method for speech recognition
US10170107B1 (en) Extendable label recognition of linguistic input
US6618702B1 (en) Method of and device for phone-based speaker recognition
US20140278372A1 (en) Ambient sound retrieving device and ambient sound retrieving method
US20090112593A1 (en) System for recognizing speech for searching a database
JP4680714B2 (ja) 音声認識装置および音声認識方法
US20090258333A1 (en) Spoken language learning systems
CN109791761B (zh) 使用校正的术语的声学模型训练
US8909528B2 (en) Method and system for prompt construction for selection from a list of acoustically confusable items in spoken dialog systems
JP2003036093A (ja) 音声入力検索システム
Alon et al. Contextual speech recognition with difficult negative training examples
JP5326169B2 (ja) 音声データ検索システム及び音声データ検索方法
JP4950024B2 (ja) 会話システムおよび会話ソフトウェア
JP4758919B2 (ja) 音声認識装置及び音声認識プログラム
JP3825526B2 (ja) 音声認識装置
KR101483947B1 (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
JP2005275348A (ja) 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
CN111078937B (zh) 语音信息检索方法、装置、设备和计算机可读存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121127

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130821

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130827

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130924

R150 Certificate of patent or registration of utility model

Ref document number: 5377430

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees