JP2003141498A - 解答抽出方法、装置、プログラム、および同プログラムを記録した記録媒体 - Google Patents

解答抽出方法、装置、プログラム、および同プログラムを記録した記録媒体

Info

Publication number
JP2003141498A
JP2003141498A JP2001333031A JP2001333031A JP2003141498A JP 2003141498 A JP2003141498 A JP 2003141498A JP 2001333031 A JP2001333031 A JP 2001333031A JP 2001333031 A JP2001333031 A JP 2001333031A JP 2003141498 A JP2003141498 A JP 2003141498A
Authority
JP
Japan
Prior art keywords
answer
candidates
candidate
correct
answers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001333031A
Other languages
English (en)
Other versions
JP2003141498A5 (ja
Inventor
Jun Suzuki
潤 鈴木
Yutaka Sasaki
裕 佐々木
Eisaku Maeda
英作 前田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2001333031A priority Critical patent/JP2003141498A/ja
Publication of JP2003141498A publication Critical patent/JP2003141498A/ja
Publication of JP2003141498A5 publication Critical patent/JP2003141498A5/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 任意の解答が正解であるか否かを、抽出関数
を人手により経験的に決定することなく、決定する。 【解決手段】 事前に用意された解答抽出のための訓練
データとしてあらかじめ正解(正例)と不正解(負例)
を付与された解答候補を入力し、訓練データ中の解答候
補と正例、負例のいずれかに属するr個の訓練データの
ベクトルの集合として表わす。ラベル付き特徴ベクトル
からSupport Vector Machineにより分類器を構成する。
与えられた質問に対する列挙された解答候補を入力し、
前記特徴ベクトルと同様の特徴ベクトルで表現する。前
記分類器を用いて解答候補の特徴ベクトルを評価し、該
解答候補が正解であるかどうか判定する。最後に、正解
であると判定された解答候補を出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は解答抽出方法、解答
抽出装置、解答抽出プログラム、および同プログラムを
記憶した記憶媒体に関する。
【0002】
【従来の技術】従来の解答抽出方法では、何らかの方法
で列挙された解答候補に対して、その解答候補の特徴を
表す集合をF={f1, f2, ・・・, fn}とした場合、そ
れらの特徴がとる値の集合をV={v1, v2, ・・・,
vn}と表す。ここで、Vに関する抽出関数Γ(・)を以下
のように表す。
【0003】 S=Γ(V) (1) ここで、Sは、抽出関数から得られる最終的な抽出値で
ある。よって、Γ(V)から得られた値Sが最大である解
答候補を正解として抽出する。または、Sの大きい順に
解答として尤もらしいと考え解答候補を順位付ける方法
をとる。
【0004】また、解答抽出では、あり得ない解答候補
を足切りすることにより、解答候補数を減少させること
が可能である。この足切りに用いる特徴も、解答の特徴
を表す集合Fと同様にFt={ft1, ft2, ・・・, ftm}と
表すことができる。このとき用いる抽出関数は以下のよ
うに定義できる。
【0005】
【数1】
【0006】Fの要素としては、「解答候補と質問語の
距離」、「解答候補の出現場所」、「解答候補の種別」
等が考えられる。Ftの要素としては、「キーワードが解
答候補周囲に存在しない」、「意味カテゴリがマッチし
ない」等が挙げられる。また、fiがとる値域viは、連続
値や0,1の数値で表される。
【0007】解答候補から解答を選出するために用いる
抽出関数Γ(・)は人手により経験的に決定する。
【0008】
【発明が解決しようとする課題】上述した従来の方法で
は、特徴集合Fの要素数が大きくなるにしたがい、vi
(∈V)を用いた抽出関数Γ(・)を人手により設計するこ
とが困難となる。また、どの特徴がどの程度、実際の解
答抽出に影響を与えるかを経験的に数値として与えるこ
とは困難である。つまり、Fの要素が数百以上にも及ぶ
場合には人手により高精度の抽出関数Γ(・)を設計する
のはほぼ不可能である。
【0009】逆に、抽出関数に限られた特徴のみを用い
るならば、抽出関数の設計は比較的容易になる。しか
し、解答候補を正解と決定付ける特徴を捨てる可能性が
大きくなり、詳細な解析を行うことが難しくなる。
【0010】また、人間の直観で、どの特徴が本当に有
意な特徴として働くか判定することは難しい。正解は、
質問に対して動的に決定される問題であり、ある条件下
(問題)では、不必要な特徴でも、ある条件下では必要
である特徴も存在すると考えられる。つまり、解答抽出
で用いる特徴は、できる限り多種多様な特徴を用いて抽
出関数を設計することが望ましいと考えられる。
【0011】本発明の目的は、任意の解答候補が正解で
あるか不正解であるかを、抽出関数を人手により経験的
に決定することなく決定する解答抽出方法、解答抽出装
置、解答抽出プログラム、および同プログラムを記録し
た記録媒体を提供することにある。
【0012】
【課題を解決するための手段】本発明は、解答候補を特
徴付ける要素の集合Fとそれらがとる値の集合Vが与えら
れた場合に、解答候補をFの各要素に基づくn次元のベク
トルで表現し、さらに、各解答候補に対して割り当てら
れた正解、不正解のラベルを考慮して、正例、負例の2
値分類器をSupport Vector Machine(参考文献:V. Vap
nik. The Nature of Statistical Learning Theory. Sp
ring-Verlag, New York, 1995.参照)により構成し、任
意の解答候補が正解か不正解かを決定するものである。
【0013】
【発明の実施の形態】次に、本発明の実施の形態につい
て図面を参照して説明する。
【0014】図1を参照すると、本発明の一実施形態の
解答抽出装置1は訓練データ特徴ベクトル表現部11と
分類器構成部12と解答候補ベクトル表現部13と解答
候補判定部14と解答出力部15を有している。
【0015】なお、図1ではデータを入力する、キーボ
ード等の入力手段、入力データ、途中のデータを記憶す
るメモリは図示されていない。
【0016】訓練データ特徴ベクトル表現部11は、訓
練データとしてあらかじめ正解(正例)と不正解(負
例)を付与された解答候補を入力とし、訓練データ中の
解答候補を正例・負例のいずれかに属するr個の訓練デ
ータベクトルの集合として
【0017】
【数2】
【0018】と表す(ステップ21)。ここで
【0019】
【外1】
【0020】はi番目の訓練データ中の解答候補の特徴
ベクトルで、n次元ベクトルである。ベクトルの各次元
はFに対応し、値は Vに対応する。また、yiは文iが正例
の場合には+1をとり、負例の場合には−1をとるスカ
ラー変数である。訓練データの例を表1に示す。
【0021】
【表1】
【0022】分類器作成部12は、これらの訓練データ
を入力としてSupport VectorMachineにより分類器を作
成する(ステップ22)。Support Vector Machineは、
入力データ(多次元ベクトル)を(多次元)特徴空間に
配置し、入力データの2クラス(正例と負例)間のマー
ジン(境界)(図3:マージン)を最大にするような判
別関数を求める。特徴空間上で線形分離が不可能な場合
は、特徴空間からさらに高次空間に非線形写像を行い、
その高次空間上で線形分離するようにする。考えられる
分離平面(超平面)中から、マージン最大化の原理によ
り、正例・負例間のマージンが最大になるような判別関
数を選ぶ。これは、正例・負例間の境界が大きければ大
きいほど未知データに対する汎化性があるという考えに
基づいている。つまり、「Support Vector Machineによ
り分類器を構成すること」というのは、与えられた訓練
データ(入力データの集合)から、2クラス(正例と負
例)間のマージンが最大になる判別関数を決定すること
である。
【0023】解答候補ベクトル表現部13は、質問が与
えられたときに列挙された解答候補を入力し、表1と同
様のベクトルで表現する(ステップ23)。なお、解答
候補の抽出は、質問文を質問文解析器2に与えて質問文
の質問タイプ等を同定し、適合する固有表現を文書中か
ら解答候補抽出器3によって抽出することによって行
う。
【0024】解答候補判定部14は分類器構成部12で
作成された分類器を用いて解答候補の特徴ベクトルを評
価し、解答候補が正であるかどうか判定する(ステップ
24)。つまり、訓練データから得られた判別関数によ
り正例側に分離された解答候補が正解であり、負例側に
分離された解答候補が不正解と判定される。入力データ
は多次元ベクトル(ここで仮にN次元とする)なので、
入力データが多次元(N次元)空間上に配置されている
とすると、それを2分するのは、N―1次元の超平面で
ある。「正例・負例を超平面によって分類する」という
のは、解答候補を、先に求めた判別関数により正例側に
来るか負例側に来るかで分類することである。
【0025】最後に、解答出力部15は、正解と判定さ
れた解答候補を出力する(ステップ25〜27)。この
場合、正解と判定された解答候補をそのまま出力する場
合(ステップ25)と、不正解も含めて解答候補を順序
付けして出力する場合とがある(ステップ26、2
7)。
【0026】不正解の中にも、質問の正解により近いで
あろうという優先度が必要になることがある。また、解
答候補の尤もらしさのランクを与えて提示するシステム
を要求されることも考えられる。そこで、解答候補に順
位付けを行う場合には、分離平面(超平面)からの距離
をsigmoid関数を用いて確率値への近似を行い、高い確
率値が与えられた解答候補の順に正解として尤もらしい
と判断することができる。
【0027】sigmoid関数は以下の式で表される。
【0028】
【数3】
【0029】ここで、dは分離表面からの距離を表す。
【0030】次に、本実施例の動作を具体例により説明
する。
【0031】表2は質問と正解のセットからなる訓練デ
ータの例を示している。
【0032】
【表2】
【0033】正解に対応する解答候補を正例、正解以外
の解答候補を負例としてラベル付けし、表1にしたがっ
て各解答候補を特徴ベクトルで表現すると、表3のよう
なる。
【0034】
【表3】
【0035】次に、表3で得られた特徴ベクトルを用い
て分類器を作成する。
【0036】次に、図4に示すような質問が与えられる
と、質問文解析器2によって質問文から、質問タイプ
等、解答抽出に必要な情報の解析が行われる。
【0037】ここで、抽出された質問タイプにマッチす
る固有表現を解答候補抽出器3によって文書中から抽出
し、解答候補とする。
【0038】次に、解答候補を表1と同様にベクトルで
表現すると、表4のようになる。表4中「S」は、判別
関数から得られたスコア、つまり分離平面からの距離を
表わしている。
【0039】
【表4】
【0040】表4ではSの値が正、すなわち判別関数に
よって正例と分離されたものは「W」であり、「W」が
正解と判定される。
【0041】解答の順位付けが必要な場合には、表5の
ような出力になる。
【0042】
【表5】
【0043】なお、図1に示した解答抽出装置は、その
機能を実現するためのプログラムを、コンピュータ読み
取り可能な記録媒体に記録して、この記録媒体に記録さ
れたプログラムをコンピュータシステムに読み込ませ、
実行するものであってもよい。コンピュータ読み取り可
能な記録媒体とは、フロッピー(登録商標)ディスク、
光磁気ディスク、CD―ROM等の記録媒体、コンピュータ
システムに内蔵されるハードディスク装置等の記憶装置
を指す。さらに、コンピュータ読み取り可能な記録媒体
は、インターネットを介してプログラムを送信する場合
のように、短時間の間、動的にプログラムを保持するも
の(伝送媒体もしくは伝送波)、その場合のサーバとな
るコンピュータシステム内部の揮発性メモリのように、
プログラムを保持しているものも含む。
【0044】
【発明の効果】以上説明したように、本発明によれば、
従来、経験的に解答抽出の抽出関数を決定していたため
に、抽出関数設計それ自体が困難である、抽出関数の妥
当性の評価が困難性ある等といった問題点が解消される
効果がある。つまり、SupportVector Machineによる学
習によって自動的に抽出関数を決定することが可能であ
るため、訓練データを作成することが可能であれば抽出
関数を決定することができる。また、その抽出関数が実
例である訓練データから構築されたものであることか
ら、Support Vector Machineで学習されたモデルをみる
ことで妥当性を評価することが可能である。
【図面の簡単な説明】
【図1】本発明の一実施形態の解答抽出装置の構成図で
ある。
【図2】図1の解答抽出装置の全体の処理の流れを示す
フローチャートである。
【図3】Support Vector Machineの概念図である。
【図4】質問の例を示す図である。
【符号の説明】
1 解答抽出装置 2 質問文解析器 3 解答候補抽出器 11 訓練特徴ベクトル表現部 12 分類器構成部 13 解答候補ベクトル表現部 14 解答候補判定部 15 解答出力部 21〜27 ステップ
───────────────────────────────────────────────────── フロントページの続き (72)発明者 前田 英作 東京都千代田区大手町二丁目3番1号 日 本電信電話株式会社内 Fターム(参考) 2C028 BD01

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 事前に用意された、解答抽出のための訓
    練データを入力し、正解、不正解のラベルがついた特徴
    ベクトルで表現する第1のステップと、 ラベル付き特徴ベクトルからSupport Vector Machineに
    より分類器を構成する第2のステップと、 与えられた質問に対する列挙された解答候補を入力し、
    前記特徴ベクトルと同様のベクトルで表現する第3のス
    テップと、 前記分類器を用いて解答候補の特徴ベクトルを評価し、
    該解答候補が正解であるかどうか判定する第4のステッ
    プと、 正解であると判定された解答候補を出力する第5のステ
    ップを有する解答抽出方法。
  2. 【請求項2】 第4のステップでは、前記分類器が解答
    候補を超平面によって正解、不正解に分離する、請求項
    1記載の方法。
  3. 【請求項3】 第5のステップでは、各解答候補の、前
    記超平面からの距離をsigmoid関数を用いて確率値へ近
    似し、確率値の大きい順に解答候補を出力する、請求項
    2に記載の方法。
  4. 【請求項4】 事前に用意された解答抽出ための訓練デ
    ータを入力し、正解、不正解のラベルがついた特徴ベク
    トルで表現する訓練データ特徴ベクトル表現手段と、 ラベル付き特徴ベクトルからSupport Vector Machineに
    より分類器を構成する分類器構成手段と、 与えられた質問に対する列挙された解答候補を入力し、
    前記特徴ベクトルと同様の特徴ベクトルで表現する解答
    候補ベクトル表現手段と、 前記分類器を用いて解答候補の特徴ベクトルを評価し、
    該解答候補が正解であるかどうか判定する解答候補判定
    手段と、 正解であると判定された解答候補を出力する解答出力手
    段を有する解答抽出装置。
  5. 【請求項5】 前記解答候補判定手段では、前記分類器
    が解答候補を超平面によって正解、不正解に分離する、
    請求項4記載の装置。
  6. 【請求項6】 前記解答出力手段は、各解答候補の、前
    記超平面からの距離をsigmoid関数を用いて確率値へ近
    似し、確率値の大きい順に解答候補を出力する、請求項
    5記載の装置。
  7. 【請求項7】 請求項1から3のいずれか1項に記載の
    方法をコンピュータに実行させる解答抽出プログラム。
  8. 【請求項8】 請求項1から3のいずれか1項記載の方
    法をコンピュータに実現させる解答抽出プログラムを記
    録した記録媒体。
JP2001333031A 2001-10-30 2001-10-30 解答抽出方法、装置、プログラム、および同プログラムを記録した記録媒体 Pending JP2003141498A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001333031A JP2003141498A (ja) 2001-10-30 2001-10-30 解答抽出方法、装置、プログラム、および同プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001333031A JP2003141498A (ja) 2001-10-30 2001-10-30 解答抽出方法、装置、プログラム、および同プログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
JP2003141498A true JP2003141498A (ja) 2003-05-16
JP2003141498A5 JP2003141498A5 (ja) 2005-03-03

Family

ID=19148365

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001333031A Pending JP2003141498A (ja) 2001-10-30 2001-10-30 解答抽出方法、装置、プログラム、および同プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP2003141498A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014032320A (ja) * 2012-08-03 2014-02-20 Waseda Univ 記憶度推定装置および記憶度推定プログラム
JP2016532186A (ja) * 2013-07-12 2016-10-13 フェイスブック,インク. 掴み検出の較正
JP2019040335A (ja) * 2017-08-24 2019-03-14 三菱電機インフォメーションシステムズ株式会社 教師データを生成する方法、学習済みモデルを生成する方法、学習済みモデル、コンピュータおよびプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014032320A (ja) * 2012-08-03 2014-02-20 Waseda Univ 記憶度推定装置および記憶度推定プログラム
JP2016532186A (ja) * 2013-07-12 2016-10-13 フェイスブック,インク. 掴み検出の較正
US10582038B2 (en) 2013-07-12 2020-03-03 Facebook, Inc. Calibration of grab detection
US10742798B1 (en) 2013-07-12 2020-08-11 Facebook, Inc. Calibration of grab detection
JP2019040335A (ja) * 2017-08-24 2019-03-14 三菱電機インフォメーションシステムズ株式会社 教師データを生成する方法、学習済みモデルを生成する方法、学習済みモデル、コンピュータおよびプログラム

Similar Documents

Publication Publication Date Title
US10861022B2 (en) Computer systems and methods to discover questions and answers from conversations
US8176050B2 (en) Method and apparatus of supporting creation of classification rules
US8150822B2 (en) On-line iterative multistage search engine with text categorization and supervised learning
US8620837B2 (en) Determination of a basis for a new domain model based on a plurality of learned models
US11443209B2 (en) Method and system for unlabeled data selection using failed case analysis
US20210026890A1 (en) Faq consolidation assistance device, faq consolidation assistance method, and program
CN112131876A (zh) 一种基于相似度确定标准问题的方法及系统
US20230376546A1 (en) Apparatus and method of performance matching
WO2020172649A1 (en) System and method for text categorization and sentiment analysis
US11538462B1 (en) Apparatuses and methods for querying and transcribing video resumes
US20060179017A1 (en) Preparing data for machine learning
JP4008313B2 (ja) 質問タイプ学習装置、質問タイプ学習プログラム、同プログラムを記録した記録媒体、学習サンプルが記録されている記録媒体、質問タイプ同定装置、質問タイプ同定プログラム、同プログラムを記録した記録媒体
JPH11328317A (ja) 日本語文字認識誤り訂正方法及び装置、並びに、誤り訂正プログラムを記録した記録媒体
JP4054046B2 (ja) 意見性判定データベース作成方法及び装置及びプログラム及び意見性判定方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
US11854537B2 (en) Systems and methods for parsing and correlating solicitation video content
US20230298571A1 (en) Apparatuses and methods for querying and transcribing video resumes
CN115098690B (zh) 一种基于聚类分析的多数据文档分类方法及系统
JP2003141498A (ja) 解答抽出方法、装置、プログラム、および同プログラムを記録した記録媒体
JP2001022727A (ja) テキスト分類学習方法及び装置及びテキスト分類学習プログラムを格納した記憶媒体
JP4735958B2 (ja) テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム
US11580499B2 (en) Method, system and computer-readable medium for information retrieval
US11042520B2 (en) Computer system
CN113434639A (zh) 审计数据处理方法及装置
CN112597295A (zh) 摘要提取方法、装置、计算机设备和存储介质
JP2000339310A (ja) 文書分類方法、文書分類装置、およびプログラムを記録する記録媒体

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040331

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040331

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20040331

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20040331

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050610

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060315

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060705