JP2003141498A - 解答抽出方法、装置、プログラム、および同プログラムを記録した記録媒体 - Google Patents
解答抽出方法、装置、プログラム、および同プログラムを記録した記録媒体Info
- Publication number
- JP2003141498A JP2003141498A JP2001333031A JP2001333031A JP2003141498A JP 2003141498 A JP2003141498 A JP 2003141498A JP 2001333031 A JP2001333031 A JP 2001333031A JP 2001333031 A JP2001333031 A JP 2001333031A JP 2003141498 A JP2003141498 A JP 2003141498A
- Authority
- JP
- Japan
- Prior art keywords
- answer
- candidates
- candidate
- correct
- answers
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
を人手により経験的に決定することなく、決定する。 【解決手段】 事前に用意された解答抽出のための訓練
データとしてあらかじめ正解(正例)と不正解(負例)
を付与された解答候補を入力し、訓練データ中の解答候
補と正例、負例のいずれかに属するr個の訓練データの
ベクトルの集合として表わす。ラベル付き特徴ベクトル
からSupport Vector Machineにより分類器を構成する。
与えられた質問に対する列挙された解答候補を入力し、
前記特徴ベクトルと同様の特徴ベクトルで表現する。前
記分類器を用いて解答候補の特徴ベクトルを評価し、該
解答候補が正解であるかどうか判定する。最後に、正解
であると判定された解答候補を出力する。
Description
抽出装置、解答抽出プログラム、および同プログラムを
記憶した記憶媒体に関する。
で列挙された解答候補に対して、その解答候補の特徴を
表す集合をF={f1, f2, ・・・, fn}とした場合、そ
れらの特徴がとる値の集合をV={v1, v2, ・・・,
vn}と表す。ここで、Vに関する抽出関数Γ(・)を以下
のように表す。
ある。よって、Γ(V)から得られた値Sが最大である解
答候補を正解として抽出する。または、Sの大きい順に
解答として尤もらしいと考え解答候補を順位付ける方法
をとる。
を足切りすることにより、解答候補数を減少させること
が可能である。この足切りに用いる特徴も、解答の特徴
を表す集合Fと同様にFt={ft1, ft2, ・・・, ftm}と
表すことができる。このとき用いる抽出関数は以下のよ
うに定義できる。
距離」、「解答候補の出現場所」、「解答候補の種別」
等が考えられる。Ftの要素としては、「キーワードが解
答候補周囲に存在しない」、「意味カテゴリがマッチし
ない」等が挙げられる。また、fiがとる値域viは、連続
値や0,1の数値で表される。
抽出関数Γ(・)は人手により経験的に決定する。
は、特徴集合Fの要素数が大きくなるにしたがい、vi
(∈V)を用いた抽出関数Γ(・)を人手により設計するこ
とが困難となる。また、どの特徴がどの程度、実際の解
答抽出に影響を与えるかを経験的に数値として与えるこ
とは困難である。つまり、Fの要素が数百以上にも及ぶ
場合には人手により高精度の抽出関数Γ(・)を設計する
のはほぼ不可能である。
るならば、抽出関数の設計は比較的容易になる。しか
し、解答候補を正解と決定付ける特徴を捨てる可能性が
大きくなり、詳細な解析を行うことが難しくなる。
意な特徴として働くか判定することは難しい。正解は、
質問に対して動的に決定される問題であり、ある条件下
(問題)では、不必要な特徴でも、ある条件下では必要
である特徴も存在すると考えられる。つまり、解答抽出
で用いる特徴は、できる限り多種多様な特徴を用いて抽
出関数を設計することが望ましいと考えられる。
あるか不正解であるかを、抽出関数を人手により経験的
に決定することなく決定する解答抽出方法、解答抽出装
置、解答抽出プログラム、および同プログラムを記録し
た記録媒体を提供することにある。
徴付ける要素の集合Fとそれらがとる値の集合Vが与えら
れた場合に、解答候補をFの各要素に基づくn次元のベク
トルで表現し、さらに、各解答候補に対して割り当てら
れた正解、不正解のラベルを考慮して、正例、負例の2
値分類器をSupport Vector Machine(参考文献:V. Vap
nik. The Nature of Statistical Learning Theory. Sp
ring-Verlag, New York, 1995.参照)により構成し、任
意の解答候補が正解か不正解かを決定するものである。
て図面を参照して説明する。
解答抽出装置1は訓練データ特徴ベクトル表現部11と
分類器構成部12と解答候補ベクトル表現部13と解答
候補判定部14と解答出力部15を有している。
ード等の入力手段、入力データ、途中のデータを記憶す
るメモリは図示されていない。
練データとしてあらかじめ正解(正例)と不正解(負
例)を付与された解答候補を入力とし、訓練データ中の
解答候補を正例・負例のいずれかに属するr個の訓練デ
ータベクトルの集合として
ベクトルで、n次元ベクトルである。ベクトルの各次元
はFに対応し、値は Vに対応する。また、yiは文iが正例
の場合には+1をとり、負例の場合には−1をとるスカ
ラー変数である。訓練データの例を表1に示す。
を入力としてSupport VectorMachineにより分類器を作
成する(ステップ22)。Support Vector Machineは、
入力データ(多次元ベクトル)を(多次元)特徴空間に
配置し、入力データの2クラス(正例と負例)間のマー
ジン(境界)(図3:マージン)を最大にするような判
別関数を求める。特徴空間上で線形分離が不可能な場合
は、特徴空間からさらに高次空間に非線形写像を行い、
その高次空間上で線形分離するようにする。考えられる
分離平面(超平面)中から、マージン最大化の原理によ
り、正例・負例間のマージンが最大になるような判別関
数を選ぶ。これは、正例・負例間の境界が大きければ大
きいほど未知データに対する汎化性があるという考えに
基づいている。つまり、「Support Vector Machineによ
り分類器を構成すること」というのは、与えられた訓練
データ(入力データの集合)から、2クラス(正例と負
例)間のマージンが最大になる判別関数を決定すること
である。
えられたときに列挙された解答候補を入力し、表1と同
様のベクトルで表現する(ステップ23)。なお、解答
候補の抽出は、質問文を質問文解析器2に与えて質問文
の質問タイプ等を同定し、適合する固有表現を文書中か
ら解答候補抽出器3によって抽出することによって行
う。
作成された分類器を用いて解答候補の特徴ベクトルを評
価し、解答候補が正であるかどうか判定する(ステップ
24)。つまり、訓練データから得られた判別関数によ
り正例側に分離された解答候補が正解であり、負例側に
分離された解答候補が不正解と判定される。入力データ
は多次元ベクトル(ここで仮にN次元とする)なので、
入力データが多次元(N次元)空間上に配置されている
とすると、それを2分するのは、N―1次元の超平面で
ある。「正例・負例を超平面によって分類する」という
のは、解答候補を、先に求めた判別関数により正例側に
来るか負例側に来るかで分類することである。
れた解答候補を出力する(ステップ25〜27)。この
場合、正解と判定された解答候補をそのまま出力する場
合(ステップ25)と、不正解も含めて解答候補を順序
付けして出力する場合とがある(ステップ26、2
7)。
あろうという優先度が必要になることがある。また、解
答候補の尤もらしさのランクを与えて提示するシステム
を要求されることも考えられる。そこで、解答候補に順
位付けを行う場合には、分離平面(超平面)からの距離
をsigmoid関数を用いて確率値への近似を行い、高い確
率値が与えられた解答候補の順に正解として尤もらしい
と判断することができる。
する。
ータの例を示している。
の解答候補を負例としてラベル付けし、表1にしたがっ
て各解答候補を特徴ベクトルで表現すると、表3のよう
なる。
て分類器を作成する。
と、質問文解析器2によって質問文から、質問タイプ
等、解答抽出に必要な情報の解析が行われる。
る固有表現を解答候補抽出器3によって文書中から抽出
し、解答候補とする。
表現すると、表4のようになる。表4中「S」は、判別
関数から得られたスコア、つまり分離平面からの距離を
表わしている。
よって正例と分離されたものは「W」であり、「W」が
正解と判定される。
ような出力になる。
機能を実現するためのプログラムを、コンピュータ読み
取り可能な記録媒体に記録して、この記録媒体に記録さ
れたプログラムをコンピュータシステムに読み込ませ、
実行するものであってもよい。コンピュータ読み取り可
能な記録媒体とは、フロッピー(登録商標)ディスク、
光磁気ディスク、CD―ROM等の記録媒体、コンピュータ
システムに内蔵されるハードディスク装置等の記憶装置
を指す。さらに、コンピュータ読み取り可能な記録媒体
は、インターネットを介してプログラムを送信する場合
のように、短時間の間、動的にプログラムを保持するも
の(伝送媒体もしくは伝送波)、その場合のサーバとな
るコンピュータシステム内部の揮発性メモリのように、
プログラムを保持しているものも含む。
従来、経験的に解答抽出の抽出関数を決定していたため
に、抽出関数設計それ自体が困難である、抽出関数の妥
当性の評価が困難性ある等といった問題点が解消される
効果がある。つまり、SupportVector Machineによる学
習によって自動的に抽出関数を決定することが可能であ
るため、訓練データを作成することが可能であれば抽出
関数を決定することができる。また、その抽出関数が実
例である訓練データから構築されたものであることか
ら、Support Vector Machineで学習されたモデルをみる
ことで妥当性を評価することが可能である。
ある。
フローチャートである。
Claims (8)
- 【請求項1】 事前に用意された、解答抽出のための訓
練データを入力し、正解、不正解のラベルがついた特徴
ベクトルで表現する第1のステップと、 ラベル付き特徴ベクトルからSupport Vector Machineに
より分類器を構成する第2のステップと、 与えられた質問に対する列挙された解答候補を入力し、
前記特徴ベクトルと同様のベクトルで表現する第3のス
テップと、 前記分類器を用いて解答候補の特徴ベクトルを評価し、
該解答候補が正解であるかどうか判定する第4のステッ
プと、 正解であると判定された解答候補を出力する第5のステ
ップを有する解答抽出方法。 - 【請求項2】 第4のステップでは、前記分類器が解答
候補を超平面によって正解、不正解に分離する、請求項
1記載の方法。 - 【請求項3】 第5のステップでは、各解答候補の、前
記超平面からの距離をsigmoid関数を用いて確率値へ近
似し、確率値の大きい順に解答候補を出力する、請求項
2に記載の方法。 - 【請求項4】 事前に用意された解答抽出ための訓練デ
ータを入力し、正解、不正解のラベルがついた特徴ベク
トルで表現する訓練データ特徴ベクトル表現手段と、 ラベル付き特徴ベクトルからSupport Vector Machineに
より分類器を構成する分類器構成手段と、 与えられた質問に対する列挙された解答候補を入力し、
前記特徴ベクトルと同様の特徴ベクトルで表現する解答
候補ベクトル表現手段と、 前記分類器を用いて解答候補の特徴ベクトルを評価し、
該解答候補が正解であるかどうか判定する解答候補判定
手段と、 正解であると判定された解答候補を出力する解答出力手
段を有する解答抽出装置。 - 【請求項5】 前記解答候補判定手段では、前記分類器
が解答候補を超平面によって正解、不正解に分離する、
請求項4記載の装置。 - 【請求項6】 前記解答出力手段は、各解答候補の、前
記超平面からの距離をsigmoid関数を用いて確率値へ近
似し、確率値の大きい順に解答候補を出力する、請求項
5記載の装置。 - 【請求項7】 請求項1から3のいずれか1項に記載の
方法をコンピュータに実行させる解答抽出プログラム。 - 【請求項8】 請求項1から3のいずれか1項記載の方
法をコンピュータに実現させる解答抽出プログラムを記
録した記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001333031A JP2003141498A (ja) | 2001-10-30 | 2001-10-30 | 解答抽出方法、装置、プログラム、および同プログラムを記録した記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001333031A JP2003141498A (ja) | 2001-10-30 | 2001-10-30 | 解答抽出方法、装置、プログラム、および同プログラムを記録した記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003141498A true JP2003141498A (ja) | 2003-05-16 |
JP2003141498A5 JP2003141498A5 (ja) | 2005-03-03 |
Family
ID=19148365
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001333031A Pending JP2003141498A (ja) | 2001-10-30 | 2001-10-30 | 解答抽出方法、装置、プログラム、および同プログラムを記録した記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2003141498A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014032320A (ja) * | 2012-08-03 | 2014-02-20 | Waseda Univ | 記憶度推定装置および記憶度推定プログラム |
JP2016532186A (ja) * | 2013-07-12 | 2016-10-13 | フェイスブック,インク. | 掴み検出の較正 |
JP2019040335A (ja) * | 2017-08-24 | 2019-03-14 | 三菱電機インフォメーションシステムズ株式会社 | 教師データを生成する方法、学習済みモデルを生成する方法、学習済みモデル、コンピュータおよびプログラム |
-
2001
- 2001-10-30 JP JP2001333031A patent/JP2003141498A/ja active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014032320A (ja) * | 2012-08-03 | 2014-02-20 | Waseda Univ | 記憶度推定装置および記憶度推定プログラム |
JP2016532186A (ja) * | 2013-07-12 | 2016-10-13 | フェイスブック,インク. | 掴み検出の較正 |
US10582038B2 (en) | 2013-07-12 | 2020-03-03 | Facebook, Inc. | Calibration of grab detection |
US10742798B1 (en) | 2013-07-12 | 2020-08-11 | Facebook, Inc. | Calibration of grab detection |
JP2019040335A (ja) * | 2017-08-24 | 2019-03-14 | 三菱電機インフォメーションシステムズ株式会社 | 教師データを生成する方法、学習済みモデルを生成する方法、学習済みモデル、コンピュータおよびプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10861022B2 (en) | Computer systems and methods to discover questions and answers from conversations | |
US8176050B2 (en) | Method and apparatus of supporting creation of classification rules | |
US8150822B2 (en) | On-line iterative multistage search engine with text categorization and supervised learning | |
US8620837B2 (en) | Determination of a basis for a new domain model based on a plurality of learned models | |
US11443209B2 (en) | Method and system for unlabeled data selection using failed case analysis | |
US20210026890A1 (en) | Faq consolidation assistance device, faq consolidation assistance method, and program | |
CN112131876A (zh) | 一种基于相似度确定标准问题的方法及系统 | |
US20230376546A1 (en) | Apparatus and method of performance matching | |
WO2020172649A1 (en) | System and method for text categorization and sentiment analysis | |
US11538462B1 (en) | Apparatuses and methods for querying and transcribing video resumes | |
US20060179017A1 (en) | Preparing data for machine learning | |
JP4008313B2 (ja) | 質問タイプ学習装置、質問タイプ学習プログラム、同プログラムを記録した記録媒体、学習サンプルが記録されている記録媒体、質問タイプ同定装置、質問タイプ同定プログラム、同プログラムを記録した記録媒体 | |
JPH11328317A (ja) | 日本語文字認識誤り訂正方法及び装置、並びに、誤り訂正プログラムを記録した記録媒体 | |
JP4054046B2 (ja) | 意見性判定データベース作成方法及び装置及びプログラム及び意見性判定方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
US11854537B2 (en) | Systems and methods for parsing and correlating solicitation video content | |
US20230298571A1 (en) | Apparatuses and methods for querying and transcribing video resumes | |
CN115098690B (zh) | 一种基于聚类分析的多数据文档分类方法及系统 | |
JP2003141498A (ja) | 解答抽出方法、装置、プログラム、および同プログラムを記録した記録媒体 | |
JP2001022727A (ja) | テキスト分類学習方法及び装置及びテキスト分類学習プログラムを格納した記憶媒体 | |
JP4735958B2 (ja) | テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム | |
US11580499B2 (en) | Method, system and computer-readable medium for information retrieval | |
US11042520B2 (en) | Computer system | |
CN113434639A (zh) | 审计数据处理方法及装置 | |
CN112597295A (zh) | 摘要提取方法、装置、计算机设备和存储介质 | |
JP2000339310A (ja) | 文書分類方法、文書分類装置、およびプログラムを記録する記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040331 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040331 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20040331 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20040331 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20050610 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060315 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20060705 |