JP2007200248A - 方法説明抽出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 - Google Patents
方法説明抽出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 Download PDFInfo
- Publication number
- JP2007200248A JP2007200248A JP2006021154A JP2006021154A JP2007200248A JP 2007200248 A JP2007200248 A JP 2007200248A JP 2006021154 A JP2006021154 A JP 2006021154A JP 2006021154 A JP2006021154 A JP 2006021154A JP 2007200248 A JP2007200248 A JP 2007200248A
- Authority
- JP
- Japan
- Prior art keywords
- explanation
- search
- sentence
- item
- answer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】抽出対象の方法回答文の網羅性を高め、さらに、ユーザが所望する説明回答をより簡単に取得することを可能にする。
【解決手段】本発明は、入力された方法質問文から、少なくとも1つの検索語を含む検索語集合を抽出し、検索語集合を検索キーとして文書検索を行い、取得したすべての検索結果文書を検索結果記憶手段に格納し、検索結果記憶手段に格納されている検索結果文書の中から箇条書きを構成している個々の項目である箇条項目を検出し、方法回答文の特徴を反映した所定の算出方法に基づいて、個々の箇条項目に対して、方法説明の回答らしさを示す説明スコアを算出し、説明スコアの値が高い箇条項目を方法質問文の回答として出力する。
【選択図】図1
【解決手段】本発明は、入力された方法質問文から、少なくとも1つの検索語を含む検索語集合を抽出し、検索語集合を検索キーとして文書検索を行い、取得したすべての検索結果文書を検索結果記憶手段に格納し、検索結果記憶手段に格納されている検索結果文書の中から箇条書きを構成している個々の項目である箇条項目を検出し、方法回答文の特徴を反映した所定の算出方法に基づいて、個々の箇条項目に対して、方法説明の回答らしさを示す説明スコアを算出し、説明スコアの値が高い箇条項目を方法質問文の回答として出力する。
【選択図】図1
Description
本発明は、方法説明抽出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体に係り、特に、方法を問う質問文が与えられると、この方法質問文に対する回答文を抽出するための方法説明抽出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体に関する。
従来の質問応答技術は、与えられた質問文から検索キーを得た上で、検索エンジンを利用して大量の文書から関連文書を取り出し、さらに質問文に対する回答をその関連文書から抽出することを行うことが通例となっている。
例えば、質問文に基づいて質問種別を判定し、関連文書について固有表現もしくは数値表現を抽出し、質問種別に合致する適切な表現を回答として抽出する技術が知られている(例えば、特許文献1参照)。
また、自然文で表現された質問文に対し、質問文に含まれる単語n-gramが多く出現する文書を上位に再ランキングし、質問文の質問タイプにあった固有・数値表現を上位の文書から抽出する技術が知られている(例えば、特許文献2参照)。
特開2002−132811号公報
特開2004−355550号公報
従来の質問応答技術は、人物名、地名、数量などの短い言葉を表せる固有表現(named entity)または、数値表現を回答とすることを対象としており、理由や方法・手順といった説明的な回答を求める質問文には対応できない。例えば、「韓国の大統領は誰ですか?」「2008年のオリンピック開催地はどこですか?」「東京タワーの高さは何メートルですか?」といった短いことばで回答のできる質問文が従来技術の対象である。つまり、従来の質問応答技術では、「なぜ海は青いのですか?」「どうやったらおいしいカレーが作れますか?」など、説明を求める質問文は対象としていなかった。
一方、説明を求める質問に対しては、既存のQ&A集の検索で解決する方法がある。つまり、これは既存のQ&A集に対して文書検索を行い、質問文に合致するQAペアを検索して所望の回答を得る方法である。しかしながら、一般に公開されているQ&A集は、コンピュータ、医療、法律といったようにある特定分野に特化されていたり、利用できるQ&A集のサイズが小さかったり、あるいは、回答となる記述が文書中の一部分で、ユーザ自身が回答を探す必要があったりする、という理由から、質問に対する所望の説明回答を見つけることが困難であることが多い。
本発明は、上記の点に鑑みなされたもので、Q&A集や一般のWebページを含む、あらゆるタイプの文書を対象としている検索エンジンを用いることで、抽出対象の方法回答文の網羅性を高め、さらに、検索結果文書内に出現している、回答らしさが高い箇条項目のみを提示することで、ユーザが所望の説明回答をより簡単に取得することが可能な方法説明抽出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体を提供することを目的とする。
図1は、本発明の原理を説明するための図である。
本発明(請求項1)は、方法を問う質問文である方法質問文が与えられると、該方法質問文に対する方法回答文を抽出する方法説明抽出方法であって、
入力された方法質問文から、少なくとも1つの検索語を含む検索語集合を抽出する検索語抽出ステップ(ステップ1)と、
検索語集合を検索キーとして文書検索を行い、取得したすべての検索結果文書を検索結果記憶手段に格納する文書検索ステップ(ステップ2)と、
検索結果記憶手段に格納されている検索結果文書の中から箇条書きを構成している個々の項目である箇条項目を検出する箇条項目検出ステップ(ステップ3)と、
方法回答文の特徴を反映した所定の算出方法に基づいて、個々の箇条項目に対して、方法説明の回答らしさを示す説明スコアを算出する説明スコア付与ステップ(ステップ4)と、
説明スコアの値が高い箇条項目を方法質問文の回答として出力する結果提示ステップ(ステップ5)と、を行う。
入力された方法質問文から、少なくとも1つの検索語を含む検索語集合を抽出する検索語抽出ステップ(ステップ1)と、
検索語集合を検索キーとして文書検索を行い、取得したすべての検索結果文書を検索結果記憶手段に格納する文書検索ステップ(ステップ2)と、
検索結果記憶手段に格納されている検索結果文書の中から箇条書きを構成している個々の項目である箇条項目を検出する箇条項目検出ステップ(ステップ3)と、
方法回答文の特徴を反映した所定の算出方法に基づいて、個々の箇条項目に対して、方法説明の回答らしさを示す説明スコアを算出する説明スコア付与ステップ(ステップ4)と、
説明スコアの値が高い箇条項目を方法質問文の回答として出力する結果提示ステップ(ステップ5)と、を行う。
また、本発明(請求項2)は、方法回答文を特徴付ける単語の所定のパターンを、方法回答文特徴パターンとして設定しておき、
説明スコア付与ステップ(ステップ4)において、
箇条項目内の最初の文に関して、方法回答文特徴パターンと合致する部分、または、検索語集合に含まれる単語と合致する部分を判定し、合致部分と検索結果文書から得る特徴量と所定の算出式に基づいて、説明スコアを算出する。
説明スコア付与ステップ(ステップ4)において、
箇条項目内の最初の文に関して、方法回答文特徴パターンと合致する部分、または、検索語集合に含まれる単語と合致する部分を判定し、合致部分と検索結果文書から得る特徴量と所定の算出式に基づいて、説明スコアを算出する。
図2は、本発明の原理構成図である。
本発明(請求項3)は、方法を問う質問文である方法質問文が与えられると、該方法質問文に対する方法回答文を抽出する方法説明抽出装置10であって、
入力された方法質問文から、少なくとも1つの検索語を含む検索語集合を抽出する検索語抽出手段11と、
検索語集合を検索キーとして文書検索を行い、取得したすべての検索結果文書を検索結果記憶手段16に格納する文書検索手段12と、
検索結果記憶手段16に格納されている検索結果文書の中から箇条書きを構成している個々の項目である箇条項目を検出する箇条項目検出手段13と、
方法回答文の特徴を反映した所定の算出方法に基づいて、個々の箇条項目に対して、方法説明の回答らしさを示す説明スコアを算出する説明スコア付与手段14と、
説明スコアの値が高い箇条項目を方法質問文の回答として出力する結果提示手段15と、を有する。
入力された方法質問文から、少なくとも1つの検索語を含む検索語集合を抽出する検索語抽出手段11と、
検索語集合を検索キーとして文書検索を行い、取得したすべての検索結果文書を検索結果記憶手段16に格納する文書検索手段12と、
検索結果記憶手段16に格納されている検索結果文書の中から箇条書きを構成している個々の項目である箇条項目を検出する箇条項目検出手段13と、
方法回答文の特徴を反映した所定の算出方法に基づいて、個々の箇条項目に対して、方法説明の回答らしさを示す説明スコアを算出する説明スコア付与手段14と、
説明スコアの値が高い箇条項目を方法質問文の回答として出力する結果提示手段15と、を有する。
また、本発明(請求項4)は、方法回答文を特徴付ける単語の所定のパターンを、方法回答文特徴パターンとして設定しておく手段を更に有し、
説明スコア付与手段14は、
箇条項目内の最初の文に関して、方法回答文特徴パターンと合致する部分、または、検索語集合に含まれる単語と合致する部分を判定し、合致部分と検索結果文書から得る特徴量と所定の算出式に基づいて、説明スコアを算出する手段を含む。
説明スコア付与手段14は、
箇条項目内の最初の文に関して、方法回答文特徴パターンと合致する部分、または、検索語集合に含まれる単語と合致する部分を判定し、合致部分と検索結果文書から得る特徴量と所定の算出式に基づいて、説明スコアを算出する手段を含む。
本発明(請求項5)は、方法を問う質問文である方法質問文が与えられると、該方法質問文に対する方法回答文を抽出する方法説明抽出プログラムであって、
コンピュータを、
請求項3または4記載の方法説明抽出装置として機能させる方法説明抽出プログラムである。
コンピュータを、
請求項3または4記載の方法説明抽出装置として機能させる方法説明抽出プログラムである。
本発明(請求項6)は、方法を問う質問文である方法質問文が与えられると、該方法質問文に対する方法回答文を抽出する方法説明抽出プログラムを格納したコンピュータ読み取り可能な記録媒体であって、
コンピュータを、
請求項3または4記載の方法説明抽出装置として機能させる方法説明抽出プログラムを格納したコンピュータ読み取り可能な記録媒体である。
コンピュータを、
請求項3または4記載の方法説明抽出装置として機能させる方法説明抽出プログラムを格納したコンピュータ読み取り可能な記録媒体である。
上記のように本発明によれば、検索結果文書内の箇条項目に対して、回答らしさを示す説明スコアを算出し、この算出された説明スコアが高い箇条項目のみを提示するので、ユーザは所望の説明回答をより簡単に得ることができる。
以下、図面と共に本発明の実施の形態を説明する。
図3は、本発明の一実施の形態における方法説明抽出装置の構成を示す。
同図に示す方法説明抽出装置10は、質問解析部11、文書検索部12、箇条項目検出部13、説明スコア付与部14、結果提示部15、及び検索結果記憶部16から構成され、文書検索部12には検索エンジン20が、結果提示部15には表示装置30が接続されている。
質問解析部11は、入力された質問文から検索語集合を抽出する。なお、入力される質問文は、入力装置(図示せず)から入力されても、または、ディスク装置等の記憶手段から読み込んで入力してもよい。また、検索語集合を抽出する方法として、質問文を形態素解析して名詞のみを抽出する方法が考えられる。
文書検索部12は、検索語集合を検索キーとして検索エンジン20に入力し、検索エンジン20で文書検索された結果を取得して、検索結果記憶部16に格納する。
箇条項目検出部13は、検索結果記憶部16から検索結果文書を読み出して、箇条書きを構成している個々の項目である箇条項目を検出する。
説明スコア付与部14は、方法回答文の特徴を反映した所定の算出方法に基づいて、箇条項目の個々に対して、方法説明の回答らしさを示す説明スコアを算出する。
結果提示部15は、説明スコアの値が高い箇条項目を入力された方法質問文の回答として、表示装置30に出力する。
次に、上記の構成における動作を説明する。
図4は、本発明の一実施の形態における方法説明抽出装置の動作のフローチャートである。
ステップ110) まず、質問解析部11において、入力された方法に関する質問文から1つ以上の検索語で構成される検索語集合を抽出する。
ステップ120) 文書検索部12が、上記の検索語集合を文書検索エンジン20に入力して文書検索を行い、その結果得られる個々の検索結果文書を取得して、検索結果記憶部16に格納する。
ステップ130) 箇条項目検出部13が上記の検索結果文書の中から、箇条書きを構成している個々の項目である箇条項目を検出する。
ステップ140) 説明スコア付与部14がステップ130で取得した全ての箇条項目に対して、方法回答文の特徴を反映した所定の算出方法に基づき、上記の箇条項目の個々に対して、方法説明の回答らしさを示す説明スコアを算出する。
ステップ150) 結果提示部15は、ステップ130で取得した箇条項目のうち、ステップ140にて算出した説明スコアの値が高い箇条項目を、ステップ110で入力された方法質問文の回答として、表示装置30に表示する。
次に、上記のステップ140における、ある1つの箇条項目の説明スコアを算出する際の詳細な動作を説明する。
図5は、本発明の一実施の形態における説明スコア付与部の動作のフローチャートである。ここで、『方法回答文特徴パターン』は、所定の方法回答文を特徴付ける単語のパターンであり、例えば、「方法」、「やり方」、「手続き」、「策」などの単語を当該パターンとする。なお、この方法回答文特徴パターンは、外部から入力してもよいし、メモリ(図示せず)に格納しておき、説明スコア付与部14が参照するようにしてもよい。
ステップ141) 説明スコア付与部14は、検索結果記憶部16から取得した箇条項目中に、上記の方法回答パターンと合致する箇所を特定する。
ステップ142) 箇条項目中にステップ120で抽出した検索語集合に含まれる検索語と合致する箇所を特定する。
ステップ143) 次に、ステップ141、ステップ142で特定した合致部分と、当該検索結果文書から所定の特徴量を抽出する。
ステップ144) ステップ143において得られた特徴量と予め定められた算出式に基づいて、当該箇条項目に対する方法説明の回答らしさを示す方法説明スコアを計算する。
次に、上記に示す方法について具体例を用いて説明する。
以下では、方法説明抽出装置10が、図4と図5のフローチャートに沿って、質問文「花粉症の予防と対策はどうすればよい?」に対して、検索結果記憶部16に保持されている文書検索結果から回答説明を抽出する動作について説明する。
最初に、質問解析部11は、質問文「花粉症の予防と対策はどうすればよい?」が入力されると、入力された当該質問文から1つ以上の検索語によって構成される検索語集合を抽出する(ステップ110)。検索語集合を抽出する方法としては、例えば、質問文を形態素解析し、得られた名詞を検索語集合と見做すこととする。
つまり、「花粉症の予防と対策はどうすればよい?」からは、「花粉症」と「予防」と「対策」の3つの名詞を検索語集合として抽出できる。
他の方法としては、名詞に加え、動詞語幹を検索語とする方法、あるいは、形態素解析を用いずに、予め用意された辞書とマッチする単語を検索語とする方法などが考えられるが、ここでは規定しない。以下の説明では、検索語集合を抽出する場合、質問文を形態素解析し、得られた名詞を検索語集合とみなす方法のみを使用するものとする。
次に、文書検索部12は、質問解析部11で得られた検索語集合「花粉症」「予防」「対策」を文書検索エンジン20の入力として文書検索を行う(ステップ120)。
図6は、本発明の一実施の形態における検索結果の例であり、文書検索エンジン20から取得した結果を表示した例である。同図に示す検索結果画面の個々の項目は、検索順位(例えば、「4」)、検索文書タイトル(例えば、「2005年花粉症予防と対策」)、検索文書URL(例えば、「http://tuvwxyz.com/kafun/」)からなる。
なお、文書検索部12で用いる文書検索エンジンは、「goo(登録商標)」、「Google(登録商標)」といった一般に使われるWeb検索エンジンや、「OKWeb(登録商標)」、「はてな(登録商標)」といったQ&A集に特化した検索エンジンでもよいし、イントラネットやPCローカルなどに閉じた文書検索エンジンでもよい。つまり、ここで用いる検索エンジンは、検索キーワードを入力として、その検索キーワードに関連する文書のリストを返す検索エンジンであればなんでもよい。
さらに、文書検索部12は、上記の検索結果画面に示されている個々の検索文書そのものを全て検索文書URLを辿って取得する。図6では、例えば、4番目の項目については、“http://tuvwxyz.com/kafun/”のURLで示される文書を実際に取得する。図7は、図6で示される検索結果リストの4番目の検索文書の内容例を示す。当該文書が検索結果記憶部16に格納される。なお、本発明を実施する場合、実際にはHTMLタグを除いてプレーンテキストに変換したり、文字コード正規化したりするなどの文書の修正処理が必要となるが、本発明の本質ではないので、詳細な説明を省略する。
次に、箇条項目検出部13は、文書検索部12によって得られた検索結果記憶部16の検索結果文書の中から、箇条書きを構成している個々の項目である箇条項目を検出する(ステップ130)。箇条項目を検出する具体的な方法の一例として、以下の方法をとる。
まず、箇条項目の先頭を示す所定の箇条書きの記号のパターンを検索結果文書内で特定する。本実施の形態では、この箇条書きのパターンを黒四角、黒丸で表す記号文字とする。このとき、図7の文書内には、黒四角が4、黒丸が5個、それぞれ検出することができる。
次に、箇条書きの記号から始まり、同じ記号が出現するまでの文字列を、1つの箇条項目として検出する。このとき、同じ記号が文書の終端まで現れなかった場合は、文書の終端までを一つの箇条項目と見做すこととする。図7の文書例では、a〜iで示される範囲が、それぞれの箇条項目として検出できる。
以上のようにして、図7の文書からはa〜iで示される範囲の9個の箇条項目を検出できる。箇条項目を示す記号は、他の記号でもよく、また<li>のようなHTMLタグでもよい。さらには、昇順に出現する数字(例えば、「1.」「2.」など)を箇条項目の先頭を示すパターンとみなし、箇条書きの範囲を特定してもよい。
以下の実施の説明では、簡単のため、検索語集合「花粉症」「予防」「対策」に対する検索結果文書は、図7に示すもののみとし、上記にあるa〜iの9個の箇条項目を処理対象とする。
次に、説明スコア付与部14は、箇条項目検出部13がステップ130で取得した全ての箇条項目に対して、方法回答文の特徴を反映した所定の算出方法に基づき、個々の箇条項目に対して、方法説明の回答らしさを示す説明スコアを算出する(ステップ140)。
以下の説明では、説明スコア付与部14が図7で示される文書内のcの箇条項目に対して、説明スコアを算出する具体的な動作を説明する。
まず、箇条項目cの中で方法回答文特徴パターンと合致する箇所を特定する(ステップ141)。図7では、方法回答文特徴パターンを斜文字で示している。
ここで、方法回答文特徴パターンとは、予め定める方法回答文を特徴付ける単語のパターンであり、例えば、「方法」、「やり方」、「手順」、「手続き」、「策」などの単語がそのパターンとしてあげられる。
本実施の形態では、ここで例にあげた5単語を方法回答文特徴パターンの内容とする。他にも、このパターンは、<動詞連体形>+「方」といった、品詞の活用による条件で設定したり、あるいは、“手順”の意味クラスを持つ単語といったように、単語の意味による条件で設定したりできるが、ここでは規定しない。
さらに、箇条項目cの中で検索語集合に含まれる検索語「花粉症」、「予防」、「対策」と合致する箇所を特定する(ステップ142)。図7では、合致した単語を太字で示している。
上記のステップ141及びステップ142で特定した合致部分と当該検索結果文書から、次のステップ144の計算で用いる所定の特徴量を抽出する。
抽出する特徴量は様々考えられるが、本実施の形態では、次の4個の特徴量を抽出することとする。
特徴量は、
(1)箇条項目の先頭文に含まれる検索語の数f1;
(2)箇条項目の先頭文に含まれる方法回答文特徴パターンの数f2;
(3)当該箇条項目に含まれる箇条項目の数f3;
(4)当該検索結果文書の検索順位r;
を用いる。
(1)箇条項目の先頭文に含まれる検索語の数f1;
(2)箇条項目の先頭文に含まれる方法回答文特徴パターンの数f2;
(3)当該箇条項目に含まれる箇条項目の数f3;
(4)当該検索結果文書の検索順位r;
を用いる。
図7の箇条項目cに関しては、
(1)箇条項目の先頭文「花粉症の予防策はありますか?」には、検索語「花粉症」ト「予防」が含まれ、その数は“2”となる。
(1)箇条項目の先頭文「花粉症の予防策はありますか?」には、検索語「花粉症」ト「予防」が含まれ、その数は“2”となる。
(2)箇条項目の先頭文「花粉症の予防策はありますか?」には方法回答文特徴パターン「策」が含まれ、その数は“1”となる。
(3)箇条項目cに含まれる箇条項目数は、e,f,g,hの“4つ”である(箇条項目iの全てをcは含んでいないので、ここでは除外することとする)。
(4)当該検索結果文書(図7)の検索順位は“4”である。
上記から、箇条項目cの特徴量は、f1=2、f2=1、f3=4、r=4として抽出できる。
説明スコア付与部14の最後のステップとして、ステップ143において得られた特徴量と予め定められた算出式に基づいて、当該箇条項目に対する方法説明の回答らしさを示す方法説明スコアを計算する(ステップ144)。方法説明スコアの算出式は、本実施の形態では、以下の式を使うこととする。Nは、ステップ110で得られた検索語の数を表す。
Score(x)=w1×f1÷N+w2×f2÷(1+f2)+w3×f3÷(1+f3)+w4×(1÷r)
ここで、w1〜w4は、各パラメータに対する重みであり、実験的に予め設定しておく。本実施の形態では、全て同じ重みw1=w2=w3=w4=0.25とする。また、箇条項目c(図7)に関しては、検索語は3語なので、N=3である。
ここで、w1〜w4は、各パラメータに対する重みであり、実験的に予め設定しておく。本実施の形態では、全て同じ重みw1=w2=w3=w4=0.25とする。また、箇条項目c(図7)に関しては、検索語は3語なので、N=3である。
これにより、図7の箇条項目cの説明スコアは、
Score(c)=0.25×2÷3+0.25×1÷(1+1)+0.25×4÷(1+4)+0.25÷4=0.554
と計算できる。
Score(c)=0.25×2÷3+0.25×1÷(1+1)+0.25×4÷(1+4)+0.25÷4=0.554
と計算できる。
上記の重みの定数については、学習データを用意し、重回帰分析などを行ってパラメータを推定しても構わない。また、説明スコアの算出式も、ステップ143で抽出した特徴量の関数で、方法説明の回答らしさを反映するものであればよく、上記の式に限定しない。
以上同様にして、他の箇条項目についても方法説明の回答らしさを示す方法説明スコアを計算する。図7の文書例では、箇条項目a、bの説明スコアはScore(x)=0.146、箇条項目dの説明スコアはScore(x)=0.229、箇条項目e,f,g,h,iの説明スコアは、Score(x)=0.0625となる。
最後に、結果提示部15は、ステップ130で得た箇条項目のうち、ステップ140にて算出した説明スコアの値が最も高い箇条項目を表示装置30に出力することとする。図8は、本発明の一実施の形態における回答提示例であり、本実施の形態が対象としている9個の箇条項目のうち説明スコアが最も高かった箇条項目cを回答として提示している。
結果の提示のしかたとしては特に決まりがなく、説明スコアが降順になるように、箇条項目を並べて提示してもよい。
なお、本発明は、図3に示す方法説明抽出装置の動作をプログラムとして構築し、方法説明抽出装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
また、構築されたプログラムを、ハードディスクや、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
本発明は、質問応答システムや情報抽出システムや検索システムに適用可能である。
10 方法説明抽出装置
11 質問解析手段、質問解析部
12 文書検索手段、文書検索部
13 箇条項目検出手段、箇条項目検出部
14 説明スコア付与手段、説明スコア付与部
15 結果提示手段、結果提示部
11 質問解析手段、質問解析部
12 文書検索手段、文書検索部
13 箇条項目検出手段、箇条項目検出部
14 説明スコア付与手段、説明スコア付与部
15 結果提示手段、結果提示部
Claims (6)
- 方法を問う質問文である方法質問文が与えられると、該方法質問文に対する方法回答文を抽出する方法説明抽出方法であって、
入力された前記方法質問文から、少なくとも1つの検索語を含む検索語集合を抽出する検索語抽出ステップと、
前記検索語集合を検索キーとして文書検索を行い、取得したすべての検索結果文書を検索結果記憶手段に格納する文書検索ステップと、
前記検索結果記憶手段に格納されている前記検索結果文書の中から箇条書きを構成している個々の項目である箇条項目を検出する箇条項目検出ステップと、
方法回答文の特徴を反映した所定の算出方法に基づいて、個々の箇条項目に対して、方法説明の回答らしさを示す説明スコアを算出する説明スコア付与ステップと、
前記説明スコアの値が高い箇条項目を前記方法質問文の回答として出力する結果提示ステップと、
を行うことを特徴とする方法説明抽出方法。 - 前記方法回答文を特徴付ける単語の所定のパターンを、方法回答文特徴パターンとして設定しておき、
前記説明スコア付与ステップにおいて、
前記箇条項目内の最初の文に関して、前記方法回答文特徴パターンと合致する部分、または、前記検索語集合に含まれる単語と合致する部分を判定し、合致部分と前記検索結果文書から得る特徴量と前記所定の算出式に基づいて、前記説明スコアを算出する、
請求項1記載の方法説明抽出方法。 - 方法を問う質問文である方法質問文が与えられると、該方法質問文に対する方法回答文を抽出する方法説明抽出装置であって、
入力された前記方法質問文から、少なくとも1つの検索語を含む検索語集合を抽出する検索語抽出手段と、
前記検索語集合を検索キーとして文書検索を行い、取得したすべての検索結果文書を検索結果記憶手段に格納する文書検索手段と、
前記検索結果記憶手段に格納されている前記検索結果文書の中から箇条書きを構成している個々の項目である箇条項目を検出する箇条項目検出手段と、
方法回答文の特徴を反映した所定の算出方法に基づいて、個々の箇条項目に対して、方法説明の回答らしさを示す説明スコアを算出する説明スコア付与手段と、
前記説明スコアの値が高い箇条項目を前記方法質問文の回答として出力する結果提示手段と、
を有することを特徴とする方法説明抽出装置。 - 前記方法回答文を特徴付ける単語の所定のパターンを、方法回答文特徴パターンとして設定しておく手段を更に有し、
前記説明スコア付与手段は、
前記箇条項目内の最初の文に関して、前記方法回答文特徴パターンと合致する部分、または、前記検索語集合に含まれる単語と合致する部分を判定し、合致部分と前記検索結果文書から得る特徴量と前記所定の算出式に基づいて、前記説明スコアを算出する手段を含む、
請求項3記載の方法説明抽出装置。 - 方法を問う質問文である方法質問文が与えられると、該方法質問文に対する方法回答文を抽出する方法説明抽出プログラムであって、
コンピュータを、
請求項3または4記載の方法説明抽出装置として機能させることを特徴とする方法説明抽出プログラム。 - 方法を問う質問文である方法質問文が与えられると、該方法質問文に対する方法回答文を抽出する方法説明抽出プログラムを格納したコンピュータ読み取り可能な記録媒体であって、
コンピュータを、
請求項3または4記載の方法説明抽出装置として機能させる方法説明抽出プログラムを格納したことを特徴とするコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006021154A JP2007200248A (ja) | 2006-01-30 | 2006-01-30 | 方法説明抽出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006021154A JP2007200248A (ja) | 2006-01-30 | 2006-01-30 | 方法説明抽出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007200248A true JP2007200248A (ja) | 2007-08-09 |
Family
ID=38454763
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006021154A Pending JP2007200248A (ja) | 2006-01-30 | 2006-01-30 | 方法説明抽出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007200248A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008105373A1 (ja) | 2007-02-26 | 2008-09-04 | National Institute Of Advanced Industrial Science And Technology | センサデバイス |
JP2017010201A (ja) * | 2015-06-19 | 2017-01-12 | 日本電信電話株式会社 | 手続き表現抽出方法、手続き表現抽出装置、及び手続き表現抽出プログラム |
US9767186B2 (en) | 2013-06-11 | 2017-09-19 | International Business Machines Corporation | Retrieving a specific sentence from a document |
-
2006
- 2006-01-30 JP JP2006021154A patent/JP2007200248A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008105373A1 (ja) | 2007-02-26 | 2008-09-04 | National Institute Of Advanced Industrial Science And Technology | センサデバイス |
US9767186B2 (en) | 2013-06-11 | 2017-09-19 | International Business Machines Corporation | Retrieving a specific sentence from a document |
JP2017010201A (ja) * | 2015-06-19 | 2017-01-12 | 日本電信電話株式会社 | 手続き表現抽出方法、手続き表現抽出装置、及び手続き表現抽出プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rajpurkar et al. | Know what you don't know: Unanswerable questions for SQuAD | |
Heilman | Automatic factual question generation from text | |
US20090119090A1 (en) | Principled Approach to Paraphrasing | |
BR122017002789B1 (pt) | sistemas e métodos para aprendizagem de idioma | |
Santhanavijayan et al. | Automatic generation of multiple choice questions for e-assessment | |
Rozovskaya et al. | The UI system in the HOO 2012 shared task on error correction | |
Serigos | Using distributional semantics in loanword research: A concept-based approach to quantifying semantic specificity of Anglicisms in Spanish | |
Lemantara et al. | Prototype of online examination on MoLearn applications using text similarity to detect plagiarism | |
Khader et al. | Textual entailment for Arabic language based on lexical and semantic matching | |
Nunes et al. | As simple as it gets-a sentence simplifier for different learning levels and contexts | |
Abedissa et al. | Amqa: amharic question answering dataset | |
Mansoorizadeh et al. | Persian Plagiarism Detection Using Sentence Correlations. | |
Sethi et al. | Automated title generation in English language using NLP | |
JP2007200248A (ja) | 方法説明抽出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
Fattoh | Automatic multiple choice question generation system for semantic attributes using string similarity measures | |
JP6942759B2 (ja) | 情報処理装置、プログラム及び情報処理方法 | |
Abramov et al. | Collection and evaluation of lexical complexity data for Russian language using crowdsourcing | |
Nawab et al. | Retrieving candidate plagiarised documents using query expansion | |
Chang et al. | Towards automatic short answer assessment for finnish as a paraphrase retrieval task | |
Jorge-Botana et al. | The representation of polysemy through vectors: some building blocks for constructing models and applications with LSA | |
Gobin-Rahimbux et al. | KreolStem: A hybrid language-dependent stemmer for Kreol Morisien | |
Masumi et al. | FaBERT: Pre-training BERT on Persian Blogs | |
Yamaguchi et al. | An accessible captcha system for people with visual disability–generation of human/computer distinguish test with documents on the net | |
Laurent et al. | French Run of Synapse Développement at Entrance Exams 2014. | |
Contractor et al. | Text retrieval using sms queries: Datasets and overview of fire 2011 track on sms-based faq retrieval |