JP2012104041A - テキストデータ要約装置、テキストデータ要約方法及びテキストデータ要約プログラム - Google Patents

テキストデータ要約装置、テキストデータ要約方法及びテキストデータ要約プログラム Download PDF

Info

Publication number
JP2012104041A
JP2012104041A JP2010254028A JP2010254028A JP2012104041A JP 2012104041 A JP2012104041 A JP 2012104041A JP 2010254028 A JP2010254028 A JP 2010254028A JP 2010254028 A JP2010254028 A JP 2010254028A JP 2012104041 A JP2012104041 A JP 2012104041A
Authority
JP
Japan
Prior art keywords
sentence
cluster
text data
sentences
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010254028A
Other languages
English (en)
Other versions
JP5538185B2 (ja
Inventor
Takaaki Hasegawa
隆明 長谷川
Genichiro Kikui
玄一郎 菊井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010254028A priority Critical patent/JP5538185B2/ja
Publication of JP2012104041A publication Critical patent/JP2012104041A/ja
Application granted granted Critical
Publication of JP5538185B2 publication Critical patent/JP5538185B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】複数の回答文書を要約する際に、携帯端末など表示字数が制限される環境において少数派の回答が要約結果に反映されないことを回避し、様々なバリエーションの回答を要約に含めて出力可能とする。
【解決手段】複数の1以上の文で構成された文書からなるテキストデータについて、各文書を複数のクラスタに分類し、前記クラスタ内の文書に含まれる各単語列に対しスコアを付与し、前記クラスタ内の各文について、文に含まれる単語列のスコアを合計して文のスコアを計算する。そして、文書数が最も多いクラスタから順番に、クラスタに含まれる文のうち、未選択の各文について、文のスコアから、当該文と当該クラスタから選択済の文との類似度を減算し、減算結果が最大となる文を選択して要約に追加する。すべてのクラスタを一巡した場合は再度最も文書数が多いクラスタに戻り同様の処理を行う。これらの処理を所定の要約長に到達するまで行う。
【選択図】図1

Description

本発明は、複数の文書からなるテキストデータを要約するためのテキストデータ要約装置、テキストデータ要約方法及びテキストデータ要約プログラムに関する。
インターネットには、ユーザが投稿した質問に対して、別のユーザが回答を投稿する質問応答サイトが存在する。このようなサイトに投稿される質問の中には、Web検索エンジンでは答えが見つからなかったり、人それぞれによって答えが異なったりするような質問も多く見受けられる。このような質問に対しては、複数のユーザがそれぞれ異なる回答を投稿する事例が多くみられる。そして、このような質問応答サイトでは、複数の回答の中から質問者が最も役に立った回答に点数を与えたり、ラベル付けをしたりすることが行われる。
もっとも、質問者に選ばれる回答の他にも有用な回答が存在していることが少なくない。しかし、携帯端末等から質問応答サイトにアクセスする場合、キーの操作性や画面サイズによる字数制限等を考慮すると、他の全ての回答が提示されることは利便性がよいとは言えない。そこで、複数の有用な回答を簡潔に要約して提示する手法(複数文書要約技術)が開発されている。例えば、文書集合に含まれる各単語の重要度を出現頻度等に基づき計算し、その重要度に基づく重要文を、既に抽出した重要文との類似度を考慮して、できるだけ似ていないものを抽出する手法が挙げられる(非特許文献1)。また、類似した内容の回答をクラスタリングし、クラスタに含まれる回答の個数が大きいクラスタから順に、クラスタのラベルとなるような句を多く含む回答を提示する手法も提案されている(非特許文献2)。
奥村学、難波英嗣、「テキスト自動要約」、オーム社、2005年、p.84-86 Yuanjie Liu, Shasha Li, Yunbo Cao, Chin-Yew Lin, Dingyi Han and yong Yu、"Understanding and Summarizing Answers in Community-Based Question Answering Services"、Proceedings of Coling 2008、2008年、p.497-504
単語の重要度に基づく重要文抽出の手法では、単語の重要度は文書集合に含まれる単語の出現頻度に基づき計算されるため、複数の回答において言及される類似した内容を表す単語の頻度が高くなり、その結果、類似した内容の文だけが抽出される。そのため、その単語を含まない回答で言及された有用な内容を抽出できないという問題が起こりうる。
また、クラスタリングを用いる手法では、類似した内容の回答をクラスタリングによりまとめることができるが、回答数の多いクラスタから順に、クラスタに含まれる回答ごとに要約文を抽出する。そのため、携帯端末等、表示字数に制約がある場合には、回答数の多いクラスタ内の各回答の要約文だけで所定の要約長に達してしまい、回答数が少ないクラスタに属する少数の有用な回答を要約に含めることができない。
本発明の目的は、複数の回答文書を要約する際に、携帯端末など要約長が制限される環境において少数派の回答が要約結果に反映されないことを回避し、様々なバリエーションの回答を要約に含めて出力可能な、テキストデータ要約装置、テキストデータ要約方法及びテキストデータ要約プログラムを提供することにある。
本発明のテキストデータ要約装置は、クラスタリング部と単語スコア計算部と文スコア計算部と文選択部とを備える。
クラスタリング部は、複数の1以上の文で構成された文書からなるテキストデータが入力され、各文書を任意のクラスタリング手法により、複数のクラスタに分類する。
単語スコア計算部は、前記クラスタ内の文書に含まれる各単語列に対し、任意のスコアリング手法によりスコアを付与する。
文スコア計算部は、前記クラスタ内の各文について、文に含まれる単語列のスコアを合計し、文のスコアを計算する。
文選択部は、文書数が最も多いクラスタから順番に、クラスタに含まれる文のうち、要約として未選択の各文について、文のスコアから、当該文と当該クラスタから選択済の文との類似度を減算し、減算結果が最大となる文を選択して要約に追加し、すべてのクラスタを一巡しても所定の要約長に到達しない場合には、再度最も文書数が多いクラスタに戻り、同様の処理を所定の要約長に到達するまで繰り返し実行する。
本発明のテキストデータ要約装置及びテキストデータ要約方法では、質問に対する複数の回答を要約する際、回答をクラスタリングして類似の回答からなるクラスタに分類した上で、回答数が多いクラスタからも少ないクラスタからも万遍なく重要文を選択して要約に含めるとともに、同じクラスタから複数の文を選択する場合には、要約の冗長性を排除するために、選択済の文と類似した文を選択しないように未選択の文を選択する。そのため、携帯端末など要約長が制限される環境においても、様々なバリエーションの回答を要約に含めることができる。
本発明のテキストデータ要約装置の機能構成例を示す図。 本発明のテキストデータ要約装置の処理フロー例を示す図。 本発明のテキストデータ要約装置への入力文の一例を示す図。 名詞句のスコアの算出イメージを示す図。 文選択部における処理フロー例を示す図。 本発明のテキストデータ要約装置が出力する要約の一例を示す図。
図1に本発明のテキストデータ要約装置100の機能構成例を、図2にその処理フロー例をそれぞれ示す。テキストデータ要約装置100は、クラスタリング部110と単語スコア計算部120と文スコア計算部130と文選択部140とを備える。
クラスタリング部110は、複数の1以上の文で構成された文書からなるテキストデータが入力され、各文書を任意のクラスタリング手法により、複数のクラスタに分類する(S1)。ここでいう文書とは、質問応答サイトにおいては、質問に対するひとつひとつの回答にあたる。すなわち、テキストデータは回答文書の集合であり、各回答はそれぞれ1以上の文から構成される。入力されるテキストデータは、形態素解析済み、固有表現抽出済み、名詞句抽出済み、又は係り受け解析済みのものであってもよい。図3に、テキストデータに含まれる文「裁断面の真ん中に点ほどの小さな白い芯ができてたら食べ頃です。」を形態素解析した例を示す。クラスタリング手法としては、例えば、各文書について内容語とその内容語の文書内頻度(tf)からなる文書ベクトルを生成し、各文書を1つのクラスタとみなして、各文書の文書ベクトルの類似度に基づき、類似しているクラスタ同士を1つのクラスタにまとめるという手法が考えられる。内容語とは、例えば、形態素解析結果に基づく品詞情報により選択される名詞、動詞、形容詞などを意味する。文書ベクトルには、内容語の文書内頻度の他、文書頻度(df)の逆数(idf)や、それと文書内頻度との積(tf*idf)を用いること等が考えられる。クラスタ間の類似度としては、各クラスタから抽出した文書の組のうち、文書ベクトルの類似度が最も遠いものを用いてもよいし、逆に最も近いものや、全ての文書の組の類似度の平均値を用いてもよい。
その他のクラスタリング手法として、例えば、参考文献1に示す技術を用いることができる。
〔参考文献1〕高村大也、奥村学、「言語処理のための機械学習入門」、コロナ社、2010年、p.77-93
単語スコア計算部120は、クラスタ内の文書に含まれる各単語列に対し、任意のスコアリング手法によりスコアを付与する(S2)。スコアはクラスタごとに独立して付与される。単語列としては、例えば、内容語が1つ以上連続する単語列のうち、名詞あるいは未知語を含む1つ以上の単語からなる名詞句を用いることが考えられる。この場合、例文「裁断面の真ん中に点ほどの小さな白い芯ができてたら食べ頃です。」からは、図3に示す形態素解析データに基づき、「裁断面」(名詞+名詞接尾辞)、「真ん中」(名詞)、「点程」(名詞+名詞接尾辞)、「芯」(名詞)、「食べ頃」(名詞)が抽出される。なお、「点ほど」を「点程」としているように、表記揺れに対応するため、形態素解析の結果による表記ではなく標準形を用いてもよい。名詞句のスコアは、例えば、非特許文献2に開示された方法により計算することができる。非特許文献2の方法は、あるカテゴリの文書集合において、対象のクラスタに多く出現する単語とよく共起する名詞句は重要な名詞句であるという考え方に基づくものである。名詞句mのスコアは具体的には、例えば次式により計算する。
Figure 2012104041
ここで、m_score(m)は名詞句mのスコア、θはクラスタ、wはクラスタに含まれる単語、p(w|θ)はクラスタθに単語wが出現する確率である。Cは文書集合が属するカテゴリの全文書集合である。例えば、文「裁断面の真ん中に点ほどの小さな白い芯ができてたら食べ頃です。」を含む回答文書(及びその集合)が属するカテゴリは「料理」であり、そのカテゴリの全文書集合は、「料理」に係る各種質問に対する回答文書の集合である。PMI(w,m|C)はカテゴリの全文書集合の下での単語wと名詞句mの自己相互情報量(point wise mutual information)である。
名詞句mのスコアの計算結果の例を図4に示す。この例では、クラスタが2個であり、クラスタ1には文書が4個含まれ、名詞句が10個含まれ、また、クラスタ2には文書が1個含まれ、名詞句が4個含まれる場合を示している。
文スコア計算部130は、次式により、クラスタ内の各文について、文に含まれる各単語列(名詞句m)のスコアを合計し、更に、クラスタ内の文のスコアの最大値が1になるように正規化することにより、文sのスコアを求める(S3)。このスコアが高いほど、クラスタ内での重要度が高い文であることを意味する。
Figure 2012104041
ここで、s_score(s)は文sのスコア、Aはクラスタに含まれる文の集合である。
文選択部140は、文書数が最も多いクラスタから順番に、クラスタに含まれる文のうち、要約として未選択の各文について、文のスコアから、当該文と当該クラスタから選択済の文との類似度を減算し、減算結果が最大となる文を選択して要約に追加する。なお、選択した文を要約に追加すると所定の要約長を超える場合には、要約に追加した時に所定の要約長の範囲内になる文のうち、前記減算結果が最大となる文を要約に追加することとしてもよい。そして、すべてのクラスタを一巡しても所定の要約長に到達しない場合には、再度最も文書数が多いクラスタに戻り、同様の処理を所定の要約長に到達するまで繰り返し実行する(S4)。ここで、未選択の文と選択済の文との類似度は、単語を要素とする文ベクトル同士のコサイン類似度など、任意の公知技術により求めてよい。また、要約長は、文字数、バイト数、単語数など長さを規定するものならば何れでもよく、要約作成者等が要約作成の都度入力してもよいし、予め固定的に設定しておいてもよい。
文選択部140においては、文書数の多いクラスタから順に、クラスタ内の要約として未選択の各文のうち、要約として選択済の各文と類似しない文を選択して要約に追加する。類似しない文の選択は、まず、未選択の各文について、文の(クラスタ内での重要度の高さを示す)スコアから、全ての選択済の文のうち、当該未選択の文と最も類似度が高い(似ている)文の類似度を減算する。そして、全ての未選択の文のうち、この減算結果が最大となる文を選択する。つまり、選択済の文と類似した文を選択しないように未選択の文を選択する。このような文の選択及び要約への追加処理を、最も文書数が多いクラスタから順番に行い、すべてのクラスタを一巡しても所定の要約長に到達しない場合には、再度最も文書数が多いクラスタに戻って、同様の処理を所定の要約長に到達するまで繰り返す。このように各クラスタから文を1つずつ選択して要約に追加していくことで、文書数が多いクラスタからも文書数が少ないクラスタからも、万遍なく重要文を要約に含めることができ、かつ、二巡目以降に同じクラスタから文を選択する際に、選択済の文と最も似ていない文を選択することができる。そのため、所定の要約長が短くても、様々なバリエーションの回答を要約文に含めることができる。
文選択部140における処理は、具体的には例えば図5に示すフローに従って行う。
まず、文書数が多い順にクラスタをソートしリストにする(S41)。次に、クラスタを指すポインタをリストの先頭、つまり最も大きいクラスタを指すようにセットする(S42)。次に、クラスタに未選択の文が存在するか否かを確認する(S43)。
ポインタの指すクラスタの中に未選択の文が存在する場合、未選択の各文について、文のスコアから、当該文と当該クラスタから選択済の文との類似度を減算し、減算結果が最大となる文を選択する(S44)。このような選択手法(MMR:Maximal Marginal Relevance、非特許文献1参照)の採用により、要約の冗長度を減らすことができる。
ここで、「当該クラスタから選択済の文」が、「当該クラスタから選択済の文のうち、当該未選択の文との類似度が最も高い(=最も類似している)文」であるとすると、減算結果が最大となる文は、MMRに基づき次式のように求めることができる。
Figure 2012104041
ここで、Rは同一クラスタにおける文の集合、SはRのサブセットで選択済の文の集合、tはSの要素の文、R\SはRのサブセットで未選択の文の集合、sはR\Sの要素の文、Sim(s,t)は未選択の文sと選択済の文tとの類似度、λは第1項と第2項の重みを調整するパラメータである。
なお、「当該文と当該クラスタから選択済の文との類似度」として、「当該未選択の文と当該クラスタから選択済の全ての文との各類似度の総和」を用いてもよい。この場合、減算結果が最大となる文は、MMRに基づき次式のように求めることができる。
Figure 2012104041
次に、選択した文の長さを測定し、その長さをこれまでの要約長に加算したときに、所定の要約長を超えないかどうかを確認する(S45)。
所定の要約長を超えている場合、選択した文を未選択の文の集合から除外した上でS43に戻る(S46)。
一方、所定の要約長を超えていない場合、選択した文を要約に追加するとともに、未選択の文の集合から除外する(S47)。そして、クラスタのポインタがリストの末尾にセットされているか否かを確認し(S48)、セットされていなければ、クラスタを指すポインタを1つ進めた上でS43に戻り(S49)、セットされていればS42に戻る。
そして、S43でクラスタに未選択の文が無くなった場合、選択された複数の文からなる要約を出力し(S50)、処理を終了する。要約を出力する際には、選択された各文のクラスタ番号と文書番号と文書における先頭からの文番号とを適宜利用し、任意の表示形態で出力することができる。図6に出力する要約の一例を示す。なお、括弧内の情報は説明のために表示したものであり、実際に利用者に提示する必要は無い。図6の出力例は、最初に質問を表示し、その回答の要約をクラスタ番号順に、かつ、同じクラスタ内では文書番号順に、かつ、同じ文書番号内では文番号順に並べるルールの下で表示したものである。
以上のように、本発明のテキストデータ要約装置及びテキストデータ要約方法では、質問に対する複数の回答を要約する際、回答をクラスタリングして類似の回答からなるクラスタに分類した上で、回答数が多いクラスタからも少ないクラスタからも万遍なく重要文を選択して要約に含めるとともに、同じクラスタから複数の文を選択する場合には、要約の冗長性を排除するために、選択済の文と類似した文を選択しないように未選択の文を選択する。そのため、携帯端末など要約長が制限される環境においても、様々なバリエーションの回答を要約に含めることができる。
上記のテキストデータ要約装置、テキストデータ要約方法における各処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本発明のテキストデータ要約装置の各機能は必要に応じ、併合・分割しても構わない。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
本発明のテキストデータ要約装置をコンピュータによって実現する場合、装置及びその各部が有す機能の処理内容はプログラムによって記述される。そのプログラムは、例えば、ハードディスク装置に格納されており、実行時には必要なプログラムやデータがRAM(Random Access Memory)に読み込まれる。その読み込まれたプログラムがCPUにより実行されることにより、コンピュータ上で各処理内容が実現される。なお、処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (5)

  1. 複数の1以上の文で構成された文書からなるテキストデータが入力され、各文書を任意のクラスタリング手法により、複数のクラスタに分類するクラスタリング部と、
    前記クラスタ内の文書に含まれる各単語列に対し、任意のスコアリング手法によりスコアを付与する単語スコア計算部と、
    前記クラスタ内の各文について、文に含まれる単語列のスコアを合計し、文のスコアを計算する文スコア計算部と、
    文書数が最も多いクラスタから順番に、クラスタに含まれる文のうち、要約として未選択の各文について、文のスコアから、当該文と当該クラスタから選択済の文との類似度を減算し、減算結果が最大となる文を選択して要約に追加し、すべてのクラスタを一巡しても所定の要約長に到達しない場合には、再度最も文書数が多いクラスタに戻り、同様の処理を所定の要約長に到達するまで繰り返し実行する文選択部と、
    を備えるテキストデータ要約装置。
  2. 請求項1に記載のテキストデータ要約装置であって、
    前記文選択部において、選択した文を要約に追加すると前記所定の要約長を超える場合には、要約に追加した時に前記所定の要約長の範囲内になる文のうち、前記減算結果が最も大きい文を要約に追加する
    ことを特徴とするテキストデータ要約装置。
  3. 複数の1以上の文で構成された文書からなるテキストデータが入力され、各文書を任意のクラスタリング手法により、複数のクラスタに分類するクラスタリングステップと、
    前記クラスタ内の文書に含まれる各単語列に対し、任意のスコアリング手法によりスコアを付与する単語スコア計算ステップと、
    前記クラスタ内の各文について、文に含まれる単語列のスコアを合計し、文のスコアを計算する文スコア計算ステップと、
    文書数が最も多いクラスタから順番に、クラスタに含まれる文のうち、要約として未選択の各文について、文のスコアから、当該文と当該クラスタから選択済の文との類似度を減算し、減算結果が最大となる文を選択して要約に追加し、すべてのクラスタを一巡しても所定の要約長に到達しない場合には、再度最も文書数が多いクラスタに戻り、同様の処理を所定の要約長に到達するまで繰り返し実行する文選択ステップと、
    を実行するテキストデータ要約方法。
  4. 請求項3に記載のテキストデータ要約方法であって、
    前記文選択ステップにおいて、選択した文を要約に追加すると前記所定の要約長を超える場合には、要約に追加した時に前記所定の要約長の範囲内になる文のうち、前記減算結果が最も大きい文を要約に追加する
    ことを特徴とするテキストデータ要約方法。
  5. 請求項1又は2に記載のテキストデータ要約装置としてコンピュータを機能させるためのテキストデータ要約プログラム。
JP2010254028A 2010-11-12 2010-11-12 テキストデータ要約装置、テキストデータ要約方法及びテキストデータ要約プログラム Expired - Fee Related JP5538185B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010254028A JP5538185B2 (ja) 2010-11-12 2010-11-12 テキストデータ要約装置、テキストデータ要約方法及びテキストデータ要約プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010254028A JP5538185B2 (ja) 2010-11-12 2010-11-12 テキストデータ要約装置、テキストデータ要約方法及びテキストデータ要約プログラム

Publications (2)

Publication Number Publication Date
JP2012104041A true JP2012104041A (ja) 2012-05-31
JP5538185B2 JP5538185B2 (ja) 2014-07-02

Family

ID=46394325

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010254028A Expired - Fee Related JP5538185B2 (ja) 2010-11-12 2010-11-12 テキストデータ要約装置、テキストデータ要約方法及びテキストデータ要約プログラム

Country Status (1)

Country Link
JP (1) JP5538185B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016099686A (ja) * 2014-11-19 2016-05-30 日本電信電話株式会社 スニペット生成装置、スニペット生成方法及びスニペット生成プログラム
JP2016207141A (ja) * 2015-04-28 2016-12-08 ヤフー株式会社 要約生成装置、要約生成方法、及び要約生成プログラム
JP2016538616A (ja) * 2013-09-29 2016-12-08 ペキン ユニバーシティ ファウンダー グループ カンパニー,リミティド 知識抽出方法及びシステム
JP2017054509A (ja) * 2015-09-09 2017-03-16 ウバープル カンパニー リミテッド 文抽出方法及びシステム
JP2020149119A (ja) * 2019-03-11 2020-09-17 トヨタ自動車株式会社 レコメンド文生成装置、レコメンド文生成方法、及びレコメンド文生成プログラム
CN111737461A (zh) * 2020-06-03 2020-10-02 新华网股份有限公司 文本的处理方法、装置、电子设备及计算机可读存储介质
CN111831804A (zh) * 2020-06-29 2020-10-27 深圳价值在线信息科技股份有限公司 一种关键短语的提取方法、装置、终端设备及存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7228216B2 (ja) 2017-05-31 2023-02-24 株式会社Tryangle & Co. 固体振動子発振回路、超音波美容器

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005196572A (ja) * 2004-01-08 2005-07-21 Japan Science & Technology Agency 複数文書の要約作成方法
JP2006059082A (ja) * 2004-08-19 2006-03-02 Yokohama National Univ 文書要約システム及び文書要約方法及びプログラムを記録したコンピュータ読み取り可能な記録媒体及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005196572A (ja) * 2004-01-08 2005-07-21 Japan Science & Technology Agency 複数文書の要約作成方法
JP2006059082A (ja) * 2004-08-19 2006-03-02 Yokohama National Univ 文書要約システム及び文書要約方法及びプログラムを記録したコンピュータ読み取り可能な記録媒体及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
大串 亮平 他: "動画像からのキーフレーム抽出に関する検討", 情報処理学会研究報告, vol. 第2001巻 第19号, JPN6013052654, 2 March 2001 (2001-03-02), JP, pages 53 - 58, ISSN: 0002662315 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016538616A (ja) * 2013-09-29 2016-12-08 ペキン ユニバーシティ ファウンダー グループ カンパニー,リミティド 知識抽出方法及びシステム
JP2016099686A (ja) * 2014-11-19 2016-05-30 日本電信電話株式会社 スニペット生成装置、スニペット生成方法及びスニペット生成プログラム
JP2016207141A (ja) * 2015-04-28 2016-12-08 ヤフー株式会社 要約生成装置、要約生成方法、及び要約生成プログラム
JP2017054509A (ja) * 2015-09-09 2017-03-16 ウバープル カンパニー リミテッド 文抽出方法及びシステム
JP2020149119A (ja) * 2019-03-11 2020-09-17 トヨタ自動車株式会社 レコメンド文生成装置、レコメンド文生成方法、及びレコメンド文生成プログラム
CN111680496A (zh) * 2019-03-11 2020-09-18 丰田自动车株式会社 推荐语句生成装置、推荐语句生成方法和计算机可读记录介质
JP7176443B2 (ja) 2019-03-11 2022-11-22 トヨタ自動車株式会社 レコメンド文生成装置、レコメンド文生成方法、及びレコメンド文生成プログラム
CN111737461A (zh) * 2020-06-03 2020-10-02 新华网股份有限公司 文本的处理方法、装置、电子设备及计算机可读存储介质
CN111737461B (zh) * 2020-06-03 2023-11-07 新华网股份有限公司 文本的处理方法、装置、电子设备及计算机可读存储介质
CN111831804A (zh) * 2020-06-29 2020-10-27 深圳价值在线信息科技股份有限公司 一种关键短语的提取方法、装置、终端设备及存储介质
CN111831804B (zh) * 2020-06-29 2024-04-26 深圳价值在线信息科技股份有限公司 一种关键短语的提取方法、装置、终端设备及存储介质

Also Published As

Publication number Publication date
JP5538185B2 (ja) 2014-07-02

Similar Documents

Publication Publication Date Title
JP5538185B2 (ja) テキストデータ要約装置、テキストデータ要約方法及びテキストデータ要約プログラム
Bhatia et al. Automatic labelling of topics with neural embeddings
JP3882048B2 (ja) 質問応答システムおよび質問応答処理方法
JP5169816B2 (ja) 質問回答装置、質問回答方法および質問回答用プログラム
JP2019504413A (ja) 絵文字を提案するためのシステムおよび方法
US20140006012A1 (en) Learning-Based Processing of Natural Language Questions
KR20170046611A (ko) 질문문 생성 장치 및 컴퓨터 프로그램
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
JP2013171550A (ja) ノン・ファクトイド型質問応答システム及びコンピュータプログラム
CN108287875B (zh) 人物共现关系确定方法、专家推荐方法、装置及设备
CN104484380A (zh) 个性化搜索方法及装置
JP2008027207A (ja) 検索装置及び検索方法
CN112905768A (zh) 一种数据交互方法、装置及存储介质
CN116685966A (zh) 调整查询生成模式
CN111373386A (zh) 相似度指标值计算装置、相似检索装置及相似度指标值计算用程序
CN104881446A (zh) 搜索方法及装置
López-Escobedo et al. Analysis of intertextual distances using multidimensional scaling in the context of authorship attribution
CN112559711A (zh) 一种同义文本提示方法、装置及电子设备
Otani et al. Large-scale acquisition of commonsense knowledge via a quiz game on a dialogue system
JP2004246491A (ja) テキストマイニング装置及びテキストマイニングプログラム
Liebeskind et al. An algorithmic scheme for statistical thesaurus construction in a morphologically rich language
CN113392309A (zh) 一种数据处理方法、装置、设备及存储介质
JP2010282403A (ja) 文書検索方法
Lichtblau et al. Authorship attribution using the chaos game representation
JP7131518B2 (ja) 電子機器、発音学習方法、サーバ装置、発音学習処理システムおよびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121212

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131018

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131029

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140422

R150 Certificate of patent or registration of utility model

Ref document number: 5538185

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140428

LAPS Cancellation because of no payment of annual fees