JP5416680B2 - 文書分割検索装置及び方法及びプログラム - Google Patents

文書分割検索装置及び方法及びプログラム Download PDF

Info

Publication number
JP5416680B2
JP5416680B2 JP2010266170A JP2010266170A JP5416680B2 JP 5416680 B2 JP5416680 B2 JP 5416680B2 JP 2010266170 A JP2010266170 A JP 2010266170A JP 2010266170 A JP2010266170 A JP 2010266170A JP 5416680 B2 JP5416680 B2 JP 5416680B2
Authority
JP
Japan
Prior art keywords
document
keyword
search
topic
topic section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010266170A
Other languages
English (en)
Other versions
JP2012118657A (ja
Inventor
克人 別所
義昌 小池
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010266170A priority Critical patent/JP5416680B2/ja
Publication of JP2012118657A publication Critical patent/JP2012118657A/ja
Application granted granted Critical
Publication of JP5416680B2 publication Critical patent/JP5416680B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、キーワードを入力して、該キーワードの表すトピックに適合する文書を文書集合から検索する文書分割検索装置及び方法及びプログラムに関する。
キーワードを入力して、該キーワードの表すトピックに適合する文書を文書集合から検索する処理においては、以下の非特許文献1で述べられているような手法をとる。
文書集合中の文書をD1,D2,…,Dnとし、文書集合に含まれるキーワードをω1,ω2,…,ωmとする。文書Djを以下の(1)式の文書ベクトルdjで表す。
ここで、dijはキーワードωiの文書Djにおける重みである。dijは以下の(2)式のように、キーワードωiの文書Djにおける出現頻度に基づく重みlijと、文書集合全体にわたるキーワードωiの分布に基づく重みgiとを乗じた値として定義される。
ijの例として、以下の(3)式のように、キーワードωiの文書Djにおける出現頻度fijを用いる。
また、以下の(4)式のように、キーワードωiが文書Djに出現するとき1、出現しないとき0を与える。
iの例として、以下の(5)式のように、重み1を与える。
また、以下の(6)式のように、文書頻度の逆数であるIDFを用いる。niは、キーワードωiが出現する文書の数である。
文書集合全体は、以下の(7)式のようなm×n行列Dによって表現する。Dをキーワード・文書行列と呼び、Dの各行を対応するキーワードのキーワードベクトルと呼ぶ。
検索クエリは、キーワードωiの検索クエリにおける出現頻度に基づく重みをqiとしたとき、以下の(8)式の検索クエリベクトルqで表される。
各キーワードがAND条件で結合されている場合は、qi>0であるωiの全てを含む文書の集合を検索結果とする。各キーワードがOR条件で結合されている場合は、qi>0であるωiのいずれかを含む文書の集合を検索結果とする。
検索結果文書は、文書Djのスコアscore(Dj)の大きい順にランキングする。score(Dj)の例として以下の(9)式のコサイン尺度をとる。
検索クエリベクトルqは固定であるため、score(Dj)を以下の(10)式のように定めることができる。
すなわち、文書ベクトルdjを長さ1に正規化したベクトルと検索クエリベクトルqとの内積となる。||dj||は、文書Dj内のキーワード数に基づく重みhjであり、文書Djの長さによる影響をなくす。なお、hjとして1をとってもよい。dij/hj=eijとおけば、下記(11)式で表される。
score(Dj)は、文書Djと各検索キーワードωiとの重みeijに、該検索キーワードωiの入力時の重みqiを乗じた値の和である。
特許第3925418号公報 特許第4333318号公報
北研二、津田和彦、獅々堀正幹著、「情報検索アルゴリズム」、共立出版株式会社、2002、1月、p33−p40.
一文書が複数のトピック区間から構成されることがありうる。例えば、最初にスポーツに関するトピック区間があり、次に、政治に関するトピック区間が来るということがある。この政治に関するトピック区間の後に、再びスポーツに関するトピック区間が来るというように、同一トピックの区間の間に別のトピック区間が来るというケースもある。Webにおけるブログサイトにおいては、1Webページ内が複数のブログ記事からなり、各ブログ記事のトピックが異なるということもある。このような一文書内に複数のトピック区間がありうる場合、背景技術で述べた従来手法では以下の課題がある。
第1の課題を述べる。lij=fij,gi=1,hj=1としたとき、検索キーワードがω1であれば、score(Dj)=f1jとなる。図1のようにω1を含む文書D1,D2に対し、f11=9,f12=10であれば、D2の方がD1よりもスコアが高くなる。ここでD1は一トピック区間D11から構成されていて、D2はトピック区間D21,D22から構成されているとする。キーワードωiのトピック区間Djkにおける出現頻度をfijkと表わす。f121=2,f122=8であるとしたとき、トピック区間単位で見れば、D21,D22は、いずれもD11よりも、ω1の出現頻度が小さいにも関わらず、D2の方がD1よりもスコアが高くなるという課題がある。
第2の課題を述べる。lij=fij,gi=1,hj=||dj||としたとき、検索キーワードがω1であれば、score(Dj)=f1j/||dj||となる。図2のようにω1を含む文書D1,D2に対し、f11=10,||d1||=100,f12=10,||d2||=40であれば、score(D1)=10/100,score(D2)=10/40となり、D2の方がD1よりもスコアが高くなる。ここでD1はトピック区間D11,D12から構成されていて、D2は一トピック区間D21から構成されているとする。トピック区間Djkの文書ベクトルをdjkと表わす。f111=10,f112=0,||d11||=30であるとしたとき、score(D11)=10/30となり、トピック区間単位で見れば、トピック区間D11は、文書長に占めるω1の出現頻度の割合がD2より大きいにも関わらず、D2の方がD1よりもスコアが高くなるという課題がある。
第3の課題を述べる。検索キーワードがω1,ω2でAND条件で結合されているとする。図3のようなω1,ω2をともに含む文書D1,D2が検索される。ここでD1はトピック区間D11,D12から構成されていて、D11はω1,ω2をともに含み、D12はω1,ω2をともに含まないとする。また、D2はトピック区間D21,D22から構成されていて、D21はω1のみ含み、D22はω2のみ含むとする。検索者はω1,ω2の両方のトピックに適合する文書を検索している。D1は、構成するD11が適合するため、適合する。しかしD2は、構成するD21,D22がともに適合しないため、適合しない。にも関わらず、D2が検索されてしまうという課題がある。
以上のように従来手法では、複数のトピック区間からなる文書の単位で索引化と検索の処理を行っているため、適合しない文書のスコアが、適合する文書のスコア以上となる課題がある。
そこで、本発明は、上述のような従来手法の課題を解決するものであり、本発明の文書分割検索装置の一態様は、文書集合中の各文書に対し、該文書をトピックごとに分割し、得られたトピック区間で同一トピックのものを一つのトピック区間とする文書分割手段と、各列が、全文書中のトピック区間に対応し、各行が、文書集合に含まれるキーワードに対応する、キーワード・トピック区間行列を生成し、任意のキーワードと任意のトピック区間に対し、該キーワードの該トピック区間における出現頻度に基づく重みと、トピック区間集合全体にわたる該キーワードの分布に基づく重みとを乗じた値を、該トピック区間内のキーワード数に基づく重みで除して得られる重みを、該行列の対応する要素に格納するキーワード・トピック区間行列生成手段と、入力された検索キーワード群に対し、キーワード・トピック区間行列を参照して、該検索キーワード群がAND条件で結合されていれば、該検索キーワード群の全てを含むトピック区間または文書を検索し、該検索キーワード群がOR条件で結合されていれば、該検索キーワード群のいずれかを含むトピック区間または文書を検索し、検索された対象に対し、該対象に含まれるトピック区間と各検索キーワードとの重みに、該検索キーワードの入力時の重みを乗じた値の和を該トピック区間のスコアとし、該スコアの最大値を該対象のスコアとする第1検索手段と、を備えたことを特徴とする。
また、本発明の文書分割検索装置の他の態様は、文書集合中の各文書に対し、該文書をトピックごとに分割し、得られたトピック区間で同一トピックのものを一つのトピック区間とする文書分割手段と、各列が、文書集合に含まれる文書に対応し、各行が、文書集合に含まれるキーワードに対応する、キーワード・文書行列を生成し、任意のキーワードと任意の文書に対し、該キーワードの該文書における出現頻度に基づく重みと、文書集合全体にわたる該キーワードの分布に基づく重みとを乗じた値を、該文書内のキーワード数に基づく重みで除して得られる重みを、該行列の対応する要素に格納するキーワード・文書行列生成手段と、入力された検索キーワード群に対し、キーワード・文書行列を参照して、該検索キーワード群がAND条件で結合されていれば、該検索キーワード群の全てを含む文書を検索し、該検索キーワード群がOR条件で結合されていれば、該検索キーワード群のいずれかを含む文書を検索し、検索された文書に対し、該文書と各検索キーワードとの重みに、該検索キーワードの入力時の重みを乗じた値の和を該文書のスコアとし、各検索キーワードの対が、同一トピック区間にあればスコアをそのままか増加させ、同一トピック区間になければスコアを減少させるかそのままにさせる第2検索手段と、を備えたことを特徴とする。
また、本発明の文書分割検索方法の一態様は、文書分割手段が、文書集合中の各文書に対し、該文書をトピックごとに分割し、得られたトピック区間で同一トピックのものを一つのトピック区間とする文書分割ステップと、キーワード・トピック区間行列生成手段が、各列が、全文書中のトピック区間に対応し、各行が、文書集合に含まれるキーワードに対応する、キーワード・トピック区間行列を生成し、任意のキーワードと任意のトピック区間に対し、該キーワードの該トピック区間における出現頻度に基づく重みと、トピック区間集合全体にわたる該キーワードの分布に基づく重みとを乗じた値を、該トピック区間内のキーワード数に基づく重みで除して得られる重みを、該行列の対応する要素に格納するキーワード・トピック区間行列生成ステップと、第1検索手段が、入力された検索キーワード群に対し、キーワード・トピック区間行列を参照して、該検索キーワード群がAND条件で結合されていれば、該検索キーワード群の全てを含むトピック区間または文書を検索し、該検索キーワード群がOR条件で結合されていれば、該検索キーワード群のいずれかを含むトピック区間または文書を検索し、検索された対象に対し、該対象に含まれるトピック区間と各検索キーワードとの重みに、該検索キーワードの入力時の重みを乗じた値の和を該トピック区間のスコアとし、該スコアの最大値を該対象のスコアとする第1検索ステップと、を有することを特徴とする。
また、本発明の文書分割検索方法の他の態様は、文書分割手段が、文書集合中の各文書に対し、該文書をトピックごとに分割し、得られたトピック区間で同一トピックのものを一つのトピック区間とする文書分割ステップと、キーワード・文書行列生成手段が、各列が、文書集合に含まれる文書に対応し、各行が、文書集合に含まれるキーワードに対応する、キーワード・文書行列を生成し、任意のキーワードと任意の文書に対し、該キーワードの該文書における出現頻度に基づく重みと、文書集合全体にわたる該キーワードの分布に基づく重みとを乗じた値を、該文書内のキーワード数に基づく重みで除して得られる重みを、該行列の対応する要素に格納するキーワード・文書行列生成ステップと、第2検索手段が、入力された検索キーワード群に対し、キーワード・文書行列を参照して、該検索キーワード群がAND条件で結合されていれば、該検索キーワード群の全てを含む文書を検索し、該検索キーワード群がOR条件で結合されていれば、該検索キーワード群のいずれかを含む文書を検索し、検索された文書に対し、該文書と各検索キーワードとの重みに、該検索キーワードの入力時の重みを乗じた値の和を該文書のスコアとし、各検索キーワードの対が、同一トピック区間にあればスコアをそのままか増加させ、同一トピック区間になければスコアを減少させるかそのままにさせる第2検索方法と、を有することを特徴とする。
なお、本発明は、前記文書分割検索装置を構成する各手段として、コンピュータを機能させるためのプログラムとしても構成することができる。このプログラムは、ネットワークを通じた態様で提供してもよく、記録媒体に格納した態様で提供してもよい。
第1の課題に対しては、請求項1の構成により以下の結果となる。検索対象がトピック区間であれば、D11の方が、D21,D22よりスコアが高くなる。検索対象が文書であれば、D2のスコアはD21,D22のスコアの最大値であるD22のスコアとなり、D1の方がD2よりスコアが高くなる。
第2の課題に対しては、請求項1の構成により以下の結果となる。検索対象がトピック区間であれば、D11の方が、D21よりスコアが高くなる。検索対象が文書であれば、D1のスコアはD11,D12のスコアの最大値であるD11のスコアとなり、D1の方がD2よりスコアが高くなる。
第3の課題に対しては、請求項1の構成により以下の結果となる。検索対象がトピック区間であれば、D11は検索されるが、D21,D22は検索されない。検索対象が文書であれば、lijk=fijk,gi=1,hjk=1としたとき、score(Djk)=f1jk+f2jkとなる。D1のスコアはD11,D12のスコアの最大値であるD11のスコア2となり、D2のスコアはD21,D22のスコアの最大値であるD21またはD22のスコア1となり、D1の方がD2よりスコアが高くなる。
また、第3の課題に対しては、請求項2の構成により以下の結果となる。lij=fij,gi=1,hj=1としたとき、score(Dj)=f1j+f2jとなり、D1,D2のスコアはともに2となる。D2においては、ω1,ω2が同一トピック区間にないため、D2のスコアは2−α(α>0)となり、結果、D1の方がD2よりスコアが高くなる。
以上のように本発明の手法では、トピック区間の単位で索引化と検索の処理を行うため、文書が複数のトピック区間から構成されていて、一部のトピック区間がキーワードに適合する場合に、当該トピック区間、または、そのようなトピック区間を含む文書を、検索結果の、より上位にランクすることができるという効果を奏する。
文書と、その文書内におけるキーワード数を示す図である。 文書と、その文書内におけるキーワード数を示す図である。 文書と、その文書内におけるキーワード数を示す図である。 本発明の文書分割検索装置10の構成を示す構成図である。 本発明の文書分割検索装置10´の構成を示す構成図である。 本発明の文書分割検索装置10の処理を示すフローチャートである。 本発明の文書分割検索装置10´の処理を示すフローチャートである。 文書分割手段の処理結果の例を示す図である。 キーワード・トピック区間行列を示す図である。 キーワード・文書行列を示す図である。 キーワード・トピック区間行列を示す図である。 キーワード・文書行列を示す図である。
以下、図面とともに本発明の実施例を説明する。
図4は本発明の請求項1の文書分割検索装置10の構成例であり、図5は本発明の請求項2の文書分割検索装置10´の構成例である。
請求項1の文書分割検索装置10は、文書集合中の各文書に対し、該文書をトピックごとに分割し、得られたトピック区間で同一トピックのものを一つのトピック区間とする文書分割手段11と、各列が、全文書中のトピック区間に対応し、各行が、文書集合に含まれるキーワードに対応する、キーワード・トピック区間行列14を生成し、任意のキーワードと任意のトピック区間に対し、該キーワードの該トピック区間における出現頻度に基づく重みと、トピック区間集合全体にわたる該キーワードの分布に基づく重みとを乗じた値を、該トピック区間内のキーワード数に基づく重みで除して得られる重みを、該行列の対応する要素に格納するキーワード・トピック区間行列生成手段12と、入力された検索キーワード群に対し、キーワード・トピック区間行列14を参照して、該検索キーワード群がAND条件で結合されていれば、該検索キーワード群の全てを含むトピック区間または文書を検索し、該検索キーワード群がOR条件で結合されていれば、該検索キーワード群のいずれかを含むトピック区間または文書を検索し、検索された対象に対し、該対象に含まれるトピック区間と各検索キーワードとの重みに、該検索キーワードの入力時の重みを乗じた値の和を該トピック区間のスコアとし、該スコアの最大値を該対象のスコアとする第1検索手段13とからなる。
請求項2の文書分割検索装置10´は、文書集合中の各文書に対し、該文書をトピックごとに分割し、得られたトピック区間で同一トピックのものを一つのトピック区間とする文書分割手段11と、各列が、文書集合に含まれる文書に対応し、各行が、文書集合に含まれるキーワードに対応する、キーワード・文書行列24を生成し、任意のキーワードと任意の文書に対し、該キーワードの該文書における出現頻度に基づく重みと、文書集合全体にわたる該キーワードの分布に基づく重みとを乗じた値を、該文書内のキーワード数に基づく重みで除して得られる重みを、該行列の対応する要素に格納するキーワード・文書行列生成手段22と、入力された検索キーワード群に対し、キーワード・文書行列24を参照して、該検索キーワード群がAND条件で結合されていれば、該検索キーワード群の全てを含む文書を検索し、該検索キーワード群がOR条件で結合されていれば、該検索キーワード群のいずれかを含む文書を検索し、検索された文書に対し、該文書と各検索キーワードとの重みに、該検索キーワードの入力時の重みを乗じた値の和を該文書のスコアとし、各検索キーワードの対が、同一トピック区間にあればスコアをそのままか増加させ、同一トピック区間になければスコアを減少させるかそのままにさせる第2検索手段23とからなる。
図6は文書分割検索装置10の処理を示すフローチャートであり、図7は文書分割検索装置10´の処理を示すフローチャートである。
(S11,S21)
文書分割手段11の入力となる文書集合中の文書をD1,D2,…,Dnとする。各文書Djを、例えば特許文献1に記載された手法によりトピックごとに分割し、得られたトピック区間を下記(12)式とする。
j内のトピック区間の中には、同一トピックのものも存在しうる。例えば特許文献2に記載された手法により、Dj内のトピック区間をその意味内容に基づきクラスタリングし、同一トピックのトピック区間を一クラスタにまとめる。特許文献2に記載された手法では、全トピック区間が一クラスタになるまでクラスタリングを続けているが、文書分割手段11の処理では、例えば、クラスタ間の距離が、ある閾値以上となったときに、クラスタリングを停止する。得られた一クラスタに含まれるトピック区間を結合したものを最終的なトピック区間とし、最終的なトピック区間の列を下記(13)式とする。
図8は、文書分割手段11の処理結果の例である。文書Djをトピックごとに分割することにより、トピック区間列Tj1,Tj2,…,Tj6が得られる。Tj1,Tj2,…,Tj6をクラスタリングする。Tj1がそれのみでクラスタとなり、Tj1をDj1とする。Tj2,Tj4が同一クラスタとなり、Tj2,Tj4を結合したものをDj2とする。Tj3,Tj6が同一クラスタとなり、Tj3,Tj6を結合したものをDj3とする。Tj5がそれのみでクラスタとなり、Tj5をDj4とする。
(S12,S22)
キーワード・トピック区間行列生成手段12及びキーワード・文書行列生成手段22の処理を述べる。
文書集合に含まれるキーワードをω1,ω2,…,ωmとする。
キーワード・トピック区間行列生成手段12では、各列が、全文書中のトピック区間に対応し、各行が、文書集合に含まれるキーワードに対応する図9のようなキーワード・トピック区間行列を生成する。キーワード・文書行列生成手段22では、各列が、文書集合に含まれる文書に対応し、各行が、文書集合に含まれるキーワードに対応する図10のようなキーワード・文書行列を生成する。
以下、キーワード・トピック区間行列生成手段12の処理を述べるが、キーワード・文書行列生成手段22の処理は、以下の記述において、トピック区間を文書、添数jkをjで置き直した内容となる。
トピック区間Djkに対応する列ベクトルdjkは、以下の(14)式となる。
ここで、dijkはキーワードωiのトピック区間Djkにおける重みである。dijkは以下の(15)式のように、キーワードωiのトピック区間Djkにおける出現頻度に基づく重みlijkと、全文書集合におけるトピック区間集合全体にわたるキーワードωiの分布に基づく重みgiとを乗じた値として定義される。
ijkの例として、以下の(16)式のように、キーワードωiのトピック区間Djkにおける出現頻度fijkを用いる。
また、以下の(17)式のように、キーワードωiがトピック区間Djkに出現するとき1、出現しないとき0を与える。
iの例として、以下の(18)式のように、重み1を与える。
また、以下の(19)式のように、トピック区間頻度の逆数であるIDFを用いる。uは全トピック区間数であり、uiは、キーワードωiが出現するトピック区間の数である。
トピック区間Djkに対し、Djk内のキーワード数に基づく重みhjkを定める。
jkの例として、以下の(20)式のように、重み1を与える。
また、以下の(21)式のように、トピック区間Djkの長さ||djk||を用いる。
キーワード・トピック区間行列の各要素dijkを、以下の(22)式のような、hjkで除したeijkに変換する。
以上の処理により、キーワード・トピック区間行列生成手段12では、図11のようなキーワード・トピック区間行列14が生成され、キーワード・文書行列生成手段22では、図12のようなキーワード・文書行列24が生成される。
(S13,S23)
第1検索手段13及び第2検索手段23の処理を述べる。
第1検索手段13の処理を述べる。
キーワード・トピック区間行列14を参照して、該検索キーワード群がAND条件で結合されていれば、該検索キーワード群の全てを含むトピック区間または文書を検索し、該検索キーワード群がOR条件で結合されていれば、該検索キーワード群のいずれかを含むトピック区間または文書を検索する。
文書D1がトピック区間D11,D12からなり、検索キーワード群がω1,ω2でAND条件で結合されているとする。D11がω1のみ含み、D12がω2のみ含んでいる場合、検索対象がトピック区間であれば、D11,D12はともに検索されないが、検索対象が文書であれば、D1はω1,ω2をともに含んでいるので検索される。
以上の処理を、検索された全ての対象に対し繰り返す。検索された対象をスコアの高い順にランキングし、検索結果として出力する。検索対象がトピック区間の場合、トピック区間の代わりに該トピック区間を含む文書を出力するというようにしてもよい。その際、同一文書が2つ以上出力される場合は、2番目以降の該文書は削除するというようにしてもよい。
第2検索手段23の処理を述べる。
キーワード・文書行列24を参照して、該検索キーワード群がAND条件で結合されていれば、該検索キーワード群の全てを含む文書を検索し、該検索キーワード群がOR条件で結合されていれば、該検索キーワード群のいずれかを含む文書を検索する。
α>0を定めておく。
以上の処理を、検索された全ての文書に対し繰り返す。検索された文書をスコアの高い順にランキングし、検索結果として出力する。
第1検索手段13または第2検索手段23で、検索結果として文書を出力する場合、一文書の内容を画面上にオープンしたときに、該文書中の各トピック区間がどの範囲であるかを明示するというようにすることもできる。
また、文書分割手段11の処理の計算量を削減するために、文書分割手段11の処理を、文書集合中の一部の文書に対してのみ実行するというようにすることもできる。
前記文書分割検索装置10,10´は、コンピュータのハードウェア資源(CPU,メモリ,ハードディスクドライブ装置,通信インターフェイス等)とソフトウェアの協働の結果、文書分割手段11,キーワード・トピック区間行列生成手段12(または、キーワード・文書行列生成手段22),第1検索手段13(または、第2検索手段23)として機能している。
また、これまで述べた処理をプログラムとして構築し、当該プログラムを通信回線または記録媒体からインストールし、CPU等の手段で実施することが可能である。
なお、本発明は、上記の実施例に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
〈産業上の利用可能性〉
本発明は、キーワードを入力して、該キーワードの表すトピックに適合する文書を文書集合から検索する技術に適用可能である。
10,10´…文書分割検索装置
11…文書分割手段
12…キーワード・トピック区間行列生成手段
22…キーワード・文書行列生成手段
13…第1検索手段
23…第2検索手段
14…キーワード・トピック区間行列
24…キーワード・文書行列

Claims (5)

  1. 文書集合中の各文書に対し、該文書をトピックごとに分割し、得られたトピック区間で同一トピックのものを一つのトピック区間とする文書分割手段と、
    各列が、全文書中のトピック区間に対応し、各行が、文書集合に含まれるキーワードに対応する、キーワード・トピック区間行列を生成し、任意のキーワードと任意のトピック区間に対し、該キーワードの該トピック区間における出現頻度に基づく重みと、トピック区間集合全体にわたる該キーワードの分布に基づく重みとを乗じた値を、該トピック区間内のキーワード数に基づく重みで除して得られる重みを、該行列の対応する要素に格納するキーワード・トピック区間行列生成手段と、
    入力された検索キーワード群に対し、キーワード・トピック区間行列を参照して、該検索キーワード群がAND条件で結合されていれば、該検索キーワード群の全てを含むトピック区間または文書を検索し、該検索キーワード群がOR条件で結合されていれば、該検索キーワード群のいずれかを含むトピック区間または文書を検索し、検索された対象に対し、該対象に含まれるトピック区間と各検索キーワードとの重みに、該検索キーワードの入力時の重みを乗じた値の和を該トピック区間のスコアとし、該スコアの最大値を該対象のスコアとする第1検索手段と、を備えたことを特徴とする文書分割検索装置。
  2. 文書集合中の各文書に対し、該文書をトピックごとに分割し、得られたトピック区間で同一トピックのものを一つのトピック区間とする文書分割手段と、
    各列が、文書集合に含まれる文書に対応し、各行が、文書集合に含まれるキーワードに対応する、キーワード・文書行列を生成し、任意のキーワードと任意の文書に対し、該キーワードの該文書における出現頻度に基づく重みと、文書集合全体にわたる該キーワードの分布に基づく重みとを乗じた値を、該文書内のキーワード数に基づく重みで除して得られる重みを、該行列の対応する要素に格納するキーワード・文書行列生成手段と、
    入力された検索キーワード群に対し、キーワード・文書行列を参照して、該検索キーワード群がAND条件で結合されていれば、該検索キーワード群の全てを含む文書を検索し、該検索キーワード群がOR条件で結合されていれば、該検索キーワード群のいずれかを含む文書を検索し、検索された文書に対し、該文書と各検索キーワードとの重みに、該検索キーワードの入力時の重みを乗じた値の和を該文書のスコアとし、各検索キーワードの対が、同一トピック区間にあればスコアをそのままか増加させ、同一トピック区間になければスコアを減少させるかそのままにさせる第2検索手段と、を備えたことを特徴とする文書分割検索装置。
  3. 文書分割手段が、文書集合中の各文書に対し、該文書をトピックごとに分割し、得られたトピック区間で同一トピックのものを一つのトピック区間とする文書分割ステップと、
    キーワード・トピック区間行列生成手段が、各列が、全文書中のトピック区間に対応し、各行が、文書集合に含まれるキーワードに対応する、キーワード・トピック区間行列を生成し、任意のキーワードと任意のトピック区間に対し、該キーワードの該トピック区間における出現頻度に基づく重みと、トピック区間集合全体にわたる該キーワードの分布に基づく重みとを乗じた値を、該トピック区間内のキーワード数に基づく重みで除して得られる重みを、該行列の対応する要素に格納するキーワード・トピック区間行列生成ステップと、
    第1検索手段が、入力された検索キーワード群に対し、キーワード・トピック区間行列を参照して、該検索キーワード群がAND条件で結合されていれば、該検索キーワード群の全てを含むトピック区間または文書を検索し、該検索キーワード群がOR条件で結合されていれば、該検索キーワード群のいずれかを含むトピック区間または文書を検索し、検索された対象に対し、該対象に含まれるトピック区間と各検索キーワードとの重みに、該検索キーワードの入力時の重みを乗じた値の和を該トピック区間のスコアとし、該スコアの最大値を該対象のスコアとする第1検索ステップと、を有することを特徴とする文書分割検索方法。
  4. 文書分割手段が、文書集合中の各文書に対し、該文書をトピックごとに分割し、得られたトピック区間で同一トピックのものを一つのトピック区間とする文書分割ステップと、
    キーワード・文書行列生成手段が、各列が、文書集合に含まれる文書に対応し、各行が、文書集合に含まれるキーワードに対応する、キーワード・文書行列を生成し、任意のキーワードと任意の文書に対し、該キーワードの該文書における出現頻度に基づく重みと、文書集合全体にわたる該キーワードの分布に基づく重みとを乗じた値を、該文書内のキーワード数に基づく重みで除して得られる重みを、該行列の対応する要素に格納するキーワード・文書行列生成ステップと、
    第2検索手段が、入力された検索キーワード群に対し、キーワード・文書行列を参照して、該検索キーワード群がAND条件で結合されていれば、該検索キーワード群の全てを含む文書を検索し、該検索キーワード群がOR条件で結合されていれば、該検索キーワード群のいずれかを含む文書を検索し、検索された文書に対し、該文書と各検索キーワードとの重みに、該検索キーワードの入力時の重みを乗じた値の和を該文書のスコアとし、各検索キーワードの対が、同一トピック区間にあればスコアをそのままか増加させ、同一トピック区間になければスコアを減少させるかそのままにさせる第2検索方法と、を有することを特徴とする文書分割検索方法。
  5. 請求項1または2に記載された文書分割検索装置の各手段として、コンピュータを機能させるための文書分割検索プログラム。
JP2010266170A 2010-11-30 2010-11-30 文書分割検索装置及び方法及びプログラム Expired - Fee Related JP5416680B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010266170A JP5416680B2 (ja) 2010-11-30 2010-11-30 文書分割検索装置及び方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010266170A JP5416680B2 (ja) 2010-11-30 2010-11-30 文書分割検索装置及び方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2012118657A JP2012118657A (ja) 2012-06-21
JP5416680B2 true JP5416680B2 (ja) 2014-02-12

Family

ID=46501427

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010266170A Expired - Fee Related JP5416680B2 (ja) 2010-11-30 2010-11-30 文書分割検索装置及び方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5416680B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6099046B2 (ja) 2013-06-11 2017-03-22 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 文を検索する装置および方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4333318B2 (ja) * 2003-10-17 2009-09-16 日本電信電話株式会社 話題構造抽出装置及び話題構造抽出プログラム及び話題構造抽出プログラムを記録したコンピュータ読み取り可能な記憶媒体
JP5623023B2 (ja) * 2009-03-30 2014-11-12 株式会社野村総合研究所 アイデア整理支援装置、アイデア支援方法およびコンピュータプログラム

Also Published As

Publication number Publication date
JP2012118657A (ja) 2012-06-21

Similar Documents

Publication Publication Date Title
Zhang et al. Improving short text classification by learning vector representations of both words and hidden topics
JP6216467B2 (ja) 視覚・意味複合ネットワーク、および当該ネットワークを形成するための方法
US20080222138A1 (en) Method and Apparatus for Constructing a Link Structure Between Documents
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
US20180341686A1 (en) System and method for data search based on top-to-bottom similarity analysis
Belhadi et al. Exploring pattern mining algorithms for hashtag retrieval problem
WO2010014082A1 (en) Method and apparatus for relating datasets by using semantic vectors and keyword analyses
JP2013168177A (ja) 情報提供プログラム、情報提供装置および検索サービスの提供方法
Ramya et al. DRDLC: discovering relevant documents using latent dirichlet allocation and cosine similarity
JP5315726B2 (ja) 情報提供方法、情報提供装置、および情報提供プログラム
JP2009140263A (ja) 用語共起度抽出装置、用語共起度抽出方法及び用語共起度抽出プログラム
JP5416680B2 (ja) 文書分割検索装置及び方法及びプログラム
Pandit et al. A query specific graph based approach to multi-document text summarization: simultaneous cluster and sentence ranking
Ouksili et al. Using Patterns for Keyword Search in RDF Graphs.
JP2020113267A (ja) リーディングリストを生成するシステム及び方法
Zheng et al. An improved focused crawler based on text keyword extraction
Sharma et al. Finding similar patents through semantic expansion
Aggarwal et al. Ranking of Web Documents for Domain Specific Database
AU2021100441A4 (en) A method of text mining in ranking of web pages using machine learning
JP2011242975A (ja) 代表語抽出装置、代表語抽出方法および代表語抽出プログラム
Badawi et al. IRS for Computer Character Sequences Filtration: a new software tool and algorithm to support the IRS at tokenization process
Tourad et al. A novel indexing algorithm for content-based Publish/Subscribe systems in a Big Data environment
Bhoi et al. Hybrid Clustering Based Smart Crawler
Rodriguez Optimizing Search Engine Efficiency with Static Index Pruning and Tiering
Djenouri et al. Exploring Pattern Mining Algorithms for Hashtag Retrieval Problem

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130208

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131031

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131112

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131115

R150 Certificate of patent or registration of utility model

Ref document number: 5416680

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees