JP5416680B2

JP5416680B2 - 文書分割検索装置及び方法及びプログラム

Info

Publication number: JP5416680B2
Application number: JP2010266170A
Authority: JP
Inventors: 克人別所; 義昌小池; 良治片岡
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2010-11-30
Filing date: 2010-11-30
Publication date: 2014-02-12
Anticipated expiration: 2030-11-30
Also published as: JP2012118657A

Description

本発明は、キーワードを入力して、該キーワードの表すトピックに適合する文書を文書集合から検索する文書分割検索装置及び方法及びプログラムに関する。

キーワードを入力して、該キーワードの表すトピックに適合する文書を文書集合から検索する処理においては、以下の非特許文献１で述べられているような手法をとる。

文書集合中の文書をＤ₁，Ｄ₂，…，Ｄ_nとし、文書集合に含まれるキーワードをω₁，ω₂，…，ω_mとする。文書Ｄ_jを以下の（１）式の文書ベクトルｄ_jで表す。

ここで、ｄ_ijはキーワードω_iの文書Ｄ_jにおける重みである。ｄ_ijは以下の（２）式のように、キーワードω_iの文書Ｄ_jにおける出現頻度に基づく重みｌ_ijと、文書集合全体にわたるキーワードω_iの分布に基づく重みｇ_iとを乗じた値として定義される。

ｌ_ijの例として、以下の（３）式のように、キーワードω_iの文書Ｄ_jにおける出現頻度ｆ_ijを用いる。

また、以下の（４）式のように、キーワードω_iが文書Ｄ_jに出現するとき１、出現しないとき０を与える。

ｇ_iの例として、以下の（５）式のように、重み１を与える。

また、以下の（６）式のように、文書頻度の逆数であるＩＤＦを用いる。ｎ_iは、キーワードω_iが出現する文書の数である。

文書集合全体は、以下の（７）式のようなｍ×ｎ行列Ｄによって表現する。Ｄをキーワード・文書行列と呼び、Ｄの各行を対応するキーワードのキーワードベクトルと呼ぶ。

検索クエリは、キーワードω_iの検索クエリにおける出現頻度に基づく重みをｑ_iとしたとき、以下の（８）式の検索クエリベクトルｑで表される。

各キーワードがＡＮＤ条件で結合されている場合は、ｑ_i＞０であるω_iの全てを含む文書の集合を検索結果とする。各キーワードがＯＲ条件で結合されている場合は、ｑ_i＞０であるω_iのいずれかを含む文書の集合を検索結果とする。

検索結果文書は、文書Ｄ_jのスコアｓｃｏｒｅ（Ｄ_j）の大きい順にランキングする。ｓｃｏｒｅ（Ｄ_j）の例として以下の（９）式のコサイン尺度をとる。

検索クエリベクトルｑは固定であるため、ｓｃｏｒｅ（Ｄ_j）を以下の（１０）式のように定めることができる。

すなわち、文書ベクトルｄ_jを長さ１に正規化したベクトルと検索クエリベクトルｑとの内積となる。||ｄ_j||は、文書Ｄ_j内のキーワード数に基づく重みｈ_jであり、文書Ｄ_jの長さによる影響をなくす。なお、ｈ_jとして１をとってもよい。ｄ_ij／ｈ_j＝ｅ_ijとおけば、下記（１１）式で表される。

ｓｃｏｒｅ（Ｄ_j）は、文書Ｄ_jと各検索キーワードω_iとの重みｅ_ijに、該検索キーワードω_iの入力時の重みｑ_iを乗じた値の和である。

特許第３９２５４１８号公報特許第４３３３３１８号公報

北研二、津田和彦、獅々堀正幹著、「情報検索アルゴリズム」、共立出版株式会社、２００２、１月、ｐ３３−ｐ４０．

一文書が複数のトピック区間から構成されることがありうる。例えば、最初にスポーツに関するトピック区間があり、次に、政治に関するトピック区間が来るということがある。この政治に関するトピック区間の後に、再びスポーツに関するトピック区間が来るというように、同一トピックの区間の間に別のトピック区間が来るというケースもある。Ｗｅｂにおけるブログサイトにおいては、１Ｗｅｂページ内が複数のブログ記事からなり、各ブログ記事のトピックが異なるということもある。このような一文書内に複数のトピック区間がありうる場合、背景技術で述べた従来手法では以下の課題がある。

第１の課題を述べる。ｌ_ij＝ｆ_ij，ｇ_i＝１，ｈ_j＝１としたとき、検索キーワードがω₁であれば、ｓｃｏｒｅ（Ｄ_j）＝ｆ_1jとなる。図１のようにω₁を含む文書Ｄ₁，Ｄ₂に対し、ｆ₁₁＝９，ｆ₁₂＝１０であれば、Ｄ₂の方がＤ₁よりもスコアが高くなる。ここでＤ₁は一トピック区間Ｄ₁₁から構成されていて、Ｄ₂はトピック区間Ｄ₂₁，Ｄ₂₂から構成されているとする。キーワードω_iのトピック区間Ｄ_jkにおける出現頻度をｆ_ijkと表わす。ｆ₁₂₁＝２，ｆ₁₂₂＝８であるとしたとき、トピック区間単位で見れば、Ｄ₂₁，Ｄ₂₂は、いずれもＤ₁₁よりも、ω₁の出現頻度が小さいにも関わらず、Ｄ₂の方がＤ₁よりもスコアが高くなるという課題がある。

第２の課題を述べる。ｌ_ij＝ｆ_ij，ｇ_i＝１，ｈ_j＝||ｄ_j||としたとき、検索キーワードがω₁であれば、ｓｃｏｒｅ（Ｄ_j）＝ｆ_1j／||ｄ_j||となる。図２のようにω₁を含む文書Ｄ₁，Ｄ₂に対し、ｆ₁₁＝１０，||ｄ₁||＝１００，ｆ₁₂＝１０，||ｄ₂||＝４０であれば、ｓｃｏｒｅ（Ｄ₁）＝１０／１００，ｓｃｏｒｅ（Ｄ₂）＝１０／４０となり、Ｄ₂の方がＤ₁よりもスコアが高くなる。ここでＤ₁はトピック区間Ｄ₁₁，Ｄ₁₂から構成されていて、Ｄ₂は一トピック区間Ｄ₂₁から構成されているとする。トピック区間Ｄ_jkの文書ベクトルをｄ_jkと表わす。ｆ₁₁₁＝１０，ｆ₁₁₂＝０，||ｄ₁₁||＝３０であるとしたとき、ｓｃｏｒｅ（Ｄ₁₁）＝１０／３０となり、トピック区間単位で見れば、トピック区間Ｄ₁₁は、文書長に占めるω₁の出現頻度の割合がＤ₂より大きいにも関わらず、Ｄ₂の方がＤ₁よりもスコアが高くなるという課題がある。

第３の課題を述べる。検索キーワードがω₁，ω₂でAND条件で結合されているとする。図３のようなω₁，ω₂をともに含む文書Ｄ₁，Ｄ₂が検索される。ここでＤ₁はトピック区間Ｄ₁₁，Ｄ₁₂から構成されていて、Ｄ₁₁はω₁，ω₂をともに含み、Ｄ₁₂はω₁，ω₂をともに含まないとする。また、Ｄ₂はトピック区間Ｄ₂₁，Ｄ₂₂から構成されていて、Ｄ₂₁はω₁のみ含み、Ｄ₂₂はω₂のみ含むとする。検索者はω₁，ω₂の両方のトピックに適合する文書を検索している。Ｄ₁は、構成するＤ₁₁が適合するため、適合する。しかしＤ₂は、構成するＤ₂₁，Ｄ₂₂がともに適合しないため、適合しない。にも関わらず、Ｄ₂が検索されてしまうという課題がある。

以上のように従来手法では、複数のトピック区間からなる文書の単位で索引化と検索の処理を行っているため、適合しない文書のスコアが、適合する文書のスコア以上となる課題がある。

そこで、本発明は、上述のような従来手法の課題を解決するものであり、本発明の文書分割検索装置の一態様は、文書集合中の各文書に対し、該文書をトピックごとに分割し、得られたトピック区間で同一トピックのものを一つのトピック区間とする文書分割手段と、各列が、全文書中のトピック区間に対応し、各行が、文書集合に含まれるキーワードに対応する、キーワード・トピック区間行列を生成し、任意のキーワードと任意のトピック区間に対し、該キーワードの該トピック区間における出現頻度に基づく重みと、トピック区間集合全体にわたる該キーワードの分布に基づく重みとを乗じた値を、該トピック区間内のキーワード数に基づく重みで除して得られる重みを、該行列の対応する要素に格納するキーワード・トピック区間行列生成手段と、入力された検索キーワード群に対し、キーワード・トピック区間行列を参照して、該検索キーワード群がＡＮＤ条件で結合されていれば、該検索キーワード群の全てを含むトピック区間または文書を検索し、該検索キーワード群がＯＲ条件で結合されていれば、該検索キーワード群のいずれかを含むトピック区間または文書を検索し、検索された対象に対し、該対象に含まれるトピック区間と各検索キーワードとの重みに、該検索キーワードの入力時の重みを乗じた値の和を該トピック区間のスコアとし、該スコアの最大値を該対象のスコアとする第１検索手段と、を備えたことを特徴とする。

また、本発明の文書分割検索装置の他の態様は、文書集合中の各文書に対し、該文書をトピックごとに分割し、得られたトピック区間で同一トピックのものを一つのトピック区間とする文書分割手段と、各列が、文書集合に含まれる文書に対応し、各行が、文書集合に含まれるキーワードに対応する、キーワード・文書行列を生成し、任意のキーワードと任意の文書に対し、該キーワードの該文書における出現頻度に基づく重みと、文書集合全体にわたる該キーワードの分布に基づく重みとを乗じた値を、該文書内のキーワード数に基づく重みで除して得られる重みを、該行列の対応する要素に格納するキーワード・文書行列生成手段と、入力された検索キーワード群に対し、キーワード・文書行列を参照して、該検索キーワード群がＡＮＤ条件で結合されていれば、該検索キーワード群の全てを含む文書を検索し、該検索キーワード群がＯＲ条件で結合されていれば、該検索キーワード群のいずれかを含む文書を検索し、検索された文書に対し、該文書と各検索キーワードとの重みに、該検索キーワードの入力時の重みを乗じた値の和を該文書のスコアとし、各検索キーワードの対が、同一トピック区間にあればスコアをそのままか増加させ、同一トピック区間になければスコアを減少させるかそのままにさせる第２検索手段と、を備えたことを特徴とする。

また、本発明の文書分割検索方法の一態様は、文書分割手段が、文書集合中の各文書に対し、該文書をトピックごとに分割し、得られたトピック区間で同一トピックのものを一つのトピック区間とする文書分割ステップと、キーワード・トピック区間行列生成手段が、各列が、全文書中のトピック区間に対応し、各行が、文書集合に含まれるキーワードに対応する、キーワード・トピック区間行列を生成し、任意のキーワードと任意のトピック区間に対し、該キーワードの該トピック区間における出現頻度に基づく重みと、トピック区間集合全体にわたる該キーワードの分布に基づく重みとを乗じた値を、該トピック区間内のキーワード数に基づく重みで除して得られる重みを、該行列の対応する要素に格納するキーワード・トピック区間行列生成ステップと、第１検索手段が、入力された検索キーワード群に対し、キーワード・トピック区間行列を参照して、該検索キーワード群がＡＮＤ条件で結合されていれば、該検索キーワード群の全てを含むトピック区間または文書を検索し、該検索キーワード群がＯＲ条件で結合されていれば、該検索キーワード群のいずれかを含むトピック区間または文書を検索し、検索された対象に対し、該対象に含まれるトピック区間と各検索キーワードとの重みに、該検索キーワードの入力時の重みを乗じた値の和を該トピック区間のスコアとし、該スコアの最大値を該対象のスコアとする第１検索ステップと、を有することを特徴とする。

また、本発明の文書分割検索方法の他の態様は、文書分割手段が、文書集合中の各文書に対し、該文書をトピックごとに分割し、得られたトピック区間で同一トピックのものを一つのトピック区間とする文書分割ステップと、キーワード・文書行列生成手段が、各列が、文書集合に含まれる文書に対応し、各行が、文書集合に含まれるキーワードに対応する、キーワード・文書行列を生成し、任意のキーワードと任意の文書に対し、該キーワードの該文書における出現頻度に基づく重みと、文書集合全体にわたる該キーワードの分布に基づく重みとを乗じた値を、該文書内のキーワード数に基づく重みで除して得られる重みを、該行列の対応する要素に格納するキーワード・文書行列生成ステップと、第２検索手段が、入力された検索キーワード群に対し、キーワード・文書行列を参照して、該検索キーワード群がＡＮＤ条件で結合されていれば、該検索キーワード群の全てを含む文書を検索し、該検索キーワード群がＯＲ条件で結合されていれば、該検索キーワード群のいずれかを含む文書を検索し、検索された文書に対し、該文書と各検索キーワードとの重みに、該検索キーワードの入力時の重みを乗じた値の和を該文書のスコアとし、各検索キーワードの対が、同一トピック区間にあればスコアをそのままか増加させ、同一トピック区間になければスコアを減少させるかそのままにさせる第２検索方法と、を有することを特徴とする。

なお、本発明は、前記文書分割検索装置を構成する各手段として、コンピュータを機能させるためのプログラムとしても構成することができる。このプログラムは、ネットワークを通じた態様で提供してもよく、記録媒体に格納した態様で提供してもよい。

第１の課題に対しては、請求項１の構成により以下の結果となる。検索対象がトピック区間であれば、Ｄ₁₁の方が、Ｄ₂₁，Ｄ₂₂よりスコアが高くなる。検索対象が文書であれば、Ｄ₂のスコアはＤ₂₁，Ｄ₂₂のスコアの最大値であるＤ₂₂のスコアとなり、Ｄ₁の方がＤ₂よりスコアが高くなる。

第２の課題に対しては、請求項１の構成により以下の結果となる。検索対象がトピック区間であれば、Ｄ₁₁の方が、Ｄ₂₁よりスコアが高くなる。検索対象が文書であれば、Ｄ₁のスコアはＤ₁₁，Ｄ₁₂のスコアの最大値であるＤ₁₁のスコアとなり、Ｄ₁の方がＤ₂よりスコアが高くなる。

第３の課題に対しては、請求項１の構成により以下の結果となる。検索対象がトピック区間であれば、Ｄ₁₁は検索されるが、Ｄ₂₁，Ｄ₂₂は検索されない。検索対象が文書であれば、ｌ_ijk＝ｆ_ijk，ｇ_i＝１，ｈ_jk＝１としたとき、ｓｃｏｒｅ（Ｄ_jk）＝ｆ_1jk＋ｆ_2jkとなる。Ｄ₁のスコアはＤ₁₁，Ｄ₁₂のスコアの最大値であるＤ₁₁のスコア２となり、Ｄ₂のスコアはＤ₂₁，Ｄ₂₂のスコアの最大値であるＤ₂₁またはＤ₂₂のスコア１となり、Ｄ₁の方がＤ₂よりスコアが高くなる。

また、第３の課題に対しては、請求項２の構成により以下の結果となる。ｌ_ij＝ｆ_ij，ｇ_i＝１，ｈ_j＝１としたとき、ｓｃｏｒｅ（Ｄ_j）＝ｆ_1j＋ｆ_2jとなり、Ｄ₁，Ｄ₂のスコアはともに２となる。Ｄ₂においては、ω₁，ω₂が同一トピック区間にないため、Ｄ₂のスコアは２−α（α＞０）となり、結果、Ｄ₁の方がＤ₂よりスコアが高くなる。

以上のように本発明の手法では、トピック区間の単位で索引化と検索の処理を行うため、文書が複数のトピック区間から構成されていて、一部のトピック区間がキーワードに適合する場合に、当該トピック区間、または、そのようなトピック区間を含む文書を、検索結果の、より上位にランクすることができるという効果を奏する。

文書と、その文書内におけるキーワード数を示す図である。文書と、その文書内におけるキーワード数を示す図である。文書と、その文書内におけるキーワード数を示す図である。本発明の文書分割検索装置１０の構成を示す構成図である。本発明の文書分割検索装置１０´の構成を示す構成図である。本発明の文書分割検索装置１０の処理を示すフローチャートである。本発明の文書分割検索装置１０´の処理を示すフローチャートである。文書分割手段の処理結果の例を示す図である。キーワード・トピック区間行列を示す図である。キーワード・文書行列を示す図である。キーワード・トピック区間行列を示す図である。キーワード・文書行列を示す図である。

以下、図面とともに本発明の実施例を説明する。

図４は本発明の請求項１の文書分割検索装置１０の構成例であり、図５は本発明の請求項２の文書分割検索装置１０´の構成例である。

請求項１の文書分割検索装置１０は、文書集合中の各文書に対し、該文書をトピックごとに分割し、得られたトピック区間で同一トピックのものを一つのトピック区間とする文書分割手段１１と、各列が、全文書中のトピック区間に対応し、各行が、文書集合に含まれるキーワードに対応する、キーワード・トピック区間行列１４を生成し、任意のキーワードと任意のトピック区間に対し、該キーワードの該トピック区間における出現頻度に基づく重みと、トピック区間集合全体にわたる該キーワードの分布に基づく重みとを乗じた値を、該トピック区間内のキーワード数に基づく重みで除して得られる重みを、該行列の対応する要素に格納するキーワード・トピック区間行列生成手段１２と、入力された検索キーワード群に対し、キーワード・トピック区間行列１４を参照して、該検索キーワード群がＡＮＤ条件で結合されていれば、該検索キーワード群の全てを含むトピック区間または文書を検索し、該検索キーワード群がＯＲ条件で結合されていれば、該検索キーワード群のいずれかを含むトピック区間または文書を検索し、検索された対象に対し、該対象に含まれるトピック区間と各検索キーワードとの重みに、該検索キーワードの入力時の重みを乗じた値の和を該トピック区間のスコアとし、該スコアの最大値を該対象のスコアとする第１検索手段１３とからなる。

請求項２の文書分割検索装置１０´は、文書集合中の各文書に対し、該文書をトピックごとに分割し、得られたトピック区間で同一トピックのものを一つのトピック区間とする文書分割手段１１と、各列が、文書集合に含まれる文書に対応し、各行が、文書集合に含まれるキーワードに対応する、キーワード・文書行列２４を生成し、任意のキーワードと任意の文書に対し、該キーワードの該文書における出現頻度に基づく重みと、文書集合全体にわたる該キーワードの分布に基づく重みとを乗じた値を、該文書内のキーワード数に基づく重みで除して得られる重みを、該行列の対応する要素に格納するキーワード・文書行列生成手段２２と、入力された検索キーワード群に対し、キーワード・文書行列２４を参照して、該検索キーワード群がＡＮＤ条件で結合されていれば、該検索キーワード群の全てを含む文書を検索し、該検索キーワード群がＯＲ条件で結合されていれば、該検索キーワード群のいずれかを含む文書を検索し、検索された文書に対し、該文書と各検索キーワードとの重みに、該検索キーワードの入力時の重みを乗じた値の和を該文書のスコアとし、各検索キーワードの対が、同一トピック区間にあればスコアをそのままか増加させ、同一トピック区間になければスコアを減少させるかそのままにさせる第２検索手段２３とからなる。

図６は文書分割検索装置１０の処理を示すフローチャートであり、図７は文書分割検索装置１０´の処理を示すフローチャートである。

（Ｓ１１，Ｓ２１）
文書分割手段１１の入力となる文書集合中の文書をＤ₁，Ｄ₂，…，Ｄ_nとする。各文書Ｄ_jを、例えば特許文献１に記載された手法によりトピックごとに分割し、得られたトピック区間を下記（１２）式とする。

Ｄ_j内のトピック区間の中には、同一トピックのものも存在しうる。例えば特許文献２に記載された手法により、Ｄ_j内のトピック区間をその意味内容に基づきクラスタリングし、同一トピックのトピック区間を一クラスタにまとめる。特許文献２に記載された手法では、全トピック区間が一クラスタになるまでクラスタリングを続けているが、文書分割手段１１の処理では、例えば、クラスタ間の距離が、ある閾値以上となったときに、クラスタリングを停止する。得られた一クラスタに含まれるトピック区間を結合したものを最終的なトピック区間とし、最終的なトピック区間の列を下記（１３）式とする。

図８は、文書分割手段１１の処理結果の例である。文書Ｄ_jをトピックごとに分割することにより、トピック区間列Ｔ_j1，Ｔ_j2，…，Ｔ_j6が得られる。Ｔ_j1，Ｔ_j2，…，Ｔ_j6をクラスタリングする。Ｔ_j1がそれのみでクラスタとなり、Ｔ_j1をＤ_j1とする。Ｔ_j2，Ｔ_j4が同一クラスタとなり、Ｔ_j2，Ｔ_j4を結合したものをＤ_j2とする。Ｔ_j3，Ｔ_j6が同一クラスタとなり、Ｔ_j3，Ｔ_j6を結合したものをＤ_j3とする。Ｔ_j5がそれのみでクラスタとなり、Ｔ_j5をＤ_j4とする。

（Ｓ１２，Ｓ２２）
キーワード・トピック区間行列生成手段１２及びキーワード・文書行列生成手段２２の処理を述べる。

文書集合に含まれるキーワードをω₁，ω₂，…，ω_mとする。

キーワード・トピック区間行列生成手段１２では、各列が、全文書中のトピック区間に対応し、各行が、文書集合に含まれるキーワードに対応する図９のようなキーワード・トピック区間行列を生成する。キーワード・文書行列生成手段２２では、各列が、文書集合に含まれる文書に対応し、各行が、文書集合に含まれるキーワードに対応する図１０のようなキーワード・文書行列を生成する。

以下、キーワード・トピック区間行列生成手段１２の処理を述べるが、キーワード・文書行列生成手段２２の処理は、以下の記述において、トピック区間を文書、添数ｊｋをｊで置き直した内容となる。

トピック区間Ｄ_jkに対応する列ベクトルｄ_jkは、以下の（１４）式となる。

ここで、ｄ_ijkはキーワードω_iのトピック区間Ｄ_jkにおける重みである。ｄ_ijkは以下の（１５）式のように、キーワードω_iのトピック区間Ｄ_jkにおける出現頻度に基づく重みｌ_ijkと、全文書集合におけるトピック区間集合全体にわたるキーワードω_iの分布に基づく重みｇ_iとを乗じた値として定義される。

ｌ_ijkの例として、以下の（１６）式のように、キーワードω_iのトピック区間Ｄ_jkにおける出現頻度ｆ_ijkを用いる。

また、以下の（１７）式のように、キーワードω_iがトピック区間Ｄ_jkに出現するとき１、出現しないとき０を与える。

ｇ_iの例として、以下の（１８）式のように、重み１を与える。

また、以下の（１９）式のように、トピック区間頻度の逆数であるIDFを用いる。ｕは全トピック区間数であり、ｕ_iは、キーワードω_iが出現するトピック区間の数である。

トピック区間Ｄ_jkに対し、Ｄ_jk内のキーワード数に基づく重みｈ_jkを定める。

ｈ_jkの例として、以下の（２０）式のように、重み１を与える。

また、以下の（２１）式のように、トピック区間Ｄ_jkの長さ||ｄ_jk||を用いる。

キーワード・トピック区間行列の各要素ｄ_ijkを、以下の（２２）式のような、ｈ_jkで除したｅ_ijkに変換する。

以上の処理により、キーワード・トピック区間行列生成手段１２では、図１１のようなキーワード・トピック区間行列１４が生成され、キーワード・文書行列生成手段２２では、図１２のようなキーワード・文書行列２４が生成される。

（Ｓ１３，Ｓ２３）
第１検索手段１３及び第２検索手段２３の処理を述べる。

第１検索手段１３の処理を述べる。

キーワード・トピック区間行列１４を参照して、該検索キーワード群がＡＮＤ条件で結合されていれば、該検索キーワード群の全てを含むトピック区間または文書を検索し、該検索キーワード群がＯＲ条件で結合されていれば、該検索キーワード群のいずれかを含むトピック区間または文書を検索する。

文書Ｄ₁がトピック区間Ｄ₁₁，Ｄ₁₂からなり、検索キーワード群がω₁，ω₂でＡＮＤ条件で結合されているとする。Ｄ₁₁がω₁のみ含み、Ｄ₁₂がω₂のみ含んでいる場合、検索対象がトピック区間であれば、Ｄ₁₁，Ｄ₁₂はともに検索されないが、検索対象が文書であれば、Ｄ₁はω₁，ω₂をともに含んでいるので検索される。

以上の処理を、検索された全ての対象に対し繰り返す。検索された対象をスコアの高い順にランキングし、検索結果として出力する。検索対象がトピック区間の場合、トピック区間の代わりに該トピック区間を含む文書を出力するというようにしてもよい。その際、同一文書が２つ以上出力される場合は、２番目以降の該文書は削除するというようにしてもよい。

第２検索手段２３の処理を述べる。

キーワード・文書行列２４を参照して、該検索キーワード群がＡＮＤ条件で結合されていれば、該検索キーワード群の全てを含む文書を検索し、該検索キーワード群がＯＲ条件で結合されていれば、該検索キーワード群のいずれかを含む文書を検索する。

α＞０を定めておく。

以上の処理を、検索された全ての文書に対し繰り返す。検索された文書をスコアの高い順にランキングし、検索結果として出力する。

第１検索手段１３または第２検索手段２３で、検索結果として文書を出力する場合、一文書の内容を画面上にオープンしたときに、該文書中の各トピック区間がどの範囲であるかを明示するというようにすることもできる。

また、文書分割手段１１の処理の計算量を削減するために、文書分割手段１１の処理を、文書集合中の一部の文書に対してのみ実行するというようにすることもできる。

前記文書分割検索装置１０，１０´は、コンピュータのハードウェア資源（ＣＰＵ，メモリ，ハードディスクドライブ装置，通信インターフェイス等）とソフトウェアの協働の結果、文書分割手段１１，キーワード・トピック区間行列生成手段１２（または、キーワード・文書行列生成手段２２），第１検索手段１３（または、第２検索手段２３）として機能している。

また、これまで述べた処理をプログラムとして構築し、当該プログラムを通信回線または記録媒体からインストールし、ＣＰＵ等の手段で実施することが可能である。

なお、本発明は、上記の実施例に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
〈産業上の利用可能性〉
本発明は、キーワードを入力して、該キーワードの表すトピックに適合する文書を文書集合から検索する技術に適用可能である。

１０，１０´…文書分割検索装置
１１…文書分割手段
１２…キーワード・トピック区間行列生成手段
２２…キーワード・文書行列生成手段
１３…第１検索手段
２３…第２検索手段
１４…キーワード・トピック区間行列
２４…キーワード・文書行列

Claims

文書集合中の各文書に対し、該文書をトピックごとに分割し、得られたトピック区間で同一トピックのものを一つのトピック区間とする文書分割手段と、
各列が、全文書中のトピック区間に対応し、各行が、文書集合に含まれるキーワードに対応する、キーワード・トピック区間行列を生成し、任意のキーワードと任意のトピック区間に対し、該キーワードの該トピック区間における出現頻度に基づく重みと、トピック区間集合全体にわたる該キーワードの分布に基づく重みとを乗じた値を、該トピック区間内のキーワード数に基づく重みで除して得られる重みを、該行列の対応する要素に格納するキーワード・トピック区間行列生成手段と、
入力された検索キーワード群に対し、キーワード・トピック区間行列を参照して、該検索キーワード群がＡＮＤ条件で結合されていれば、該検索キーワード群の全てを含むトピック区間または文書を検索し、該検索キーワード群がＯＲ条件で結合されていれば、該検索キーワード群のいずれかを含むトピック区間または文書を検索し、検索された対象に対し、該対象に含まれるトピック区間と各検索キーワードとの重みに、該検索キーワードの入力時の重みを乗じた値の和を該トピック区間のスコアとし、該スコアの最大値を該対象のスコアとする第１検索手段と、を備えたことを特徴とする文書分割検索装置。
文書集合中の各文書に対し、該文書をトピックごとに分割し、得られたトピック区間で同一トピックのものを一つのトピック区間とする文書分割手段と、
各列が、文書集合に含まれる文書に対応し、各行が、文書集合に含まれるキーワードに対応する、キーワード・文書行列を生成し、任意のキーワードと任意の文書に対し、該キーワードの該文書における出現頻度に基づく重みと、文書集合全体にわたる該キーワードの分布に基づく重みとを乗じた値を、該文書内のキーワード数に基づく重みで除して得られる重みを、該行列の対応する要素に格納するキーワード・文書行列生成手段と、
入力された検索キーワード群に対し、キーワード・文書行列を参照して、該検索キーワード群がＡＮＤ条件で結合されていれば、該検索キーワード群の全てを含む文書を検索し、該検索キーワード群がＯＲ条件で結合されていれば、該検索キーワード群のいずれかを含む文書を検索し、検索された文書に対し、該文書と各検索キーワードとの重みに、該検索キーワードの入力時の重みを乗じた値の和を該文書のスコアとし、各検索キーワードの対が、同一トピック区間にあればスコアをそのままか増加させ、同一トピック区間になければスコアを減少させるかそのままにさせる第２検索手段と、を備えたことを特徴とする文書分割検索装置。
文書分割手段が、文書集合中の各文書に対し、該文書をトピックごとに分割し、得られたトピック区間で同一トピックのものを一つのトピック区間とする文書分割ステップと、
キーワード・トピック区間行列生成手段が、各列が、全文書中のトピック区間に対応し、各行が、文書集合に含まれるキーワードに対応する、キーワード・トピック区間行列を生成し、任意のキーワードと任意のトピック区間に対し、該キーワードの該トピック区間における出現頻度に基づく重みと、トピック区間集合全体にわたる該キーワードの分布に基づく重みとを乗じた値を、該トピック区間内のキーワード数に基づく重みで除して得られる重みを、該行列の対応する要素に格納するキーワード・トピック区間行列生成ステップと、
第１検索手段が、入力された検索キーワード群に対し、キーワード・トピック区間行列を参照して、該検索キーワード群がＡＮＤ条件で結合されていれば、該検索キーワード群の全てを含むトピック区間または文書を検索し、該検索キーワード群がＯＲ条件で結合されていれば、該検索キーワード群のいずれかを含むトピック区間または文書を検索し、検索された対象に対し、該対象に含まれるトピック区間と各検索キーワードとの重みに、該検索キーワードの入力時の重みを乗じた値の和を該トピック区間のスコアとし、該スコアの最大値を該対象のスコアとする第１検索ステップと、を有することを特徴とする文書分割検索方法。
文書分割手段が、文書集合中の各文書に対し、該文書をトピックごとに分割し、得られたトピック区間で同一トピックのものを一つのトピック区間とする文書分割ステップと、
キーワード・文書行列生成手段が、各列が、文書集合に含まれる文書に対応し、各行が、文書集合に含まれるキーワードに対応する、キーワード・文書行列を生成し、任意のキーワードと任意の文書に対し、該キーワードの該文書における出現頻度に基づく重みと、文書集合全体にわたる該キーワードの分布に基づく重みとを乗じた値を、該文書内のキーワード数に基づく重みで除して得られる重みを、該行列の対応する要素に格納するキーワード・文書行列生成ステップと、
第２検索手段が、入力された検索キーワード群に対し、キーワード・文書行列を参照して、該検索キーワード群がＡＮＤ条件で結合されていれば、該検索キーワード群の全てを含む文書を検索し、該検索キーワード群がＯＲ条件で結合されていれば、該検索キーワード群のいずれかを含む文書を検索し、検索された文書に対し、該文書と各検索キーワードとの重みに、該検索キーワードの入力時の重みを乗じた値の和を該文書のスコアとし、各検索キーワードの対が、同一トピック区間にあればスコアをそのままか増加させ、同一トピック区間になければスコアを減少させるかそのままにさせる第２検索方法と、を有することを特徴とする文書分割検索方法。
請求項１または２に記載された文書分割検索装置の各手段として、コンピュータを機能させるための文書分割検索プログラム。