JP2005100136A

JP2005100136A - 電子記事のヒット件数最適化検索システム

Info

Publication number: JP2005100136A
Application number: JP2003333666A
Authority: JP
Inventors: Tsutomu Takahashi; 勉高橋
Original assignee: SEKAI NIPPOSHA KK
Current assignee: SEKAI NIPPOSHA KK
Priority date: 2003-09-25
Filing date: 2003-09-25
Publication date: 2005-04-14

Abstract

【課題】電子化された記事において、過去に蓄積された記事群から、関連記事を検索する場合、その検索結果は数千件以上と膨大になる場合が多く、その中から目的とする有効な記事を探すのは容易ではない。
【解決手段】利用者が関連記事を検索したい記事を選択すると、基準検索件数に最も近いヒット件数となるような検索式を動的に変化させながら自動的に生成し、関連記事を表示することを特徴とする電子記事のヒット件数最適化検索システム。
【選択図】図１

Description

本発明は、電子記事の内容に関連する関連記事情報のヒット件数を最適化して自動表示するシステムに関するものである。

高速インターネット回線の普及にともない、記事を電子化し、配信するシステムが普及し、それら電子記事から関連する記事を自在に検索する必要が生じているが、情報量が膨大のため、記事検索の結果も膨大になることが多く、そこから得られる情報の取捨選択が困難という問題が発生している。このため、検索結果の相対的な価値は低下し、有為な関連情報を取得するためのコストは逆に高いものとなっている。

そこで、各電子記事に関連情報リンクを埋め込んだり、検索に必要な検索語を埋め込むことなく、関連記事を表示することが必要となる。この時、結果の関連記事は、人間が読むものであるので、自動検索されて表示される関連記事の件数は、適度に調整されていることが必要である。

例えば、検索結果が１０００件以上の場合は、人間がそれを全て読むのは困難であり、その検索結果の中に無駄な情報が紛れているのではないか、という疑念を持つ。また５００件に絞り込めても、それらが全て関連する記事とはいえ、やはり人間が判読するのは、時間的制約から困難である。

逆に、検索条件を厳しくすれば、検索結果は少なくなるが、例えば数件に絞り込まれた場合、重要な情報が漏れたのではないかという疑念を持つと同時に、人間の感情として、周辺情報や参考情報をもう少し検索したいという欲求が生じる。すなわち、人間の情報に対する欲求は、莫大な情報群に対しては強く絞り込もうとし、希少な情報群に対しては弱く絞り込もうとする傾向がある。

以上の考察から、人間が情報検索する場合、例えばある記事から関連記事を検索して資料としたい場合、検索結果の件数は人間が情報を認識し咀嚼できる一定範囲内に収まっていることが必要である。これは多すぎても少なすぎてもいけない。

特許文献１では、文書データベースにおいて、現在検索されている文書集合がどのような性質を持つかを自動的に示す方法としてキーワードを自動的に抽出する方法が示されているが、その自動抽出されたキーワードによって、どの程度の本数の類似文書がヒットするかが示されていない。

また、検索式を自動生成する方法としては、既に特許文献２、特許文献３に開示されているが、いずれも文書検索用の文字列あるいはキーワード用単語を入力装置から入力させるもので、候補になるキーワードそのものを自動抽出する方法は開示されていない。

特許文献４では、検索語を入力させたり、記事の一つ一つに関連情報や検索キーワードを埋め込むことなく、関連記事の自動検索の方法を開示しているが、それには検索サーバー側のカテゴリキーワードテーブルに依存し、検索結果の本数を最適に調整する方法は開示されていない。
特開平８−１９０５６４号公報特開平１０−１０５５６１号公報特開２００２−３７３１７４号公報特開２００３−５８５６８号公報

本発明が解決しようとする課題は、前記のごとく人間の情報検索に対する欲求を満たすべく、検索結果のヒット数が目標件数に最も近いものとなるようなヒット件数最適化検索システムを実現することにある。

本発明では、まず関連記事を表示したい記事から検索用のキーワード列を自動取得する。

そのキーワード列を基に、検索式を自動生成する。この検索式はまず単純なものから生成し、データベースに対して検索を実行し、その結果としてヒット件数を得る。このヒット件数が収束するような方向に検索式を変化させ、検索を繰り返す。

このような操作により、いかなる記事の関連記事検索においても、目標ヒット件数（例えば１００）に最も近い検索式を最適な検索式として実行し、その検索結果を出力する。

ここで、目標ヒット件数に最も近いヒット件数を得るために、検索式自体を動的に変化させるので、単に検索結果を年月日順に並び変えて上位１００件を返したり、スコア順に並び変えて上位１００件を返すこととは意味が異なる。

このことにより、電子記事のヒット件数最適化検索システムを実現することができる。

本発明によれば、電子記事から自動的にキーワード列を取得し、そこから検索式を自動生成し、検索結果の件数が目標値ヒット件数に最も近い検索結果を表示することができるので、利用者自ら検索語を選びながら試行錯誤することのない、ヒット件数最適化検索システムを実現することができる。

以下、発明を実施するための最良の形態を添付図面を用いて説明する。

図１は、本発明の一実施例を表す電子記事のヒット件数最適化検索システムの構成図である。２０１は対象となる記事の全文もしくは記事のＩＤから検索に必要なキーワードを抽出もしくは取得し、キーワード列を出力するキーワード取得手段である。データベース検索エンジン５０１は、インデックス化された記事データベースに対して、情報の存在場所のリストや、該当する情報のヒット件数を返すものであり、これは既知として説明を省略する。

４０１は、キーワード取得手段２０１から出力されるキーワード列から、データベース検索エンジン５０１に対する検索式を生成する検索式生成手段である。検索式生成手段４０１がデータベース検索エンジン５０１に対して検索を繰り返しながら最適検索式を探し出すように動作する。以上のように、検索結果のヒット数が目標件数にもっとも近いものとなるような電子記事のヒット件数最適化検索システムを実現できる。

図２は、本発明の一実施例を表す電子記事のヒット件数最適化検索システムの構成図であり、記事全文が入力となる例である。図１と同じ動作をする構成要素に関しては同一番号を付してあり、その説明を省略する。２０２は記事全文から名詞を抽出し出力する名詞抽出部、３０１は抽出された名詞を頻度順にソートして検索のためのキーワード列を作成出力するキーワード列生成部である。

名詞抽出部２０２は、入力である記事全文から、即座に文章を特徴付ける名詞を抽出してキーワード列生成部３０１に渡し、キーワード列生成部３０１は後段の検索式生成手段４０１のためのキーワード列を作り出すように動作する。

本実施例では、記事全文を入力としているので、あらかじめ検索のためのキーワードをテーブル化して準備する必要がなく、いかなる記事に対しても、最適化して検索できる効果がある。以上のように、記事全文が入力となる電子記事のヒット件数最適化検索システムを実現できる。

以下では、本実施例のキーワード取得手段２０１の詳細説明を、図３、図４、図８、図９、図１１を用いて行う。図８は、固有名詞対頻度値をテーブルとした固有名詞テーブルと、一般名詞対頻度値をテーブルとした一般名詞テーブルの一例である。ここで一般名詞とは固有名詞以外の名詞である。頻度値とは記事全文中の単語の出現数である。

図３は、図２で示した名詞抽出部２０２を詳細に表した構成図である。

名詞抽出部２０２では、まず記事全文を形態要素分析部２２０を使って、品詞に分解する。形態要素分析部２２０については、その技術は既知であるので説明を省略する。その結果を固有名詞抽出部２０３で固有名詞を抽出して、その出力形式である固有名詞テーブルとして出力し、一般名詞抽出部２０６で一般名詞を抽出して、その出力形式である一般名詞テーブルとして出力する。その他の品詞については、単語自体は必要ないが、その出現位置は必要であるので、単語を「−」に変えて固有名詞テーブル及び一般名詞テーブルとして出力する。

図４は、図２で示したキーワード列生成部３０１を詳細に表した構成図である。

入力である固有名詞テーブルに対して、位置的に隣接している単語を隣接単語結合部２０４で結合する。形態要素分析部２２０では、例えば、「ブッシュ大統領」という言葉に対し、／ブッシュ／大統領／のように二つの単語に分割してしまうので、隣接単語結合部２０４で、再合成することによって、必要以上に単語を分解することを防止する。なお、「英のブレア首相」という言葉の場合、形態要素分析部２２０によって／英／の／ブレア／首相／と分解されるが、固有名詞抽出部２０３によって、助詞の「の」が「−」に置換され、／英／−／ブレア／首相／となり、隣接単語結合部２０４では、「英」と「ブレア」は隣接とは判定されないので、「英」と「ブレア首相」となる。以上によれば、形態要素分析部２２０によって単語が細分化されすぎる事を防止し、検索キーワードとして意味のある名詞を揃える効果がある。

もう一つの入力である一般名詞テーブルに対しても前述と同様に、隣接名詞を結合する。この部分の説明は前述と同様であるので省略する。

同義語削除部３０２は、隣接単語が結合された入力である固有名詞テーブルと隣接単語が結合されたもう一つの入力である一般名詞テーブルに対して、各々、同義語を削除して、その出力形式である固有名詞テーブル及び一般名詞テーブルとして出力する。例えば「○○総理」「○○首相」「○○総理大臣」「○○内閣総理大臣」は、みな同義語である。固有名詞同義語テーブル３０３および一般名詞同義語テーブル３０４に従って、入力である固有名詞テーブル及び一般名詞テーブルに対して同義語の存在を判定し、同義語があれば一方を抹消して、その出力形式である固有名詞テーブル及び一般名詞テーブルとして出力する。

図１１は、代表固有名詞対同義語をテーブルとした固有名詞同義語テーブル及び代表一般名詞対同義語をテーブルとした一般名詞同義語テーブルの一例である。

同義語が削除された入力である固有名詞テーブルに対し、頻度計算部２０５によって単語出現の頻度計算を行う。例えば、固有名詞群の中で「ブッシュ大統領」という単語が３回出現したら、頻度計算値は３である。各単語に対して頻度計算を行った後、頻度値が高い順に並べ替え、その出力形式である固有名詞テーブルとして出力する。

同義語が削除されたもう一つの入力である一般名詞テーブルに対しても、前述と同様に頻度計算を行い、その出力形式である一般名詞テーブルとして出力する。

図９は、頻度計算部２０５が出力した固有名詞テーブルともう一つの出力である一般名詞テーブルの一例である。

混合部３０５は、入力である固有名詞テーブルともう一つの入力である一般名詞テーブルの内容を組み合わせて、キーワード列を作り出し出力する。

入力である固有名詞列テーブルの内容を{pn1,pn2,pn3,pn4,pn5,…}とし、もう一つの入力である一般名詞列テーブルの内容を{gn1,gn2,gn3,gn4,gn5,…}とする。ただし、単語nに対する頻度値をF(n)とするとき、F(pn1) >= F(pn2) 、F(gn1) >= F(gn2) であり、同様にn番目の頻度値はn+1番目の頻度値より大とする。
ここで、目的の出力であるキーワード列は、検索結果を考慮し、固有名詞と一般名詞が適度にバランスしているべきである。どちらか一方に偏ると、偏った検索結果になる可能性が高い。そこで以下のように固有名詞と一般名詞を混合したキーワード列を混合部３０５で混合し出力する。
{pn1,pn2,gn1,gn2,pn3,pn4,gn3,gn4,…}
固有名詞と一般名詞を２個づつ交互に配列するが、固有名詞の方が一般名詞より記事を特徴付けるので、固有名詞優先の並べ方とするのが特徴である。このように生成されたキーワード列を出力する。

例えば、図９に対してのキーワード列は、{小泉純一郎総理,ブッシュ米大統領,総裁選,構造改革,英,ブレア首相,道路公団民営化,…} となる。

以上の手段により、キーワード列は、別々に抽出された固有名詞と一般名詞が固有名詞優先でバランスよく並び、後段の検索式生成手段４０１において的確な検索を行う効果がある。

図５は、検索式生成手段４０１を詳細に表した構成図である。

キーワード取得手段２０１よりキーワード列を入力し、それを基にして検索式生成部４２１で検索式を生成する。ここで生成された検索式はデータベース検索エンジン５０１に渡して検索を実行する。その結果としてのヒット件数Ｎを受けとる。そのヒット件数Ｎとあらかじめ設定された基準値ＢＮとを比較判定部４２３で比較し、Ｎ＞ＢＮであれば、検索式生成部４２１に対してヒット件数が小さくなる方向に検索式を変形するように指令を出し、４２１はその指示に基づいて検索式を生成し、再度データベース検索エンジン５０１に検索を依頼する。

逆にＮ＜ＢＮであれば、前回のＮ値と比較し、ＢＮに近いほうを最適ヒット件数と判断し、その時の検索結果を検索式生成手段４０１の出力とするように検索式生成部４２１に指令を出す。

以上の動作を繰り返すことにより、基準値ＢＮに最も近いヒット件数の検索式を決定し、その検索結果を出力することができる。

検索試行を繰り返す上での検索式生成部４２１の検索式生成過程の一例を示す。
最初の検索式を第一検索式e1、以下同様に第二検索式e2、第三検索式e3、…とする。また各検索式の構成要素として、and検索を＆、or検索を | と表し、式の結合優先度は()でくくることによって表す。
たとえば、以下のような検索式を構成する。
e1 = pn1 | gn1
e2 = (pn1 & pn2)|(gn1 & gn2)
e3 = (pn1 & pn2 & gn1)|(gn2 &
pn3 & pn4)
…
この検索式の構成では、論理積と論理和を組み合わせているので、一時的に発散する場合があるものの統計的にはその確率は小さく、最終的には収束に向かう。この方法は、キーワード取得手段２０１からのキーワード列に偏りがある場合の検索漏れを抑える効果がある。

検索式生成過程の別の一例を以下に示す。式の各記号の意味は前述と同様である。
e1 = pn1
e2 = pn1 & pn2
e3 = pn1 & pn2 & gn1
e4 = pn1 & pn2 & gn1 & gn2
…
この検索式の構成では、必ず後者の検索式の方がヒット件数が少なくなるので、検索式の生成方法を単純化できる効果がある。

比較判定部４２３が最適ヒット件数と判断した場合、その時の検索式で検索した検索結果を検索式生成手段４０１の出力とする。

以上の実施例により、入力である記事全文に対する最適なヒット件数の検索結果としての関連記事のリストを出力できる効果がある。

図６は、本発明の一実施例を表す電子記事のヒット件数最適化検索システムの構成図であり、記事固有ＩＤが入力となる例である。図１と同じ動作をする構成要素に関しては同一番号を付してある。

５０３は記事固有ＩＤ対キーワード列をテーブルとしたキーワード列テーブル、５０２は、入力である記事固有ＩＤに該当するキーワード列を、キーワード列テーブル５０３から引き出すキーワード列取得部である。

キーワード列テーブル５０３の構成要素であるキーワード列は、図２に示す実施例のキーワード取得手段２０１と同じ方法によって作り出すことができる。図２のキーワード取得手段２０１では、入力である記事全文に対して入力の都度キーワード列を作り出すが、本実施例では、あらかじめ各記事に対してキーワード列を生成し、キーワード列テーブル５０３としておく。図１０は、キーワード列テーブル５０３の一例を表す図である。

記事固有ＩＤがキーワード列取得部５０２に入り、キーワード列テーブル５０３から引き出されたキーワード列が後段の検索式生成手段４０１に渡るように動作する。

本実施例では、あらかじめ全記事に対するキーワード列をキーワード列テーブル５０３として保持し、記事固有ＩＤによって該当キーワード列を引き出すだけであるので、キーワード取得手段２０１の処理速度が高速になる効果がある。

図７は、本発明の一実施例を表す電子記事のヒット件数最適化検索システムの構成図であり、検索式生成手段４０１を詳細に表した図６において、比較判定部４２３で使用する基準値である目標ヒット件数を外部入力により可変できる例である。図６と同じ動作をする構成要素に関しては同一番号を付してある。

比較判定部４２３は、入力された目標ヒット件数を利用して検索結果の判定を行い検索式生成部４２１を制御する。その他の動作は図６と同様である。

本実施例では、基準値である目標ヒット件数を可変にできるので、利用者の要求する目標ヒット件数をシステムを変更することなく設定可能なヒット件数最適化検索システムを構成できる効果がある。

本発明によれば、検索結果のヒット件数が目標ヒット件数に最も近い検索を自動的に行うことができ、電子新聞やインターネットコンテンツ内の検索システム、インターネット検索エンジンに適用することができる。

本発明の一実施例を示す電子記事のヒット件数最適化検索システムの全体の構成図である。図１において入力が記事全文の場合の一実施例の構成図である。図２で示した名詞抽出部２０２を詳細に表した構成図である。図２で示したキーワード列生成部３０１を詳細に表した構成図である。図１で示した検索式生成手段４０１を詳細に表した構成図である。図１において入力が記事固有ＩＤの場合の一実施例の構成図である。図５において、比較判定部４２３で使用する基準値を、可変にした場合の一実施例の構成図である。名詞抽出部２０２が設定する固有名詞テーブルと一般名詞テーブルの一例を表す図である。頻度計算部２０５が設定する固有名詞テーブルと一般名詞テーブルの一例を表す図である。キーワード列テーブルの一例を表す図である。固有名詞同義語テーブルと一般名詞同義語テーブルの一例を表す図である。

符号の説明

２０１キーワード取得手段
２０２名詞抽出部
２０３固有名詞抽出部
２０４隣接名詞結合部
２０５頻度計算部
２０６一般名詞抽出部
２２０形態要素分析部
３０１キーワード列生成部
３０２同義語削除部
３０３固有名詞同義語テーブル
３０４一般名詞同義語テーブル
３０５結合部
４０１検索式生成手段
４２１検索式生成部
４２３比較判定部
５０１データベース検索エンジン
５０２キーワード列取得部
５０３キーワード列テーブル

Claims

電子化された記事全文又は記事固有ＩＤからキーワード列を取得するキーワード取得手段と、取得されたキーワード列から検索式を生成し、生成された検索式を用いてデータベース検索を行い、得られたヒット件数が目標ヒット数に最も近い値になるように検索式を動的に変化させ繰り返しデータベース検索を行う検索式生成手段とにより構成されたことを特徴とする電子記事のヒット件数最適化検索システム。
前記キーワード取得手段が、入力された記事全文から名詞を分離抽出する名詞抽出部と、抽出された名詞からキーワード列を生成し出力するキーワード列生成部とにより構成されたことを特徴とする請求項１記載の電子記事のヒット件数最適化検索システム。
前記キーワード取得手段が、あらかじめ記事固有ＩＤに対するキーワード列をテーブルとして保持したキーワード列テーブルと、入力された記事固有ＩＤを用いてキーワード列テーブルからキーワード列を取得し出力するキーワード列取得部により構成されたことを特徴とする請求項１記載の電子記事のヒット件数最適化検索システム。
前記名詞抽出部が、入力された記事全文を形態要素分析する形態要素分析部と、形態要素分析部の出力から固有名詞を抽出する固有名詞抽出部と、形態要素分析部の出力から一般名詞を抽出する一般名詞抽出部とにより構成され、
前記キーワード列生成部が、固有名詞抽出部の出力から、位置が隣接する名詞を結合する隣接名詞結合部と、隣接名詞結合部の出力から固有名詞同義語テーブルに従って同義語を削除する同義語削除部と、同義語削除部の出力から固有名詞の出現頻度を計算し、固有名詞と頻度値を出力する頻度計算部と、一般名詞抽出部の出力から、位置が隣接する名詞を結合する隣接名詞結合部と、隣接名詞結合部の出力から一般名詞同義語テーブルに従って同義語を削除する同義語削除部と、同義語削除部の出力から一般名詞の出現頻度を計算し、一般名詞と頻度値を出力する頻度計算部と、頻度計算部の出力から、固有名詞と一般名詞を、各々の頻度値に従ってバランス良く混合したキーワード列を出力する混合部とにより構成されたことを特徴とする請求項１及び請求項２記載の電子記事のヒット件数最適化検索システム。
前記検索式生成手段が、データベース検索結果のヒット件数をあらかじめ設定されている目標ヒット数と比較しその大小比較およびデータベース検索結果を出力する比較判定部と、入力されたキーワード列から検索式を生成し、生成された検索式によりデータベース検索を行い前記比較判定部からの大小比較によりデータベース検索結果のヒット件数が目標ヒット数より大きいときはヒット件数が小さくなるように検索式を変化させ逆にデータベース検索結果のヒット件数が目標ヒット数より小さいときはヒット件数が大きくなるように検索式を変化させることにより目標ヒット数に最も近い検索式を取得してデータベース検索を行う検索式生成部とにより構成されたことを特徴とする請求項１及び請求項２及び請求項３記載の電子記事のヒット件数最適化検索システム。
前記比較判定部において、比較基準の目標ヒット数を外部からの設定により可変可能であることを特徴とする請求項１及び請求項２及び請求項３記載の電子記事のヒット件数最適化検索システム。