JP2007114903A - 文書処理装置、文書処理方法および文書処理プログラム - Google Patents

文書処理装置、文書処理方法および文書処理プログラム Download PDF

Info

Publication number
JP2007114903A
JP2007114903A JP2005303714A JP2005303714A JP2007114903A JP 2007114903 A JP2007114903 A JP 2007114903A JP 2005303714 A JP2005303714 A JP 2005303714A JP 2005303714 A JP2005303714 A JP 2005303714A JP 2007114903 A JP2007114903 A JP 2007114903A
Authority
JP
Japan
Prior art keywords
search
score
data
document processing
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005303714A
Other languages
English (en)
Inventor
Hiroki Tanioka
広樹 谷岡
Kenichi Yamamoto
健一 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JustSystems Corp
Original Assignee
JustSystems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JustSystems Corp filed Critical JustSystems Corp
Priority to JP2005303714A priority Critical patent/JP2007114903A/ja
Publication of JP2007114903A publication Critical patent/JP2007114903A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】検索結果をユーザのニーズに合わせた順に提示すること。
【解決手段】検索部201は、複数のタームをクエリとして検索を実行する。そして、算出部202は、複数のタームをクエリとして、第1検索スコアを求め、この第1検索スコアに、所定の平滑化度に関する値を加算することにより、第2検索スコアを求める。そして提示部205は、第2検索スコアを、複数のタームのそれぞれの検索スコアとして提示する。たとえば、検索スコアの高い順に検索結果を表示する。
【選択図】図2

Description

この発明は、文書を検索して提示する文書処理装置、文書処理方法および文書処理プログラムに関する。
近年、文書やウェブページなどの検索の必要性が増してきている。そして、この検索結果を検索された順に並べるだけでなく、ユーザにとって必要なものから順番に提示することが求められている。そこで、クエリに対する関連の度合いに応じて検索スコアを算出し、その検索スコアの順に検索結果を提示するものが増えてきている。この検索スコアについては、クエリ内のタームの出現頻度に応じて高い値とするように求めるものがある。
しかしながら、複数のタームについて検索をかけた場合、特定のタームについて検索結果が集中することがある。その結果、検索スコアの算出にあたり、検索結果が集中したタームに高い比重がおかれたスコアが求まることがある。たとえば、他のタームは5つとか6つ程度しか検索されない一方で、100、150という出現頻度の高いタームが検索されたときその頻度の高いタームに検索スコアが大きくされてしまい、検索スコアを意図した形で求めることができないという問題があった。
また、ウェブページについて検索をかける場合でも、リンク先の多いウェブページについて高いスコアとなるように求めたい場合がある。ここで、同一のドメインで多くのページを作成している場合、ドメイン内の各ページからリンクされている場合があり、その場合、多くのリンク先からリンクされている場合と同等には考えられない。さまざまなドメインからリンクされている場合と区別して考える必要がある。また、データ量が多い中から一部を早くソートして表示したい場合でも、すべてのデータが対象となってしまうので処理に時間がかかっていた。
また、検索した結果多くのページがヒットした場合に、スパムタームの混ざった好ましくないページが含まれる場合がある。しかも、特定のタームを多く含んだ結果、検索スコアが高くなり、上位に表示されてしまうという問題もあった。また、ソートするにあたって、重要でないタームが多くソート対象となったり、重要なタームが他のタームと同等に扱われ、あまり多くソート対照とならなかったりするという問題もあった。
この発明は、上述した従来技術による問題点を解消するため、検索結果をユーザのニーズに合わせた順に提示することができる文書処理装置、文書処理方法および文書処理プログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するため、請求項1の発明にかかる文書処理装置は、複数のタームをクエリとして、第1検索スコアを算出する第1算出手段と、前記第1算出手段によって算出された第1検索スコアに、所定の平滑化度に関する値を加算することにより、第2検索スコアを求める第2算出手段と、前記第2算出手段によって求められた第2検索スコアを、前記複数のタームのそれぞれの検索スコアとして提示する提示手段と、を備えることを特徴とする。
この請求項1の発明によれば、特定のタームによって検索スコア間の値の大きさのばらつきが修正され、特定のタームによってスコアが極端に大きくなって、他のタームによる検索スコアが考慮されない検索結果が提示されることを防ぐことができる。
また、請求項2の発明にかかる文書処理装置は、請求項1に記載の発明において、所定の平滑化度に関する値は、固定の値を前記複数のタームの数で割った値であることを特徴とする。
この請求項2の発明によれば、検索するタームが増えるほど、各タームに割り当てられる検索スコアの割り当て分が減っていくので、タームが少ないときほど割り当て分を大きくして、タームが多いときは割り当て分を小さくすることができる。ターム数が多いときはひずみが比較的小さいので、修正を最小限にし、ターム数が少ないときは比較的大きくなるひずみを、大きくした割当量により抑えることができる。
また、請求項3の発明にかかる文書処理装置は、所定の文書との間で関連付けされた、それぞれ属性をもつ複数の関連文書を検索する検索手段と、前記検索手段によって検索された関連文書の数を求める文書数算出手段と、前記検索手段によって検索された関連文書の属性の数を求める属性数算出手段と、前記属性数算出手段によって求められた関連文書の数および前記属性数算出手段によって求められた属性の数に基づいて、検索スコアを求めて提示する提示手段と、を備えることを特徴とする。
この請求項3の発明によれば、関連文書がすべて特定の属性の場合と、関連文書が様々な属性の場合とは異なる検索スコアを求めることができる。それにより、実質的に多くの関連文書に関連付けられた文書を、たとえば高く評価するなど特別に評価することができる。
また、請求項4の発明にかかる文書処理装置は、請求項3に記載の発明において、前記提示手段は、前記関連文書の数の逆数と前記属性の数の逆数を加算した値に基づいて前記検索スコアを求めることを特徴とする。
この請求項4の発明によれば、関連文書がある特定の属性、たとえば同一のドメインに属するものばかりであった場合に、検索スコアを相対的に下げ、逆にさまざまな属性をもつものであった場合には検索スコアを相対的に高くすることができる。それにより、様々な属性の関連文書と関連付けられた文書を高く評価することができる。
また、請求項5の発明にかかる文書処理装置は、ソート対象となるデータ群から、所定の数のデータを抽出する抽出手段と、前記抽出手段によって抽出されたデータの、ソート順に並べ替える並べ替え手段と、前記並べ替え手段によって並べ替えられた順に、前記抽出手段によって抽出されたデータを提示する提示手段と、を備えることを特徴とする。
請求項5の発明によれば、たとえばデータ数が極めて多く一部だけソートしたい場合に、より高速なソートを実行することができる。
また、請求項6の発明にかかる文書処理装置は、請求項5に記載の発明において、前記並べ替え手段は、前記抽出手段によって抽出されたデータのうち、任意の条件を満たさないデータを除去し、残ったデータの範囲内で並べ替えを実行することを特徴とする。
この請求項6の発明によれば、任意の条件を満たすデータのデータの範囲内でソートを実行することができる。
また、請求項7の発明にかかる文書処理装置は、所定のクエリにしたがって複数のページを検索する検索手段と、前記検索手段によって検索された複数のページについて、スパムワードを含むページか否かを判定する判定手段と、前記判定手段によってスパムワードを含むと判定されたページについて、第1の算出式を用いて第1検索スコアを算出し、スパムワードを含まないと判定されたページについて、第2の算出式を用いて第2検索スコアを算出する算出手段と、前記算出手段によって算出された第1検索スコアおよび第2検索スコアを提示する提示手段と、を備えることを特徴とする。
この請求項7の発明によれば、スパムワードを含むページの検索スコアを下げ、スパムワードを含まないページの評価を相対的に上げて、検索意図に沿った検索結果を得ることができる。
また、請求項8の発明にかかる文書処理装置は、請求項7に記載の発明において、前記第1の算出式は、前記クエリ内のターム数にしたがって条件を変化させることを特徴とする。
この請求項8の発明によれば、クエリ内のターム数によって修正の程度を変化させることができ、それにより、たとえばターム数が多く精度が高い場合とターム数が少なく精度が低い場合とで、修正を加える水準を変えることができる。
また、請求項9の発明にかかる文書処理装置は、複数のタームをクエリとして検索して検索結果を得る検索手段と、前記複数のタームのそれぞれについて出現頻度に応じた割当量を保持する保持手段と、前記保持手段によって保持された割当量に応じて、前記検索手段によって得られた検索結果のうち提示するデータを特定する特定手段と、前記特定手段によって特定された各タームについてのデータを、それぞれソートするソート手段と、を備えることを特徴とする。
この請求項9の発明によれば、タームの出現頻度に応じて結果出力することができ、検索されたデータ量ではなく、出現頻度に応じた配分でソート出力することができる。
請求項10の発明にかかる文書処理方法は、複数のクエリについて、第1検索スコアを算出する第1算出工程と、前記第1算出工程によって算出された第1検索スコアに、所定の平滑化度に関する値を加算することにより、第2検索スコアを求める第2算出工程と、前記第2算出工程によって求められた第2検索スコアを、前記複数のクエリのそれぞれの検索スコアとして提示する提示工程とを含むことを特徴とする。
この請求項10の発明によれば、特定のタームによって検索スコア間の値の大きさのばらつきが修正され、特定のタームによってスコアが極端に大きくなって、他のタームによる検索スコアが考慮されない検索結果が提示されることを防ぐことができる。
請求項11の発明にかかる文書処理方法は、所定の文書との間で関連付けされた、それぞれ属性をもつ複数の関連文書を検索する検索工程と、前記検索工程によって検索された関連文書の数を求める文書数算出工程と、前記検索工程によって検索された関連文書の属性の数を求める属性数算出工程と、前記属性数算出工程によって求められた関連文書の数および前記属性数算出工程によって求められた属性の数に基づいて、検索スコアを求めて提示する提示工程と、を含むことを特徴とする。
この請求項11の発明によれば、関連文書がすべて特定の属性の場合と、関連文書が様々な属性の場合とは異なる検索スコアを求めることができる。それにより、実質的に多くの関連文書に関連付けられた文書を、たとえば高く評価するなど特別に評価することができる。
請求項12の発明にかかる文書処理方法は、ソート対象となるデータ群から、所定の数のデータを抽出する抽出工程と、前記抽出工程によって抽出されたデータの、ソート順に並べ替える並べ替え工程と、前記並べ替え工程によって並べ替えられた順に、前記抽出工程によって抽出されたデータを提示する提示工程と、を含むことを特徴とする。
この請求項12の発明によれば、たとえばデータ数が極めて多く一部だけソートしたい場合に、より高速なソートを実行することができる。
請求項13の発明にかかる文書処理方法は、所定のクエリに該当する複数のページを検索する検索工程と、前記検索工程によって検索された複数のページについて、スパムワードを含むページか否かを判定する判定工程と、前記判定工程によってスパムワードを含むと判定されたページについて、第1の算出式を用いて第1検索スコアを算出し、スパムワードを含まないと判定されたページについて、第2の算出式を用いて第2検索スコアを算出する算出工程と、前記算出工程によって算出された第1検索スコアおよび第2検索スコアを提示する提示工程と、を含むことを特徴とする。
この請求項13の発明によれば、スパムワードを含むページの検索スコアを下げ、スパムワードを含まないページの評価を相対的に上げて、検索意図に沿った検索結果を得ることができる。
請求項14の発明にかかる文書処理方法は、複数のタームをクエリとして検索して検索結果を得る検索工程と、前記複数のタームのそれぞれについて出現頻度に応じた割当量を保持する保持工程と、前記保持工程によって保持された割当量に応じて、前記検索工程によって得られた検索結果のうち提示するデータを特定する特定工程と、前記特定工程によって特定された各タームについてのデータを、それぞれソートするソート工程と、を含むことを特徴とする。
この請求項14の発明によれば、タームの出現頻度に応じて結果出力することができ、検索されたデータ量ではなく、出現頻度に応じた配分でソート出力することができる。
請求項15の発明にかかる文書処理プログラムは、請求項14に記載の文書処理方法をコンピュータに実行させることを特徴とする。
請求項15の発明にかかる文書処理プログラムによれば、請求項14に記載の文書処理方法をコンピュータに実行させることができる。
本発明にかかる文書処理装置、文書処理方法および文書処理プログラムによれば、検索結果をユーザのニーズに合わせた順に提示することができるという効果を奏する。
以下に添付図面を参照して、この発明による文書処理装置、文書処理方法および文書処理プログラムの実施の形態を詳細に説明する。
(実施の形態)
図1は、この発明の実施の形態による文書処理装置のハードウエア構成の一例を示すブロック図である。図中、CPU101は装置全体を制御する。ROM102は基本入出力プログラムを記憶する。RAM103はCPU101のワークエリアとして使用される。
また、HDD(ハードディスクドライブ)104はCPU101の制御にしたがってHD(ハードディスク)105に対するデータのリード/ライトを制御する。HD105はHDD104の制御にしたがって書き込まれたデータを記憶する。
また、FDD(フレキシブルディスクドライブ)106はCPU101の制御にしたがってFD(フレキシブルディスク)107に対するデータのリード/ライトを制御する。FD107は、着脱自在であり、FDD106の制御にしたがって書き込まれたデータを記憶する。
また、CD−RWドライブ108はCPU101の制御にしたがってCD−RW(または、CD−R、CD−ROM)109に対するデータのリード/ライトを制御する。CD−RW109は着脱自在であり、CD−RWドライブ108の制御にしたがって書き込まれたデータを記憶する。
また、ディスプレイ110はカーソル、メニュー、ウィンドウ、あるいは文字や画像などの各種データを表示する。キーボード111は文字、数値、各種指示などの入力のための複数のキーを備える。マウス112は各種指示の選択や実行、処理対象の選択、マウスポインタの移動などを行う。
また、ネットワークI/F113は、通信ケーブル114を介してLANやWANなどのネットワークに接続され、当該ネットワークとCPU101とのインターフェースとして機能する。バス120は上記各部を接続する。
図2は、この発明の実施の形態にかかる文書処理装置の構成を機能的に示すブロック図である。文書処理装置は、検索部201、算出部202、判定部203、抽出部204、提示部205によって構成される。以上の各構成は、図1に示したCPU101が、ROM102からプログラムを読み出しRAM103をワークエリアとして使用することにより実現される。
検索部201は、複数の文書やウェブページなどから、検索語などのタームをクエリとして検索を実行する。または、ウェブページや文献などの文書に対して、ウェブページの場合はリンク先、文献の場合は引用文献を関連文書として検索する。この関連文書は、たとえばドメイン名や技術分野などそれぞれ属性を持っている。
算出部202は、検索部201による検索結果にしたがって演算を実行する。判定部203によって判定処理が実行された場合、この判定結果も参照する。たとえば、複数のタームをクエリとして、第1検索スコアを算出し、算出された第1検索スコアに、所定の平滑化度に関する値を加算することにより、第2検索スコアを求め、求めた第2検索スコアを提示部205に渡すこともできる。なお、このときの所定の平滑化度に関する値は、固定の値を前記複数のタームの数で割った値であってもよい。
また、算出部202は、検索部201で関連文書を検索した場合、検索された関連文書の数を求め、検索された関連文書の属性の数を求め、関連文書の数および属性の数を提示部205に渡すこともできる。
判定部203は、検索部201で検索された複数のページについて、スパムワードを含むページか否かを判定する。算出部202では、判定結果に応じて処理を実行し、スパムワードを含むと判定されたページについて、第1の算出式を用いて第1検索スコアを算出し、スパムワードを含まないと判定されたページについて、第2の算出式を用いて第2検索スコアを算出する。なお、第1の算出式は、前記クエリ内のターム数にしたがって条件を変化させることもできる。
複数のタームをクエリとして検索し、検索結果を得た場合、この複数のタームのそれぞれについて出現頻度に応じた割当量を保持し、保持された割当量に応じて、検索結果のうち提示するデータを特定し、特定された各タームについてのデータを、それぞれソートすることもできる。
抽出部204は、ソート対象となるデータ群から、所定の数のデータを抽出する。抽出部204でデータを検索した場合、ソート順に並べ替えて提示部205に渡すこともできる。なお、抽出されたデータのうち、所定のアクセス権を満たさないデータを除去し、残ったデータの範囲内で並べ替えを実行することもできる。
提示部205は、算出部202で得られた結果を提示する。たとえば、検索スコアを得た場合は検索スコアにしたがって文書をソートしたり必要な文書を抽出して提示したりする。また、検索スコアそのものを提示することもできる。
図3は、3つのクエリについての検索結果をレベリングした結果をグラフで示した説明図である。この図3を用いて、検索スコアリングの方法として、Leveling法を説明する。これは、ショートクエリにも強いTF−IDF法である。
ここでは、クエリを「J社」「太郎」「新発売」の3語として、それぞれの検索スコアを図3(a)に示す。グラフ301は、「J社」の検索スコアを示す。グラフ302は、「太郎」の検索スコアを示す。グラフ303は、「新発売」の検索スコアを示す。この場合、「J社」のスコアが大きすぎて、「太郎」のスコアと「新発売」のスコアを足しても「J社」1つのスコアよりも小さくなってしまう。
そこで、「J社」「太郎」「新発売」の各検索スコアに、グラフ310で示すようにスコアを加算する。式は、Qx=Wx+Wa/Nqとする。ここで、Qx:クエリ内の各タームのスコア、Wx:TF−IDFによる各タームのスコア、Wa:平滑化度を決める任意の値、Nq:クエリ内のターム数とする。それにより、「J社」「太郎」「新発売」の各検索スコアはそれぞれ同じずつ増える。この検索スコアを増やした状態を、図3(b)に示す。
その結果、ショートクエリの場合に各タームのスコアが公平に扱われる。また、ショートクエリの場合に検索結果の上位がAND条件に近くなる。また、複合語のダウンウェイティングなどと同様の効果が得られる。また、ロングクエリの場合には本来のTF−IDF法と同じスコアになる。
図4は、4つのクエリについての検索結果をレベリングした結果をグラフで示した説明図である。ここでは、クエリを「J社」「太郎」「新発売」「ワープロ」の4語として、それぞれの検索スコアを図4(a)に示す。グラフ401は、「J社」の検索スコアを示す。グラフ402は、「太郎」の検索スコアを示す。グラフ403は、「新発売」の検索スコアを示す。グラフ404は、「ワープロ」の検索スコアを示す。
この場合も図3と同様に、「J社」のスコアが大きすぎて、「太郎」のスコア、「新発売」のスコア、「ワープロ」のスコアを足しても「J社」1つのスコアよりも小さくなってしまう。そこで、図3に示した算出方法と同様に、式を、Qx=Wx+Wa/Nqとしてスコアを加算する。加算した結果を図4(b)に示す。スコアの加算分は、グラフ410で示される。ここで加算されるスコアは、図3の場合よりも少なくする。すなわち、クエリの数が増えるにつれて、加算するスコアを減らしていく。たとえば、クエリが3つの場合のグラフ310は、クエリが4つの場合のグラフ410よりも大きいということになる。
図5は、被リンクドメイン数を用いたスコアリング手法を説明する説明図である。この被リンクドメイン数を用いたスコアリング手法は、一般に調和平均法と呼ばれる式を利用することによって、検索スコア(Score)を次のように求める。Score=2/(1/N+1/M)とする。N:被リンク数、M:被リンクドメイン数、N>M、とする。
トップページ510には、リンクページ511、リンクページ512、リンクページ513がリンクしている。これらのリンクページ511〜513は、いずれも異なるドメインに属している。したがって、このトップページ510のスコアは、Score=2/(1/3+1/3)=3となる。
また、トップページ520には、リンクページ521、リンクページ522、リンクページ523がリンクしている。これらのリンクページ521〜523は、いずれも同じドメインに属している。したがって、このトップページ520のスコアは、Score=2/(1/3+1/1)=1.5となる。
また、リンクページ521は、トップページ510、リンクページ513がリンクしている。したがって、このトップページ521のスコアは、Score=2/(1/2+1/2)=2となる。
このように、トップページ510とトップページ520は、リンクされるページ数がともに3で同じであるにも関わらず、スコアは、トップページ510が3、トップページ520が1.5になる。また、リンクページ521のスコアは、リンクされるページ数がより少ない2であるにも関わらず、スコアは2となり、トップページ520よりもスコアが大きくなる。
図6は、異なるドメイン数にリンクされたサイトのスコアリングの比較を説明する説明図である。トップページ610には、リンクページ611、リンクページ612がリンクしている。これらのリンクページ611と612は、いずれも異なるドメインに属している。したがって、このトップページ610のスコアは、Score=2/(1/2+1/2)=2となる。
また、トップページ620には、リンクページ621〜リンクページ630がリンクしている。これらのリンクページ621〜630は、いずれも同じドメインに属している。したがって、このトップページ620のスコアは、Score=2/(1/10+1/1)=1.8となる。
このように、トップページ610のスコアは、リンクされるページ数が、トップページ620の10より少ない2であるにも関わらず、スコアは2となり、トップページ620のスコア1.8よりもスコアが大きくなる。
なお、自ドメイン被リンク数が多い場合は、局所的にトップページとする。また、他ドメイン被リンク数が多い場合は、一般的に参照されるページとする。また、被リンク数が多い場合は、評価(重要度)を高くする。また、被リンクドメイン数が多い場合は、他ページから評価を高くする。また、被リンク数が同数なら、被リンクドメイン数が多い方を優先する。また、被リンクドメイン数が同じなら、被リンク数が多い方を優先する。また、常にN>Mなので、被リンクドメイン数の増加率への影響が大きくなる。
図7は、検索結果の動的な高速ソート法を説明する説明図である。この検索結果の動的な高速ソート法は、Partial Sort(部分ソート)法という。ある一部のデータをソートしたい場合に、全体のデータ量が膨大なときに、データ全体をソートするのではソートに時間がかかってしまう。そこで、図7を用いて説明する高速ソート方法により、データ全体のうち一部をソートすることにより、ソート時間の短縮を図る。
まず、検索結果をソートする場合について説明する。データ701を挿入ソートとし、データ702をソート対象全データとする。データ702のうち、表示データ数分のデータであるデータ701を抽出して、データ701についてソートを実行する。データ701のデータ数はm個であり、データ702のデータ数はn個である。
データ702に含まれるそれぞれの値は、60、26、38、80、22、45、90、22、・・・である。m=7とした場合、このうち60、26、38、80、22、45、90がソート対象となり、処理後に次のデータへと移行していく。そして、最初から最後まで徐々にソート対象を移動していくことにより、データ702のうち必要な部分にシーケンシャルにアクセスしていく。
このときの時間計算量は、次の式で求めることができる。O(m,n)=O(m・n)≒O(n)。なお、O():時間計算量、m:表示データ数、n:全データ数(m<<n)である。このようにソートすることにより、データ数が極めて多いとき、一部だけソートしたい場合に高速となる。また、ソートできる部分集合は、上位からの場合と、ある値以下の場合と指定できる。具体的には、検索結果を複数ページで表示したい場合、1ページ目の末尾データのスコアを記録しておくことにより、2ページ目のソート対象をそのスコア以下のデータに絞り込むことができる。それにより、従来の部分ソートでは毎回キャッシュしておく必要があってデータ数が多い場合に都合が悪かったが、この場合、キャッシュせずに毎回条件を設定して検索しなおす方式にすることができ、それによりメモリを削減することができる。また、アクセス権チェックも挿入ソート後に行えば良いので高速化が期待できる。
図8は、アクセス権のチェックを伴う高速ソートを説明する説明図である。図7の場合と同様に、データ801を挿入ソートとし、データ802をソート対象全データとする。データ802のうち、表示データ数分のデータであるデータ801を抽出して、データ801についてソートを実行する。データ801のデータ数はm個であり、データ802のデータ数はn個である。
データ802に含まれるそれぞれの値は、60、26、38、80、22、45、90、22、13、・・・である。m=7とした場合、このうち60、26、38、80、22、45、90がソート対象となる。ここで、アクセス権があるデータとアクセス権がないデータを区別し、アクセス権があるデータのみについてソートを実行する。たとえば、x<50をソート条件とした場合、x≧50に該当するデータはアクセス権がないデータとして除外する。つまり、60、26、38、80、22、45、90のうち、26、38、22、45の4つについてソートを実行する。そして、処理後に次のデータへと移行していく。そして、最初から最後まで徐々にソート対象を移動していくことにより、データ802のうち必要な部分にシーケンシャルにアクセスしていく。
企業内文書等を検索する際、ユーザのアクセス権限によって閲覧可・不可の指定が必要だが、部分ソート法を適用時には、最小値xとの比較の後でアクセス権チェックを行えば良いため、検索結果すべてに対してアクセス権チェックを行う場合と比較して格段に速度向上が期待できる。
図9は、スパムタームの動的な抑制方法を説明する説明図である。この抑制方法により、検索されたウェブページのうち、スパムタームを含むページの検索スコアが相対的に小さくなるようにする。ここで、クエリが「ソフト 太郎 発売」の3語の場合について、図9(a)を用いて説明する。
グラフ901は、ページAの検索スコアを示すグラフであり、クエリの1つである「ソフト」を100語含んでいる。しかし、その他にスパムタームも複数含まれている。グラフ902は、ページBの検索スコアを示すグラフであり、クエリの1つである「ソフト」を5語、「太郎」を5語、「発売」を3語含んでいる。その他には特にスパムタームを含んでいない。グラフ903は、ページCの検索スコアを示すグラフであり、クエリの1つである「ソフト」を1語、「太郎」を7語、「発売」を5語含んでいる。その他には特にスパムタームを含んでいない。
グラフ901で示されるページAは、スパムタームを含むにもかかわらず、クエリの1つである「ソフト」を他のページB、ページCと比べて際立って多く含んでおり、その結果、そのままでは検索スコアがページB、ページCよりも大きくなってしまうという問題がある。しかし、スパムタームを多く含み、望まれないページであるページAの検索スコアを大きく求めてしまうことは望まれていない。そこで、図9(b)のグラフ910に示すように、グラフ901で示した検索スコアを減らす。それにより、ページAの検索スコアは、ページB、ページCよりも小さくなり、所望の計算結果を得ることができる。
このときの検索スコアは、次の式によって求める。log(TF)≦Thresのとき、Score=f(log(TF))、log(TF)>Thresのとき、Score=1とする。なお、Thres:閾値(eを底とする場合は通常2程度)、Score:各タームに対するドキュメントスコア、f():TFまたはlog(TF)を用いたスコア計算関数である。
すなわち、スパムとなる可能性の高い、頻度の高いタームを切り下げる。そして、インデキシング時ではなく、スコア計算時に切り下げる。そして、クエリ内のターム数や検索用途に応じて閾値を変更可能とする。また、ドキュメントサイズのばらつきに対して非常に強い。また、トピックや検索用途に応じて閾値を調整することもできる。このようにして、広告目的でメタタグなどに追加されたスパムタームスコアをスコア計算時に切り下げてスパムページを排除する。
なお、ターム数に連動する動的カットダウン法を採用する場合、次の式を用いて検索スコアを求める。log(TF)≦Thresのとき、Score=f(log(TF))、log(TF)>Thresのとき、Score=1とする。そして、N≦3:Thres=2、N≦10:Thres=3、N>10:Thres=4とする。なお、Thres:閾値(2〜4程度で動的に設定)、Score:各タームに対するドキュメントスコア、f():TFまたはlog(TF)を用いたスコア計算関数、N:クエリ内のターム数とする。
図10は、動的ワーキングセット設定方法を説明する説明図である。この設定方法により、検索結果の件数が多すぎる場合に、許容範囲を設定してその範囲内で検索結果を提示する。検索結果が多い場合、そのすべてを提示することは難しいので、件数を絞って提示する必要がある。ただし検索内容によって、多く表示したい場合、少なくてよい場合があるので、状況によって提示の仕方を変える必要がある。そこで、この検索結果の柔軟に対応させる方法を次に説明する。
クエリを「ソフト 太郎 発売」とした場合について説明する。検索結果1010は、各クエリのタームについての検索結果をそれぞれグラフで示したものである。一方、処理部1020において、前処理により、出現順インデックス1021をTF順にソートしたものを検索インデックス1022としてもっておく。そして、検索スコア1010と検索インデックス1022から、インデックス長1030を求める。このインデックス長1030は、各タームの特徴度に応じて決定される。
そして、このインデックス長1030に応じた検索結果を、各タームにそれぞれ割り当てる。検索結果1010に示すように、検索結果の量は「ソフト」が多く、「太郎」「発売」はそれに比べて少なく、ともに同じくらいである。これに対して、インデックス長1030は、「ソフト」を11、「太郎」を14、「発売」を6と設定している。そして、この異なるインデックス長1030に応じて、検索結果を割り当てる。
そして、この各タームに割り当てられた検索結果を文書ID順に配列し、マージする。すなわち、この検索結果をドキュメントIDの順にソートしてTF・IDFを計算する。その結果、ソート結果1040を得る。そして求められたソート結果1040には、パーシャルソートを実行し、スコア順にソートし直す。そして、検索結果1050を得る。
このときの設定値は、次のように求める。Tn=(IDFn/IDFmax)×(Wn/Nq)である。ここで、Tn=はクエリ内のタームでのワーキングセットである。また、Wnは、1タームで検索したときのワーキングセットである。また、Nqは、クエリ内のターム数である。また、IDFnは、クエリ内の各タームのIDF値である。また、IDFmaxは、クエリ内の最大IDF値である。IDF値とは単語の特徴度を示す値であり、単語の出現頻度を示す。
ここで、ショートクエリの場合にはワーキングセットは大きい値で処理される。一方、ロングクエリの場合は、ワーキングセットが小さくなり、高速に処理される。また、データベースがソートされている場合、TFの小さなものは除外することができる。また、IDFの大きさに応じて検索結果に寄与しない語はウィンドウズセットを小さくすることができる。また、検索結果上位になるように、影響を与えることなく下位の結果を除外することができる。
図11は、レベリング法を用いた検索スコアリング処理を説明するフローチャートである。この図11に示した処理を実行することにより、図3および図4に示した結果を得る。まず、検索を実行することによりこの処理を開始する。たとえば、「ジャストシステムが一太郎を発売」という文章を検索する。
まず、クエリを解析する(ステップS1)。クエリを解析することにより、文章をtermごとに分ける。その結果、「ジャストシステム」「一太郎」「発売」というクエリが得られる。次に、クエリを集計する(ステップS2)。集計することにより、たとえばこの場合はクエリの数は3つと分かる。
次に、検索を実行する(ステップS3)。検索の実行にあたっては検索エンジンインデックスを参照する。それにより、termごとの検索結果を得ることができる。次に、スコアを計算する(ステップS4)。このスコアは、TF−TDFのスコアにレベルのスコアを加算することにより計算することができる。
たとえば、TF−TDFのスコアを、「ジャストシステム」が12、「一太郎」が23、「発売」が5であるとし、加算するスコアの合計を100とする。termは3つなので、100を3で割った値が、各termのスコアとなる。その結果、「ジャストシステム」が12+100÷3=45.3、「一太郎」が23+100÷3=56.3、「発売」が5+100÷3=38.3、となる。
そして、検索結果を表示する(ステップS5)。この検索結果は、文書リストとして表示する。たとえば、「新製品発売情報」「パソコンマガジン」「口コミ情報局」・・・、という文書が検索結果として得られた場合、各文書について検索結果を表示する。そして、一連の処理を終了する。
図12は、被リンクドメイン数を用いたスコアリング処理を説明するフローチャートである。この図12に示した処理を実行することにより、図5および図6に示した結果を得る。まず、検索を実行することによりこの処理を開始する。
まず、クエリを解析する(ステップS11)。クエリを解析することにより、文章をtermごとに分ける。次に、クエリを集計する(ステップS12)。集計することにより、たとえばこの場合はクエリの数は3つと分かる。
次に、検索を実行する(ステップS13)。検索の実行にあたっては検索エンジンインデックスを参照する。それにより、termごとの検索結果を得ることができる。次に、スコアを計算する(ステップS14)。このスコアは、TF−TDFのスコアにレベルのスコアを加算することにより計算することができる。
次に、被リンク数を集計する(ステップS15)。図5の例では、トップページ520の被リンク数は3つなので、3という数字が集計される。次に、被リンクドメイン数を集計する(ステップS16)。図5の例では、トップページ520の被ドメインリンク数は1つなので、1という数字が集計される。
次に、被リンクスコアを計算して加算する(ステップS17)。上述のように、Score=2/(1/N+1/M)によって求める。なお、N:被リンク数、M:被リンクドメイン数、N>M、とする。トップページ520の場合、スコアは、Score=2/(1/3+1/1)=1.5となる。そして、検索結果を表示する(ステップS18)。この検索結果は、文書リストとして表示する。そして、一連の処理を終了する。
図13は、高速結果の動的な高速ソート法を説明するフローチャートである。この図13に示した処理を実行することにより、図7および図8に示した結果を得る。まず、検索を実行することによりこの処理を開始する。
まず、クエリを解析する(ステップS21)。クエリを解析することにより、文章をtermごとに分ける。次に、クエリを集計する(ステップS22)。集計することにより、たとえばこの場合はクエリの数は3つと分かる。次に、検索を実行する(ステップS23)。検索の実行にあたっては検索エンジンインデックスを参照する。それにより、termごとの検索結果を得ることができる。
次に、スコアを計算する(ステップS24)。このスコアは、TF−TDFのスコアにレベルのスコアを加算することにより計算することができる。次に、被リンク数を集計する(ステップS25)。そして、被リンクドメイン数を集計する(ステップS26)。そして、被リンクスコアを計算して加算する(ステップS27)。
次に、スコアを一時配列へ列挙する(ステップS28)。この一時配列は、図7においてデータ702、図8においてデータ802として示したとおりである。そして、この一時配列を、二次配列を使って部分ソートを行う(ステップS29)。この二次配列は、図7においてデータ701、図8においてデータ801として示したとおりである。そして、検索結果を表示する(ステップS30)。この検索結果は、文書リストとして表示する。そして、一連の処理を終了する。
図14は、スパムタームの動的な抑制方法を説明するフローチャートである。この図14に示した処理を実行することにより、図9に示した結果を得る。まず、検索を実行することによりこの処理を開始する。
まず、クエリを解析する(ステップS31)。クエリを解析することにより、文章をtermごとに分ける。次に、クエリを集計する(ステップS32)。集計することにより、たとえばこの場合はクエリの数は3つと分かる。次に、検索を実行する(ステップS33)。検索の実行にあたっては検索エンジンインデックスを参照する。それにより、termごとの検索結果を得ることができる。
次に、動的なスパム度によりTFを切り下げる(ステップS34)。たとえば、スパムワードが多く含まれる文章については、TFを切り下げることにより、スコアが低く求められるようにする。スパムワードが含まれない文書は、逆に引き下げられない。
次に、スコアを計算する(ステップS35)。このスコアは、TF−TDFのスコアにレベルのスコアを加算することにより計算することができる。次に、被リンク数を集計する(ステップS36)。そして、被リンクドメイン数を集計する(ステップS37)。そして、被リンクスコアを計算して加算する(ステップS38)。
次に、スコアを一時配列へ列挙する(ステップS39)。そして、この一時配列を、二次配列を使って部分ソートを行う(ステップS40)。こそして、検索結果を表示する(ステップS41)。この検索結果は、文書リストとして表示する。そして、一連の処理を終了する。
図15は、動的なワーキングセット設定方法を説明するフローチャートである。この図15に示した処理を実行することにより、図10に示した結果を得る。まず、検索を実行することによりこの処理を開始する。
まず、クエリを解析する(ステップS51)。クエリを解析することにより、文章をtermごとに分ける。次に、クエリを集計する(ステップS52)。集計することにより、たとえばこの場合はクエリの数は3つと分かる。次に、term数に応じたWorkingSetで検索を実行する(ステップS53)。検索の実行にあたっては検索エンジンインデックスを参照する。それにより、termごとの検索結果を得ることができる。
次に、動的なスパム度によりTFを切り下げる(ステップS54)。たとえば、スパムワードが多く含まれる文章については、TFを切り下げることにより、スコアが低く求められるようにする。スパムワードが含まれない文書は、逆に引き下げられない。
次に、スコアを計算する(ステップS55)。このスコアは、TF−TDFのスコアにレベルのスコアを加算することにより計算することができる。次に、被リンク数を集計する(ステップS56)。そして、被リンクドメイン数を集計する(ステップS57)。そして、被リンクスコアを計算して加算する(ステップS58)。
次に、スコアを一時配列へ列挙する(ステップS59)。そして、この一時配列を、二次配列を使って部分ソートを行う(ステップS60)。こそして、検索結果を表示する(ステップS61)。この検索結果は、文書リストとして表示する。そして、一連の処理を終了する。
以上説明したように、文書処理装置、文書処理方法および文書処理プログラムによれば、検索結果をユーザのニーズに合わせた順に提示することができるという効果を奏する。
なお、本実施の形態で説明した文書処理方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。このプログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVD等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。またこのプログラムは、インターネット等のネットワークを介して配布することが可能な伝送媒体であってもよい。
以上のように、本発明にかかる文書処理装置、文書処理方法および文書処理プログラムは、クエリを用いた検索の検索スコアを求める文書処理において有用である。
この発明の実施の形態による文書処理装置のハードウエア構成の一例を示すブロック図である。 この発明の実施の形態にかかる文書処理装置の構成を機能的に示すブロック図である。 3つのクエリについての検索結果をレベリングした結果をグラフで示した説明図である。 4つのクエリについての検索結果をレベリングした結果をグラフで示した説明図である。 被リンクドメイン数を用いたスコアリング手法を説明する説明図である。 異なるドメイン数にリンクされたサイトのスコアリングの比較を説明する説明図である。 検索結果の動的な高速ソート法を説明する説明図である。 アクセス権のチェックを伴う高速ソートを説明する説明図である。 スパムタームの動的な抑制方法を説明する説明図である。 動的ワーキングセット設定方法を説明する説明図である。 レベリング法を用いた検索スコアリング処理を説明するフローチャートである。 被リンクドメイン数を用いたスコアリング処理を説明するフローチャートである。 高速結果の動的な高速ソート法を説明するフローチャートである。 スパムタームの動的な抑制方法を説明するフローチャートである。 動的なワーキングセット設定方法を説明するフローチャートである。
符号の説明
101 CPU
102 ROM
103 RAM
104 HDD
105 HD
106 FDD
107 FD
108 CD−RWドライブ
109 CD−RW
110 ディスプレイ
111 キーボード
112 マウス
113 ネットワークI/F
114 通信ケーブル
120 バス
201 検索部
202 算出部
203 判定部
204 抽出部
205 提示部

Claims (15)

  1. 複数のタームをクエリとして、第1検索スコアを算出する第1算出手段と、
    前記第1算出手段によって算出された第1検索スコアに、所定の平滑化度に関する値を加算することにより、第2検索スコアを求める第2算出手段と、
    前記第2算出手段によって求められた第2検索スコアを、前記複数のタームのそれぞれの検索スコアとして提示する提示手段と、
    を備えることを特徴とする文書処理装置。
  2. 所定の平滑化度に関する値は、固定の値を前記複数のタームの数で割った値であることを特徴とする請求項1に記載の文書処理装置。
  3. 所定の文書との間で関連付けされた、それぞれ属性をもつ複数の関連文書を検索する検索手段と、
    前記検索手段によって検索された関連文書の数を求める文書数算出手段と、
    前記検索手段によって検索された関連文書の属性の数を求める属性数算出手段と、
    前記属性数算出手段によって求められた関連文書の数および前記属性数算出手段によって求められた属性の数に基づいて、検索スコアを求めて提示する提示手段と、
    を備えることを特徴とする文書処理装置。
  4. 前記提示手段は、前記関連文書の数の逆数と前記属性の数の逆数を加算した値に基づいて前記検索スコアを求めることを特徴とする請求項3に記載の文書処理装置。
  5. ソート対象となるデータ群から、所定の数のデータを抽出する抽出手段と、
    前記抽出手段によって抽出されたデータの、ソート順に並べ替える並べ替え手段と、
    前記並べ替え手段によって並べ替えられた順に、前記抽出手段によって抽出されたデータを提示する提示手段と、
    を備えることを特徴とする文書処理装置。
  6. 前記並べ替え手段は、前記抽出手段によって抽出されたデータのうち、任意の条件を満たさないデータを除去し、残ったデータの範囲内で並べ替えを実行することを特徴とする請求項5に記載の文書処理装置。
  7. 所定のクエリにしたがって複数のページを検索する検索手段と、
    前記検索手段によって検索された複数のページについて、スパムワードを含むページか否かを判定する判定手段と、
    前記判定手段によってスパムワードを含むと判定されたページについて、第1の算出式を用いて第1検索スコアを算出し、スパムワードを含まないと判定されたページについて、第2の算出式を用いて第2検索スコアを算出する算出手段と、
    前記算出手段によって算出された第1検索スコアおよび第2検索スコアを提示する提示手段と、
    を備えることを特徴とする文書処理装置。
  8. 前記第1の算出式は、前記クエリ内のターム数にしたがって条件を変化させることを特徴とする請求項7に記載の文書処理装置。
  9. 複数のタームをクエリとして検索して検索結果を得る検索手段と、
    前記複数のタームのそれぞれについて出現頻度に応じた割当量を保持する保持手段と、
    前記保持手段によって保持された割当量に応じて、前記検索手段によって得られた検索結果のうち提示するデータを特定する特定手段と、
    前記特定手段によって特定された各タームについてのデータを、それぞれソートするソート手段と、
    を備えることを特徴とする文書処理装置。
  10. 複数のクエリについて、第1検索スコアを算出する第1算出工程と、
    前記第1算出工程によって算出された第1検索スコアに、所定の平滑化度に関する値を加算することにより、第2検索スコアを求める第2算出工程と、
    前記第2算出工程によって求められた第2検索スコアを、前記複数のクエリのそれぞれの検索スコアとして提示する提示工程と、
    を含むことを特徴とする文書処理方法。
  11. 所定の文書との間で関連付けされた、それぞれ属性をもつ複数の関連文書を検索する検索工程と、
    前記検索工程によって検索された関連文書の数を求める文書数算出工程と、
    前記検索工程によって検索された関連文書の属性の数を求める属性数算出工程と、
    前記属性数算出工程によって求められた関連文書の数および前記属性数算出工程によって求められた属性の数に基づいて、検索スコアを求めて提示する提示工程と、
    を含むことを特徴とする文書処理方法。
  12. ソート対象となるデータ群から、所定の数のデータを抽出する抽出工程と、
    前記抽出工程によって抽出されたデータの、ソート順に並べ替える並べ替え工程と、
    前記並べ替え工程によって並べ替えられた順に、前記抽出工程によって抽出されたデータを提示する提示工程と、
    を含むことを特徴とする文書処理方法。
  13. 所定のクエリに該当する複数のページを検索する検索工程と、
    前記検索工程によって検索された複数のページについて、スパムワードを含むページか否かを判定する判定工程と、
    前記判定工程によってスパムワードを含むと判定されたページについて、第1の算出式を用いて第1検索スコアを算出し、スパムワードを含まないと判定されたページについて、第2の算出式を用いて第2検索スコアを算出する算出工程と、
    前記算出工程によって算出された第1検索スコアおよび第2検索スコアを提示する提示工程と、
    を含むことを特徴とする文書処理方法。
  14. 複数のタームをクエリとして検索して検索結果を得る検索工程と、
    前記複数のタームのそれぞれについて出現頻度に応じた割当量を保持する保持工程と、
    前記保持工程によって保持された割当量に応じて、前記検索工程によって得られた検索結果のうち提示するデータを特定する特定工程と、
    前記特定工程によって特定された各タームについてのデータを、それぞれソートするソート工程と、
    を含むことを特徴とする文書処理方法。
  15. 請求項14に記載の文書処理方法をコンピュータに実行させることを特徴とする文書処理プログラム。
JP2005303714A 2005-10-18 2005-10-18 文書処理装置、文書処理方法および文書処理プログラム Pending JP2007114903A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005303714A JP2007114903A (ja) 2005-10-18 2005-10-18 文書処理装置、文書処理方法および文書処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005303714A JP2007114903A (ja) 2005-10-18 2005-10-18 文書処理装置、文書処理方法および文書処理プログラム

Publications (1)

Publication Number Publication Date
JP2007114903A true JP2007114903A (ja) 2007-05-10

Family

ID=38097035

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005303714A Pending JP2007114903A (ja) 2005-10-18 2005-10-18 文書処理装置、文書処理方法および文書処理プログラム

Country Status (1)

Country Link
JP (1) JP2007114903A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010117893A (ja) * 2008-11-13 2010-05-27 Nippon Telegr & Teleph Corp <Ntt> 大規模webサイトの評価装置、大規模webサイトの評価方法および大規模webサイトの評価プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0944520A (ja) * 1995-08-03 1997-02-14 Nippon Telegr & Teleph Corp <Ntt> 情報検索方法および装置
JPH10105561A (ja) * 1996-09-03 1998-04-24 Toshiba Corp 検索条件生成装置、検索条件生成方法、文書検索装置及び文書検索用媒体
JP2005063298A (ja) * 2003-08-19 2005-03-10 Fuji Xerox Co Ltd 文書処理装置および方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0944520A (ja) * 1995-08-03 1997-02-14 Nippon Telegr & Teleph Corp <Ntt> 情報検索方法および装置
JPH10105561A (ja) * 1996-09-03 1998-04-24 Toshiba Corp 検索条件生成装置、検索条件生成方法、文書検索装置及び文書検索用媒体
JP2005063298A (ja) * 2003-08-19 2005-03-10 Fuji Xerox Co Ltd 文書処理装置および方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010117893A (ja) * 2008-11-13 2010-05-27 Nippon Telegr & Teleph Corp <Ntt> 大規模webサイトの評価装置、大規模webサイトの評価方法および大規模webサイトの評価プログラム

Similar Documents

Publication Publication Date Title
JP5492187B2 (ja) 編集距離および文書情報を使用する検索結果順位付け
JP4698737B2 (ja) ドキュメント利用統計を用いたランキング関数
US7769771B2 (en) Searching a document using relevance feedback
US7653623B2 (en) Information searching apparatus and method with mechanism of refining search results
US8316007B2 (en) Automatically finding acronyms and synonyms in a corpus
KR100672277B1 (ko) 개인화 검색 방법 및 검색 서버
US20070288498A1 (en) Interface for managing search term importance relationships
US20090299978A1 (en) Systems and methods for keyword and dynamic url search engine optimization
JP5187313B2 (ja) 文書重要度算出システム、文書重要度算出方法およびプログラム
US10282358B2 (en) Methods of furnishing search results to a plurality of client devices via a search engine system
JP2004213675A (ja) 構造化ドキュメントの検索
JP2004054631A (ja) 情報検索システム、情報検索方法、html文書の構造解析方法及びプログラム
US20050144193A1 (en) Systems and methods for determining document freshness
JP2005115514A (ja) データベース検索システム及びその検索方法並びにプログラム
JP2009516307A (ja) ランクベースの応答セットのクラスタ化のための方法および装置
JPH11110415A (ja) 情報検索方法,情報検索システムおよび一組の文書から情報を検索するための命令を記録したコンピュータ読み取り可能な記録媒体
JP2006120126A (ja) キーワード抽出装置、キーワード抽出プログラム
JP2000090111A (ja) 情報検索エージェント装置及び情報検索エージェント装置の機能を発揮するプログラムを記録したコンピュータ読み取り可能な記録媒体
JP5194731B2 (ja) 文書関連度算出システム、文書関連度算出方法および文書関連度算出プログラム
JP2004054588A (ja) 文書検索装置、文書検索方法およびその方法をコンピュータに実行させるプログラム
JP4796527B2 (ja) ドキュメント絞り込み検索装置、方法及びプログラム
JP4445849B2 (ja) ファイル検索方法、ファイル検索装置、および、ファイル検索プログラム
JP2012141681A (ja) クエリセグメント位置決定装置
JP2012104051A (ja) 文書インデックス作成装置
JP2007114903A (ja) 文書処理装置、文書処理方法および文書処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081016

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101214

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110426