JP2020154395A

JP2020154395A - 情報処理装置及びプログラム

Info

Publication number: JP2020154395A
Application number: JP2019049750A
Authority: JP
Inventors: 真之小林; Masayuki Kobayashi
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2019-03-18
Filing date: 2019-03-18
Publication date: 2020-09-24
Also published as: US11275799B2; US20200301981A1

Abstract

【課題】索引データを作成する際に参照されるコンテンツの範囲を制限する。【解決手段】情報処理装置１０は、インデックスの作成対象となるコンテンツを取得するコンテンツ取得部１１と、取得されたコンテンツの中から用語を抽出する用語抽出部１２と、抽出された用語の中からインデックスに含める用語として不要な不要用語を選出して、不要用語記憶部１８に保存する不要用語選出処理部１３と、取得されたコンテンツを所定のブロックに分割するコンテンツ分割部１４と、不要用語記憶部１８に保存されている不要用語を参照して、各ブロックにおいてコンテンツのインデックスの作成の際に参照させない範囲を決定する削除範囲決定部１５と、削除範囲決定部１５により決定された削除範囲を、取得されたコンテンツから削除することによってインデックス作成用のコンテンツを生成するインデックス作成用コンテンツ生成部１６と、を有する。【選択図】図１

Description

本発明は、情報処理装置及びプログラムに関する。

データベース検索のために、インデクシングにより文書から当該文書の特徴を表すキーワードを抽出することでインデックスを事前に作成しておく場合がある。クローラーは、文書をクロールする際にインデックスを検索することで検索時間を短縮することが可能となる。

なお、前述した文書として、ＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）で記述されているコンテンツがウェブサーバ上に存在するが、このコンテンツを解析することでコンテンツの内容を部分的に加工する技術が提案されている（例えば、特許文献１）。

特開２０１０−２５７４１２号公報

しかしながら、コンテンツ全体を参照して索引データ（上記「インデックス」）を作成しようとすると、当該コンテンツの特徴を表さない用語等の情報がコンテンツから抽出され索引データに含まれてしまう場合がある。

本発明は、索引データを作成する際に参照されるコンテンツの範囲を制限することを目的とする。

本発明に係る情報処理装置は、索引データの作成対象となるコンテンツを取得する取得手段と、前記コンテンツを所定のブロックに分割する分割手段と、前記コンテンツに含まれている用語のうち前記索引データに登録させない用語としての不要用語が指定された不要用語情報を参照して、前記各ブロックにおいて前記コンテンツの索引データの作成の際に参照させない範囲を決定する決定手段と、を有することを特徴とする。

また、前記決定手段は、前記コンテンツに含まれている不要用語の出現頻度を前記ブロック毎に積算し、前記各ブロックにおける前記不要用語の出現頻度に応じて当該ブロックにおける前記範囲を決定することを特徴とする。

また、前記範囲は、前記ブロック全体又は一部であることを特徴とする。

また、前記コンテンツに含まれている用語の中からユーザーにより選択された用語を不要用語とする前記不要用語情報を生成する生成手段を有することを特徴とする。

また、前記生成手段は、前記コンテンツに含まれている用語のうち出現頻度が所定の閾値以上の用語を不要用語の候補としてユーザーに提示することを特徴とする。

また、前記生成手段は、不要用語と共に当該不要用語の重み係数をユーザーに指定させ、前記決定手段は、前記各ブロックにおける前記不要用語の出現頻度に重み係数を乗算して算出された値に応じて当該ブロックにおける前記範囲を決定することを特徴とする。

本発明に係るプログラムは、コンピュータを、全文検索の実行の際に参照される索引データの作成対象となるコンテンツを取得する取得手段、前記コンテンツを所定のブロックに分割する分割手段、前記コンテンツに含まれている用語のうち前記索引データに登録させない用語としての不要用語が指定された不要用語情報を参照して、前記各ブロックにおいて前記コンテンツの索引データの作成の際に参照させない範囲を決定する決定手段、として機能させる。

請求項１に記載の発明によれば、索引データを作成する際に参照されるコンテンツの範囲を制限することができる。

請求項２に記載の発明によれば、不要言語の出現頻度によってコンテンツの索引の作成の際に参照させない範囲を異ならせることができる。

請求項３に記載の発明によれば、ブロック全体又はブロック内の一部のみをコンテンツの索引の作成の際に参照させない範囲とすることができる。

請求項４に記載の発明によれば、ユーザーに不要用語を指定させることができる。

請求項５に記載の発明によれば、出現頻度の多い用語が不要言語として選出させることができる。

請求項６に記載の発明によれば、不要用語の出現頻度に加えて重み係数によってコンテンツの索引の作成の際に参照させない範囲を決定することができる。

請求項７に記載の発明によれば、索引データを作成する際に参照されるコンテンツの範囲を制限することができる。

本発明に係る情報処理装置の一実施の形態を示したブロック構成図である。実施の形態１におけるインデックス作成用コンテンツ生成処理を示すフローチャートである。実施の形態１において処理対象とするコンテンツの一例を示す図である。実施の形態１において不要用語をユーザーに指定させる場合の画面表示例を示す図である。実施の形態１において不要用語をブロック毎に集計した場合の例を示す図である。実施の形態１においてコンテンツの削除範囲を決める際に参照する情報をテーブル形式にて示す図である。実施の形態１において図３に示すコンテンツの変更後の内容を示す図である。実施の形態２において不要用語をユーザーに指定させる場合の画面表示例を示す図である。実施の形態２において不要用語をブロック毎に集計した場合の例を示す図である。実施の形態２においてコンテンツの削除範囲を決める際に参照する情報をテーブル形式にて示す図である。

以下、図面に基づいて、本発明の好適な実施の形態について説明する。

実施の形態１．
図１は、本発明に係る情報処理装置の一実施の形態を示したブロック構成図である。本実施の形態における情報処理装置１０は、汎用的なパーソナルコンピュータ（ＰＣ）等のコンピュータで実現できる。つまり、情報処理装置１０は、ＣＰＵ、ＲＯＭ、ＲＡＭ、ハードディスクドライブ（ＨＤＤ）等の記憶手段、また処理対象とするコンテンツをネットワーク経由で取得する場合、ネットワークインタフェースを有する。コンテンツをＣＤ−ＲＯＭやＵＳＢメモリ等のコンピュータ読み取り可能な記録媒体から読み取る場合には、そのための外部インターフェースを備える必要がある。また、情報処理装置１０は、ユーザーと情報を授受する必要があるので、そのためにユーザーインタフェース、例えば入力手段としてマウスやキーボードや表示手段としてのディスプレイを有する。あるいは、ネットワークを介してユーザーと情報の授受を行う場合にはネットワークインタフェースを備えてもよい。

図１に示すように、本実施の形態における情報処理装置１０は、コンテンツ取得部１１、用語抽出部１２、不要用語選出処理部１３、コンテンツ分割部１４、削除範囲決定部１５、インデックス作成用コンテンツ生成部１６、インデックス作成部１７及び不要用語記憶部１８を有している。なお、本実施の形態の説明に用いない構成要素については、図から省略している。コンテンツ取得部１１は、インデックスの作成対象となるコンテンツを取得する。用語抽出部１２は、取得されたコンテンツの中から用語を抽出する。不要用語選出処理部１３は、抽出された用語の中から不要用語を選出し、不要用語記憶部１８に保存する。インデックスには、コンテンツの特徴を表す用語が抽出されて含まれることになるが、「不要用語」というのは、インデックスに含める用語として不要な用語、換言するとインデックスに含めたくない用語であることからインデックスに登録させない用語のことをいう。コンテンツ分割部１４は、取得されたコンテンツを所定のブロックに分割する。削除範囲決定部１５は、不要用語記憶部１８に保存されている不要用語情報を参照して、各ブロックにおいてコンテンツの索引データの作成の際に参照させない範囲を決定する。インデックス作成用コンテンツ生成部１６は、削除範囲決定部１５により決定された削除範囲を、取得されたコンテンツから削除することによってインデックス作成用のコンテンツを生成する。インデックス作成部１７は、取得されたコンテンツのインデックスを作成する際に、生成されたインデックス作成用のコンテンツを処理対象としてインデックスを作成する。

ここで、「インデックス」というのは、コンテンツへの検索を高速にするために利用される索引データのことをいう。インデックスは、各コンテンツに対応させて作成される。コンテンツの一形態として文書があるが、文書を検索する方法として全文検索がある。全文検索では、目的とする文書を検索する際、文書の内容全体に含まれる用語等の文字列を検索する。ただ、文書を格納するデータベースに膨大な数の文書が格納されている場合において文書の内容全体を検索すると検索時間が膨大になってしまう可能性がある。そこで、インデクシングにより文書から当該文書の特徴を表す用語を抽出し別途格納しておく、この抽出した用語を格納するのがインデックスであり、索引型（「インデックス型」ともいう）の全文検索のために予め作成される。そして、クローラーは、索引型の全文検索において文書をクロールする際にインデックスを検索対象とすることで検索時間を短縮することができるようになる。

情報処理装置１０における各構成要素１１〜１７は、情報処理装置１０を形成するコンピュータと、コンピュータに搭載されたＣＰＵで動作するプログラムとの協調動作により実現される。また、不要用語記憶部１８は、情報処理装置１０に搭載されたＨＤＤにて実現される。あるいは、ＲＡＭ又は外部にある記憶手段をネットワーク経由で利用してもよい。

また、本実施の形態で用いるプログラムは、通信手段により提供することはもちろん、ＣＤ−ＲＯＭやＵＳＢメモリ等のコンピュータ読み取り可能な記録媒体に格納して提供することも可能である。通信手段や記録媒体から提供されたプログラムはコンピュータにインストールされ、コンピュータのＣＰＵがプログラムを順次実行することで各種処理が実現される。

本実施の形態において特徴的なことは、インデックスの作成対象とするコンテンツのインデックスを作成する際に、コンテンツ全体を参照範囲とするのではなく、不要用語を含む位置及び数によって参照しない範囲を決定し、その決定した範囲を参照させないようにしたことである。このために、インデックスの作成対象とするコンテンツを、取得されたコンテンツをそのまま用いるのではなくインデックス作成用のコンテンツを別途生成するようにしているが、以下、このインデックス作成用のコンテンツを生成する処理について図２に示すフローチャートを用いて説明する。

コンテンツ取得部１１は、ユーザーにより指定されたインデックスの作成対象となるコンテンツを取得する（ステップ１０１）。図３は、この取得したコンテンツの記載例を示す図である。本実施の形態において取り扱うコンテンツは、図３に例示するように、章立てされているなど、複数のブロックに分割可能な内容で記述されている文書である。このように、本実施の形態では、コンテンツとして、ＨＴＭＬにて記述されたコンテンツに限定することはなく、文書作成や表計算あるいはプレゼンテーションアプリケーションなどによって作成される、文字列を含むコンテンツであればよい。

続いて、用語抽出部１２は、取得されたコンテンツの中から用語を抽出する（ステップ１０２）。コンテンツに含まれる全ての用語を抽出するようにしてもよいが、本実施の形態における用語抽出部１２は、コンテンツにおいて出願頻度の高い用語を抽出する。本実施の形態では、出願頻度の高いと推定できる閾値を予め設定しておく。用語抽出部１２は、コンテンツ全体において各用語の出現回数を積算し、その積算値が閾値以上となった用語を不要用語の候補として抽出する。

用語抽出部１２が用語を抽出すると、不要用語選出処理部１３は、抽出された用語の中から不要用語を選出する（ステップ１０３）。本実施の形態では、次のようにして不要用語を選出する。

図４は、ユーザーが使用する端末装置（図示せず）又は情報処理装置１０に画面表示されるテーブルを示す図である。このテーブルには、用語抽出部１２が抽出した各用語に対応させて、「不要」及び「正規表現指定」の各項目を設定するための欄が設けられている。「不要」には、ユーザーに不要用語として選択させるためのチェックボックスが設けられている。「正規表現指定」は、用語抽出部１２が抽出した用語が他の用語と共通した形式にて記述されている場合、その共通する記載形式（つまり、正規表現）をユーザーが指定するための欄である。図４には、正規表現の指定の例を示すために、ページ番号の記載例が示されている。例えば、コンテンツのフッター等にページ番号が記述されている場合、ユーザーは、そのページ番号の正規表現を入力指定する。このユーザーが指定した正規表現に合致する用語も不要用語とみなす。従って、“（ｐ．８６）”以外のページも不要用語となる。

不要用語選出処理部１３は、用語抽出部１２が抽出した用語を、コンテンツにおける登場順にリスト表示してもよいし、出願頻度の高い順に並び替えてリスト表示してもよい。そして、図４に示す用語「本書」及び「（ｐ．８６）」のように、ユーザーは、提示された用語の中から不要用語として取り扱いたい用語のチェックボックスにチェックを付ける。

このように、本実施の形態における不要用語選出処理部１３は、用語抽出部１２が抽出した用語をリスト表示し、そのリスト表示された用語の中からユーザーに選択された用語を不要用語として選出する。そして、選出した不要用語を含む不要用語情報を生成して不要用語記憶部１８に保存する。

また、コンテンツ取得部１１によりコンテンツが取得されると、コンテンツ分割部１４は、取得されたコンテンツを所定のブロックに分割する（ステップ１０４）。本実施の形態では、コンテンツが章立てされているので、章ごとにブロック分割することにする。もちろん、分割の方法は、前述した章立てに限らず、コンテンツの種類（例えば、契約書、仕様書、論文等）や表示形式に応じて、節毎、項毎、段落毎、段組みされている場合の段区切り毎、ページ毎、スライド毎等、所定のブロックに分割してよい。

続いて、削除範囲決定部１５は、不要用語記憶部１８に保存されている不要用語情報を参照して、分割したブロック毎に、コンテンツインデックスの作成の際に参照させない範囲を決定する。なお、不要用語の選出（ステップ１０２，１０３）とコンテンツのブロック分割（ステップ１０４）は、この削除範囲決定部１５が処理の実行を開始するまでに終了させておけばよい。従って、ブロック分割を不要用語の選出より前に実行してよいし、不要用語の選出と同時並行して実行してもよい。

削除範囲決定部１５は、まず、コンテンツに含まれる不要用語をそれぞれ積算し、ブロック毎に集計する（ステップ１０５）。この集計結果を図５に示す。このとき、ブロック内において各不要用語の記述位置を把握しておく。続いて、削除範囲決定部１５は、全てのブロックに対し、ブロック毎に以下の処理を繰り返し実行する。

図６は、コンテンツから削除する範囲を決める際に参照するテーブルを示す図である。図６に示す設定例によると、第１閾値として３が、第２閾値として５が、それぞれ設定されている。

まず、処理対象とするブロックに含まれる不要用語数を図５に示すテーブルから取り出し、その取り出した不要用語数が第１閾値より小さい場合（ステップ１０６でＹ）、そのブロックには、不要用語がそれほど記述されていないため、何も変更する必要がないと判断する（ステップ１０８）。

また、当該ブロックの不要用語数が第２閾値以上の場合（ステップ１０７でＹ）、そのブロックには、不要用語は数多く含まれているため、ブロック全体を削除対象とする（ステップ１０９）。換言すると、コンテンツに含まれる当該ブロック全体を削除範囲とする。一方、いずれにも該当しない場合、すなわち当該ブロックの不要用語数が第１閾値以上であり、かつ第２閾値より小さい場合（ステップ１０６でＮ、ステップ１０７でＮ）、当該ブロックは、不要用語がある程度記述されているものの、ブロック全体としては数多く記述されていないと判断して、ブロックに含まれている記述のうち不要用語が含まれているパラグラフ、例えば、一文、一節あるいは一段落を削除対象とする（ステップ１１０）。すなわち、コンテンツへの記述内容を部分的に選択して削除範囲とする。

なお、分割するブロックの範囲によってブロックに含まれる用語の数が異なってくる。ブロックの範囲が相対的に狭いと不要用語の出現頻度は相対的に低くなり、ブロックの範囲が相対的に広いと不要用語の出現頻度は相対的に高くなる。従って、インデックス作成者等のユーザーは、ブロックの分割単位に応じて前述した第１閾値及び第２閾値を適切に設定する必要がある。

前述した処理を実施していないブロックがあると（ステップ１１１でＹ）、そのブロックを処理対象として（ステップ１１２）、上記処理を実行する。そして、全てのブロックに対して処理を実行すると（ステップ１１１でＮ）、インデックス作成用コンテンツ生成部１６は、削除範囲決定部１５により決定された削除範囲を、取得されたコンテンツから削除することによってインデックス作成用のコンテンツを生成する（ステップ１１３）。このように、本実施の形態においては、インデックスを作成する際に参照する範囲をコンテンツ全体から変更することが可能となる。

図７は、前述したインデックス作成用コンテンツ生成処理によって作成されたコンテンツの内容例を示す図である。本実施の形態では、章毎にブロック分割した例を示しているが、図５，６に示す数値例によると、第１章「１．はじめに」のブロックには、不要用語が５と第２閾値（＝５）以上含まれていることから、第１章全体が削除される。第２章「２．Ｗｅｂクライアントの位置づけ」のブロックには、含まれている不要用語が１と第１閾値（＝３）より少ないので、第２章全体がそのまま残される。第３章「２．Ｗｅｂクライアントを使用できるユーザー」のブロックには、不要用語が３と第１閾値以上第２閾値未満であることから、第３章のうち不要用語が含まれているパラグラフだけが削除される。

インデックス作成部１７は、取得されたコンテンツのインデックスを作成する際に、インデックス作成用コンテンツ生成部１６により削除範囲が削除されることにより記述内容が変更されたコンテンツ、すなわちインデックス作成用のコンテンツを参照してインデックスを作成する。

通常は、出現頻度が高いのだから、その出現頻度が高い用語は、コンテンツにとって重要な用語と考え、インデックスに登録される。ただ、出現頻度が高い用語、換言すると頻繁に用いられる用語は、一般用語であってコンテンツの特徴を表していない用語であるとも考えられる。例えば、図４に例示した「本書」は、コンテンツにとって特徴的な用語ではない。また、ネットワークに関する文献においては、「インターネット」という用語が頻出することが想定できるが、「インターネット」という用語は、そのコンテンツの特徴を表す用語ではないと考えられる。本実施の形態では、このような点に着目した。すなわち、出現頻度の高い用語は、一般的な用語であって却ってコンテンツの特徴を表していない用語と推定し、本実施の形態では、その出現頻度の高い用語がインデックスに登録させないようにした。なお、上記説明では、出現頻度の高い順に用語をリスト表示し、その中からユーザーに不要用語を選択させるようにしたが、例えば出現頻度が所定の閾値以上となる用語を不要用語として自動的に抽出するようにしてもよい。

実施の形態２．
上記実施の形態１では、出現頻度の高い用語を不要用語としてインデックスに含まれないようにした。換言すると、出現頻度の低い用語は、特徴を表す用語としてみなされ、インデックスに含まれる可能性がある。ただ、そうすると、例えば「拝啓」など出現頻度が１回切りなどコンテンツの特徴を表すことのない用語がインデックスに登録されてしまう可能性がある。

そこで、本実施の形態では、用語抽出部１２が抽出した用語に、重みを設定できるようにして、コンテンツの特徴を表すことのない用語は、不要用語としてインデックスに登録されないようにした。

本実施の形態における情報処理装置１０のハードウェア及び機能ブロックの各構成は、実施の形態１と同じでよい。また、本実施の形態が実施するインデックス作成用コンテンツ生成処理の流れも実施の形態１と同じでよい。ただ、ブロックから削除の範囲を決定する処理が若干異なる。以下、本実施の形態におけるインデックス作成用コンテンツ生成処理について実施の形態１と同様、図２を用いて説明する。なお、実施の形態１と重複する処理については、説明を適宜省略する。

コンテンツ取得部１１がコンテンツを取得すると（ステップ１０１）、用語抽出部１２は、取得されたコンテンツに含まれている全ての用語を抽出する（ステップ１０２）。全ての用語を抽出するのは、上記例示した「拝啓」等の用語も抽出したいからである。

図８は、ユーザーが使用する端末装置（図示せず）又は情報処理装置１０に画面表示されるテーブルを示す図である。このテーブルには、実施の形態１と同様に、「不要」、「用語」及び「正規表現指定」の各項目を組にして表示される。更に、本実施の形態では、ユーザーが各用語に重み係数を指定できるように項目欄が設けられている。ユーザーは、リスト表示されている用語の中から不要用語と考えられる用語に対して重み係数を設定する。重み係数は、以下の説明から明らかになるように、ユーザーは、選択した不要用語に対し、不要用語として確実性の高い用語ほど大きい数字を設定するのが好適である。

そして、コンテンツ分割部１４が、取得されたコンテンツを所定のブロックに分割すると（ステップ１０４）、削除範囲決定部１５は、実施の形態１では、コンテンツに含まれる不要用語をブロック毎に集計していたが（ステップ１０５）、本実施の形態では、不要用語数に加えて、重み係数を用いて不要用語度を算出する。この算出結果を図９に示す。

「不要用語度」というのは、不要用語としたい用語ほど高い値を示す指標値である。不要用語度は、例えば、各ブロックにおいて、当該ブロックに含まれる不要用語の数に当該不要用語の重み係数を乗算した算出値をブロック毎に合計した値である。この計算式からわかるように、出現頻度という正整数に正整数の重み係数を乗算するので、重み係数の値が大きいほど不要用語度は相対的に大きい値となる。本実施の形態では、ユーザーが重み係数を設定しているので、不要用語度は、ユーザーがインデックスに含めたくない指標値ということもできる。そして、重み係数の大きい不要用語をインデックスに登録されにくくすることができる。

実施の形態１では、図５に示すように不要用語数をブロック毎に求めていたが、本実施の形態では、図９に示すように不要用語度をブロック毎に求める。

図１０は、コンテンツから削除する範囲を決める際に参照するテーブルを示す図である。図１０に示す設定例によると、第１閾値として３０が、第２閾値として５０が、それぞれ設定されている。不要用語度は、実施の形態１において閾値との比較対象とする不要用語数と比較して大きい値になるので、図１０に示すように第１閾値及び第２閾値は共に、実施の形態１と比較して大きい値となる。そして、実施の形態１では、不要用語数を各閾値と比較して各ブロックの削除する範囲を決定していたのに対し、本実施の形態では、不要用語数を各閾値と比較して各ブロックの削除する範囲を決定する。なお、処理の内容自体は、実施の形態１と同じなので、説明を省略する。

本実施の形態によれば、不要用語と選択した用語に対し、重みを設定できるようにしたので、ユーザーは、インデックスに含めたくない不要用語に非常に大きい重み係数を設定すれば、その不要用語の出現頻度が少ない場合でも、その不要用語を含む範囲を、取得されたコンテンツからの削除範囲として選出されやすくすることができる。

また、上記処理によってコンテンツの特徴を表さない用語がインデックスに含まれないようにすることで、いわゆる検索ノイズの発生を抑えることができ、インデックスとしての機能を向上させることができる。つまり、検索精度の向上を図ることができる。

更に、インデックスに含める用語の数を削減することができることからインデックスの容量の削減につなげることが可能となる。近年では、インデックスをクラウドに格納する場合があるが、課金が従量制の場合、本実施の形態によれば、課金金額を削減することが可能となる。

なお、本実施の形態では、生成手段として用語抽出部１２及び不要用語選出処理部１３を設け、コンテンツの中から用語を抽出して不要用語情報を生成するようにした。ただ、不要用語情報を予め用意しておいてもよい。この場合、文書の種類に応じて不要用語情報を設けるなど、複数種類の不要用語情報を用意しておき、削除範囲決定部１５は、入力されたコンテンツの種類に応じて不要用語情報を選択するよう処理するようにしてもよい。

１０情報処理装置、１１コンテンツ取得部、１２用語抽出部、１３不要用語選出処理部、１４コンテンツ分割部、１５削除範囲決定部、１６インデックス作成用コンテンツ生成部、１７インデックス作成部、１８不要用語記憶部。

Claims

索引データの作成対象となるコンテンツを取得する取得手段と、
前記コンテンツを所定のブロックに分割する分割手段と、
前記コンテンツに含まれている用語のうち前記索引データに登録させない用語としての不要用語が指定された不要用語情報を参照して、前記各ブロックにおいて前記コンテンツの索引データの作成の際に参照させない範囲を決定する決定手段と、
を有することを特徴とする情報処理装置。
前記決定手段は、前記コンテンツに含まれている不要用語の出現頻度を前記ブロック毎に積算し、前記各ブロックにおける前記不要用語の出現頻度に応じて当該ブロックにおける前記範囲を決定することを特徴とする請求項１に記載の情報処理装置。
前記範囲は、前記ブロック全体又は一部であることを特徴とする請求項１に記載の情報処理装置。
前記コンテンツに含まれている用語の中からユーザーにより選択された用語を不要用語とする前記不要用語情報を生成する生成手段を有することを特徴とする請求項１又は２に記載の情報処理装置。
前記生成手段は、前記コンテンツに含まれている用語のうち出現頻度が所定の閾値以上の用語を不要用語の候補としてユーザーに提示することを特徴とする請求項４に記載の情報処理装置。
前記生成手段は、不要用語と共に当該不要用語の重み係数をユーザーに指定させ、
前記決定手段は、前記各ブロックにおける前記不要用語の出現頻度に重み係数を乗算して算出された値に応じて当該ブロックにおける前記範囲を決定することを特徴とする請求項４に記載の情報処理装置。
コンピュータを、
全文検索の実行の際に参照される索引データの作成対象となるコンテンツを取得する取得手段、
前記コンテンツを所定のブロックに分割する分割手段、
前記コンテンツに含まれている用語のうち前記索引データに登録させない用語としての不要用語が指定された不要用語情報を参照して、前記各ブロックにおいて前記コンテンツの索引データの作成の際に参照させない範囲を決定する決定手段、
として機能させるためのプログラム。