JP2020154395A - 情報処理装置及びプログラム - Google Patents

情報処理装置及びプログラム Download PDF

Info

Publication number
JP2020154395A
JP2020154395A JP2019049750A JP2019049750A JP2020154395A JP 2020154395 A JP2020154395 A JP 2020154395A JP 2019049750 A JP2019049750 A JP 2019049750A JP 2019049750 A JP2019049750 A JP 2019049750A JP 2020154395 A JP2020154395 A JP 2020154395A
Authority
JP
Japan
Prior art keywords
unnecessary
content
terms
term
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019049750A
Other languages
English (en)
Inventor
真之 小林
Masayuki Kobayashi
真之 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2019049750A priority Critical patent/JP2020154395A/ja
Priority to US16/516,951 priority patent/US11275799B2/en
Publication of JP2020154395A publication Critical patent/JP2020154395A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】索引データを作成する際に参照されるコンテンツの範囲を制限する。【解決手段】情報処理装置10は、インデックスの作成対象となるコンテンツを取得するコンテンツ取得部11と、取得されたコンテンツの中から用語を抽出する用語抽出部12と、抽出された用語の中からインデックスに含める用語として不要な不要用語を選出して、不要用語記憶部18に保存する不要用語選出処理部13と、取得されたコンテンツを所定のブロックに分割するコンテンツ分割部14と、不要用語記憶部18に保存されている不要用語を参照して、各ブロックにおいてコンテンツのインデックスの作成の際に参照させない範囲を決定する削除範囲決定部15と、削除範囲決定部15により決定された削除範囲を、取得されたコンテンツから削除することによってインデックス作成用のコンテンツを生成するインデックス作成用コンテンツ生成部16と、を有する。【選択図】図1

Description

本発明は、情報処理装置及びプログラムに関する。
データベース検索のために、インデクシングにより文書から当該文書の特徴を表すキーワードを抽出することでインデックスを事前に作成しておく場合がある。クローラーは、文書をクロールする際にインデックスを検索することで検索時間を短縮することが可能となる。
なお、前述した文書として、HTML(HyperText Markup Language)で記述されているコンテンツがウェブサーバ上に存在するが、このコンテンツを解析することでコンテンツの内容を部分的に加工する技術が提案されている(例えば、特許文献1)。
特開2010−257412号公報
しかしながら、コンテンツ全体を参照して索引データ(上記「インデックス」)を作成しようとすると、当該コンテンツの特徴を表さない用語等の情報がコンテンツから抽出され索引データに含まれてしまう場合がある。
本発明は、索引データを作成する際に参照されるコンテンツの範囲を制限することを目的とする。
本発明に係る情報処理装置は、索引データの作成対象となるコンテンツを取得する取得手段と、前記コンテンツを所定のブロックに分割する分割手段と、前記コンテンツに含まれている用語のうち前記索引データに登録させない用語としての不要用語が指定された不要用語情報を参照して、前記各ブロックにおいて前記コンテンツの索引データの作成の際に参照させない範囲を決定する決定手段と、を有することを特徴とする。
また、前記決定手段は、前記コンテンツに含まれている不要用語の出現頻度を前記ブロック毎に積算し、前記各ブロックにおける前記不要用語の出現頻度に応じて当該ブロックにおける前記範囲を決定することを特徴とする。
また、前記範囲は、前記ブロック全体又は一部であることを特徴とする。
また、前記コンテンツに含まれている用語の中からユーザーにより選択された用語を不要用語とする前記不要用語情報を生成する生成手段を有することを特徴とする。
また、前記生成手段は、前記コンテンツに含まれている用語のうち出現頻度が所定の閾値以上の用語を不要用語の候補としてユーザーに提示することを特徴とする。
また、前記生成手段は、不要用語と共に当該不要用語の重み係数をユーザーに指定させ、前記決定手段は、前記各ブロックにおける前記不要用語の出現頻度に重み係数を乗算して算出された値に応じて当該ブロックにおける前記範囲を決定することを特徴とする。
本発明に係るプログラムは、コンピュータを、全文検索の実行の際に参照される索引データの作成対象となるコンテンツを取得する取得手段、前記コンテンツを所定のブロックに分割する分割手段、前記コンテンツに含まれている用語のうち前記索引データに登録させない用語としての不要用語が指定された不要用語情報を参照して、前記各ブロックにおいて前記コンテンツの索引データの作成の際に参照させない範囲を決定する決定手段、として機能させる。
請求項1に記載の発明によれば、索引データを作成する際に参照されるコンテンツの範囲を制限することができる。
請求項2に記載の発明によれば、不要言語の出現頻度によってコンテンツの索引の作成の際に参照させない範囲を異ならせることができる。
請求項3に記載の発明によれば、ブロック全体又はブロック内の一部のみをコンテンツの索引の作成の際に参照させない範囲とすることができる。
請求項4に記載の発明によれば、ユーザーに不要用語を指定させることができる。
請求項5に記載の発明によれば、出現頻度の多い用語が不要言語として選出させることができる。
請求項6に記載の発明によれば、不要用語の出現頻度に加えて重み係数によってコンテンツの索引の作成の際に参照させない範囲を決定することができる。
請求項7に記載の発明によれば、索引データを作成する際に参照されるコンテンツの範囲を制限することができる。
本発明に係る情報処理装置の一実施の形態を示したブロック構成図である。 実施の形態1におけるインデックス作成用コンテンツ生成処理を示すフローチャートである。 実施の形態1において処理対象とするコンテンツの一例を示す図である。 実施の形態1において不要用語をユーザーに指定させる場合の画面表示例を示す図である。 実施の形態1において不要用語をブロック毎に集計した場合の例を示す図である。 実施の形態1においてコンテンツの削除範囲を決める際に参照する情報をテーブル形式にて示す図である。 実施の形態1において図3に示すコンテンツの変更後の内容を示す図である。 実施の形態2において不要用語をユーザーに指定させる場合の画面表示例を示す図である。 実施の形態2において不要用語をブロック毎に集計した場合の例を示す図である。 実施の形態2においてコンテンツの削除範囲を決める際に参照する情報をテーブル形式にて示す図である。
以下、図面に基づいて、本発明の好適な実施の形態について説明する。
実施の形態1.
図1は、本発明に係る情報処理装置の一実施の形態を示したブロック構成図である。本実施の形態における情報処理装置10は、汎用的なパーソナルコンピュータ(PC)等のコンピュータで実現できる。つまり、情報処理装置10は、CPU、ROM、RAM、ハードディスクドライブ(HDD)等の記憶手段、また処理対象とするコンテンツをネットワーク経由で取得する場合、ネットワークインタフェースを有する。コンテンツをCD−ROMやUSBメモリ等のコンピュータ読み取り可能な記録媒体から読み取る場合には、そのための外部インターフェースを備える必要がある。また、情報処理装置10は、ユーザーと情報を授受する必要があるので、そのためにユーザーインタフェース、例えば入力手段としてマウスやキーボードや表示手段としてのディスプレイを有する。あるいは、ネットワークを介してユーザーと情報の授受を行う場合にはネットワークインタフェースを備えてもよい。
図1に示すように、本実施の形態における情報処理装置10は、コンテンツ取得部11、用語抽出部12、不要用語選出処理部13、コンテンツ分割部14、削除範囲決定部15、インデックス作成用コンテンツ生成部16、インデックス作成部17及び不要用語記憶部18を有している。なお、本実施の形態の説明に用いない構成要素については、図から省略している。コンテンツ取得部11は、インデックスの作成対象となるコンテンツを取得する。用語抽出部12は、取得されたコンテンツの中から用語を抽出する。不要用語選出処理部13は、抽出された用語の中から不要用語を選出し、不要用語記憶部18に保存する。インデックスには、コンテンツの特徴を表す用語が抽出されて含まれることになるが、「不要用語」というのは、インデックスに含める用語として不要な用語、換言するとインデックスに含めたくない用語であることからインデックスに登録させない用語のことをいう。コンテンツ分割部14は、取得されたコンテンツを所定のブロックに分割する。削除範囲決定部15は、不要用語記憶部18に保存されている不要用語情報を参照して、各ブロックにおいてコンテンツの索引データの作成の際に参照させない範囲を決定する。インデックス作成用コンテンツ生成部16は、削除範囲決定部15により決定された削除範囲を、取得されたコンテンツから削除することによってインデックス作成用のコンテンツを生成する。インデックス作成部17は、取得されたコンテンツのインデックスを作成する際に、生成されたインデックス作成用のコンテンツを処理対象としてインデックスを作成する。
ここで、「インデックス」というのは、コンテンツへの検索を高速にするために利用される索引データのことをいう。インデックスは、各コンテンツに対応させて作成される。コンテンツの一形態として文書があるが、文書を検索する方法として全文検索がある。全文検索では、目的とする文書を検索する際、文書の内容全体に含まれる用語等の文字列を検索する。ただ、文書を格納するデータベースに膨大な数の文書が格納されている場合において文書の内容全体を検索すると検索時間が膨大になってしまう可能性がある。そこで、インデクシングにより文書から当該文書の特徴を表す用語を抽出し別途格納しておく、この抽出した用語を格納するのがインデックスであり、索引型(「インデックス型」ともいう)の全文検索のために予め作成される。そして、クローラーは、索引型の全文検索において文書をクロールする際にインデックスを検索対象とすることで検索時間を短縮することができるようになる。
情報処理装置10における各構成要素11〜17は、情報処理装置10を形成するコンピュータと、コンピュータに搭載されたCPUで動作するプログラムとの協調動作により実現される。また、不要用語記憶部18は、情報処理装置10に搭載されたHDDにて実現される。あるいは、RAM又は外部にある記憶手段をネットワーク経由で利用してもよい。
また、本実施の形態で用いるプログラムは、通信手段により提供することはもちろん、CD−ROMやUSBメモリ等のコンピュータ読み取り可能な記録媒体に格納して提供することも可能である。通信手段や記録媒体から提供されたプログラムはコンピュータにインストールされ、コンピュータのCPUがプログラムを順次実行することで各種処理が実現される。
本実施の形態において特徴的なことは、インデックスの作成対象とするコンテンツのインデックスを作成する際に、コンテンツ全体を参照範囲とするのではなく、不要用語を含む位置及び数によって参照しない範囲を決定し、その決定した範囲を参照させないようにしたことである。このために、インデックスの作成対象とするコンテンツを、取得されたコンテンツをそのまま用いるのではなくインデックス作成用のコンテンツを別途生成するようにしているが、以下、このインデックス作成用のコンテンツを生成する処理について図2に示すフローチャートを用いて説明する。
コンテンツ取得部11は、ユーザーにより指定されたインデックスの作成対象となるコンテンツを取得する(ステップ101)。図3は、この取得したコンテンツの記載例を示す図である。本実施の形態において取り扱うコンテンツは、図3に例示するように、章立てされているなど、複数のブロックに分割可能な内容で記述されている文書である。このように、本実施の形態では、コンテンツとして、HTMLにて記述されたコンテンツに限定することはなく、文書作成や表計算あるいはプレゼンテーションアプリケーションなどによって作成される、文字列を含むコンテンツであればよい。
続いて、用語抽出部12は、取得されたコンテンツの中から用語を抽出する(ステップ102)。コンテンツに含まれる全ての用語を抽出するようにしてもよいが、本実施の形態における用語抽出部12は、コンテンツにおいて出願頻度の高い用語を抽出する。本実施の形態では、出願頻度の高いと推定できる閾値を予め設定しておく。用語抽出部12は、コンテンツ全体において各用語の出現回数を積算し、その積算値が閾値以上となった用語を不要用語の候補として抽出する。
用語抽出部12が用語を抽出すると、不要用語選出処理部13は、抽出された用語の中から不要用語を選出する(ステップ103)。本実施の形態では、次のようにして不要用語を選出する。
図4は、ユーザーが使用する端末装置(図示せず)又は情報処理装置10に画面表示されるテーブルを示す図である。このテーブルには、用語抽出部12が抽出した各用語に対応させて、「不要」及び「正規表現指定」の各項目を設定するための欄が設けられている。「不要」には、ユーザーに不要用語として選択させるためのチェックボックスが設けられている。「正規表現指定」は、用語抽出部12が抽出した用語が他の用語と共通した形式にて記述されている場合、その共通する記載形式(つまり、正規表現)をユーザーが指定するための欄である。図4には、正規表現の指定の例を示すために、ページ番号の記載例が示されている。例えば、コンテンツのフッター等にページ番号が記述されている場合、ユーザーは、そのページ番号の正規表現を入力指定する。このユーザーが指定した正規表現に合致する用語も不要用語とみなす。従って、“(p.86)”以外のページも不要用語となる。
不要用語選出処理部13は、用語抽出部12が抽出した用語を、コンテンツにおける登場順にリスト表示してもよいし、出願頻度の高い順に並び替えてリスト表示してもよい。そして、図4に示す用語「本書」及び「(p.86)」のように、ユーザーは、提示された用語の中から不要用語として取り扱いたい用語のチェックボックスにチェックを付ける。
このように、本実施の形態における不要用語選出処理部13は、用語抽出部12が抽出した用語をリスト表示し、そのリスト表示された用語の中からユーザーに選択された用語を不要用語として選出する。そして、選出した不要用語を含む不要用語情報を生成して不要用語記憶部18に保存する。
また、コンテンツ取得部11によりコンテンツが取得されると、コンテンツ分割部14は、取得されたコンテンツを所定のブロックに分割する(ステップ104)。本実施の形態では、コンテンツが章立てされているので、章ごとにブロック分割することにする。もちろん、分割の方法は、前述した章立てに限らず、コンテンツの種類(例えば、契約書、仕様書、論文等)や表示形式に応じて、節毎、項毎、段落毎、段組みされている場合の段区切り毎、ページ毎、スライド毎等、所定のブロックに分割してよい。
続いて、削除範囲決定部15は、不要用語記憶部18に保存されている不要用語情報を参照して、分割したブロック毎に、コンテンツインデックスの作成の際に参照させない範囲を決定する。なお、不要用語の選出(ステップ102,103)とコンテンツのブロック分割(ステップ104)は、この削除範囲決定部15が処理の実行を開始するまでに終了させておけばよい。従って、ブロック分割を不要用語の選出より前に実行してよいし、不要用語の選出と同時並行して実行してもよい。
削除範囲決定部15は、まず、コンテンツに含まれる不要用語をそれぞれ積算し、ブロック毎に集計する(ステップ105)。この集計結果を図5に示す。このとき、ブロック内において各不要用語の記述位置を把握しておく。続いて、削除範囲決定部15は、全てのブロックに対し、ブロック毎に以下の処理を繰り返し実行する。
図6は、コンテンツから削除する範囲を決める際に参照するテーブルを示す図である。図6に示す設定例によると、第1閾値として3が、第2閾値として5が、それぞれ設定されている。
まず、処理対象とするブロックに含まれる不要用語数を図5に示すテーブルから取り出し、その取り出した不要用語数が第1閾値より小さい場合(ステップ106でY)、そのブロックには、不要用語がそれほど記述されていないため、何も変更する必要がないと判断する(ステップ108)。
また、当該ブロックの不要用語数が第2閾値以上の場合(ステップ107でY)、そのブロックには、不要用語は数多く含まれているため、ブロック全体を削除対象とする(ステップ109)。換言すると、コンテンツに含まれる当該ブロック全体を削除範囲とする。一方、いずれにも該当しない場合、すなわち当該ブロックの不要用語数が第1閾値以上であり、かつ第2閾値より小さい場合(ステップ106でN、ステップ107でN)、当該ブロックは、不要用語がある程度記述されているものの、ブロック全体としては数多く記述されていないと判断して、ブロックに含まれている記述のうち不要用語が含まれているパラグラフ、例えば、一文、一節あるいは一段落を削除対象とする(ステップ110)。すなわち、コンテンツへの記述内容を部分的に選択して削除範囲とする。
なお、分割するブロックの範囲によってブロックに含まれる用語の数が異なってくる。ブロックの範囲が相対的に狭いと不要用語の出現頻度は相対的に低くなり、ブロックの範囲が相対的に広いと不要用語の出現頻度は相対的に高くなる。従って、インデックス作成者等のユーザーは、ブロックの分割単位に応じて前述した第1閾値及び第2閾値を適切に設定する必要がある。
前述した処理を実施していないブロックがあると(ステップ111でY)、そのブロックを処理対象として(ステップ112)、上記処理を実行する。そして、全てのブロックに対して処理を実行すると(ステップ111でN)、インデックス作成用コンテンツ生成部16は、削除範囲決定部15により決定された削除範囲を、取得されたコンテンツから削除することによってインデックス作成用のコンテンツを生成する(ステップ113)。このように、本実施の形態においては、インデックスを作成する際に参照する範囲をコンテンツ全体から変更することが可能となる。
図7は、前述したインデックス作成用コンテンツ生成処理によって作成されたコンテンツの内容例を示す図である。本実施の形態では、章毎にブロック分割した例を示しているが、図5,6に示す数値例によると、第1章「1.はじめに」のブロックには、不要用語が5と第2閾値(=5)以上含まれていることから、第1章全体が削除される。第2章「2.Webクライアントの位置づけ」のブロックには、含まれている不要用語が1と第1閾値(=3)より少ないので、第2章全体がそのまま残される。第3章「2.Webクライアントを使用できるユーザー」のブロックには、不要用語が3と第1閾値以上第2閾値未満であることから、第3章のうち不要用語が含まれているパラグラフだけが削除される。
インデックス作成部17は、取得されたコンテンツのインデックスを作成する際に、インデックス作成用コンテンツ生成部16により削除範囲が削除されることにより記述内容が変更されたコンテンツ、すなわちインデックス作成用のコンテンツを参照してインデックスを作成する。
通常は、出現頻度が高いのだから、その出現頻度が高い用語は、コンテンツにとって重要な用語と考え、インデックスに登録される。ただ、出現頻度が高い用語、換言すると頻繁に用いられる用語は、一般用語であってコンテンツの特徴を表していない用語であるとも考えられる。例えば、図4に例示した「本書」は、コンテンツにとって特徴的な用語ではない。また、ネットワークに関する文献においては、「インターネット」という用語が頻出することが想定できるが、「インターネット」という用語は、そのコンテンツの特徴を表す用語ではないと考えられる。本実施の形態では、このような点に着目した。すなわち、出現頻度の高い用語は、一般的な用語であって却ってコンテンツの特徴を表していない用語と推定し、本実施の形態では、その出現頻度の高い用語がインデックスに登録させないようにした。なお、上記説明では、出現頻度の高い順に用語をリスト表示し、その中からユーザーに不要用語を選択させるようにしたが、例えば出現頻度が所定の閾値以上となる用語を不要用語として自動的に抽出するようにしてもよい。
実施の形態2.
上記実施の形態1では、出現頻度の高い用語を不要用語としてインデックスに含まれないようにした。換言すると、出現頻度の低い用語は、特徴を表す用語としてみなされ、インデックスに含まれる可能性がある。ただ、そうすると、例えば「拝啓」など出現頻度が1回切りなどコンテンツの特徴を表すことのない用語がインデックスに登録されてしまう可能性がある。
そこで、本実施の形態では、用語抽出部12が抽出した用語に、重みを設定できるようにして、コンテンツの特徴を表すことのない用語は、不要用語としてインデックスに登録されないようにした。
本実施の形態における情報処理装置10のハードウェア及び機能ブロックの各構成は、実施の形態1と同じでよい。また、本実施の形態が実施するインデックス作成用コンテンツ生成処理の流れも実施の形態1と同じでよい。ただ、ブロックから削除の範囲を決定する処理が若干異なる。以下、本実施の形態におけるインデックス作成用コンテンツ生成処理について実施の形態1と同様、図2を用いて説明する。なお、実施の形態1と重複する処理については、説明を適宜省略する。
コンテンツ取得部11がコンテンツを取得すると(ステップ101)、用語抽出部12は、取得されたコンテンツに含まれている全ての用語を抽出する(ステップ102)。全ての用語を抽出するのは、上記例示した「拝啓」等の用語も抽出したいからである。
用語抽出部12が用語を抽出すると、不要用語選出処理部13は、抽出された用語の中から不要用語を選出する(ステップ103)。本実施の形態では、次のようにして不要用語を選出する。
図8は、ユーザーが使用する端末装置(図示せず)又は情報処理装置10に画面表示されるテーブルを示す図である。このテーブルには、実施の形態1と同様に、「不要」、「用語」及び「正規表現指定」の各項目を組にして表示される。更に、本実施の形態では、ユーザーが各用語に重み係数を指定できるように項目欄が設けられている。ユーザーは、リスト表示されている用語の中から不要用語と考えられる用語に対して重み係数を設定する。重み係数は、以下の説明から明らかになるように、ユーザーは、選択した不要用語に対し、不要用語として確実性の高い用語ほど大きい数字を設定するのが好適である。
そして、コンテンツ分割部14が、取得されたコンテンツを所定のブロックに分割すると(ステップ104)、削除範囲決定部15は、実施の形態1では、コンテンツに含まれる不要用語をブロック毎に集計していたが(ステップ105)、本実施の形態では、不要用語数に加えて、重み係数を用いて不要用語度を算出する。この算出結果を図9に示す。
「不要用語度」というのは、不要用語としたい用語ほど高い値を示す指標値である。不要用語度は、例えば、各ブロックにおいて、当該ブロックに含まれる不要用語の数に当該不要用語の重み係数を乗算した算出値をブロック毎に合計した値である。この計算式からわかるように、出現頻度という正整数に正整数の重み係数を乗算するので、重み係数の値が大きいほど不要用語度は相対的に大きい値となる。本実施の形態では、ユーザーが重み係数を設定しているので、不要用語度は、ユーザーがインデックスに含めたくない指標値ということもできる。そして、重み係数の大きい不要用語をインデックスに登録されにくくすることができる。
実施の形態1では、図5に示すように不要用語数をブロック毎に求めていたが、本実施の形態では、図9に示すように不要用語度をブロック毎に求める。
図10は、コンテンツから削除する範囲を決める際に参照するテーブルを示す図である。図10に示す設定例によると、第1閾値として30が、第2閾値として50が、それぞれ設定されている。不要用語度は、実施の形態1において閾値との比較対象とする不要用語数と比較して大きい値になるので、図10に示すように第1閾値及び第2閾値は共に、実施の形態1と比較して大きい値となる。そして、実施の形態1では、不要用語数を各閾値と比較して各ブロックの削除する範囲を決定していたのに対し、本実施の形態では、不要用語数を各閾値と比較して各ブロックの削除する範囲を決定する。なお、処理の内容自体は、実施の形態1と同じなので、説明を省略する。
本実施の形態によれば、不要用語と選択した用語に対し、重みを設定できるようにしたので、ユーザーは、インデックスに含めたくない不要用語に非常に大きい重み係数を設定すれば、その不要用語の出現頻度が少ない場合でも、その不要用語を含む範囲を、取得されたコンテンツからの削除範囲として選出されやすくすることができる。
また、上記処理によってコンテンツの特徴を表さない用語がインデックスに含まれないようにすることで、いわゆる検索ノイズの発生を抑えることができ、インデックスとしての機能を向上させることができる。つまり、検索精度の向上を図ることができる。
更に、インデックスに含める用語の数を削減することができることからインデックスの容量の削減につなげることが可能となる。近年では、インデックスをクラウドに格納する場合があるが、課金が従量制の場合、本実施の形態によれば、課金金額を削減することが可能となる。
なお、本実施の形態では、生成手段として用語抽出部12及び不要用語選出処理部13を設け、コンテンツの中から用語を抽出して不要用語情報を生成するようにした。ただ、不要用語情報を予め用意しておいてもよい。この場合、文書の種類に応じて不要用語情報を設けるなど、複数種類の不要用語情報を用意しておき、削除範囲決定部15は、入力されたコンテンツの種類に応じて不要用語情報を選択するよう処理するようにしてもよい。
10 情報処理装置、11 コンテンツ取得部、12 用語抽出部、13 不要用語選出処理部、14 コンテンツ分割部、15 削除範囲決定部、16 インデックス作成用コンテンツ生成部、17 インデックス作成部、18 不要用語記憶部。

Claims (7)

  1. 索引データの作成対象となるコンテンツを取得する取得手段と、
    前記コンテンツを所定のブロックに分割する分割手段と、
    前記コンテンツに含まれている用語のうち前記索引データに登録させない用語としての不要用語が指定された不要用語情報を参照して、前記各ブロックにおいて前記コンテンツの索引データの作成の際に参照させない範囲を決定する決定手段と、
    を有することを特徴とする情報処理装置。
  2. 前記決定手段は、前記コンテンツに含まれている不要用語の出現頻度を前記ブロック毎に積算し、前記各ブロックにおける前記不要用語の出現頻度に応じて当該ブロックにおける前記範囲を決定することを特徴とする請求項1に記載の情報処理装置。
  3. 前記範囲は、前記ブロック全体又は一部であることを特徴とする請求項1に記載の情報処理装置。
  4. 前記コンテンツに含まれている用語の中からユーザーにより選択された用語を不要用語とする前記不要用語情報を生成する生成手段を有することを特徴とする請求項1又は2に記載の情報処理装置。
  5. 前記生成手段は、前記コンテンツに含まれている用語のうち出現頻度が所定の閾値以上の用語を不要用語の候補としてユーザーに提示することを特徴とする請求項4に記載の情報処理装置。
  6. 前記生成手段は、不要用語と共に当該不要用語の重み係数をユーザーに指定させ、
    前記決定手段は、前記各ブロックにおける前記不要用語の出現頻度に重み係数を乗算して算出された値に応じて当該ブロックにおける前記範囲を決定することを特徴とする請求項4に記載の情報処理装置。
  7. コンピュータを、
    全文検索の実行の際に参照される索引データの作成対象となるコンテンツを取得する取得手段、
    前記コンテンツを所定のブロックに分割する分割手段、
    前記コンテンツに含まれている用語のうち前記索引データに登録させない用語としての不要用語が指定された不要用語情報を参照して、前記各ブロックにおいて前記コンテンツの索引データの作成の際に参照させない範囲を決定する決定手段、
    として機能させるためのプログラム。
JP2019049750A 2019-03-18 2019-03-18 情報処理装置及びプログラム Pending JP2020154395A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019049750A JP2020154395A (ja) 2019-03-18 2019-03-18 情報処理装置及びプログラム
US16/516,951 US11275799B2 (en) 2019-03-18 2019-07-19 Information processing device and non-transitory computer readable medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019049750A JP2020154395A (ja) 2019-03-18 2019-03-18 情報処理装置及びプログラム

Publications (1)

Publication Number Publication Date
JP2020154395A true JP2020154395A (ja) 2020-09-24

Family

ID=72514449

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019049750A Pending JP2020154395A (ja) 2019-03-18 2019-03-18 情報処理装置及びプログラム

Country Status (2)

Country Link
US (1) US11275799B2 (ja)
JP (1) JP2020154395A (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003296365A (ja) * 2002-03-29 2003-10-17 Sony Corp 情報処理装置および方法、記録媒体、並びにプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5594145B2 (ja) * 2008-11-26 2014-09-24 日本電気株式会社 検索装置、検索方法、及びプログラム
JP2010257412A (ja) 2009-04-28 2010-11-11 Nec Corp 情報フィルタリング装置、情報フィルタリング方法及びプログラム
JP5392228B2 (ja) * 2010-10-14 2014-01-22 株式会社Jvcケンウッド 番組検索装置および番組検索方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003296365A (ja) * 2002-03-29 2003-10-17 Sony Corp 情報処理装置および方法、記録媒体、並びにプログラム

Also Published As

Publication number Publication date
US11275799B2 (en) 2022-03-15
US20200301981A1 (en) 2020-09-24

Similar Documents

Publication Publication Date Title
US20160098405A1 (en) Document Curation System
US9928415B2 (en) Mathematical formula learner support system
TW201514845A (zh) 從網頁擷取標題及主體
JP5079471B2 (ja) 同義語抽出装置
US9569484B2 (en) Query generation system for an information retrieval system
JP6772478B2 (ja) 情報検索プログラム及び情報検索装置
JP6025487B2 (ja) フォレンジック分析システムおよびフォレンジック分析方法並びにフォレンジック分析プログラム
Haak et al. Auditing search query suggestion bias through recursive algorithm interrogation
JP2013174988A (ja) 類似文書検索支援装置及び類似文書検索支援プログラム
JP5179564B2 (ja) クエリセグメント位置決定装置
JP2010123036A (ja) 文書検索装置、文書検索方法、および文書検索プログラム
JP5317638B2 (ja) Web文書主要コンテンツ抽出装置及びプログラム
JP4796527B2 (ja) ドキュメント絞り込み検索装置、方法及びプログラム
JP2020160494A (ja) 情報処理装置、文書管理システム及びプログラム
KR101835994B1 (ko) 키워드 맵을 이용한 전자책 검색 서비스 제공 방법 및 장치
JP2020154395A (ja) 情報処理装置及びプログラム
JP6488399B2 (ja) 情報提示システム、及び情報提示方法
JP2009271796A (ja) 文書データのノイズ除去システム
JP5746912B2 (ja) テキストパターン抽出を用いてWeb文書をリファインするための方法、システム及びコンピュータ読み出し可能記録媒体
JP5389683B2 (ja) 重要キーワード抽出装置及び方法及びプログラム
KR100922693B1 (ko) 인물 검색 시스템 및 방법
JP2013084216A (ja) 定型文判別装置及び定型文判別方法
JP2009271797A (ja) 文書データのノイズ除去システム
JP2010128981A (ja) 操作シーケンス抽出方法及び装置及びプログラム
JP2005258910A (ja) 階層キーワード抽出装置、方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220228

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230131

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230413

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230509

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230601

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230725