JP5184987B2 - 索引情報作成装置、索引情報作成方法及びプログラム - Google Patents

索引情報作成装置、索引情報作成方法及びプログラム Download PDF

Info

Publication number
JP5184987B2
JP5184987B2 JP2008158477A JP2008158477A JP5184987B2 JP 5184987 B2 JP5184987 B2 JP 5184987B2 JP 2008158477 A JP2008158477 A JP 2008158477A JP 2008158477 A JP2008158477 A JP 2008158477A JP 5184987 B2 JP5184987 B2 JP 5184987B2
Authority
JP
Japan
Prior art keywords
index information
character string
document
document number
creating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008158477A
Other languages
English (en)
Other versions
JP2009301511A (ja
Inventor
利也 三橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NS Solutions Corp
Original Assignee
NS Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NS Solutions Corp filed Critical NS Solutions Corp
Priority to JP2008158477A priority Critical patent/JP5184987B2/ja
Publication of JP2009301511A publication Critical patent/JP2009301511A/ja
Application granted granted Critical
Publication of JP5184987B2 publication Critical patent/JP5184987B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、索引情報作成装置、索引情報作成方法及びプログラムに関する。
検索処理に関する技術として、検索の際に用いられる索引(インデックス)を作成する技術と、検索キーである任意の文字列を索引に基づいて検索対象から検索する技術と、がある。
したがって、索引の作成に関する工夫や、文字列の検索に関する工夫を行うことによって、検索処理を高速化することができる。
例えば、索引の作成に関する技術として、特許文献1がある。
特許文献1では、予め指定した文字列を削除することによって、索引のサイズを縮小して、検索処理を高速化する技術が開示されている。
特開平11−39346号公報
しかしながら、上述した特許文献1の技術では、予め指定した文字列しか削減することができないため、新しい単語に対応することができない問題がある。また、上述した特許文献1の技術では、検索対象としている文書群に特有に含まれる単語等にも対応することができない問題がある。
昨今では数多くのポータルサイトが存在し、膨大な情報量に対する検索技術が必要とされている。しかしながら、検索対象の文書数(情報量)が増大すると、索引のサイズが増大し、その結果として、検索処理を実行する情報処理装置(コンピュータ)等のメモリ等のリソースを多く消費してしまっている問題がある。
本発明はこのような問題点に鑑みなされたもので、索引のサイズを小さくすることを目的とする。
そこで、本発明は、共通する文字列を含む検索対象の文書の文書番号のグループを、一つの文字或いは数値で表される新たな文書番号に置き換える置き換え手段と、前記文字列と、前記新たな文書番号と、に基づいて、検索の際に用いられる索引情報を作成する索引情報作成手段と、を有することを特徴とする。
係る構成とすることにより、索引のサイズを小さくすることができる。
また、本発明は、検索対象の文書に含まれる文字列と、前記文字列を含む文書の文書番号と、を対応付けて検索の際に用いられる索引情報を作成する索引情報作成手段と、前記索引情報作成手段で作成された複数の索引情報に共通して表れる文書番号のグループを一つの文字或いは数値で表される新たな文書番号に置き換える置き換え手段と、を有することを特徴とする。
係る構成とすることにより、索引のサイズを小さくすることができる。
また、本発明は、索引情報作成方法及びプログラムとしてもよい。
本発明によれば、索引のサイズを小さくすることができる。
以下、本発明の実施形態について図面に基づいて説明する。
<実施形態1>
図1は、索引情報作成装置の一例である情報処理装置1のハードウェア構成の一例を示す図である。図1に示されるように情報処理装置1は、ハードウェア構成として、CPU11を含む。CPU11が、記憶装置13に記憶されているプログラムに基づき処理を行うことによって、後述する索引情報作成等の機能、又はフローチャートに係る処理を実現する。
CPU11には、バス10を介して、入力装置12、記憶装置13及び表示装置14が接続されている。記憶装置13は、例えば、ROM、RAM、ハードディスク装置等からなり、上述した各プログラム以外に、プログラムに基づく処理で用いられるデータを記憶する。表示装置14は、情報を表示する例えばディスプレイ等である。入力装置12は、情報を入力する例えば操作キー等である。
なお、入力装置12及び表示装置14は、情報処理装置1の必須の構成要素ではない。
図2は、情報処理装置1の機能構成の一例を示す図(その1)である。図2に示されるように、情報処理装置1は、機能構成として、検索対象文書抽出部20と、文字列抽出部21と、置き換え部22と、索引情報作成部23と、を含む。
検索対象文書抽出部20は、検索対象となる複数の文書を抽出(又は選択)する。図3は、検索対象文書抽出部20が抽出した文書を識別する文書番号と、前記文書の内容と、を示す図である。
文字列抽出部21は、検索対象文書抽出部20が抽出した、検索対象となる複数の文書から、文書間で共通する文字列を抽出する。例えば、文字列抽出部21は、検索対象となる複数の文書が図3に示すような場合、"ありがとう"の文字列を文書間で共通する文字列として抽出する。図3は、文書番号及び文書の内容の一例を示す図である。
なお、文字列抽出部21は、文書に記載されたデータを木構造で表し、木構造の各ノードを通る毎にインクリメントするカウンタを備えて、カウンタ値を基に頻出文字列を抽出するようにしてもよい。
そして、文字列抽出部21は、抽出した文字列(例えば"ありがとう")と、前記文字列を含む文書の文書番号のグループと、を対応付けた、図4に示すような情報を作成し、記憶装置13の例えばRAM上に一時的に保持する。ここで、図4は、文書間で共通する文字列と、前記文字列を含む文書の文書番号のグループと、を対応付けた情報の一例を示す図である。
置き換え部22は、文字列抽出部21が作成した図4に示すような情報に含まれる文書番号のグループを、一つの文字で表される新たな文書番号に置き換え(図5参照)、文字列抽出部21によって抽出された文字列と、置き換えた新たな文字番号と、を対応付けた、図6に示すような情報を作成し、記憶装置13の、例えばRAM上に一時的に保持する。ここで、図5は、共通する文字列を含む文書の文書番号のグループと、新たな文書番号と、を対応付けた情報の一例を示す図である。また、図6は、文字列抽出部21によって抽出された文字列と、置き換えた新たな文字番号と、を対応付けた情報の一例を示す図である。
なお、置き換え部22は、新たな文書番号として置き換える際、"X"のような文字では無く、文書番号として使用されていない数字(図4の例であれば、1、2、3、5、6、9、10以外の数字である"−1")を、新たな文書番号として用い、置き換えを行うようにしてもよい。
なお、置き換え部22は、置き換えた文書番号のグループと、新たな文字番号と、を対応付けた、図5に示されるような情報(文書番号変換情報)を、記憶装置13のHDD上に保存されている、検索の際に用いられる索引辞書データに追加して保存する。
索引情報作成部23は、置き換え部22が作成した図6に示される情報に基づき、文書間で共通する文字列をN−gram(本実施形態の例ではN=2のバイグラム)で分割し、図7に示されるような索引情報を作成し、前記索引辞書データに索引として追加して保存する。図7は、本実施形態に係る索引情報の一例を示す図である。
一方、図8は、従来の方法で作成された索引情報の一例を示す図である。
図7と、図8と、を比較すると、本実施形態の方法で作成した索引情報の方が、記憶容量が少なくて済むことが解かる。例えば、図8の例では、文書番号の最大を10としているが、実際、本発明が対象としている検索対象の文書数(文書番号)は1億程度を想定している。このような場合、図8に示されるような索引情報だけで相当な記憶領域を必要とする。一方、本実施形態で作成された索引情報では、共通する文字列を含む文書の文書番号のグループを、一つの文字等で表される新たな文書番号に置き換えているので、従来に比べて、索引(索引情報)のサイズが小さくなり、必要とする記憶領域を削減することができる。
なお、索引情報作成部23は、勿論、検索対象文書抽出部20が抽出した文書に含まれる他の文字列(他の文書に共通して含まれていない文字等)に基づき、上述した索引情報以外の索引情報も作成する。図3を例に説明を行うと、索引情報作成部23は、索引語:三橋、文書番号:1の索引情報や、索引語:橋で、文書番号:1等の索引情報も作成する。
図9は、索引情報作成処理の一例を示すフローチャート(その1)である。
ステップS10において、検索対象文書抽出部20は、検索対象となる複数の文書を抽出(又は選択)する。
ステップS11において、文字列抽出部21は、検索対象文書抽出部20が抽出した、検索対象となる複数の文書から、文書間で共通する文字列を抽出する。また、文字列抽出部21は、抽出した文字列と、前記文字列を含む文書の文書番号のグループと、を対応付けた、図4に示すような情報を作成し、記憶装置13のRAM上に一時的に保持する。
ステップS12において、置き換え部22は、ステップS11で作成された図4に示すような情報に含まれる文書番号のグループを、一つの文字で表される新たな文書番号に置き換え(図5参照)、文字列抽出部21によって抽出された文字列と、置き換えた新たな文字番号と、を対応付けた、図6に示すような情報を作成し、記憶装置13のRAM上に一時的に保持する。なお、置き換え部22は、置き換えた文書番号のグループと、新たな文字番号と、を対応付けた、図5に示されるような情報(文書番号変換情報)を、記憶装置13のHDD上に保存されている、検索の際に用いられる索引辞書データに追加して保存する。
ステップS13において、索引情報作成部23は、ステップS12で作成された図6に示される情報に基づき、文書間で共通する文字列をN−gram(本実施形態の例ではN=2のバイグラム)で分割し、図7に示されるような索引情報を作成し、前記索引辞書データに索引(索引情報)として追加して保存する。
以下、図10〜図12を用いて、本実施形態の処理(又は方法)により、従来の索引情報のサイズと比べて何バイトのメモリを削減可能か示す。なお、以下、図1に示されるように文字長mの部分文字列がn個の文書に共通して存在した場合で、かつ、文書番号を1つ記録するのにbバイト必要とするものとして説明を行う。図10は、部分文字列及び部分文字列が含まれる文書の文書番号のグループの一例を示す図である。
図11は、従来の方法で作成された索引情報の一例を示す図である。図11に示されるように、従来の方法で作成された索引情報の記憶容量は、(m−1)×n×bバイトである。
図12は、本実施形態の方法で作成された索引情報の一例を示す図である。図12に示されるように、本実施形態の方法で作成された索引情報の記憶容量は、新たにn+1個の文書番号変換情報の記憶領域が増えるので、(n+1)×b+(m−1)×b=(m+n)×bバイトである。
よって、本実施形態の方法(又は処理)により、削減することができる記憶容量は、(m−1)×n×b−(m+n)×b={(n−1)×(m−2)−2}×bバイトとなる。
従って、文字列抽出部21によって長い文字列の頻出文字列を抽出することによって、m、nは大きくなり、より記憶容量を削減することが可能になる。
<実施形態2>
以下、上述した実施形態1と異なる点について主に説明を行う。
上述した実施形態では、索引情報作成部23が、文書間で共通する文字列をN−gram(実施形態1の例ではN=2のバイグラム)で分割し、図7に示されるような索引情報を作成した。
しかしながら、索引情報作成部23は、文書間で共通する文字列を、形態素解析エンジン等を用いて、意味のある文字列に分解し、索引情報を作成するようにしてもよい。このようにすることに、例えば図7、又は図12に示される索引語が意味のある文字列になる。
本実施形態の索引情報も、索引語が意味のある文字列になるだけで、共通する文字列を含む文書の文書番号のグループは、一つの文字で表される新たな文書番号に置き換えられるので、従来に比べて、索引(索引情報)のサイズが小さくなり、必要とする記憶領域を削減することができる。
<実施形態3>
以下、上述した実施形態と異なる点について主に説明を行う。
上述した実施形態では、情報処理装置1は、検索対象文書から共通する文字列を抽出し、前記文字列を共通に含む文書の文書番号のグループを一つの文字で表される新たな文書番号に置き換えるよう処理を行った。
しかしながら、情報処理装置1は、検索対象文書から索引情報を作成し、作成した索引情報から共通する文書番号のグループを抽出し、抽出した文書番号のグループを一つの文字で表される新たな文書番号に置き換えるよう処理を行ってもよい。
図13は、情報処理装置1の機能構成の一例を示す図(その2)である。図13に示されるように、検索対象文書抽出部30と、索引情報作成部31と、文書番号グループ抽出部32と、置き換え部33と、を含む。
検索対象文書抽出部30は、検索対象となる複数の文書を抽出(又は選択)する。
索引情報作成部31は、検索対象文書抽出部30が抽出した文書に含まれる文字列をN−gram(本実施形態の例ではN=2のバイグラム)で分割し、索引語を作成し、前記索引語と、前記索引語が含まれる文書を識別する文書番号又は文書番号のグループと、から図14に示されるような索引(索引情報)を作成する。
文書番号グループ抽出部32は、索引情報作成部31が作成した索引情報の図14に示されるような文書番号から複数の索引情報に含まれる文書番号のグループを抽出する。例えば、図14に示される例の場合、文書番号グループ抽出部32は、文書番号のグループ"1、2、3、5、6、9、10"を抽出する。図14は、索引情報作成部31が作成した索引情報の一例を示す図である。
なお、文書番号グループ抽出部32は、文書番号を木構造で表し、木構造の各ノードを通る毎にインクリメントするカウンタを備えて、カウンタ値を基に頻出の文書番号を抽出するようにしてもよい。
置き換え部33は、文書番号グループ抽出部32が抽出した文書番号のグループを一つの文字で表される新たな文書番号(例えば、"x")に置き換える。図15は、置き換え部33が置き換えを行った後の索引情報の一例を示す図である。
本実施形態の場合、置き換え部33が、図15に示されるような索引情報を、記憶装置13のHDD上に保存されている、検索の際に用いられる索引辞書データに追加して保存する。また、本実施形態の場合、置き換え部33が、新たな文書番号と、前記新たな文書番号と置き換えを行った文書番号のグループと、を対応付けた、情報(文書番号変換情報)を、記憶装置13のHDD上に保存されている、前記索引辞書データに追加して保存する。
図16は、索引情報作成処理の一例を示すフローチャート(その2)である。
ステップS20において、検索対象文書抽出部30は、検索対象となる複数の文書を抽出(又は選択)する。
ステップS21において、索引情報作成部31は、ステップS20で抽出された文書に含まれる文字列をN−gram(本実施形態の例ではN=2のバイグラム)で分割し、索引語を作成し、前記索引語と、前記索引語が含まれる文書を識別する文書番号又は文書番号のグループと、から図14に示されるような索引(索引情報)を作成する。
ステップS22において、文書番号グループ抽出部32は、ステップS21で作成された索引情報の図14に示されるような文書番号から複数の索引情報に共通して含まれる文書番号のグループを抽出する。
ステップS23において、置き換え部33は、ステップS22で抽出された文書番号のグループを一つの文字で表される新たな文書番号(例えば、"x")に置き換え、例えば、図15に示されるような索引情報を作成する。また、置き換え部33は、作成した索引情報を、記憶装置13のHDD上に保存されている、検索の際に用いられる索引辞書データに追加して保存する。また、置き換え部33は、新たな文書番号と、前記新たな文書番号と置き換えを行った文書番号のグループと、を対応付けた、情報(文書番号変換情報)を、記憶装置13のHDD上に保存されている、前記索引辞書データに追加して保存する。
以上、本実施形態の索引情報も、共通する文字列を含む文書の文書番号のグループは、一つの文字で表される新たな文書番号に置き換えられるので、従来に比べて、索引(索引情報)のサイズが小さくなり、必要とする記憶領域を削減することができる。
なお、置き換え部33は、新たな文書番号として置き換える際、上述の実施形態1と同様、"X"のような文字では無く、文書番号として使用されていない数字(例えば"−1")を、新たな文書番号として用い、置き換えを行うようにしてもよい。
<実施形態4>
上述した実施形態では情報処理装置1を索引情報作成装置の一例として説明を行った。しかしながら、情報処理装置1に索引情報作成装置の機能と共に、検索装置の機能を実装するようにしてもよい。
以下、本実施形態では、上述した実施形態1の情報処理装置1に、検索の機能を実装した一例を示す。なお、上述した実施形態2及び3の情報処理装置1に検索の機能を実装するようにしてもよい。
図17は、情報処理装置1の機能構成の一例を示す図(その3)である。図17に示されるように、情報処理装置1は、機能構成として、検索対象文書抽出部20と、文字列抽出部21と、置き換え部22と、索引情報作成部23と、検索文字列受け取り部24と、検索文字列分割部25と、検索実行部26と、検索結果出力部27と、を含む。検索対象文書抽出部20、文字列抽出部21、置き換え部22、索引情報作成部23は上述した実施形態1と同様であるため、説明を省略する。
検索文字列受け取り部24は、例えばユーザが入力装置12等を利用して入力した、又はユーザがネットワークを介して接続された他の情報処理装置等を利用して入力した、検索文字列を受け取る。
検索文字列分割部25は、検索文字列受け取り部24が受け取った検索文字列をN−gram(本実施形態の例ではN=2のバイグラム)で分割する。なお、実施形態2の情報処理装置1に検索の機能を実装する場合、検索文字列分割部25は、検索文字列受け取り部24が受け取った検索文字列を、形態素解析エンジン等を用いて、意味のある文字列に分解する。実施形態1の情報処理装置1に検索機能を実装する場合と、実施形態2の情報処理装置1に検索機能を実装する場合と、では、この点が異なるのみである。
検索実行部26は、検索文字列分割部25が分割した結果の文字列(本実施形態の例では、例えば、"あり"、"りが"、"がと"、"とう"等の文字列)と、記憶装置13のHDD上に保存されている、索引情報が含まれる索引辞書データと、に基づいて、検索文字列を含む文書の文書IDを検索する。
検索結果出力部27は、検索実行部26が検索し、取得した文書IDを検索結果として出力する。なお、検索実行部26が、上述した実施形態1の文書ID"x"等を検索結果として取得した場合、検索結果出力部27は、文書ID"x"に基づき、索引辞書データに含まれる文書番号変換情報を検索し、文書ID"x"に対応する文書番号のグループ("1、2、3、5、6、9、10")を検索結果として出力する。なお、検索結果出力部27は、文書番号のグループ(又は文書番号)を出力する代わりに、文書番号が指し示す文書の題名等の属性情報を検索結果として出力するようにしてもよい。なお、文書番号に対応する文書の属性情報は、記憶装置13のHDD等に記憶されているものとする。
図18は、検索処理の一例を示すフローチャートである。
ステップS30において、検索文字列受け取り部24は、例えばユーザが入力装置12等を利用して入力した、又はユーザがネットワークを介して接続された他の情報処理装置等を利用して入力した、検索文字列を受け取る。
ステップS31において、検索文字列分割部25は、ステップS30で受け取られた検索文字列をN−gram(本実施形態の例ではN=2のバイグラム)で分割する。
ステップS32において、検索実行部26は、検索文字列分割部25が分割した結果の文字列(本実施形態の例では、例えば、"あり"、"りが"、"がと"、"とう"等の文字列)と、記憶装置13のHDD上に保存されている、索引情報が含まれる索引辞書データと、に基づいて、検索文字列を含む文書の文書IDを検索する。
ステップS33において、検索結果出力部27は、ステップS32で検索の結果、取得された文書ID(又は文書IDが指し示す文書の文書名等)を検索結果として例えば表示装置14又はネットワークを介して接続された他の情報処理装置等に出力する。
以上、上述した各実施形態によれば、索引(索引情報)のサイズを小さくすることができる。また、索引のサイズを小さくすることで、メモリ等の情報処理装置のリソースの消費を抑えることができる。つまり、メモリ等のリソースが比較的少ない情報処理装置であっても、大容量の文書の検索を可能とすることができる。また、索引のサイズを小さくすることで、例えば、検索実行部26が検索を実行する際、索引辞書データをHDDからRAMに読み出して検索を実行することが可能となり、検索処理の速度を高速化することができる。
以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
例えば、上述した実施形態では、文書に書かれている言語の一例として日本語を用いて説明を行ったが、本発明の実施は、これらに限定されるものではなく、文書はどのような言語で書かれていてもよい。
索引情報作成装置の一例である情報処理装置1のハードウェア構成の一例を示す図である。 情報処理装置1の機能構成の一例を示す図(その1)である。 検索対象文書抽出部20が抽出した文書を識別する文書番号と、前記文書の内容と、を示す図である。 文書間で共通する文字列と、前記文字列を含む文書の文書番号のグループと、を対応付けた情報の一例を示す図である。 共通する文字列を含む文書の文書番号のグループと、新たな文書番号と、を対応付けた情報の一例を示す図である。 文字列抽出部21によって抽出された文字列と、置き換えた新たな文字番号と、を対応付けた情報の一例を示す図である。 本実施形態に係る索引情報の一例を示す図である。 従来の方法で作成された索引情報の一例を示す図である。 索引情報作成処理の一例を示すフローチャート(その1)である。 部分文字列及び部分文字列が含まれる文書の文書番号のグループの一例を示す図である。 従来の方法で作成された索引情報の一例を示す図である。 本実施形態の方法で作成された索引情報の一例を示す図である。 情報処理装置1の機能構成の一例を示す図(その2)である。 索引情報作成部31が作成した索引情報の一例を示す図である。 置き換え部33が置き換えを行った後の索引情報の一例を示す図である。 索引情報作成処理の一例を示すフローチャート(その2)である。 情報処理装置1の機能構成の一例を示す図(その3)である。 検索処理の一例を示すフローチャートである。
符号の説明
11 CPU
12 入力装置
13 記憶装置
14 表示装置

Claims (11)

  1. 共通する文字列を含む検索対象の文書の文書番号のグループを、一つの文字或いは数値で表される新たな文書番号に置き換える置き換え手段と、
    前記文字列と、前記新たな文書番号と、に基づいて、検索の際に用いられる索引情報を作成する索引情報作成手段と、
    を有することを特徴とする索引情報作成装置。
  2. 検索対象の複数の文書から、文書間で共通する文字列を抽出する文字列抽出手段を更に有し、
    前記置き換え手段は、前記文字列抽出手段で抽出された文字列を共通して含む文書の文書番号のグループを、一つの文字或いは数値で表される新たな文書番号に置き換えることを特徴とする請求項1に記載の索引情報作成装置。
  3. 前記索引情報作成手段は、前記文字列と、前記新たな文書番号と、を対応付けて前記索引情報を作成することを特徴とする請求項1又は2に記載の索引情報作成装置。
  4. 前記索引情報作成手段は、前記文字列をN−gramで分割し、分割した語と、前記新たな文書番号と、を対応付けて前記索引情報を作成することを特徴とする請求項1又は2に記載の索引情報作成装置。
  5. 検索対象の文書に含まれる文字列と、前記文字列を含む文書の文書番号と、を対応付けて検索の際に用いられる索引情報を作成する索引情報作成手段と、
    前記索引情報作成手段で作成された複数の索引情報に共通して表れる文書番号のグループを一つの文字或いは数値で表される新たな文書番号に置き換える置き換え手段と、
    を有することを特徴とする索引情報作成装置。
  6. 前記索引情報作成手段で作成された索引情報に基づいて、複数の索引情報に共通して表れる文書番号のグループを抽出する文書番号グループ抽出手段を更に有し、
    前記置き換え手段は、前記文書番号グループ抽出手段で抽出された文書番号のグループを、一つの文字或いは数値で表される新たな文書番号に置き換えることを特徴とする請求項5に記載の索引情報作成装置。
  7. 前記置き換え手段で置き換えられた、前記文書番号のグループと、前記新たな文書番号と、の対応関係情報を記憶装置に記憶する対応関係情報記憶手段を更に有することを特徴とする請求項1乃至6の何れか1項に記載の索引情報作成装置。
  8. 索引情報作成装置における索引情報作成方法であって、
    共通する文字列を含む検索対象の文書の文書番号のグループを、一つの文字或いは数値で表される新たな文書番号に置き換える置き換えステップと、
    前記文字列と、前記新たな文書番号と、に基づいて、検索の際に用いられる索引情報を作成する索引情報作成ステップと、
    を有することを特徴とする索引情報作成方法。
  9. 索引情報作成装置における索引情報作成方法であって、
    検索対象の文書に含まれる文字列と、前記文字列を含む文書の文書番号と、を対応付けて検索の際に用いられる索引情報を作成する索引情報作成ステップと、
    前記索引情報作成ステップで作成された複数の索引情報に共通して表れる文書番号のグループを一つの文字或いは数値で表される新たな文書番号に置き換える置き換えステップと、
    を有することを特徴とする索引情報作成方法。
  10. コンピュータを、
    共通する文字列を含む検索対象の文書の文書番号のグループを、一つの文字或いは数値で表される新たな文書番号に置き換える置き換え手段と、
    前記文字列と、前記新たな文書番号と、に基づいて、検索の際に用いられる索引情報を作成する索引情報作成手段と、
    して機能させることを特徴とするプログラム。
  11. コンピュータを、
    検索対象の文書に含まれる文字列と、前記文字列を含む文書の文書番号と、を対応付けて検索の際に用いられる索引情報を作成する索引情報作成手段と、
    前記索引情報作成手段で作成された複数の索引情報に共通して表れる文書番号のグループを一つの文字或いは数値で表される新たな文書番号に置き換える置き換え手段と、
    して機能させることを特徴とするプログラム。
JP2008158477A 2008-06-17 2008-06-17 索引情報作成装置、索引情報作成方法及びプログラム Active JP5184987B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008158477A JP5184987B2 (ja) 2008-06-17 2008-06-17 索引情報作成装置、索引情報作成方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008158477A JP5184987B2 (ja) 2008-06-17 2008-06-17 索引情報作成装置、索引情報作成方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2009301511A JP2009301511A (ja) 2009-12-24
JP5184987B2 true JP5184987B2 (ja) 2013-04-17

Family

ID=41548310

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008158477A Active JP5184987B2 (ja) 2008-06-17 2008-06-17 索引情報作成装置、索引情報作成方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5184987B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5366709B2 (ja) * 2008-09-04 2013-12-11 新日鉄住金ソリューションズ株式会社 情報処理装置、共通文字列出力方法及びプログラム
JP5601121B2 (ja) * 2010-09-27 2014-10-08 カシオ計算機株式会社 Nグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001022775A (ja) * 1999-07-08 2001-01-26 Matsushita Electric Ind Co Ltd 情報検索装置、情報検索装置の情報圧縮方法および記録媒体
JP2001312517A (ja) * 2000-05-02 2001-11-09 Mitsubishi Electric Corp インデクス生成装置及び文書検索装置
JP2004192546A (ja) * 2002-12-13 2004-07-08 Nippon Telegr & Teleph Corp <Ntt> 情報検索方法、装置、プログラム、および記録媒体

Also Published As

Publication number Publication date
JP2009301511A (ja) 2009-12-24

Similar Documents

Publication Publication Date Title
JP4848317B2 (ja) データベースのインデックス作成システム、方法及びプログラム
JP5138046B2 (ja) 検索システム、検索方法およびプログラム
CN100483417C (zh) 获取限制词信息的方法、优化输出的方法和输入法系统
US20170277672A1 (en) Information processing device, information processing method, and computer program product
CN102591897A (zh) 文件检索装置以及文件检索方法
JP5577546B2 (ja) 計算機システム
JP5184987B2 (ja) 索引情報作成装置、索引情報作成方法及びプログラム
JP2012043115A (ja) 文書検索装置、文書検索方法および文書検索プログラム
JP5169456B2 (ja) 文書検索システム、文書検索方法および文書検索プログラム
JP2016018279A (ja) 文書ファイル検索プログラム、文書ファイル検索装置、文書ファイル検索方法、文書情報出力プログラム、文書情報出力装置及び文書情報出力方法
JP5162215B2 (ja) データ処理装置、データ処理方法、および、プログラム
JP2007133682A (ja) 全文検索システム、及び、その全文検索方法
JP6221275B2 (ja) 文字入力用のプログラムおよび文字入力装置
JP5494066B2 (ja) 検索装置、検索方法および検索プログラム
JP2007257149A (ja) 文書処理装置及び文書処理方法
JP5380130B2 (ja) ファイル検索装置及びファイル検索方法、並びにプログラム
US7840583B2 (en) Search device and recording medium
JP5366709B2 (ja) 情報処理装置、共通文字列出力方法及びプログラム
JP2003099429A (ja) 用語集生成装置及び用語集生成プログラム並びに用語集検索装置
JP2018181121A (ja) 分析装置、分析プログラム及び分析方法
JP5324500B2 (ja) ファイル共有装置
JP2010501927A (ja) コンテンツ検索システムを搭載した情報端末機
JP5944368B2 (ja) 情報更新装置、情報更新方法、プログラム
JP4612469B2 (ja) 漏洩源業務調査システム及び漏洩源業務調査方法
JP6476638B2 (ja) 固有用語候補抽出装置、固有用語候補抽出方法、及び固有用語候補抽出プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110615

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121225

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130117

R150 Certificate of patent or registration of utility model

Ref document number: 5184987

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160125

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250