JP6805720B2 - データ検索プログラム、データ検索装置およびデータ検索方法 - Google Patents
データ検索プログラム、データ検索装置およびデータ検索方法 Download PDFInfo
- Publication number
- JP6805720B2 JP6805720B2 JP2016207216A JP2016207216A JP6805720B2 JP 6805720 B2 JP6805720 B2 JP 6805720B2 JP 2016207216 A JP2016207216 A JP 2016207216A JP 2016207216 A JP2016207216 A JP 2016207216A JP 6805720 B2 JP6805720 B2 JP 6805720B2
- Authority
- JP
- Japan
- Prior art keywords
- search
- character
- bitmap
- word
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
Description
図1および図2は、実施例に係る符号化処理の流れの一例を示す図である。図1に示すように、符号化処理は、符号化対象のテキストデータF1が日本語である場合に、CJK文字とCJK文字の出現位置に対応づけられたビットマップ型インデックスBIを生成するとともに、CJK文字の単位で符号化する。図2に示すように、符号化処理は、符号化対象のテキストデータF1が英語である場合に、英単語と英単語の出現位置に対応づけられたビットマップ型インデックスBIを生成するとともに、英単語の単位で符号化する。なお、実施例では、CJK文字を単に「文字」というものとする。英単語を単に「単語」というものとする。
図3は、実施例に係る検索処理の流れの一例を示す図である。図3に示すように、検索処理は、ビットマップ型インデックスBIに含まれるビットマップと、検索条件の文字列を構成する各文字の出現順序に対応づけて生成される検索ビットマップとの論理演算により、当該検索条件の文字列を検索する。なお、検索条件の文字列は、「検索文字列」と同義であるとする。また、以降の検索処理の説明は、図1のビットマップ型インデックスBIを参照するものとする。
図4は、実施例に係る符号化ファイルの構成例を示す図である。図4に示すように、符号化ファイルF2は、ヘッダ部と、符号化データと、トレーラ部とを有する。符号化データは、テキストデータF1の符号化された符号化コード群を記憶する。テキストデータF1が複数のファイルを含む場合には、符号化データは、例えば、ファイル1用の符号化データ、ファイル2用の符号化データなどそれぞれのファイル用の符号化データを含む。トレーラ部は、各ファイルのアドレスや全文インデックスなどを記憶する。全文インデックスは、図1および図2で示したビットマップ型インデックスBIに対応する。各ファイルのアドレスは、テキストデータF1が複数のファイルを含む場合には、複数のファイルに対応する符号化データ内のアドレスを示す。各ファイルのアドレスは、一例として、符号化データの先頭からの相対アドレスである。ヘッダ部は、例えば、符号化ファイルF2の生成に用いられた符号化アルゴリズムを識別する情報や、符号化に用いられたパラメータなどの情報を記憶し、例えば、トレーラ部に格納された各情報へのポインタなどが格納される。
図5は、実施例に係る情報処理装置の構成の一例を示す機能ブロック図である。図5に示すように、情報処理装置100は、符号化部110、検索部120および記憶部130を有する。
図5に示した符号化部110の処理手順について、図6を参照して説明する。図6は、実施例に係る符号化処理のフローチャートの一例を示す図である。
図5に示した検索部120の処理手順について、図7を参照して説明する。図7は、実施例に係る検索処理のフローチャートの一例を示す図である。なお、検索部120の処理手順の一例として、文字列を検索条件とした場合を説明するものとする。
図8は、実施例に係る文字列検索処理のフローチャートの一例を示す図である。
以下、上述の実施形態における変形例の一部を説明する。下記の変形例のみでなく、本発明の本旨を逸脱しない範囲の設計変更は適宜行われうる。
下記に、上述の実施形態に用いられるハードウェア及びソフトウェアについて説明する。図9は、コンピュータのハードウェア構成例を示す図である。コンピュータ1は、例えば、プロセッサ301、RAM(Random Access Memory)302、ROM(Read Only Memory)303、ドライブ装置304、記憶媒体305、入力インターフェース(I/F)306、入力デバイス307、出力インターフェース(I/F)308、出力デバイス309、通信インターフェース(I/F)310、SAN(Storage Area Network)インターフェース(I/F)311およびバス312などを含む。それぞれのハードウェアはバス312を介して接続されている。
110 符号化部
111 ファイルリード部
112 文字/単語取得部
113 インデックス生成部
114 符号化処理部
115 ファイルライト部
120 検索部
121 検索条件受付部
122 文字列/単語列検索部
123 検索結果出力部
130 記憶部
131 静的辞書
132 ビットマップ型インデックス
Claims (6)
- コンピュータに、
対象テキストデータを受け付け、
前記対象テキストデータに出現する文字または単語それぞれの位置に対応付けた、文字または単語ごとのビットマップデータをハッシュ化し、ハッシュ化した複数のビットマップデータを示すインデックス情報を生成するとともに、前記対象テキストデータを前記文字の単位または前記単語の単位で符号化し、
符号化された前記対象テキストデータに対する検索文字列を受け付け、
前記インデックス情報と、前記検索文字列を構成する各文字または各単語の前記検索文字列における出現順序に対応づけて生成される検索ビットマップデータとの論理演算により、前記検索文字列を検索する
処理を実行させるデータ検索プログラム。 - 該受け付けた検索文字列に文字と単語とが混在する場合には、予め定められた文字と単語との混在ルールに基づき、前記検索文字列を分解し、
前記検索する処理は、前記インデックス情報と、該分解された各文字および各単語の前記検索文字列における出現順序に対応づけて生成される検索ビットマップデータとの論理演算により、前記検索文字列を検索する
処理を特徴とする請求項1に記載のデータ検索プログラム。 - 前記検索する処理は、該生成された前記インデックス情報に含まれるハッシュ化されたビットマップデータであって前記検索文字列を構成する各文字または各単語に対応するビットマップデータを復元したビットマップデータと、前記検索文字列を構成する各文字または各単語の前記検索文字列における出現順序に対応づけて生成された検索ビットマップデータとの論理演算により、前記検索文字列を検索する
処理を実行させる請求項1に記載のデータ検索プログラム。 - 前記検索する処理は、
前記インデックス情報に対応づけられた、前記検索文字列を構成する第1の文字に対応するビットマップデータを左シフトし、左シフトした結果を示すビットマップデータと、前記インデックス情報に対応づけられた、前記検索文字列を構成する前記第1の文字に連続する第2の文字に対応するビットマップデータとをAND演算し、
AND演算した結果を示す、連続する前記第1の文字と前記第2の文字における出現順序に対応づけて生成された前記検索ビットマップデータに前記連続する前記第1の文字と前記第2の文字の出現位置が設定されていれば、前記検索ビットマップデータを左シフトし、左シフトした結果を示す前記検索ビットマップデータと、前記検索文字列を構成する前記第2の文字に連続する第3の文字に対応するビットマップデータとをAND演算することにより、前記検索文字列を検索する
処理を特徴とする請求項1から請求項3のいずれか1つに記載のデータ検索プログラム。 - 対象テキストデータを受け付ける第1の受付部と、
前記対象テキストデータに出現する文字または単語それぞれの位置に対応付けた、文字または単語ごとのビットマップデータをハッシュ化し、ハッシュ化した複数のビットマップデータを示すインデックス情報を生成するとともに、前記対象テキストデータを前記文字の単位または前記単語の単位で符号化する生成部と、
符号化された前記対象テキストデータに対する検索文字列を受け付ける第2の受付部と、
前記生成部によって生成されたインデックス情報と、前記第2の受付部によって受け付けられた検索文字列を構成する各文字または各単語の前記検索文字列における出現順序に対応づけて生成される検索ビットマップデータとの論理演算により、前記検索文字列を検索する検索部と、
を有することを特徴とするデータ検索装置。 - コンピュータが、
対象テキストデータを受け付け、
前記対象テキストデータに出現する文字または単語それぞれの位置に対応付けた、文字または単語ごとのビットマップデータをハッシュ化し、ハッシュ化した複数のビットマップデータを示すインデックス情報を生成するとともに、前記対象テキストデータを前記文字の単位または前記単語の単位で符号化し、
符号化された前記対象テキストデータに対する検索文字列を受け付け、
前記インデックス情報と、前記検索文字列を構成する各文字または各単語の前記検索文字列における出現順序に対応づけて生成される検索ビットマップデータとの論理演算により、前記検索文字列を検索する
各処理を実行するデータ検索方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016207216A JP6805720B2 (ja) | 2016-10-21 | 2016-10-21 | データ検索プログラム、データ検索装置およびデータ検索方法 |
US15/680,247 US10922343B2 (en) | 2016-10-21 | 2017-08-18 | Data search device, data search method, and recording medium |
EP17188113.9A EP3312740B1 (en) | 2016-10-21 | 2017-08-28 | Data search program, data search device, and data search method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016207216A JP6805720B2 (ja) | 2016-10-21 | 2016-10-21 | データ検索プログラム、データ検索装置およびデータ検索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018067264A JP2018067264A (ja) | 2018-04-26 |
JP6805720B2 true JP6805720B2 (ja) | 2020-12-23 |
Family
ID=59738208
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016207216A Active JP6805720B2 (ja) | 2016-10-21 | 2016-10-21 | データ検索プログラム、データ検索装置およびデータ検索方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10922343B2 (ja) |
EP (1) | EP3312740B1 (ja) |
JP (1) | JP6805720B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6805720B2 (ja) | 2016-10-21 | 2020-12-23 | 富士通株式会社 | データ検索プログラム、データ検索装置およびデータ検索方法 |
JP7059516B2 (ja) * | 2017-03-29 | 2022-04-26 | 富士通株式会社 | 符号化プログラム、符号化装置および符号化方法 |
CN111899311B (zh) * | 2019-05-06 | 2023-09-26 | 广州腾讯科技有限公司 | 元素渲染方法、装置、存储介质和计算机设备 |
Family Cites Families (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5748953A (en) * | 1989-06-14 | 1998-05-05 | Hitachi, Ltd. | Document search method wherein stored documents and search queries comprise segmented text data of spaced, nonconsecutive text elements and words segmented by predetermined symbols |
JPH05324730A (ja) * | 1992-05-27 | 1993-12-07 | Hitachi Ltd | 文書情報検索装置 |
US5329598A (en) * | 1992-07-10 | 1994-07-12 | The United States Of America As Represented By The Secretary Of Commerce | Method and apparatus for analyzing character strings |
JP3563823B2 (ja) * | 1994-06-02 | 2004-09-08 | 株式会社リコー | 文書管理装置 |
US5745745A (en) * | 1994-06-29 | 1998-04-28 | Hitachi, Ltd. | Text search method and apparatus for structured documents |
JP2693914B2 (ja) * | 1994-08-30 | 1997-12-24 | 北海道日本電気ソフトウェア株式会社 | 検索システム |
JPH08314966A (ja) * | 1995-05-19 | 1996-11-29 | Toshiba Corp | 文書検索装置のインデックス作成方法及び文書検索装置 |
JPH0936747A (ja) | 1995-07-18 | 1997-02-07 | Toshiba Corp | データ圧縮方法及びデータ圧縮装置 |
JPH10283368A (ja) * | 1997-04-10 | 1998-10-23 | Canon Inc | 情報処理装置及びその方法 |
JPH1185459A (ja) | 1997-09-01 | 1999-03-30 | Denso Corp | 文字データ符号化方法および記録媒体 |
US7016910B2 (en) * | 1999-12-30 | 2006-03-21 | Decode Genetics Ehf. | Indexing, rewriting and efficient querying of relations referencing semistructured data |
JP3918531B2 (ja) * | 2001-11-29 | 2007-05-23 | 株式会社日立製作所 | 類似文書検索方法およびシステム |
US20050086234A1 (en) | 2003-10-15 | 2005-04-21 | Sierra Wireless, Inc., A Canadian Corporation | Incremental search of keyword strings |
US7698325B1 (en) * | 2005-09-30 | 2010-04-13 | Emc Corporation | Index processing for legacy systems |
CN101354704B (zh) | 2007-07-23 | 2011-01-12 | 夏普株式会社 | 字形特征字典制作装置及具备该装置的文档图像处理装置 |
CN101354703B (zh) | 2007-07-23 | 2010-11-17 | 夏普株式会社 | 文档图像处理装置和文档图像处理方法 |
US20090028777A1 (en) | 2007-07-27 | 2009-01-29 | Aruna Zhamu | Environmentally benign chemical oxidation method of producing graphite intercalation compound, exfoliated graphite, and nano-scaled graphene platelets |
JP2009048352A (ja) | 2007-08-17 | 2009-03-05 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索装置、情報検索方法および情報検索プログラム |
WO2009066501A1 (ja) * | 2007-11-19 | 2009-05-28 | Nippon Telegraph And Telephone Corporation | 情報検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 |
US9218380B2 (en) * | 2009-12-30 | 2015-12-22 | Telecom Italia S.P.A. | Method and system for carrying out searches in a database comprising taxonomic classification of digital information contents |
IL224525A (en) | 2013-01-31 | 2017-01-31 | Verint Systems Ltd | A system and method for finding keywords in a communication mix with bitmaps |
JP6447161B2 (ja) | 2015-01-20 | 2019-01-09 | 富士通株式会社 | 意味構造検索プログラム、意味構造検索装置、及び意味構造検索方法 |
IN2015DE01753A (ja) * | 2015-06-11 | 2015-08-28 | Pradeep Varma | |
JP6551131B2 (ja) | 2015-10-09 | 2019-07-31 | 富士通株式会社 | インデックス生成プログラム、インデックス生成装置、インデックス生成方法、検索プログラム、検索装置および検索方法 |
JP6662169B2 (ja) | 2016-04-18 | 2020-03-11 | 富士通株式会社 | 符号化プログラム、符号化方法、符号化装置、検索プログラム、検索方法および検索装置 |
JP6720664B2 (ja) | 2016-04-18 | 2020-07-08 | 富士通株式会社 | インデックス生成プログラム、インデックス生成装置、インデックス生成方法、検索プログラム、検索装置および検索方法 |
JP6648620B2 (ja) | 2016-04-19 | 2020-02-14 | 富士通株式会社 | 符号化プログラム、符号化装置および符号化方法 |
JP6740845B2 (ja) | 2016-10-07 | 2020-08-19 | 富士通株式会社 | 文書符号化プログラム、情報処理装置および文書符号化方法 |
JP6805720B2 (ja) | 2016-10-21 | 2020-12-23 | 富士通株式会社 | データ検索プログラム、データ検索装置およびデータ検索方法 |
JP7003427B2 (ja) | 2017-03-24 | 2022-01-20 | 富士通株式会社 | 検索プログラム、情報処理装置および検索方法 |
JP7059516B2 (ja) | 2017-03-29 | 2022-04-26 | 富士通株式会社 | 符号化プログラム、符号化装置および符号化方法 |
-
2016
- 2016-10-21 JP JP2016207216A patent/JP6805720B2/ja active Active
-
2017
- 2017-08-18 US US15/680,247 patent/US10922343B2/en active Active
- 2017-08-28 EP EP17188113.9A patent/EP3312740B1/en active Active
Also Published As
Publication number | Publication date |
---|---|
EP3312740B1 (en) | 2019-12-18 |
US20180113932A1 (en) | 2018-04-26 |
EP3312740A1 (en) | 2018-04-25 |
US10922343B2 (en) | 2021-02-16 |
JP2018067264A (ja) | 2018-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107305586B (zh) | 索引生成方法、索引生成装置及搜索方法 | |
US10360183B2 (en) | Encoding device, encoding method, decoding device, decoding method, and computer-readable recording medium | |
US9425821B2 (en) | Converting device and converting method | |
JP6686639B2 (ja) | 符号化プログラム、符号化装置、符号化方法、復号化プログラム、復号化装置および復号化方法 | |
JP6805720B2 (ja) | データ検索プログラム、データ検索装置およびデータ検索方法 | |
US10120843B2 (en) | Generation of parsable data for deep parsing | |
US11055328B2 (en) | Non-transitory computer readable medium, encode device, and encode method | |
EP3306823B1 (en) | Encoding program, encoding apparatus and encoding method | |
US10997139B2 (en) | Search apparatus and search method | |
US20190205297A1 (en) | Index generating apparatus, index generating method, and computer-readable recording medium | |
US11323132B2 (en) | Encoding method and encoding apparatus | |
US10942934B2 (en) | Non-transitory computer-readable recording medium, encoded data searching method, and encoded data searching apparatus | |
JP4682627B2 (ja) | 文書検索装置および方法 | |
JP6805927B2 (ja) | インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法 | |
US20210357438A1 (en) | Computer-readable recording medium, index creation device, index creation method, computer-readable recording medium, search device, and search method | |
US20160210304A1 (en) | Computer-readable recording medium, information processing apparatus, and conversion process method | |
JP7396190B2 (ja) | 抽出プログラム、抽出方法及び抽出装置 | |
CN114968265A (zh) | 反混淆安卓应用源码的方法、设备和计算机可读存储介质 | |
US20190220502A1 (en) | Validation device, validation method, and computer-readable recording medium | |
JP4061283B2 (ja) | 字句をデータに変換する装置、方法及びプログラム | |
JP2005275880A (ja) | 字句をデータに変換する装置、方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190709 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200424 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200901 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201022 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201104 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201117 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6805720 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |