JP6984321B2 - データ生成プログラム、データ生成方法および情報処理装置 - Google Patents
データ生成プログラム、データ生成方法および情報処理装置 Download PDFInfo
- Publication number
- JP6984321B2 JP6984321B2 JP2017211127A JP2017211127A JP6984321B2 JP 6984321 B2 JP6984321 B2 JP 6984321B2 JP 2017211127 A JP2017211127 A JP 2017211127A JP 2017211127 A JP2017211127 A JP 2017211127A JP 6984321 B2 JP6984321 B2 JP 6984321B2
- Authority
- JP
- Japan
- Prior art keywords
- bitmap
- text data
- inverted index
- compression code
- fixed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/123—Storage facilities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
まず、実施例1にかかる情報処理装置10(図2を参照)が実行する処理について説明する。図1は、実施例1にかかる復元処理を説明する図である。図1に示すように、情報処理装置10は、圧縮符号に対応するビットマップ型転置インデックス(以下では、単にビットマップまたはハッシュ化ビットマップなどと記載する場合がある)を取得し、このビットマップ型転置インデックスを用いた圧縮符号の転置バッファリング処理を実行して、転置用バッファに圧縮符号を配置する。その後、情報処理装置10は、静的辞書および動的辞書を用いて、転置用バッファに圧縮符号を、格納されている順で変換することで、元のテキストデータを復元する。
図2は、実施例1にかかる情報処理装置10の機能構成を示す機能ブロック図である。図2に示すように、情報処理装置10は、通信部11、記憶部12、制御部20を有する。
図9は、処理の流れを示すフローチャートである。ここでは、静的辞書と動的辞書は、すでに記憶されているものとする。
上述したように、情報処理装置10は、オフセット付きのビットマップ型転置インデックスをもとに、圧縮符号の転置と置換、およびテキストを復元する。具体的には、情報処理装置10は、オフセット付きのビットマップ型転置インデックスのビット列の1ビットと圧縮符号のバイト列の固定3バイトを対応付け、全単語の圧縮符号の転置を繰り返す。続いて、情報処理装置10は、各圧縮符号のNULLバイトをサプレスする。その後、情報処理装置10は、固定3バイトの圧縮符号のバイト列をもとに、静的辞書と動的辞書を用いて、テキスト(文書データ)を復元する。したがって、情報処理装置10は、オフセット付きのビットマップ型転置インデックスをもとに、圧縮符号を生成し、テキストを復元することができる。
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
図10は、実施例1の情報処理装置10のハードウェア構成を示す図である。図10の例に示すように、コンピュータ400は、各種演算処理を実行するCPU401と、ユーザからのデータ入力を受け付ける入力装置402と、モニタ403とを有する。また、コンピュータ400は、記憶媒体からプログラム等を読み取る媒体読取装置404と、他の装置と接続するためのインターフェース装置405と、他の装置と無線により接続するための無線通信装置406とを有する。また、コンピュータ400は、各種情報を一時記憶するRAM407と、ハードディスク装置408とを有する。また、各装置401〜408は、バス409に接続される。
11 通信部
12 記憶部
13 転置インデックスDB
14 静的辞書
15 動的辞書
20 制御部
21 取得部
22 復元部
23 転置処理部
24 復元処理部
Claims (5)
- コンピュータに、
テキストデータに含まれる形態素ごとに、前記テキストデータにおける前記形態素の存否をインデックス化したビットマップ型転置インデックスから異なるハッシュ値を基に生成された、前記ビットマップ型転置インデックスのサイズを縮小した複数のハッシュ化ビットマップを用いて、前記ビットマップ型転置インデックスを復元し、
復元された前記形態素ごとの各ビットマップ型転置インデックスを参照し、
前記テキストデータにおける位置の順で、前記テキストデータに含まれる各形態素に、圧縮符号の最大バイト数で区切られた固定長領域を有する転置バッファの各固定長領域を割り当て、各固定長領域について、前記固定長領域の先頭から前記形態素を圧縮した圧縮符号を格納するとともに、前記固定長領域の未使用領域にNULLを格納する、
処理を実行させることを特徴とするデータ生成プログラム。 - 前記各ビットマップ型転置インデックスは、前記テキストデータに含まれる形態素それぞれを符号化した圧縮符号と、前記テキストデータにおける当該形態素を対応づけたインデックスであり、前記テキストデータにおける位置の順で、前記各ビットマップ型転置インデックスで対応づけられた前記圧縮符号を配置することを特徴とする請求項1に記載のデータ生成プログラム。
- 前記テキストデータを復元する場合には、前記転置バッファ内のNULLを削除して各圧縮符号を抽出した圧縮データを生成し、前記圧縮データに含まれる前記各圧縮符号を、前記形態素と前記圧縮符号とを対応付けた辞書に基づき、圧縮前の形態素に復元することで、前記テキストデータを復元する処理を、前記コンピュータに実行させることを特徴とする請求項1または2に記載のデータ生成プログラム。
- コンピュータが、
テキストデータに含まれる形態素ごとに、前記テキストデータにおける前記形態素の存否をインデックス化したビットマップ型転置インデックスから異なるハッシュ値を基に生成された、前記ビットマップ型転置インデックスのサイズを縮小した複数のハッシュ化ビットマップを用いて、前記ビットマップ型転置インデックスを復元し、
復元された前記形態素ごとの各ビットマップ型転置インデックスを参照し、
前記テキストデータにおける位置の順で、前記テキストデータに含まれる各形態素に、圧縮符号の最大バイト数で区切られた固定長領域を有する転置バッファの各固定長領域を割り当て、各固定長領域について、前記固定長領域の先頭から前記形態素を圧縮した圧縮符号を格納するとともに、前記固定長領域の未使用領域にNULLを格納する、
処理を実行することを特徴とするデータ生成方法。 - テキストデータに含まれる形態素ごとに、前記テキストデータにおける前記形態素の存否をインデックス化したビットマップ型転置インデックスから異なるハッシュ値を基に生成された、前記ビットマップ型転置インデックスのサイズを縮小した複数のハッシュ化ビットマップを用いて、前記ビットマップ型転置インデックスを復元し、
復元された前記形態素ごとの各ビットマップ型転置インデックスを参照し、
前記テキストデータにおける位置の順で、前記テキストデータに含まれる各形態素に、圧縮符号の最大バイト数で区切られた固定長領域を有する転置バッファの各固定長領域を割り当て、各固定長領域について、前記固定長領域の先頭から前記形態素を圧縮した圧縮符号を格納するとともに、前記固定長領域の未使用領域にNULLを格納する、
制御部を有することを特徴とする情報処理装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017211127A JP6984321B2 (ja) | 2017-10-31 | 2017-10-31 | データ生成プログラム、データ生成方法および情報処理装置 |
US16/171,099 US10915559B2 (en) | 2017-10-31 | 2018-10-25 | Data generation method, information processing device, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017211127A JP6984321B2 (ja) | 2017-10-31 | 2017-10-31 | データ生成プログラム、データ生成方法および情報処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019083477A JP2019083477A (ja) | 2019-05-30 |
JP6984321B2 true JP6984321B2 (ja) | 2021-12-17 |
Family
ID=66243925
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017211127A Active JP6984321B2 (ja) | 2017-10-31 | 2017-10-31 | データ生成プログラム、データ生成方法および情報処理装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10915559B2 (ja) |
JP (1) | JP6984321B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4009217A4 (en) * | 2019-08-01 | 2022-08-17 | Fujitsu Limited | CONTROL METHOD, CONTROL PROGRAM AND INFORMATION PROCESSING DEVICE |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0546358A (ja) * | 1991-07-15 | 1993-02-26 | Sharp Corp | テキストデータの圧縮方法 |
JP2729424B2 (ja) * | 1991-10-31 | 1998-03-18 | シャープ株式会社 | テキスト圧縮装置およびテキスト圧縮用辞書の自動構築装置 |
JP2693914B2 (ja) * | 1994-08-30 | 1997-12-24 | 北海道日本電気ソフトウェア株式会社 | 検索システム |
JPH08180066A (ja) * | 1994-12-26 | 1996-07-12 | Toshiba Corp | インデックス作成方法、文書検索方法及び文書検索装置 |
TW543311B (en) * | 2000-11-16 | 2003-07-21 | Ericsson Telefon Ab L M | Static information knowledge used with binary compression methods |
JP3740376B2 (ja) * | 2001-03-05 | 2006-02-01 | 日本電信電話株式会社 | 計算機画面画像符号化方法およびその実行プログラムとその実行プログラムを記録した記録媒体 |
JP2005251115A (ja) * | 2004-03-08 | 2005-09-15 | Shogakukan Inc | 連想検索システムおよび連想検索方法 |
JP2010211688A (ja) * | 2009-03-12 | 2010-09-24 | Canon Inc | 文書編集装置、データ処理方法及びプログラム |
JP5601116B2 (ja) * | 2010-09-17 | 2014-10-08 | カシオ計算機株式会社 | Nグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラム |
KR101636902B1 (ko) * | 2012-08-23 | 2016-07-06 | 에스케이텔레콤 주식회사 | 문법의 오류 검출 방법 및 이를 위한 장치 |
JP6476647B2 (ja) | 2014-08-20 | 2019-03-06 | 富士通株式会社 | 圧縮プログラム、圧縮装置、圧縮方法、伸長プログラム、伸長装置および伸長方法 |
JP6679874B2 (ja) * | 2015-10-09 | 2020-04-15 | 富士通株式会社 | 符号化プログラム、符号化装置、符号化方法、復号化プログラム、復号化装置および復号化方法 |
JP6720664B2 (ja) * | 2016-04-18 | 2020-07-08 | 富士通株式会社 | インデックス生成プログラム、インデックス生成装置、インデックス生成方法、検索プログラム、検索装置および検索方法 |
-
2017
- 2017-10-31 JP JP2017211127A patent/JP6984321B2/ja active Active
-
2018
- 2018-10-25 US US16/171,099 patent/US10915559B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2019083477A (ja) | 2019-05-30 |
US10915559B2 (en) | 2021-02-09 |
US20190130022A1 (en) | 2019-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6319740B2 (ja) | データ圧縮を高速化する方法、並びに、データ圧縮を高速化するためのコンピュータ、及びそのコンピュータ・プログラム | |
US9509333B2 (en) | Compression device, compression method, decompression device, decompression method, information processing system, and recording medium | |
US9425821B2 (en) | Converting device and converting method | |
JP2016139309A (ja) | 文字データ変換プログラム、文字データ変換装置および文字データ変換方法 | |
US20170288694A1 (en) | Computer-readable recording medium, encoding device, encoding method, decoding device, and decoding method | |
JP2018521537A (ja) | 仮想メモリシステムにおける圧縮されたキャッシングの改善 | |
US9965448B2 (en) | Encoding method and information processing device | |
US9479195B2 (en) | Non-transitory computer-readable recording medium, compression method, decompression method, compression device, and decompression device | |
JP6645013B2 (ja) | 符号化プログラム、符号化方法、符号化装置および伸長方法 | |
JP6984321B2 (ja) | データ生成プログラム、データ生成方法および情報処理装置 | |
US20150248432A1 (en) | Method and system | |
JP7006462B2 (ja) | データ生成プログラム、データ生成方法および情報処理装置 | |
JP3267504B2 (ja) | データ圧縮装置およびデータ復元装置 | |
JP6907948B2 (ja) | ファイル生成プログラム、ファイル生成方法及びファイル生成装置 | |
JP6931442B2 (ja) | 符号化プログラム、インデックス生成プログラム、検索プログラム、符号化装置、インデックス生成装置、検索装置、符号化方法、インデックス生成方法および検索方法 | |
JP2016170750A (ja) | データ管理プログラム、情報処理装置およびデータ管理方法 | |
JP5906906B2 (ja) | ログ管理方法、ログ管理システムおよび情報処理装置 | |
JP6135788B2 (ja) | 圧縮プログラム、圧縮方法、圧縮装置、伸張プログラム、伸張方法、伸張装置およびデータ転送システム | |
JP6476618B2 (ja) | 伸長方法、伸長プログラムおよび伸長装置 | |
JP6512294B2 (ja) | 圧縮プログラム、圧縮方法および圧縮装置 | |
JP2016134808A (ja) | データ圧縮プログラム、データ復元プログラム、データ圧縮装置、及びデータ復元装置 | |
US20160210304A1 (en) | Computer-readable recording medium, information processing apparatus, and conversion process method | |
US11593311B2 (en) | Compression system with longest match processing for generating compressed data | |
JP2004013680A (ja) | 文字コード圧縮・復元装置および同方法 | |
Ong et al. | Compressing Chinese text files using an adaptive Huffman coding scheme and a static dictionary of character pairs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200807 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210728 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210810 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211008 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211026 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211108 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6984321 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |