JP2019083477A - データ生成プログラム、データ生成方法および情報処理装置 - Google Patents
データ生成プログラム、データ生成方法および情報処理装置 Download PDFInfo
- Publication number
- JP2019083477A JP2019083477A JP2017211127A JP2017211127A JP2019083477A JP 2019083477 A JP2019083477 A JP 2019083477A JP 2017211127 A JP2017211127 A JP 2017211127A JP 2017211127 A JP2017211127 A JP 2017211127A JP 2019083477 A JP2019083477 A JP 2019083477A
- Authority
- JP
- Japan
- Prior art keywords
- index
- word
- text data
- bitmap
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/123—Storage facilities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
まず、実施例1にかかる情報処理装置10(図2を参照)が実行する処理について説明する。図1は、実施例1にかかる復元処理を説明する図である。図1に示すように、情報処理装置10は、圧縮符号に対応するビットマップ型転置インデックス(以下では、単にビットマップまたはハッシュ化ビットマップなどと記載する場合がある)を取得し、このビットマップ型転置インデックスを用いた圧縮符号の転置バッファリング処理を実行して、転置用バッファに圧縮符号を配置する。その後、情報処理装置10は、静的辞書および動的辞書を用いて、転置用バッファに圧縮符号を、格納されている順で変換することで、元のテキストデータを復元する。
図2は、実施例1にかかる情報処理装置10の機能構成を示す機能ブロック図である。図2に示すように、情報処理装置10は、通信部11、記憶部12、制御部20を有する。
図9は、処理の流れを示すフローチャートである。ここでは、静的辞書と動的辞書は、すでに記憶されているものとする。
上述したように、情報処理装置10は、オフセット付きのビットマップ型転置インデックスをもとに、圧縮符号の転置と置換、およびテキストを復元する。具体的には、情報処理装置10は、オフセット付きのビットマップ型転置インデックスのビット列の1ビットと圧縮符号のバイト列の固定3バイトを対応付け、全単語の圧縮符号の転置を繰り返す。続いて、情報処理装置10は、各圧縮符号のNULLバイトをサプレスする。その後、情報処理装置10は、固定3バイトの圧縮符号のバイト列をもとに、静的辞書と動的辞書を用いて、テキスト(文書データ)を復元する。したがって、情報処理装置10は、オフセット付きのビットマップ型転置インデックスをもとに、圧縮符号を生成し、テキストを復元することができる。
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
図10は、実施例1の情報処理装置10のハードウェア構成を示す図である。図10の例に示すように、コンピュータ400は、各種演算処理を実行するCPU401と、ユーザからのデータ入力を受け付ける入力装置402と、モニタ403とを有する。また、コンピュータ400は、記憶媒体からプログラム等を読み取る媒体読取装置404と、他の装置と接続するためのインターフェース装置405と、他の装置と無線により接続するための無線通信装置406とを有する。また、コンピュータ400は、各種情報を一時記憶するRAM407と、ハードディスク装置408とを有する。また、各装置401〜408は、バス409に接続される。
11 通信部
12 記憶部
13 転置インデックスDB
14 静的辞書
15 動的辞書
20 制御部
21 取得部
22 復元部
23 転置処理部
24 復元処理部
Claims (5)
- コンピュータに、
テキストデータより生成された、前記テキストデータに含まれる形態素それぞれを前記テキストデータにおける位置と対応づけたインデックスを参照し、
前記テキストデータにおける位置の順で、前記インデックスで対応づけられた形態素を配置する、
処理を実行させることを特徴とするデータ生成プログラム。 - 前記インデックスは、前記テキストデータに含まれる形態素それぞれを符号化した符号と、前記テキストデータにおける当該形態素を対応づけたインデックスであり、前記テキストデータにおける位置の順で、前記インデックスで対応づけられた前記符号を配置することを特徴とする請求項1に記載のデータ生成プログラム。
- 前記インデックスは、出現頻度の少ない単語に比べて、出現頻度の高い単語により短い符号が割当てられることを特徴とする請求項2に記載のデータ生成プログラム。
- コンピュータが、
テキストデータより生成された、前記テキストデータに含まれる形態素それぞれを前記テキストデータにおける位置と対応づけたインデックスを参照し、
前記テキストデータにおける位置の順で、前記インデックスで対応づけられた形態素を配置する、
処理を実行することを特徴とするデータ生成方法。 - テキストデータより生成された、前記テキストデータに含まれる形態素それぞれを前記テキストデータにおける位置と対応づけたインデックスを参照する参照部と、
前記テキストデータにおける位置の順で、前記インデックスで対応づけられた形態素を配置する配置部と
を有することを特徴とする情報処理装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017211127A JP6984321B2 (ja) | 2017-10-31 | 2017-10-31 | データ生成プログラム、データ生成方法および情報処理装置 |
US16/171,099 US10915559B2 (en) | 2017-10-31 | 2018-10-25 | Data generation method, information processing device, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017211127A JP6984321B2 (ja) | 2017-10-31 | 2017-10-31 | データ生成プログラム、データ生成方法および情報処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019083477A true JP2019083477A (ja) | 2019-05-30 |
JP6984321B2 JP6984321B2 (ja) | 2021-12-17 |
Family
ID=66243925
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017211127A Active JP6984321B2 (ja) | 2017-10-31 | 2017-10-31 | データ生成プログラム、データ生成方法および情報処理装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10915559B2 (ja) |
JP (1) | JP6984321B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2021019789A1 (ja) * | 2019-08-01 | 2021-02-04 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0546358A (ja) * | 1991-07-15 | 1993-02-26 | Sharp Corp | テキストデータの圧縮方法 |
JPH05127865A (ja) * | 1991-10-31 | 1993-05-25 | Sharp Corp | テキスト圧縮装置およびテキスト圧縮用辞書の自動構築装置 |
JPH0869476A (ja) * | 1994-08-30 | 1996-03-12 | Hokkaido Nippon Denki Software Kk | 検索システム |
JPH08180066A (ja) * | 1994-12-26 | 1996-07-12 | Toshiba Corp | インデックス作成方法、文書検索方法及び文書検索装置 |
JP2002262100A (ja) * | 2001-03-05 | 2002-09-13 | Nippon Telegr & Teleph Corp <Ntt> | 計算機画面画像符号化方法およびその実行プログラムとその実行プログラムを記録した記録媒体 |
JP2004514366A (ja) * | 2000-11-16 | 2004-05-13 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | 静的な情報知識を用いたバイナリー圧縮方法 |
JP2005251115A (ja) * | 2004-03-08 | 2005-09-15 | Shogakukan Inc | 連想検索システムおよび連想検索方法 |
JP2010211688A (ja) * | 2009-03-12 | 2010-09-24 | Canon Inc | 文書編集装置、データ処理方法及びプログラム |
JP2012064159A (ja) * | 2010-09-17 | 2012-03-29 | Casio Comput Co Ltd | Nグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラム |
US20150161096A1 (en) * | 2012-08-23 | 2015-06-11 | Sk Telecom Co., Ltd. | Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon |
JP2017073094A (ja) * | 2015-10-09 | 2017-04-13 | 富士通株式会社 | 符号化プログラム、符号化装置、符号化方法、復号化プログラム、復号化装置および復号化方法 |
JP2017194762A (ja) * | 2016-04-18 | 2017-10-26 | 富士通株式会社 | インデックス生成プログラム、インデックス生成装置、インデックス生成方法、検索プログラム、検索装置および検索方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6476647B2 (ja) | 2014-08-20 | 2019-03-06 | 富士通株式会社 | 圧縮プログラム、圧縮装置、圧縮方法、伸長プログラム、伸長装置および伸長方法 |
-
2017
- 2017-10-31 JP JP2017211127A patent/JP6984321B2/ja active Active
-
2018
- 2018-10-25 US US16/171,099 patent/US10915559B2/en active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0546358A (ja) * | 1991-07-15 | 1993-02-26 | Sharp Corp | テキストデータの圧縮方法 |
JPH05127865A (ja) * | 1991-10-31 | 1993-05-25 | Sharp Corp | テキスト圧縮装置およびテキスト圧縮用辞書の自動構築装置 |
JPH0869476A (ja) * | 1994-08-30 | 1996-03-12 | Hokkaido Nippon Denki Software Kk | 検索システム |
JPH08180066A (ja) * | 1994-12-26 | 1996-07-12 | Toshiba Corp | インデックス作成方法、文書検索方法及び文書検索装置 |
JP2004514366A (ja) * | 2000-11-16 | 2004-05-13 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | 静的な情報知識を用いたバイナリー圧縮方法 |
JP2002262100A (ja) * | 2001-03-05 | 2002-09-13 | Nippon Telegr & Teleph Corp <Ntt> | 計算機画面画像符号化方法およびその実行プログラムとその実行プログラムを記録した記録媒体 |
JP2005251115A (ja) * | 2004-03-08 | 2005-09-15 | Shogakukan Inc | 連想検索システムおよび連想検索方法 |
JP2010211688A (ja) * | 2009-03-12 | 2010-09-24 | Canon Inc | 文書編集装置、データ処理方法及びプログラム |
JP2012064159A (ja) * | 2010-09-17 | 2012-03-29 | Casio Comput Co Ltd | Nグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラム |
US20150161096A1 (en) * | 2012-08-23 | 2015-06-11 | Sk Telecom Co., Ltd. | Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon |
JP2017073094A (ja) * | 2015-10-09 | 2017-04-13 | 富士通株式会社 | 符号化プログラム、符号化装置、符号化方法、復号化プログラム、復号化装置および復号化方法 |
JP2017194762A (ja) * | 2016-04-18 | 2017-10-26 | 富士通株式会社 | インデックス生成プログラム、インデックス生成装置、インデックス生成方法、検索プログラム、検索装置および検索方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2021019789A1 (ja) * | 2019-08-01 | 2021-02-04 | ||
WO2021019789A1 (ja) * | 2019-08-01 | 2021-02-04 | 富士通株式会社 | 制御方法、制御プログラムおよび情報処理装置 |
JP7173351B2 (ja) | 2019-08-01 | 2022-11-16 | 富士通株式会社 | 制御方法、制御プログラムおよび情報処理装置 |
Also Published As
Publication number | Publication date |
---|---|
US20190130022A1 (en) | 2019-05-02 |
JP6984321B2 (ja) | 2021-12-17 |
US10915559B2 (en) | 2021-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9425821B2 (en) | Converting device and converting method | |
US9509333B2 (en) | Compression device, compression method, decompression device, decompression method, information processing system, and recording medium | |
JP6476647B2 (ja) | 圧縮プログラム、圧縮装置、圧縮方法、伸長プログラム、伸長装置および伸長方法 | |
JP2015186077A (ja) | データ圧縮を高速化する方法、並びに、データ圧縮を高速化するためのコンピュータ、及びそのコンピュータ・プログラム | |
JP2016139309A (ja) | 文字データ変換プログラム、文字データ変換装置および文字データ変換方法 | |
US9965448B2 (en) | Encoding method and information processing device | |
JP2018521537A (ja) | 仮想メモリシステムにおける圧縮されたキャッシングの改善 | |
US9479195B2 (en) | Non-transitory computer-readable recording medium, compression method, decompression method, compression device, and decompression device | |
US20220277139A1 (en) | Computer-readable recording medium, encoding device, index generating device, search device, encoding method, index generating method, and search method | |
JP6645013B2 (ja) | 符号化プログラム、符号化方法、符号化装置および伸長方法 | |
JP6984321B2 (ja) | データ生成プログラム、データ生成方法および情報処理装置 | |
JP6507682B2 (ja) | 符号化プログラム、符号化方法および符号化装置 | |
US20150248432A1 (en) | Method and system | |
JP7006462B2 (ja) | データ生成プログラム、データ生成方法および情報処理装置 | |
TW201816610A (zh) | 熵編碼之系統層級測試 | |
JP6907948B2 (ja) | ファイル生成プログラム、ファイル生成方法及びファイル生成装置 | |
JP5906906B2 (ja) | ログ管理方法、ログ管理システムおよび情報処理装置 | |
JP2016170750A (ja) | データ管理プログラム、情報処理装置およびデータ管理方法 | |
JP6135788B2 (ja) | 圧縮プログラム、圧縮方法、圧縮装置、伸張プログラム、伸張方法、伸張装置およびデータ転送システム | |
JP6512294B2 (ja) | 圧縮プログラム、圧縮方法および圧縮装置 | |
JP6476618B2 (ja) | 伸長方法、伸長プログラムおよび伸長装置 | |
JP2016134808A (ja) | データ圧縮プログラム、データ復元プログラム、データ圧縮装置、及びデータ復元装置 | |
JP5939259B2 (ja) | 照合制御プログラム、照合制御装置および照合制御方法 | |
US20160210304A1 (en) | Computer-readable recording medium, information processing apparatus, and conversion process method | |
JP2018180890A (ja) | インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200807 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210728 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210810 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211008 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211026 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211108 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6984321 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |