JP6740845B2 - 文書符号化プログラム、情報処理装置および文書符号化方法 - Google Patents
文書符号化プログラム、情報処理装置および文書符号化方法 Download PDFInfo
- Publication number
- JP6740845B2 JP6740845B2 JP2016199255A JP2016199255A JP6740845B2 JP 6740845 B2 JP6740845 B2 JP 6740845B2 JP 2016199255 A JP2016199255 A JP 2016199255A JP 2016199255 A JP2016199255 A JP 2016199255A JP 6740845 B2 JP6740845 B2 JP 6740845B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- word
- data
- substructure
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 29
- 230000010365 information processing Effects 0.000 title description 57
- 230000002776 aggregation Effects 0.000 claims description 68
- 238000004220 aggregation Methods 0.000 claims description 68
- 230000008569 process Effects 0.000 claims description 25
- 239000000284 extract Substances 0.000 claims description 15
- 235000019580 granularity Nutrition 0.000 description 52
- 238000004458 analytical method Methods 0.000 description 51
- 238000010586 diagram Methods 0.000 description 28
- 230000003068 static effect Effects 0.000 description 28
- 238000007781 pre-processing Methods 0.000 description 24
- 238000005065 mining Methods 0.000 description 23
- 230000006837 decompression Effects 0.000 description 12
- 238000005259 measurement Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 5
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 230000010354 integration Effects 0.000 description 4
- 239000002245 particle Substances 0.000 description 3
- 238000007621 cluster analysis Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
図3は、本実施例に係る文書処理の流れの一例を示す図である。なお、実施例1に係る文書処理では、圧縮伸長アルゴリズムがZIPであるとして説明する。
図4は、実施例1に係る情報処理装置の構成を示す機能ブロック図である。図4に示すように、情報処理装置1は、インデックス生成処理部10、前処理部20、テキストマイニング部30および記憶部40を有する。
ここで、実施例1に係る集計粒度特定処理の一例を、図6を参照して説明する。図6は、実施例1に係る集計粒度特定処理の一例を示す図である。なお、図6では、検索クエリの単語の出現数は1500である。また、ビットマップ型インデックス43には、第1章の単語の出現数として1700、第2章の単語の出現数として1300の情報が設定されている。第1章について第1節の単語の出現数として800、第2節の単語の出現数として700の情報が設定されている。第1節について第1項の単語の出現数として300、第2項の単語の出現数として250の情報が設定されている。
ここで、実施例1に係る頻度集計処理の一例を、図7を参照して説明する。図7は、実施例1に係る頻度集計処理の一例を示す図である。なお、集計粒度特定部21によって集計粒度として「章」が特定されたとする。図7では、第1章に含まれる単語の頻度を集計する場合を説明する。
図8は、実施例1に係るインデックス生成処理のフローチャートの一例を示す図である。
図9は、実施例1に係る文書処理のフローチャートの一例を示す図である。なお、図9の文書処理では、テキストマイニングの一例として、文書と検索クエリとの間の距離測定を行う場合を説明する。
図10は、実施例1に係る頻度集計処理のフローチャートの一例を示す図である。
上記実施例1によれば、情報処理装置1は、対象の文書データを単語単位で符号化する際に、対象の文書データに出現する単語それぞれについて、出現位置をビットマップデータとして対応づけたインデックス情報を生成する。情報処理装置1は、文書データに含まれる特定のサブ構造それぞれについて、インデックス情報に含まれる出現位置との関係をビットマップデータとして対応づけた文書構造情報を生成する。そして、情報処理装置1は、インデックス情報および文書構造情報を対応づけて記憶部40に保持する。かかる構成によれば、情報処理装置1は、文書データのサブ構造の単位で分析を行う場合に、文書データ単位で処理された処理結果であるインデックス情報および文書構造情報を利用することができる。すなわち、情報処理装置1は、文書データのサブ構造の単位を替えて分析を行う場合でも、その都度、文書データの字句解析などの処理を繰り返さなくても良い。
図11は、実施例2に係る情報処理装置の構成を示す機能ブロック図である。なお、実施例1の図4に示す情報処理装置1と同一の構成については同一符号を付すことで、その重複する構成および動作の説明については省略する。実施例1と実施例2とが異なるところは、集計単語抽出部51を追加した点である。
ここで、実施例2に係る前処理の一例を、図12を参照して説明する。図12は、実施例2に係る前処理の一例を示す図である。なお、図12では、集計単語抽出部51は、検索クエリから、N個の特徴語を抽出したものとする。
図13は、実施例2に係る文書処理のフローチャートの一例を示す図である。なお、図13の文書処理では、テキストマイニングの一例として、文書と検索クエリとの間の距離測定を行う場合を説明する。
上記実施例2によれば、情報処理装置1は、検索対象の文書データが対象の文書データと類似するか否かを判定する際に、検索対象の文書データに出現する単語の特徴量を算出し、特徴量に基づいて規定量より大きい特徴量を有する複数の単語を抽出する。そして、情報処理装置1は、インデックス情報および文書構造情報を用いて、該抽出した複数の単語それぞれの出現頻度を集計する。かかる構成によれば、情報処理装置1は、検索対象の文書データに含まれる複数の特徴語に対して、対象の文書データについて出現頻度を集計することで、対象の文書データのサブ構造の単位で分析を行う場合の出現頻度の集計処理をさらに高速化することができる。
なお、実施例1に係る文書処理では、圧縮伸長アルゴリズムがZIPである場合に、伸長部11が、圧縮された文書データを伸長すると説明した。しかしながら、圧縮伸長アルゴリズムはZIPに限定されず、静的辞書41および動的辞書42を用いたアルゴリズムであっても良い。すなわち、伸長部11は、圧縮された文書データを静的辞書41および動的辞書42を用いて伸長しても良い。かかる場合には、符号化部12は、静的辞書41および圧縮処理で既に生成された動的辞書42を用いて符号化すれば良い。
10 インデックス生成処理部
11 伸長部
12 符号化部
13 インデックス情報生成部
14 文書構造情報生成部
20 前処理部
21 集計粒度特定部
22 頻度集計部
30 テキストマイニング部
40 記憶部
41 静的辞書
42 動的辞書
43 ビットマップ型インデックス
51 集計単語抽出部
Claims (8)
- コンピュータに、
対象の文書データを単語単位で符号化する際に、前記文書データに出現する単語それぞれについて、出現位置をビットマップデータとして対応づけたインデックス情報を生成し、
前記文書データに含まれる特定のサブ構造それぞれについて、前記インデックス情報に含まれる前記出現位置との関係をビットマップデータとして対応づけた文書構造情報を生成し、
前記インデックス情報および前記文書構造情報を対応づけて記憶部に保持する
処理を実行させる文書符号化プログラム。 - 前記インデックス情報を生成する処理は、前記文書データに出現する単語ごとに、各単語に対応するビットマップデータの各単語の出現位置にビットを立てることで、前記インデックス情報を生成し、
前記文書構造情報を生成する処理は、前記文書データに含まれる特定のサブ構造ごとに、各サブ構造に対応するビットマップデータの各サブ構造の先頭の単語の出現位置にビットを立てることで、前記文書構造情報を生成する
ことを特徴とする請求項1に記載の文書符号化プログラム。 - 前記記憶部に保持された前記インデックス情報に含まれる単語ごとのビットマップデータと、前記記憶部に保持された前記文書構造情報に含まれる特定のサブ構造のビットマップデータを用いた論理演算により、特定のサブ構造に出現する単語ごとの出現頻度を集計する
ことを特徴とする請求項1に記載の文書符号化プログラム。 - 前記集計は、前記ビットマップデータを用いて前記特定のサブ構造に出現する単語それぞれのビットを立てて、前記特定のサブ構造に出現する単語ごとの出現頻度を集計する、ことを特徴とする請求項3に記載の文書符号化プログラム。
- 検索対象の文書データが前記対象の文書データと類似するか否かを判定する際に、前記インデックス情報および前記文書構造情報を用いて、前記検索対象の文書データに含まれる単語の数と近い数の単語を有するサブ構造を特定し、
該集計する処理は、前記インデックス情報および前記文書構造情報を用いて、該特定したサブ構造に出現する単語ごとの出現頻度を集計する
ことを特徴とする請求項3に記載の文書符号化プログラム。 - 検索対象の文書データが前記対象の文書データと類似するか否かを判定する際に、前記検索対象の文書データに出現する単語の特徴量を算出し、特徴量に基づいて規定量より大きい特徴量を有する複数の単語を抽出し、
前記インデックス情報および前記文書構造情報を用いて、抽出した単語の数と近い数の単語を有するサブ構造を特定し、
該集計する処理は、前記インデックス情報および前記文書構造情報を用いて、該特定したサブ構造に出現する複数の単語であって該抽出した複数の単語それぞれの出現頻度を集計する
ことを特徴とする請求項3に記載の文書符号化プログラム。 - 対象の文書データを単語単位で符号化する際に、前記文書データに出現する単語それぞれについて、出現位置をビットマップデータとして対応づけたインデックス情報を生成する第1の生成部と、
前記文書データに含まれる特定のサブ構造それぞれについて、前記インデックス情報に含まれる前記出現位置との関係をビットマップデータとして対応づけた文書構造情報を生成する第2の生成部と、
前記インデックス情報および前記文書構造情報を対応づけて記憶部に保持する保持部と
を有することを特徴とする情報処理装置。 - コンピュータが、
対象の文書データを単語単位で符号化する際に、前記文書データに出現する単語それぞれについて、出現位置をビットマップデータとして対応づけたインデックス情報を生成し、
前記文書データに含まれる特定のサブ構造それぞれについて、前記インデックス情報に含まれる前記出現位置との関係をビットマップデータとして対応づけた文書構造情報を生成し、
前記インデックス情報および前記文書構造情報を対応づけて記憶部に保持する
各処理を実行することを特徴とする文書符号化方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016199255A JP6740845B2 (ja) | 2016-10-07 | 2016-10-07 | 文書符号化プログラム、情報処理装置および文書符号化方法 |
US15/714,205 US20180101553A1 (en) | 2016-10-07 | 2017-09-25 | Information processing apparatus, document encoding method, and computer-readable recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016199255A JP6740845B2 (ja) | 2016-10-07 | 2016-10-07 | 文書符号化プログラム、情報処理装置および文書符号化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018060463A JP2018060463A (ja) | 2018-04-12 |
JP6740845B2 true JP6740845B2 (ja) | 2020-08-19 |
Family
ID=61829382
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016199255A Expired - Fee Related JP6740845B2 (ja) | 2016-10-07 | 2016-10-07 | 文書符号化プログラム、情報処理装置および文書符号化方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20180101553A1 (ja) |
JP (1) | JP6740845B2 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6805720B2 (ja) | 2016-10-21 | 2020-12-23 | 富士通株式会社 | データ検索プログラム、データ検索装置およびデータ検索方法 |
JP7059516B2 (ja) * | 2017-03-29 | 2022-04-26 | 富士通株式会社 | 符号化プログラム、符号化装置および符号化方法 |
US20190318118A1 (en) * | 2018-04-16 | 2019-10-17 | International Business Machines Corporation | Secure encrypted document retrieval |
JP7180132B2 (ja) * | 2018-06-12 | 2022-11-30 | 富士通株式会社 | 処理プログラム、処理方法および情報処理装置 |
US11177824B2 (en) * | 2018-07-23 | 2021-11-16 | International Business Machines Corporation | Dictionary embedded expansion procedure |
CN111753057A (zh) * | 2020-06-28 | 2020-10-09 | 青岛科技大学 | 一种提升句子相似度准确率判断的方法 |
JP7428252B2 (ja) * | 2020-07-03 | 2024-02-06 | 富士通株式会社 | 情報処理プログラム、情報処理方法および情報処理装置 |
WO2022249478A1 (ja) | 2021-05-28 | 2022-12-01 | 富士通株式会社 | 情報処理プログラム、情報処理方法および情報処理装置 |
US20230376687A1 (en) * | 2022-05-17 | 2023-11-23 | Adobe Inc. | Multimodal extraction across multiple granularities |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5745745A (en) * | 1994-06-29 | 1998-04-28 | Hitachi, Ltd. | Text search method and apparatus for structured documents |
JP5116775B2 (ja) * | 2007-11-19 | 2013-01-09 | 日本電信電話株式会社 | 情報検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 |
US8972409B2 (en) * | 2011-07-27 | 2015-03-03 | Google Inc. | Enabling search for conversations with two messages each having a query team |
-
2016
- 2016-10-07 JP JP2016199255A patent/JP6740845B2/ja not_active Expired - Fee Related
-
2017
- 2017-09-25 US US15/714,205 patent/US20180101553A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US20180101553A1 (en) | 2018-04-12 |
JP2018060463A (ja) | 2018-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6740845B2 (ja) | 文書符号化プログラム、情報処理装置および文書符号化方法 | |
EP3284029B1 (en) | Recurrent neural networks for malware analysis | |
CN107862046B (zh) | 一种基于短文本相似度的税务商品编码分类方法及系统 | |
CN107305586B (zh) | 索引生成方法、索引生成装置及搜索方法 | |
US11763583B2 (en) | Identifying matching fonts utilizing deep learning | |
JP6686639B2 (ja) | 符号化プログラム、符号化装置、符号化方法、復号化プログラム、復号化装置および復号化方法 | |
JP5812188B2 (ja) | プログラム、圧縮データ生成方法、伸張方法、情報処理装置、および記録媒体 | |
JP6834327B2 (ja) | 符号化プログラム、符号化装置および符号化方法 | |
US11055328B2 (en) | Non-transitory computer readable medium, encode device, and encode method | |
JP2017195447A (ja) | 符号化処理プログラム、符号化処理装置、符号化処理方法、復号化処理プログラム、復号化処理装置および復号化処理方法 | |
JP6805720B2 (ja) | データ検索プログラム、データ検索装置およびデータ検索方法 | |
JP2017073093A (ja) | インデックス生成プログラム、インデックス生成装置、インデックス生成方法、検索プログラム、検索装置および検索方法 | |
JP2009295097A (ja) | 情報分類装置、情報分類方法、情報処理プログラム及び記録媒体 | |
KR102289395B1 (ko) | 자카드 모델 기반의 문서 검색 장치 및 방법 | |
KR20210153912A (ko) | 키워드 빈도수와 영역 중요도 분석 기반 딥러닝 문서 분석 시스템 및 방법 | |
US11323132B2 (en) | Encoding method and encoding apparatus | |
JP6931442B2 (ja) | 符号化プログラム、インデックス生成プログラム、検索プログラム、符号化装置、インデックス生成装置、検索装置、符号化方法、インデックス生成方法および検索方法 | |
JP2018200546A (ja) | 分類用符号生成ソフトウェアを記録した記録媒体 | |
JP2022045416A (ja) | データ処理プログラム、データ処理装置、及びデータ処理方法 | |
Nguyen et al. | Decision tree algorithms for image data type identification | |
JP2018181121A (ja) | 分析装置、分析プログラム及び分析方法 | |
JP6485072B2 (ja) | 画像探索装置、画像探索方法および画像探索プログラム | |
JP6485084B2 (ja) | 画像探索装置、画像探索方法および画像探索プログラム | |
Nguyen et al. | A New Approach to Compressed File Fragment Identification | |
US20240086438A1 (en) | Non-transitory computer-readable recording medium storing information processing program, information processing method, and information processing apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190709 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200424 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200512 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200525 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200623 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200706 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6740845 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |