JP6838471B2 - インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法 - Google Patents
インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法 Download PDFInfo
- Publication number
- JP6838471B2 JP6838471B2 JP2017079012A JP2017079012A JP6838471B2 JP 6838471 B2 JP6838471 B2 JP 6838471B2 JP 2017079012 A JP2017079012 A JP 2017079012A JP 2017079012 A JP2017079012 A JP 2017079012A JP 6838471 B2 JP6838471 B2 JP 6838471B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- sentence
- information
- logical value
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
(1)コンピュータは、複数の文を含むテキストデータから複数の単語を抽出する。
(2)コンピュータは、抽出した複数の単語それぞれより、第1論理値、第2論理値、及び第3論理値を有するインデックス情報を生成する。第1論理値は、単語を示す単語情報と、テキストデータ内におけるその単語の位置を示す位置情報とに対応付けられた、単語の存在を示す論理値である。第2論理値は、単語の構文情報と、その単語の位置を示す位置情報とに対応付けられた、単語の存在を示す論理値である。第3論理値は、単語を含む文を示す文情報と、テキストデータ内におけるその文の位置を示す位置情報とに対応付けられた、文の存在を示す論理値である。
図1は、実施形態のインデックス生成装置の機能的構成例を示している。インデックス生成装置101は、抽出部111及び生成部112を含む。抽出部111及び生成部112は、インデックス生成処理を行ってインデックス情報を生成する。
(付記1)
複数の文を含むテキストデータから複数の単語を抽出し、
前記複数の単語それぞれより、単語を示す単語情報と前記テキストデータ内における前記単語の位置を示す位置情報とに対応付けられた、前記単語の存在を示す第1論理値と、前記単語の構文情報と前記単語の位置を示す位置情報とに対応付けられた、前記単語の存在を示す第2論理値と、前記複数の文のうち前記単語を含む文を示す文情報と前記テキストデータ内における前記単語を含む文の位置を示す位置情報とに対応付けられた、前記単語を含む文の存在を示す第3論理値とを有する、インデックス情報を生成する、
処理をコンピュータに実行させるためのインデックス生成プログラム。
(付記2)
前記文情報は、前記単語を含む文の文頭又は文末を示す情報であり、前記第3論理値は、前記テキストデータ内における前記文頭又は前記文末の位置を示す位置情報に対応付けられることを特徴とする付記1記載のインデックス生成プログラム。
(付記3)
前記コンピュータは、前記テキストデータに対する構文解析を行って、前記単語の構文情報を生成することを特徴とする付記1又は2記載のインデックス生成プログラム。
(付記4)
前記単語の構文情報は、主語、述語、目的語、又は補語を示すことを特徴とする付記1乃至3のいずれか1項に記載のインデックス生成プログラム。
(付記5)
複数の文を含むテキストデータに対する検索文字列を受け付け、
前記テキストデータに含まれる複数の単語それぞれより生成されたインデックス情報であって、単語を示す単語情報と前記テキストデータ内における前記単語の位置を示す位置情報とに対応付けられた、前記単語の存在を示す第1論理値と、前記単語の構文情報と前記単語の位置を示す位置情報とに対応付けられた、前記単語の存在を示す第2論理値と、前記複数の文のうち前記単語を含む文を示す文情報と前記テキストデータ内における前記単語を含む文の位置を示す位置情報とに対応付けられた、前記単語を含む文の存在を示す第3論理値とを有する、前記インデックス情報を参照し、
前記インデックス情報において、前記検索文字列に含まれる検索単語に対応付けられた第4論理値と、前記検索単語の構文情報に対応付けられた第5論理値と、前記検索単語を含む文に対応付けられた第6論理値とを用いて、論理演算を行い、
前記論理演算の結果に基づく前記検索文字列の検索結果を出力する、
処理をコンピュータに実行させるためのデータ検索プログラム。
(付記6)
前記文情報は、前記単語を含む文の文頭又は文末を示す情報であり、前記第3論理値は、前記テキストデータ内における前記文頭又は前記文末の位置を示す位置情報に対応付けられることを特徴とする付記5記載のデータ検索プログラム。
(付記7)
前記コンピュータは、前記検索文字列に対する構文解析を行って、前記検索単語の構文情報を生成することを特徴とする付記5又は6記載のデータ検索プログラム。
(付記8)
前記インデックス情報における前記単語の構文情報は、主語、述語、目的語、又は補語を示し、前記検索単語の構文情報は、主語、述語、目的語、又は補語を示すことを特徴とする付記5乃至7のいずれか1項に記載のデータ検索プログラム。
(付記9)
複数の文を含むテキストデータから複数の単語を抽出する抽出部と、
前記複数の単語それぞれより、単語を示す単語情報と前記テキストデータ内における前記単語の位置を示す位置情報とに対応付けられた、前記単語の存在を示す第1論理値と、前記単語の構文情報と前記単語の位置を示す位置情報とに対応付けられた、前記単語の存在を示す第2論理値と、前記複数の文のうち前記単語を含む文を示す文情報と前記テキストデータ内における前記単語を含む文の位置を示す位置情報とに対応付けられた、前記単語を含む文の存在を示す第3論理値とを有する、インデックス情報を生成する生成部と、
備えることを特徴とするインデックス生成装置。
(付記10)
前記文情報は、前記単語を含む文の文頭又は文末を示す情報であり、前記第3論理値は、前記テキストデータ内における前記文頭又は前記文末の位置を示す位置情報に対応付けられることを特徴とする付記9記載のインデックス生成装置。
(付記11)
複数の文を含むテキストデータに含まれる複数の単語それぞれより生成されたインデックス情報であって、単語を示す単語情報と前記テキストデータ内における前記単語の位置を示す位置情報とに対応付けられた、前記単語の存在を示す第1論理値と、前記単語の構文情報と前記単語の位置を示す位置情報とに対応付けられた、前記単語の存在を示す第2論理値と、前記複数の文のうち前記単語を含む文を示す文情報と前記テキストデータ内における前記単語を含む文の位置を示す位置情報とに対応付けられた、前記単語を含む文の存在を示す第3論理値とを有する、前記インデックス情報を記憶する記憶部と、
前記テキストデータに対する検索文字列を受け付ける受付部と、
前記インデックス情報において、前記検索文字列に含まれる検索単語に対応付けられた第4論理値と、前記検索単語の構文情報に対応付けられた第5論理値と、前記検索単語を含む文に対応付けられた第6論理値とを用いて、論理演算を行う演算部と、
前記論理演算の結果に基づく前記検索文字列の検索結果を出力する出力部と、
備えることを特徴とするデータ検索装置。
(付記12)
前記文情報は、前記単語を含む文の文頭又は文末を示す情報であり、前記第3論理値は、前記テキストデータ内における前記文頭又は前記文末の位置を示す位置情報に対応付けられることを特徴とする付記5記載のデータ検索装置。
(付記13)
コンピュータが、
複数の文を含むテキストデータから複数の単語を抽出し、
前記複数の単語それぞれより、単語を示す単語情報と前記テキストデータ内における前記単語の位置を示す位置情報とに対応付けられた、前記単語の存在を示す第1論理値と、前記単語の構文情報と前記単語の位置を示す位置情報とに対応付けられた、前記単語の存在を示す第2論理値と、前記複数の文のうち前記単語を含む文を示す文情報と前記テキストデータ内における前記単語を含む文の位置を示す位置情報とに対応付けられた、前記単語を含む文の存在を示す第3論理値とを有する、インデックス情報を生成する、
ことを特徴とするインデックス生成方法。
(付記14)
コンピュータが、
複数の文を含むテキストデータに対する検索文字列を受け付け、
前記テキストデータに含まれる複数の単語それぞれより生成されたインデックス情報であって、単語を示す単語情報と前記テキストデータ内における前記単語の位置を示す位置情報とに対応付けられた、前記単語の存在を示す第1論理値と、前記単語の構文情報と前記単語の位置を示す位置情報とに対応付けられた、前記単語の存在を示す第2論理値と、前記複数の文のうち前記単語を含む文を示す文情報と前記テキストデータ内における前記単語を含む文の位置を示す位置情報とに対応付けられた、前記単語を含む文の存在を示す第3論理値とを有する、前記インデックス情報を参照し、
前記インデックス情報において、前記検索文字列に含まれる検索単語に対応付けられた第4論理値と、前記検索単語の構文情報に対応付けられた第5論理値と、前記検索単語を含む文に対応付けられた第6論理値とを用いて、論理演算を行い、
前記論理演算の結果に基づく前記検索文字列の検索結果を出力する、
ことを特徴とするデータ検索方法。
111、1201 抽出部
112 生成部
301 データ検索装置
311、501 記憶部
312 受付部
313 演算部
314 出力部
321 インデックス情報
502、1202 解析部
511 テキストデータ
512、1212 単語情報
513、1213 構文情報
514 文情報
701、702、801、901 ビット列
902、903、1001〜1008、1011〜1018 圧縮ビット列
1211 検索文字列
1214 検索結果
1801 CPU
1802 メモリ
1803 入力装置
1804 出力装置
1805 補助記憶装置
1806 媒体駆動装置
1807 ネットワーク接続装置
1808 バス
1809 可搬型記録媒体
Claims (10)
- 複数の文を含むテキストデータから複数の単語を抽出し、
前記複数の単語それぞれより、単語を示す単語情報と前記テキストデータ内における前記単語の位置を示す位置情報とに対応付けられた、前記単語の存在を示す第1論理値と、前記単語の構文情報と前記単語の位置を示す位置情報とに対応付けられた、前記単語の存在を示す第2論理値と、前記複数の文のうち前記単語を含む文を示す文情報と前記テキストデータ内における前記単語を含む文の位置を示す位置情報とに対応付けられた、前記単語を含む文の存在を示す第3論理値とを有する、インデックス情報を生成する、
処理をコンピュータに実行させるためのインデックス生成プログラム。 - 前記文情報は、前記単語を含む文の文頭又は文末を示す情報であり、前記第3論理値は、前記テキストデータ内における前記文頭又は前記文末の位置を示す位置情報に対応付けられることを特徴とする請求項1記載のインデックス生成プログラム。
- 前記コンピュータは、前記テキストデータに対する構文解析を行って、前記単語の構文情報を生成することを特徴とする請求項1又は2記載のインデックス生成プログラム。
- 複数の文を含むテキストデータに対する検索文字列を受け付け、
前記テキストデータに含まれる複数の単語それぞれより生成されたインデックス情報であって、単語を示す単語情報と前記テキストデータ内における前記単語の位置を示す位置情報とに対応付けられた、前記単語の存在を示す第1論理値と、前記単語の構文情報と前記単語の位置を示す位置情報とに対応付けられた、前記単語の存在を示す第2論理値と、前記複数の文のうち前記単語を含む文を示す文情報と前記テキストデータ内における前記単語を含む文の位置を示す位置情報とに対応付けられた、前記単語を含む文の存在を示す第3論理値とを有する、前記インデックス情報を参照し、
前記インデックス情報において、前記検索文字列に含まれる検索単語に対応付けられた第4論理値と、前記検索単語の構文情報に対応付けられた第5論理値と、前記検索単語を含む文に対応付けられた第6論理値とを用いて、論理演算を行い、
前記論理演算の結果に基づく前記検索文字列の検索結果を出力する、
処理をコンピュータに実行させるためのデータ検索プログラム。 - 前記文情報は、前記単語を含む文の文頭又は文末を示す情報であり、前記第3論理値は、前記テキストデータ内における前記文頭又は前記文末の位置を示す位置情報に対応付けられることを特徴とする請求項4記載のデータ検索プログラム。
- 前記コンピュータは、前記検索文字列に対する構文解析を行って、前記検索単語の構文情報を生成することを特徴とする請求項4又は5記載のデータ検索プログラム。
- 複数の文を含むテキストデータから複数の単語を抽出する抽出部と、
前記複数の単語それぞれより、単語を示す単語情報と前記テキストデータ内における前記単語の位置を示す位置情報とに対応付けられた、前記単語の存在を示す第1論理値と、前記単語の構文情報と前記単語の位置を示す位置情報とに対応付けられた、前記単語の存在を示す第2論理値と、前記複数の文のうち前記単語を含む文を示す文情報と前記テキストデータ内における前記単語を含む文の位置を示す位置情報とに対応付けられた、前記単語を含む文の存在を示す第3論理値とを有する、インデックス情報を生成する生成部と、
備えることを特徴とするインデックス生成装置。 - 複数の文を含むテキストデータに含まれる複数の単語それぞれより生成されたインデックス情報であって、単語を示す単語情報と前記テキストデータ内における前記単語の位置を示す位置情報とに対応付けられた、前記単語の存在を示す第1論理値と、前記単語の構文情報と前記単語の位置を示す位置情報とに対応付けられた、前記単語の存在を示す第2論理値と、前記複数の文のうち前記単語を含む文を示す文情報と前記テキストデータ内における前記単語を含む文の位置を示す位置情報とに対応付けられた、前記単語を含む文の存在を示す第3論理値とを有する、前記インデックス情報を記憶する記憶部と、
前記テキストデータに対する検索文字列を受け付ける受付部と、
前記インデックス情報において、前記検索文字列に含まれる検索単語に対応付けられた第4論理値と、前記検索単語の構文情報に対応付けられた第5論理値と、前記検索単語を含む文に対応付けられた第6論理値とを用いて、論理演算を行う演算部と、
前記論理演算の結果に基づく前記検索文字列の検索結果を出力する出力部と、
備えることを特徴とするデータ検索装置。 - コンピュータが、
複数の文を含むテキストデータから複数の単語を抽出し、
前記複数の単語それぞれより、単語を示す単語情報と前記テキストデータ内における前記単語の位置を示す位置情報とに対応付けられた、前記単語の存在を示す第1論理値と、前記単語の構文情報と前記単語の位置を示す位置情報とに対応付けられた、前記単語の存在を示す第2論理値と、前記複数の文のうち前記単語を含む文を示す文情報と前記テキストデータ内における前記単語を含む文の位置を示す位置情報とに対応付けられた、前記単語を含む文の存在を示す第3論理値とを有する、インデックス情報を生成する、
ことを特徴とするインデックス生成方法。 - コンピュータが、
複数の文を含むテキストデータに対する検索文字列を受け付け、
前記テキストデータに含まれる複数の単語それぞれより生成されたインデックス情報であって、単語を示す単語情報と前記テキストデータ内における前記単語の位置を示す位置情報とに対応付けられた、前記単語の存在を示す第1論理値と、前記単語の構文情報と前記単語の位置を示す位置情報とに対応付けられた、前記単語の存在を示す第2論理値と、前記複数の文のうち前記単語を含む文を示す文情報と前記テキストデータ内における前記単語を含む文の位置を示す位置情報とに対応付けられた、前記単語を含む文の存在を示す第3論理値とを有する、前記インデックス情報を参照し、
前記インデックス情報において、前記検索文字列に含まれる検索単語に対応付けられた第4論理値と、前記検索単語の構文情報に対応付けられた第5論理値と、前記検索単語を含む文に対応付けられた第6論理値とを用いて、論理演算を行い、
前記論理演算の結果に基づく前記検索文字列の検索結果を出力する、
ことを特徴とするデータ検索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017079012A JP6838471B2 (ja) | 2017-04-12 | 2017-04-12 | インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017079012A JP6838471B2 (ja) | 2017-04-12 | 2017-04-12 | インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018180890A JP2018180890A (ja) | 2018-11-15 |
JP6838471B2 true JP6838471B2 (ja) | 2021-03-03 |
Family
ID=64275563
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017079012A Active JP6838471B2 (ja) | 2017-04-12 | 2017-04-12 | インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6838471B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113220824B (zh) * | 2020-11-25 | 2023-01-17 | 科大讯飞股份有限公司 | 数据检索方法、装置、设备及存储介质 |
-
2017
- 2017-04-12 JP JP2017079012A patent/JP6838471B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018180890A (ja) | 2018-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4058057B2 (ja) | 日中機械翻訳装置、日中機械翻訳方法および日中機械翻訳プログラム | |
US8286171B2 (en) | Methods and systems to fingerprint textual information using word runs | |
JP6447161B2 (ja) | 意味構造検索プログラム、意味構造検索装置、及び意味構造検索方法 | |
WO2005059771A1 (ja) | 対訳判断装置、方法及びプログラム | |
US20180143954A1 (en) | Non-transitory computer-readable storage medium, encoding apparatus, and encoding method | |
JP6680126B2 (ja) | 符号化プログラム、符号化装置、符号化方法、及び検索方法 | |
CN111241496B (zh) | 确定小程序特征向量的方法、装置和电子设备 | |
CN112784009A (zh) | 一种主题词挖掘方法、装置、电子设备及存储介质 | |
JP6838471B2 (ja) | インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法 | |
JP5342760B2 (ja) | 訳語学習のためのデータを作成する装置、方法、およびプログラム | |
JP6705352B2 (ja) | 言語処理装置、言語処理方法、及び言語処理プログラム | |
JP6805720B2 (ja) | データ検索プログラム、データ検索装置およびデータ検索方法 | |
JP2010250449A (ja) | 情報処理装置、情報処理方法 | |
JP2014106707A (ja) | 単語分割装置、単語分割用辞書のデータ構造、単語分割方法、およびプログラム | |
JP6805927B2 (ja) | インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法 | |
US11842152B2 (en) | Sentence structure vectorization device, sentence structure vectorization method, and storage medium storing sentence structure vectorization program | |
JP2005258592A (ja) | フォーマット変換装置およびファイル検索装置 | |
JP7247593B2 (ja) | 生成装置、ソフトウェアロボットシステム、生成方法及び生成プログラム | |
JP2017151553A (ja) | 機械翻訳装置、機械翻訳方法、及びプログラム | |
JP2001101184A (ja) | 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体 | |
JP2008071001A (ja) | 自然言語処理装置、およびプログラム | |
JP5691558B2 (ja) | 例文検索装置、処理方法およびプログラム | |
JP2008293070A (ja) | 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム | |
JP2023132977A (ja) | 検索プログラム、装置、及び方法 | |
JP6252204B2 (ja) | 情報処理装置、意図解析方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200115 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201207 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210112 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210125 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6838471 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |