JP2018180890A - インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法 - Google Patents
インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法 Download PDFInfo
- Publication number
- JP2018180890A JP2018180890A JP2017079012A JP2017079012A JP2018180890A JP 2018180890 A JP2018180890 A JP 2018180890A JP 2017079012 A JP2017079012 A JP 2017079012A JP 2017079012 A JP2017079012 A JP 2017079012A JP 2018180890 A JP2018180890 A JP 2018180890A
- Authority
- JP
- Japan
- Prior art keywords
- word
- information
- sentence
- search
- text data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
(1)コンピュータは、複数の文を含むテキストデータから複数の単語を抽出する。
(2)コンピュータは、抽出した複数の単語それぞれより、第1論理値、第2論理値、及び第3論理値を有するインデックス情報を生成する。第1論理値は、単語を示す単語情報と、テキストデータ内におけるその単語の位置を示す位置情報とに対応付けられた、単語の存在を示す論理値である。第2論理値は、単語の構文情報と、その単語の位置を示す位置情報とに対応付けられた、単語の存在を示す論理値である。第3論理値は、単語を含む文を示す文情報と、テキストデータ内におけるその文の位置を示す位置情報とに対応付けられた、文の存在を示す論理値である。
図1は、実施形態のインデックス生成装置の機能的構成例を示している。インデックス生成装置101は、抽出部111及び生成部112を含む。抽出部111及び生成部112は、インデックス生成処理を行ってインデックス情報を生成する。
(付記1)
複数の文を含むテキストデータから複数の単語を抽出し、
前記複数の単語それぞれより、単語を示す単語情報と前記テキストデータ内における前記単語の位置を示す位置情報とに対応付けられた、前記単語の存在を示す第1論理値と、前記単語の構文情報と前記単語の位置を示す位置情報とに対応付けられた、前記単語の存在を示す第2論理値と、前記複数の文のうち前記単語を含む文を示す文情報と前記テキストデータ内における前記単語を含む文の位置を示す位置情報とに対応付けられた、前記単語を含む文の存在を示す第3論理値とを有する、インデックス情報を生成する、
処理をコンピュータに実行させるためのインデックス生成プログラム。
(付記2)
前記文情報は、前記単語を含む文の文頭又は文末を示す情報であり、前記第3論理値は、前記テキストデータ内における前記文頭又は前記文末の位置を示す位置情報に対応付けられることを特徴とする付記1記載のインデックス生成プログラム。
(付記3)
前記コンピュータは、前記テキストデータに対する構文解析を行って、前記単語の構文情報を生成することを特徴とする付記1又は2記載のインデックス生成プログラム。
(付記4)
前記単語の構文情報は、主語、述語、目的語、又は補語を示すことを特徴とする付記1乃至3のいずれか1項に記載のインデックス生成プログラム。
(付記5)
複数の文を含むテキストデータに対する検索文字列を受け付け、
前記テキストデータに含まれる複数の単語それぞれより生成されたインデックス情報であって、単語を示す単語情報と前記テキストデータ内における前記単語の位置を示す位置情報とに対応付けられた、前記単語の存在を示す第1論理値と、前記単語の構文情報と前記単語の位置を示す位置情報とに対応付けられた、前記単語の存在を示す第2論理値と、前記複数の文のうち前記単語を含む文を示す文情報と前記テキストデータ内における前記単語を含む文の位置を示す位置情報とに対応付けられた、前記単語を含む文の存在を示す第3論理値とを有する、前記インデックス情報を参照し、
前記インデックス情報において、前記検索文字列に含まれる検索単語に対応付けられた第4論理値と、前記検索単語の構文情報に対応付けられた第5論理値と、前記検索単語を含む文に対応付けられた第6論理値とを用いて、論理演算を行い、
前記論理演算の結果に基づく前記検索文字列の検索結果を出力する、
処理をコンピュータに実行させるためのデータ検索プログラム。
(付記6)
前記文情報は、前記単語を含む文の文頭又は文末を示す情報であり、前記第3論理値は、前記テキストデータ内における前記文頭又は前記文末の位置を示す位置情報に対応付けられることを特徴とする付記5記載のデータ検索プログラム。
(付記7)
前記コンピュータは、前記検索文字列に対する構文解析を行って、前記検索単語の構文情報を生成することを特徴とする付記5又は6記載のデータ検索プログラム。
(付記8)
前記インデックス情報における前記単語の構文情報は、主語、述語、目的語、又は補語を示し、前記検索単語の構文情報は、主語、述語、目的語、又は補語を示すことを特徴とする付記5乃至7のいずれか1項に記載のデータ検索プログラム。
(付記9)
複数の文を含むテキストデータから複数の単語を抽出する抽出部と、
前記複数の単語それぞれより、単語を示す単語情報と前記テキストデータ内における前記単語の位置を示す位置情報とに対応付けられた、前記単語の存在を示す第1論理値と、前記単語の構文情報と前記単語の位置を示す位置情報とに対応付けられた、前記単語の存在を示す第2論理値と、前記複数の文のうち前記単語を含む文を示す文情報と前記テキストデータ内における前記単語を含む文の位置を示す位置情報とに対応付けられた、前記単語を含む文の存在を示す第3論理値とを有する、インデックス情報を生成する生成部と、
備えることを特徴とするインデックス生成装置。
(付記10)
前記文情報は、前記単語を含む文の文頭又は文末を示す情報であり、前記第3論理値は、前記テキストデータ内における前記文頭又は前記文末の位置を示す位置情報に対応付けられることを特徴とする付記9記載のインデックス生成装置。
(付記11)
複数の文を含むテキストデータに含まれる複数の単語それぞれより生成されたインデックス情報であって、単語を示す単語情報と前記テキストデータ内における前記単語の位置を示す位置情報とに対応付けられた、前記単語の存在を示す第1論理値と、前記単語の構文情報と前記単語の位置を示す位置情報とに対応付けられた、前記単語の存在を示す第2論理値と、前記複数の文のうち前記単語を含む文を示す文情報と前記テキストデータ内における前記単語を含む文の位置を示す位置情報とに対応付けられた、前記単語を含む文の存在を示す第3論理値とを有する、前記インデックス情報を記憶する記憶部と、
前記テキストデータに対する検索文字列を受け付ける受付部と、
前記インデックス情報において、前記検索文字列に含まれる検索単語に対応付けられた第4論理値と、前記検索単語の構文情報に対応付けられた第5論理値と、前記検索単語を含む文に対応付けられた第6論理値とを用いて、論理演算を行う演算部と、
前記論理演算の結果に基づく前記検索文字列の検索結果を出力する出力部と、
備えることを特徴とするデータ検索装置。
(付記12)
前記文情報は、前記単語を含む文の文頭又は文末を示す情報であり、前記第3論理値は、前記テキストデータ内における前記文頭又は前記文末の位置を示す位置情報に対応付けられることを特徴とする付記5記載のデータ検索装置。
(付記13)
コンピュータが、
複数の文を含むテキストデータから複数の単語を抽出し、
前記複数の単語それぞれより、単語を示す単語情報と前記テキストデータ内における前記単語の位置を示す位置情報とに対応付けられた、前記単語の存在を示す第1論理値と、前記単語の構文情報と前記単語の位置を示す位置情報とに対応付けられた、前記単語の存在を示す第2論理値と、前記複数の文のうち前記単語を含む文を示す文情報と前記テキストデータ内における前記単語を含む文の位置を示す位置情報とに対応付けられた、前記単語を含む文の存在を示す第3論理値とを有する、インデックス情報を生成する、
ことを特徴とするインデックス生成方法。
(付記14)
コンピュータが、
複数の文を含むテキストデータに対する検索文字列を受け付け、
前記テキストデータに含まれる複数の単語それぞれより生成されたインデックス情報であって、単語を示す単語情報と前記テキストデータ内における前記単語の位置を示す位置情報とに対応付けられた、前記単語の存在を示す第1論理値と、前記単語の構文情報と前記単語の位置を示す位置情報とに対応付けられた、前記単語の存在を示す第2論理値と、前記複数の文のうち前記単語を含む文を示す文情報と前記テキストデータ内における前記単語を含む文の位置を示す位置情報とに対応付けられた、前記単語を含む文の存在を示す第3論理値とを有する、前記インデックス情報を参照し、
前記インデックス情報において、前記検索文字列に含まれる検索単語に対応付けられた第4論理値と、前記検索単語の構文情報に対応付けられた第5論理値と、前記検索単語を含む文に対応付けられた第6論理値とを用いて、論理演算を行い、
前記論理演算の結果に基づく前記検索文字列の検索結果を出力する、
ことを特徴とするデータ検索方法。
111、1201 抽出部
112 生成部
301 データ検索装置
311、501 記憶部
312 受付部
313 演算部
314 出力部
321 インデックス情報
502、1202 解析部
511 テキストデータ
512、1212 単語情報
513、1213 構文情報
514 文情報
701、702、801、901 ビット列
902、903、1001〜1008、1011〜1018 圧縮ビット列
1211 検索文字列
1214 検索結果
1801 CPU
1802 メモリ
1803 入力装置
1804 出力装置
1805 補助記憶装置
1806 媒体駆動装置
1807 ネットワーク接続装置
1808 バス
1809 可搬型記録媒体
Claims (10)
- 複数の文を含むテキストデータから複数の単語を抽出し、
前記複数の単語それぞれより、単語を示す単語情報と前記テキストデータ内における前記単語の位置を示す位置情報とに対応付けられた、前記単語の存在を示す第1論理値と、前記単語の構文情報と前記単語の位置を示す位置情報とに対応付けられた、前記単語の存在を示す第2論理値と、前記複数の文のうち前記単語を含む文を示す文情報と前記テキストデータ内における前記単語を含む文の位置を示す位置情報とに対応付けられた、前記単語を含む文の存在を示す第3論理値とを有する、インデックス情報を生成する、
処理をコンピュータに実行させるためのインデックス生成プログラム。 - 前記文情報は、前記単語を含む文の文頭又は文末を示す情報であり、前記第3論理値は、前記テキストデータ内における前記文頭又は前記文末の位置を示す位置情報に対応付けられることを特徴とする請求項1記載のインデックス生成プログラム。
- 前記コンピュータは、前記テキストデータに対する構文解析を行って、前記単語の構文情報を生成することを特徴とする請求項1又は2記載のインデックス生成プログラム。
- 複数の文を含むテキストデータに対する検索文字列を受け付け、
前記テキストデータに含まれる複数の単語それぞれより生成されたインデックス情報であって、単語を示す単語情報と前記テキストデータ内における前記単語の位置を示す位置情報とに対応付けられた、前記単語の存在を示す第1論理値と、前記単語の構文情報と前記単語の位置を示す位置情報とに対応付けられた、前記単語の存在を示す第2論理値と、前記複数の文のうち前記単語を含む文を示す文情報と前記テキストデータ内における前記単語を含む文の位置を示す位置情報とに対応付けられた、前記単語を含む文の存在を示す第3論理値とを有する、前記インデックス情報を参照し、
前記インデックス情報において、前記検索文字列に含まれる検索単語に対応付けられた第4論理値と、前記検索単語の構文情報に対応付けられた第5論理値と、前記検索単語を含む文に対応付けられた第6論理値とを用いて、論理演算を行い、
前記論理演算の結果に基づく前記検索文字列の検索結果を出力する、
処理をコンピュータに実行させるためのデータ検索プログラム。 - 前記文情報は、前記単語を含む文の文頭又は文末を示す情報であり、前記第3論理値は、前記テキストデータ内における前記文頭又は前記文末の位置を示す位置情報に対応付けられることを特徴とする請求項4記載のデータ検索プログラム。
- 前記コンピュータは、前記検索文字列に対する構文解析を行って、前記検索単語の構文情報を生成することを特徴とする請求項4又は5記載のデータ検索プログラム。
- 複数の文を含むテキストデータから複数の単語を抽出する抽出部と、
前記複数の単語それぞれより、単語を示す単語情報と前記テキストデータ内における前記単語の位置を示す位置情報とに対応付けられた、前記単語の存在を示す第1論理値と、前記単語の構文情報と前記単語の位置を示す位置情報とに対応付けられた、前記単語の存在を示す第2論理値と、前記複数の文のうち前記単語を含む文を示す文情報と前記テキストデータ内における前記単語を含む文の位置を示す位置情報とに対応付けられた、前記単語を含む文の存在を示す第3論理値とを有する、インデックス情報を生成する生成部と、
備えることを特徴とするインデックス生成装置。 - 複数の文を含むテキストデータに含まれる複数の単語それぞれより生成されたインデックス情報であって、単語を示す単語情報と前記テキストデータ内における前記単語の位置を示す位置情報とに対応付けられた、前記単語の存在を示す第1論理値と、前記単語の構文情報と前記単語の位置を示す位置情報とに対応付けられた、前記単語の存在を示す第2論理値と、前記複数の文のうち前記単語を含む文を示す文情報と前記テキストデータ内における前記単語を含む文の位置を示す位置情報とに対応付けられた、前記単語を含む文の存在を示す第3論理値とを有する、前記インデックス情報を記憶する記憶部と、
前記テキストデータに対する検索文字列を受け付ける受付部と、
前記インデックス情報において、前記検索文字列に含まれる検索単語に対応付けられた第4論理値と、前記検索単語の構文情報に対応付けられた第5論理値と、前記検索単語を含む文に対応付けられた第6論理値とを用いて、論理演算を行う演算部と、
前記論理演算の結果に基づく前記検索文字列の検索結果を出力する出力部と、
備えることを特徴とするデータ検索装置。 - コンピュータが、
複数の文を含むテキストデータから複数の単語を抽出し、
前記複数の単語それぞれより、単語を示す単語情報と前記テキストデータ内における前記単語の位置を示す位置情報とに対応付けられた、前記単語の存在を示す第1論理値と、前記単語の構文情報と前記単語の位置を示す位置情報とに対応付けられた、前記単語の存在を示す第2論理値と、前記複数の文のうち前記単語を含む文を示す文情報と前記テキストデータ内における前記単語を含む文の位置を示す位置情報とに対応付けられた、前記単語を含む文の存在を示す第3論理値とを有する、インデックス情報を生成する、
ことを特徴とするインデックス生成方法。 - コンピュータが、
複数の文を含むテキストデータに対する検索文字列を受け付け、
前記テキストデータに含まれる複数の単語それぞれより生成されたインデックス情報であって、単語を示す単語情報と前記テキストデータ内における前記単語の位置を示す位置情報とに対応付けられた、前記単語の存在を示す第1論理値と、前記単語の構文情報と前記単語の位置を示す位置情報とに対応付けられた、前記単語の存在を示す第2論理値と、前記複数の文のうち前記単語を含む文を示す文情報と前記テキストデータ内における前記単語を含む文の位置を示す位置情報とに対応付けられた、前記単語を含む文の存在を示す第3論理値とを有する、前記インデックス情報を参照し、
前記インデックス情報において、前記検索文字列に含まれる検索単語に対応付けられた第4論理値と、前記検索単語の構文情報に対応付けられた第5論理値と、前記検索単語を含む文に対応付けられた第6論理値とを用いて、論理演算を行い、
前記論理演算の結果に基づく前記検索文字列の検索結果を出力する、
ことを特徴とするデータ検索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017079012A JP6838471B2 (ja) | 2017-04-12 | 2017-04-12 | インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017079012A JP6838471B2 (ja) | 2017-04-12 | 2017-04-12 | インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018180890A true JP2018180890A (ja) | 2018-11-15 |
JP6838471B2 JP6838471B2 (ja) | 2021-03-03 |
Family
ID=64275563
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017079012A Active JP6838471B2 (ja) | 2017-04-12 | 2017-04-12 | インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6838471B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113220824A (zh) * | 2020-11-25 | 2021-08-06 | 科大讯飞股份有限公司 | 数据检索方法、装置、设备及存储介质 |
-
2017
- 2017-04-12 JP JP2017079012A patent/JP6838471B2/ja active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113220824A (zh) * | 2020-11-25 | 2021-08-06 | 科大讯飞股份有限公司 | 数据检索方法、装置、设备及存储介质 |
CN113220824B (zh) * | 2020-11-25 | 2023-01-17 | 科大讯飞股份有限公司 | 数据检索方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP6838471B2 (ja) | 2021-03-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10747946B2 (en) | Non-transitory computer-readable storage medium, encoding apparatus, and encoding method | |
US11334609B2 (en) | Semantic structure search device and semantic structure search method | |
JP2007257644A (ja) | 訳語候補文字列予測に基づく訳語取得のためのプログラム、方法および装置 | |
JP5054210B2 (ja) | 属性抽出装置および方法 | |
JP2009075791A (ja) | 機械翻訳を行う装置、方法、プログラムおよびシステム | |
JP6680126B2 (ja) | 符号化プログラム、符号化装置、符号化方法、及び検索方法 | |
JP2004246440A (ja) | 形態素解析装置、自然言語処理装置、形態素解析方法及びプログラム | |
JP6705352B2 (ja) | 言語処理装置、言語処理方法、及び言語処理プログラム | |
JP6805720B2 (ja) | データ検索プログラム、データ検索装置およびデータ検索方法 | |
JP5697648B2 (ja) | 単語分割装置、単語分割用辞書のデータ構造、単語分割方法、およびプログラム | |
JP6838471B2 (ja) | インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法 | |
JP2010250449A (ja) | 情報処理装置、情報処理方法 | |
JP6805927B2 (ja) | インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法 | |
US20210342534A1 (en) | Sentence structure vectorization device, sentence structure vectorization method, and storage medium storing sentence structure vectorization program | |
JP2019053262A (ja) | 学習システム | |
JP7247593B2 (ja) | 生成装置、ソフトウェアロボットシステム、生成方法及び生成プログラム | |
JP2001101184A (ja) | 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体 | |
JP6982347B1 (ja) | コンピュータ言語処理における文書抽出プログラム、意味的に類似する文書抽出方法および言語処理装置 | |
JP2019159743A (ja) | 対応関係生成プログラム、対応関係生成装置、対応関係生成方法、及び翻訳プログラム | |
WO2023112101A1 (ja) | コンピュータ言語処理における文書抽出プログラムを記憶した非一時的記憶媒体、意味的に類似する文書抽出方法および言語処理装置 | |
JP5691558B2 (ja) | 例文検索装置、処理方法およびプログラム | |
JP2715419B2 (ja) | 翻訳装置 | |
JP6784084B2 (ja) | 符号化プログラム、符号化装置、符号化方法、及び検索方法 | |
JP2008234226A (ja) | 検索装置および検索方法 | |
WO2012127805A1 (ja) | 訳語選択条件抽出システム、訳語選択条件抽出方法および訳語選択条件抽出プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200115 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201207 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210112 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210125 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6838471 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |