JP6764262B2 - 索引情報生成装置、索引情報生成方法及び索引情報生成プログラム - Google Patents
索引情報生成装置、索引情報生成方法及び索引情報生成プログラム Download PDFInfo
- Publication number
- JP6764262B2 JP6764262B2 JP2016116381A JP2016116381A JP6764262B2 JP 6764262 B2 JP6764262 B2 JP 6764262B2 JP 2016116381 A JP2016116381 A JP 2016116381A JP 2016116381 A JP2016116381 A JP 2016116381A JP 6764262 B2 JP6764262 B2 JP 6764262B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- index
- index information
- character
- combination
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
図1は、本実施形態に係る索引情報生成装置の制御ブロックを示す説明図である。図2は、索引情報に関する説明図である。図3は、本実施形態に係る索引情報生成方法に関する制御動作の一例を示すフローチャートである。図4は、索引情報生成方法に関する説明図である。
14 記憶部
15 処理部
21 索引情報生成プログラム
30 技術文書
31 要素文字列
32 組合せ文字列
33 索引文字列
34 要約文字列
35 索引情報
Claims (6)
- 文書から文字列を抽出して索引情報を生成する索引情報生成装置において、
前記文書は、
アルファベット、数字及び記号の少なくとも2つの文字種が組み合わされた組合せ文字列と、
前記組合せ文字列に含まれる文字種とは異なる文字種を含む文字列と、を含んでおり、
前記文書の形態素解析を行って品詞毎の文字列である要素文字列を抽出すると共に、前記アルファベット、前記数字及び前記記号の少なくとも2つの文字種の前記要素文字列が連続する文字列を、前記組合せ文字列として抽出し、前記組合せ文字列を索引文字列として設定し、前記索引文字列に基づいて索引情報を生成する処理部を備えることを特徴とする索引情報生成装置。 - 前記処理部は、抽出した前記組合せ文字列を含む文字列のうち、出現頻度の高い順から前記索引文字列として設定することを特徴とする請求項1に記載の索引情報生成装置。
- 前記文書は、技術文書であり、
前記組合せ文字列は、前記技術文書に含まれる部品番号または製造番号であることを特徴とする請求項1または2に記載の索引情報生成装置。 - 前記索引情報は、前記文書を要約した要約文字列をさらに含み、
前記処理部は、前記索引文字列の中から、前記要約文字列を生成するための要約用索引文字列を選定し、文書要約アルゴリズムに基づいて、選定した前記要約用索引文字列と前記文書に含まれる文字列とから、前記要約文字列を生成することを特徴とする請求項1から3のいずれか1項に記載の索引情報生成装置。 - 文書から文字列を抽出して索引情報を生成する索引情報生成方法において、
前記文書は、
アルファベット、数字及び記号の少なくとも2つの文字種を組み合わせた組合せ文字列と、
前記組合せ文字列に含まれる文字種とは異なる文字種を含む文字列と、を含んでおり、
前記文書の形態素解析を行って品詞毎の文字列である要素文字列を抽出する形態素解析工程と、
前記アルファベット、前記数字及び前記記号の少なくとも2つの文字種の前記要素文字列が連続する文字列を、前記組合せ文字列として設定する組合せ文字列設定工程と、
前記組合せ文字列設定工程により設定した前記組合せ文字列を、索引文字列として設定する索引文字列設定工程と、
前記索引文字列に基づいて索引情報を生成する索引情報生成工程と、を備えることを特徴とする索引情報生成方法。 - アルファベット、数字及び記号の少なくとも2つの文字種を組み合わせた組合せ文字列と、前記組合せ文字列に含まれる文字種とは異なる文字種を含む文字列と、を含む文書から、文字列を抽出して索引情報を生成する索引情報生成装置に、
前記文書の形態素解析を行って品詞毎の文字列である要素文字列を抽出する形態素解析工程と、
前記アルファベット、前記数字及び前記記号の少なくとも2つの文字種の前記要素文字列が連続する文字列を、前記組合せ文字列として設定する組合せ文字列設定工程と、
前記組合せ文字列設定工程により設定した前記組合せ文字列を、索引文字列として設定する索引文字列設定工程と、
前記索引文字列に基づいて索引情報を生成する索引情報生成工程と、を実行させることを特徴とする索引情報生成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016116381A JP6764262B2 (ja) | 2016-06-10 | 2016-06-10 | 索引情報生成装置、索引情報生成方法及び索引情報生成プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016116381A JP6764262B2 (ja) | 2016-06-10 | 2016-06-10 | 索引情報生成装置、索引情報生成方法及び索引情報生成プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017220161A JP2017220161A (ja) | 2017-12-14 |
JP6764262B2 true JP6764262B2 (ja) | 2020-09-30 |
Family
ID=60657680
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016116381A Active JP6764262B2 (ja) | 2016-06-10 | 2016-06-10 | 索引情報生成装置、索引情報生成方法及び索引情報生成プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6764262B2 (ja) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5161658B2 (ja) * | 2008-05-30 | 2013-03-13 | 株式会社東芝 | キーワード入力支援装置、キーワード入力支援方法及びプログラム |
JP4774081B2 (ja) * | 2008-06-11 | 2011-09-14 | ヤフー株式会社 | 文書検索システム、文書検索方法、及びプログラム |
-
2016
- 2016-06-10 JP JP2016116381A patent/JP6764262B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017220161A (ja) | 2017-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Khan et al. | A light weight stemmer for Urdu language: a scarce resourced language | |
CN101308512B (zh) | 一种基于网页的互译翻译对抽取方法及装置 | |
CN107153469B (zh) | 为输入数据搜索匹配候选项的方法、数据库创建方法、装置及计算机程序产品 | |
JP4502114B2 (ja) | データベース検索装置 | |
TWI452475B (zh) | A dictionary generating device, a dictionary generating method, a dictionary generating program product, and a computer readable memory medium storing the program | |
JP6067952B1 (ja) | 翻字処理装置、翻字処理方法、翻字処理プログラム、及び情報処理装置 | |
JP2007219620A (ja) | テキスト検索装置、テキスト検索プログラム、及びテキスト検索方法 | |
Khan et al. | Challenges in developing a rule based urdu stemmer | |
Salifou et al. | Design of a spell corrector for Hausa language | |
JP6764262B2 (ja) | 索引情報生成装置、索引情報生成方法及び索引情報生成プログラム | |
CN110413972A (zh) | 一种基于nlp技术的表名字段名智能补全方法 | |
Yahya et al. | Arabic text categorization based on Arabic Wikipedia | |
Lehal | Design and implementation of Punjabi spell checker | |
Lee et al. | Syllable-based Malay word stemmer | |
Al-Khatib et al. | A New Enhanced Arabic Light Stemmer for IR in Medical Documents. | |
Alsaad et al. | Arabic text root extraction via morphological analysis and linguistic constraints | |
US20210073258A1 (en) | Information processing apparatus and non-transitory computer readable medium | |
Thalji et al. | A novel rule-based root extraction algorithm for Arabic language | |
Al-Serhan et al. | A triliteral word roots extraction using neural network for Arabic | |
Thalji et al. | Corpus for test, compare and enhance Arabic root extraction algorithms | |
Witmer et al. | Extracting geospatial entities from wikipedia | |
QasemiZadeh et al. | Adaptive language independent spell checking using intelligent traverse on a tree | |
JP2003331214A (ja) | 文字認識誤り訂正方法、装置及びプログラム | |
Lovinger et al. | Scrubbing the web for association rules: An application in predictive text | |
JPH07230468A (ja) | キーワード自動抽出装置およびキーワード自動抽出方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190322 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200109 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200121 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200316 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200825 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200911 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6764262 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |