JP5416680B2 - 文書分割検索装置及び方法及びプログラム - Google Patents
文書分割検索装置及び方法及びプログラム Download PDFInfo
- Publication number
- JP5416680B2 JP5416680B2 JP2010266170A JP2010266170A JP5416680B2 JP 5416680 B2 JP5416680 B2 JP 5416680B2 JP 2010266170 A JP2010266170 A JP 2010266170A JP 2010266170 A JP2010266170 A JP 2010266170A JP 5416680 B2 JP5416680 B2 JP 5416680B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- keyword
- search
- topic
- topic section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
文書分割手段11の入力となる文書集合中の文書をD1,D2,…,Dnとする。各文書Djを、例えば特許文献1に記載された手法によりトピックごとに分割し、得られたトピック区間を下記(12)式とする。
キーワード・トピック区間行列生成手段12及びキーワード・文書行列生成手段22の処理を述べる。
第1検索手段13及び第2検索手段23の処理を述べる。
〈産業上の利用可能性〉
本発明は、キーワードを入力して、該キーワードの表すトピックに適合する文書を文書集合から検索する技術に適用可能である。
11…文書分割手段
12…キーワード・トピック区間行列生成手段
22…キーワード・文書行列生成手段
13…第1検索手段
23…第2検索手段
14…キーワード・トピック区間行列
24…キーワード・文書行列
Claims (5)
- 文書集合中の各文書に対し、該文書をトピックごとに分割し、得られたトピック区間で同一トピックのものを一つのトピック区間とする文書分割手段と、
各列が、全文書中のトピック区間に対応し、各行が、文書集合に含まれるキーワードに対応する、キーワード・トピック区間行列を生成し、任意のキーワードと任意のトピック区間に対し、該キーワードの該トピック区間における出現頻度に基づく重みと、トピック区間集合全体にわたる該キーワードの分布に基づく重みとを乗じた値を、該トピック区間内のキーワード数に基づく重みで除して得られる重みを、該行列の対応する要素に格納するキーワード・トピック区間行列生成手段と、
入力された検索キーワード群に対し、キーワード・トピック区間行列を参照して、該検索キーワード群がAND条件で結合されていれば、該検索キーワード群の全てを含むトピック区間または文書を検索し、該検索キーワード群がOR条件で結合されていれば、該検索キーワード群のいずれかを含むトピック区間または文書を検索し、検索された対象に対し、該対象に含まれるトピック区間と各検索キーワードとの重みに、該検索キーワードの入力時の重みを乗じた値の和を該トピック区間のスコアとし、該スコアの最大値を該対象のスコアとする第1検索手段と、を備えたことを特徴とする文書分割検索装置。 - 文書集合中の各文書に対し、該文書をトピックごとに分割し、得られたトピック区間で同一トピックのものを一つのトピック区間とする文書分割手段と、
各列が、文書集合に含まれる文書に対応し、各行が、文書集合に含まれるキーワードに対応する、キーワード・文書行列を生成し、任意のキーワードと任意の文書に対し、該キーワードの該文書における出現頻度に基づく重みと、文書集合全体にわたる該キーワードの分布に基づく重みとを乗じた値を、該文書内のキーワード数に基づく重みで除して得られる重みを、該行列の対応する要素に格納するキーワード・文書行列生成手段と、
入力された検索キーワード群に対し、キーワード・文書行列を参照して、該検索キーワード群がAND条件で結合されていれば、該検索キーワード群の全てを含む文書を検索し、該検索キーワード群がOR条件で結合されていれば、該検索キーワード群のいずれかを含む文書を検索し、検索された文書に対し、該文書と各検索キーワードとの重みに、該検索キーワードの入力時の重みを乗じた値の和を該文書のスコアとし、各検索キーワードの対が、同一トピック区間にあればスコアをそのままか増加させ、同一トピック区間になければスコアを減少させるかそのままにさせる第2検索手段と、を備えたことを特徴とする文書分割検索装置。 - 文書分割手段が、文書集合中の各文書に対し、該文書をトピックごとに分割し、得られたトピック区間で同一トピックのものを一つのトピック区間とする文書分割ステップと、
キーワード・トピック区間行列生成手段が、各列が、全文書中のトピック区間に対応し、各行が、文書集合に含まれるキーワードに対応する、キーワード・トピック区間行列を生成し、任意のキーワードと任意のトピック区間に対し、該キーワードの該トピック区間における出現頻度に基づく重みと、トピック区間集合全体にわたる該キーワードの分布に基づく重みとを乗じた値を、該トピック区間内のキーワード数に基づく重みで除して得られる重みを、該行列の対応する要素に格納するキーワード・トピック区間行列生成ステップと、
第1検索手段が、入力された検索キーワード群に対し、キーワード・トピック区間行列を参照して、該検索キーワード群がAND条件で結合されていれば、該検索キーワード群の全てを含むトピック区間または文書を検索し、該検索キーワード群がOR条件で結合されていれば、該検索キーワード群のいずれかを含むトピック区間または文書を検索し、検索された対象に対し、該対象に含まれるトピック区間と各検索キーワードとの重みに、該検索キーワードの入力時の重みを乗じた値の和を該トピック区間のスコアとし、該スコアの最大値を該対象のスコアとする第1検索ステップと、を有することを特徴とする文書分割検索方法。 - 文書分割手段が、文書集合中の各文書に対し、該文書をトピックごとに分割し、得られたトピック区間で同一トピックのものを一つのトピック区間とする文書分割ステップと、
キーワード・文書行列生成手段が、各列が、文書集合に含まれる文書に対応し、各行が、文書集合に含まれるキーワードに対応する、キーワード・文書行列を生成し、任意のキーワードと任意の文書に対し、該キーワードの該文書における出現頻度に基づく重みと、文書集合全体にわたる該キーワードの分布に基づく重みとを乗じた値を、該文書内のキーワード数に基づく重みで除して得られる重みを、該行列の対応する要素に格納するキーワード・文書行列生成ステップと、
第2検索手段が、入力された検索キーワード群に対し、キーワード・文書行列を参照して、該検索キーワード群がAND条件で結合されていれば、該検索キーワード群の全てを含む文書を検索し、該検索キーワード群がOR条件で結合されていれば、該検索キーワード群のいずれかを含む文書を検索し、検索された文書に対し、該文書と各検索キーワードとの重みに、該検索キーワードの入力時の重みを乗じた値の和を該文書のスコアとし、各検索キーワードの対が、同一トピック区間にあればスコアをそのままか増加させ、同一トピック区間になければスコアを減少させるかそのままにさせる第2検索方法と、を有することを特徴とする文書分割検索方法。 - 請求項1または2に記載された文書分割検索装置の各手段として、コンピュータを機能させるための文書分割検索プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010266170A JP5416680B2 (ja) | 2010-11-30 | 2010-11-30 | 文書分割検索装置及び方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010266170A JP5416680B2 (ja) | 2010-11-30 | 2010-11-30 | 文書分割検索装置及び方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012118657A JP2012118657A (ja) | 2012-06-21 |
JP5416680B2 true JP5416680B2 (ja) | 2014-02-12 |
Family
ID=46501427
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010266170A Expired - Fee Related JP5416680B2 (ja) | 2010-11-30 | 2010-11-30 | 文書分割検索装置及び方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5416680B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6099046B2 (ja) | 2013-06-11 | 2017-03-22 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 文を検索する装置および方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4333318B2 (ja) * | 2003-10-17 | 2009-09-16 | 日本電信電話株式会社 | 話題構造抽出装置及び話題構造抽出プログラム及び話題構造抽出プログラムを記録したコンピュータ読み取り可能な記憶媒体 |
JP5623023B2 (ja) * | 2009-03-30 | 2014-11-12 | 株式会社野村総合研究所 | アイデア整理支援装置、アイデア支援方法およびコンピュータプログラム |
-
2010
- 2010-11-30 JP JP2010266170A patent/JP5416680B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2012118657A (ja) | 2012-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Improving short text classification by learning vector representations of both words and hidden topics | |
JP6216467B2 (ja) | 視覚・意味複合ネットワーク、および当該ネットワークを形成するための方法 | |
US20080222138A1 (en) | Method and Apparatus for Constructing a Link Structure Between Documents | |
CN108647322B (zh) | 基于词网识别大量Web文本信息相似度的方法 | |
US20180341686A1 (en) | System and method for data search based on top-to-bottom similarity analysis | |
Belhadi et al. | Exploring pattern mining algorithms for hashtag retrieval problem | |
WO2010014082A1 (en) | Method and apparatus for relating datasets by using semantic vectors and keyword analyses | |
JP2013168177A (ja) | 情報提供プログラム、情報提供装置および検索サービスの提供方法 | |
Ramya et al. | DRDLC: discovering relevant documents using latent dirichlet allocation and cosine similarity | |
JP5315726B2 (ja) | 情報提供方法、情報提供装置、および情報提供プログラム | |
JP2009140263A (ja) | 用語共起度抽出装置、用語共起度抽出方法及び用語共起度抽出プログラム | |
JP5416680B2 (ja) | 文書分割検索装置及び方法及びプログラム | |
Pandit et al. | A query specific graph based approach to multi-document text summarization: simultaneous cluster and sentence ranking | |
Ouksili et al. | Using Patterns for Keyword Search in RDF Graphs. | |
JP2020113267A (ja) | リーディングリストを生成するシステム及び方法 | |
Zheng et al. | An improved focused crawler based on text keyword extraction | |
Sharma et al. | Finding similar patents through semantic expansion | |
Aggarwal et al. | Ranking of Web Documents for Domain Specific Database | |
AU2021100441A4 (en) | A method of text mining in ranking of web pages using machine learning | |
JP2011242975A (ja) | 代表語抽出装置、代表語抽出方法および代表語抽出プログラム | |
Badawi et al. | IRS for Computer Character Sequences Filtration: a new software tool and algorithm to support the IRS at tokenization process | |
Tourad et al. | A novel indexing algorithm for content-based Publish/Subscribe systems in a Big Data environment | |
Bhoi et al. | Hybrid Clustering Based Smart Crawler | |
Rodriguez | Optimizing Search Engine Efficiency with Static Index Pruning and Tiering | |
Djenouri et al. | Exploring Pattern Mining Algorithms for Hashtag Retrieval Problem |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130208 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131031 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131112 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131115 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5416680 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |