JP2012118657A - 文書分割検索装置及び方法及びプログラム - Google Patents
文書分割検索装置及び方法及びプログラム Download PDFInfo
- Publication number
- JP2012118657A JP2012118657A JP2010266170A JP2010266170A JP2012118657A JP 2012118657 A JP2012118657 A JP 2012118657A JP 2010266170 A JP2010266170 A JP 2010266170A JP 2010266170 A JP2010266170 A JP 2010266170A JP 2012118657 A JP2012118657 A JP 2012118657A
- Authority
- JP
- Japan
- Prior art keywords
- document
- keyword
- topic
- search
- topic section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】文書分割検索装置10は、文書分割手段11により、文書集合中の各文書に対し、該文書をトピックごとに分割し、得られたトピック区間で同一トピックのものを一つのトピック区間とし、キーワード・トピック区間行列生成手段12により、各列が全文書中のトピック区間に対応し、各行が文書集合に含まれるキーワードに対応するキーワード・トピック区間行列を生成し、第1検索手段13により、入力された検索キーワード群に対して、キーワード・トピック区間行列を参照してトピック区間毎にスコアを算出する。
【選択図】図4
Description
文書分割手段11の入力となる文書集合中の文書をD1,D2,…,Dnとする。各文書Djを、例えば特許文献1に記載された手法によりトピックごとに分割し、得られたトピック区間を下記(12)式とする。
キーワード・トピック区間行列生成手段12及びキーワード・文書行列生成手段22の処理を述べる。
第1検索手段13及び第2検索手段23の処理を述べる。
〈産業上の利用可能性〉
本発明は、キーワードを入力して、該キーワードの表すトピックに適合する文書を文書集合から検索する技術に適用可能である。
11…文書分割手段
12…キーワード・トピック区間行列生成手段
22…キーワード・文書行列生成手段
13…第1検索手段
23…第2検索手段
14…キーワード・トピック区間行列
24…キーワード・文書行列
Claims (5)
- 文書集合中の各文書に対し、該文書をトピックごとに分割し、得られたトピック区間で同一トピックのものを一つのトピック区間とする文書分割手段と、
各列が、全文書中のトピック区間に対応し、各行が、文書集合に含まれるキーワードに対応する、キーワード・トピック区間行列を生成し、任意のキーワードと任意のトピック区間に対し、該キーワードの該トピック区間における出現頻度に基づく重みと、トピック区間集合全体にわたる該キーワードの分布に基づく重みとを乗じた値を、該トピック区間内のキーワード数に基づく重みで除して得られる重みを、該行列の対応する要素に格納するキーワード・トピック区間行列生成手段と、
入力された検索キーワード群に対し、キーワード・トピック区間行列を参照して、該検索キーワード群がAND条件で結合されていれば、該検索キーワード群の全てを含むトピック区間または文書を検索し、該検索キーワード群がOR条件で結合されていれば、該検索キーワード群のいずれかを含むトピック区間または文書を検索し、検索された対象に対し、該対象に含まれるトピック区間と各検索キーワードとの重みに、該検索キーワードの入力時の重みを乗じた値の和を該トピック区間のスコアとし、該スコアの最大値を該対象のスコアとする第1検索手段と、を備えたことを特徴とする文書分割検索装置。 - 文書集合中の各文書に対し、該文書をトピックごとに分割し、得られたトピック区間で同一トピックのものを一つのトピック区間とする文書分割手段と、
各列が、文書集合に含まれる文書に対応し、各行が、文書集合に含まれるキーワードに対応する、キーワード・文書行列を生成し、任意のキーワードと任意の文書に対し、該キーワードの該文書における出現頻度に基づく重みと、文書集合全体にわたる該キーワードの分布に基づく重みとを乗じた値を、該文書内のキーワード数に基づく重みで除して得られる重みを、該行列の対応する要素に格納するキーワード・文書行列生成手段と、
入力された検索キーワード群に対し、キーワード・文書行列を参照して、該検索キーワード群がAND条件で結合されていれば、該検索キーワード群の全てを含む文書を検索し、該検索キーワード群がOR条件で結合されていれば、該検索キーワード群のいずれかを含む文書を検索し、検索された文書に対し、該文書と各検索キーワードとの重みに、該検索キーワードの入力時の重みを乗じた値の和を該文書のスコアとし、各検索キーワードの対が、同一トピック区間にあればスコアをそのままか増加させ、同一トピック区間になければスコアを減少させるかそのままにさせる第2検索手段と、を備えたことを特徴とする文書分割検索装置。 - 文書分割手段が、文書集合中の各文書に対し、該文書をトピックごとに分割し、得られたトピック区間で同一トピックのものを一つのトピック区間とする文書分割ステップと、
キーワード・トピック区間行列生成手段が、各列が、全文書中のトピック区間に対応し、各行が、文書集合に含まれるキーワードに対応する、キーワード・トピック区間行列を生成し、任意のキーワードと任意のトピック区間に対し、該キーワードの該トピック区間における出現頻度に基づく重みと、トピック区間集合全体にわたる該キーワードの分布に基づく重みとを乗じた値を、該トピック区間内のキーワード数に基づく重みで除して得られる重みを、該行列の対応する要素に格納するキーワード・トピック区間行列生成ステップと、
第1検索手段が、入力された検索キーワード群に対し、キーワード・トピック区間行列を参照して、該検索キーワード群がAND条件で結合されていれば、該検索キーワード群の全てを含むトピック区間または文書を検索し、該検索キーワード群がOR条件で結合されていれば、該検索キーワード群のいずれかを含むトピック区間または文書を検索し、検索された対象に対し、該対象に含まれるトピック区間と各検索キーワードとの重みに、該検索キーワードの入力時の重みを乗じた値の和を該トピック区間のスコアとし、該スコアの最大値を該対象のスコアとする第1検索ステップと、を有することを特徴とする文書分割検索方法。 - 文書分割手段が、文書集合中の各文書に対し、該文書をトピックごとに分割し、得られたトピック区間で同一トピックのものを一つのトピック区間とする文書分割ステップと、
キーワード・文書行列生成手段が、各列が、文書集合に含まれる文書に対応し、各行が、文書集合に含まれるキーワードに対応する、キーワード・文書行列を生成し、任意のキーワードと任意の文書に対し、該キーワードの該文書における出現頻度に基づく重みと、文書集合全体にわたる該キーワードの分布に基づく重みとを乗じた値を、該文書内のキーワード数に基づく重みで除して得られる重みを、該行列の対応する要素に格納するキーワード・文書行列生成ステップと、
第2検索手段が、入力された検索キーワード群に対し、キーワード・文書行列を参照して、該検索キーワード群がAND条件で結合されていれば、該検索キーワード群の全てを含む文書を検索し、該検索キーワード群がOR条件で結合されていれば、該検索キーワード群のいずれかを含む文書を検索し、検索された文書に対し、該文書と各検索キーワードとの重みに、該検索キーワードの入力時の重みを乗じた値の和を該文書のスコアとし、各検索キーワードの対が、同一トピック区間にあればスコアをそのままか増加させ、同一トピック区間になければスコアを減少させるかそのままにさせる第2検索方法と、を有することを特徴とする文書分割検索方法。 - 請求項1または2に記載された文書分割検索装置の各手段として、コンピュータを機能させるための文書分割検索プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010266170A JP5416680B2 (ja) | 2010-11-30 | 2010-11-30 | 文書分割検索装置及び方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010266170A JP5416680B2 (ja) | 2010-11-30 | 2010-11-30 | 文書分割検索装置及び方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012118657A true JP2012118657A (ja) | 2012-06-21 |
JP5416680B2 JP5416680B2 (ja) | 2014-02-12 |
Family
ID=46501427
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010266170A Expired - Fee Related JP5416680B2 (ja) | 2010-11-30 | 2010-11-30 | 文書分割検索装置及び方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5416680B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9767186B2 (en) | 2013-06-11 | 2017-09-19 | International Business Machines Corporation | Retrieving a specific sentence from a document |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4333318B2 (ja) * | 2003-10-17 | 2009-09-16 | 日本電信電話株式会社 | 話題構造抽出装置及び話題構造抽出プログラム及び話題構造抽出プログラムを記録したコンピュータ読み取り可能な記憶媒体 |
JP2010237848A (ja) * | 2009-03-30 | 2010-10-21 | Nomura Research Institute Ltd | アイデア整理支援装置、アイデア支援方法およびコンピュータプログラム |
-
2010
- 2010-11-30 JP JP2010266170A patent/JP5416680B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4333318B2 (ja) * | 2003-10-17 | 2009-09-16 | 日本電信電話株式会社 | 話題構造抽出装置及び話題構造抽出プログラム及び話題構造抽出プログラムを記録したコンピュータ読み取り可能な記憶媒体 |
JP2010237848A (ja) * | 2009-03-30 | 2010-10-21 | Nomura Research Institute Ltd | アイデア整理支援装置、アイデア支援方法およびコンピュータプログラム |
Non-Patent Citations (2)
Title |
---|
CSNG200400018001; 北 研二: 情報検索アルゴリズム , 20020101, p.33-40, 共立出版株式会社 * |
JPN6013056068; 北 研二: 情報検索アルゴリズム , 20020101, p.33-40, 共立出版株式会社 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9767186B2 (en) | 2013-06-11 | 2017-09-19 | International Business Machines Corporation | Retrieving a specific sentence from a document |
Also Published As
Publication number | Publication date |
---|---|
JP5416680B2 (ja) | 2014-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Improving short text classification by learning vector representations of both words and hidden topics | |
US8533203B2 (en) | Identifying synonyms of entities using a document collection | |
JP6216467B2 (ja) | 視覚・意味複合ネットワーク、および当該ネットワークを形成するための方法 | |
US20080222138A1 (en) | Method and Apparatus for Constructing a Link Structure Between Documents | |
US20200250212A1 (en) | Methods and Systems for Searching, Reviewing and Organizing Data Using Hierarchical Agglomerative Clustering | |
CN104484380A (zh) | 个性化搜索方法及装置 | |
CA2789052A1 (en) | Methods and systems for investigation of compositions of ontological subjects | |
JP5952711B2 (ja) | 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法 | |
JP6047365B2 (ja) | 検索装置、検索プログラムおよび検索方法 | |
Ramesh et al. | Personalized search engine using social networking activity | |
Jebari et al. | A multi-label and adaptive genre classification of web pages | |
JP2013168177A (ja) | 情報提供プログラム、情報提供装置および検索サービスの提供方法 | |
Azzam et al. | A question routing technique using deep neural network for communities of question answering | |
Ramya et al. | DRDLC: discovering relevant documents using latent dirichlet allocation and cosine similarity | |
Islam et al. | Query expansion for bangla search engine pipilika | |
JP5315726B2 (ja) | 情報提供方法、情報提供装置、および情報提供プログラム | |
JP5416680B2 (ja) | 文書分割検索装置及び方法及びプログラム | |
JP2012104051A (ja) | 文書インデックス作成装置 | |
Pandit et al. | A query specific graph based approach to multi-document text summarization: simultaneous cluster and sentence ranking | |
JP2020113267A (ja) | リーディングリストを生成するシステム及び方法 | |
JP5411802B2 (ja) | 代表語抽出装置、代表語抽出方法および代表語抽出プログラム | |
Lin et al. | Predicting next search actions with search engine query logs | |
Sharma et al. | Finding similar patents through semantic expansion | |
Pisal et al. | AskUs: An opinion search engine | |
Aggarwal et al. | Ranking of Web Documents for Domain Specific Database |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130208 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131031 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131112 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131115 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5416680 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |