JP5427119B2 - 類似文書検索装置、類似文書検索方法、そのプログラムおよび記録媒体 - Google Patents
類似文書検索装置、類似文書検索方法、そのプログラムおよび記録媒体 Download PDFInfo
- Publication number
- JP5427119B2 JP5427119B2 JP2010135349A JP2010135349A JP5427119B2 JP 5427119 B2 JP5427119 B2 JP 5427119B2 JP 2010135349 A JP2010135349 A JP 2010135349A JP 2010135349 A JP2010135349 A JP 2010135349A JP 5427119 B2 JP5427119 B2 JP 5427119B2
- Authority
- JP
- Japan
- Prior art keywords
- topic
- category
- vector
- importance
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
Claims (8)
- 単語とその特徴量である単語概念ベクトルの対の集合が格納された単語概念ベースと、
文書を構成する各単語について、単語概念ベースから得られた各単語の単語概念ベクトルに基づき複数の話題に分類する話題分類部と、
話題の特徴量である話題ベクトルを、話題に分類された各単語の単語概念ベクトルの重心として求める話題ベクトル計算部と、
複数の話題について、話題ベクトルに基づき複数の話題カテゴリに分類する話題カテゴリ分類部と、
或る話題カテゴリpに属する話題を含む文書の集合Pにおける、各話題カテゴリi(iは話題カテゴリ分類部で分類されたpを含む各話題カテゴリの識別子)に属する話題を含む文書の出現頻度分布P(i)と、全文書の集合Qにおける、各話題カテゴリiに属する話題を含む文書の出現頻度分布Q(i)との分布の差を、或る話題カテゴリpの重要度として、全ての話題カテゴリについて重要度を求める重要度計算部と、
2つの文書について、話題カテゴリごとに、当該話題カテゴリに属する話題の話題ベクトルの類似度を求め、これを当該話題カテゴリの重要度で正規化する計算を、全ての話題カテゴリについて実行し、その総和を当該2つの文書の類似度として求める類似度計算部と、
を備え、
予め複数の参照文書について、話題の分類、当該各話題の話題ベクトルの計算、当該各話題の話題カテゴリへの分類、及び各話題カテゴリの重要度の計算を、話題分類部、話題ベクトル計算部、話題カテゴリ分類部、及び重要度計算部においてそれぞれ実行しておき、
標本文書について、話題の分類、当該各話題の話題ベクトルの計算、及び当該各話題の前記各話題カテゴリへの分類を、話題分類部、話題ベクトル計算部、及び話題カテゴリ分類部においてそれぞれ実行し、
類似度計算部において、参照文書ごとに標本文書との類似度を求めることにより、標本文書に類似する文書を検索する類似文書検索装置。 - 単語とその特徴量である単語概念ベクトルの対の集合が格納された単語概念ベースを用い、
複数の参照文書について、
類似文書検索装置の話題分類部が、文書を構成する各単語について、単語概念ベースから得られた各単語の単語概念ベクトルに基づき複数の話題に分類する第1話題分類ステップを実行し、
類似文書検索装置の話題ベクトル計算部が、話題の特徴量である話題ベクトルを、話題に分類された各単語の単語概念ベクトルの重心として求める第1話題ベクトル計算ステップを実行し、
類似文書検索装置の話題カテゴリ分類部が、複数の話題について、話題ベクトルに基づき複数の話題カテゴリに分類する第1話題カテゴリ分類ステップを実行し、
類似文書検索装置の重要度計算部が、或る話題カテゴリpに属する話題を含む文書の集合Pにおける、各話題カテゴリi(iは話題カテゴリ分類部で分類されたpを含む各話題カテゴリの識別子)に属する話題を含む文書の出現頻度分布P(i)と、全文書の集合Qにおける、各話題カテゴリiに属する話題を含む文書の出現頻度分布Q(i)との分布の差を、或る話題カテゴリpの重要度として、全ての話題カテゴリについて重要度を求める重要度計算ステップを実行し、
標本文書について、
類似文書検索装置の話題分類部が、文書を構成する各単語について、単語概念ベースから得られた各単語の単語概念ベクトルに基づき複数の話題に分類する第2話題分類ステップを実行し、
類似文書検索装置の話題ベクトル計算部が、話題の特徴量である話題ベクトルを、話題に分類された各単語の単語概念ベクトルの重心として求める第2話題ベクトル計算ステップを実行し、
類似文書検索装置の話題カテゴリ分類部が、複数の話題について、話題ベクトルに基づき前記複数の話題カテゴリに分類する第2話題カテゴリ分類ステップを実行し、
類似文書検索装置の類似度計算部が、標本文書と参照文書について、話題カテゴリごとに、当該話題カテゴリに属する話題の話題ベクトルの類似度を求め、これを当該話題カテゴリの重要度で正規化する計算を、全ての話題カテゴリについて実行し、その総和を標本文書と当該参照文書の類似度として、全ての参照文書について標本文書との類似度を求める類似度計算ステップ
を実行する類似文書検索方法。 - 請求項1乃至3のいずれかに記載の類似文書検索装置としてコンピュータを機能させるためのプログラム。
- 請求項1乃至3のいずれかに記載の類似文書検索装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010135349A JP5427119B2 (ja) | 2010-06-14 | 2010-06-14 | 類似文書検索装置、類似文書検索方法、そのプログラムおよび記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010135349A JP5427119B2 (ja) | 2010-06-14 | 2010-06-14 | 類似文書検索装置、類似文書検索方法、そのプログラムおよび記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012003333A JP2012003333A (ja) | 2012-01-05 |
JP5427119B2 true JP5427119B2 (ja) | 2014-02-26 |
Family
ID=45535272
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010135349A Expired - Fee Related JP5427119B2 (ja) | 2010-06-14 | 2010-06-14 | 類似文書検索装置、類似文書検索方法、そのプログラムおよび記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5427119B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5758349B2 (ja) * | 2012-02-15 | 2015-08-05 | 日本電信電話株式会社 | 文書カテゴライズ装置とその方法とプログラム |
CN105488151A (zh) * | 2015-11-27 | 2016-04-13 | 小米科技有限责任公司 | 参考文档的推荐方法及装置 |
JP2019211808A (ja) * | 2018-05-31 | 2019-12-12 | 日本電信電話株式会社 | 類似性評価装置、その方法、及びプログラム |
CN117836763A (zh) * | 2021-08-26 | 2024-04-05 | 株式会社半导体能源研究所 | 文件分类系统及文件分类方法 |
-
2010
- 2010-06-14 JP JP2010135349A patent/JP5427119B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2012003333A (ja) | 2012-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11222055B2 (en) | System, computer-implemented method and computer program product for information retrieval | |
Ma et al. | Exploring performance of clustering methods on document sentiment analysis | |
Hilden | The area under the ROC curve and its competitors | |
JP2007219880A (ja) | 評判情報処理プログラム、方法及び装置 | |
CN107391921B (zh) | 一种科学文献中参考文献影响力评估方法 | |
Sohn et al. | Optimal training sets for bayesian prediction of MeSH® assignment | |
US8825641B2 (en) | Measuring duplication in search results | |
Weisser et al. | Pseudo-document simulation for comparing LDA, GSDMM and GPM topic models on short and sparse text using Twitter data | |
JP5427119B2 (ja) | 類似文書検索装置、類似文書検索方法、そのプログラムおよび記録媒体 | |
CN108334588A (zh) | 一种用户标签构建方法及装置 | |
Hajhmida et al. | Predicting mobile application breakout using sentiment analysis of Facebook posts | |
CN108681564A (zh) | 关键词和答案的确定方法、装置和计算机可读存储介质 | |
Jiang et al. | Integrating image caption information into biomedical document classification in support of biocuration | |
Bartol et al. | Nano language and distribution of article title terms according to power laws | |
CN106997340B (zh) | 词库的生成以及利用词库的文档分类方法及装置 | |
JP7041299B1 (ja) | 情報処理装置、情報処理方法および情報処理プログラム | |
Guo et al. | An opinion feature extraction approach based on a multidimensional sentence analysis model | |
Wang et al. | Improved pagerank and new indices for academic impact evaluation using AI papers as case studies | |
KR101347884B1 (ko) | 사이트 특성 단어를 이용한 연관 사이트 제공 방법 및 시스템 | |
Sharma et al. | A trend analysis of significant topics over time in machine learning research | |
Lucas et al. | Sentiment analysis and image classification in social networks with zero-shot deep learning: applications in tourism | |
Roy et al. | A tag2vec approach for questions tag suggestion on community question answering sites | |
JP5310196B2 (ja) | 分類体系改正支援プログラム、分類体系改正支援装置、および分類体系改正支援方法 | |
JP5890413B2 (ja) | 多数のデータレコードをサーチする方法及びサーチエンジン | |
KR20090093153A (ko) | 사이트 특성 단어를 이용한 연관 사이트 제공 방법 및시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121026 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130827 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130903 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131015 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131119 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131129 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5427119 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |