JP6426074B2 - 関連文書検索装置、モデル作成装置、これらの方法及びプログラム - Google Patents
関連文書検索装置、モデル作成装置、これらの方法及びプログラム Download PDFInfo
- Publication number
- JP6426074B2 JP6426074B2 JP2015195860A JP2015195860A JP6426074B2 JP 6426074 B2 JP6426074 B2 JP 6426074B2 JP 2015195860 A JP2015195860 A JP 2015195860A JP 2015195860 A JP2015195860 A JP 2015195860A JP 6426074 B2 JP6426074 B2 JP 6426074B2
- Authority
- JP
- Japan
- Prior art keywords
- similarity
- feature amount
- document
- feature
- group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
以下、図面を参照して、この関連文書検索装置及び方法の一実施形態について説明する。関連文書検索装置は、図1に示すように、検索対象文書記憶部1と、検索対象文書絞込部2と、特徴量抽出部3と、類似度スコアモデル記憶部4と、類似度スコア計算部5と、出力条件記憶部6と、出力部7とを例えば備えている。関連文書検索装置の各部が、図2の各ステップの処理を行うことにより、関連文書検索方法が実現される。
検索対象文書記憶部1には、複数の検索対象文書が記憶されている。
検索対象文書絞込部2には、文章と、検索対象文書記憶部1から読み込んだ検索対象文書とが入力される。
トピック推定技術(LDA等)の例は、参考文献2を参照のこと。
多値分類技術(多層パーセプトロン、SVC(SVM)等)の例は、参考文献3を参照のこと。
特徴量抽出部3には、入力された文章と、検索対象文書絞込部2によって選択された検索対象文書とが入力される。検索対象文書絞込部2によって選択された検索対象文書は、検索対象文書絞込部2が出力した検索対象文書IDにより特定される。
f(x)=tanh(x)
f(x)=1/(1+e-ax)
f(x)=σ1/(σ2+σ3|x|)
類似度スコアモデル記憶部4には、類似度特徴量群とその類似度特徴量群に対応する類似度スコアとの関係を表す類似度スコアモデルが記憶されている。
類似度スコア計算部5には、特徴量抽出部3で抽出された各検索対象文書に対応する類似度特徴量群と、類似度スコアモデル記憶部4から読み込んだ類似度スコアモデルが入力される。検索対象文書は、検索対象文書IDにより特定される。
出力条件記憶部6には、出力部7で用いる出力条件が記憶されている。
出力部7には、類似度スコア計算部5が出力した、類似度スコアとその類似度スコアに対応する検索対象文書IDとのペアが入力される。
以下、図面を参照して、モデル作成装置及び方法の一実施形態について説明する。モデル作成装置は、図3に示すように、学習用文書記憶部10と、特徴量抽出部8と、作成部9とを例えば備えている。モデル作成装置の各部が、図4の各ステップの処理を行うことにより、モデル作成方法が実現される。
学習用文書記憶部10には、複数の文書が記憶されている。複数の文書には、異なる2個の文書毎に類似度スコアが対応付けられている。この類似度スコアは例えば人手で予め定められたものである。複数の文書は、検索対象文書記憶部1に記憶されている検索対象文書と同じであっても異なっていてもよい。複数の文書として、互いに類似度が高い文書を記憶していてもよい。
特徴量抽出部8は、異なる2個の文書についての類似度特徴量群を抽出する(ステップ8)。抽出された類似度特徴量群は、作成部9に出力される。
作成部9は、抽出された類似度特徴量群を説明変数とし、特徴量抽出部8で抽出された類似度特徴量群に対応する類似度スコアを目的変数として回帰分析をすることにより、類似度特徴量群とその類似度特徴量群に対応する類似度スコアとの関係を表す類似度スコアモデルを作成する(ステップS9)。
関連文書検索装置及び方法並びにモデル作成装置及び方法において説明した処理は、記載の順にしたがって時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
検索対象文書絞込部2の処理は行われなくてもよい。この場合、特徴量抽出部3は、入力された文章と、検索対象文書記憶部1に記憶されている各検索対象文書とについての類似度特徴量群を抽出する。
2 検索対象文書絞込部
3 特徴量抽出部
31 第一計算部
32 第二計算部
4 類似度スコアモデル記憶部
5 類似度スコア計算部
6 出力条件記憶部
7 出力部
8 特徴量抽出部
81 第一計算部
82 第二計算部
9 作成部
10 学習用文書記憶部
Claims (8)
- ある文章とある検索対象文書とについての類似度特徴量群をそのある文章とそのある検索対象文書との間の類似度を表すキーワードマッチ方式で求まる特徴量及び文書類似性判定方式で求まる特徴量として、入力された文章と各検索対象文書とについての類似度特徴量群を抽出する特徴量抽出部と、
類似度特徴量群とその類似度特徴量群に対応する類似度スコアとの関係を表す類似度スコアモデルが記憶された類似度スコアモデル記憶部と、
上記類似度スコアモデル記憶部に記憶された類似度スコアモデルと上記抽出された類似度特徴量群とを用いて、入力された文章と各検索対象文書についての類似度スコアを計算する類似度スコア計算部と、
を含む関連文書検索装置。 - 請求項1の関連文書検索装置であって、
上記キーワードマッチ方式で求まる特徴量は複数の要素で構成されており、
上記類似度特徴量群は、上記キーワードマッチ方式で求まる特徴量を構成する複数の要素のそれぞれを正規化した特徴量と、上記文書類似性判定方式で求まる特徴量を正規化した特徴量とを結合したものである、
関連文書検索装置。 - ある文章とある文書とについての類似度特徴量群をそのある文章とそのある文書との間の類似度を表すキーワードマッチ方式で求まる特徴量及び文書類似性判定方式で求まる特徴量として、入力された文章と各文書とについての類似度特徴量群を抽出する特徴量抽出部と、
上記入力された文章と各文書との間の類似度スコアが予め定められているとして、上記抽出された類似度特徴量群を説明変数とし、上記抽出された類似度特徴量群に対応する類似度スコアを目的変数として回帰分析をすることにより、類似度特徴量群とその類似度特徴量群に対応する類似度スコアとの関係を表す類似度スコアモデルを作成する作成部と、
を含むモデル作成装置。 - 特徴量抽出部が、ある文章とある検索対象文書とについての類似度特徴量群をそのある文章とそのある検索対象文書との間の類似度を表すキーワードマッチ方式で求まる特徴量及び文書類似性判定方式で求まる特徴量として、入力された文章と各検索対象文書とについての類似度特徴量群を抽出する特徴量抽出ステップと、
類似度スコア計算部が、類似度特徴量群とその類似度特徴量群に対応する類似度スコアとの関係を表す類似度スコアモデルと上記抽出された類似度特徴量群とを用いて、入力された文章と各検索対象文書についての類似度スコアを計算する類似度スコア計算ステップと、
を含む関連文書検索方法。 - 請求項4の関連文書検索方法であって、
上記キーワードマッチ方式で求まる特徴量は複数の要素で構成されており、
上記類似度特徴量群は、上記キーワードマッチ方式で求まる特徴量を構成する複数の要素のそれぞれを正規化した特徴量と、上記文書類似性判定方式で求まる特徴量を正規化した特徴量とを結合したものである、
関連文書検索方法。 - 特徴量抽出部が、ある文章とある文書とについての類似度特徴量群をそのある文章とそのある文書との間の類似度を表すキーワードマッチ方式で求まる特徴量及び文書類似性判定方式で求まる特徴量として、異なる2個の文書についての類似度特徴量群を抽出する特徴量抽出ステップと、
作成部が、上記異なる2個文書間の類似度スコアが予め定められているとして、上記抽出された類似度特徴量群を説明変数とし、上記抽出された類似度特徴量群に対応する類似度スコアを目的変数として回帰分析をすることにより、類似度特徴量群とその類似度特徴量群に対応する類似度スコアとの関係を表す類似度スコアモデルを作成する作成ステップと、
を含むモデル作成方法。 - 請求項1又は2の関連文書検索装置の各部としてコンピュータを機能させるためのプログラム。
- 請求項3のモデル作成装置の各部としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015195860A JP6426074B2 (ja) | 2015-10-01 | 2015-10-01 | 関連文書検索装置、モデル作成装置、これらの方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015195860A JP6426074B2 (ja) | 2015-10-01 | 2015-10-01 | 関連文書検索装置、モデル作成装置、これらの方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017068742A JP2017068742A (ja) | 2017-04-06 |
JP6426074B2 true JP6426074B2 (ja) | 2018-11-21 |
Family
ID=58492665
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015195860A Active JP6426074B2 (ja) | 2015-10-01 | 2015-10-01 | 関連文書検索装置、モデル作成装置、これらの方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6426074B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7122853B2 (ja) * | 2018-04-19 | 2022-08-22 | 三菱重工業株式会社 | 検索装置、検索方法、及び検索プログラム |
KR102448061B1 (ko) * | 2019-12-11 | 2022-09-27 | 네이버 주식회사 | 딥러닝 기반의 문서 유사도 측정 모델을 이용한 중복 문서 탐지 방법 및 시스템 |
JP6934696B1 (ja) * | 2020-04-28 | 2021-09-15 | 株式会社ビタリー | 業務支援システム |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3503506B2 (ja) * | 1999-01-06 | 2004-03-08 | 日本電信電話株式会社 | 情報検索方法、情報検索装置及び情報検索プログラムを記録した記録媒体 |
JP3690216B2 (ja) * | 1999-11-26 | 2005-08-31 | 日本電気株式会社 | 文書間類似度計算方法及びシステムと装置ならびに類似度計算用プログラムを記録した記録媒体 |
JP2002007468A (ja) * | 2000-06-20 | 2002-01-11 | Toshiba Corp | 類似文書検索装置、類似文書検索方法及び記録媒体 |
JP5122795B2 (ja) * | 2006-11-28 | 2013-01-16 | 株式会社エヌ・ティ・ティ・ドコモ | 検索システムおよび検索方法 |
JP4548472B2 (ja) * | 2007-10-18 | 2010-09-22 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
CN103617157B (zh) * | 2013-12-10 | 2016-08-17 | 东北师范大学 | 基于语义的文本相似度计算方法 |
-
2015
- 2015-10-01 JP JP2015195860A patent/JP6426074B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017068742A (ja) | 2017-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gao et al. | Modeling interestingness with deep neural networks | |
CN108280114B (zh) | 一种基于深度学习的用户文献阅读兴趣分析方法 | |
Deshpande et al. | Text summarization using clustering technique | |
Tariq et al. | A context-driven extractive framework for generating realistic image descriptions | |
Jotheeswaran et al. | OPINION MINING USING DECISION TREE BASED FEATURE SELECTION THROUGH MANHATTAN HIERARCHICAL CLUSTER MEASURE. | |
JP5710581B2 (ja) | 質問応答装置、方法、及びプログラム | |
US11481560B2 (en) | Information processing device, information processing method, and program | |
KR102695381B1 (ko) | 엔티티-속성 관계 식별 | |
CN108241613A (zh) | 一种提取关键词的方法及设备 | |
US20120078907A1 (en) | Keyword presentation apparatus and method | |
Chirawichitchai | Emotion classification of Thai text based using term weighting and machine learning techniques | |
Voskarides et al. | Generating descriptions of entity relationships | |
Chen et al. | Generating ontologies with basic level concepts from folksonomies | |
JP2017021796A (ja) | 学習素材のセグメントのランク付け | |
Tiwari et al. | Ensemble approach for twitter sentiment analysis | |
Srinivas et al. | A weighted tag similarity measure based on a collaborative weight model | |
CN108228612B (zh) | 一种提取网络事件关键词以及情绪倾向的方法及装置 | |
Baowaly et al. | Predicting the helpfulness of game reviews: A case study on the steam store | |
Renjit et al. | CUSAT NLP@ AILA-FIRE2019: Similarity in Legal Texts using Document Level Embeddings. | |
JP6426074B2 (ja) | 関連文書検索装置、モデル作成装置、これらの方法及びプログラム | |
Gupta et al. | Keyword extraction: a review | |
Dubuisson Duplessis et al. | Utterance retrieval based on recurrent surface text patterns | |
Park et al. | Estimating comic content from the book cover information using fine-tuned VGG model for comic search | |
Zeid et al. | Arabic question answering system using graph ontology | |
Jasti et al. | A review on sentiment analysis of opinion mining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170727 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180420 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180515 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180717 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181023 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181024 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6426074 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |