JP2008282111A - 類似文書検索方法、プログラムおよび装置 - Google Patents
類似文書検索方法、プログラムおよび装置 Download PDFInfo
- Publication number
- JP2008282111A JP2008282111A JP2007124084A JP2007124084A JP2008282111A JP 2008282111 A JP2008282111 A JP 2008282111A JP 2007124084 A JP2007124084 A JP 2007124084A JP 2007124084 A JP2007124084 A JP 2007124084A JP 2008282111 A JP2008282111 A JP 2008282111A
- Authority
- JP
- Japan
- Prior art keywords
- document
- search
- classification
- similarity
- similar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
分類を用いた従来の類似文書検索結果フィルタリング方式では所望の文書まで除去されてしまうことがあるというリスクを回避することによって、全体としての検索精度を向上させる。
【解決手段】
利用者によって入力された文章に対応する分類と、文書データベース中の各文書に対応する分類を照合し、検索スコア補正部15が、分類の共通性に応じて、類似度の補正方法を定義した補正定義テーブルを参照して類似度の値を補正する。
【選択図】図1
Description
Claims (12)
- 文書を格納する文書データベースを記憶する記憶装置と、
前記文書データベースに格納された文書からタームを抽出してその重要度を算出して検索インデクスを生成する検索インデクス生成部と、
入力装置を介して利用者によって入力された文章または利用者によって入力された情報から特定される文章からタームを抽出してその重要度を算出するターム抽出・重み付け部と、
前記タームと前記検索インデクスを照合して前記入力された文章と前記文書データベース中の各文書との間の類似度を算出して類似度の高い文書を特定する検索実行部と、
前記特定された文書を出力装置を介して利用者に報知する検索結果表示部からなる類似文書検索装置によって実行される類似文書検索方法であって、
前記検索実行部が、前記類似度を算出する際に、前記入力された文章に対応する分類を特定し、前記文書データベース中の各文書に対応する分類と照合し、共通する分類が存在する場合に、類似度の補正方法を定義した補正定義テーブルを参照して当該文書の類似度を補正することを特徴とする類似文書検索方法。 - 文書を格納する文書データベースを記憶する記憶装置と、
前記文書データベースに格納された文書からタームを抽出してその重要度を算出して検索インデクスを生成する検索インデクス生成部と、
入力装置を介して利用者によって入力された文章または利用者によって入力された情報から特定される文章からタームを抽出してその重要度を算出するターム抽出・重み付け部と、
前記タームと前記検索インデクスを照合して前記入力された文章と前記文書データベース中の各文書との間の類似度を算出して類似度の高い文書を特定する検索実行部と、
前記特定された文書を出力装置を介して利用者に報知する検索結果表示部からなる類似文書検索装置によって実行される類似文書検索方法であって、
前記検索実行部が、前記類似度を算出する際に、前記入力された文章に対応する分類を特定し、前記文書データベース中の各文書に対応する分類と照合し、共通する分類の数または割合に応じて類似度の補正方法を定義した補正定義テーブルを参照して当該文書の類似度を補正することを特徴とする類似文書検索方法。 - 文書を格納する文書データベースを記憶する記憶装置と、
前記文書データベースに格納された文書からタームを抽出してその重要度を算出して検索インデクスを生成する検索インデクス生成部と、
入力装置を介して利用者によって入力された文章または利用者によって入力された情報から特定される文章からタームを抽出してその重要度を算出するターム抽出・重み付け部と、
前記タームと前記検索インデクスを照合して前記入力された文章と前記文書データベース中の各文書との間の類似度を算出して類似度の高い文書を特定する検索実行部と、
前記特定された文書を出力装置を介して利用者に報知する検索結果表示部からなる類似文書検索装置によって実行される類似文書検索方法であって、
前記類似文書検索装置の有する関連度算出部が、前記文書データベース中の文書およびその類似文書に対応する分類を対にして抽出し、分類対の数をカウントして分類毎に集計することによって分類間の関連度を算出して関連分類テーブルに格納しておき、
前記検索実行部が、前記関連分類テーブルを参照して前記入力された文章に対応する分類と前記文書データベース中の各文書に対応する分類を照合することによって、前記入力された文章に対応する分類に関連の深い分類を前記文書データベース中の文書が持つか否かをチェックし、持つ場合に、類似度の補正方法を定義した補正定義テーブルを参照して当該文書の類似度を補正することを特徴とする類似文書検索方法。 - 請求項3記載の類似文書検索方法において、
前記分類対の数をカウントして分類毎に集計することによって分類間の関連度を算出するステップは、分類Aを持つ文書群に対応する類似文書群を特定し、当該類似文書群の中で分類Bを持つ文書件数をカウントし、当該類似文書群の総件数に占める割合を算出して分類Aと分類Bの関連度とすることを特徴とする類似文書検索方法。 - 文書を格納する文書データベースを記憶する記憶装置と、
前記文書データベースに格納された文書からタームを抽出してその重要度を算出して検索インデクスを生成する検索インデクス生成部と、
入力装置を介して利用者によって入力された文章または利用者によって入力された情報から特定される文章からタームを抽出してその重要度を算出するターム抽出・重み付け部と、
前記タームと前記検索インデクスを照合して前記入力文章と前記文書データベース中の各文書との間の類似度を算出して類似度の高い文書を特定する検索実行部と、
前記特定された文書を出力装置を介して利用者に報知する検索結果表示部からなる類似文書検索装置において、
前記検索実行部は、前記類似度を算出する際に、前記入力された文章に対応する分類を特定し、前記文書データベース中の各文書に対応する分類と照合し、共通する分類が存在する場合に、類似度の補正方法を定義した補正定義テーブルを参照して当該文書の類似度を補正することを特徴とする類似文書検索装置。 - 文書を格納する文書データベースを記憶する記憶装置と、
前記文書データベースに格納された文書からタームを抽出してその重要度を算出して検索インデクスを生成する検索インデクス生成部と、
入力装置を介して利用者によって入力された文章または利用者によって入力された情報から特定される文章からタームを抽出してその重要度を算出するターム抽出・重み付け部と、
前記タームと前記検索インデクスを照合して前記入力文章と前記文書データベース中の各文書との間の類似度を算出して類似度の高い文書を特定する検索実行部と、
前記特定された文書を出力装置を介して利用者に報知する検索結果表示部からなる類似文書検索装置において、
前記検索実行部は、前記類似度を算出する際に、前記入力された文章に対応する分類を特定し、前記文書データベース中の各文書に対応する分類と照合し、共通する分類の数または割合に応じて類似度の補正方法を定義した補正定義テーブルを参照して当該文書の類似度を補正することを特徴とする類似文書検索装置。 - 文書を格納する文書データベースを記憶する記憶装置と、
前記文書データベースに格納された文書からタームを抽出してその重要度を算出して検索インデクスを生成する検索インデクス生成部と、
入力装置を介して利用者によって入力された文章または利用者によって入力された情報から特定される文章からタームを抽出してその重要度を算出するターム抽出・重み付け部と、
前記タームと前記検索インデクスを照合して前記入力文章と前記文書データベース中の各文書との間の類似度を算出して類似度の高い文書を特定する検索実行部と、
前記特定された文書を出力装置を介して利用者に報知する検索結果表示部からなる類似文書検索装置において、
前記文書データベース中の文書およびその類似文書に対応する分類を対にして抽出し、分類対の数をカウントして分類毎に集計することによって分類間の関連度を算出する手段によって前記算出された分類間の関連度を関連分類テーブルに格納する関連度算出部を備え、
前記検索実行部は、前記関連分類テーブルを参照して前記入力された文章に対応する分類と前記文書データベース中の各文書に対応する分類を照合することによって、前記入力された文章に対応する分類に関連の深い分類を前記文書データベース中の文書が持つか否かをチェックし、持つ場合に類似度の補正方法を定義した補正定義テーブルを参照して当該文書の類似度を補正することを特徴とする類似文書検索装置。 - 請求項7記載の類似文書検索装置において、
前記関連度算出部は、分類Aを持つ文書群に対応する類似文書群を特定し、当該類似文書群の中で分類Bを持つ文書件数をカウントし、当該類似文書群の総件数に占める割合を算出して分類Aと分類Bの関連度とすることを特徴とする類似文書検索装置。 - 文書を格納する文書データベースを記憶する記憶装置と、
前記文書データベースに格納された文書からタームを抽出してその重要度を算出して検索インデクスを生成する検索インデクス生成部と、
入力装置を介して利用者によって入力された文章または利用者によって入力された情報から特定される文章からタームを抽出してその重要度を算出するターム抽出・重み付け部と、
前記タームと前記検索インデクスを照合して前記入力された文章と前記文書データベース中の各文書との間の類似度を算出して類似度の高い文書を特定する検索実行部と、
前記特定された文書を出力装置を介して利用者に報知する検索結果表示部からなる類似文書検索装置によって実行される類似文書検索プログラムであって、
前記検索実行部に、前記類似度を算出する際に、前記入力された文章に対応する分類を特定し、前記文書データベース中の各文書に対応する分類と照合し、共通する分類が存在する場合に、類似度の補正方法を定義した補正定義テーブルを参照して当該文書の類似度を補正する手順を実行させることを特徴とする類似文書検索プログラム。 - 文書を格納する文書データベースを記憶する記憶装置と、
前記文書データベースに格納された文書からタームを抽出してその重要度を算出して検索インデクスを生成する検索インデクス生成部と、
入力装置を介して利用者によって入力された文章または利用者によって入力された情報から特定される文章からタームを抽出してその重要度を算出するターム抽出・重み付け部と、
前記タームと前記検索インデクスを照合して前記入力された文章と前記文書データベース中の各文書との間の類似度を算出して類似度の高い文書を特定する検索実行部と、
前記特定された文書を出力装置を介して利用者に報知する検索結果表示部からなる類似文書検索装置によって実行される類似文書検索プログラムであって、
前記検索実行部に、前記類似度を算出する際に、前記入力された文章に対応する分類を特定し、前記文書データベース中の各文書に対応する分類と照合し、共通する分類の数または割合に応じて類似度の補正方法を定義した補正定義テーブルを参照して当該文書の類似度を補正する手順を実行させることを特徴とする類似文書検索プログラム。 - 文書を格納する文書データベースを記憶する記憶装置と、
前記文書データベースに格納された文書からタームを抽出してその重要度を算出して検索インデクスを生成する検索インデクス生成部と、
入力装置を介して利用者によって入力された文章または利用者によって入力された情報から特定される文章からタームを抽出してその重要度を算出するターム抽出・重み付け部と、
前記タームと前記検索インデクスを照合して前記入力された文章と前記文書データベース中の各文書との間の類似度を算出して類似度の高い文書を特定する検索実行部と、
前記特定された文書を出力装置を介して利用者に報知する検索結果表示部からなる類似文書検索装置によって実行される類似文書検索プログラムであって、
前記類似文書検索装置の有する関連度算出部に、前記文書データベース中の文書およびその類似文書に対応する分類を対にして抽出し、分類対の数をカウントして分類毎に集計することによって分類間の関連度を算出して関連分類テーブルに格納する手順を実行させ
前記検索実行部に、前記関連分類テーブルを参照して前記入力された文章に対応する分類と前記文書データベース中の各文書に対応する分類を照合することによって、前記入力された文章に対応する分類に関連の深い分類を前記文書データベース中の文書が持つか否かをチェックし、持つ場合に、類似度の補正方法を定義した補正定義テーブルを参照して当該文書の類似度を補正する手順を実行させることを特徴とする類似文書検索プログラム。 - 請求項11記載の類似文書検索プログラムにおいて、
分類対の数をカウントして分類毎に集計することによって分類間の関連度を算出する場合に、前記関連度算出部に、分類Aを持つ文書群に対応する類似文書群を特定し、当該類似文書群の中で分類Bを持つ文書件数をカウントし、当該類似文書群の総件数に占める割合を算出して分類Aと分類Bの関連度とする手順を実行させることを特徴とする類似文書検索プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007124084A JP4479745B2 (ja) | 2007-05-09 | 2007-05-09 | 文書の類似度補正方法、プログラムおよびコンピュータ |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007124084A JP4479745B2 (ja) | 2007-05-09 | 2007-05-09 | 文書の類似度補正方法、プログラムおよびコンピュータ |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2008282111A true JP2008282111A (ja) | 2008-11-20 |
JP2008282111A5 JP2008282111A5 (ja) | 2009-05-07 |
JP4479745B2 JP4479745B2 (ja) | 2010-06-09 |
Family
ID=40142894
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007124084A Active JP4479745B2 (ja) | 2007-05-09 | 2007-05-09 | 文書の類似度補正方法、プログラムおよびコンピュータ |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4479745B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010146222A (ja) * | 2008-12-18 | 2010-07-01 | Hitachi Ltd | 文書分類装置、文書分類方法およびプログラム |
JP2013174988A (ja) * | 2012-02-24 | 2013-09-05 | Hitachi Ltd | 類似文書検索支援装置及び類似文書検索支援プログラム |
WO2016103409A1 (ja) * | 2014-12-25 | 2016-06-30 | 株式会社日立製作所 | 検索システム |
EP3093807A1 (en) | 2015-05-12 | 2016-11-16 | Fuji Xerox Co., Ltd. | Information processing apparatus, information processing method, and information processing program |
-
2007
- 2007-05-09 JP JP2007124084A patent/JP4479745B2/ja active Active
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010146222A (ja) * | 2008-12-18 | 2010-07-01 | Hitachi Ltd | 文書分類装置、文書分類方法およびプログラム |
JP4521459B2 (ja) * | 2008-12-18 | 2010-08-11 | 株式会社日立製作所 | 文書分類装置、文書分類方法およびプログラム |
JP2013174988A (ja) * | 2012-02-24 | 2013-09-05 | Hitachi Ltd | 類似文書検索支援装置及び類似文書検索支援プログラム |
CN103294741A (zh) * | 2012-02-24 | 2013-09-11 | 株式会社日立制作所 | 类似文件检索辅助装置以及类似文件检索辅助方法 |
CN103294741B (zh) * | 2012-02-24 | 2016-12-21 | 株式会社日立制作所 | 类似文件检索辅助装置以及类似文件检索辅助方法 |
WO2016103409A1 (ja) * | 2014-12-25 | 2016-06-30 | 株式会社日立製作所 | 検索システム |
EP3093807A1 (en) | 2015-05-12 | 2016-11-16 | Fuji Xerox Co., Ltd. | Information processing apparatus, information processing method, and information processing program |
Also Published As
Publication number | Publication date |
---|---|
JP4479745B2 (ja) | 2010-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102431549B1 (ko) | 인과 관계 인식 장치 및 그것을 위한 컴퓨터 프로그램 | |
CN108073568B (zh) | 关键词提取方法和装置 | |
KR102026304B1 (ko) | Esg 기반의 기업 평가 수행 장치 및 이의 작동 방법 | |
JP4233836B2 (ja) | 文書自動分類システム、不要語判定方法、文書自動分類方法、およびプログラム | |
US20050086045A1 (en) | Question answering system and question answering processing method | |
US20100205198A1 (en) | Search query disambiguation | |
US20040249808A1 (en) | Query expansion using query logs | |
CN112035599B (zh) | 基于垂直搜索的查询方法、装置、计算机设备及存储介质 | |
CN111738589B (zh) | 基于内容推荐的大数据项目工作量评估方法、装置及设备 | |
WO2022121163A1 (zh) | 用户行为倾向识别方法、装置、设备及存储介质 | |
CN107844533A (zh) | 一种智能问答系统及分析方法 | |
CN110134777B (zh) | 问题去重方法、装置、电子设备和计算机可读存储介质 | |
US20160170993A1 (en) | System and method for ranking news feeds | |
CN106844482B (zh) | 一种基于搜索引擎的检索信息匹配方法及装置 | |
CN110866102A (zh) | 检索处理方法 | |
CN110688593A (zh) | 一种社交媒体账号识别方法及系统 | |
JP2005301856A (ja) | 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置 | |
JP4479745B2 (ja) | 文書の類似度補正方法、プログラムおよびコンピュータ | |
CN109508557A (zh) | 一种关联用户隐私的文件路径关键词识别方法 | |
CN118113806A (zh) | 一种大模型检索增强生成的可解释事件脉络生成方法 | |
CN111104422B (zh) | 一种数据推荐模型的训练方法、装置、设备及存储介质 | |
CN110413985B (zh) | 一种相关文本片段搜索方法及装置 | |
JP4525433B2 (ja) | 文書集約装置及びプログラム | |
JP2020071678A (ja) | 情報処理装置、制御方法、プログラム | |
JP2017027106A (ja) | 類似度算出装置、類似検索装置、および類似度算出プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090318 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090318 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20090318 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20090414 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090609 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090731 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091027 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091221 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100223 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100308 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130326 Year of fee payment: 3 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4479745 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130326 Year of fee payment: 3 |