JP2013190973A - 文書内の図情報を利用した類似文書の検索システム及び方法 - Google Patents
文書内の図情報を利用した類似文書の検索システム及び方法 Download PDFInfo
- Publication number
- JP2013190973A JP2013190973A JP2012056378A JP2012056378A JP2013190973A JP 2013190973 A JP2013190973 A JP 2013190973A JP 2012056378 A JP2012056378 A JP 2012056378A JP 2012056378 A JP2012056378 A JP 2012056378A JP 2013190973 A JP2013190973 A JP 2013190973A
- Authority
- JP
- Japan
- Prior art keywords
- document
- information
- search
- similar
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010586 diagram Methods 0.000 title claims abstract description 58
- 238000000034 method Methods 0.000 title claims description 49
- 230000014509 gene expression Effects 0.000 claims abstract description 10
- 238000000605 extraction Methods 0.000 claims description 12
- 239000000284 extract Substances 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 abstract description 7
- 238000012545 processing Methods 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 9
- 238000012937 correction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24578—Query processing with adaptation to user needs using ranking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】文書内の図情報を用いて類似文書検索を行うことで、文書内の記述言語や複雑な文章の言い回しに左右されずに、類似文書を検索する。好適には、文書内の画像データなどの図情報に着目し、文字情報に左右されずに、図情報を検索指標として文書同士の類似度を評価する。まず、検索者が入力した入力文書に対し、文書内に点在する図情報から画像の特徴データ(特徴量)を抽出する。その後、入力文書の図の特徴量と、あらかじめ抽出しておいた検索対象となる文書群の図の特徴量を比較することで、文書同士の類似度を評価する。そして、評価値に基づき、入力文書に対する類似文書のランキングを実現する。
【選択図】図1
Description
られない。
Claims (5)
- 検索式を受け取る検索部と、
前記検索式に含まれる図情報を抽出する図情報抽出部と、
前記抽出された図情報と検索システムに登録された文書の図情報とを比較して、前記登録された文書の類似度に関するスコアを求める類似度推定部と、
前記求められたスコアを用いて、前記検索式に関連する類似文書の検索結果を生成するスコアリング部と、
を備える検索システム。 - 検索式は、検索者が入力した文書を含む、請求項1記載の検索システム。
- 前記図情報は、文書内における図の出現位置、順序又は間隔のいずれかを含む、請求項1又は2に記載の検索システム。
- 検索システムに登録された文書を格納するデータベースと、
前記データベースに文書を登録する図情報管理部であって、前記図情報抽出部によって前記登録する文書の図情報を抽出し、前記抽出された図情報を、前記登録する文書とともに前記データベースに格納する、図情報管理部と、
を備えることを特徴とする請求項1〜3のいずれか1項に記載の検索システム。 - サーバが類似文書の検索をする方法であって、前記サーバが、
検索式を受け取り、
前記検索式に含まれる図情報を抽出し、
前記抽出された図情報と検索システムに登録された文書の図情報とを比較して、前記登録された文書の類似度に関するスコアを求め、
前記求められたスコアを用いて、前記検索式に関連する類似文書の検索結果を生成する、
類似文書の検索方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012056378A JP5910867B2 (ja) | 2012-03-13 | 2012-03-13 | 文書内の図情報を利用した類似文書の検索システム及び方法 |
US13/793,779 US9378248B2 (en) | 2012-03-13 | 2013-03-11 | Retrieval apparatus, retrieval method, and computer-readable recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012056378A JP5910867B2 (ja) | 2012-03-13 | 2012-03-13 | 文書内の図情報を利用した類似文書の検索システム及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013190973A true JP2013190973A (ja) | 2013-09-26 |
JP5910867B2 JP5910867B2 (ja) | 2016-04-27 |
Family
ID=49158645
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012056378A Expired - Fee Related JP5910867B2 (ja) | 2012-03-13 | 2012-03-13 | 文書内の図情報を利用した類似文書の検索システム及び方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US9378248B2 (ja) |
JP (1) | JP5910867B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021504784A (ja) * | 2017-11-21 | 2021-02-15 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 文書構造抽出に基づいた多言語文書の検索 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6056610B2 (ja) * | 2013-03-29 | 2017-01-11 | 株式会社Jvcケンウッド | テキスト情報処理装置、テキスト情報処理方法、及びテキスト情報処理プログラム |
US10572557B2 (en) | 2015-11-04 | 2020-02-25 | International Business Machines Corporation | Detecting relevant facets by leveraging diagram identification, soical media and statistical analysis software |
US11361030B2 (en) * | 2019-11-27 | 2022-06-14 | International Business Machines Corporation | Positive/negative facet identification in similar documents to search context |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0319083A (ja) * | 1989-06-16 | 1991-01-28 | Hitachi Ltd | マルチメディア文書情報システム |
JP2007095102A (ja) * | 2006-12-25 | 2007-04-12 | Toshiba Corp | 文書処理装置および文書処理方法 |
JP2008539479A (ja) * | 2005-04-26 | 2008-11-13 | コダック グラフィック コミュニケーションズ カナダ カンパニー | 図形要素を含む文書の比較 |
WO2009081791A1 (ja) * | 2007-12-21 | 2009-07-02 | Nec Corporation | 情報処理システム、その方法及びプログラム |
WO2009087815A1 (ja) * | 2008-01-09 | 2009-07-16 | Nec Corporation | 類似文書検索システム、類似文書検索方法および記録媒体 |
US20100080411A1 (en) * | 2008-09-29 | 2010-04-01 | Alexandros Deliyannis | Methods and apparatus to automatically crawl the internet using image analysis |
JP2011170778A (ja) * | 2010-02-22 | 2011-09-01 | Fuji Xerox Co Ltd | 文書検索装置及び文書検索プログラム |
JP2011233023A (ja) * | 2010-04-28 | 2011-11-17 | International Business Maschines Corporation | 文書の類似度を判定する方法、装置及びプログラム。 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6327387B1 (en) * | 1996-12-27 | 2001-12-04 | Fujitsu Limited | Apparatus and method for extracting management information from image |
JP3181548B2 (ja) * | 1998-02-03 | 2001-07-03 | 富士通株式会社 | 情報検索装置及び情報検索方法 |
JP2001318948A (ja) * | 2000-05-09 | 2001-11-16 | Hitachi Ltd | 文書検索方法及び装置並びにその処理プログラムを記憶した媒体 |
US6678677B2 (en) * | 2000-12-19 | 2004-01-13 | Xerox Corporation | Apparatus and method for information retrieval using self-appending semantic lattice |
JP4006239B2 (ja) * | 2002-02-21 | 2007-11-14 | 株式会社日立製作所 | 文書の検索方法および検索システム |
US7493322B2 (en) * | 2003-10-15 | 2009-02-17 | Xerox Corporation | System and method for computing a measure of similarity between documents |
JP2005258831A (ja) | 2004-03-11 | 2005-09-22 | Patolis Corp | 類似文書検索方法 |
JP2006148263A (ja) | 2004-11-16 | 2006-06-08 | Ntt Communications Kk | テロップ消去方法、テロップ消去装置、及びテロップ消去プログラム |
JP4545641B2 (ja) | 2005-06-01 | 2010-09-15 | 日本電信電話株式会社 | 類似画像検索方法,類似画像検索システム,類似画像検索プログラム及び記録媒体 |
JP4137945B2 (ja) * | 2006-01-06 | 2008-08-20 | シャープ株式会社 | 画像検出方法 |
JP4393556B2 (ja) | 2007-03-06 | 2010-01-06 | シャープ株式会社 | 画像処理方法、画像処理装置、画像読取装置、画像形成装置、コンピュータプログラム及びコンピュータでの読み取りが可能な記録媒体 |
JP2010218216A (ja) | 2009-03-17 | 2010-09-30 | Chugoku Electric Power Co Inc:The | 類似文書検索システム、方法及びプログラム |
JP5414334B2 (ja) | 2009-04-10 | 2014-02-12 | 株式会社日立製作所 | 擬似文書検索システム及び擬似文書検索方法 |
US8412703B2 (en) * | 2009-07-17 | 2013-04-02 | Hong Yu | Search engine for scientific literature providing interface with automatic image ranking |
US20110184938A1 (en) * | 2010-01-27 | 2011-07-28 | Tom Hill | Determining similarity between source code files |
-
2012
- 2012-03-13 JP JP2012056378A patent/JP5910867B2/ja not_active Expired - Fee Related
-
2013
- 2013-03-11 US US13/793,779 patent/US9378248B2/en active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0319083A (ja) * | 1989-06-16 | 1991-01-28 | Hitachi Ltd | マルチメディア文書情報システム |
JP2008539479A (ja) * | 2005-04-26 | 2008-11-13 | コダック グラフィック コミュニケーションズ カナダ カンパニー | 図形要素を含む文書の比較 |
JP2007095102A (ja) * | 2006-12-25 | 2007-04-12 | Toshiba Corp | 文書処理装置および文書処理方法 |
WO2009081791A1 (ja) * | 2007-12-21 | 2009-07-02 | Nec Corporation | 情報処理システム、その方法及びプログラム |
WO2009087815A1 (ja) * | 2008-01-09 | 2009-07-16 | Nec Corporation | 類似文書検索システム、類似文書検索方法および記録媒体 |
US20100080411A1 (en) * | 2008-09-29 | 2010-04-01 | Alexandros Deliyannis | Methods and apparatus to automatically crawl the internet using image analysis |
JP2011170778A (ja) * | 2010-02-22 | 2011-09-01 | Fuji Xerox Co Ltd | 文書検索装置及び文書検索プログラム |
JP2011233023A (ja) * | 2010-04-28 | 2011-11-17 | International Business Maschines Corporation | 文書の類似度を判定する方法、装置及びプログラム。 |
Non-Patent Citations (1)
Title |
---|
JPN6015048835; 長谷川 知洋、外3名: 'XML文書を対象とした例示検索法の検討' 第57回(平成10年後期)全国大会講演論文集(3) データベースとメディア ネットワーク , 19981005, p.3-281〜3-282, 社団法人情報処理学会 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021504784A (ja) * | 2017-11-21 | 2021-02-15 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 文書構造抽出に基づいた多言語文書の検索 |
JP7150842B2 (ja) | 2017-11-21 | 2022-10-11 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 文書構造抽出に基づいた多言語文書の検索 |
Also Published As
Publication number | Publication date |
---|---|
US20130246403A1 (en) | 2013-09-19 |
JP5910867B2 (ja) | 2016-04-27 |
US9378248B2 (en) | 2016-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6461980B2 (ja) | 検索結果におけるコヒーレントな質問回答 | |
US8655648B2 (en) | Identifying topically-related phrases in a browsing sequence | |
US20070112838A1 (en) | Method and system for classifying media content | |
US8782049B2 (en) | Keyword presenting device | |
JP5900367B2 (ja) | 検索装置、検索方法及びプログラム | |
JP5910867B2 (ja) | 文書内の図情報を利用した類似文書の検索システム及び方法 | |
KR102345401B1 (ko) | 콘텐츠를 검색하는 방법, 장치, 기기 및 저장 매체 | |
US20070112839A1 (en) | Method and system for expansion of structured keyword vocabulary | |
JP2006215717A (ja) | 情報検索装置、情報検索方法および情報検索プログラム | |
JP4873739B2 (ja) | テキストの多重トピック抽出装置、テキストの多重トピック抽出方法、プログラム及び記録媒体 | |
US20110252313A1 (en) | Document information selection method and computer program product | |
JP2006302024A (ja) | 関連文書表示方法及びプログラム | |
Thangarasu et al. | Design and development of stemmer for Tamil language: cluster analysis | |
JP2004240488A (ja) | 文書管理装置 | |
JP2014191777A (ja) | 語義解析装置、及びプログラム | |
JP6488399B2 (ja) | 情報提示システム、及び情報提示方法 | |
JP2008026967A (ja) | 文書検索システム及びプログラム | |
JP5127553B2 (ja) | 情報処理装置、情報処理方法、プログラム及び記録媒体 | |
EP1876539A1 (en) | Method and system for classifying media content | |
JP2014063306A (ja) | 検索装置、検索方法及びプログラム | |
Al-Dallal et al. | Achieving high recall and precision with HTLM documents: an innovation approach in information retrieval | |
JP6782644B2 (ja) | 情報処理システム、情報処理方法、およびコンピュータプログラム | |
JP2008217240A (ja) | 文書検索装置、文書検索方法、及び文書検索プログラム | |
JP2017068757A (ja) | 文献表示方法及び文献表示装置 | |
JP2000339342A (ja) | 文書検索方法および文書検索装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150206 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20151125 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20151204 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160129 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160303 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160316 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5910867 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |