JP6772478B2 - 情報検索プログラム及び情報検索装置 - Google Patents
情報検索プログラム及び情報検索装置 Download PDFInfo
- Publication number
- JP6772478B2 JP6772478B2 JP2016029515A JP2016029515A JP6772478B2 JP 6772478 B2 JP6772478 B2 JP 6772478B2 JP 2016029515 A JP2016029515 A JP 2016029515A JP 2016029515 A JP2016029515 A JP 2016029515A JP 6772478 B2 JP6772478 B2 JP 6772478B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- search
- feature word
- document set
- keywords
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Description
文書に含まれる語句を抽出して、当該語句の出現頻度を示す値を成分とする多次元ベクトル(Term vector)を構成し、特定の文書の多次元ベクトルと、他の文書の多次元ベクトルのなす角度のコサイン値、すなわち、2つの多次元ベクトルの内積を演算し、演算結果の値が閾値以上の場合は、特定の文書と当該他の文書とは類似していると判断する方法である。この方法によれば、語句の出現頻度が似た文書を、関連する文書として見つけることができる。
この方法では、あらかじめ十分な量の画像を用いて、ニューラルネットワークを深層学習しておく。それにより、ニューラルネットワークに、文書のスクリーンショットまたはサムネールのような画像を入力した場合に、ニューラルネットワークのある深さの層を成すセル群、または、人為的に選択した特定のセル群の出力に画像の特徴が表れる。そのセル群の出力をベクトルとすることで、そのベクトルが画像の特徴を表すことになる。この方法では、ニューラルネットワークに、特定の文書の画像を入力して得られたベクトルと、他の文書の画像を入力して得られたベクトルとの内積を演算し、演算結果の値が閾値以上の場合は、特定の文書と当該他の文書とは類似していると判断する。この方法によれば、例えば、説明図や文章のレイアウトが同一である日本語版の文書と、英語版の文書とを類似であると判断できる。
特開2015−46102には、文書へのアクセス履歴を用いて、例えば、同一文書に対して予め定めた回数以上のアクセスを行った利用者同士には関連性があるとして、当該利用者同士を同じグループに分類する(コミュニティを抽出する)ことが記載されている。また、こうしたアクセス履歴を用いてコミュティを抽出しなくても、例えば、会社の中における課やチームと、そこに属する社員の情報とが関連づけられた関連情報が存在すれば、すでにコミュティの抽出ができている。このようなコミュニティの情報を用いて関連する文書を見つける方法としては、例えば、次の方法が考えられる。同一コミュニティに属する利用者がアクセスする文書は、業務や興味などの背景から潜在的に関連性があると推定できる。したがって、各文書のアクセス履歴を確認して、同一コミュニティに属する利用者の多くがアクセスした文書同士を、互いに関連する文書であると判断する。この方法によれば、文書に含まれる内容が全く異なる場合であっても、関連文書とすることができる。
Claims (7)
- 入力キーワードを含む文書である基本文書を、文書データベースから検索する基本文書検索手段、
前記基本文書に関連する関連文書を、前記文書データベースから検索する関連文書検索手段、
複数の前記関連文書が含まれる文書群を分類することにより、複数の文書集合を生成する文書集合生成手段、
前記文書集合ごとに、前記文書集合にとって特徴的な語句である特徴語を出力する特徴語出力手段、
としてコンピュータを機能させ、
前記特徴語出力手段は、
前記文書集合内の文書に含まれるキーワードである文書キーワードを抽出し、
共通の上位概念を有する前記文書キーワードの数が、他の前記上位概念よりも多い前記上位概念である選出上位概念を探索し、前記選出上位概念を有する前記文書キーワードの全て、または、いずれかを前記特徴語とする、情報検索プログラム。 - 前記特徴語出力手段は、
前記選出上位概念を有する前記文書キーワードのうち、前記特徴語の出力の対象となっている前記文書集合内の文書において出現頻度が高く、かつ、他の前記文書集合内の文書において出現頻度が低い前記文書キーワードの全て、または、いずれかを前記特徴語とする、
ことを特徴とする請求項1に記載の情報検索プログラム。 - 前記特徴語出力手段は、
前記選出上位概念を有する前記文書キーワードのうち、前記文書集合内の多くの文書において出現する前記文書キーワードを前記特徴語とする、
ことを特徴とする請求項1または2に記載の情報検索プログラム。 - 行列の行または列の一方に前記特徴語を伴って前記文書集合の表示を配列し、前記行列の行または列の他方に文書の背景を示す情報を配列し、前記行列の要素に前記文書集合内の文書に関する表示を配置した2次元表を表示部に表示させる表示処理手段、をさらに含む、
ことを特徴とする請求項1から3のいずれか一項に記載の情報検索プログラム。 - 前記文書集合生成手段は、
前記文書群を分類することにより生成した暫定文書集合と、前記文書集合生成手段により以前に生成された前記文書集合との集合演算を行って、前記文書集合を生成する、
ことを特徴とする請求項1から4のいずれか一項に記載の情報検索プログラム。 - 前記入力キーワードとして第1入力キーワードが用いられたことによって、前記特徴語として第1特徴語が出力された場合に、
前記第1特徴語を前記入力キーワードとした再検索、前記第1入力キーワードと前記第1特徴語との両方を前記入力キーワードとした再検索である絞り込み検索、拡張検索および周辺検索の少なくとも1つを実行可能である、
ことを特徴とする請求項1から5のいずれか一項に記載の情報検索プログラム。 - 入力キーワードを含む文書である基本文書を、文書データベースから検索する基本文書検索手段と、
前記基本文書に関連する関連文書を、前記文書データベースから検索する関連文書検索手段と、
複数の前記関連文書が含まれる文書群を分類することにより、複数の文書集合を生成する文書集合生成手段と、
前記文書集合ごとに、前記文書集合にとって特徴的な語句である特徴語を出力する特徴語出力手段と、
を含み、
前記特徴語出力手段は、
前記文書集合内の文書に含まれるキーワードである文書キーワードを抽出し、
共通の上位概念を有する前記文書キーワードの数が、他の前記上位概念よりも多い前記上位概念である選出上位概念を探索し、前記選出上位概念を有する前記文書キーワードの全て、または、いずれかを前記特徴語とする、ことを特徴とする情報検索装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016029515A JP6772478B2 (ja) | 2016-02-19 | 2016-02-19 | 情報検索プログラム及び情報検索装置 |
US15/218,408 US20170242851A1 (en) | 2016-02-19 | 2016-07-25 | Non-transitory computer readable medium, information search apparatus, and information search method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016029515A JP6772478B2 (ja) | 2016-02-19 | 2016-02-19 | 情報検索プログラム及び情報検索装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017146869A JP2017146869A (ja) | 2017-08-24 |
JP6772478B2 true JP6772478B2 (ja) | 2020-10-21 |
Family
ID=59631107
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016029515A Active JP6772478B2 (ja) | 2016-02-19 | 2016-02-19 | 情報検索プログラム及び情報検索装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20170242851A1 (ja) |
JP (1) | JP6772478B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180013816A1 (en) * | 2016-07-06 | 2018-01-11 | Saeid Safavi | Method and Apparatus for On Demand Mobile Data Transfer |
JP6727992B2 (ja) * | 2016-09-02 | 2020-07-22 | 株式会社日立製作所 | 分析装置、分析方法、および分析プログラム |
US10140574B2 (en) * | 2016-12-31 | 2018-11-27 | Via Alliance Semiconductor Co., Ltd | Neural network unit with segmentable array width rotator and re-shapeable weight memory to match segment width to provide common weights to multiple rotator segments |
JPWO2022190384A1 (ja) * | 2021-03-12 | 2022-09-15 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6446061B1 (en) * | 1998-07-31 | 2002-09-03 | International Business Machines Corporation | Taxonomy generation for document collections |
US7185001B1 (en) * | 2000-10-04 | 2007-02-27 | Torch Concepts | Systems and methods for document searching and organizing |
US7107266B1 (en) * | 2000-11-09 | 2006-09-12 | Inxight Software, Inc. | Method and apparatus for auditing training supersets |
JP2007004233A (ja) * | 2005-06-21 | 2007-01-11 | Yamatake Corp | 文章分類装置、文章分類方法、およびプログラム |
US8214346B2 (en) * | 2008-06-27 | 2012-07-03 | Cbs Interactive Inc. | Personalization engine for classifying unstructured documents |
US8316030B2 (en) * | 2010-11-05 | 2012-11-20 | Nextgen Datacom, Inc. | Method and system for document classification or search using discrete words |
US9558185B2 (en) * | 2012-01-10 | 2017-01-31 | Ut-Battelle Llc | Method and system to discover and recommend interesting documents |
-
2016
- 2016-02-19 JP JP2016029515A patent/JP6772478B2/ja active Active
- 2016-07-25 US US15/218,408 patent/US20170242851A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US20170242851A1 (en) | 2017-08-24 |
JP2017146869A (ja) | 2017-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20240152559A1 (en) | Related notes and multi-layer search in personal and shared content | |
Koch et al. | VarifocalReader—in-depth visual analysis of large text documents | |
CN110929038B (zh) | 基于知识图谱的实体链接方法、装置、设备和存储介质 | |
US9092428B1 (en) | System, methods and user interface for discovering and presenting information in text content | |
EP3513328A1 (en) | Method and apparatus for ranking electronic information by similarity association | |
JP6772478B2 (ja) | 情報検索プログラム及び情報検索装置 | |
US20150347576A1 (en) | Method and system for information retrieval and aggregation from inferred user reasoning | |
WO2013134200A1 (en) | Digital resource set integration methods, interface and outputs | |
US10042934B2 (en) | Query generation system for an information retrieval system | |
JP2011103075A (ja) | 抜粋文抽出方法 | |
CN111373386A (zh) | 相似度指标值计算装置、相似检索装置及相似度指标值计算用程序 | |
US9875298B2 (en) | Automatic generation of a search query | |
JP2017117021A (ja) | キーワード抽出装置、コンテンツ生成システム、キーワード抽出方法、およびプログラム | |
JP4453440B2 (ja) | 視覚的情報分類方法及び装置及びプログラム及び視覚的情報分類プログラムを記録した記憶媒体 | |
JP2006215675A (ja) | データマップ作成サーバ、データマップ作成方法、およびデータマップ作成プログラム | |
JP2011103027A (ja) | 文書表示装置、文書表示方法および文書表示プログラム | |
KR101078978B1 (ko) | 문서 분류 시스템 | |
JP2007233752A (ja) | 検索装置、コンピュータプログラム及び記録媒体 | |
JP6707410B2 (ja) | 文献検索装置、文献検索方法およびコンピュータプログラム | |
KR101769940B1 (ko) | 문서를 검색하는 방법 | |
Vallejo-Huanga et al. | Similarity Visualizer Using Natural Language Processing in Academic Documents of the DSpace in Ecuador | |
Kudelka et al. | Social aspects of web page contents | |
JP7352315B2 (ja) | 情報処理方法、探索システムおよび探索方法 | |
JP6976537B1 (ja) | 情報検索装置、情報検索方法および情報検索用プログラム | |
JP2012243130A (ja) | 情報検索装置、方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181221 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191001 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191128 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200428 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200624 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200901 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200914 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6772478 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |