JP2013109606A - 情報処理装置およびプログラム - Google Patents
情報処理装置およびプログラム Download PDFInfo
- Publication number
- JP2013109606A JP2013109606A JP2011254549A JP2011254549A JP2013109606A JP 2013109606 A JP2013109606 A JP 2013109606A JP 2011254549 A JP2011254549 A JP 2011254549A JP 2011254549 A JP2011254549 A JP 2011254549A JP 2013109606 A JP2013109606 A JP 2013109606A
- Authority
- JP
- Japan
- Prior art keywords
- document
- search
- feature word
- documents
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】 本情報処理装置110は、登録された各文書の索引データを格納する1以上の索引データ格納手段130と、登録された各文書から項目毎に得られた特徴語データを格納する各項目の特徴語データ格納手段142,144とを含む。本情報処理装置110は、さらに、検索要求にかかる検索条件に適合した適合文書を索引データから検索する検索手段114と、検索された適合文書各々を、所定の複数の項目の特徴語データを合成した合成特徴語データを用いて、適合文書間の類似度を計算し、分類する分類手段120と、検索要求に対応して、分類された適合文書を含む検索結果データを出力する出力手段122とを含む。
【選択図】 図3
Description
以下、図1を参照して、第1の実施形態による情報検索サーバが配置されるネットワーク環境の全体構成について説明する。図1は、第1の実施形態の情報検索サーバが配置されるネットワーク環境の構成図である。図1に示すネットワーク環境100は、インターネットやローカル・エリア・ネットワークなどのネットワーク102と、それぞれネットワーク102に接続される情報検索サーバ110と、文書保管サーバ150と、利用者端末160とを含む。
以下、情報検索サーバ110のハードウェア構成について説明する。図2は、第1の実施形態による情報検索サーバのハードウェア構成図である。情報検索サーバ110は、マイクロプロセッサ・ユニット(MPU)12と、BIOS(Basic Input Output System)を格納する不揮発性メモリ14と、MPU12によるプログラム処理を可能とする実行記憶空間を提供するメモリ16とを含む。MPU12は、起動時に、不揮発性メモリ14からBIOSを読み出し、システム診断を行う。
以下、図3〜図7を参照しながら、第1の実施形態の情報検索サーバ110が提供する検索機能について説明する。図3は、第1の実施形態による情報検索サーバ上に実現される機能ブロックを示す図である。図3には、検索サーバ110の他、利用者端末160が示されている。
以下、図8を参照しながら、索引ファイルおよび特徴語ベクトル格納ファイルが準備されるまでの処理について詳細を説明する。図8は、索引ファイルおよび特徴語ベクトル格納ファイルが作成されるまでの流れについて説明するフローチャートである。なお、図8に示す処理は、特定の項目に対する処理であり、文書を構成する項目毎に図8に示す処理が行われる。
図8に示した処理により、登録された文書が検索可能となる。以下、図9〜図14を参照しながら、第1の実施形態による派生文書を整理して検索結果を提供する検索処理について、詳細を説明する。図9は、第1の実施形態による情報検索サーバ110が実行する検索処理のメインフローを示すフローチャートである。図9に示す処理は、検索要求受付部112が検索要求を受信したことに応答して、ステップS200から開始される。ステップS201では、文書検索部114は、検索語が含まれる適合文書を、検索対象として指定された項目の索引ファイル132,134から検索し、適合文書の集合を取得する。
以下、図15〜図17を参照しながら、第2の実施形態による情報検索サーバが提供する全文検索機能について説明する。図15は、第2の実施形態による情報検索サーバ上に実現される機能ブロックを示す図である。なお、第2の実施形態は、ネットワーク環境および情報検索サーバのハードウェア構成を含めて、第1の実施形態と同様の構成を備えるため、以下、相違点を中心に説明する。
Claims (8)
- 複数の項目が含まれる文書を検索するための情報処理装置であって、
登録された各文書の索引データを格納する1以上の索引データ格納手段と、
登録された各文書から項目毎に得られた特徴語データを格納する各項目の特徴語データ格納手段と、
検索要求にかかる検索条件に適合した適合文書を前記索引データから検索する検索手段と、
前記適合文書各々を、所定の複数の項目の特徴語データを合成した合成特徴語データを用いて、前記適合文書間の類似度を計算し、分類する分類手段と、
前記検索要求に対応して、分類された前記適合文書を含む検索結果データを出力する出力手段と
を含む、情報処理装置。 - 前記情報処理装置は、文書に対し、前記検索条件に対する適合度を表すスコアを計算するスコア計算手段と、前記適合文書各々をスコアに応じてグループ分けするグループ分け計算手段とをさらに含み、
前記分類手段は、分けられたグループ内で前記適合文書間の類似度を計算する、請求項1に記載の情報処理装置。 - 前記情報処理装置は、分類された各文書クラスタに属する代表文書の合成特徴語データを用いて、該文書クラスタ間の類似度を計算し、該類似度が基準を満たす文書クラスタ同士を結合する結合手段をさらに含む、請求項1または2に記載の情報処理装置。
- 前記分類手段は、前記所定の複数の項目の特徴語データ間に共通語がある場合には、前記合成特徴語データ内の該共通語の重み値を増加させる、請求項1〜3のいずれか1項に記載の情報処理装置。
- 前記分類手段は、前記所定の複数の項目の特徴語データを指定の重み付けで合成する、請求項1〜4のいずれか1項に記載の情報処理装置。
- 前記1以上の索引データ格納手段は、登録された各文書の項目毎の索引データを格納する各項目の索引データ格納手段を含み、前記スコア計算手段は、指定された1以上の項目の索引データから得られる部分スコアを用いて前記スコアを計算し、
前記合成特徴語データを合成するための前記所定の複数の項目は、スコア計算での前記1以上の項目の指定とは独立に指定される、請求項2に記載の情報処理装置。 - 複数の項目が含まれる文書を検索するための情報処理装置を実現するためのコンピュータ実行可能なプラグラムであって、コンピュータを、
登録された各文書の索引データを格納する1以上の索引データ格納手段、
登録された各文書から項目毎に得られた特徴語データを格納する各項目の特徴語データ格納手段、
検索要求にかかる検索条件に適合する適合文書を前記索引データから検索する検索手段、
前記適合文書各々を、所定の複数の項目の特徴語データを合成した合成特徴語データを用いて、適合文書間の類似度を計算し、分類する分類手段、および
前記検索要求に対応して、分類された前記適合文書を含む検索結果データを出力する出力手段
として機能させるためのプログラム。 - 前記プログラムは、コンピュータを、文書に対し、前記検索条件に対する適合度を表すスコアを計算するスコア計算手段、および前記適合文書各々をスコアに応じてグループ分けするグループ分け計算手段としてさらに機能させ、
前記分類手段は、分けられたグループ内で前記適合文書間の類似度を計算する、請求項7に記載のプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011254549A JP5834815B2 (ja) | 2011-11-22 | 2011-11-22 | 情報処理装置、プログラムおよび文書を検索するための方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011254549A JP5834815B2 (ja) | 2011-11-22 | 2011-11-22 | 情報処理装置、プログラムおよび文書を検索するための方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013109606A true JP2013109606A (ja) | 2013-06-06 |
JP5834815B2 JP5834815B2 (ja) | 2015-12-24 |
Family
ID=48706288
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011254549A Expired - Fee Related JP5834815B2 (ja) | 2011-11-22 | 2011-11-22 | 情報処理装置、プログラムおよび文書を検索するための方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5834815B2 (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015201185A (ja) * | 2014-04-04 | 2015-11-12 | 富士通株式会社 | 講義ビデオのトピックスを特定する方法及び非一時的なコンピュータ可読媒体 |
WO2016027364A1 (ja) * | 2014-08-22 | 2016-02-25 | 株式会社日立製作所 | 話題クラスタ選択装置、及び検索方法 |
JP2016105260A (ja) * | 2014-12-01 | 2016-06-09 | ビッグローブ株式会社 | サイトまとめ方法、サイトまとめシステム、情報処理装置、及びプログラム |
JP2017509070A (ja) * | 2014-03-28 | 2017-03-30 | アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited | データ検索処理 |
JP2017068720A (ja) * | 2015-09-30 | 2017-04-06 | 大日本印刷株式会社 | 情報提供装置及びプログラム |
JP2017516198A (ja) * | 2014-04-03 | 2017-06-15 | フェイスブック,インク. | オンライン・ソーシャル・ネットワーク上の検索結果をブレンドすること |
WO2018131132A1 (ja) * | 2017-01-13 | 2018-07-19 | 日本電気株式会社 | 情報処理装置、情報処理方法及びプログラム |
CN113535824A (zh) * | 2021-07-27 | 2021-10-22 | 杭州海康威视数字技术股份有限公司 | 数据搜索方法、装置、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009500764A (ja) * | 2005-07-15 | 2009-01-08 | チョンヌン インコーポレイテッド | 情報価値を反映した情報検索方法及びその装置 |
JP2010009577A (ja) * | 2008-05-28 | 2010-01-14 | Ricoh Co Ltd | 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体 |
-
2011
- 2011-11-22 JP JP2011254549A patent/JP5834815B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009500764A (ja) * | 2005-07-15 | 2009-01-08 | チョンヌン インコーポレイテッド | 情報価値を反映した情報検索方法及びその装置 |
JP2010009577A (ja) * | 2008-05-28 | 2010-01-14 | Ricoh Co Ltd | 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017509070A (ja) * | 2014-03-28 | 2017-03-30 | アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited | データ検索処理 |
JP2017516198A (ja) * | 2014-04-03 | 2017-06-15 | フェイスブック,インク. | オンライン・ソーシャル・ネットワーク上の検索結果をブレンドすること |
JP2015201185A (ja) * | 2014-04-04 | 2015-11-12 | 富士通株式会社 | 講義ビデオのトピックスを特定する方法及び非一時的なコンピュータ可読媒体 |
WO2016027364A1 (ja) * | 2014-08-22 | 2016-02-25 | 株式会社日立製作所 | 話題クラスタ選択装置、及び検索方法 |
JP2016105260A (ja) * | 2014-12-01 | 2016-06-09 | ビッグローブ株式会社 | サイトまとめ方法、サイトまとめシステム、情報処理装置、及びプログラム |
JP2017068720A (ja) * | 2015-09-30 | 2017-04-06 | 大日本印刷株式会社 | 情報提供装置及びプログラム |
WO2018131132A1 (ja) * | 2017-01-13 | 2018-07-19 | 日本電気株式会社 | 情報処理装置、情報処理方法及びプログラム |
US11080338B2 (en) | 2017-01-13 | 2021-08-03 | Nec Corporation | Information processing apparatus, information processing method, and program |
CN113535824A (zh) * | 2021-07-27 | 2021-10-22 | 杭州海康威视数字技术股份有限公司 | 数据搜索方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP5834815B2 (ja) | 2015-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5834815B2 (ja) | 情報処理装置、プログラムおよび文書を検索するための方法 | |
JP5316158B2 (ja) | 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体 | |
CA2992822C (en) | Methods and systems for identifying a level of similarity between a filtering criterion and a data item within a set of streamed documents | |
US11853334B2 (en) | Systems and methods for generating and using aggregated search indices and non-aggregated value storage | |
US8832655B2 (en) | Systems and methods for finding project-related information by clustering applications into related concept categories | |
US7451124B2 (en) | Method of analyzing documents | |
US7958128B2 (en) | Query-independent entity importance in books | |
JP5494454B2 (ja) | 検索結果生成方法、検索結果生成プログラムおよび検索システム | |
JP6299596B2 (ja) | クエリ類似度評価システム、評価方法、及びプログラム | |
US20110099163A1 (en) | System and method for indexing, organizing, storing and retrieving environmental information | |
WO2008106667A1 (en) | Searching heterogeneous interrelated entities | |
TW201327236A (zh) | 對個人化搜尋結果的社交網路推薦內容及推薦成員 | |
US20120166439A1 (en) | Method and system for classifying web sites using query-based web site models | |
US20120310940A1 (en) | Faceted search with relationships between categories | |
US10650191B1 (en) | Document term extraction based on multiple metrics | |
Changala et al. | A SURVEY ON DEVELOPMENT OF PATTERN EVOLVING MODEL FOR DISCOVERY OF PATTERNS IN TEXT MINING USING DATA MINING TECHNIQUES. | |
KR20180129001A (ko) | 다언어 특질 투영된 개체 공간 기반 개체 요약본 생성 방법 및 시스템 | |
CN113486226A (zh) | 用于搜索结果注释的方法和系统 | |
JP2007334590A (ja) | 情報ランキング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
KR101823463B1 (ko) | 연구자 검색 서비스 제공 장치 및 그 방법 | |
US10394870B2 (en) | Search method | |
WO2022130579A1 (ja) | 類似度判定プログラム、類似度判定装置、及び、類似度判定方法 | |
JP2003271648A (ja) | 検索装置、検索方法、ならびに、プログラム | |
JP2009146013A (ja) | コンテンツ検索方法及び装置並びにプログラム | |
WO2009035871A1 (en) | Browsing knowledge on the basis of semantic relations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20141020 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150624 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150630 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150831 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20151006 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151019 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5834815 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
LAPS | Cancellation because of no payment of annual fees |