JP2008102790A - 検索システム - Google Patents
検索システム Download PDFInfo
- Publication number
- JP2008102790A JP2008102790A JP2006285485A JP2006285485A JP2008102790A JP 2008102790 A JP2008102790 A JP 2008102790A JP 2006285485 A JP2006285485 A JP 2006285485A JP 2006285485 A JP2006285485 A JP 2006285485A JP 2008102790 A JP2008102790 A JP 2008102790A
- Authority
- JP
- Japan
- Prior art keywords
- document
- vector
- feature vector
- search
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】ブログやホームページ等のドキュメントを解析して、その特徴ベクトルを生成するドキュメント解析部4と、検索対象の各ドキュメントの特徴ベクトルを管理するドキュメント管理部2と、ドキュメント集合を構成する複数のドキュメントの特徴ベクトルに基づいてドキュメント集合の特徴ベクトルを生成するドキュメント集合ベクトル生成部6と、ドキュメント集合の特徴ベクトルを検索キーとしてドキュメント管理部2を検索し、ドキュメント集合に関連したドキュメントを抽出する検索部7と、検索結果を出力する検索結果出力部8とを含む。
【選択図】図1
Description
(1)ドキュメントを解析して、その特徴ベクトルを生成するドキュメント解析手段と、検索対象の各ドキュメントの特徴ベクトルを管理するドキュメント管理手段と、制作者および/または管理者が同一のドキュメントの特徴ベクトルに基づいて制作者の特徴ベクトルを生成する手段と、前記制作者の特徴ベクトルを管理する制作者管理手段と、ドキュメント集合を構成する複数のドキュメントの特徴ベクトルに基づいてドキュメント集合の特徴ベクトルを生成する手段と、ドキュメント集合の特徴ベクトルを検索キーとして前記制作者管理手段を検索し、前記ドキュメント集合に関連した制作者のドキュメントを抽出する検索手段と、検索結果を出力する検索結果出力手段とを含むことを特徴とする。
(2)検索対象の各ドキュメントが更新されたか否かを監視するドキュメント監視手段をさらに含み、ドキュメント解析手段は、更新されたドキュメントを解析し、その解析結果に基づいて、前記ドキュメント管理手段に既登録の特徴ベクトルを更新することを特徴とする。
(3)制作者の特徴ベクトルを生成する手段は、制作者および/または管理者が同一の複数のドキュメントを前記ドキュメント解析手段で解析して生成された複数の特徴ベクトルを統合して制作者の特徴ベクトルを生成し、検索対象の各ドキュメントが最後に更新されてからの経過期間に基づいて、経過時間が長くなるほど減少する減衰係数α(0≦α≦1)を算出し、制作者が同一である各ドキュメントの特徴ベクトルの重みに前記減衰係数αを乗じることを特徴とする。
(4)ドキュメント解析手段は、各ドキュメントから顔文字を抽出する顔文字抽出手段と、感情別に多数の顔文字の感情割合が登録された複数の顔文字辞書と、抽出された顔文字が各顔文字辞書に既登録であるか否かに基づいて、ドキュメントの感情ベクトルを生成する手段とを含み、感情ベクトルをドキュメントの特徴ベクトルとすることを特徴とする。
(1)検索対象のドキュメントを、その制作者や管理者で予めグループ化しておき、検索キーとしてのドキュメント集合と各グループのドキュメント集合との類似度に基づいて、ドキュメント集合に関連したグループを検索できるので、検索キーとしてのドキュメント集合と関連する人物を簡単に検索できるようになる。したがって、検索ユーザが自信の複数のブログを検索キーとして用いれば、自身と嗜好や興味が近いブロガーやホームページを簡単に検索できるようになる。
(2)検索対象のドキュメントが更新されたか否かを監視し、更新を契機として特徴ベクトルを更新するようにしたので、ドキュメントの特徴ベクトルを常に最新の状態に保つことができる。
(3)制作者や管理者が同一の複数のドキュメントを統合して制作者ベクトルを生成する際に、更新日の新しいドキュメントの内容が古いドキュメントの内容よりも優先されるようにしたので、制作者や管理者の現在の嗜好や興味を制作者ベクトルに正確に反映させることができるようになる。
(4)ドキュメントの特徴ベクトルを、そのドキュメントに含まれる顔文字に基づいて生成するようにしたので、顔文字を多く含むドキュメント間の検索を正確に行えるようになる。
ドキュメントを検索結果出力部8へ渡す。このとき、ベクトル間の相関を求めるための手法として、例えばピアソン相関係数やコサイン類似度を用いることができる。検索結果出力部8は、検索結果を視覚的に認識しやすい表現に加工してユーザに提示する。
Claims (9)
- ドキュメントの集合を検索キーとして、このドキュメント集合に関連した情報を検索する検索システムにおいて、
ドキュメントを解析して、その特徴ベクトルを生成するドキュメント解析手段と、
検索対象の各ドキュメントの特徴ベクトルを管理するドキュメント管理手段と、
制作者および/または管理者が同一のドキュメントの特徴ベクトルに基づいて制作者の特徴ベクトルを生成する手段と、
前記制作者の特徴ベクトルを管理する制作者管理手段と、
前記ドキュメント集合を構成する複数のドキュメントの特徴ベクトルに基づいてドキュメント集合の特徴ベクトルを生成する手段と、
前記ドキュメント集合の特徴ベクトルを検索キーとして前記制作者管理手段を検索し、前記ドキュメント集合に関連した制作者のドキュメントを抽出する検索手段と、
前記検索結果を出力する検索結果出力手段とを含むことを特徴とする検索システム。 - 検索対象の各ドキュメントが更新されたか否かを監視するドキュメント監視手段をさらに含み、
前記ドキュメント解析手段は、更新されたドキュメントを解析し、その解析結果に基づいて、前記ドキュメント管理手段に既登録の特徴ベクトルを更新することを特徴とする請求項1に記載の検索システム。 - 前記制作者の特徴ベクトルを生成する手段は、
制作者および/または管理者が同一の複数のドキュメントを前記ドキュメント解析手段で解析して生成された複数の特徴ベクトルを統合して制作者の特徴ベクトルを生成することを特徴とする請求項1または2に記載の検索システム。 - 検索対象の各ドキュメントが最後に更新されてからの経過期間に基づいて、経過時間が長くなるほど減少する減衰係数αを算出する手段を含み、
前記制作者の特徴ベクトルを生成手段は、制作者が同一である各ドキュメントの特徴ベクトルの重みに前記減衰係数αを乗じることを特徴とする請求項3に記載の検索システム。 - 前記ドキュメント集合の特徴ベクトルを生成する手段は、
ドキュメント集合の各ドキュメントを前記ドキュメント解析手段で解析して生成された各特徴ベクトルを統合してドキュメント集合の特徴ベクトルを生成することを特徴とする請求項1ないし4のいずれかに記載の検索システム。 - 前記ドキュメント解析手段は、
各ドキュメントからキーワードを抽出するキーワード抽出手段と、
カテゴリ別に多数のキーワードが登録された複数のキーワード辞書と、
前記抽出されたキーワードが各キーワード辞書に既登録であるか否かに基づいて、前記ドキュメントのカテゴリベクトルを生成する手段とを含み、
前記カテゴリベクトルをドキュメントの特徴ベクトルとすることを特徴とする請求項1ないし5のいずれかに記載の検索システム。 - 前記各キーワード辞書では、登録されているキーワードごとに重み値が割り当てられ、かつ同一のキーワードが複数のキーワード辞書に重複登録を許可されており、
前記カテゴリベクトルを生成する手段は、各キーワードについてカテゴリごとに重み値を求め、各キーワードの各重み値をカテゴリごとに加算してカテゴリベクトルを生成することを特徴とする請求項6に記載の検索システム。 - 前記ドキュメント解析手段は、
各ドキュメントから顔文字を抽出する顔文字抽出手段と、
感情別に多数の顔文字の感情割合が登録された複数の顔文字辞書と、
前記抽出された顔文字が各顔文字辞書に既登録であるか否かに基づいて、前記ドキュメントの感情ベクトルを生成する手段とを含み、
前記感情ベクトルをドキュメントの特徴ベクトルとすることを特徴とする請求項1ないし7のいずれかに記載の検索システム。 - 前記各顔文字辞書では、登録されている顔文字ごとに重み値が割り当てられ、かつ同一の顔文字が複数の顔文字辞書に重複登録を許可されており、
前記感情ベクトルを生成する手段は、各顔文字について感情ごとに重み値を求め、各顔文字の各重み値を感情ごとに加算して感情ベクトルを生成することを特徴とする請求項8に記載の検索システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006285485A JP4853915B2 (ja) | 2006-10-19 | 2006-10-19 | 検索システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006285485A JP4853915B2 (ja) | 2006-10-19 | 2006-10-19 | 検索システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008102790A true JP2008102790A (ja) | 2008-05-01 |
JP4853915B2 JP4853915B2 (ja) | 2012-01-11 |
Family
ID=39437068
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006285485A Expired - Fee Related JP4853915B2 (ja) | 2006-10-19 | 2006-10-19 | 検索システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4853915B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010126042A1 (ja) * | 2009-04-27 | 2010-11-04 | シャープ株式会社 | コンテンツ出力システム |
JP2015184749A (ja) * | 2014-03-20 | 2015-10-22 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
JP2016173742A (ja) * | 2015-03-17 | 2016-09-29 | 株式会社Jsol | 顔文字感情情報抽出システム、方法及びプログラム |
JP2019096346A (ja) * | 2013-03-29 | 2019-06-20 | キヤノン株式会社 | 会議支援システム、会議支援方法及びプログラム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001202283A (ja) * | 1999-11-09 | 2001-07-27 | Fujitsu Ltd | コンテンツ更新状況監視システム |
JP2001249951A (ja) * | 2000-03-06 | 2001-09-14 | Kddi Corp | 文書集合特徴化方法および該方法を用いた文書集合検索方法およびそれらの装置 |
JP2003271620A (ja) * | 2002-03-19 | 2003-09-26 | Fuji Xerox Co Ltd | 文書分類装置及び文書分類方法、文書分類プログラム |
JP2004362419A (ja) * | 2003-06-06 | 2004-12-24 | Matsushita Electric Ind Co Ltd | 情報処理装置および方法 |
-
2006
- 2006-10-19 JP JP2006285485A patent/JP4853915B2/ja not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001202283A (ja) * | 1999-11-09 | 2001-07-27 | Fujitsu Ltd | コンテンツ更新状況監視システム |
JP2001249951A (ja) * | 2000-03-06 | 2001-09-14 | Kddi Corp | 文書集合特徴化方法および該方法を用いた文書集合検索方法およびそれらの装置 |
JP2003271620A (ja) * | 2002-03-19 | 2003-09-26 | Fuji Xerox Co Ltd | 文書分類装置及び文書分類方法、文書分類プログラム |
JP2004362419A (ja) * | 2003-06-06 | 2004-12-24 | Matsushita Electric Ind Co Ltd | 情報処理装置および方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010126042A1 (ja) * | 2009-04-27 | 2010-11-04 | シャープ株式会社 | コンテンツ出力システム |
JP2019096346A (ja) * | 2013-03-29 | 2019-06-20 | キヤノン株式会社 | 会議支援システム、会議支援方法及びプログラム |
JP2015184749A (ja) * | 2014-03-20 | 2015-10-22 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
JP2016173742A (ja) * | 2015-03-17 | 2016-09-29 | 株式会社Jsol | 顔文字感情情報抽出システム、方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4853915B2 (ja) | 2012-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10235681B2 (en) | Text extraction module for contextual analysis engine | |
US9990422B2 (en) | Contextual analysis engine | |
US7660783B2 (en) | System and method of ad-hoc analysis of data | |
US10430806B2 (en) | Input/output interface for contextual analysis engine | |
US9990368B2 (en) | System and method for automatic generation of information-rich content from multiple microblogs, each microblog containing only sparse information | |
US8099406B2 (en) | Method for human editing of information in search results | |
US8352455B2 (en) | Processing a content item with regard to an event and a location | |
US8001135B2 (en) | Search support apparatus, computer program product, and search support system | |
US20070250501A1 (en) | Search result delivery engine | |
JP2009508267A (ja) | ブログ文書のランク付け | |
JP2011134334A (ja) | ショートテキスト通信のトピックを識別するためのシステムおよび方法 | |
US9858332B1 (en) | Extracting and leveraging knowledge from unstructured data | |
Magnani et al. | Conversation retrieval for microblogging sites | |
KR101073358B1 (ko) | 태그 기반 정보 검색 장치, 방법 및 태그 관리 방법 | |
KR100954842B1 (ko) | 카테고리 태그 정보를 이용한 웹 페이지 분류 방법, 그 시스템 및 이를 기록한 기록매체 | |
JP2010044462A (ja) | コンテンツ評価サーバ、コンテンツ評価方法及びコンテンツ評価プログラム | |
JP4820147B2 (ja) | 属性評価プログラム、属性評価システムおよび属性評価方法 | |
JP5194731B2 (ja) | 文書関連度算出システム、文書関連度算出方法および文書関連度算出プログラム | |
JP4853915B2 (ja) | 検索システム | |
JP2010026773A (ja) | 地理的特徴情報抽出方法およびシステム | |
US20240020476A1 (en) | Determining linked spam content | |
Hu et al. | Personalized searching for web service using user interests | |
JP2009265908A (ja) | 個人プロファイル抽出方法、人物検索方法及び装置 | |
JP2006236254A (ja) | コミュニティ依存型情報検索システム及び方法 | |
Mohajer | The Extraction of Social Networks from Web Using Search Engines |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090707 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110519 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110525 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110722 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111019 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111019 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141104 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4853915 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |