JP2011086043A - 単語テーマ関連度算出装置、単語テーマ関連度算出用プログラムおよび情報検索装置 - Google Patents
単語テーマ関連度算出装置、単語テーマ関連度算出用プログラムおよび情報検索装置 Download PDFInfo
- Publication number
- JP2011086043A JP2011086043A JP2009237227A JP2009237227A JP2011086043A JP 2011086043 A JP2011086043 A JP 2011086043A JP 2009237227 A JP2009237227 A JP 2009237227A JP 2009237227 A JP2009237227 A JP 2009237227A JP 2011086043 A JP2011086043 A JP 2011086043A
- Authority
- JP
- Japan
- Prior art keywords
- word
- theme
- words
- relevance
- negative
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】単語抽出・分類部12は、評価対象文書についての評価を受け、評価対象文書から単語を抽出し、ポジティブ単語、ネガティブ単語、共通単語に分類する。ポジティブ単語用テーマ関連度算出部13、共通単語用テーマ関連度算出部14、ネガティブ単語用テーマ関連度算出部15はそれぞれ、ポジティブ単語、共通単語、ネガティブ単語の対象テーマに対するテーマ関連度を算出する。テーマ関連単語DB16は、テーマ関連度を保存・管理する。検索手段11は、テーマ関連度の高い単語から検索クエリを生成して検索を行うとともに、テーマ関連度に基づいて文書の提示順位を決める。
【選択図】図1
Description
ユーザは、提示された検索結果のWebページ(文書)を適宜閲覧し、検索結果のWebページが、対象テーマに関連するWebページ(ポジティブ評価Webページ)であるか対象テーマ関連しないWebページ(ネガティブ評価Webページ)であるかの評価を行い、その評価結果をクライアント端末20から入力する。ここで、ユーザが実際に閲覧して評価するWebページの件数は、数件(例えば3〜5件程度)でよい。
Claims (12)
- 文書に含まれる各単語の、対象テーマに対する関連度を算出する単語テーマ関連度算出装置において、
複数の単語を含む評価対象の文書が、対象テーマに関連するポジティブ評価文書であるか対象テーマに関連しないネガティブ評価文書であるかのユーザからの評価を受け付け、評価対象の文書から単語を抽出すると共に、ポジティブ評価文書中のみに出現するポジティブ単語、ネガティブ評価文書中のみに出現するネガティブ単語、ポジティブ評価文書とネガティブ評価文書の双方に出現する共通単語に分類する単語抽出・分類部と、
前記単語抽出・分類部により抽出・分類されたポジティブ単語の出現頻度と他の単語との隣接関係に基づき、該ポジティブ単語の対象テーマに対するテーマ関連度を算出するポジティブ単語用テーマ関連度算出部と、
前記単語抽出・分類部により抽出・分類された共通単語の出現頻度と他の単語との隣接関係に基づき、該共通単語の対象テーマに対するテーマ関連度を算出する共通単語用テーマ関連度算出部と、
前記単語抽出・分類部により抽出・分類されたネガティブ単語の出現頻度と制約条件下における他の単語との隣接関係に基づき、該ネガティブ単語の対象テーマに対するテーマ関連度を算出するネガティブ単語用テーマ関連度算出部とを備えたことを特徴とする単語テーマ関連度算出装置。 - さらに、前記単語抽出・分類部により抽出・分類された単語と、前記ポジティブ単語用テーマ関連度算出部、前記共通単語用テーマ関連度算出部および前記ネガティブ単語用テーマ関連度算出部により算出されたテーマ関連度を保存・管理するテーマ関連単語データベースを備えたことを特徴とする請求項1に記載の単語テーマ関連度算出装置。
- 前記ポジティブ単語用テーマ関連度算出部は、ポジティブ単語の出現頻度に基づく特徴値と、単語の概念上での上下関係および並列関係を含む単語間の関連を示すシソーラス辞書における単語間の隣接関係に基づく特徴値をそれぞれ求め、それらの特徴値を組み合わせてテーマ関連度を算出することを特徴とする請求項1または2に記載の単語テーマ関連度算出装置。
- 前記共通単語用テーマ関連度算出部は、ポジティブ単語とネガティブ単語の両者の出現頻度に基づく特徴値と、単語の概念上での上下関係および並列関係を含む単語間の関連を示すシソーラス辞書における単語間の隣接関係に基づく特徴値をそれぞれ求め、それらの特徴値を組み合わせてテーマ関連度を算出することを特徴とする請求項1ないし3のいずれかに記載の単語テーマ関連度算出装置。
- 前記ネガティブ単語用テーマ関連度算出部は、ネガティブ単語の出現頻度に基づく特徴値と、単語の概念上での上下関係および並列関係を含む単語間の関連を示すシソーラス辞書における単語間の条件付き隣接関係に基づく特徴値をそれぞれ求め、それらの特徴値を組み合わせてテーマ関連度を算出することを特徴とする請求項1ないし4のいずれかに記載の単語テーマ関連度算出装置。
- 文書に含まれる各単語の、対象テーマに対する関連度の算出に用いられる単語テーマ関連度算出用プログラムであって、
コンピュータを、
複数の単語を含む評価対象の文書が、対象テーマに関連するポジティブ評価文書であるか対象テーマに関連しないネガティブ評価文書であるかのユーザからの評価を受け付け、評価対象の文書から単語を抽出すると共に、ポジティブ評価文書中のみに出現するポジティブ単語、ネガティブ評価文書中のみに出現するネガティブ単語、ポジティブ評価文書とネガティブ評価文書の双方に出現する共通単語に分類する単語抽出・分類手段、
前記単語抽出・分類部により抽出・分類されたポジティブ単語の出現頻度と他の単語との隣接関係に基づき、該ポジティブ単語の対象テーマに対するテーマ関連度を算出するポジティブ単語用テーマ関連度算出手段、
前記単語抽出・分類部により抽出・分類された共通単語の出現頻度と他の単語との隣接関係に基づき、該共通単語の対象テーマに対するテーマ関連度を算出する共通単語用テーマ関連度算出手段、および
前記単語抽出・分類部により抽出・分類されたネガティブ単語の出現頻度と制約条件下における他の単語との隣接関係に基づき、該ネガティブ単語の対象テーマに対するテーマ関連度を算出するネガティブ単語用テーマ関連度算出手段、
として機能させるプログラム単語テーマ関連度算出用プログラム。 - 前記ポジティブ単語用テーマ関連度算出部は、ポジティブ単語の出現頻度に基づく特徴値と、単語の概念上での上下関係および並列関係を含む単語間の関連を示すシソーラス辞書における単語間の隣接関係に基づく特徴値をそれぞれ求め、それらの特徴値を組み合わせてテーマ関連度を算出する請求項6に記載のプログラム単語テーマ関連度算出用プログラム。
- 前記共通単語用テーマ関連度算出部は、ポジティブ単語とネガティブ単語の両者の出現頻度に基づく特徴値と、単語の概念上での上下関係および並列関係を含む単語間の関連を示すシソーラス辞書における単語間の隣接関係に基づく特徴値をそれぞれ求め、それらの特徴値を組み合わせてテーマ関連度を算出する請求項6または7に記載のプログラム単語テーマ関連度算出用プログラム。
- 前記ネガティブ単語用テーマ関連度算出部は、ネガティブ単語の出現頻度に基づく特徴値と、単語の概念上での上下関係および並列関係を含む単語間の関連を示すシソーラス辞書における単語間の条件付き隣接関係に基づく特徴値をそれぞれ求め、それらの特徴値を組み合わせてテーマ関連度を算出する請求項6ないし8のいずれかに記載のプログラム単語テーマ関連度算出用プログラム。
- 請求項1ないし5のいずれかに記載の単語テーマ関連度算出装置および検索手段を備え、
前記検索手段は、前記単語テーマ関連度算出装置により算出されたテーマ関連度を用いて検索クエリを生成する検索クエリを生成し、該検索クエリにより情報を検索し、検索された情報を、前記テーマ関連度に基づいて順位付けして提示することを特徴とする情報検索装置。 - 前記単語テーマ関連度算出装置は、検索された情報に対するユーザからの評価を繰り返し受け付けて前記テーマ関連度を算出して更新し、
検索手段は、更新されたテーマ関連度に基づいて検索クエリの生成、該検索クエリによる検索および順位付けを繰り返すことを特徴とする請求項10に記載の情報検索装置。 - 前記単語テーマ関連度算出装置は、前記テーマ関連度を算出して更新するに際し、今回検索された文書が先に評価された文書と同じである場合には、先に評価された文書から抽出・分類された単語および該単語の単語テーマ関連度の算出の基になった単語データを利用することを特徴とする請求項11に記載の情報検索装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009237227A JP5424393B2 (ja) | 2009-10-14 | 2009-10-14 | 単語テーマ関連度算出装置、単語テーマ関連度算出用プログラムおよび情報検索装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009237227A JP5424393B2 (ja) | 2009-10-14 | 2009-10-14 | 単語テーマ関連度算出装置、単語テーマ関連度算出用プログラムおよび情報検索装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011086043A true JP2011086043A (ja) | 2011-04-28 |
JP5424393B2 JP5424393B2 (ja) | 2014-02-26 |
Family
ID=44078951
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009237227A Active JP5424393B2 (ja) | 2009-10-14 | 2009-10-14 | 単語テーマ関連度算出装置、単語テーマ関連度算出用プログラムおよび情報検索装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5424393B2 (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013242791A (ja) * | 2012-05-22 | 2013-12-05 | Nippon Hoso Kyokai <Nhk> | 主題抽出装置およびそのプログラム |
JP2015125764A (ja) * | 2013-12-27 | 2015-07-06 | 富士通株式会社 | 情報収集プログラム、情報収集方法及び情報収集装置 |
JP2018190060A (ja) * | 2017-04-28 | 2018-11-29 | キヤノンマーケティングジャパン株式会社 | 情報処理装置、情報処理システム、その制御方法及びプログラム |
JP2020013387A (ja) * | 2018-07-19 | 2020-01-23 | カシオ計算機株式会社 | 情報処理装置、情報処理方法及びプログラム |
JP2020024559A (ja) * | 2018-08-07 | 2020-02-13 | Zホールディングス株式会社 | 情報処理プログラム、情報処理装置、および情報処理方法 |
JP2020536294A (ja) * | 2018-05-10 | 2020-12-10 | スージョウ ディープリーパー インフォメーション アンド テクノロジー カンパニー リミテッド | 内容プッシュ方法、内容プッシュ装置及びマシン読取可能な媒体 |
JP7045515B1 (ja) | 2021-07-19 | 2022-03-31 | ヤフー株式会社 | 情報処理装置、情報処理方法および情報処理プログラム |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003108597A (ja) * | 2001-09-27 | 2003-04-11 | Toshiba Corp | 情報検索システム、情報検索方法及び情報検索プログラム |
JP2004178421A (ja) * | 2002-11-28 | 2004-06-24 | Ricoh Co Ltd | 文書検索装置、文書検索方法、プログラムおよび記録媒体 |
JP2004310404A (ja) * | 2003-04-07 | 2004-11-04 | Nippon Telegr & Teleph Corp <Ntt> | 関連語の抽出装置、関連語の抽出方法、プログラムおよび記憶媒体 |
JP2005346598A (ja) * | 2004-06-07 | 2005-12-15 | Sangaku Renkei Kiko Kyushu:Kk | ウェブ情報収集装置とウェブクローラープログラム、及びウェブ情報収集方法 |
JP2006344010A (ja) * | 2005-06-09 | 2006-12-21 | Fuji Xerox Co Ltd | 文書検索装置 |
JP2009245179A (ja) * | 2008-03-31 | 2009-10-22 | Nomura Research Institute Ltd | 文書検索支援装置 |
-
2009
- 2009-10-14 JP JP2009237227A patent/JP5424393B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003108597A (ja) * | 2001-09-27 | 2003-04-11 | Toshiba Corp | 情報検索システム、情報検索方法及び情報検索プログラム |
JP2004178421A (ja) * | 2002-11-28 | 2004-06-24 | Ricoh Co Ltd | 文書検索装置、文書検索方法、プログラムおよび記録媒体 |
JP2004310404A (ja) * | 2003-04-07 | 2004-11-04 | Nippon Telegr & Teleph Corp <Ntt> | 関連語の抽出装置、関連語の抽出方法、プログラムおよび記憶媒体 |
JP2005346598A (ja) * | 2004-06-07 | 2005-12-15 | Sangaku Renkei Kiko Kyushu:Kk | ウェブ情報収集装置とウェブクローラープログラム、及びウェブ情報収集方法 |
JP2006344010A (ja) * | 2005-06-09 | 2006-12-21 | Fuji Xerox Co Ltd | 文書検索装置 |
JP2009245179A (ja) * | 2008-03-31 | 2009-10-22 | Nomura Research Institute Ltd | 文書検索支援装置 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013242791A (ja) * | 2012-05-22 | 2013-12-05 | Nippon Hoso Kyokai <Nhk> | 主題抽出装置およびそのプログラム |
JP2015125764A (ja) * | 2013-12-27 | 2015-07-06 | 富士通株式会社 | 情報収集プログラム、情報収集方法及び情報収集装置 |
JP2018190060A (ja) * | 2017-04-28 | 2018-11-29 | キヤノンマーケティングジャパン株式会社 | 情報処理装置、情報処理システム、その制御方法及びプログラム |
JP2020536294A (ja) * | 2018-05-10 | 2020-12-10 | スージョウ ディープリーパー インフォメーション アンド テクノロジー カンパニー リミテッド | 内容プッシュ方法、内容プッシュ装置及びマシン読取可能な媒体 |
JP2020013387A (ja) * | 2018-07-19 | 2020-01-23 | カシオ計算機株式会社 | 情報処理装置、情報処理方法及びプログラム |
JP2020024559A (ja) * | 2018-08-07 | 2020-02-13 | Zホールディングス株式会社 | 情報処理プログラム、情報処理装置、および情報処理方法 |
JP7231354B2 (ja) | 2018-08-07 | 2023-03-01 | ヤフー株式会社 | 情報処理プログラム、情報処理装置、および情報処理方法 |
JP7045515B1 (ja) | 2021-07-19 | 2022-03-31 | ヤフー株式会社 | 情報処理装置、情報処理方法および情報処理プログラム |
JP2023014899A (ja) * | 2021-07-19 | 2023-01-31 | ヤフー株式会社 | 情報処理装置、情報処理方法および情報処理プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5424393B2 (ja) | 2014-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11347963B2 (en) | Systems and methods for identifying semantically and visually related content | |
US7672943B2 (en) | Calculating a downloading priority for the uniform resource locator in response to the domain density score, the anchor text score, the URL string score, the category need score, and the link proximity score for targeted web crawling | |
US10909427B2 (en) | Method and device for classifying webpages | |
JP5424393B2 (ja) | 単語テーマ関連度算出装置、単語テーマ関連度算出用プログラムおよび情報検索装置 | |
US8234311B2 (en) | Information processing device, importance calculation method, and program | |
US9098588B2 (en) | Information processing apparatus, information processing method, and information processing program | |
US20190318407A1 (en) | Method for product search using the user-weighted, attribute-based, sort-ordering and system thereof | |
US10558666B2 (en) | Systems and methods for the creation, update and use of models in finding and analyzing content | |
EP2801917A1 (en) | Method, apparatus, and computer storage medium for automatically adding tags to document | |
CN104933100A (zh) | 关键词推荐方法和装置 | |
KR100859918B1 (ko) | 사용자 피드백을 이용하여 검색된 컨텐츠를 평가하고 평가결과를 이용하여 검색 결과를 제공하는 방법 및 장치 | |
JP2007219929A (ja) | 感性評価システム及び方法 | |
JP5048852B2 (ja) | 検索装置、検索方法、検索プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体 | |
Kantorski et al. | Automatic filling of hidden web forms: a survey | |
KR101621735B1 (ko) | 추천 검색어 제공 방법 및 시스템 | |
Valcarce et al. | Efficient pseudo-relevance feedback methods for collaborative filtering recommendation | |
JP5349032B2 (ja) | 情報選別装置 | |
Manek et al. | Hybrid crawling for time-based personalized web search ranking | |
Gupta et al. | An improved approach to ranking web documents | |
US20120191725A1 (en) | Document ranking system with user-defined continuous term weighting | |
EP4002151A1 (en) | Data tagging and synchronisation system | |
CN116610853A (zh) | 搜索推荐方法、搜索推荐系统、计算机设备及存储介质 | |
Hoxha et al. | Towards a modular recommender system for research papers written in albanian | |
Huang et al. | Rough-set-based approach to manufacturing process document retrieval | |
Ali et al. | Entity attribute ranking using learning to rank. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120831 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130814 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130821 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131015 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131120 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131122 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5424393 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |