JP2011086043A - 単語テーマ関連度算出装置、単語テーマ関連度算出用プログラムおよび情報検索装置 - Google Patents

単語テーマ関連度算出装置、単語テーマ関連度算出用プログラムおよび情報検索装置 Download PDF

Info

Publication number
JP2011086043A
JP2011086043A JP2009237227A JP2009237227A JP2011086043A JP 2011086043 A JP2011086043 A JP 2011086043A JP 2009237227 A JP2009237227 A JP 2009237227A JP 2009237227 A JP2009237227 A JP 2009237227A JP 2011086043 A JP2011086043 A JP 2011086043A
Authority
JP
Japan
Prior art keywords
word
theme
words
relevance
negative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009237227A
Other languages
English (en)
Other versions
JP5424393B2 (ja
Inventor
Hajime Hattori
元 服部
Toshihiro Ono
智弘 小野
Yasuhiro Takishima
康弘 滝嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2009237227A priority Critical patent/JP5424393B2/ja
Publication of JP2011086043A publication Critical patent/JP2011086043A/ja
Application granted granted Critical
Publication of JP5424393B2 publication Critical patent/JP5424393B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】ユーザが少数の文書に対して対象テーマに関連するか関連しないかの評価をするだけで、文書に含まれる各単語の、対象テーマに対する関連度を高精度に算出でき、効率的かつ高精度に情報検索を行うことができるようにすること。
【解決手段】単語抽出・分類部12は、評価対象文書についての評価を受け、評価対象文書から単語を抽出し、ポジティブ単語、ネガティブ単語、共通単語に分類する。ポジティブ単語用テーマ関連度算出部13、共通単語用テーマ関連度算出部14、ネガティブ単語用テーマ関連度算出部15はそれぞれ、ポジティブ単語、共通単語、ネガティブ単語の対象テーマに対するテーマ関連度を算出する。テーマ関連単語DB16は、テーマ関連度を保存・管理する。検索手段11は、テーマ関連度の高い単語から検索クエリを生成して検索を行うとともに、テーマ関連度に基づいて文書の提示順位を決める。
【選択図】図1

Description

本発明は、単語テーマ関連度算出装置、単語テーマ関連度算出用プログラムおよび情報検索装置に関し、特に、ユーザが少数の文書に対して対象テーマに関連するか関連しないかの評価をするだけで、文書に含まれる単語の、対象テーマに対する関連度を高精度に算出でき、効率的かつ高精度に情報検索を行うことができる単語テーマ関連度算出装置、単語テーマ関連度算出用プログラムおよび情報検索装置に関する。
Web上には多種多様の情報が存在し、そのような情報の中からユーザが自分の要求に合ったものを選別して収集することは、労力と時間がかかる作業である。従来、ユーザの過去の情報選別での履歴を利用したり、情報絞り込みの手法を工夫したりして、情報収集作業の負担を軽減することが提案されている。
特許文献には、電子情報メディアなどから提供される情報に対する個々のユーザの嗜好をユーザの実際の評価値から自動的に学習して予測評価値を定め、その予測評価値を用いて個々のユーザに合った情報を優先的に提示する学習装置が提案されている。この学習装置では、あるキーワード集合に対するユーザの評価値の変化やゆれを検出し、その検出結果で予測評価値を自動調整するという操作を繰り返し行うので、正しいと思われる値の予測評価値を得ることができる。
非特許文献には、対象テーマに関連する情報をWebから自動収集して提示するテーマ関連知識習得支援システムが提案されている。このテーマ関連知識習得支援システムでは、Webページがユーザにより指示された対象テーマに関連する、という評価をシステムに登録することができる。また、シソーラス辞書を利用して単語のテーマ関連度を推定することにより、少ない評価回数であっても単語のテーマ関連度を高精度に推定できるようにしている。
特開平9−54780号公報
特許文献の学習装置は、ユーザのキーワード集合に対する評価値から自動的に学習するというものであるので、「対象テーマに関連する」と評価されたキーワード集合と「対象テーマに関連しない」と評価されたキーワード集合の双方に含まれる単語については、予測評価値が大きく変化することが頻繁に起こる可能性が高い。これにより、予測評価値が安定的に定まらないという問題が発生する。この問題は、ユーザの評価回数が少ない場合に特に顕著に現れる。
非特許文献のテーマ関連知識習得支援システムでは、「対象テーマに関連する」という評価のみを受け付けることを想定しており、「対象テーマに関連しない」という評価をこのシステムにそのまま適用することはできない。その適用を可能にするには、「対象テーマに関連する」という評価のWebページと「対象テーマに関連しない」という評価のWebページにそれぞれ含まれる単語の包含関係などを考慮する必要がある。
例えば、「ワインの選び方」が対象テーマとして指示され、ユーザにより「日本酒の選び方」に関するWebページと「お酒の選び方」に関するWebページが対象テーマに関連しないと評価された場合を想定する。非特許文献のテーマ関連知識習得支援システムでは、「日本酒」と「お酒」はシソーラス辞書でつながるため、それぞれ対象テーマに関連しない単語と判断される。したがって、それらの単語のテーマ関連度はマイナス値になる。しかし、「日本酒」は対象テーマに関連しない単語であるが、「お酒」は「ワイン」の上位概念でもあることから、「対象テーマに関連する」と「対象テーマに関連しない」の双方に評価されるべき中立的な単語として評価され、「お酒」のテーマ関連度はマイナス値にならないことが望ましい。
本発明の目的は、上記課題を解決し、ユーザが少数の文書に対して対象テーマに関連するか関連しないかの評価をするだけで、文書に含まれる各単語の、対象テーマに対する関連度を高精度に算出でき、効率的かつ高精度に情報検索を行うことができる単語テーマ関連度算出装置、単語テーマ関連度算出用プログラムおよび情報検索装置を提供することにある。
上記課題を解決するため、本発明の単語テーマ関連度算出装置は、文書に含まれる各単語の、対象テーマに対する関連度を算出する単語テーマ関連度算出装置において、複数の単語を含む評価対象の文書が、対象テーマに関連するポジティブ評価文書であるか対象テーマに関連しないネガティブ評価文書であるかのユーザからの評価を受け付け、評価対象の文書から単語を抽出すると共に、ポジティブ評価文書中のみに出現するポジティブ単語、ネガティブ評価文書中のみに出現するネガティブ単語、ポジティブ評価文書とネガティブ評価文書の双方に出現する共通単語に分類する単語抽出・分類部と、前記単語抽出・分類部により抽出・分類されたポジティブ単語の出現頻度と他の単語との隣接関係に基づき、該ポジティブ単語の対象テーマに対するテーマ関連度を算出するポジティブ単語用テーマ関連度算出部と、前記単語抽出・分類部により抽出・分類された共通単語の出現頻度と他の単語との隣接関係に基づき、該共通単語の対象テーマに対するテーマ関連度を算出する共通単語用テーマ関連度算出部と、前記単語抽出・分類部により抽出・分類されたネガティブ単語の出現頻度と制約条件下における他の単語との隣接関係に基づき、該ネガティブ単語の対象テーマに対するテーマ関連度を算出するネガティブ単語用テーマ関連度算出部とを備えた点に第1の特徴がある。
また、本発明の単語テーマ関連度算出装置は、さらに、前記単語抽出・分類部により抽出・分類された単語と、前記ポジティブ単語用テーマ関連度算出部、前記共通単語用テーマ関連度算出部および前記ネガティブ単語用テーマ関連度算出部により算出されたテーマ関連度を保存・管理するテーマ関連単語データベースを備えた点に第2の特徴がある。
また、本発明の単語テーマ関連度算出装置は、前記ポジティブ単語用テーマ関連度算出部が、ポジティブ単語の出現頻度に基づく特徴値と、単語の概念上での上下関係および並列関係を含む単語間の関連を示すシソーラス辞書における単語間の隣接関係に基づく特徴値をそれぞれ求め、それらの特徴値を組み合わせてテーマ関連度を算出する点に第3の特徴がある。
また、本発明の単語テーマ関連度算出装置は、前記共通単語用テーマ関連度算出部が、ポジティブ単語とネガティブ単語の双方の出現頻度に基づく特徴値と、単語の概念上での上下関係および並列関係を含む単語間の関連を示すシソーラス辞書における単語間の隣接関係に基づく特徴値をそれぞれ求め、それらの特徴値を組み合わせてテーマ関連度を算出する点に第4の特徴がある。
また、本発明の単語テーマ関連度算出装置は、前記ネガティブ単語用テーマ関連度算出部が、ネガティブ単語の出現頻度に基づく特徴値と、単語の概念上での上下関係および並列関係を含む単語間の関連を示すシソーラス辞書における単語間の条件付き隣接関係に基づく特徴値をそれぞれ求め、それらの特徴値を組み合わせてテーマ関連度を算出する点に第5の特徴がある。
また、本発明は、コンピュータを上記の各部(手段)として機能させるプログラムとしても実現でき、さらに、上記単語テーマ関連度算出装置を利用して情報検索を行う情報検索装置としても実現できる。
本発明の単語テーマ関連度算出装置および単語テーマ関連度算出用プログラムにおいては、評価対象の文書がポジティブ評価文書であるかネガティブ評価文書であるかのユーザからの評価を受け付け、ポジティブ単語と共通単語とネガティブ単語に分類し、それぞれからテーマ関連度を算出するので、対象テーマに合わない単語の順位を明示的に下げることができる。また、少数の文書を評価するだけで、対象テーマに対する単語の関連度を高精度に算出できる。
また、本発明の情報検索装置においては、対象テーマに関連する単語群を精度よく構築することができ、これを用いて特定テーマに関連するWebページなどの文書を効率的に収集して絞り込むことができる。
例えば、ユーザが少数のWebページに対して対象テーマ(「おいしいカレーの作り方」、「エコカー減税」など)に関連するか関連しないかを評価してシステムに通知するだけで、対象テーマに関連する重要な単語群を精度よく構築することができ、これを用いて特定テーマについてのWebページを効率的に収集して絞り込むことができる。
本発明に係る単語テーマ関連度算出装置の一実施形態を示すブロック図である。 シソーラスリンクを示す説明図である。 ポジティブ単語とネガティブ単語の概念上での上下関係および並列関係によるパターンを示す図である。 3種類の単語(ポジティブ単語、共通単語、ネガティブ単語)のスコアベース、シソーラスリンク係数、テーマ関連度の算出に用いられる式を示す図である。 本発明に係る情報検索装置におけるWeb検索処理を示すフローチャートである。
以下、図面を参照して本発明を説明する。図1は、本発明に係る単語テーマ関連度算出装置の一実施形態を示すブロック図である。本実施形態は、単語テーマ関連度算出装置を、Webページに対する「対象テーマに関連する」あるいは「対象テーマに関連しない」という評価に基づいてWebページに含まれる単語のテーマ関連度を算出して保存しておき、Web上から検索されたWebページのうちの対象テーマに関連するWebページを、保存されている単語のテーマ関連度を利用して効率的に推薦するサーバ10として構成したものである。
サーバ10は、検索手段11およびテーマ関連単語抽出手段20を備える。テーマ関連単語抽出手段20は、単語抽出・分類部12、ポジティブ単語用テーマ関連度算出部13、共通単語用テーマ関連度算出部14、ネガティブ単語用テーマ関連度算出部15およびテーマ関連単語データベース(DB)16を備える。検索手段11、単語抽出・分類部12、ポジティブ単語用テーマ関連度算出部13、共通単語用テーマ関連度算出部14およびネガティブ単語用テーマ関連度算出部15は、ハードウエアとしてもソフトウエアとしても構成できる。また、本発明は、コンピュータを各部(手段)として機能させるプログラムとして実現できる。
検索手段11は、クライアント端末30から対象テーマ名が入力された場合、その対象テーマ名に基づく検索クエリを生成し、該検索クエリを用いてWeb40に対して検索を実行する。また、検索手段11は、検索結果をクライアント端末30に提示する。検索結果の提示は、例えば、検索されたWebページのURL(uniform resource locator)リストでよい。
ユーザは、提示された検索結果のWebページ(文書)を適宜閲覧し、検索結果のWebページが、対象テーマに関連するWebページ(ポジティブ評価Webページ)であるか対象テーマ関連しないWebページ(ネガティブ評価Webページ)であるかの評価を行い、その評価結果をクライアント端末20から入力する。ここで、ユーザが実際に閲覧して評価するWebページの件数は、数件(例えば3〜5件程度)でよい。
単語抽出・分類部12は、検索結果のWebページがポジティブ評価Webページであるかネガティブ評価Webページであるかの評価結果が入力されると、検索結果のWebページから単語を抽出すると共に、抽出された単語をポジティブ単語、ネガティブ単語、共通単語に分類する。ポジティブ単語とはポジティブ評価Webページ中のみに出現する単語であり、ネガティブ単語とはネガティブ評価Webページ中のみに出現する単語であり、共通単語とはポジティブ評価Webページおよびネガティブ評価Webページの双方に出現する単語であり、それらは重複して分類されることはない。
Webページに含まれる単語は、Webページのテキストを形態素解析することにより抽出できる。抽出する単語は、例えば、(1)名詞(品詞細分類が一般 or 固有名詞 or サ変接続)、(2)動詞(活用型が五段〜)、(3)形容詞である。
ポジティブ単語用テーマ関連度算出部13は、単語抽出・分類部12により抽出・分類されたポジティブ単語の出現頻度と他の単語との隣接関係に基づき、ポジティブ単語の対象テーマに対するテーマ関連度を算出する。この算出に際しては、TF-IDFおよびシソーラス辞書を活用し、単語の概念の上下関係や同義語、同類語などの並列関係を考慮する。
共通単語用テーマ関連度算出部14は、単語抽出・分類部12により抽出・分類された共通単語の出現頻度と他の単語との隣接関係に基づき、共通単語の対象テーマに対するテーマ関連度を算出する。この算出に際しても、TF-IDFおよびシソーラス辞書を活用し、単語の概念の上下関係や同義語、同類語などの並列関係を考慮する。
ネガティブ単語用テーマ関連度算出部15は、単語抽出・分類部12により抽出・分類されたネガティブ単語の出現頻度と制約条件下における他の単語との隣接関係に基づき、ネガティブ単語の対象テーマに対するテーマ関連度(例えばマイナス値)を算出する。この算出に際しても、TF-IDFおよび単語の概念の上下関係および並列関係を示すシソーラス辞書を活用し、単語の概念の上下関係や同義語、同類語などの並列関係を考慮する。
テーマ関連単語DB16は、各単語と関連付けてテーマ関連度を保存・管理する。
なお、後述するように、当該対象テーマについての検索が以前に実行され、単語とテーマ関連度がテーマ関連単語DB16に保存されている場合、今回の検索および評価に従ってテーマ関連単語DB16に保存される単語とテーマ関連度を更新する。この単語とテーマ関連度の更新に際し、今回検索された文書が先に評価された文書と同じである場合には、先に評価された文書から抽出・分類された単語および該単語についての単語データ(単語テーマ関連度の算出の基になった情報)の方を利用することができる。
次に、テーマ関連度の算出手法について説明する。
まず、検索結果のWebページがポジティブ評価Webページであるかネガティブ評価Webページであるかの評価結果に基づいて、検索結果のWebページから単語を抽出すると共に、各単語を以下の(1),(2),(3)に分類する。なお、単語は(1),(2),(3)のいずれかに分類され、2以上の分類に重複して出現することはない。
(1)ポジティブ評価Webページ中のみに出現するポジティブ単語
(2)ネガティブ評価Webページ中のみに出現するネガティブ単語
(3)ポジティブ評価Webページとネガティブ評価Webページの双方に出現する共通単語
次に、ポジティブ単語、共通単語およびネガティブ単語のテーマ関連度を算出する。各テーマ関連度は、評価Webページ内での単語の出現頻度に基づく特徴値(以下、スコアベースと称する。)と、シソーラス辞書における、評価Webページ内での単語の概念や意味に基づく他の単語との隣接関係に基づく特徴値(以下、シソーラスリンク係数と称する)を求め、それらの特徴値を組み合わせることにより算出できる。
スコアベースは、対象テーマのみに出現する単語は対象テーマに対する関連度が高い、という考えを基にしてテーマ関連度算出に用いられるものであり、対象テーマに対して統計的に算出されるテーマ関連度であるので、一般的に信頼性の高い(尤もらしい)値を算出できるという特長がある。ただし、評価Webページ数が少ない場合には、値の信頼性が低くなる。
シソーラスリンク係数は、共通の対象テーマを持つWebページ中の単語には、単語としては異なるが、対象テーマに対する概念が同じ単語が多くあれば、その概念(を持つ単語)は対象テーマに対する関連度が高い、という考えを基にしてテーマ関連度算出に用いられるものであり、単語の出現頻度に依存しない関連度を算出できる特長がある。
例えば、「カレーの作り方」が対象テーマであり、「ジャガイモ」,「豆」,「ニンジン」という単語が出現した場合、それらは「カレーの材料」および「野菜」に該当する同じ概念を持つ単語である。このような同じ概念の単語は、テーマに対する関連度が高いと言える。
以上のスコアベースとシソーラスリンク係数という2つの値の組み合わせをテーマ関連度の指標とすることにより、対象テーマ内での出現頻度が高く、また、同じ概念を持つ単語を多く持つ単語は、対象テーマに対する関連度が上位にランクされるようになる。
ポジティブ単語、共通単語およびネガティブ単語の3種類の単語については、以下に示すように、異なる手法でテーマ関連度を算出する。
(1)ポジティブ単語
ポジティブ評価Webページ中の出現回数を用いてスコアベースを算出し、該スコアベースとポジティブ評価Webページ中のシソーラスリンク係数の積をテーマ関連度とする。これにより、ポジティブ評価Webページ中の出現頻度が高く、また、同じ概念を持つ単語を多く持つ単語が重視される。
(2)ネガティブ単語
ネガティブ評価Webページ中の出現回数を用いてスコアベースを算出し、該スコアベースとネガティブ評価Webページ中の条件付きシソーラスリンク係数の積をテーマ関連度とする。これにより、ネガティブ評価Webページ中の出現頻度が高く、また、ポジティブ単語を下位概念に持たない単語のうち同じ概念を持つ単語を多く持つ単語が重視される。
(3)共通単語
ポジティブ評価Webページおよびネガティブ評価Webページにおける、単語の出現頻度と該単語が出現する評価Webページ数を用いてスコアベースを算出し、該スコアベースとシソーラスリンク係数の積をテーマ関連度とする。これにより、ポジティブ評価Webページおよびネガティブ評価Webページ中に均等にかつ多く出現し、また、同じ概念を持つ単語を多く持つ単語が重視される。
テーマ関連度は、式(1)で算出される。式(1)は、ポジティブ単語、共通単語、ネガティブ単語についてのテーマ関連度を算出するために共通に用いられる。
テーマ関連度=スコアベース*シソーラスリンク係数 (1)
スコアベースは、式(2-1)または式(2-2)で算出される。式(2-1)は、ポジティブ単語、ネガティブ単語についてのスコアベースを算出するために用いられ、式(2-2)は、共通単語についてのスコアベースを算出するために用いられる。なお、「*」は乗算を意味し、「/」は除算を意味する。
スコアベース=TF*IDF/TF合計 (2-1)
スコアベース=TF率*DF率 (2-2)
式(2-1)におけるTF(Term Frequency)は、評価Webページにおける、ある単語の出現数を意味し、IDF(Inverse Document Frequency)は、DF(Document Frequency:ある単語を1個以上含むWebページ(文書数))を総Webページ数で除算した値の逆数の対数値を意味する。IDFには、新聞記事などにより予め学習して求められた値を用いることができる。TF*IDFは、単語の出現頻度に基づく、ある単語についての評価値であり、一般的なTF-IDF値を意味する。TF-IDF値は、当該単語の出現頻度と偏りを表しており、Webページ中での単語の重要度を示す指標となる。式(2-1)では、評価Webページごとの単語数の違いを正規化するため、評価Webページにおける各単語の出現数を求め、それらの合計値(TF合計)で除算している。
式(2-2)において、TF率は、注目している単語のTF/共通単語の総数(共通単語TF合計)を意味し、DF率は、注目している単語のDF/評価Webページの総数(ポジティブ評価Webページ数とネガティブ評価Webページ数の合計)を意味する。TF率は、評価Webページに出現する共通単語の総数で正規化され、DF率は、評価Webページの総数で正規化される。
シソーラスリンク係数は、式(3)で算出される。式(3)は、ポジティブ単語、共通単語、ネガティブ単語についてのシソーラスリンク係数を算出するために共通に用いられる。
シソーラスリンク係数=シソーラスリンク数/シソーラスリンク数合計 (3)
ここで、シソーラスリンク数は、当該単語がシソーラス辞書でつながる全単語(ポジティブ単語、共通単語およびネガティブ単語)の数をカウントすることにより得られる値であり、シソーラスで2単語間に関連(リンク)があれば1をカウントし、無ければ0をカウントする(カウントしない)。なお、自分自身にも1をカウントする。リンクは、例えば、以下のように定義される。
(1)2つの単語が、「広義 or 同義」の関係にある。
(2)2つの単語が、「広義の同義 or 同義の広義」の関係にある。
(3)2つの単語が、「同じ広義語 or 同じ同義語」を持つ。
(4)2つの単語が、「同じ広義の同義語 or 同じ同義語の広義語」を持つ。
式(3)において、シソーラスリンク係数は、評価Webページに出現する単語のシソーラスリンク数合計で正規化される。
図2は、シソーラスリンクを示す説明図である。図2では、「調理道具」という対象テーマに対して検索されたWebページから「ざる」,「ボール」,「まな板」という単語が抽出された場合を想定している。これらの各単語は、調理道具という概念に含まれ、図示するように、シソーラス辞書でつながるため、各単語についてのシソーラスリンク数はそれぞれ、自分自身の1も含めて3となる。また、シソーラスリンク数合計は9となる。
ここで、さらに「かまぼこ板」という単語が抽出されている場合、「まな板」は、板という概念で「かまぼこ板」ともつながるため、「まな板」についてのシソーラスリンク数は4となり、シソーラスリンク数合計は12となる。
ただし、ネガティブ単語に対するシソーラスリンク数のカウントでは、以下の例外(条件a)をつける。
(条件a):ネガティブ単語が広義語でポジティブ単語が狭義語になる場合は計上(カウント)しない)
図3は、ポジティブ単語とネガティブ単語の概念上での上下関係および並列関係によるパターンを示す図である。同図において、P,Nはそれぞれ、ポジティブ単語、ネガティブ単語を示し、上下方向矢印は、単語が概念上で上位・関係にあることを示し、左右方向矢印は、単語が概念上で同義関係にあることを示している。また、破線○は、その他の単語を示している。
例えば、図3(a)は、ネガティブ単語Nがポジティブ単語Pより上位概念(広義)となるパターンであり、図3(b)は、逆に、ポジティブ単語Pがネガティブ単語Nより上位概念(広義)となるパターンである。また、図3(c)は、ネガティブ単語Nがその他の単語と同義関係にあり、該その他の単語がポジティブ単語Pより上位概念となるパターンである。
上記の条件aには、具体的には、図3に示すパターン(a)〜(j)のうち、破線枠で囲まれた3パターン(a),(c),(e)が該当するので、これらのパターンの場合にはシソーラスリンク数としてカウントしない。
図4に、ポジティブ単語、共通単語、ネガティブ単語の3種類の単語についての、スコアベース、シソーラスリンク係数、テーマ関連度の算出に用いられる式をまとめて示す。
上記のようにして算出された各単語のテーマ関連度は、Webページなどの情報検索や情報絞り込みに適用できる。以下にその適用例である情報検索装置について説明する。
ユーザにより指定された対象テーマが全く新規である場合、テーマ関連単語DB16に該テーマと関連付けて単語およびテーマ関連度が保存されていないため、一般的なWeb検索と同様の検索を行う。そして、検索結果のWebページについて、上述したように、ユーザからの評価を受け付け、テーマ関連度を算出して単語と共にテーマ関連単語DB16に保存する。
該対象テーマについてのWebページをさらに絞り込みたい場合、該対象テーマに対してテーマ関連度が高い単語をテーマ関連単語DB16から抽出し、抽出された単語を組み合わせた検索クエリを作成し、再度検索を行う。対象テーマに対してテーマ関連度が高い単語は、例えば、該対象テーマに対するテーマ関連度が所定値以上の単語を抽出することにより得ることができる。抽出された単語の数が多い場合にはさらにテーマ関連度が高い方から一定数の単語を抽出するようにしてもよい。また、対象テーマに対するテーマ関連度が高い単語を適宜選択・組み合わせて複数の検索クエリを作成し、それらの検索クエリをそれぞれ用いて検索を行ってもよい。
再度の検索による検索結果のWebページにはポジティブ単語のみでなく、共通単語やネガティブ単語が含まれている可能性がある。そこで、検索結果の各Webページに含まれている単語のテーマ関連度を総計する。ここででは、Webページに含まれている単語がテーマ関連単語DB16に保存されていれば、該単語のテーマ関連度が加算される。テーマ関連度の総計の値の高い順にWebページを並べ替えてそのリストをユーザに提示する。これにより、ユーザはテーマに関連する情報を多く含むWebページから順に閲覧することができる。このとき、テーマ関連度の低い単語は低い値として加算され、ネガティブ単語であればマイナスの値として加算されるため、対象テーマから除外したいWebページの順位を明示的に下げることができる。これは、少数のWebページが評価され、それによるテーマ関連度が算出されているだけで、高精度に実現できる。
例えば、「エコカー減税」という対象テーマが指示されたとすると、一般的なWeb検索システムを利用した場合、減税制度に関するWebページと車メーカーのエコカー減税対象車種紹介のWebページが混ざった状態で検索結果として得られる。
ここで、減税制度に関するWebページに対してポジティブ評価を与え、ある車メーカーのWebページに対してネガティブ評価を与えると、減税制度に関するWebページのみに出現する単語のテーマ関連度が高い値として算出され、車メーカーのWebページのみに出現する単語のテーマ関連度が低い値(マイナス値)として算出され、減税制度に関するWebページと車メーカーの双方のWebページに出現する単語のテーマ関連度が比較的高い値として算出される。
これにより算出されたテーマ関連度の高い単語(ポジティブ単語と共通単語を含む。)を利用してさらに「エコカー減税」という同じ対象テーマの検索を行い、検索結果のWebページに含まれる単語についてのテーマ関連度の総計によりWebページを提示する順位を決めることにより、当該車メーカーのWebページを提示する順位を下げることができる。
検索をさらに繰り返し行ってテーマ関連単語DB16に保存されるテーマ関連度を更新すれば、より高精度の検索が可能になる。更新後のテーマ関連度は、検索結果に対する評価が与えられて指示されるごとに、その時の評価Webページのみを対象として算出されたものでよい。
また、テーマ関連度を繰り返し算出して更新するに際し、今回検索された文書が先に評価された文書と同じである場合には、先に評価された文書から抽出・分類された単語および該単語についての単語データ(単語テーマ関連度の算出の基になった情報)の方を利用することができる。ただし、この場合には、以前に評価されたWebページと今回新たに評価されたWebページとの重複を排除できるように以前に評価されたWebページにユーザ評価済みフラグを付加しておくこと、式(2-1),(2-2),(3)を計算する上で必要な単語データを保存しておくこと、などが必要となる。しかし、Webページからの単語抽出・分類の処理を低減できる。
図5は、本発明に係る情報検索装置におけるWeb検索処理を示すフローチャートである。対象テーマ名が入力されると(S51)、まず、検索クエリを生成してWeb検索を実行し(S52)、検索結果のWebページをユーザに提示する(S54)。次に、ユーザによる評価のフィードバックを待つ(S55)。ここで、検索の終了が指示された場合(S56)にはWeb検索処理を終了する。また、ユーザにより評価がフィードバックされが場合(S55)には、評価Webページから単語を抽出して分類し(S57)、単語(ポジティブ単語、共通単語、ネガティブ単語)のテーマ関連度を算出し(S58)、テーマ関連単語DBに保存されているテーマ関連度を更新する(S59)。なお、当初では、算出されたテーマ関連度や単語が保存されるだけである。
次に、再度の検索が指示されたか否かを判定する(S60)。ここで、再度の検索が指示されない場合にはWeb検索処理を終了するが、再度の検索が指示された場合には、対象テーマに対してテーマ関連度が高い単語をテーマ関連単語DB16から抽出し(S61)、S52に戻って処理を繰り返す。S52では、今度は、S61で抽出された単語を組み合わせた検索クエリを作成し、S53以下の処理を実行させる。
以上のWeb検索の繰り返しの処理は、当該テーマについての検索が続けて実行される場合だけでなく、過去に当該テーマについてのWeb検索が実行されて検索結果のWebページに対しての評価がなされており、新たに同一テーマについての検索を行う場合にも同様に適用できる。
実験において、ポジティブ評価のみを4つのWebページに対して行い、ポジティブ評価Webページに含まれる単語のテーマ関連度を算出し、算出されたテーマ関連度の高い単語を利用して再度検索を行ったところ、上位から順に見て第7位に初めてエコカー減税対象車種紹介のWebページが出現した。これに対して、ポジティブ評価を4つのWebページに対して行い、これに加えてネガティブ評価を3つのWebページ3に対して行って、ポジティブ単語、共通単語およびネガティブ単語についてのテーマ関連度を算出し、算出されたテーマ関連度の高い単語を利用して再度検索を行った場合には、上位から順に見て第26位に初めてエコカー減税対象車種紹介のWebページ出現する結果が得られた。
以上、実施形態を説明したが、本発明は、上記実施形態に限定されるものではなく、種々に変形されたものも含む。例えば、本発明が対象とする情報は、Web上のWebページに限らず、他の文書でもよく、本発明は、多種多様の文書の中から対象テーマに関連する文書を検索して提供する検索サービスに適用できる。
10・・・サーバ、11・・・検索手段、12・・・単語抽出・分類部、13・・・ポジティブ単語用テーマ関連度算出部、14・・・共通単語用テーマ関連度算出部、15・・・ネガティブ単語用テーマ関連度算出部、16・・・テーマ関連単語データベース(DB)、20・・・テーマ関連単語抽出手段、30・・・クライアント端末、40・・・Web

Claims (12)

  1. 文書に含まれる各単語の、対象テーマに対する関連度を算出する単語テーマ関連度算出装置において、
    複数の単語を含む評価対象の文書が、対象テーマに関連するポジティブ評価文書であるか対象テーマに関連しないネガティブ評価文書であるかのユーザからの評価を受け付け、評価対象の文書から単語を抽出すると共に、ポジティブ評価文書中のみに出現するポジティブ単語、ネガティブ評価文書中のみに出現するネガティブ単語、ポジティブ評価文書とネガティブ評価文書の双方に出現する共通単語に分類する単語抽出・分類部と、
    前記単語抽出・分類部により抽出・分類されたポジティブ単語の出現頻度と他の単語との隣接関係に基づき、該ポジティブ単語の対象テーマに対するテーマ関連度を算出するポジティブ単語用テーマ関連度算出部と、
    前記単語抽出・分類部により抽出・分類された共通単語の出現頻度と他の単語との隣接関係に基づき、該共通単語の対象テーマに対するテーマ関連度を算出する共通単語用テーマ関連度算出部と、
    前記単語抽出・分類部により抽出・分類されたネガティブ単語の出現頻度と制約条件下における他の単語との隣接関係に基づき、該ネガティブ単語の対象テーマに対するテーマ関連度を算出するネガティブ単語用テーマ関連度算出部とを備えたことを特徴とする単語テーマ関連度算出装置。
  2. さらに、前記単語抽出・分類部により抽出・分類された単語と、前記ポジティブ単語用テーマ関連度算出部、前記共通単語用テーマ関連度算出部および前記ネガティブ単語用テーマ関連度算出部により算出されたテーマ関連度を保存・管理するテーマ関連単語データベースを備えたことを特徴とする請求項1に記載の単語テーマ関連度算出装置。
  3. 前記ポジティブ単語用テーマ関連度算出部は、ポジティブ単語の出現頻度に基づく特徴値と、単語の概念上での上下関係および並列関係を含む単語間の関連を示すシソーラス辞書における単語間の隣接関係に基づく特徴値をそれぞれ求め、それらの特徴値を組み合わせてテーマ関連度を算出することを特徴とする請求項1または2に記載の単語テーマ関連度算出装置。
  4. 前記共通単語用テーマ関連度算出部は、ポジティブ単語とネガティブ単語の両者の出現頻度に基づく特徴値と、単語の概念上での上下関係および並列関係を含む単語間の関連を示すシソーラス辞書における単語間の隣接関係に基づく特徴値をそれぞれ求め、それらの特徴値を組み合わせてテーマ関連度を算出することを特徴とする請求項1ないし3のいずれかに記載の単語テーマ関連度算出装置。
  5. 前記ネガティブ単語用テーマ関連度算出部は、ネガティブ単語の出現頻度に基づく特徴値と、単語の概念上での上下関係および並列関係を含む単語間の関連を示すシソーラス辞書における単語間の条件付き隣接関係に基づく特徴値をそれぞれ求め、それらの特徴値を組み合わせてテーマ関連度を算出することを特徴とする請求項1ないし4のいずれかに記載の単語テーマ関連度算出装置。
  6. 文書に含まれる各単語の、対象テーマに対する関連度の算出に用いられる単語テーマ関連度算出用プログラムであって、
    コンピュータを、
    複数の単語を含む評価対象の文書が、対象テーマに関連するポジティブ評価文書であるか対象テーマに関連しないネガティブ評価文書であるかのユーザからの評価を受け付け、評価対象の文書から単語を抽出すると共に、ポジティブ評価文書中のみに出現するポジティブ単語、ネガティブ評価文書中のみに出現するネガティブ単語、ポジティブ評価文書とネガティブ評価文書の双方に出現する共通単語に分類する単語抽出・分類手段、
    前記単語抽出・分類部により抽出・分類されたポジティブ単語の出現頻度と他の単語との隣接関係に基づき、該ポジティブ単語の対象テーマに対するテーマ関連度を算出するポジティブ単語用テーマ関連度算出手段、
    前記単語抽出・分類部により抽出・分類された共通単語の出現頻度と他の単語との隣接関係に基づき、該共通単語の対象テーマに対するテーマ関連度を算出する共通単語用テーマ関連度算出手段、および
    前記単語抽出・分類部により抽出・分類されたネガティブ単語の出現頻度と制約条件下における他の単語との隣接関係に基づき、該ネガティブ単語の対象テーマに対するテーマ関連度を算出するネガティブ単語用テーマ関連度算出手段、
    として機能させるプログラム単語テーマ関連度算出用プログラム。
  7. 前記ポジティブ単語用テーマ関連度算出部は、ポジティブ単語の出現頻度に基づく特徴値と、単語の概念上での上下関係および並列関係を含む単語間の関連を示すシソーラス辞書における単語間の隣接関係に基づく特徴値をそれぞれ求め、それらの特徴値を組み合わせてテーマ関連度を算出する請求項6に記載のプログラム単語テーマ関連度算出用プログラム。
  8. 前記共通単語用テーマ関連度算出部は、ポジティブ単語とネガティブ単語の両者の出現頻度に基づく特徴値と、単語の概念上での上下関係および並列関係を含む単語間の関連を示すシソーラス辞書における単語間の隣接関係に基づく特徴値をそれぞれ求め、それらの特徴値を組み合わせてテーマ関連度を算出する請求項6または7に記載のプログラム単語テーマ関連度算出用プログラム。
  9. 前記ネガティブ単語用テーマ関連度算出部は、ネガティブ単語の出現頻度に基づく特徴値と、単語の概念上での上下関係および並列関係を含む単語間の関連を示すシソーラス辞書における単語間の条件付き隣接関係に基づく特徴値をそれぞれ求め、それらの特徴値を組み合わせてテーマ関連度を算出する請求項6ないし8のいずれかに記載のプログラム単語テーマ関連度算出用プログラム。
  10. 請求項1ないし5のいずれかに記載の単語テーマ関連度算出装置および検索手段を備え、
    前記検索手段は、前記単語テーマ関連度算出装置により算出されたテーマ関連度を用いて検索クエリを生成する検索クエリを生成し、該検索クエリにより情報を検索し、検索された情報を、前記テーマ関連度に基づいて順位付けして提示することを特徴とする情報検索装置。
  11. 前記単語テーマ関連度算出装置は、検索された情報に対するユーザからの評価を繰り返し受け付けて前記テーマ関連度を算出して更新し、
    検索手段は、更新されたテーマ関連度に基づいて検索クエリの生成、該検索クエリによる検索および順位付けを繰り返すことを特徴とする請求項10に記載の情報検索装置。
  12. 前記単語テーマ関連度算出装置は、前記テーマ関連度を算出して更新するに際し、今回検索された文書が先に評価された文書と同じである場合には、先に評価された文書から抽出・分類された単語および該単語の単語テーマ関連度の算出の基になった単語データを利用することを特徴とする請求項11に記載の情報検索装置。
JP2009237227A 2009-10-14 2009-10-14 単語テーマ関連度算出装置、単語テーマ関連度算出用プログラムおよび情報検索装置 Active JP5424393B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009237227A JP5424393B2 (ja) 2009-10-14 2009-10-14 単語テーマ関連度算出装置、単語テーマ関連度算出用プログラムおよび情報検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009237227A JP5424393B2 (ja) 2009-10-14 2009-10-14 単語テーマ関連度算出装置、単語テーマ関連度算出用プログラムおよび情報検索装置

Publications (2)

Publication Number Publication Date
JP2011086043A true JP2011086043A (ja) 2011-04-28
JP5424393B2 JP5424393B2 (ja) 2014-02-26

Family

ID=44078951

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009237227A Active JP5424393B2 (ja) 2009-10-14 2009-10-14 単語テーマ関連度算出装置、単語テーマ関連度算出用プログラムおよび情報検索装置

Country Status (1)

Country Link
JP (1) JP5424393B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013242791A (ja) * 2012-05-22 2013-12-05 Nippon Hoso Kyokai <Nhk> 主題抽出装置およびそのプログラム
JP2015125764A (ja) * 2013-12-27 2015-07-06 富士通株式会社 情報収集プログラム、情報収集方法及び情報収集装置
JP2018190060A (ja) * 2017-04-28 2018-11-29 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理システム、その制御方法及びプログラム
JP2020013387A (ja) * 2018-07-19 2020-01-23 カシオ計算機株式会社 情報処理装置、情報処理方法及びプログラム
JP2020024559A (ja) * 2018-08-07 2020-02-13 Zホールディングス株式会社 情報処理プログラム、情報処理装置、および情報処理方法
JP2020536294A (ja) * 2018-05-10 2020-12-10 スージョウ ディープリーパー インフォメーション アンド テクノロジー カンパニー リミテッド 内容プッシュ方法、内容プッシュ装置及びマシン読取可能な媒体
JP7045515B1 (ja) 2021-07-19 2022-03-31 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003108597A (ja) * 2001-09-27 2003-04-11 Toshiba Corp 情報検索システム、情報検索方法及び情報検索プログラム
JP2004178421A (ja) * 2002-11-28 2004-06-24 Ricoh Co Ltd 文書検索装置、文書検索方法、プログラムおよび記録媒体
JP2004310404A (ja) * 2003-04-07 2004-11-04 Nippon Telegr & Teleph Corp <Ntt> 関連語の抽出装置、関連語の抽出方法、プログラムおよび記憶媒体
JP2005346598A (ja) * 2004-06-07 2005-12-15 Sangaku Renkei Kiko Kyushu:Kk ウェブ情報収集装置とウェブクローラープログラム、及びウェブ情報収集方法
JP2006344010A (ja) * 2005-06-09 2006-12-21 Fuji Xerox Co Ltd 文書検索装置
JP2009245179A (ja) * 2008-03-31 2009-10-22 Nomura Research Institute Ltd 文書検索支援装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003108597A (ja) * 2001-09-27 2003-04-11 Toshiba Corp 情報検索システム、情報検索方法及び情報検索プログラム
JP2004178421A (ja) * 2002-11-28 2004-06-24 Ricoh Co Ltd 文書検索装置、文書検索方法、プログラムおよび記録媒体
JP2004310404A (ja) * 2003-04-07 2004-11-04 Nippon Telegr & Teleph Corp <Ntt> 関連語の抽出装置、関連語の抽出方法、プログラムおよび記憶媒体
JP2005346598A (ja) * 2004-06-07 2005-12-15 Sangaku Renkei Kiko Kyushu:Kk ウェブ情報収集装置とウェブクローラープログラム、及びウェブ情報収集方法
JP2006344010A (ja) * 2005-06-09 2006-12-21 Fuji Xerox Co Ltd 文書検索装置
JP2009245179A (ja) * 2008-03-31 2009-10-22 Nomura Research Institute Ltd 文書検索支援装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013242791A (ja) * 2012-05-22 2013-12-05 Nippon Hoso Kyokai <Nhk> 主題抽出装置およびそのプログラム
JP2015125764A (ja) * 2013-12-27 2015-07-06 富士通株式会社 情報収集プログラム、情報収集方法及び情報収集装置
JP2018190060A (ja) * 2017-04-28 2018-11-29 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理システム、その制御方法及びプログラム
JP2020536294A (ja) * 2018-05-10 2020-12-10 スージョウ ディープリーパー インフォメーション アンド テクノロジー カンパニー リミテッド 内容プッシュ方法、内容プッシュ装置及びマシン読取可能な媒体
JP2020013387A (ja) * 2018-07-19 2020-01-23 カシオ計算機株式会社 情報処理装置、情報処理方法及びプログラム
JP2020024559A (ja) * 2018-08-07 2020-02-13 Zホールディングス株式会社 情報処理プログラム、情報処理装置、および情報処理方法
JP7231354B2 (ja) 2018-08-07 2023-03-01 ヤフー株式会社 情報処理プログラム、情報処理装置、および情報処理方法
JP7045515B1 (ja) 2021-07-19 2022-03-31 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム
JP2023014899A (ja) * 2021-07-19 2023-01-31 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム

Also Published As

Publication number Publication date
JP5424393B2 (ja) 2014-02-26

Similar Documents

Publication Publication Date Title
US11347963B2 (en) Systems and methods for identifying semantically and visually related content
US7672943B2 (en) Calculating a downloading priority for the uniform resource locator in response to the domain density score, the anchor text score, the URL string score, the category need score, and the link proximity score for targeted web crawling
US10909427B2 (en) Method and device for classifying webpages
JP5424393B2 (ja) 単語テーマ関連度算出装置、単語テーマ関連度算出用プログラムおよび情報検索装置
US8234311B2 (en) Information processing device, importance calculation method, and program
US9098588B2 (en) Information processing apparatus, information processing method, and information processing program
US20190318407A1 (en) Method for product search using the user-weighted, attribute-based, sort-ordering and system thereof
US10558666B2 (en) Systems and methods for the creation, update and use of models in finding and analyzing content
EP2801917A1 (en) Method, apparatus, and computer storage medium for automatically adding tags to document
CN104933100A (zh) 关键词推荐方法和装置
KR100859918B1 (ko) 사용자 피드백을 이용하여 검색된 컨텐츠를 평가하고 평가결과를 이용하여 검색 결과를 제공하는 방법 및 장치
JP2007219929A (ja) 感性評価システム及び方法
JP5048852B2 (ja) 検索装置、検索方法、検索プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体
Kantorski et al. Automatic filling of hidden web forms: a survey
KR101621735B1 (ko) 추천 검색어 제공 방법 및 시스템
Valcarce et al. Efficient pseudo-relevance feedback methods for collaborative filtering recommendation
JP5349032B2 (ja) 情報選別装置
Manek et al. Hybrid crawling for time-based personalized web search ranking
Gupta et al. An improved approach to ranking web documents
US20120191725A1 (en) Document ranking system with user-defined continuous term weighting
EP4002151A1 (en) Data tagging and synchronisation system
CN116610853A (zh) 搜索推荐方法、搜索推荐系统、计算机设备及存储介质
Hoxha et al. Towards a modular recommender system for research papers written in albanian
Huang et al. Rough-set-based approach to manufacturing process document retrieval
Ali et al. Entity attribute ranking using learning to rank.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120831

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130814

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130821

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131015

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131120

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131122

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5424393

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150