JP2010092286A - 知識dbを利用した検索方法 - Google Patents

知識dbを利用した検索方法 Download PDF

Info

Publication number
JP2010092286A
JP2010092286A JP2008262038A JP2008262038A JP2010092286A JP 2010092286 A JP2010092286 A JP 2010092286A JP 2008262038 A JP2008262038 A JP 2008262038A JP 2008262038 A JP2008262038 A JP 2008262038A JP 2010092286 A JP2010092286 A JP 2010092286A
Authority
JP
Japan
Prior art keywords
user
unknown
category
unknown word
web page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008262038A
Other languages
English (en)
Other versions
JP5132511B2 (ja
Inventor
Yukiko Mori
有紀子 森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2008262038A priority Critical patent/JP5132511B2/ja
Publication of JP2010092286A publication Critical patent/JP2010092286A/ja
Application granted granted Critical
Publication of JP5132511B2 publication Critical patent/JP5132511B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】ユーザの未知語であると想定される用語について、この用語に関連する情報を収集してユーザに提供すること。
【解決手段】未知語検索サーバ1は、所定のカテゴリに属する特定の用語について、ユーザの利用履歴に基づいて、所定のカテゴリ毎に特定の用語の使用頻度を予め算出する特徴語集計部103と、所定のカテゴリ毎の特定の用語の使用頻度に基づいて、ユーザの未知のカテゴリを決定する未知カテゴリ決定部105と、ユーザがWebページにアクセスすると、当該アクセスしたWebページの形態素解析を行う形態素解析部107と、Webページの形態素解析の結果、未知のカテゴリに属する用語を検索し、この用語を未知語と判定する未知語判定部108と、ユーザの未知語と判定された特徴語に関連する情報を取得する未知語検索部109と、取得した特徴語に関連する情報をユーザ端末2に送信する検索結果送信部110と、を備える。
【選択図】図3

Description

本発明は、知識DBを利用した検索方法及びシステムに関する。特に、Webページ内において、ユーザの未知語であると想定される用語について、当該用語に関連する情報を知識DBを利用して検索する検索方法及びシステムに関する。
従来、ドキュメントから自動的に新語を抽出し、その新語をキーにしてそれに関連する情報を収集して表示する情報検索方法が提供されている(例えば、特許文献1)。この方法では、インターネット上で新語が登場するたびに、新語がユーザの未知語であると想定して、新語を辞書に登録する。そして、ドキュメントより単語を抽出し、抽出した単語が辞書に登録された新語であるか否かを判断する。抽出した単語が新語であると判断されると、新語に関連する情報を収集し、収集結果を表示する。このように、ユーザの未知語であると想定される新語について、この新語を理解するのを補助することで、ドキュメントを読む環境を快適にする。
特開2004−157897号公報
ところで、この情報検索方法では、新語であると判断された単語について、この単語に関連した情報を収集して結果を表示するに過ぎず、新語以外でユーザの未知語であると想定される用語については、この用語に関連する情報を収集することができない。よって、新語以外の未知語に関連する情報をユーザが調査する必要があり、ユーザが調査するのを煩わしく感じるおそれがあった。そこで、ユーザの未知語であると想定される用語について、この用語に関連する情報を収集し、ユーザに提供することが求められている。
本発明は、ユーザの未知語であると想定される用語について、この用語に関連する情報を収集してユーザに提供することを目的とする。
本発明では、以下のような解決手段を提供する。
(1) Webページ内において、ユーザの未知語であると想定される用語に関連する情報を検索して表示する未知語表示方法であって、
所定のカテゴリに属する特定の用語について、ユーザの利用履歴に基づいて、該所定のカテゴリ毎に前記特定の用語の使用頻度を予め算出するステップと、
該所定のカテゴリ毎の前記特定の用語の使用頻度に基づいて、前記ユーザの未知のカテゴリを決定するステップと、
前記ユーザが前記Webページにアクセスすると、当該アクセスしたWebページの形態素解析を行うステップと、
前記Webページの形態素解析の結果、前記未知のカテゴリに属する用語を検索し、この用語を未知語と判定するステップと、
前記ユーザの未知語に関連する情報を取得し、取得した前記特定の用語に関連する情報を前記Webページの内容とともに表示するステップと、
を備えることを特徴とする未知語表示方法。
(1)記載の未知語表示方法によれば、所定のカテゴリに属する特定の用語について、ユーザの利用履歴に基づいて、所定のカテゴリ毎に特定の用語の使用頻度を予め算出し、所定のカテゴリ毎の特定の用語の使用頻度に基づいて、ユーザの未知のカテゴリを決定する。そして、ユーザがWebページにアクセスすると、当該アクセスしたWebページの形態素解析を行う。そして、Webページの形態素解析の結果、未知のカテゴリに属する用語を検索し、この用語を未知語と判定する。そして、ユーザの未知語と判定された特定の用語に関連する情報を取得して、取得した特定の用語に関連する情報をWebページの内容とともに表示する。
このようにすることで、ユーザの未知語と判定された用語に関連する情報を取得して、Webページの内容とともに表示するので、ユーザの未知語であると想定される用語について、この用語に関連する情報を収集してユーザに提供することができる。また、Webページの形態素解析の結果、未知のカテゴリに属する用語を検索し、この用語を未知語と判定するので、未知のカテゴリに属する用語を未知語として判定をすることができる。
(2) 前記未知のカテゴリを決定するステップでは、算出された前記所定のカテゴリ毎の前記特定の用語の使用頻度を、カテゴリ毎に和をとることで当該カテゴリ毎の合計値を集計し、
集計したカテゴリに対して、当該合計値を正規分布とし、前記正規分布した合計値のうち、所定の閾値以下の値を示すカテゴリを、前記ユーザの未知のカテゴリと決定することを特徴とした(1)に記載の未知語表示方法。
(2)記載の方法によれば、集計したカテゴリに対して当該合計値を正規分布とすることで、正規分布した合計値のうち所定の閾値以下の値を示すカテゴリを、ユーザの未知のカテゴリと決定する。このため、正規分布に従って、ユーザの未知のカテゴリと決定するので、統計的に未知語の判定をすることができる。
(3) 前記特定の用語の使用頻度を予め算出するステップは、前記ユーザのソーシャルブックマークのタグ情報を前記ユーザの利用履歴とし、該ユーザの利用履歴に基づいて、前記所定のカテゴリ毎に前記特定の用語の使用頻度を予め算出することを特徴とした(1)又は(2)に記載の方法。
(3)記載の方法によれば、ソーシャルブックマークのタグ情報により抽出した特定の用語に基づいて、所定のカテゴリ毎に特定の用語の使用頻度を予め算出する。このため、ソーシャルブックマークのタグ情報を利用して、所定のカテゴリ毎に特定の用語の使用頻度を予め算出することができる。
(4) 前記特定の用語の使用頻度を予め算出するステップは、前記ユーザがアクセスしたWebサイトの情報を前記ユーザの利用履歴とし、該ユーザの利用履歴に基づいて、前記所定のカテゴリ毎に前記特定の用語の使用頻度を予め算出することを特徴とした(1)から(3)のいずれかに記載の方法。
(4)記載の方法によれば、ユーザがアクセスしたWebサイトの情報に含まれる特定の用語と、に基づいて所定のカテゴリ毎に特定の用語の使用頻度を予め算出する。このため、ユーザがアクセスしたWebサイトの情報を利用して、所定のカテゴリ毎に特定の用語の使用頻度を予め算出することができる。
(5) 前記表示するステップは、前記ユーザの未知語に関連する情報を辞書検索により取得し、取得した前記特定の用語に関連する情報を前記Webページの内容とともに表示することを特徴とした(1)から(4)のいずれかに記載の方法。
(5)記載の方法によれば、ユーザの未知語に関連する情報を辞書検索により取得し、取得したユーザの未知語に関連する情報をWebページの内容とともに表示する。このため、辞書検索によって得られたユーザの未知語に関連する情報をユーザに提示することができる。
(6) 前記表示するステップは、前記ユーザの未知語に関連する情報をインターネット上のWebサーバより取得し、取得した前記特定の用語に関連する情報を前記Webページの内容とともに表示することを特徴とした(1)から(4)のいずれかに記載の方法。
(6)記載の方法によれば、ユーザの未知語に関連する情報をインターネット上のWebサーバにより取得し、取得したユーザの未知語に関連する情報をWebページの内容とともに表示する。このため、ユーザの未知語に関連する情報をWebサーバを利用して取得し、この情報をユーザに提示することができる。
(7) ユーザ端末と未知語検索装置とが通信可能に接続され、Webページ内において、ユーザの未知語であると想定される用語に関連する情報を検索して表示する未知語表示システムであって、
前記ユーザ端末は、前記Webページにアクセスすると、当該アクセスしたWebページの情報を前記未知語検索装置に送信するWebページ情報送信手段を有し、
前記未知語検索装置は、
所定のカテゴリに属する特定の用語について、ユーザの利用履歴に基づいて、該所定のカテゴリ毎に前記特定の用語の使用頻度を予め算出する使用頻度算出手段と、
該所定のカテゴリ毎の前記特定の用語の使用頻度に基づいて、前記ユーザの未知のカテゴリを決定する未知カテゴリ決定手段と、
前記ユーザ端末より前記アクセスしたWebページの情報を受信するWebページ情報受信手段と、
受信した前記アクセスしたWebページの形態素解析を行う形態素解析手段と、
前記Webページの形態素解析の結果、前記未知のカテゴリに属する用語を検索し、この用語を未知語と判定する未知語判定手段と、
前記ユーザの未知語に関連する情報を取得し、取得した前記特定の用語に関連する情報を前記Webページの内容とともに前記ユーザ端末に送信する未知語情報送信手段と、
を備え、
前記ユーザ端末は、前記未知語情報送信手段により送信された前記特定の用語に関連する情報を受信する未知語情報受信手段と、
を更に備えることを特徴とする未知語表示システム。
このような構成によれば、当該システムを構築することにより、(1)と同様の効果が期待できる。
本発明によれば、ユーザの未知語であると想定される用語について、この用語に関連する情報を収集してユーザに提供することができる。
以下、本発明の実施形態について図を参照しながら説明する。なお、これはあくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。
本実施形態では、ユーザは、所定のサイトよりサービスの提供を受けることを目的として、所定のサイトに対してユーザ登録を行っているものとする。ユーザ登録を行ったユーザには、ユーザを一意に特定するためのユーザIDが付与される。また、ユーザは、所定のサイトにログインすることによりサービスを受けることができる。本実施形態では、ユーザが所定のサイトにログインしているものとする。また、所定のサイトが提供するサービスには、ソーシャルブックマークサービス及び未知語検索表示サービスが含まれているものとする。
[システム全体構成]
図1は、本実施形態に係る未知語検索サーバ1と関連要素との全体構成を示す図である。本実施形態では、インターネット等の通信回線に代表される通信ネットワーク4を介して、未知語検索サーバ1と、ユーザ端末2と、Webサーバ3と、が通信可能に接続されている。
ユーザ端末2がWebサーバ3に対してWebページへのアクセスを行うと、Webサーバ3は、Webページの情報をユーザ端末2に送信する。ユーザ端末2は、受信したWebページの情報を未知語検索サーバ1に送信する。未知語検索サーバ1は、受信したWebページについて形態素解析を行い、所定のカテゴリに所属する特定の用語、すなわち特徴語を抽出する。そして、抽出された特徴語のカテゴリと、未知語検索サーバ1に予め登録されているユーザ端末2のユーザのカテゴリ別の特徴語の使用頻度と、に基づいて、抽出された特徴語がユーザ端末2のユーザの未知語であるか否かを判定する。抽出された特徴語がユーザ端末2のユーザの未知語であると判定されると、未知語検索サーバ1は、未知語と判定された特徴語に関連する情報をWebサーバ3を利用して取得して、取得結果をユーザ端末2に送信する。ユーザ端末2は、検索結果を受信して、表示部24に表示する。
[未知語検索サーバ1のハードウェア構成]
図2は、本実施形態に係る未知語検索サーバ1のハードウェア構成を示す図である。本発明が実施される未知語検索サーバ1のハードウェア構成は標準的なものでよく、以下に構成の一例を示す。
未知語検索サーバ1は、制御部100を構成するCPU(Central Processing Unit)1010(マルチプロセッサ構成ではCPU1012等複数のCPUが追加されてもよい)、バスライン1005、通信I/F(I/F:インターフェイス)1040、メインメモリ1050、BIOS(Basic Input Output System)1060、表示装置1022、I/Oコントローラ1070、キーボード及びマウス等の入力装置1100、ハードディスク1074、光ディスクドライブ1076、並びに半導体メモリ1078を備える。なお、ハードディスク1074、光ディスクドライブ1076、及び半導体メモリ1078はまとめて記憶部120と呼ぶ。
制御部100は、未知語検索サーバ1を統括的に制御する部分であり、ハードディスク1074に記憶された各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。
通信I/F1040は、未知語検索サーバ1が、通信ネットワーク4を介して端末等と情報を送受信する場合のネットワーク・アダプタである。通信I/F1040は、モデム、ケーブル・モデム及びイーサネット(登録商標)・アダプタを含んでよい。
BIOS1060は、未知語検索サーバ1の起動時にCPU1010が実行するブートプログラムや、未知語検索サーバ1のハードウェアに依存するプログラム等を記録する。
表示装置1022は、ブラウン管表示装置(CRT)、液晶表示装置(LCD)等のディスプレイ装置を含む。
I/Oコントローラ1070には、ハードディスク1074、光ディスクドライブ1076、及び半導体メモリ1078等の記憶装置である記憶部120を接続することができる。
入力装置1100は、未知語検索サーバ1の管理者による入力の受け付けを行うものである。
ハードディスク1074は、本ハードウェアを未知語検索サーバ1として機能させるための各種プログラム、本発明の機能を実行するプログラム及び後述するDBのテーブル及びレコードを記憶する。なお、未知語検索サーバ1は、外部に別途設けたハードディスク(図示せず)を外部記憶装置として利用することもできる。
光ディスクドライブ1076としては、例えば、DVD−ROMドライブ、CD−ROMドライブ、DVD−RAMドライブ、CD−RAMドライブを使用することができる。この場合は各ドライブに対応した光ディスク1077を使用する。光ディスク1077から光ディスクドライブ1076によりプログラム又はデータを読み取り、I/Oコントローラ1070を介してメインメモリ1050又はハードディスク1074に提供することもできる。
なお、本発明でいうコンピュータとは、記憶装置、制御部等を備えた情報処理装置をいい、未知語検索サーバ1は、上述のように、制御部100、記憶部120等を備えた情報処理装置により構成され、この情報処理装置は、本発明のコンピュータの概念に含まれる。
また、未知語検索サーバ1は、ハードウェアの数に制限はなく、必要に応じて1又は複数のハードウェアで構成してよい。また、複数のハードウェアで構成する場合には、通信ネットワーク4を介して各ハードウェアを接続してもよい。例えば、後述する各機能毎に別サーバ(装置)とし、各サーバ間での信号の送受信により、各サーバを連携させることで、本実施形態の機能を実現してもよい。
[ユーザ端末2のハードウェア構成]
ユーザ端末2も、上述の未知語検索サーバ1と同様な構成を持つ。また、本実施形態ではいわゆるコンピュータで実現した例について説明するが、さらに、本発明の原理が適用可能である限り、携帯電話、PDA(Personal Data Assistant)等の様々な端末で実現してよい。
[機能構成]
図3は、本実施形態に係る未知語検索サーバ1及びユーザ端末2の機能構成を示す図である。
ユーザ端末2は、制御部20と、表示部24と、操作部25と、を備える。また、ユーザ端末2の制御部20は、抽出用情報送信部21と、Webページ情報送信部22と、検索結果受信部23と、を備える。
未知語検索サーバ1の制御部100は、抽出用情報受信部101と、特徴語抽出部102と、特徴語集計部103と、集計結果登録部104と、未知カテゴリ決定部105と、Webページ情報受信部106と、形態素解析部107と、未知語判定部108と、未知語検索部109と、検索結果送信部110と、を備える。また、未知語検索サーバ1の記憶部120は、知識DB121を備える。
抽出用情報送信部21は、特徴語抽出用の情報を取得して未知語検索サーバ1に送信する。具体的には、ユーザが参加しているソーシャルブックマークサービスにおいて、当該ユーザがソーシャルブックマークに付与したタグの情報を取得して、未知語検索サーバ1に送信するとともに、ユーザがWebページにおいてクリックした用語の情報及び、ユーザのWebページに対するアクセス履歴の情報を、ユーザ端末2に格納されているcookie、ブラウザが保持するアクセス履歴情報等より取得して送信する。タグ情報には、ブックマークの分類情報を示した用語が含まれており、ユーザが未知語検索サービスを初めて利用したとき、又はユーザがソーシャルブックマークにタグの付与又は変更をしたときに、当該ユーザがソーシャルブックマークに付与又は変更したタグの情報を取得して、未知語検索サーバ1に送信する。また、抽出用情報送信部21は、未知語検索サーバ1においてユーザの特定を行えるように、上述の情報と併せてソーシャルブックマークに登録しているユーザIDを送信する。このようにすることで、ソーシャルブックマークにユーザが付与したタグといった特徴語抽出用の情報から特徴語を抽出してリアルタイムに未知語検索サーバ1に反映できる。
なお、ソーシャルブックマークとは、ユーザのブックマークをネットワーク上に公開し、不特定多数のユーザと共有するサービスであり、ブックマークに対して分類用のキーワードとしてタグを付与する機能を有する。また、本実施形態では、ソーシャルブックマークサービスは、Webサーバ3に含まれていることとする。
Webページ情報送信部22は、Webページの情報を表示部24に表示して、さらにWebページの情報を未知語検索サーバ1に送信する。具体的には、ユーザ端末2がWebサーバ3に対してWebページのアクセスを行うことにより、Webサーバ3より送信されたWebページの情報を受信すると、受信したWebページの情報を未知語検索サーバ1に送信する。また、未知語検索サーバ1においてWebページを送信したユーザ端末2のユーザの特定を行うために、Webページ情報送信部22は、Webページの情報とともにユーザIDを送信する。ここで、ユーザIDは、ソーシャルブックマークのユーザIDと同一である。
検索結果受信部23は、未知語検索サーバ1より送信された、ユーザの未知語と判定された特徴語に関連する情報を受信する。そして、ユーザの未知語と判定された特徴語に関連する情報をブラウザ241を介して表示部24に表示する。なお、本実施形態では、受信したWebページの内容と別タイミングでユーザの未知語と判定された特徴語に関連する情報を表示部24に表示することとしたが、これに限らない。例えば、ユーザ端末2が未知語検索サーバ1から当該特徴語に関連する情報を受信したタイミングでユーザがアクセスしたWebページの情報とともに、ユーザの未知語と判定された特徴語に関連する情報を表示することとしてもよい。
表示部24は、ユーザ端末2の機能に関する表示を行い、例えば、ブラウザ241を介してインターネット上でアクセスしたWebサイトのWebページの情報を表示する。表示部24は、ブラウン管表示装置(CRT)、液晶表示装置(LCD)等のディスプレイ装置を含む。操作部25は、ユーザによりユーザ端末2の操作を行うための、マウスやキーボード等を指す。
抽出用情報受信部101は、ユーザ端末2より送信されたソーシャルブックマークのタグ情報と、ソーシャルブックマークに登録しているユーザIDと、ユーザがWebページにおいてクリックした用語の情報と、ユーザのWebページに対するアクセス履歴の情報と、を受信する。なお、本実施形態では、タグ情報をユーザ端末2より取得することとしたが、これに限らない。例えば、未知語検索サーバ1に対して、ユーザが利用しているソーシャルブックマークサービスの種類と、ユーザIDを登録するソーシャルブックマーク情報登録部を設けて、登録された情報に基づいて、未知語検索サーバ1が定期的にユーザが利用しているソーシャルブックマークサービスのサイトにアクセスしてタグ情報を取得するようにしてもよい。さらにこの場合に、1ユーザにつき、複数のソーシャルブックマークサービスの登録を行えるようにして、複数のソーシャルブックマークサービスにおけるソーシャルブックマークのタグ情報を取得できるようにしてもよい。
特徴語抽出部102は、抽出用情報受信部101により受信した特徴語抽出用の情報より特徴語を抽出して、抽出した特徴語を記憶する。具体的には、受信したタグ情報、Webページにおいてクリックした用語の情報、ユーザのWebページに対するアクセス履歴の情報に基づいて取得したWebページの情報に含まれている用語のそれぞれについて、後述で説明する知識DB121に格納された特徴語テーブルに記憶されているか否かの判定を行う。ここで、ユーザのWebページに対するアクセス履歴の情報に基づいて取得したWebページの情報については、形態素解析を行うことにより用語の抽出を行う。抽出した用語が特徴語テーブルに格納されている場合には、その用語が特徴語であると判定する。そして、特徴語であると判定した場合には、特徴語抽出部102は、後述で説明する知識DB121に格納された知識テーブルに、ユーザIDと抽出した特徴語を記憶する。
なお、本実施例では、受信したタグ情報に含まれている用語について直接的に特徴語であるか否かの判定を行っているが、これに限らない。タグ情報には、その特性上単語が付与されていることが多いが、短文といった単語ではないものも含まれているので、形態素解析を行うこととしてもよい。
図4は、本実施形態に係る知識DB121に格納された特徴語テーブルを示す図である。特徴語テーブルには、特徴語及びカテゴリが記憶されている。特徴語は、抽出した用語が特徴語であるかの判定及びユーザの未知語の判定を行うために用いられる。カテゴリは、その特徴語が属する技術分野や、学術分野に分類するためのものである。
図3に戻り、特徴語集計部103は、カテゴリに属する特徴語について、ユーザの利用履歴に基づいて、カテゴリ毎に特徴語の使用頻度を算出する。すなわち、特徴語抽出部102により抽出した特徴語と、特徴語テーブル(図4)と、に基づいて、抽出した特徴語をカテゴリ別に分類して、それぞれのカテゴリ毎に抽出された特徴語の数を集計する。
具体的には、カテゴリK(i)に所属する特徴語の種類がj個あり、それぞれの特徴語について抽出された個数を集計した値がそれぞれN(j)であるとすると、カテゴリK(i)に所属する特徴語であって抽出された特徴語の合計値S(i)は、
Figure 2010092286
により算出される。
集計結果登録部104は、特徴語集計部103により集計されたそれぞれのカテゴリ毎に抽出された特徴語の合計値S(i)を知識DB121に登録する。具体的には、ユーザID、抽出された特徴語、カテゴリ、及び抽出された特徴語の合計値S(i)を知識テーブル(後述の図5参照)に記憶する。
未知カテゴリ決定部105は、カテゴリ毎の特徴語の使用頻度に基づいて、ユーザの未知のカテゴリを決定し、知識テーブル(後述の図5参照)を更新する。具体的には、カテゴリ毎に抽出された特徴語の合計値について、平均値及び標準偏差を算出して、抽出された特徴語の合計値の平均値から標準偏差を引いた値を未知語の閾値として決定する。そして、抽出された特徴語の合計値を正規分布として、正規分布した合計値のうち、当該閾値以下の値を示すカテゴリを、ユーザの未知のカテゴリとして決定する。そして、未知のカテゴリとして決定された場合には、知識テーブル(後述の図5参照)の未知カテゴリフラグの更新を行い、未知カテゴリフラグが「ON」に更新される。未知のカテゴリとして決定されなかった場合には、未知カテゴリフラグが「OFF」に更新される。
ここで、抽出された特徴語の合計値が正規分布に完全に従うとすると、抽出された特徴語の合計値の平均値に対して標準偏差を引いた値、すなわち、未知語の閾値より小さい値を持つカテゴリは、全体の約18%を占めることとなる。このように、ユーザ毎に抽出された特徴語の合計値の平均値及び標準偏差を算出して未知語の閾値を決定することで、ユーザ個人におけるカテゴリ毎の特徴語の使用頻度を利用して未知語の判定を行うことができる。すなわち、後述の形態素解析部107により抽出した特徴語が、ユーザの使用頻度の少ない特徴語が所属するカテゴリに所属すれば、この特徴語が未知語であるという判定を行うことができる。
なお、本実施形態では、抽出された特徴語の合計値の平均値に対して標準偏差を引いた値を未知語の閾値としたが、これに限らない。未知語の閾値を適宜決定してもよい。
図5は、本実施形態に係る知識DB121に格納された知識テーブルを示す図である。知識テーブルには、ユーザID、抽出された特徴語、カテゴリ、抽出された特徴語の合計値、未知カテゴリフラグが記憶されている。知識テーブルは、特徴語抽出部102により、ユーザの特徴語を記憶するときと、集計結果登録部104により、カテゴリ別の抽出された特徴語の合計値を記憶するときと、未知カテゴリ決定部105により、未知カテゴリフラグの更新を行うときと、に参照される。また、抽出された特徴語のカテゴリ別の集計値の情報を取得するため未知語判定部108により参照される。
図3に戻り、Webページ情報受信部106は、ユーザ端末2より送信されたWebページの情報及びユーザIDを受信する。
形態素解析部107は、Webページ情報受信部106により受信したWebページの情報について、形態素解析を行い、特徴語を抽出する。
未知語判定部108は、形態素解析部107により抽出した特徴語と、カテゴリ毎の特徴語の使用頻度に基づいて未知語であるか否かを判定する。具体的には、抽出した特徴語が特徴語テーブル(図4)に記憶されているか否かの判定を行う。抽出した特徴語が特徴語テーブル(図4)に記憶されていると判定された場合には、この特徴語が属するカテゴリを抽出する。そして、知識テーブル(図5)より、抽出したカテゴリがユーザの未知のカテゴリ、すなわち、抽出したカテゴリの未知カテゴリフラグが「ON」であるか否かの判定を行う。そして、ユーザの未知のカテゴリであると判断された場合には、当該抽出した特徴語が未知語であると判定を行う。
未知語検索部109は、未知語であると判定した特徴語についてWebサーバ3に対して検索を行い、未知語であると判定した特徴語に関連する情報を取得する。なお、本実施形態では、Webサーバ3に対して特徴語についての検索を行い、特徴語に関連する情報を取得しているが、これに限らない。例えば、未知語検索サーバ1に特徴語の関連情報を記憶した辞書DBを設けて、この辞書DBに基づいて特徴語に関連する情報を取得してもよい。このようにすることで、同一サーバにて特徴語に関連する情報を取得できるので、Webサーバ3から情報を取得する場合に比べて情報を取得するまでの時間を短縮できる。
なお、本実施形態において、未知語と判断された特徴語が多数である場合には、未知語と判断された特徴語のうちのいずれか複数の特徴語についてWebサーバ3に対して検索を行うこととしてもよい。このようにすることで、多量に検索を行うことを抑制し、適度な数量の未知語の検索結果をユーザに提供することができる。
検索結果送信部110は、未知語検索部109により取得した未知語であると判定した特徴語に関連する情報をユーザ端末2に送信する。
[処理フロー]
図6は、本実施形態に係るユーザ端末2及び未知語検索サーバ1におけるユーザの未知語に関連する情報を表示するまでの処理を示すフローチャートである。
ステップS100では、抽出用情報送信部21は、特徴語抽出用の情報を取得して未知語検索サーバ1に送信する。
ステップS110では、抽出用情報受信部101は、ステップS100にてユーザ端末2より送信された特徴語抽出用の情報を受信する。
ステップS120では、特徴語抽出部102は、ステップS110にて受信した特徴語抽出用の情報より特徴語を抽出する。
ステップS130では、特徴語集計部103は、ステップS120にて抽出した特徴語に基づいて、抽出した特徴語をカテゴリ別に集計する。
ステップS140では、集計結果登録部104は、ステップS130にて集計したカテゴリ別の抽出した特徴語の合計値を知識DB121の知識テーブルに登録する。
ステップS150では、未知カテゴリ決定部105は、ステップS140にて集計したカテゴリ別の抽出した特徴語の合計値に基づいて、ユーザの未知のカテゴリを決定して、知識DB121の知識テーブルに登録する。
ステップS160では、Webページ情報送信部22は、ユーザ端末2がアクセスしたWebサーバ3のWebページの情報を取得して、未知語検索サーバ1に送信する。
ステップS170では、Webページ情報受信部106は、ステップS160にてユーザ端末2より送信されたWebページの情報を受信する。
ステップS180では、形態素解析部107は、ステップS170にて受信したWebページの情報に対して形態素解析を行い、特徴語を抽出する。
ステップS190では、未知語判定部108は、ステップS180にて抽出した特徴語が未知語であるか否かを判定して、未知語を抽出する。
ステップS200では、未知語検索部109は、ステップS190にて抽出した未知語について、未知語に関連した情報をWebサーバ3を利用して検索し、検索結果を取得する。
ステップS210では、検索結果送信部110は、ステップS200にて取得した未知語に関連した情報の検索結果をユーザ端末2に送信する。
ステップS220では、検索結果受信部23は、ステップS210にて未知語検索サーバ1が送信した未知語の検索結果を受信して表示部24に表示する。
[表示情報の表示例]
図7及び図8は、本実施形態に係るユーザ端末2に対して未知語に関する情報の検索結果が表示されたときの表示例を示す図である。ユーザのユーザIDは、知識テーブル(図5)に記憶されているユーザID「AAA」である。また、ユーザID「AAA」のそれぞれのカテゴリにおける抽出された特徴語の合計値について、当該合計値の平均値が120、標準偏差が20であるとし、平均値から標準偏差を引いた値、すなわち未知語の閾値が100であるとして説明を進める。
図7は、ユーザ端末2の表示部24に、ユーザがアクセスしたWebページの情報が表示されている状態を示す図である。表示部24のブラウザ241には、「インターネット」に関するWebページが表示されており、表示内容242には、「TCP/IPプロトコルを・・・」といった情報が示されている。
未知語検索サービスを利用すると、ユーザ端末2のWebページ情報送信部22は、ブラウザ241に示されているWebページの情報を未知語検索サーバ1に送信する。未知語検索サーバ1のWebページ情報受信部106は、ユーザ端末2よりWebページ情報を受信する。そして、形態素解析部107により、Webページ情報の形態素解析が行われる。図7に示されるWebページが形態素解析されることにより、「インターネット」、「TCP/IP」、「プロトコル」といった用語が抽出される。そして、未知語判定部108により、この抽出された用語が未知語であるか否かの判定が行われる。まず始めに、未知語判定部108により、抽出した特徴語が特徴語テーブル(図4)に記憶されているか否かの判定を行う。ここでは、「TCP/IP」、「プロトコル」がカテゴリ「IT」の特徴語として登録されている。そして、図5に示される知識テーブルによると、ユーザID「AAA」のカテゴリ「IT」における抽出された特徴語の合計値は「60」であり、未知語の閾値である100よりも小さいので、未知カテゴリフラグが「ON」とされている。よって、特徴語として抽出された「プロトコル」及び「TCP/IP」の属するカテゴリ「IT」は、未知カテゴリである。したがって、未知語判定部108により、特徴語として抽出された「プロトコル」及び「TCP/IP」は、ユーザID「AAA」の未知語であると判定される。
続いて、未知語検索部109は、未知語であると判定された「TCP/IP」及び「プロトコル」に関連する情報をWebサーバ3を利用して検索する。そして、検索結果を取得して、検索結果送信部110によりユーザ端末2に送信する。そして、ユーザ端末2の検索結果受信部23は、「TCP/IP」及び「プロトコル」に関連する情報の検索結果を受信して、表示部24に表示する。
図8は、ユーザ端末2の表示部24に、ユーザがアクセスしたWebページの情報とともに未知語であると判定された用語に関連する情報が表示されている状態を示す図である。
ここでは、ユーザの未知語であると想定される用語である「TCP/IP」及び「プロトコル」について、ブラウザ241とは別のブラウザ243によってポップアップ表示されていることを確認できる。すなわち、「TCP/IP」及び「プロトコル」に関連する情報が収集されてユーザに提供されていることを確認できる。したがって、ユーザは、「TCP/IP」及び「プロトコル」が未知語であったとしても、都度検索するといった煩わしさを感じることなく、Webページの閲覧を進めることができる。また、「TCP/IP」及び「プロトコル」に関連した情報が表示されているので、例えば、ユーザが「TCP/IP」及び「プロトコル」について調べたいと思ったときであっても、容易に調べることができる。
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。
本実施形態に係る未知語検索サーバ1と関連要素との全体構成を示す図である。 本実施形態に係る未知語検索サーバ1のハードウェア構成を示す図である。 本実施形態に係る未知語検索サーバ1及びユーザ端末2の機能構成を示す図である。 本実施形態に係る知識DB121に格納された特徴語テーブルを示す図である。 本実施形態に係る知識DB121に格納された知識テーブルを示す図である。 本実施形態に係るユーザ端末2及び未知語検索サーバ1におけるユーザの未知語に関連する情報を表示するまでの処理を示すフローチャートである。 本実施形態に係るユーザ端末2の表示部24に、ユーザがアクセスしたWebページの情報が表示されている状態を示す図である。 本実施形態に係るユーザ端末2の表示部24に、ユーザがアクセスしたWebページの情報とともに未知語であると判定された用語に関連する情報が表示されている状態を示す図である。
符号の説明
1 未知語検索サーバ
2 ユーザ端末
3 Webサーバ
4 通信ネットワーク
20 制御部
21 抽出用情報送信部
22 Webページ情報送信部
23 検索結果受信部
24 表示部
25 操作部
100 制御部
101 抽出用情報受信部
102 特徴語抽出部
103 特徴語集計部
104 集計結果登録部
105 未知カテゴリ決定部
106 Webページ情報受信部
107 形態素解析部
108 未知語判定部
109 未知語検索部
110 検索結果送信部
120 記憶部
121 知識DB

Claims (7)

  1. Webページ内において、ユーザの未知語であると想定される用語に関連する情報を検索して表示する未知語表示方法であって、
    所定のカテゴリに属する特定の用語について、ユーザの利用履歴に基づいて、該所定のカテゴリ毎に前記特定の用語の使用頻度を予め算出するステップと、
    該所定のカテゴリ毎の前記特定の用語の使用頻度に基づいて、前記ユーザの未知のカテゴリを決定するステップと、
    前記ユーザが前記Webページにアクセスすると、当該アクセスしたWebページの形態素解析を行うステップと、
    前記Webページの形態素解析の結果、前記未知のカテゴリに属する用語を検索し、この用語を未知語と判定するステップと、
    前記ユーザの未知語に関連する情報を取得し、取得した前記特定の用語に関連する情報を前記Webページの内容とともに表示するステップと、
    を備えることを特徴とする未知語表示方法。
  2. 前記未知のカテゴリを決定するステップでは、算出された前記所定のカテゴリ毎の前記特定の用語の使用頻度を、カテゴリ毎に和をとることで当該カテゴリ毎の合計値を集計し、
    集計したカテゴリに対して、当該合計値を正規分布とし、前記正規分布した合計値のうち、所定の閾値以下の値を示すカテゴリを、前記ユーザの未知のカテゴリと決定することを特徴とした請求項1に記載の未知語表示方法。
  3. 前記特定の用語の使用頻度を予め算出するステップは、前記ユーザのソーシャルブックマークのタグ情報を前記ユーザの利用履歴とし、該ユーザの利用履歴に基づいて、前記所定のカテゴリ毎に前記特定の用語の使用頻度を予め算出することを特徴とした請求項1又は2に記載の方法。
  4. 前記特定の用語の使用頻度を予め算出するステップは、前記ユーザがアクセスしたWebサイトの情報を前記ユーザの利用履歴とし、該ユーザの利用履歴に基づいて、前記所定のカテゴリ毎に前記特定の用語の使用頻度を予め算出することを特徴とした請求項1から3のいずれかに記載の方法。
  5. 前記表示するステップは、前記ユーザの未知語に関連する情報を辞書検索により取得し、取得した前記特定の用語に関連する情報を前記Webページの内容とともに表示することを特徴とした請求項1から4のいずれかに記載の方法。
  6. 前記表示するステップは、前記ユーザの未知語に関連する情報をインターネット上のWebサーバより取得し、取得した前記特定の用語に関連する情報を前記Webページの内容とともに表示することを特徴とした請求項1から4のいずれかに記載の方法。
  7. ユーザ端末と未知語検索装置とが通信可能に接続され、Webページ内において、ユーザの未知語であると想定される用語に関連する情報を検索して表示する未知語表示システムであって、
    前記ユーザ端末は、前記Webページにアクセスすると、当該アクセスしたWebページの情報を前記未知語検索装置に送信するWebページ情報送信手段を有し、
    前記未知語検索装置は、
    所定のカテゴリに属する特定の用語について、ユーザの利用履歴に基づいて、該所定のカテゴリ毎に前記特定の用語の使用頻度を予め算出する使用頻度算出手段と、
    該所定のカテゴリ毎の前記特定の用語の使用頻度に基づいて、前記ユーザの未知のカテゴリを決定する未知カテゴリ決定手段と、
    前記ユーザ端末より前記アクセスしたWebページの情報を受信するWebページ情報受信手段と、
    受信した前記アクセスしたWebページの形態素解析を行う形態素解析手段と、
    前記Webページの形態素解析の結果、前記未知のカテゴリに属する用語を検索し、この用語を未知語と判定する未知語判定手段と、
    前記ユーザの未知語に関連する情報を取得し、取得した前記特定の用語に関連する情報を前記Webページの内容とともに前記ユーザ端末に送信する未知語情報送信手段と、
    を備え、
    前記ユーザ端末は、前記未知語情報送信手段により送信された前記特定の用語に関連する情報を受信する未知語情報受信手段と、
    を更に備えることを特徴とする未知語表示システム。
JP2008262038A 2008-10-08 2008-10-08 知識dbを利用した検索方法 Expired - Fee Related JP5132511B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008262038A JP5132511B2 (ja) 2008-10-08 2008-10-08 知識dbを利用した検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008262038A JP5132511B2 (ja) 2008-10-08 2008-10-08 知識dbを利用した検索方法

Publications (2)

Publication Number Publication Date
JP2010092286A true JP2010092286A (ja) 2010-04-22
JP5132511B2 JP5132511B2 (ja) 2013-01-30

Family

ID=42254931

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008262038A Expired - Fee Related JP5132511B2 (ja) 2008-10-08 2008-10-08 知識dbを利用した検索方法

Country Status (1)

Country Link
JP (1) JP5132511B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012215966A (ja) * 2011-03-31 2012-11-08 Yahoo Japan Corp カテゴリ別共通付加情報追加装置及びカテゴリ別共通付加情報追加方法
US10504508B2 (en) 2016-04-11 2019-12-10 Mitsubishi Electric Corporation Response generation device, dialog control system, and response generation method
JP2024041246A (ja) * 2022-09-14 2024-03-27 Necプラットフォームズ株式会社 処理システム、処理方法およびプログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10585922B2 (en) * 2018-05-23 2020-03-10 International Business Machines Corporation Finding a resource in response to a query including unknown words

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003067328A (ja) * 2001-08-29 2003-03-07 Nec Corp ブックマーク管理システム及びブックマーク管理方法
JP2006190060A (ja) * 2005-01-06 2006-07-20 Kyocera Mita Corp データベース検索方法、データベース検索プログラムおよび原稿処理機
JP2007025925A (ja) * 2005-07-14 2007-02-01 Fuji Xerox Co Ltd 関連記述提示システム
JP2008234338A (ja) * 2007-03-20 2008-10-02 Nec Corp 旬度解析システム、旬度解析方法、及び旬度解析プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003067328A (ja) * 2001-08-29 2003-03-07 Nec Corp ブックマーク管理システム及びブックマーク管理方法
JP2006190060A (ja) * 2005-01-06 2006-07-20 Kyocera Mita Corp データベース検索方法、データベース検索プログラムおよび原稿処理機
JP2007025925A (ja) * 2005-07-14 2007-02-01 Fuji Xerox Co Ltd 関連記述提示システム
JP2008234338A (ja) * 2007-03-20 2008-10-02 Nec Corp 旬度解析システム、旬度解析方法、及び旬度解析プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012215966A (ja) * 2011-03-31 2012-11-08 Yahoo Japan Corp カテゴリ別共通付加情報追加装置及びカテゴリ別共通付加情報追加方法
US10504508B2 (en) 2016-04-11 2019-12-10 Mitsubishi Electric Corporation Response generation device, dialog control system, and response generation method
JP2024041246A (ja) * 2022-09-14 2024-03-27 Necプラットフォームズ株式会社 処理システム、処理方法およびプログラム

Also Published As

Publication number Publication date
JP5132511B2 (ja) 2013-01-30

Similar Documents

Publication Publication Date Title
US10671684B2 (en) Method and apparatus for identifying demand
US20120066359A1 (en) Method and system for evaluating link-hosting webpages
US11500953B2 (en) Indexing native application data
JP2009048380A (ja) 検索システム、検索装置、および検索方法
CN112966181A (zh) 服务推荐方法、装置、电子设备及存储介质
US20130066894A1 (en) Information processing system, information processing method, program, and non-transitory information storage medium
JP5132511B2 (ja) 知識dbを利用した検索方法
EP2608064A1 (en) Information provision device, information provision method, programme, and information recording medium
CA2805872C (en) Information provisioning device, information provisioning method, program, and information recording medium
WO2018145637A1 (zh) 上网行为记录方法、装置及用户终端
JP5191499B2 (ja) 検索結果順位付け方法および検索結果順位付けシステム
JP2018067193A (ja) 抽出装置、抽出方法および抽出プログラム
CN111353864B (zh) 一种产品推荐方法、装置、服务器及存储介质
JP4834118B2 (ja) ファセットクエリを利用したサービス誘導入札装置及び方法
JP2010160534A (ja) 地域特性辞書生成方法及び装置
JP2009252123A5 (ja)
JP5222691B2 (ja) 検索情報提供システム
JP7740742B2 (ja) インバウンド順位計測システム、及びインバウンド順位計測方法
JP7788903B2 (ja) 支援システム、支援装置、支援方法、及びプログラム
JP4859891B2 (ja) コンテンツに関連する情報を提供するサーバ、システム及び方法
RU2637899C2 (ru) Способ и сервер определения изменений в пользовательском интерактивном взаимодействии со страницей результатов поиска
US12346922B1 (en) Protecting against an estimated level of online tracking
JP5307781B2 (ja) 情報処理装置、方法及びプログラム
JP5108707B2 (ja) 検索サーバ装置、検索方法及びプログラム
KR20110012545A (ko) 온라인 버즈 분석 시스템 및 방법

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120207

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20120312

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120312

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120402

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120703

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121001

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20121009

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121030

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121106

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151116

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5132511

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees