JP2011192222A - 情報処理装置、データ抽出方法、及びプログラム - Google Patents

情報処理装置、データ抽出方法、及びプログラム Download PDF

Info

Publication number
JP2011192222A
JP2011192222A JP2010060057A JP2010060057A JP2011192222A JP 2011192222 A JP2011192222 A JP 2011192222A JP 2010060057 A JP2010060057 A JP 2010060057A JP 2010060057 A JP2010060057 A JP 2010060057A JP 2011192222 A JP2011192222 A JP 2011192222A
Authority
JP
Japan
Prior art keywords
query
target query
character string
information processing
specific site
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010060057A
Other languages
English (en)
Other versions
JP5084859B2 (ja
Inventor
Kazuya Kudo
和也 工藤
Miki Yoshitake
美貴 吉武
Satomi Chiba
里美 千葉
Keita Hakoda
慶太 箱田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2010060057A priority Critical patent/JP5084859B2/ja
Publication of JP2011192222A publication Critical patent/JP2011192222A/ja
Application granted granted Critical
Publication of JP5084859B2 publication Critical patent/JP5084859B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】管理するための負荷を増大することなく、ユーザーの入力意図を反映した標準表記を抽出できる情報処理装置を提供すること。
【解決手段】情報処理装置が、クエリと、クエリに対する検索一覧と、検索一覧に記載されるサイトに対する個々の選択の履歴情報とを含むログを記憶する記憶手段と、ログに基づいて、対象クエリと、該対象クエリに対するユーザーの選択率が高いサイトである特定サイト163との組み合わせを記憶手段から抽出する特定サイト抽出手段と、特定サイト163を構成するページデータ中の文字列501と、対象クエリとの類似度を算出する算出手段と、算出手段の算出結果に基づいて、対象クエリに対して、類似度の高い文字列を対象クエリの標準表記501aとして抽出する標準表記抽出手段とを備える。
【選択図】図5

Description

本発明は、ユーザーの入力意図を反映した検索結果を表示する情報処理装置に関する。
従来、インターネット上でユーザーの検索結果を表示する情報処理装置では、ユーザーが入力したクエリ(キーワードやターム等)に基づいた検索結果を表示することで、ユーザーの入力意図を反映した検索結果を表示する方法が用いられている。
例えば、一般的にユーザーに広く知られる標準表記を記憶した辞書を設けた情報処理装置が知られている(例えば、特許文献1)。このような情報処理装置によれば、ユーザーが入力したクエリと、標準表記とを対応させて辞書に記憶することにより、標準表記に基づいた検索結果を表示できる。すなわち、ユーザーの表記のゆれや、入力ミス等を考慮した検索結果を表示できる。
特開2004−86307号公報
しかしながら、上述した従来の情報処理装置には、次のような問題があった。すなわち、上述した情報処理装置は、キーワードと標準表記とを記録した辞書を設けるため、ユーザーに入力される様々なキーワードに辞書を対応させる必要がある。そのため、辞書の作成や、頻繁な更新など、人為的に辞書をメンテナンスする必要があり管理負荷が大きいという問題がある。
そこで、本発明は、このような状況に鑑みてなされたものであり、辞書の管理負荷を増大することなく、標準表記を抽出できることを目的とする。
上述した問題を解決するため、本発明は、次のような特徴を有している。まず、本発明の第1の特徴は、情報処理装置(情報処理装置100)が、クエリ(クエリ151)と、前記クエリに対する検索一覧(検索一覧160)と、前記検索一覧に記載されるサイト(サイトURL161)に対する個々の選択の履歴情報(履歴情報170)とを含むログ(クリックログDB104)を記憶する記憶手段(記憶部103)と、前記ログに基づいて、対象クエリ(対象クエリ153)と、該対象クエリに対するユーザーの選択率が高いサイトである特定サイト(特定サイト163)との組み合わせを前記記憶手段から抽出する特定サイト抽出手段(特定サイト抽出部105)と、前記特定サイトを構成するページデータ中の文字列(文字列501)と、前記対象クエリとの類似度を算出する算出手段(算出部111)と、前記算出手段の算出結果に基づいて、前記対象クエリに対して、類似度の高い文字列を前記対象クエリの標準表記(標準表記501a)として抽出する標準表記抽出手段(標準表記抽出部113)と、を備えることを要旨とする。
このような、記憶手段は、クエリと、検索一覧と、検索一覧に記載されるサイトに対する個々の選択の履歴情報とを含むログを記憶する。また、特定サイト抽出手段は、ログに基づいて、対象クエリと、対象クエリに対して選択率の高い特定サイトとの組み合わせを記憶手段から抽出する。
このため、標準表記抽出手段によれば、算出部111の算出結果に基づいて、対象クエリに対して、特定サイトから類似度の高い文字列を標準表記として、抽出できる。
すなわち、情報処理装置によれば、ユーザーに入力される様々なクエリと、該クエリに対応する標準表記とを入力した辞書を設けることなく、ユーザーに入力される様々なクエリに対応する標準表記を抽出できる。
従って、情報処理装置によれば、管理するための負荷を増大することなく、ユーザーの入力意図を反映した標準表記を抽出できる。
本発明の第2の特徴は、本発明の第1の特徴に係り、前記算出手段は、前記対象クエリを、該対象クエリの読みに基づいて、該対象クエリの文字列と種類の異なる文字列に変換し、変換結果に対して、前記ページデータ中の文字列との類似度を算出することを要旨とする。
本発明の第3の特徴は、本発明の第1又は第2の特徴に係り、前記算出手段は、前記対象クエリを、該対象クエリの読みに基づいて、小文字、大文字、カタカナ、平仮名、漢字の少なくとも何れかを含む文字列に変換し、各変換結果に対して、前記ページデータ中の文字列との類似度を算出することを要旨とする。
本発明の第4の特徴は、本発明の第1乃至第3の特徴に係り前記算出手段は、前記特定サイトを規定する記述内におけるヘッダ部(ヘッダ部502)内の文字列と、前記対象クエリとの類似度を算出することを要旨とする。
本発明の第5の特徴は、本発明の第1乃至第4の特徴に係り、前記特定サイト抽出手段は、前記特定サイトにアクセスすることを目的とするクエリであるナビゲーショナルクエリ(ナビゲーショナルクエリ155)を前記ログに基づいて抽出して、該ナビゲーショナルクエリを前記対象クエリとして抽出し、前記算出手段は、前記判定手段の判定結果に基づいて、前記対象クエリが前記ナビゲーショナルクエリでなかった場合、前記ナビゲーショナルクエリを対象クエリとして、該対象クエリと、前記特定サイトを構成するページデータ中の文字列との類似度を算出することを要旨とする。
本発明の第6の特徴は、本発明の第1乃至第5の特徴に係り、前記ログに基づいて、前記標準表記と、前記標準表記に関連する情報とを前記記憶手段から抽出する関連情報抽出手段(関連情報抽出部115)を更に備えることを要旨とする。
本発明の第7の特徴は、データ抽出方法が、クエリと、前記クエリに対する検索一覧と、前記検索一覧に記載されるサイトに対する個々の選択の履歴情報とを含むログを所定の記憶手段に記憶するステップと、前記ログに基づいて、対象クエリと、該対象クエリに対して選択率の高いサイトである特定サイトとの組み合わせを前記記憶手段から抽出するステップと、前記特定サイトを構成するページデータ中の文字列と、前記対象クエリとの類似度を算出するステップと、前記類似度の算出結果に基づいて、類似度の高い文字列を前記対象クエリの標準表記として抽出するステップと、を備えることを要旨とする。
本発明の第8の特徴は、プログラムが、本発明の第7の特徴に記載のデータ抽出方法を前記情報処理装置に実行させることを要旨とする。
本発明によれば、管理するための負荷を増大することなく、ユーザーの入力意図を反映した標準表記を抽出できる。
本発明の実施形態に係る情報処理システム1の全体概略構成図である。 本発明の実施形態に係る情報処理装置100の機能ブロック図である。 本発明の実施形態に係る情報処理装置100に記憶される情報の一例を示す図である。 本発明の実施形態に係る情報処理装置100で処理される情報の一例を示す図である。 本発明の実施形態に係る情報処理装置100の動作を説明するための概念図である。 本発明の実施形態に係る情報処理装置100で処理される情報の一例を示す図である。 本発明の実施形態に係る情報処理装置100によって作成される検索ページ300の模式図である。 本発明の実施形態に係る情報処理装置100の動作を説明するための概念図である。 本発明の実施形態に係る情報処理装置100の検索処理動作の詳細を示すフローチャートである。 本発明の実施形態に係る情報処理装置100の標準表記の抽出処理動作の詳細を示すフローチャートである。
次に、図面を参照して、本発明の実施形態について説明する。
なお、以下の図面の記載において、同一または類似の部分には、同一または類似の符号を付している。また、図面は模式的なものであり、各寸法の比率などは現実のものとは異なる。
したがって、具体的な寸法などは以下の説明を参酌して判断すればよく、図面相互間においても互いの寸法の関係や比率が異なる部分が含まれている。
以下の実施形態においては、(1)情報処理システム1の全体構成、(2)情報処理装置100の詳細構成、(3)算出部111の類似度の算出処理、(4)情報処理システム1の動作、(5)作用・効果、及び(6)その他の実施形態について説明する。
(1)情報処理システム1の全体構成
図1は、本実施形態に係る情報処理システム1の全体概略構成図である。
図1に示す情報処理システム1は、ユーザー端末10、ユーザー端末30、情報処理装置100を含む。本実施形態では、ユーザー端末10、ユーザー端末30、情報処理装置100が、通信ネットワーク50(インターネットなど)を介して接続され、互いにデータ通信可能となっている。情報処理システム1は、ユーザー端末10、ユーザー端末30と、情報処理装置100との間で、クエリ151や、検索ページ300の受け渡しを行う。以下の実施形態では、「Yaho(ヤホ)」という企業、それに関連するサイトが存在するものとして、具体例を記載する。
ユーザー端末10及びユーザー端末30は、通信ネットワーク50を介して、情報処理装置100から検索ページ300を取得する装置である。ユーザー端末10及びユーザー端末30は、ユーザーが使用するPC(Personal Computer)や携帯通信端末装置(携帯電話機やスマートフォン)、カーナビゲーションシステム等であり、無線LANや、近傍無線通信(Bluetooth(登録商標)や赤外線通信等)或いは有線通信(USB(Universal Serial Bus)ケーブル接続等)によって、通信ネットワーク50を介して情報処理装置100に接続されている。ユーザー端末10及びユーザー端末30は、情報処理装置100が有するハードウェア資源に加えて、キーボタンやタッチパネル等の入力装置、液晶ディスプレイ等の出力装置、一般的なブラウザを備える。ブラウザは、インターネットの標準プロトコルであるHTTP(Hyper Text Transfer Protocol)等に従い、HTML(Hyper Text Markup Language)等の言語で記述されたページデータの要求、取得及び表示、フォームデータの送信等を行う機能を有している。
本実施形態では、ユーザー端末10が、携帯通信端末装置であり、ユーザー端末30が、いわゆるPCである点を除き、ユーザー端末10及びユーザー端末30は、同様の機能を有しており、以下の記載においては、主にユーザー端末10について、記載する。従って、ユーザー端末30についてもユーザー端末10と同様の機能を有しているが、詳細の記載は、適宜省略する。
(2)情報処理装置100の詳細構成
図2は、本実施形態に係る情報処理装置100の機能ブロック図である。図3は、情報処理装置100の記憶部103に記憶される情報の一例を示す図である。図4は、情報処理装置100のナビゲーショナルクエリ抽出部109で処理される情報の一例を示す図である。図5は、本発明の実施形態に係る情報処理装置100の算出部111による類似度の算出動作を説明するための概念図である。図6は、情報処理装置100の関連情報抽出部115で処理される情報の一例を示す図である。図7は、実施形態に係る情報処理装置100によって作成される検索ページ300の模式図である。
情報処理装置100は、CPU等の制御装置、メモリやHDD等の記憶装置、通信ネットワーク50と通信する通信I/F等の通信装置といったハードウェア資源を有するコンピュータ(単一或いは複数)により構成される。情報処理装置100が備える下記の各ブロックは、前述したコンピュータの制御装置等のハードウェア資源を用いてコンピュータプログラムを実行することによって実現されるものである。なお、これらの各ブロック、手段は、単一のコンピュータ上に配置される必要はなく、必要に応じて分散される構成を採用しても良い。
情報処理装置100は、クエリ受信部101、記憶部103、特定サイト抽出部105、判定部107、ナビゲーショナルクエリ抽出部109、算出部111、標準表記抽出部113、関連情報抽出部115、検索処理部117、検索結果ページ作成部119、ページ送信部121を備える。これらの機能部は、いわゆるコンピュータにより構成され、演算/制御装置としてのCPU(Central Processing Unit)、記憶媒体としてのRAM(Random Access Memory)及びROM(Read Only Memory)、通信インターフェイス等が関連することで実現される。
クエリ受信部101は、ユーザー端末10から通信ネットワーク50を介して、クエリを受信する。
図3に示すように、記憶部103は、クエリ151と、クエリ151に対する検索一覧160と、検索一覧160に記載されるサイトURL161に対する個々の選択の履歴情報170とを含むクリックログDB104を記憶する。クエリ151は、ユーザーにより任意に入力された文字列であり、特に限定されない。例えば、クエリ151は、固有名詞、略称などにより構成される。クエリ151は、複数の文字列の組み合わせであってもよい。検索一覧160は、クエリ151に対応するキーワードを含むウェブページのサイトURL161により構成される。履歴情報170は、サイトURLに対してユーザーがアクセスした履歴を示すデータあり、サイトURL161に対するユーザーの選択率や、頻度を示す。
例えば、記憶部103は、クエリ151として、「やほ」が入力された場合、対象クエリ153として、「やほ」と、対象クエリ153に対する検索一覧160と、履歴情報170とを記憶する。
履歴情報170は、サイトURL161に対するユーザーの選択率や、頻度を示すパラメータの少なくとも何れかを含んでいればよく、例えば、選択回数171、クリック率(CTR)173等により示される。
選択回数171は、検索一覧160において、ユーザーにより選択された回数を示す。クリック率173は、検索一覧160において、各サイトURL161が選択される確率を示す。なお、選択回数171及びクリック率173は、クエリ151に対応する検索一覧160に限られず、記憶部103全体において、ユーザーにより選択された回数や、確率を示してもよい。
特定サイト抽出部105は、クリックログDB104に基づいて、対象クエリ153と、対象クエリ153に対するユーザーの選択率が高いサイトURL161である特定サイト163との組み合わせを記憶部103から抽出する。
具体的には、特定サイト抽出部105は、対象クエリ153に対応する検索一覧160において、選択回数171又はクリック率173が最も多いサイトURL161を特定サイト163として抽出する。例えば、特定サイト抽出部105は、「やほ」という対象クエリ153に対応する検索一覧160において、選択回数171又はクリック率173が最も多い「www.yaho.co.jp」というサイトURL161を特定サイト163として抽出する。
また、特定サイト抽出部105は、特定サイト163にアクセスすることを目的とするクエリであるナビゲーショナルクエリ155をクリックログDB104に基づいて抽出して、該ナビゲーショナルクエリ155を対象クエリ153として抽出する。
ナビゲーショナルクエリが、特定のサイトへアクセスするためのクエリであるから、ナビゲーショナルクエリに基づいて対象クエリが定まり、特定サイトが抽出される。
判定部107は、対象クエリ153が特定サイト163にアクセスすることを目的とするクエリであるナビゲーショナルクエリ155であるか否かを判定する。例えば、判定部107は、対象クエリ153に対して、特定サイト163の選択回数171又はクリック率173が、所定の数値よりも高いか否かに基づいて、対象クエリ153が、ナビゲーショナルクエリ155であるか否かを判定する。また、判定部107は、検索一覧160に記載されるサイトURL161の数や、所定期間における選択回数171又はクリック率173を基準として、対象クエリ153が、ナビゲーショナルクエリ155であるか否かを判定してもよい。
ナビゲーショナルクエリ抽出部109は、判定部107の判定結果に基づいて、ナビゲーショナルクエリ155と、特定サイト163との組み合わせを記憶部103から抽出する。図4に示すように、ナビゲーショナルクエリ抽出部109は、特定サイト163に対するナビゲーショナルクエリ155を複数抽出した場合、ユーザーにより選択された頻度の最も多い第1ナビゲーショナルクエリ155aを抽出する。
具体的には、ナビゲーショナルクエリ抽出部109は、クリックログDB104に基づいて、特定サイト163へのアクセスを目的とするナビゲーショナルクエリ155を記憶部103から抽出し、特定サイト163と、ナビゲーショナルクエリ155の一覧と、履歴情報170とを含むデータDB110を作成する。そして、ナビゲーショナルクエリ抽出部109は、データDB110において、ユーザーにより選択された頻度の最も多いナビゲーショナルクエリ155を第1ナビゲーショナルクエリ155aとして抽出する。
例えば、ナビゲーショナルクエリ抽出部109は、クリックログDB104に基づいて、特定サイト163である「www.yaho.co.jp」へのアクセスを目的とするナビゲーショナルクエリ155である「yaho」を第1ナビゲーショナルクエリ155aとして、記憶部103から抽出する。なお、以下の記載においては、ナビゲーショナルクエリ155について記載するが、ナビゲーショナルクエリ155の代わりに第1ナビゲーショナルクエリ155aであってもよい。
算出部111は、特定サイト163を構成するページデータ中の文字列501と、対象クエリ153との類似度を算出する。算出部111の類似度の算出方法は、(3)算出部111の類似度の算出処理にて、後述する。
図5に示すように、標準表記抽出部113は、算出部111の算出結果に基づいて、対象クエリ153に対して、類似度の高い文字列501を対象クエリ153の標準表記501aとして、抽出する。
具体的には、標準表記抽出部113は、特定サイト163を規定する記述において、特定サイト163の全体情報を規定するヘッダ部502から、対象クエリ153に対して標準表記501aを抽出する。特に、標準表記抽出部113は、ヘッダ部502において、ウェブページのタイトルを規定するタイトル部504から、標準表記501aを抽出する。
例えば、標準表記抽出部113は、算出部111の算出結果に基づいて、対象クエリ153である「やほ」に対して、特定サイト163である「www.yaho.co.jp」のタイトル部504を構成する「Yaho」「Japan」から対象クエリ153に対して、類似度の高い文字列501である「Yaho」を標準表記501aとして、抽出する。このような標準表記501aは、特定サイト163の代表的な表記と言える。
また、標準表記抽出部113は、算出部111の算出結果に基づいて、ナビゲーショナルクエリ155である「yaho」に対して、特定サイト163のタイトル部504から類似度の高い文字列501である「Yaho」を標準表記501aとして、抽出してもよい。
関連情報抽出部115は、クリックログDB104に基づいて、標準表記501aと、標準表記501aに関連する情報である関連情報157とを記憶部103から抽出する。具体的には、図6に示すように、関連情報抽出部115は、クリックログDB104に基づいて、標準表記501aをクエリとして含むクエリ151a〜クエリ151cを記憶部103から抽出する。そして、関連情報抽出部115は、クエリ151a〜クエリ151cに含まれる標準表記501a以外の単語を関連する関連情報157として記憶部103から抽出する。
例えば、関連情報抽出部115は、クリックログDB104に基づいて、標準表記501aである「Yaho」と、関連情報157として「メール」、「ブログ」等を記憶部103から抽出する。
図7に示すように、検索処理部117は、標準表記抽出部113で抽出した標準表記501aに基づいて、検索を行い、複数の項目情報180を含む検索結果情報190を出力する。具体的には、検索処理部117は、クローラーにより自動収集されたウェブページに関する情報を記憶する所定の記憶部から、標準表記501aに基づく情報を検索する。
図7に示すように、検索結果ページ作成部119は、検索結果情報190等に基づいて、検索ページ300を作成する。検索ページ300は、検索結果一覧ページ200と、クエリ入力ページ250とからなる。検索結果一覧ページ200には、関連情報領域220と、検索結果情報190を表示する検索結果領域230とが少なくとも表示される。
具体的には、検索結果ページ作成部119は、標準表記501aに対応する検索結果情報190を検索処理部117から取得し、標準表記501aに関連するウェブページのタイトルや、ウェブページの一部のテキスト情報等を表示する検索結果領域230を作成する。
また、検索結果ページ作成部119は、クエリに関連するウェブページが、他のWebサーバから取得したウェブページである場合、ウェブページのタイトルにサイトURL161を対応させたハイパーリンクとして、検索結果領域230に作成する。例えば、検索結果ページ作成部119は、標準表記501aである「Yaho」に基づいて、検索処理部117により出力された検索結果情報190を用いて検索結果領域230を作成する。
また、検索結果ページ作成部119は、標準表記501aである「Yaho」に対応する関連情報157として「メール」、「ブログ」、「路線」を関連情報抽出部115から取得し、標準表記501aと、関連情報157とを組み合わせて関連情報領域220を作成する。例えば、検索結果ページ作成部119は、「Yaho メール」、「Yaho ブログ」、「Yaho 路線」などが記載された関連情報領域220を作成する。
クエリ入力ページ250には、ユーザーから文字・数字等が入力されるクエリ入力欄260と、クエリ入力欄260のクエリに基づいた検索を実行するための検索ボタン270とが少なくとも表示される。本実施形態では、クエリ入力欄260には、クエリ151として、「やほ」が入力されている。
ページ送信部121は、通信ネットワーク50を介して、検索結果ページ作成部119により作成された検索ページ300をユーザー端末10に送信する。
(3)算出部111の類似度の算出処理
図8は、本発明の実施形態に係る情報処理装置100の算出部111による類似度の算出動作を説明するための概念図である。本発明の実施形態に係る情報処理装置100で処理される情報の一例を示す図である。
図8に示すように、算出部111は、対象クエリ153を、該対象クエリ153の読みに基づいて、該対象クエリ153の文字列と種類の異なる文字列に変換し、変換結果に対して、特定サイト163を構成するページデータ中の文字列501との類似度を算出する。
具体的には、算出部111は、特定サイト163を規定する記述内におけるヘッダ部502内の文字列と、対象クエリ153との類似度を算出する。
具体的には、算出部111は、対象クエリ153を、対象クエリ153の読みに基づいて、小文字、大文字、カタカナ、平仮名、漢字の少なくとも何れかを含む文字列に変換し、各変換結果に対して、特定サイト163を構成するページデータ中の文字列501との類似度を編集距離等を用いて算出する。算出部111は、文字列501と、対象クエリ153との類似度を算出する際に、形態素解析や、N−gram等を用いて、文字列501と、対象クエリ153とを解析する。
なお、算出部111は、判定部107の判定結果に基づいて、対象クエリ153がナビゲーショナルクエリ155でなかった場合、ナビゲーショナルクエリ155を対象クエリとして、該対象クエリと、特定サイト163を構成するページデータ中の文字列501との類似度を算出する。
例えば、算出部111は、ナビゲーショナルクエリ155である「yaho」を「やほ」という読みに基づいて、「ヤホ」、「yaho」、「YAHO」、「Yaho」、「yAho」、「yaHo」等に変換する。
また、算出部111は、特定サイト163を構成するHTMLの文字列501である「Yaho」、「サービス」、「トピックス」、「経済」、「エンタメ」等をそれぞれ抽出し、ナビゲーショナルクエリ155の変換結果である「ヤホ」、「yaho」、「YAHO」、「Yaho」、「yAho」、「yaHo」等との類似度をそれぞれ算出する。
(4)情報処理システム1の動作
情報処理システム1の動作について、(4.1)全体概略動作、(4.2)情報処理装置100の検索処理動作の順に説明する。
(4.1)全体概略動作
情報処理システム1は、ユーザー端末10によって入力されたクエリ151に基づいて、情報処理装置100が、検索ページ300を作成し、ユーザー端末10に表示する。
具体的には、まず、ユーザー端末10が、ユーザーからクエリを受け入れ、情報処理装置100のクエリ受信部101へ通信ネットワーク50を介して、クエリ151を送信する。
次に、情報処理装置100は、クエリ受信部101で受信したクエリ151に基づいて、検索ページ300を出力する。
次に情報処理装置100は、通信ネットワーク50を介して、検索ページ300をユーザー端末10に送信する。
最後に、ユーザー端末10は、検索ページ300を表示する。
(4.2)情報処理装置100の検索処理動作
図9は、実施形態に係る情報処理装置100の検索処理動作を示すフローチャートである。
ステップS100において、クエリ受信部101は、ユーザー端末10からクエリ151を受信する。
ステップS200において、標準表記抽出部113は、算出部111の算出結果に基づいて、標準表記501aを抽出する。また、関連情報抽出部115は、標準表記501aに関連する関連情報157を抽出する。
ステップS300において、検索処理部117は、標準表記抽出部113で抽出した標準表記501aに基づいて、検索を行い、複数の項目情報180を含む検索結果情報190を出力する。
ステップS400において、検索結果ページ作成部119は、検索結果情報190等に基づいて、検索ページ300を作成する。
ステップS500において、ページ送信部121は、通信ネットワーク50を介して、検索結果ページ作成部119により作成された検索ページ300をユーザー端末10に送信する。これにより、情報処理装置100は、検索処理動作を終了する。
(4.3)情報処理装置100の標準表記・関連情報の抽出方法
図10は、情報処理装置100の標準表記・関連情報の抽出処理動作を示すフローチャートである。具体的には、図9のステップS200の情報処理装置100の標準表記・関連情報の抽出処理動作の詳細を示すフローチャートである。
ステップS201において、特定サイト抽出部105は、クエリ受信部101で受信したクエリ151について、選択された頻度の最も多いサイトURL161である特定サイト163を記憶部103から抽出する。
ステップS203において、判定部107は、対象クエリ153が特定サイト163にアクセスすることを目的とするクエリであるナビゲーショナルクエリ155であるか否かを判定する。
具体的には、判定部107は、対象クエリ153をナビゲーショナルクエリ155と判定した場合、処理をステップS207へ進める。また、判定部107は、対象クエリ153をナビゲーショナルクエリ155ではない、と判定した場合、処理をステップS205へ進める。
ステップS205において、ナビゲーショナルクエリ抽出部109は、判定部107の判定結果に基づいて、ナビゲーショナルクエリ155と、特定サイト163との組み合わせを記憶部103から抽出する。
ステップS207において、算出部111は、特定サイト163を構成するページデータ中の文字列501と、対象クエリ153との類似度を算出する。
ステップS209において、標準表記抽出部113は、算出部111の算出結果に基づいて、対象クエリ153に対して、類似度の高い文字列501を対象クエリ153の標準表記501aとして抽出する。
ステップS211において、関連情報抽出部115は、標準表記501aに関連する関連情報157を抽出する。これにより、情報処理装置100は、標準表記・関連情報の抽出処理動作を終了する。
(5)作用・効果
以上説明したように、本実施形態によれば、情報処理装置100は、記憶部103と、特定サイト抽出部105と、算出部111と、標準表記抽出部113とを備える。記憶部103は、クエリ151と、検索一覧160と、検索一覧160に記載されるサイトURL161に対する個々の選択の履歴情報とを含むクリックログDB104を記憶する。また、特定サイト抽出部105は、クリックログDB104に基づいて、対象クエリ153と、対象クエリ153に対して選択率の高い特定サイト163との組み合わせを記憶部103から抽出する。
このため、標準表記抽出部113によれば、算出部111の算出結果に基づいて、対象クエリ153に対して、特定サイト163から類似度の高い文字列501を標準表記501aとして、抽出できる。
すなわち、情報処理装置100によれば、ユーザーに入力される様々なクエリと、該クエリに対応する標準表記とを対応付けた辞書を人手によりメンテナンスすることなく、様々なクエリに対応する標準表記501aを抽出できる。
従って、情報処理装置100によれば、管理するための負荷を増大することなく、標準表記501aを抽出できる。また、検索支援として表示する関連キーワードとして一般的にユーザーに馴染みのある標準表記を用いることができるので、ユーザーの入力支援として効果的である。すなわち、情報処理装置100は、ユーザーの入力意図を反映した検索結果を表示できる。
また、このような情報処理装置100によれば、ユーザーが、誤って入力意図と異なったクエリ151を入力した場合、例えば、クエリ151として、「yafo」などを入力した場合や、小文字で「tel」と入力すべきところを平仮名で「てる」と入力した場合でも、クリックログDB104に基づいて、特定サイト163を記憶部103から抽出できるため、ユーザーの入力意図を反映した標準表記501aを抽出できる。
実施形態では、算出部111は、対象クエリ153を、対象クエリ153の読みに基づいて、対象クエリ153の文字列と種類の異なる文字列に変換し、変換結果に対して、前記ページデータ中の文字列501との類似度を算出する。特に、実施形態では、算出部111は、対象クエリ153を、対象クエリ153の読みに基づいて、小文字、大文字、カタカナ、平仮名、漢字の少なくとも何れかを含む文字列に変換し、各変換結果に対して、ページデータ中の文字列501との類似度を算出する。
このため、対象クエリ153の文字列501と、標準表記501aの文字列との種類が、異なる場合であっても、対象クエリ153と、標準表記501aとの類似度を高めることが出来るため、ユーザーの入力意図を反映した標準表記501aを更に確実に抽出できる。
実施形態では、標準表記抽出部113は、特定サイト163を規定する記述において、ヘッダ部502から、対象クエリ153に対して類似度の高い文字列501を抽出する。ヘッダ部502には、特定サイト163を規定する記述において、特定サイト163を代表する表記である文字列501が、記述されている。
このため、標準表記抽出部113によれば、特定サイト163を代表する表記である文字列501を標準表記501aとして抽出できる。このような標準表記501aは、ユーザーの入力意図を反映した表記である可能性が高いため、情報処理装置100によれば、ユーザーの入力意図を反映した標準表記501aを更に確実に抽出できる。
実施形態では、情報処理装置100は、判定部107と、ナビゲーショナルクエリ抽出部109とを更に備える。ナビゲーショナルクエリ抽出部109によれば、ユーザーに入力される様々なクエリ151に対応するナビゲーショナルクエリ155を抽出できる。
また、算出部111は、判定部107の判定結果に基づいて、対象クエリ153が特定サイト163にアクセスすることを目的とするクエリであるナビゲーショナルクエリ155でなかった場合、ナビゲーショナルクエリ155を対象クエリ153として、ページデータ中の文字列501中の文字列との類似度を算出する。
このようなナビゲーショナルクエリ155は、ユーザーの入力意図を反映した著名な表記である可能性が高い。このため、情報処理装置100は、ナビゲーショナルクエリ155に基づいて、標準表記501aを抽出することができる。従って、情報処理装置100は、ユーザーの入力意図を反映した標準表記501aを更に確実に抽出できる。
実施形態では、関連情報抽出部115は、クリックログDB104に基づいて、標準表記501aと、標準表記501aに関連する情報として関連情報157とを記憶部103から抽出する。
このため、関連情報抽出部115は、ユーザーの入力意図を反映した標準表記501aと、関連する関連情報157を抽出することができる。すなわち、情報処理装置100は、ユーザーの入力意図を反映する標準表記501aに加えて、ユーザーの検索支援となる関連情報157を抽出することができるため、ユーザーの入力意図を更に高く反映した検索結果を表示することができる。
(6)その他の実施形態
上述した実施形態では、情報処理装置100は、標準表記501aに基づく検索ページ300をユーザー端末10に送信する。本発明は、これに限られず、例えば、情報処理装置100は、ユーザーに入力されたクエリ151に対して、標準表記501aのみをユーザー端末10に送信してもよい。
上述した実施形態では、検索処理部117は、標準表記501aに基づいて、検索を行っている。本発明は、これに限られず、例えば、検索処理部117は、標準表記501aと、関連情報157とに基づいて、検索を行ってもよい。このような情報処理装置100によれば、ユーザーの検索支援情報も考慮した検索結果を表示することが出来る。
上述した実施形態では、算出部111は、対象クエリ153を、対象クエリ153の読みに基づいて、小文字、大文字、カタカナ、平仮名、漢字の少なくとも何れかを含む文字列に変換し、各変換結果に対して、特定サイト163を構成するページデータ中の文字列501との類似度を編集距離等を用いて算出する。本発明は、これに限られず、例えば、対象クエリ153に基づいて、関連される単語を含む絵文字等に変換して、類似度を算出してもよい。
このように、本発明は、ここでは記載していない様々な実施の形態などを含むことは勿論である。したがって、本発明の技術的範囲は、上述の説明から妥当な特許請求の範囲に係る発明特定事項によってのみ定められるものである。
例えば、各構成図、フローチャート、概念図の図などは例示に過ぎず、各要素の有無、その順序や具体的内容などは適宜変更可能である。一例として、手動によるブロックの指定は必須ではなく、また、本発明において、各手段などの要素は、コンピュータの演算制御部に限らず、ワイヤードロジック等に基づく電子回路で実現してもよい。
1 情報処理システム
10、30 ユーザー端末
50 通信ネットワーク
100 情報処理装置
101 クエリ受信部
103 記憶部
104 クリックログDB
105 特定サイト抽出部
107 判定部
109 ナビゲーショナルクエリ抽出部
110 データDB
111 算出部
113 標準表記抽出部
115 関連情報抽出部
117 検索処理部
119 検索結果ページ作成部
121 ページ送信部
150 クエリ一覧
151、151a、151b、151c クエリ
153 対象クエリ
155 ナビゲーショナルクエリ
157 関連情報
160 検索一覧
161 サイトURL
163 特定サイト
170 履歴情報
171 選択回数
173 クリック率
180 項目情報
190 検索結果情報
200 検索結果一覧ページ
220 関連情報領域
230 検索結果領域
250 クエリ入力ページ
260 クエリ入力欄
270 検索ボタン
300 検索ページ
501 文字列
501a 標準表記
502 ヘッダ部
504 タイトル部

Claims (8)

  1. クエリと、前記クエリに対する検索一覧と、前記検索一覧に記載されるサイトに対する個々の選択の履歴情報とを含むログを記憶する記憶手段と、
    前記ログに基づいて、対象クエリと、該対象クエリに対するユーザーの選択率が高いサイトである特定サイトとの組み合わせを前記記憶手段から抽出する特定サイト抽出手段と、
    前記特定サイトを構成するページデータ中の文字列と、前記対象クエリとの類似度を算出する算出手段と、
    前記算出手段の算出結果に基づいて、前記対象クエリに対して、類似度の高い文字列を前記対象クエリの標準表記として抽出する標準表記抽出手段と、
    を備えることを特徴とする情報処理装置。
  2. 前記算出手段は、前記対象クエリを、該対象クエリの読みに基づいて該対象クエリの文字列と種類の異なる文字列に変換し、変換結果に対して、前記ページデータ中の文字列との類似度を算出することを特徴とする請求項1に記載の情報処理装置。
  3. 前記算出手段は、前記対象クエリを、該対象クエリの読みに基づいて、小文字、大文字、カタカナ、平仮名、漢字の少なくとも何れかを含む文字列に変換し、各変換結果に対して、前記ページデータ中の文字列との類似度を算出することを特徴とする請求項1又は2に記載の情報処理装置。
  4. 前記算出手段は、
    前記特定サイトを規定する記述内におけるヘッダ部内の文字列と、前記対象クエリとの類似度を算出することを特徴とする請求項1乃至3の何れか一項に記載の情報処理装置。
  5. 前記特定サイト抽出手段は、
    前記特定サイトにアクセスすることを目的とするクエリであるナビゲーショナルクエリを前記ログに基づいて抽出して、該ナビゲーショナルクエリを前記対象クエリとして抽出し、
    前記算出手段は、
    前記判定手段の判定結果に基づいて、前記対象クエリが前記ナビゲーショナルクエリでなかった場合、前記ナビゲーショナルクエリを対象クエリとして、該対象クエリと、前記特定サイトを構成するページデータ中の文字列との類似度を算出することを特徴とする請求項1乃至4の何れか一項に記載の情報処理装置。
  6. 前記ログに基づいて、前記標準表記と、前記標準表記に関連する情報とを前記記憶手段から抽出する関連情報抽出手段を更に備えることを特徴とする請求項1乃至5の何れか一項に記載の情報処理装置。
  7. クエリと、前記クエリに対する検索一覧と、前記検索一覧に記載されるサイトに対する個々の選択の履歴情報とを含むログを所定の記憶手段に記憶するステップと、
    前記ログに基づいて、対象クエリと、該対象クエリに対して選択率の高いサイトである特定サイトとの組み合わせを前記記憶手段から抽出するステップと、
    前記特定サイトを構成するページデータ中の文字列と、前記対象クエリとの類似度を算出するステップと、
    前記類似度の算出結果に基づいて、類似度の高い文字列を前記対象クエリの標準表記として抽出するステップと、
    を備えることを特徴とするデータ抽出方法。
  8. 請求項7に記載のデータ抽出方法を前記情報処理装置に実行させるためのプログラム。
JP2010060057A 2010-03-17 2010-03-17 情報処理装置、データ抽出方法、及びプログラム Active JP5084859B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010060057A JP5084859B2 (ja) 2010-03-17 2010-03-17 情報処理装置、データ抽出方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010060057A JP5084859B2 (ja) 2010-03-17 2010-03-17 情報処理装置、データ抽出方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2011192222A true JP2011192222A (ja) 2011-09-29
JP5084859B2 JP5084859B2 (ja) 2012-11-28

Family

ID=44797025

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010060057A Active JP5084859B2 (ja) 2010-03-17 2010-03-17 情報処理装置、データ抽出方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5084859B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019095940A (ja) * 2017-11-20 2019-06-20 ヤフー株式会社 情報処理装置、情報処理方法、および情報処理プログラム
CN116112434A (zh) * 2023-04-12 2023-05-12 深圳市网联天下科技有限公司 一种路由器数据智能缓存方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008093403A1 (ja) * 2007-01-30 2008-08-07 Cirius Technologies, Inc. 単語データベース作成システム
JP2009516890A (ja) * 2005-11-22 2009-04-23 グーグル インコーポレイテッド ユーザログからの検索カテゴリ同義語の推定
JP2010039997A (ja) * 2008-08-08 2010-02-18 Ricoh Co Ltd 情報検索装置、情報検索方法、プログラム、および記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009516890A (ja) * 2005-11-22 2009-04-23 グーグル インコーポレイテッド ユーザログからの検索カテゴリ同義語の推定
WO2008093403A1 (ja) * 2007-01-30 2008-08-07 Cirius Technologies, Inc. 単語データベース作成システム
JP2010039997A (ja) * 2008-08-08 2010-02-18 Ricoh Co Ltd 情報検索装置、情報検索方法、プログラム、および記録媒体

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019095940A (ja) * 2017-11-20 2019-06-20 ヤフー株式会社 情報処理装置、情報処理方法、および情報処理プログラム
CN116112434A (zh) * 2023-04-12 2023-05-12 深圳市网联天下科技有限公司 一种路由器数据智能缓存方法及系统

Also Published As

Publication number Publication date
JP5084859B2 (ja) 2012-11-28

Similar Documents

Publication Publication Date Title
US10796076B2 (en) Method and system for providing suggested tags associated with a target web page for manipulation by a useroptimal rendering engine
JP4909334B2 (ja) サービス提案装置及びその方法、サービス提案システム、ユーザのお気に入りベースに基づくサービス提案装置及びその方法
US20140032522A1 (en) Systems and methods for contextual searching of semantic entities
US9129009B2 (en) Related links
US10606895B2 (en) Multiple entity aware typeahead in searches
JP2006065511A (ja) 閲覧履歴提示システム
JP2007219722A (ja) 文書検索サーバおよび文書検索方法
JP2007323394A (ja) メタ検索システム及びメタ検索方法とこれに用いるユーザ端末及びプログラム
JP2009037501A (ja) 情報検索装置、情報検索方法およびプログラム
CN111194457A (zh) 专利评估判定方法、专利评估判定装置以及专利评估判定程序
JP2007072596A (ja) 情報共有システムおよび情報共有方法
JP6147629B2 (ja) ページコンテンツについて注目箇所を直ぐに表示するページサイトサーバ、プログラム及び方法
JP5165719B2 (ja) 情報処理装置、データ抽出方法及びプログラム
JP2008262506A (ja) 情報抽出システム、情報抽出方法および情報抽出用プログラム
JP5084859B2 (ja) 情報処理装置、データ抽出方法、及びプログラム
JP4002943B1 (ja) 検索最適化装置、方法、及びコンピュータプログラム
CN108614821B (zh) 地质资料互联互查系统
JP2006155275A (ja) 情報抽出方法及び情報抽出装置
JP2008033675A (ja) コンテンツ検索装置、コンテンツ検索プログラム及びコンテンツ検索方法
JP6618103B1 (ja) 文章生成装置、文章生成方法、および文章生成プログラム
JP5331166B2 (ja) 検索サーバ及び方法
JP5230715B2 (ja) 検索支援装置
JP5165704B2 (ja) 有害文書判定方法、有害文書判定装置および有害文書判定プログラム
JP5843235B2 (ja) Web情報処理装置、web情報処理方法、およびプログラム
WO2019013834A1 (en) INDEX-SENSITIVE ANTICIPATED HIT IN RESEARCH

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120605

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20120614

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120806

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120828

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120904

R150 Certificate of patent or registration of utility model

Ref document number: 5084859

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150914

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350