JP5180894B2 - 属性表現獲得方法及び装置及びプログラム - Google Patents

属性表現獲得方法及び装置及びプログラム Download PDF

Info

Publication number
JP5180894B2
JP5180894B2 JP2009093049A JP2009093049A JP5180894B2 JP 5180894 B2 JP5180894 B2 JP 5180894B2 JP 2009093049 A JP2009093049 A JP 2009093049A JP 2009093049 A JP2009093049 A JP 2009093049A JP 5180894 B2 JP5180894 B2 JP 5180894B2
Authority
JP
Japan
Prior art keywords
attribute
phrase
search
information
attribute expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009093049A
Other languages
English (en)
Other versions
JP2010244341A (ja
Inventor
裕一郎 関口
結香子 北川
匡 内山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009093049A priority Critical patent/JP5180894B2/ja
Publication of JP2010244341A publication Critical patent/JP2010244341A/ja
Application granted granted Critical
Publication of JP5180894B2 publication Critical patent/JP5180894B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、属性表現獲得方法及び装置及びプログラムに係り、特に、検索システムに入力された検索クエリのログを用いることによって、対象を探す際に有効となる属性表現を獲得するための属性表現獲得方法及び装置及びプログラムに関する。
インターネットの普及と共に、ウェブ上で商品を購入するEC(Electronic Commerce)サイトが普及し、それらにおいて提供される商品の数も膨大になってきている。そのような中、ユーザが探し易いように商品の分類体系を整備し、それに従って商品を配置することが、ECサイトの使いやすさを確保するために必要な条件となっている。しかし、膨大な商品群の分類体系を構築するのはコストのかかる作業であり、自動で商品分類属性を獲得する手法が必要とされてきた。
従来の商品の属性表現を自動的に獲得する手法として、文書の集合に対して、予め与えられた評価表現や属性抽出対象が出現する構文情報を抽出することによって、同様の構文を持つ文書中から属性表現を抽出する手法が知られている(例えば、特許文献1参照)。
特開2007−241765号公報
しかしながら、上記従来技術においては、文書中から属性表現を抽出してくるために、抽出された属性表現の中にユーザが商品を探す際に重視される属性ではないものも含まれてしまうという問題点があった。
本発明は上記の点に鑑みなされたもので、検索システムにユーザが入力した検索クエリのログを用いることにより、ユーザが商品を探す際に用いる属性に限定された属性表現を抽出することが可能な属性表現獲得方法及び装置及びプログラムを提供することを目的とする。
図1は、本発明の原理を説明するための図である。
本発明(請求項1)は、対象事物に対してその性質や特性を表す属性表現を、検索システムに入力された検索クエリ語句の集合と個々の検索クエリ語句を入力したユーザの識別情報とが蓄積された検索クエリデータベースから獲得するための属性表現獲得方法であって、
入力装置から、属性を獲得する対象となる1つまたは複数の属性抽出対象となる属性抽出対象語句を取得し、抽出対象バッファに格納する属性抽出対象入力ステップ(ステップ1)と、
検索クエリデータベースからユーザの識別情報に基づいて同一のユーザから入力された検索語句の集合を抽出し、同一ユーザによって入力された時間的に連続した先に入力された検索クエリ語句(以下、「先行クエリ情報」と記す)と後に入力された検索クエリ語句(以下、「後続クエリ情報」と記す)からなる2つの検索クエリ情報の組を検索クエリシーケンス情報として抽出して検索シーケンスデータベースに格納する検索シーケンス抽出ステップ(ステップ2)と、
抽出対象バッファに格納されている属性抽出対象語句に基づいて、検索シーケンスデータベースに格納されている検索クエリシーケンス情報の検索クエリ情報に含まれている語句を属性表現候補語句として抽出し、属性候補バッファに格納する属性表現候補抽出ステップ(ステップ3)と、
属性候補バッファに格納されている属性表現候補語句それぞれについて、抽出対象バッファに格納されている属性抽出対象語句の集合のどの語句に対しても偏りなく出現する属性表現候補を、該属性抽出対象語句の集合に共通する属性表現として抽出する属性表現選別ステップ(ステップ4)と、を有し、
属性表現候補抽出ステップ(ステップ3)において、
先行クエリ情報に検索条件が追加された検索クエリシーケンス情報を絞り込み関係にある絞り込み語句の集合として抽出し、該検索クエリシーケンス情報集合の各検索クエリシーケンス情報の先行クエリ情報に追加された該検索条件を含む後続クエリ情報を選択し、該後続クエリ情報から該先行クエリ情報に含まれない語句を属性候補語句情報として抽出する。
また、本発明(請求項2)は、請求項1の属性表現獲得方法において、属性表現候補抽出ステップの前に、
検索シーケンスデータベースから読み出された検索シーケンス情報集合のそれぞれに含まれる先行クエリ情報から、属性抽出対象語句以外の語句を共起語句として抽出する共起語句抽出ステップを行い、
属性表現候補抽出ステップにおいて、
共起語句抽出ステップで得られた共起語句の集合と、検索シーケンスデータベースから抽出された絞り込み関係にある絞り込み語句の集合とを比較し、該絞り込み語句の集合中での出現度合いが、該共起語句の集合における出現度合いよりも高い語句を属性表現候補語句として抽出するステップを行う。
また、本発明(請求項3)は、請求項2の属性表現獲得方法の属性表現候補抽出ステップにおいて、
共起語句の集合より絞り込み語句の集合中でより多く出現する度合いを表す値Aを、
ある語句が該絞り込み語句の集合に出現する回数を絞り込み語句に出現する全語句の数で割ることによって得られる当該語句の絞り込み語句集合中での第1の出現確率と、当該語句が共起する語句の集合で出現する回数を共起する語句の集合に出現する全語句の数で割ることによって得られる共起する語句の集合中での第2の出現確率との差を算出することによって求め、
得られた値Aが予め定められた閾値以上の場合に属性表現候補語句として抽出するステップを行う。
図2は、本発明の原理構成図である。
本発明(請求項4)は、対象事物に対してその性質や特性を表す属性表現を、検索システムに入力された検索クエリ語句の集合と個々の検索クエリ語句を入力したユーザの識別情報とが蓄積された検索クエリデータベースから獲得するための属性表現獲得装置であって、
入力装置300から、属性を獲得する対象となる1つまたは複数の属性抽出対象となる属性抽出対象語句を取得し、抽出対象バッファ131に格納する属性抽出対象入力手段132と、
検索クエリデータベース200からユーザの識別情報に基づいて同一のユーザから入力された検索語句の集合を抽出し、同一ユーザによって入力された時間的に連続した先に入力された検索クエリ語句(以下、「先行クエリ情報」と記す)と後に入力された検索クエリ語句(以下、「後続クエリ情報」と記す)からなる2つの検索クエリ情報の組を検索クエリシーケンス情報として抽出して検索シーケンスデータベース120に格納する検索シーケンス抽出手段110と、
抽出対象バッファ131に格納されている属性抽出対象語句に基づいて、検索シーケンスデータベース120に格納されている検索クエリシーケンス情報の検索クエリ情報に含まれている語句を属性表現候補語句として抽出し、属性候補バッファ141に格納する属性表現候補抽出手段130と、
属性候補バッファ141に格納されている属性表現候補語句それぞれについて、抽出対象バッファに格納されている属性抽出対象語句の集合のどの語句に対しても偏りなく出現する属性表現候補を、該属性抽出対象語句の集合に共通する属性表現として抽出する属性表現選別手段140と、を有し、
属性表現候補抽出手段130は、
先行クエリ情報に検索条件が追加された検索クエリシーケンス情報を絞り込み関係にある絞り込み語句の集合として抽出し、該検索クエリシーケンス情報集合の各検索クエリシーケンス情報の先行クエリ情報に追加された該検索条件を含む後続クエリ情報を選択し、該後続クエリ情報から該先行クエリ情報に含まれない語句を属性候補語句情報として抽出する手段を含む。
また、本発明(請求項5)は、請求項4の属性表現獲得装置において、検索シーケンスデータベースから読み出された検索シーケンス情報集合のそれぞれに含まれる先行クエリ情報から、属性抽出対象語句以外の語句を共起語句として抽出する共起語句抽出手段を更に有し、
属性表現候補抽出手段130は、
共起語句抽出手段で得られた共起語句の集合と、検索シーケンスデータベース120から抽出される絞り込み関係にある絞り込み語句の集合とを比較し、該絞り込み語句の集合中での出現度合いが、該共起語句の集合における出現度合いよりも高い語句を属性表現候補語句として抽出する属性表現候補比較手段を含む。
また、本発明(請求項6)は、請求項5記載の属性表現獲得装置の属性表現候補抽出手段において、
共起語句の集合より絞り込み語句の集合中でより多く出現する度合いを表す値Aを、
当該語句が該絞り込み語句の集合に出現する回数を絞り込み語句に出現する全語句の数で割ることによって得られる当該語句の絞り込み語句集合中での第1の出現確率と、当該語句が共起する語句の集合で出現する回数を共起する語句の集合に出現する全語句の数で割ることによって得られる共起する語句の集合中での第2の出現確率との差を算出することによって求め、
得られた値Aが予め定められた閾値以上の場合に属性表現候補語句として抽出する手段を含む。
本発明(請求項7)は、請求項4乃至6の何れか1項記載の属性表現獲得装置を構成する各手段としてコンピュータを機能させるための属性表現獲得プログラムである。
上記のように、本発明は実際にユーザが対象を探す目的で入力した検索クエリ情報の集合から対象の属性表現を抽出するため、ユーザの表品を探す際に用いる属性表現のみに絞った抽出が可能となる。
また、本発明は、ユーザがあるクエリを入力した後に条件を追加して再度検索を行った絞込み関係にある検索シーケンスに注目し、絞り込み関係にある検索シーケンスにおいて絞り込み条件として入力された語句のみを属性表現として抽出することにより、「デジカメ」に対する「カメラ」のような、属性抽出対象語句よりも概念的に抽象的な語句を取り除くことができ、ユーザが商品を探す際に用いる属性表現をより精度良く抽出することが可能となる。
本発明の原理を説明するための図である。 本発明の原理構成図である。 本発明の第1の実施の形態における属性表現獲得装置の構成図である。 本発明の第1の実施の形態における検索クエリデータベースに蓄積される情報の例である。 本発明の第1の実施の形態における検索シーケンスデータベースに蓄積される情報の例である。 本発明の第1の実施の形態における属性表現候補抽出部の処理の流れを表す図である。 本発明の第1の実施の形態における検索シーケンスデータベースから読み出された情報の例である。 本発明の第1の実施の形態における絞り込み関係となる検索シーケンス情報の例である。 本発明の第1の実施の形態における属性候補バッファに書き込まれる情報の例である。 本発明の第1の実施の形態における属性表現選別部の処理の流れを表す図である。 本発明の第2の実施の形態における属性表現獲得装置の構成図である。 本発明の第2の実施の形態における属性表現候補比較抽出部の処理の流れを表す図である。 本発明の第2の実施の形態における集計された共起語句情報の例である。
以下、図面と共に本発明の実施の形態を説明する。
[第1の実施の形態]
図3は、本発明の第1の実施の形態における属性表現獲得装置の構成を示す。
同図に示す属性表現獲得装置100Aは、検索シーケンス抽出部110、検索シーケンスデータベース120、属性表現候補抽出部130、属性表現選別部140を有し、検索シーケンス抽出部110には外部の検索クエリデータベース200が接続され、属性表現候補抽出部130には外部の属性抽出対象入力装置300が接続され、属性表現選別部140には外部の属性表現出力装置400が接続されている。
検索クエリデータベース200には、既存の検索システムに入力された検索クエリ情報の集合が蓄積されている。検索クエリデータベース200に蓄積されるこの検索クエリ情報は、一人のユーザからの1回毎の検索要求を表し、入力された検索クエリ情報と、当該検索クエリが入力された時刻情報、当該検索クエリを入力したユーザを一意に判別可能にするユーザ識別情報、とから構成される。検索クエリデータベース200に蓄積される検索クエリ情報の例を図4に示す。
検索シーケンス抽出部110は、検索クエリデータベース200が属性表現獲得装置100Aに接続された際に処理を開始し、ユーザ識別情報に基づいて同一のユーザから入力された検索語句の集合を抽出し、同じユーザによって入力された時間的に連続した2つの検索クエリ情報の組を検索シーケンス情報として全て抜き出し、検索シーケンスデータベース120に蓄積する。
検索シーケンス情報に含まれる2つの検索クエリ情報の内、時間的に先に入力された方を「先行検索クエリ情報」と呼び、後に入力された方を「後続検索クエリ情報」と呼ぶことにする。
図4に示した検索クエリデータベース200に蓄積される情報の例を用いて、検索シーケンス抽出部110の処理を説明する。
検索クエリデータベース200に含まれる5つの情報の内、ユーザ識別情報が「aaa」であるユーザが「ノーベル賞」「ノーベル賞 賞金」「物理学」の順に検索クエリを入力しているので、「ノーベル賞」と「ノーベル賞 賞金」とからなる検索シーケンス情報と、「ノーベル賞 賞金」と「物理学」とからなる検索シーケンス情報との2つの検索シーケンス情報が抽出される。ここで、「ノーベル賞」が先行検索クエリ情報となり、「ノーベル賞 賞金」が後続検索クエリ情報となる。また、「ノーベル賞 賞金」が先行検索クエリ情報となり、「物理学」が後続検索クエリ情報となる。また、ユーザ識別情報が「bbb」であるユーザは、「デジタルカメラ」と「デジタルカメラ レンズ」との2つの検索クエリを入力しているので、「デジタルカメラ」と「デジタルカメラ レンズ」とからなる検索シーケンス情報が抽出される。以上の結果、検索シーケンスデータベース120に蓄積される情報は、図5のようになる。
当該属性情報獲得装置100Aの使用者は、キーボード等の属性抽出対象入力装置300を用いることにより、処理対象となる1つまたは複数の属性抽出対象語句情報を入力する。属性抽出対象入力装置300から入力された属性抽出対象語句情報は、属性表現候補抽出部130内の抽出対象バッファ131に入力する。
属性表現候補抽出部130は、属性抽出対象入力装置300から1つまたは複数の属性抽出対象語句が入力されると、処理を開始し、検索シーケンスデータベース120にアクセスして抽出対象が先行クエリ情報に含まれる検索シーケンス情報を抽出し、得られた検索シーケンス情報集合の後続検索クエリ情報に含まれる語句を属性表現候補として抽出する。
図6は、本発明の第1の実施の形態における属性表現候補抽出部の処理の流れを示す。
属性表現候補抽出部130は、処理を開始すると抽出対象バッファ131から属性抽出対象語句情報を1つ取り出す(ステップ101)。
属性表現候補抽出部130は、検索シーケンスデータベース120にアクセスし、上記の抽出対象バッファ131から取り出した属性抽出対象語句情報を先行検索クエリ情報として含む検索シーケンス情報を、検索シーケンスデータベース120から読み出す(ステップ102)。例えば、属性抽出対象語句情報が「ノーベル賞」であった場合、図7に示すような検索シーケンス情報の集合が読み出される。
属性表現候補抽出部130は、読み出された検索シーケンス情報の集合から、後続検索クエリ情報が先行クエリ情報の内容にいくつかの語句を追加することによって構成されている検索シーケンス情報を、先行クエリ情報に対して検索条件を追加した絞り込みの関係になっていると見做して抜き出す(ステップ103)。図7に示される「ノーベル賞」を先行クエリ情報に含む検索シーケンス情報の集合から、絞り込み関係となっている検索シーケンス情報のみを抜き出した例を図8に示す。例えば、図7の4行目に示されている検索シーケンス情報は、先行クエリ情報が「ノーベル賞 2008」で、後続クエリ情報が「ノーベル賞 受賞者 2008」となっており、後続クエリ情報は先行クエリ情報に「受賞者」を加えたものとなっているため、絞り込み関係になっていると見做せる。
属性表現候補抽出部130は、ステップ103で得られた検索シーケンス情報集合をそれぞれについて、後続検索クエリ情報に含まれるが、先行クエリ情報に含まれない語句を、属性候補語句情報として抽出する(ステップ104)。例えば、図8に示される検索シーケンス情報集合を解析すると、属性抽出対象語句情報が『ノーベル賞』の場合、該当する後続検索クエリ情報は、1行目、4行目、5行目、6行目であり、1行目の後続検索クエリ情報では「賞金」、4行目では「受賞者」、5行目では「講演」、6行目では「受賞者」となり、属性候補語句情報として「賞金」「受賞者」「講演」「受賞者」といった語句が抽出される。
属性表現候補抽出部130は、ステップ104で得られた1つまたは複数の属性候補語句情報について、同じ表記の語句についてはその出現数を集計し、属性候補語句情報と属性抽出対象語句情報と出現数情報とを合わせ、属性表現選別部140の属性候補バッファ141に書き込む(ステップ105)。図9に属性候補バッファ141に書き込まれる情報の例を示す。
属性表現候補抽出部130は、抽出対象バッファ131に未処理の属性抽出対象語句情報が含まれているかを確認し、含まれている場合はステップ101に戻って処理を続け、含まれていない場合は処理を終了する(ステップ106)。
属性表現選別部140は、属性表現候補抽出部130の処理が終わると処理を開始し、属性候補バッファ141に蓄積されている属性候補情報を読み込み、1つまたは複数の属性抽出対象語句情報の間の偏りなく抽出されている属性候補情報を選び出し、属性表現情報として属性表現出力装置400に出力する。
図10は、本発明の第1の実施の形態における属性表現選別部の処理の流れを示す。
属性表現選別部140は、属性候補バッファ141に蓄積されている情報を読み込み、属性抽出対象語句情報がそれぞれ何回ずつ出現しているかを集計する。例えば、図9に示される内容が属性候補バッファ141に蓄積されている場合、「ノーベル賞」が3回、「アカデミー賞」が2回という集計結果が得られる(ステップ201)。
属性表現選別部140は、属性候補バッファ141に蓄積されている情報を読み込み、属性候補語句情報がそれぞれ何回ずつ出現しているかを集計する。例えば、図9に示される内容が属性候補バッファ141に蓄積されている場合、「賞金」が1回、「講演」が1回、「受賞者」が3回、「作品」が1回となる集計結果が得られる(ステップ202)。
属性表現選別部140は、ステップ202で集計した属性候補語句情報のそれぞれについて、その語句が属性抽出語句情報のそれぞれについて、偏りなく出現しているほど値が小さくなる出現分散度を算出する。具体的には、以下の式のように、出現数の偏りを表す統計量であるχ値を用いて算出する(ステップ203)。
Figure 0005180894
ここで、Tは属性候補バッファ141に含まれている属性抽出対象語句の集合を表し、属性候補バッファ141が図9に示される内容の場合、「ノーベル賞」「アカデミー賞」となる。fq(wi,t)は、ある属性抽出対象語句tにおける属性候補語句wiの出現数を表し、属性候補バッファ141が図9に示される内容の場合、tが「ノーベル賞」でwiが「受賞者」とすると、fq(wi,t)は2となる。fw(wi)は、属性候補バッファ141中での属性候補語句wiの出現数であり、属性候補バッファ141が図9に示される内容の場合、wiを「受賞者」とするとfw(wi)の値は3となる。ft(tj)は属性候補バッファ141の中で属性抽出対象語句tjの出現数であり、属性候補バッファ141が図9に示される内容の場合、tjを「ノーベル賞」とするとft(tj)の値は4となる。
属性表現選別部140は、閾値よりも低い出現分散度を持つ属性候補語句情報を、属性表現として属性表現出力装置400に出力する。閾値の値は、属性候補バッファ141中に含まれる属性抽出対象語句情報の異なり数から1引いた値を自由度として、計算により求められるχ二乗分布表を参照し、有意水準0.05の値を抽出することにより自動的に求められる。また、処理の簡略化のため、予め決まった閾値を入力しておいてもよい(ステップ204)。
属性表現出力装置400は、ディスプレイもしくはプリンタ等の出力装置であり、属性表現選別部140から送られた属性表現情報を、ユーザが読み取れる形で出力する。
[第2の実施の形態]
図11は、本発明の第2の実施の形態における属性表現獲得装置の構成を示す。同図において、図3と同一構成部分には同一符号を付し、その説明を省略する。
属性表現獲得装置100Bは、検索シーケンス抽出部110、検索シーケンスデータベース120、属性表現候補比較抽出部150、属性表現選別部140から構成され、検索シーケンス抽出部110は外部の検索クエリデータベース200に接続され、属性表現候補比較抽出部150は外部の属性抽出対象入力装置300に接続され、属性表現選別部140は外部の属性表現出力装置400に接続されている。このうち、属性表現候補比較抽出部150以外の構成要素は、第1の実施の形態と同様である。
以下、第1の実施の形態と異なる属性表現候補比較抽出部150について説明する。
属性表現候補比較抽出部150は、属性抽出対象入力装置300から1つまたは複数の属性抽出対象語句が入力されると処理を開始し、属性抽出対象語句を抽出対象バッファ151に蓄積し、検索シーケンスデータベース120にアクセスして抽出対象が先行クエリ情報に含まれる検索シーケンス情報を抽出し、得られた検索シーケンス情報集合の後続検索クエリ情報に含まれる語句の集合と、先行検索クエリに含まれる属性抽出対象語句の共起クエリの集合とを比較し、後続検索クエリに含まれる傾向の高い語句を属性表現候補として抽出する。
図12は、本発明の第2の実施の形態における属性表現候補比較抽出部の処理の流れを示す。
属性表現候補比較抽出部150は、処理を開始すると抽出対象バッファ151から属性抽出対象語句情報を1つ取り出す(ステップ301)。
属性表現候補比較抽出部150は、検索シーケンスデータベース120に接続し、上記の抽出対象バッファ151から取り出した属性抽出対象語句情報を先行検索クエリ情報として含む検索シーケンス情報を、検索シーケンスデータベース120から読み出す(ステップ302)。例えば、属性抽出対象語句情報が「ノーベル賞」であった場合、図7に示すような検索シーケンス情報の集合が読み出される。
属性表現候補比較抽出部150は、読み出された検索シーケンス情報集合のそれぞれに含まれる先行クエリ情報から、属性抽出対象語句以外の語句を共起語句として抜き出し、抜き出した共起語句集合に対して、その表記毎に出現数を集計する(ステップ303)。
図7に示される「ノーベル賞」を先行クエリ情報に含む検索シーケンス情報の集合から、共起語句情報を集計して得られる結果を図13に示す。
属性表現候補比較抽出部150は、読み出された検索シーケンス情報の集合から、後続検索クエリ情報が先行クエリ情報の内容にいくつかの語句を追加することによって構成されている検索シーケンス情報を、先行クエリに対して検索条件を追加した絞り込みの関係になっているとみなし、追加された語句を絞り込み語句として抜き出し、その表記毎に出現数を集計する(ステップ304)。例えば、図7に示される「ノーベル賞」を先行クエリ情報に含む検索シーケンス情報の集合において、2行目と5行目と6行目と7行目とが絞り込み関係になっている検索シーケンス情報である。このとき、それぞれの絞り込み語句は、「賞金」「受賞者」「講演」「受賞者」となるため、絞り込み語句を集計した結果は、「賞金1回」「受賞者2回」「講演1回」となる。
属性表現候補比較抽出部150は、ステップ304で得られた絞り込み語句それぞれについて、当該語句のステップ303で得られた共起語句集合の中での出現確率と、当該語句のステップ304で得られた絞り込み語句集合の中での出現確率とを比較し、共起語句集合中よりも絞り込み語句中で多く出現している場合に、属性候補語句情報として抽出する(ステップ305)。ここで言う当該語句の共起語句集合中での出現確率は、当該語句の共起語句集合中での出現数を、共起語句集合に含まれる全ての語句の出現数を足し合わせた値で割ることにより求められる。当該語句の絞り込み語句集合での出現確率も同様に、当該語句の絞り込み語句集合中での出現数を、絞り込み語句集合に含まれる全ての語句の出現数を足し合わせた値で割ることにより求められる。
例えば、ステップ304で得られる絞り込み語句集合が、「賞金」:1回、「受賞者」:2回、「講演」:1回といった内容であった場合、「受賞者」の絞り込み語句集合中での出現確率は、「受賞者」の出現回数である2回を、全ての語句の出現回数を足し合わせた値である4回で割ることにより、0.5と求められる。
また、属性候補語句を抽出する際に、絞り込み語句集合中での出現確率と共起語句集合中での出現確率の差が、予め定めた閾値よりも高い場合に、属性候補語句として抽出するようにしてもよい。
属性表現候補比較抽出部150は、ステップ305で得られた1つまたは複数の属性候補語句情報について、同じ表記の語句についてはその出現数を集計し、属性候補語句情報と属性抽出対象語句情報と出現数情報とを合わせ、属性表現選別部140の属性候補バッファ141に書き込む(ステップ306)。
属性表現候補比較抽出部150は、抽出対象バッファ151に未処理の属性抽出対象語句情報が含まれているかを確認し、含まれている場合はステップ301に戻って処理を続け、含まれていない場合は処理を終了する(ステップ307)。
なお、上記の第1の実施の形態の図3、第2の実施の形態の図7に示す属性表現獲得装置の構成要素の処理をプログラムとして構築し、属性表現獲得装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
また、構築されたプログラムをハードディスクや、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
本発明は、インターネット等のネットワークの検索システムに適用可能である。
100 属性表現獲得装置
110 検索シーケンス抽出手段、検索シーケンス抽出部
120 検索シーケンスデータベース
130 属性表現候補抽出手段、属性表現候補抽出部
131 抽出対象バッファ
132 属性抽出対象入力手段
140 属性表現選別手段、属性表現選別部
141 属性候補バッファ
150 属性表現候補比較抽出部
151 抽出対象バッファ
200 検索クエリデータベース
300 入力装置、属性抽出対象入力装置
400 属性表現出力装置

Claims (7)

  1. 対象事物に対してその性質や特性を表す属性表現を、検索システムに入力された検索クエリ語句の集合と個々の検索クエリ語句を入力したユーザの識別情報とが蓄積された検索クエリデータベースから獲得するための属性表現獲得方法であって、
    入力装置から、属性を獲得する対象となる1つまたは複数の属性抽出対象となる属性抽出対象語句を取得し、抽出対象バッファに格納する属性抽出対象入力ステップと、
    前記検索クエリデータベースから前記ユーザの識別情報に基づいて同一のユーザから入力された検索語句の集合を抽出し、同一ユーザによって入力された時間的に連続した先に入力された検索クエリ語句(以下、「先行クエリ情報」と記す)と後に入力された検索クエリ語句(以下、「後続クエリ情報」と記す)からなる2つの検索クエリ情報の組を検索クエリシーケンス情報として抽出して検索シーケンスデータベースに格納する検索シーケンス抽出ステップと、
    前記抽出対象バッファに格納されている属性抽出対象語句に基づいて、前記検索シーケンスデータベースに格納されている前記検索クエリシーケンス情報の検索クエリ情報に含まれている語句を属性表現候補語句として抽出し、属性候補バッファに格納する属性表現候補抽出ステップと、
    前記属性候補バッファに格納されている前記属性表現候補語句それぞれについて、前記抽出対象バッファに格納されている前記属性抽出対象語句の集合のどの語句に対しても偏りなく出現する属性表現候補を、該属性抽出対象語句の集合に共通する属性表現として抽出する属性表現選別ステップと、を有し、
    前記属性表現候補抽出ステップにおいて、
    前記先行クエリ情報に検索条件が追加された検索クエリシーケンス情報を絞り込み関係にある絞り込み語句の集合として抽出し、該検索クエリシーケンス情報集合の各検索クエリシーケンス情報の先行クエリ情報に追加された該検索条件を含む後続クエリ情報を選択し、該後続クエリ情報から該先行クエリ情報に含まれない語句を属性候補語句情報として抽出する
    ことを特徴とする属性表現獲得方法。
  2. 前記属性表現候補抽出ステップの前に、
    前記検索シーケンスデータベースから読み出された検索シーケンス情報集合のそれぞれに含まれる先行クエリ情報から、前記属性抽出対象語句以外の語句を共起語句として抽出する共起語句抽出ステップを行い、
    前記属性表現候補抽出ステップにおいて、
    前記共起語句抽出ステップで得られた前記共起語句の集合と、前記検索シーケンスデータベースから抽出された絞り込み関係にある絞り込み語句の集合とを比較し、該絞り込み語句の集合中での出現度合いが、該共起語句の集合における出現度合いよりも高い語句を属性表現候補語句として抽出するステップを行う
    請求項1記載の属性表現獲得方法。
  3. 前記属性表現候補抽出ステップにおいて、
    前記共起語句の集合より前記絞り込み語句の集合中でより多く出現する度合いを表す値Aを、
    ある語句が該絞り込み語句の集合に出現する回数を絞り込み語句に出現する全語句の数で割ることによって得られる当該語句の絞り込み語句集合中での第1の出現確率と、当該語句が共起する語句の集合で出現する回数を共起する語句の集合に出現する全語句の数で割ることによって得られる共起する語句の集合中での第2の出現確率との差を算出することによって求め、
    得られた値Aが予め定められた閾値以上の場合に属性表現候補語句として抽出するステップを行う
    請求項2記載の属性表現獲得方法。
  4. 対象事物に対してその性質や特性を表す属性表現を、検索システムに入力された検索クエリ語句の集合と個々の検索クエリ語句を入力したユーザの識別情報とが蓄積された検索クエリデータベースから獲得するための属性表現獲得装置であって、
    入力装置から、属性を獲得する対象となる1つまたは複数の属性抽出対象となる属性抽出対象語句を取得し、抽出対象バッファに格納する属性抽出対象入力手段と、
    前記検索クエリデータベースから前記ユーザの識別情報に基づいて同一のユーザから入力された検索語句の集合を抽出し、同一ユーザによって入力された時間的に連続した先に入力された検索クエリ語句(以下、「先行クエリ情報」と記す)と後に入力された検索クエリ語句(以下、「後続クエリ情報」と記す)からなる2つの検索クエリ情報の組を検索クエリシーケンス情報として抽出して検索シーケンスデータベースに格納する検索シーケンス抽出手段と、
    前記抽出対象バッファに格納されている属性抽出対象語句に基づいて、前記検索シーケンスデータベースに格納されている前記検索クエリシーケンス情報の検索クエリ情報に含まれている語句を属性表現候補語句として抽出し、属性候補バッファに格納する属性表現候補抽出手段と、
    前記属性候補バッファに格納されている前記属性表現候補語句それぞれについて、前記抽出対象バッファに格納されている前記属性抽出対象語句の集合のどの語句に対しても偏りなく出現する属性表現候補を、該属性抽出対象語句の集合に共通する属性表現として抽出する属性表現選別手段と、を有し、
    前記属性表現候補抽出手段は、
    前記先行クエリ情報に検索条件が追加された検索クエリシーケンス情報を絞り込み関係にある絞り込み語句の集合として抽出し、該検索クエリシーケンス情報集合の各検索クエリシーケンス情報の先行クエリ情報に追加された該検索条件を含む後続クエリ情報を選択し、該後続クエリ情報から該先行クエリ情報に含まれない語句を属性候補語句情報として抽出する手段を含む
    ことを特徴とする属性表現獲得装置。
  5. 前記検索シーケンスデータベースから読み出された検索シーケンス情報集合のそれぞれに含まれる先行クエリ情報から、前記属性抽出対象語句以外の語句を共起語句として抽出する共起語句抽出手段を更に有し、
    前記属性表現候補抽出手段は、
    前記共起語句抽出手段で得られた前記共起語句の集合と、前記検索シーケンスデータベースから抽出される絞り込み関係にある絞り込み語句の集合とを比較し、該絞り込み語句の集合中での出現度合いが、該共起語句の集合における出現度合いよりも高い語句を属性表現候補語句として抽出する属性表現候補比較手段を含む
    請求項4記載の属性表現獲得装置。
  6. 前記属性表現候補抽出手段は、
    前記共起語句の集合より前記絞り込み語句の集合中でより多く出現する度合いを表す値Aを、
    当該語句が該絞り込み語句の集合に出現する回数を絞り込み語句に出現する全語句の数で割ることによって得られる当該語句の絞り込み語句集合中での第1の出現確率と、当該語句が共起する語句の集合で出現する回数を共起する語句の集合に出現する全語句の数で割ることによって得られる共起する語句の集合中での第2の出現確率との差を算出することによって求め、
    得られた値Aが予め定められた閾値以上の場合に属性表現候補語句として抽出する手段を含む
    請求項5記載の属性表現獲得装置。
  7. 請求項4乃至6の何れか1項記載の属性表現獲得装置を構成する各手段としてコンピュータを機能させるための属性表現獲得プログラム。
JP2009093049A 2009-04-07 2009-04-07 属性表現獲得方法及び装置及びプログラム Expired - Fee Related JP5180894B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009093049A JP5180894B2 (ja) 2009-04-07 2009-04-07 属性表現獲得方法及び装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009093049A JP5180894B2 (ja) 2009-04-07 2009-04-07 属性表現獲得方法及び装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2010244341A JP2010244341A (ja) 2010-10-28
JP5180894B2 true JP5180894B2 (ja) 2013-04-10

Family

ID=43097289

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009093049A Expired - Fee Related JP5180894B2 (ja) 2009-04-07 2009-04-07 属性表現獲得方法及び装置及びプログラム

Country Status (1)

Country Link
JP (1) JP5180894B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6310509B2 (ja) * 2016-07-05 2018-04-11 ヤフー株式会社 抽出装置、抽出方法および抽出プログラム
CN108256070B (zh) * 2018-01-17 2022-07-15 北京百度网讯科技有限公司 用于生成信息的方法和装置
CN111460269B (zh) * 2019-01-18 2023-09-01 北京字节跳动网络技术有限公司 信息推送方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002251402A (ja) * 2001-02-26 2002-09-06 Mitsubishi Electric Corp 文書検索方法及び文書検索装置
JP2005141449A (ja) * 2003-11-06 2005-06-02 Nippon Telegr & Teleph Corp <Ntt> 情報フィルタリング用プロファイル作成装置、情報フィルタリング用プロファイル作成方法および記録媒体

Also Published As

Publication number Publication date
JP2010244341A (ja) 2010-10-28

Similar Documents

Publication Publication Date Title
JP5647508B2 (ja) ショートテキスト通信のトピックを識別するためのシステムおよび方法
US9201880B2 (en) Processing a content item with regard to an event and a location
US8949227B2 (en) System and method for matching entities and synonym group organizer used therein
US20130110839A1 (en) Constructing an analysis of a document
US10152478B2 (en) Apparatus, system and method for string disambiguation and entity ranking
US8793120B1 (en) Behavior-driven multilingual stemming
CN109271639B (zh) 热门事件发现方法及装置
KR101429397B1 (ko) 소셜 네트워크 서비스의 메시지 분석을 이용한 핵심사건 추출 방법 및 시스템
JP2010204866A (ja) 重要キーワード抽出装置及び方法及びプログラム
Bykau et al. Fine-grained controversy detection in Wikipedia
JP5427694B2 (ja) 関連コンテンツ提示装置及びプログラム
JP2006318398A (ja) ベクトル生成方法及び装置及び情報分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記憶媒体
JP2012008900A (ja) 関連語句抽出方法、関連語句抽出装置及び関連語句抽出プログラム
JP2009122807A (ja) 連想検索システム
JP5180894B2 (ja) 属性表現獲得方法及び装置及びプログラム
US10339559B2 (en) Associating social comments with individual assets used in a campaign
JP2007334590A (ja) 情報ランキング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2008117351A (ja) 検索システム
JP5321258B2 (ja) 情報収集システムおよび情報収集方法ならびにそのプログラム
JP2010272006A (ja) 関係抽出装置、関係抽出方法、及びプログラム
JP4938515B2 (ja) 単語間相関度計算装置および方法、プログラム並びに記録媒体
JP2006293616A (ja) 文書集約方法及び装置及びプログラム
KR101402339B1 (ko) 문서 관리 시스템 및 문서 관리 방법
JP5739352B2 (ja) 辞書生成装置、文書ラベル判定システム及びコンピュータプログラム
WO2013150633A1 (ja) 文書処理システム、及び、文書処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110825

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130111

R150 Certificate of patent or registration of utility model

Ref document number: 5180894

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees