JP5583164B2 - 専門度推定装置及び方法及びプログラム - Google Patents

専門度推定装置及び方法及びプログラム Download PDF

Info

Publication number
JP5583164B2
JP5583164B2 JP2012078338A JP2012078338A JP5583164B2 JP 5583164 B2 JP5583164 B2 JP 5583164B2 JP 2012078338 A JP2012078338 A JP 2012078338A JP 2012078338 A JP2012078338 A JP 2012078338A JP 5583164 B2 JP5583164 B2 JP 5583164B2
Authority
JP
Japan
Prior art keywords
search keyword
search
average frequency
field
rarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012078338A
Other languages
English (en)
Other versions
JP2013206435A (ja
Inventor
大祐 佐藤
宜仁 安田
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012078338A priority Critical patent/JP5583164B2/ja
Publication of JP2013206435A publication Critical patent/JP2013206435A/ja
Application granted granted Critical
Publication of JP5583164B2 publication Critical patent/JP5583164B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、専門度推定装置及び方法及びプログラムに係り、特に、利用者が検索キーワードを入力し、キーワードに関連する文書を検索するような文書検索において、キーワードの属する分野ごとの利用者の専門知識の度合いを推定するための専門度推定装置及び方法及びプログラムに関する。
従来、インターネットから得られる情報等、大規模な文書を対象として、キーワードを入力とし、そのキーワードと関連のあるような文書を検索するような文書検索が知られている。
利用者が目的とするような情報をより短い手数で得ることを補助するため、検索キーワードの属する分野に関する専門知識を有する利用者に対しては主題について専門的に書かれている文書を、そうでない利用者については主題に対して専門用語ではなく一般的な言葉で書かれているような文書を提示することが考えられる。
このような技術を実現するためには、まず、利用者が検索キーワードの属する分野についての専門知識をどの程度有しているかを検索装置が把握する必要がある。
このようなキーワードの属する分野の利用者の専門知識の度合いを推定するため、従来、検索キーワードの珍しさ度合いに着目した手法が提案されている(非特許文献1参照)。
佐藤大祐、安田宜仁、望月崇由、鈴木智也、松浦由美子、片岡良治、「検索システムユーザの分野別の知識推定」, 第2回データ工学と情報マネジメントに関するフォーラム, DEIM2010.
従来の方法では、検索ログ全体の中での検索キーワードの珍しさ度合いによって、その検索キーワードを入力した利用者の専門知識の度合いを推定していた。しかし、検索ログ全体の中にあっては珍しいキーワードであっても、マスコミに取り上げられる等の理由で、一時期は話題になり、多くの人が知ることになるようなキーワードが存在する。このような場合、必ずしも利用者がその分野に関して専門知識を持っていなくても話題になった分野についての、かつては一般的ではなく珍しかった単語を検索キーワードとして入力することがあり得る。このような状況において、検索キーワードの珍しさ度合いのみよる従来法においては、利用者の専門知識の度合いを推定する精度が低くなるという問題があった。
本発明は、上記の点に鑑みなされたもので、一時的に通常状態とは異なる検索キーワードを入力した利用者の専門知識の度合いに影響されない専門度推定装置及び方法及びプログラムを提供することを目的とする。
上記の課題を解決するため、本発明は、入力されたキーワードの属する分野毎の利用者の専門知識の度合いを推定する専門度推定装置であって、
ユーザ識別子(u)、ユーザが過去に検索システム入力した検索キーワード(w)、該検索キーワードの属する分野(d)、該検索キーワードが入力された時間(t)を保持する検索キーワード履歴記憶手段と、
入力されたユーザ識別子(u)、推定対象の分野(d)に基づいて、前記検索キーワード履歴記憶手段を検索して、対応する検索キーワード及び時間(t)を取得する検索手段と、
前記推定対象の分野における前記検索キーワードの珍しさを示す指標(iqf(d,w))を求める指標算出手段と、
全期間における前記検索キーワードの全体平均頻度(OA(w))を求める平均頻度算出手段と、
前記検索手段で検索された前記時間(t)における前記検索キーワードの移動平均頻度(MA(w,t))を算出する移動平均頻度算出手段と、
前記移動平均頻度(MA(w,t))が前記全体平均頻度(OA(w))を上回る場合には、前記指標(iqf(d,w))を低く補正した値を、分野d及び時間tにおける検索キーワードの珍しさの値(time_adjusted_iqf(d,w,t))とし、上回らない場合は前記指標(iqf(d,w))を分野d及び時間tにおける検索キーワードの珍しさの値(time_adjusted_iqf(d,w,t))とする指標補正手段と、
前記検索キーワードの珍しさの値(time_adjusted_iqf(d,w,t))を用いて、当該ユーザの分野に関する知識量推定値(Kud)を算出する知識量推定手段と、を有する。
また、上記の前記指標補正手段は、前記移動平均頻度(MA(w,t))が前記全体平均頻度(OA(w))を上回る場合には、
前記検索キーワードの珍しさを示す指標(iqf(d,w,t))に、前記全体平均頻度(OA(w))を前記移動平均頻度(MA(w,t))で除した値を乗算した値を、前記検索キーワードの珍しさの値とする。
また、前記検索キーワードの珍しさを示す指標として、
検索キーワードが対象分野に属する全検索キーワード中に出現する頻度の逆数IQF(Inverse Query Frequency)を算出する。
また、前記知識量推定手段は、前記知識量推定値を、前記検索キーワード履歴記憶手段に含まれる、前記ユーザ及び対象分野に関する全検索キーワードの珍しさの値を、該検索キーワード履歴記憶手段に含まれる前記ユーザの分野に関する検索キーワードの総数で除した値とする。
本発明は、一時的に話題となったキーワードは、キーワードの長期的な珍しさに大きな影響を与えないという特徴に着目し、検索時の移動平均頻度と全体平均頻度との差分を考慮してバーストに対応し、時間によるクエリの珍しさの変化を補正することにより、一時的に通常状態とは異なる検索キーワードを入力した利用者の専門知識の度合いを推定する精度が低くなることを防止することができる。
本発明の一実施の形態における専門度推定装置の構成図である。 本発明の一実施の形態における検索キーワード履歴DBの例である。 本発明の一実施の形態における知識量推定部のフローチャートである。 本発明の一実施の形態における移動平均が全体平均を上回る場合の例である。
以下、図面と共に本発明の実施の形態を説明する。
図1は、本発明の一実施の形態における専門度推定装置の構成を示す。
同図に示す専門度推定装置100は、知識量推定部110と検索キーワード履歴DB120を有する。
検索キーワード履歴DB120は、ユーザ識別子と、ユーザが過去に検索システムに入力した検索キーワード、入力された検索キーワードの属する分野、及び検索キーワードが入力された時間を保持するハードディスク等の記憶媒体である。検索キーワード履歴DB120の格納例を図2に示す。
知識量推定部110の処理を図3のフローに基づいて説明する。
ステップ101) 知識量推定部110は、ユーザ識別子u、及び知識量を推定する分野dを入力として受け取る。
ステップ102) ユーザu及び分野dをキーとして、検索キーワード履歴DB120から検索キーワードw及び時間tを取り出す。
ステップ103) 次に、従来技術と同様に、ユーザが過去に入力した検索キーワードの珍しさを示す指標であるIQF(Inverse Query Frequency)を算出する。分野dにおける検索キーワードwのIQFを、iqf(d,w)とする。iqf(d,w)を求める方法として、例えば、特開2011-170699号公報に開示されている技術を用いることが可能である。
ステップ104) 検索キーワードwの全期間における全体平均頻度OA(w)を求め、時間tにおけるwの移動平均頻度MA(w,t)を求める。
ステップ105) 移動平均頻度MA(w,t)が全体平均頻度OA(w)以下(OA(w)≧MA(w,t))であればステップ106に移行し、そうでなければ(OA(w)<MA(w,t))、ステップ107に移行する。当該処理は、一時的に話題になったことによって、その一時期においてキーワードwの珍しさが通常時と変わってしまうことに対して補正を行うか否かを判定するものである。ここで、MA(w,t)は時間tにおける検索キーワードwの移動平均頻度であるが、移動平均の期間は、一時的な頻度の変化を検出できる程度の範囲を予め設定する。図4に示すように、移動平均が全体平均以下の場合(ステップ106)と、移動平均が全体平均を上回る場合(ステップ107)で処理を分ける。これは、一時的な検索キーワードの入力頻度の上昇には対応する必要があるが、一時的に検索キーワードの入力頻度が低くなることは、クエリの珍しさに影響を与えないため対応する必要がないという考えに基づく。
ステップ106) OA(w)≧MA(w,t)であるとき、分野d及び時間tにおける検索キーワードwの珍しさをtime_adjusted_iqf(d,w,t)を、
time_adjusted_iqf(d,w,t)=iqf(d,w)
とし、ステップ108に移行する。
ステップ107) ステップ105において(OA(w)<MA(w,t))であるとき、
Figure 0005583164
とする。上記の式は、
Figure 0005583164
の意味である。当該処理を行うことにより、一時的な検索キーワードの入力頻度の上昇時に、iqfを小さい値に補正することができる。
ステップ108) ユーザuの分野dに関する知識量推定値Kudを、ステップ106,107で求められたtime_adjusted_iqf(d,w,t)を用いて以下の式で求める。
Figure 0005583164
ここで、Nu,dは検索キーワードDB120に含まれるユーザuの分野dに関する検索キーワードの総数を表す。また、wとtの添え字iは、検索キーワードDB120において同一レコードであることを示しており、対象となるユーザuの対象分野dに関するレコード全てについて計算する。
上記で求められた知識量推定値Kudを出力する。
上記のように、キーワードwの入力頻度が頻度の移動平均以上である場合に、指標(iqf(d,w))の補正を行うことにより、一時的に通常状態と異なる頻度でキーワードが入力された場合においても専門知識の度合いの推定精度が低下することがない。
上記の図1に示す専門度推定装置の知識量推定部の動作をプログラムとして構築し、専門度推定装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
100 専門度推定装置
110 知識量推定部
120 検索キーワード履歴DB(データベース)

Claims (8)

  1. 入力されたキーワードの属する分野毎の利用者の専門知識の度合いを推定する専門度推定装置であって、
    ユーザ識別子、ユーザが過去に検索システム入力した検索キーワード、該検索キーワードの属する分野、該検索キーワードが入力された時間を保持する検索キーワード履歴記憶手段と、
    入力されたユーザ識別子、推定対象の分野に基づいて、前記検索キーワード履歴記憶手段を検索して、対応する検索キーワード及び時間を取得する検索手段と、
    前記推定対象の分野における前記検索キーワードの珍しさを示す指標を求める指標算出手段と、
    全期間における前記検索キーワードの全体平均頻度を求める平均頻度算出手段と、
    前記検索手段で検索された前記時間における前記検索キーワードの移動平均頻度を算出する移動平均頻度算出手段と、
    前記移動平均頻度が前記全体平均頻度を上回る場合には、前記指標を低く補正した値を、分野及び時間における検索キーワードの珍しさの値とし、上回らない場合は前記指標を分野及び時間における検索キーワードの珍しさの値とする指標補正手段と、
    前記検索キーワードの珍しさの値を用いて、当該ユーザの分野に関する知識量推定値を算出する知識量推定手段と、
    を有することを特徴とする専門度推定装置。
  2. 前記指標補正手段は、
    前記移動平均頻度が前記全体平均頻度を上回る場合には、
    前記検索キーワードの珍しさを示す指標に、前記全体平均頻度を前記移動平均頻度で除した値を乗算した値を前記検索キーワードの珍しさの値とする
    請求項1記載の専門度推定装置。
  3. 前記検索キーワードの珍しさを示す指標として、
    検索キーワードが対象分野に属する全検索キーワード中に出現する頻度の逆数IQF(Inverse Query Frequency)を算出する
    請求項1または2記載の専門度推定装置。
  4. 前記知識量推定手段は、
    前記知識量推定値を、
    前記検索キーワード履歴記憶手段に含まれる、前記ユーザ及び対象分野に関する全検索キーワードの珍しさの値を、該検索キーワード履歴記憶手段に含まれる前記ユーザの分野に関する検索キーワードの総数で除した値とする
    請求項1記載の専門度推定装置。
  5. 入力されたキーワードの属する分野毎の利用者の専門知識の度合いを推定する専門度推定方法であって、
    検索手段が、入力されたユーザ識別子、推定対象の分野に基づいて、ユーザ識別子、ユーザが過去に検索システム入力した検索キーワード、該検索キーワードの属する分野、該検索キーワードが入力された時間を保持する検索キーワード履歴記憶手段を検索して、対応する検索キーワード及び時間を取得する検索ステップと、
    指標算出手段が、前記推定対象の分野における前記検索キーワードの珍しさを示す指標を求める指標算出ステップと、
    平均頻度算出手段が、全期間における前記検索キーワードの全体平均頻度を求める平均頻度算出ステップと、
    移動平均頻度算出手段が、前記検索ステップで検索された前記時間における前記検索キーワードの移動平均頻度を算出する移動平均頻度算出ステップと、
    指標補正手段が、前記移動平均頻度が前記全体平均頻度を上回る場合には、前記指標を低く補正した値を、分野及び時間における検索キーワードの珍しさの値とし、上回らない場合は前記指標を分野及び時間における検索キーワードの珍しさの値とする指標補正ステップと、
    知識量推定手段が、前記検索キーワードの珍しさの値を用いて、当該ユーザの分野に関する知識量推定値を算出する知識量推定ステップと、
    を行うことを特徴とする専門度推定方法。
  6. 前記指標算出ステップにおいて、
    前記検索キーワードの珍しさを示す指標として、
    検索キーワードが対象分野に属する全検索キーワード中に出現する頻度の逆数IQF(Inverse Query Frequency)を算出し、
    前記指標補正ステップにおいて、
    前記移動平均頻度が前記全体平均頻度を上回る場合には、
    前記検索キーワードの珍しさを示す指標に、前記全体平均頻度を前記移動平均頻度で除した値を乗算した値を前記検索キーワードの珍しさの値とする
    請求項5記載の専門度推定方法。
  7. 前記知識量推定ステップにおいて、
    前記知識量推定値を、
    前記検索キーワード履歴記憶手段に含まれる、前記ユーザ及び対象分野に関する全検索キーワードの珍しさの値を、該検索キーワード履歴記憶手段に含まれる前記ユーザの分野に関する検索キーワードの総数で除した値とする
    請求項5記載の専門度推定方法。
  8. コンピュータを、
    請求項1乃至4のいずれか1項に記載の専門度推定装置の各手段として機能させるための専門度推定プログラム。
JP2012078338A 2012-03-29 2012-03-29 専門度推定装置及び方法及びプログラム Active JP5583164B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012078338A JP5583164B2 (ja) 2012-03-29 2012-03-29 専門度推定装置及び方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012078338A JP5583164B2 (ja) 2012-03-29 2012-03-29 専門度推定装置及び方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2013206435A JP2013206435A (ja) 2013-10-07
JP5583164B2 true JP5583164B2 (ja) 2014-09-03

Family

ID=49525388

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012078338A Active JP5583164B2 (ja) 2012-03-29 2012-03-29 専門度推定装置及び方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5583164B2 (ja)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030212663A1 (en) * 2002-05-08 2003-11-13 Doug Leno Neural network feedback for enhancing text search
JP2004192542A (ja) * 2002-12-13 2004-07-08 Nippon Telegr & Teleph Corp <Ntt> 情報推薦装置、情報推薦方法、プログラムおよび記録媒体
JP4501569B2 (ja) * 2004-07-14 2010-07-14 日本電信電話株式会社 話題度算出装置及びプログラム
KR100739348B1 (ko) * 2006-03-06 2007-07-16 엔에이치엔(주) 키워드 별로 사용자의 전문가 지수를 산정하는 방법 및상기 방법을 수행하는 시스템
JP4764864B2 (ja) * 2007-11-02 2011-09-07 ヤフー株式会社 情報伝播抽出装置および情報伝播抽出方法
JP5292336B2 (ja) * 2010-02-19 2013-09-18 日本電信電話株式会社 検索システムユーザの分野ごとにおける知識量推定装置、知識量推定方法および知識量推定プログラム
JP5367632B2 (ja) * 2010-04-12 2013-12-11 日本電信電話株式会社 知識量推定装置及びプログラム

Also Published As

Publication number Publication date
JP2013206435A (ja) 2013-10-07

Similar Documents

Publication Publication Date Title
JP5864586B2 (ja) 検索結果を順位付ける方法および装置
JP5857049B2 (ja) 単語のユーザー挙動数の予測
CN107124442A (zh) 基于用户行为的资源动态调整方法及设备
CN110297984B (zh) 基于微博的信息传播动力系统、构建方法、装置及介质
CN104598632A (zh) 热点事件检测方法和装置
CN109766492A (zh) 学习推荐方法、装置、设备和可读介质
US10250550B2 (en) Social message monitoring method and apparatus
JP5367632B2 (ja) 知識量推定装置及びプログラム
KR101361208B1 (ko) Belief Propagation을 이용한 논문 추천 방법
CN108833315B (zh) 一种信道估计的方法及装置
WO2019161768A1 (zh) 异常流量检测
JP5583164B2 (ja) 専門度推定装置及び方法及びプログラム
CN104063479B (zh) 一种基于社会网络的品牌网络热度计算方法
CN109063261B (zh) 一种动力电池老化趋势的判断方法和装置
CN116611254A (zh) 一种基于反应系数的墙体热阻测定方法、装置及电子设备
WO2018218403A1 (zh) 一种内容推送方法及装置
JP5292336B2 (ja) 検索システムユーザの分野ごとにおける知識量推定装置、知識量推定方法および知識量推定プログラム
JP6203313B2 (ja) 特徴選択装置、特徴選択方法およびプログラム
CN114781837A (zh) 一种基于函数型数据分析的混频数据补值模型的创建方法
JP6466463B2 (ja) 技術試験方法
KR101138873B1 (ko) 인물 db 등록사진 수 축소 방법 및 장치
CN112182638B (zh) 一种基于本地化差分隐私模型的直方图数据发布方法及系统
CN104794547B (zh) 一种基于温度的电力负荷数据长期预测方法
JP2017215869A (ja) 匿名化処理装置、匿名化処理方法、及びプログラム
CN114816838A (zh) 用于提高数据恢复效率的方法、装置、介质及计算机设备

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20131001

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140204

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140618

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140708

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140715

R150 Certificate of patent or registration of utility model

Ref document number: 5583164

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150