JP5180894B2 - 属性表現獲得方法及び装置及びプログラム - Google Patents
属性表現獲得方法及び装置及びプログラム Download PDFInfo
- Publication number
- JP5180894B2 JP5180894B2 JP2009093049A JP2009093049A JP5180894B2 JP 5180894 B2 JP5180894 B2 JP 5180894B2 JP 2009093049 A JP2009093049 A JP 2009093049A JP 2009093049 A JP2009093049 A JP 2009093049A JP 5180894 B2 JP5180894 B2 JP 5180894B2
- Authority
- JP
- Japan
- Prior art keywords
- attribute
- phrase
- search
- information
- attribute expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
入力装置から、属性を獲得する対象となる1つまたは複数の属性抽出対象となる属性抽出対象語句を取得し、抽出対象バッファに格納する属性抽出対象入力ステップ(ステップ1)と、
検索クエリデータベースからユーザの識別情報に基づいて同一のユーザから入力された検索語句の集合を抽出し、同一ユーザによって入力された時間的に連続した先に入力された検索クエリ語句(以下、「先行クエリ情報」と記す)と後に入力された検索クエリ語句(以下、「後続クエリ情報」と記す)からなる2つの検索クエリ情報の組を検索クエリシーケンス情報として抽出して検索シーケンスデータベースに格納する検索シーケンス抽出ステップ(ステップ2)と、
抽出対象バッファに格納されている属性抽出対象語句に基づいて、検索シーケンスデータベースに格納されている検索クエリシーケンス情報の検索クエリ情報に含まれている語句を属性表現候補語句として抽出し、属性候補バッファに格納する属性表現候補抽出ステップ(ステップ3)と、
属性候補バッファに格納されている属性表現候補語句それぞれについて、抽出対象バッファに格納されている属性抽出対象語句の集合のどの語句に対しても偏りなく出現する属性表現候補を、該属性抽出対象語句の集合に共通する属性表現として抽出する属性表現選別ステップ(ステップ4)と、を有し、
属性表現候補抽出ステップ(ステップ3)において、
先行クエリ情報に検索条件が追加された検索クエリシーケンス情報を絞り込み関係にある絞り込み語句の集合として抽出し、該検索クエリシーケンス情報集合の各検索クエリシーケンス情報の先行クエリ情報に追加された該検索条件を含む後続クエリ情報を選択し、該後続クエリ情報から該先行クエリ情報に含まれない語句を属性候補語句情報として抽出する。
検索シーケンスデータベースから読み出された検索シーケンス情報集合のそれぞれに含まれる先行クエリ情報から、属性抽出対象語句以外の語句を共起語句として抽出する共起語句抽出ステップを行い、
属性表現候補抽出ステップにおいて、
共起語句抽出ステップで得られた共起語句の集合と、検索シーケンスデータベースから抽出された絞り込み関係にある絞り込み語句の集合とを比較し、該絞り込み語句の集合中での出現度合いが、該共起語句の集合における出現度合いよりも高い語句を属性表現候補語句として抽出するステップを行う。
共起語句の集合より絞り込み語句の集合中でより多く出現する度合いを表す値Aを、
ある語句が該絞り込み語句の集合に出現する回数を絞り込み語句に出現する全語句の数で割ることによって得られる当該語句の絞り込み語句集合中での第1の出現確率と、当該語句が共起する語句の集合で出現する回数を共起する語句の集合に出現する全語句の数で割ることによって得られる共起する語句の集合中での第2の出現確率との差を算出することによって求め、
得られた値Aが予め定められた閾値以上の場合に属性表現候補語句として抽出するステップを行う。
入力装置300から、属性を獲得する対象となる1つまたは複数の属性抽出対象となる属性抽出対象語句を取得し、抽出対象バッファ131に格納する属性抽出対象入力手段132と、
検索クエリデータベース200からユーザの識別情報に基づいて同一のユーザから入力された検索語句の集合を抽出し、同一ユーザによって入力された時間的に連続した先に入力された検索クエリ語句(以下、「先行クエリ情報」と記す)と後に入力された検索クエリ語句(以下、「後続クエリ情報」と記す)からなる2つの検索クエリ情報の組を検索クエリシーケンス情報として抽出して検索シーケンスデータベース120に格納する検索シーケンス抽出手段110と、
抽出対象バッファ131に格納されている属性抽出対象語句に基づいて、検索シーケンスデータベース120に格納されている検索クエリシーケンス情報の検索クエリ情報に含まれている語句を属性表現候補語句として抽出し、属性候補バッファ141に格納する属性表現候補抽出手段130と、
属性候補バッファ141に格納されている属性表現候補語句それぞれについて、抽出対象バッファに格納されている属性抽出対象語句の集合のどの語句に対しても偏りなく出現する属性表現候補を、該属性抽出対象語句の集合に共通する属性表現として抽出する属性表現選別手段140と、を有し、
属性表現候補抽出手段130は、
先行クエリ情報に検索条件が追加された検索クエリシーケンス情報を絞り込み関係にある絞り込み語句の集合として抽出し、該検索クエリシーケンス情報集合の各検索クエリシーケンス情報の先行クエリ情報に追加された該検索条件を含む後続クエリ情報を選択し、該後続クエリ情報から該先行クエリ情報に含まれない語句を属性候補語句情報として抽出する手段を含む。
属性表現候補抽出手段130は、
共起語句抽出手段で得られた共起語句の集合と、検索シーケンスデータベース120から抽出される絞り込み関係にある絞り込み語句の集合とを比較し、該絞り込み語句の集合中での出現度合いが、該共起語句の集合における出現度合いよりも高い語句を属性表現候補語句として抽出する属性表現候補比較手段を含む。
共起語句の集合より絞り込み語句の集合中でより多く出現する度合いを表す値Aを、
当該語句が該絞り込み語句の集合に出現する回数を絞り込み語句に出現する全語句の数で割ることによって得られる当該語句の絞り込み語句集合中での第1の出現確率と、当該語句が共起する語句の集合で出現する回数を共起する語句の集合に出現する全語句の数で割ることによって得られる共起する語句の集合中での第2の出現確率との差を算出することによって求め、
得られた値Aが予め定められた閾値以上の場合に属性表現候補語句として抽出する手段を含む。
図3は、本発明の第1の実施の形態における属性表現獲得装置の構成を示す。
図11は、本発明の第2の実施の形態における属性表現獲得装置の構成を示す。同図において、図3と同一構成部分には同一符号を付し、その説明を省略する。
110 検索シーケンス抽出手段、検索シーケンス抽出部
120 検索シーケンスデータベース
130 属性表現候補抽出手段、属性表現候補抽出部
131 抽出対象バッファ
132 属性抽出対象入力手段
140 属性表現選別手段、属性表現選別部
141 属性候補バッファ
150 属性表現候補比較抽出部
151 抽出対象バッファ
200 検索クエリデータベース
300 入力装置、属性抽出対象入力装置
400 属性表現出力装置
Claims (7)
- 対象事物に対してその性質や特性を表す属性表現を、検索システムに入力された検索クエリ語句の集合と個々の検索クエリ語句を入力したユーザの識別情報とが蓄積された検索クエリデータベースから獲得するための属性表現獲得方法であって、
入力装置から、属性を獲得する対象となる1つまたは複数の属性抽出対象となる属性抽出対象語句を取得し、抽出対象バッファに格納する属性抽出対象入力ステップと、
前記検索クエリデータベースから前記ユーザの識別情報に基づいて同一のユーザから入力された検索語句の集合を抽出し、同一ユーザによって入力された時間的に連続した先に入力された検索クエリ語句(以下、「先行クエリ情報」と記す)と後に入力された検索クエリ語句(以下、「後続クエリ情報」と記す)からなる2つの検索クエリ情報の組を検索クエリシーケンス情報として抽出して検索シーケンスデータベースに格納する検索シーケンス抽出ステップと、
前記抽出対象バッファに格納されている属性抽出対象語句に基づいて、前記検索シーケンスデータベースに格納されている前記検索クエリシーケンス情報の検索クエリ情報に含まれている語句を属性表現候補語句として抽出し、属性候補バッファに格納する属性表現候補抽出ステップと、
前記属性候補バッファに格納されている前記属性表現候補語句それぞれについて、前記抽出対象バッファに格納されている前記属性抽出対象語句の集合のどの語句に対しても偏りなく出現する属性表現候補を、該属性抽出対象語句の集合に共通する属性表現として抽出する属性表現選別ステップと、を有し、
前記属性表現候補抽出ステップにおいて、
前記先行クエリ情報に検索条件が追加された検索クエリシーケンス情報を絞り込み関係にある絞り込み語句の集合として抽出し、該検索クエリシーケンス情報集合の各検索クエリシーケンス情報の先行クエリ情報に追加された該検索条件を含む後続クエリ情報を選択し、該後続クエリ情報から該先行クエリ情報に含まれない語句を属性候補語句情報として抽出する
ことを特徴とする属性表現獲得方法。 - 前記属性表現候補抽出ステップの前に、
前記検索シーケンスデータベースから読み出された検索シーケンス情報集合のそれぞれに含まれる先行クエリ情報から、前記属性抽出対象語句以外の語句を共起語句として抽出する共起語句抽出ステップを行い、
前記属性表現候補抽出ステップにおいて、
前記共起語句抽出ステップで得られた前記共起語句の集合と、前記検索シーケンスデータベースから抽出された絞り込み関係にある絞り込み語句の集合とを比較し、該絞り込み語句の集合中での出現度合いが、該共起語句の集合における出現度合いよりも高い語句を属性表現候補語句として抽出するステップを行う
請求項1記載の属性表現獲得方法。 - 前記属性表現候補抽出ステップにおいて、
前記共起語句の集合より前記絞り込み語句の集合中でより多く出現する度合いを表す値Aを、
ある語句が該絞り込み語句の集合に出現する回数を絞り込み語句に出現する全語句の数で割ることによって得られる当該語句の絞り込み語句集合中での第1の出現確率と、当該語句が共起する語句の集合で出現する回数を共起する語句の集合に出現する全語句の数で割ることによって得られる共起する語句の集合中での第2の出現確率との差を算出することによって求め、
得られた値Aが予め定められた閾値以上の場合に属性表現候補語句として抽出するステップを行う
請求項2記載の属性表現獲得方法。 - 対象事物に対してその性質や特性を表す属性表現を、検索システムに入力された検索クエリ語句の集合と個々の検索クエリ語句を入力したユーザの識別情報とが蓄積された検索クエリデータベースから獲得するための属性表現獲得装置であって、
入力装置から、属性を獲得する対象となる1つまたは複数の属性抽出対象となる属性抽出対象語句を取得し、抽出対象バッファに格納する属性抽出対象入力手段と、
前記検索クエリデータベースから前記ユーザの識別情報に基づいて同一のユーザから入力された検索語句の集合を抽出し、同一ユーザによって入力された時間的に連続した先に入力された検索クエリ語句(以下、「先行クエリ情報」と記す)と後に入力された検索クエリ語句(以下、「後続クエリ情報」と記す)からなる2つの検索クエリ情報の組を検索クエリシーケンス情報として抽出して検索シーケンスデータベースに格納する検索シーケンス抽出手段と、
前記抽出対象バッファに格納されている属性抽出対象語句に基づいて、前記検索シーケンスデータベースに格納されている前記検索クエリシーケンス情報の検索クエリ情報に含まれている語句を属性表現候補語句として抽出し、属性候補バッファに格納する属性表現候補抽出手段と、
前記属性候補バッファに格納されている前記属性表現候補語句それぞれについて、前記抽出対象バッファに格納されている前記属性抽出対象語句の集合のどの語句に対しても偏りなく出現する属性表現候補を、該属性抽出対象語句の集合に共通する属性表現として抽出する属性表現選別手段と、を有し、
前記属性表現候補抽出手段は、
前記先行クエリ情報に検索条件が追加された検索クエリシーケンス情報を絞り込み関係にある絞り込み語句の集合として抽出し、該検索クエリシーケンス情報集合の各検索クエリシーケンス情報の先行クエリ情報に追加された該検索条件を含む後続クエリ情報を選択し、該後続クエリ情報から該先行クエリ情報に含まれない語句を属性候補語句情報として抽出する手段を含む
ことを特徴とする属性表現獲得装置。 - 前記検索シーケンスデータベースから読み出された検索シーケンス情報集合のそれぞれに含まれる先行クエリ情報から、前記属性抽出対象語句以外の語句を共起語句として抽出する共起語句抽出手段を更に有し、
前記属性表現候補抽出手段は、
前記共起語句抽出手段で得られた前記共起語句の集合と、前記検索シーケンスデータベースから抽出される絞り込み関係にある絞り込み語句の集合とを比較し、該絞り込み語句の集合中での出現度合いが、該共起語句の集合における出現度合いよりも高い語句を属性表現候補語句として抽出する属性表現候補比較手段を含む
請求項4記載の属性表現獲得装置。 - 前記属性表現候補抽出手段は、
前記共起語句の集合より前記絞り込み語句の集合中でより多く出現する度合いを表す値Aを、
当該語句が該絞り込み語句の集合に出現する回数を絞り込み語句に出現する全語句の数で割ることによって得られる当該語句の絞り込み語句集合中での第1の出現確率と、当該語句が共起する語句の集合で出現する回数を共起する語句の集合に出現する全語句の数で割ることによって得られる共起する語句の集合中での第2の出現確率との差を算出することによって求め、
得られた値Aが予め定められた閾値以上の場合に属性表現候補語句として抽出する手段を含む
請求項5記載の属性表現獲得装置。 - 請求項4乃至6の何れか1項記載の属性表現獲得装置を構成する各手段としてコンピュータを機能させるための属性表現獲得プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009093049A JP5180894B2 (ja) | 2009-04-07 | 2009-04-07 | 属性表現獲得方法及び装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009093049A JP5180894B2 (ja) | 2009-04-07 | 2009-04-07 | 属性表現獲得方法及び装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010244341A JP2010244341A (ja) | 2010-10-28 |
JP5180894B2 true JP5180894B2 (ja) | 2013-04-10 |
Family
ID=43097289
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009093049A Expired - Fee Related JP5180894B2 (ja) | 2009-04-07 | 2009-04-07 | 属性表現獲得方法及び装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5180894B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6310509B2 (ja) * | 2016-07-05 | 2018-04-11 | ヤフー株式会社 | 抽出装置、抽出方法および抽出プログラム |
CN108256070B (zh) * | 2018-01-17 | 2022-07-15 | 北京百度网讯科技有限公司 | 用于生成信息的方法和装置 |
CN111460269B (zh) * | 2019-01-18 | 2023-09-01 | 北京字节跳动网络技术有限公司 | 信息推送方法和装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002251402A (ja) * | 2001-02-26 | 2002-09-06 | Mitsubishi Electric Corp | 文書検索方法及び文書検索装置 |
JP2005141449A (ja) * | 2003-11-06 | 2005-06-02 | Nippon Telegr & Teleph Corp <Ntt> | 情報フィルタリング用プロファイル作成装置、情報フィルタリング用プロファイル作成方法および記録媒体 |
-
2009
- 2009-04-07 JP JP2009093049A patent/JP5180894B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010244341A (ja) | 2010-10-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5647508B2 (ja) | ショートテキスト通信のトピックを識別するためのシステムおよび方法 | |
US9201880B2 (en) | Processing a content item with regard to an event and a location | |
US8949227B2 (en) | System and method for matching entities and synonym group organizer used therein | |
US20130110839A1 (en) | Constructing an analysis of a document | |
US10152478B2 (en) | Apparatus, system and method for string disambiguation and entity ranking | |
US8793120B1 (en) | Behavior-driven multilingual stemming | |
CN109271639B (zh) | 热门事件发现方法及装置 | |
KR101429397B1 (ko) | 소셜 네트워크 서비스의 메시지 분석을 이용한 핵심사건 추출 방법 및 시스템 | |
JP2010204866A (ja) | 重要キーワード抽出装置及び方法及びプログラム | |
Bykau et al. | Fine-grained controversy detection in Wikipedia | |
JP5427694B2 (ja) | 関連コンテンツ提示装置及びプログラム | |
JP2006318398A (ja) | ベクトル生成方法及び装置及び情報分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記憶媒体 | |
JP2012008900A (ja) | 関連語句抽出方法、関連語句抽出装置及び関連語句抽出プログラム | |
JP2009122807A (ja) | 連想検索システム | |
JP5180894B2 (ja) | 属性表現獲得方法及び装置及びプログラム | |
US10339559B2 (en) | Associating social comments with individual assets used in a campaign | |
JP2007334590A (ja) | 情報ランキング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP2008117351A (ja) | 検索システム | |
JP5321258B2 (ja) | 情報収集システムおよび情報収集方法ならびにそのプログラム | |
JP2010272006A (ja) | 関係抽出装置、関係抽出方法、及びプログラム | |
JP4938515B2 (ja) | 単語間相関度計算装置および方法、プログラム並びに記録媒体 | |
JP2006293616A (ja) | 文書集約方法及び装置及びプログラム | |
KR101402339B1 (ko) | 문서 관리 시스템 및 문서 관리 방법 | |
JP5739352B2 (ja) | 辞書生成装置、文書ラベル判定システム及びコンピュータプログラム | |
WO2013150633A1 (ja) | 文書処理システム、及び、文書処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110825 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121226 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130108 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130111 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5180894 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |