JP5442401B2 - Behavior information extraction system and extraction method - Google Patents
Behavior information extraction system and extraction method Download PDFInfo
- Publication number
- JP5442401B2 JP5442401B2 JP2009260033A JP2009260033A JP5442401B2 JP 5442401 B2 JP5442401 B2 JP 5442401B2 JP 2009260033 A JP2009260033 A JP 2009260033A JP 2009260033 A JP2009260033 A JP 2009260033A JP 5442401 B2 JP5442401 B2 JP 5442401B2
- Authority
- JP
- Japan
- Prior art keywords
- product
- information
- dictionary
- action
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims description 100
- 238000004458 analytical method Methods 0.000 claims description 86
- 239000000284 extract Substances 0.000 claims description 26
- 238000012545 processing Methods 0.000 claims description 14
- 238000000034 method Methods 0.000 claims description 11
- 230000003542 behavioural effect Effects 0.000 claims description 2
- 230000001737 promoting effect Effects 0.000 claims 1
- 230000006399 behavior Effects 0.000 description 53
- 230000002354 daily effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000004931 aggregating effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012916 structural analysis Methods 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Transfer Between Computers (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、インターネット上に存在するブログやSNS等のWebサイトにアクセスし、消費者の購入商品等についての情報やその他の行動パターンを抽出する行動情報抽出システム及び抽出方法に関する。 The present invention relates to a behavior information extraction system and an extraction method for accessing information on a consumer's purchased products and other behavior patterns by accessing a website such as a blog or SNS existing on the Internet.
現在、例えばテレビやラジオの番組で様々な商品広告が放送されている。しかし、その商品広告が本当に消費者の行動パターンに影響を与え、商品の購入に結びついているのかを調べる有効な方法がなく、例えば商品アンケートを行ったとしても、手間がかかる上データ数としても限りがある。そのため、番組制作者は、現在放送中の番組に似たタイプの新しい番組を制作したいと思っても、どのような企業や団体等に提案すれば興味を引くことができるのか分からない。また、一般の企業や団体等も、どのようなテレビ番組等で商品広告を行えば売り上げの向上が期待できるのか精度よく予想することができなかった。 Currently, various product advertisements are broadcast on TV and radio programs, for example. However, there is no effective way to investigate whether the product advertisement really affects the consumer behavior pattern and leads to the purchase of the product. For example, even if a product questionnaire is conducted, it takes time and data There is a limit. Therefore, even if a program producer wants to produce a new program of a type similar to the program currently being broadcast, he / she does not know what kind of company or organization can make it interesting. In addition, general companies and organizations have not been able to predict with high accuracy what kind of television program or the like can be used to improve sales.
これらの問題は、テレビ等の放送媒体を用いた商品広告に限らず、各種施設に設置される看板による商品広告、旅行のパンフレットやコンサートのチラシ等に載せる商品広告等においても同様に生じる問題であった。この問題に対して、インターネット上の種々のWebサイトに開示されている膨大な記事を分析することができれば、例えば消費者が購入した商品等と商品広告との関連性を示す情報やデータを抽出することが可能となると考えられる。 These problems are not limited to product advertisements using broadcasting media such as televisions, but also occur in product advertisements using signboards installed in various facilities, product advertisements placed on travel brochures, concert flyers, etc. there were. If it is possible to analyze an enormous number of articles disclosed on various websites on the Internet for this problem, for example, information and data indicating the relationship between the product purchased by the consumer and the product advertisement are extracted. It will be possible to do this.
しかし、消費者の日々の身の回りの出来事が記載されたブログやSNSに代表される消費者記事は、一般に、文章を書くことに慣れていない人達によって書かれ、また、口語体で書かれている場合が多いので、従来のキーワード抽出や係り受け解析を行う方法では、消費者の購入商品等の行動パターンを精度よく抽出することができない。また、文章に明記された事柄以外の具体的な行動に関する情報を得ることができないという問題がある。 However, consumer articles such as blogs and SNSs that describe everyday events of consumers are generally written by people who are not accustomed to writing and are spoken. For this reason, the conventional method of performing keyword extraction and dependency analysis cannot accurately extract behavior patterns such as consumer purchases. In addition, there is a problem that it is not possible to obtain information on specific actions other than those specified in the text.
一方、口語体のように比較的曖昧な文章を解析し、その文章を書いた人が主張している意見や意図を精度よく抽出しようとする装置や方法も提案されている。例えば、特許文献1に開示されているように、あらかじめ意見の構造のモデルを設定し、入力されたテキスト文章をそのモデルに当てはめることによって、対象物や、対象物に対する評価の着眼点、対象物の性質、肯定・否定・中立の評価の4要素を含む部分テキストを検出する意見抽出装置がある。特に、この意見抽出装置は、上記4要素のうちの対象物を除く3要素を抽出するとき、該当する部分テキスト文章が曖昧に表現されていても、その意味を推定する推定手段を用いることによって、その人の意見を精度よく抽出することができる。
On the other hand, an apparatus and a method for analyzing relatively ambiguous sentences such as colloquial styles and extracting the opinions and intentions claimed by the person who wrote the sentences have been proposed. For example, as disclosed in
上述したように、従来、インターネット上の種々のWebサイトに開示されている記事から、消費者の購買行動やその他の消費者行動と商品等の広告との関連性を示す情報やデータを精度よく抽出する方法はなかった。 As described above, information and data indicating the relevance of consumer purchase behavior and other consumer behavior to advertisements such as products are accurately obtained from articles conventionally disclosed on various websites on the Internet. There was no way to extract.
また、特許文献1の意見抽出装置又は方法は、テキスト文章の作成者が対象物の性質をどのように評価しているのかを抽出することができるが、例えば、対象物が「本」「小説」「推理小説」や具体的な商品名といった異なる階層概念で表現されたときに、その対象物自体を正確に特定したり、各対象物を所定の商品カテゴリ別に分類することができない。従って、消費者の商品購買行動等と商品等の広告との関連性を示す統計情報を得ようとする用途には適さないものであった。
Moreover, although the opinion extraction apparatus or method of
この発明は、上記背景技術に鑑みて成されたもので、インターネット上の種々のWebサイトに開示された記事を検索し、特定の商品の広告媒体等にアクセスした消費者行動に関する情報を、様々な統計処理に対応可能な形で精度よく抽出することができる行動情報抽出システム及び抽出方法を提供することを目的とする。 The present invention has been made in view of the above-described background art, and searches for articles disclosed on various websites on the Internet, and various types of information related to consumer behavior when accessing an advertising medium or the like of a specific product. It is an object of the present invention to provide a behavior information extraction system and an extraction method that can be accurately extracted in a form that can cope with various statistical processes.
この発明は、コンピュータシステムにより構成され、消費者により日々の身の回りの出来事が書かれた消費者記事が開示されているインターネット上のWebサイトにアクセスし、検索ユーザが入力した検索キーワードに基づいて検索処理を行い、収集した消費者記事の中から、当該検索キーワードに適合する消費者の行動に関する情報を抽出し、出力する行動情報抽出システムであって、前記Webサイトにアクセスし前記消費者記事を収集する消費者記事収集手段を有する情報収集装置と、検索ユーザが検索キーワードを入力する入力手段と、検索処理の結果得られた消費者の行動に関する情報を所定の形式で出力する出力手段とを有する入出力端末と、前記消費者記事収集手段が収集した消費者記事毎に文章を解析し、当該文章中に前記検索キーワードを含んだ消費者記事を関連記事として抽出する検索手段と、前記関連記事から、当該記事の文章中に宣伝用語句を含む割合が低いものを解析対象記事として抽出する絞込手段とが設けられた解析対象記事抽出手段と、前記解析対象記事毎に文章を解析し、消費者が何らかの行動をするときの行動情報を表す文章部分から、消費者行動の行動対象を示す名詞である行動対象情報と、当該行動対象に関連する事柄を示す名詞である付属情報とを抽出する行動対象・付属情報抽出手段と、前記行動の行動対象を示す名詞と、当該名詞に関連する行動対象を示す名詞とが階層構造に定義された属性に互いに対応付けて登録されて成る行動対象辞書と、前記行動の行動対象を示す名詞と、当該名詞から連想される連想概念を示す名詞とが、階層構造に定義された属性に互いに対応付けて登録されて成る概念辞書と、前記解析対象記事毎に前記行動対象辞書又は前記概念辞書を参照し、前記行動対象・付属情報抽出手段が抽出した前記行動対象情報及び前記付属情報に対応する属性を抽出して組み合わせることによって、当該行動対象情報に該当する行動対象と行動を具体的に特定した特定情報を生成するとともに、上記の一連の処理内容を前記入出力端末の前記出力手段に送る行動対象情報特定手段とを備えた行動情報抽出システムである。 The present invention accesses a website on the Internet that is constituted by a computer system and discloses consumer articles in which daily events are written by consumers, and performs a search based on a search keyword entered by a search user. A behavior information extraction system that performs processing, extracts information related to consumer behavior that matches the search keyword from the collected consumer articles, and outputs the information, and accesses the website to retrieve the consumer articles. An information collecting device having a consumer article collecting means for collecting; an input means for a search user to input a search keyword; and an output means for outputting information on consumer behavior obtained as a result of the search processing in a predetermined format. Analyzing sentences for each consumer article collected by the input / output terminal and the consumer article collection means, Search means for extracting a consumer article including a search keyword as a related article, and a narrowing means for extracting, from the related article, an article having a low ratio of including an advertising phrase in the sentence of the article as an analysis target article An analysis target article extraction means provided and an action which is a noun indicating an action target of consumer behavior from a sentence portion representing behavior information when the consumer performs some action by analyzing a sentence for each analysis target article Action object / attachment information extraction means for extracting object information and attached information that is a noun indicating a matter related to the action object, a noun indicating the action object of the action, and an action object related to the noun and is the action target dictionary formed by registering in association with each other attributes defined in a hierarchical structure nouns, nouns indicating an action target of the action, the noun indicating an associative concepts association from the noun A concept dictionary that is registered in association with attributes defined in a hierarchical structure and the action target dictionary or the concept dictionary for each analysis target article, and extracted by the action target / attached information extraction unit By extracting and combining attributes corresponding to the action target information and the attached information, specific information that specifically identifies the action target and action corresponding to the action target information is generated, and the series of processing contents described above Is an action information extraction system comprising action target information specifying means for sending to the output means of the input / output terminal.
前記行動対象情報特定手段には、行動名と当該行動を示す名詞及び当該名詞に関連する行動を示す名詞とが、階層構造に定義された属性に互いに対応付けて登録されて成る行動辞書が参照可能に設けられ、前記行動対象情報特定手段は前記行動辞書を参照して、前記行動対象辞書の中の行動対象である名詞を選択するものである。 The action target information specifying means refers to an action dictionary in which an action name, a noun indicating the action, and a noun indicating an action related to the noun are registered in association with attributes defined in the hierarchical structure. The action target information specifying means refers to the action dictionary and selects a noun that is an action target in the action target dictionary.
さらに、消費者が行動するときの行動パターンを表す雛型文章が複数設定された行動パターンテンプレートを備え、前記行動対象・付属情報抽出手段は、前記解析対象記事の文章に対して、前記行動パターンテンプレートを参照していずれかの前記雛型文章に当てはまる文章を抽出し、抽出した文章の特定部分から前記行動対象情報及び付属情報に該当する名詞を抽出するものである。 Furthermore, a behavior pattern template in which a plurality of template sentences representing behavior patterns when a consumer acts is set, and the behavior target / attached information extraction unit performs the behavior pattern on the analysis target article text. A template that refers to any template text is extracted with reference to a template, and nouns corresponding to the action target information and attached information are extracted from a specific portion of the extracted text.
またこの発明は、前記解析対象記事毎に文章を解析し、消費者が商品を購入するときの行動を表す文章部分から、消費者が購入した商品自体を示す名詞である商品情報と、当該商品に関連する事柄を示す名詞である付属情報とを抽出する商品・付属情報抽出手段と、市販されている商品の商品名と、当該商品を示す名詞及び当該名詞から連想される商品を示す名詞とが階層構造に定義された属性に互いに対応付けて登録されて成る商品辞書と、商品概念を示す名詞と、当該名詞から連想される商品概念を示す名詞とが、階層構造に定義された属性に互いに対応付けて登録されて成る概念辞書と、前記解析対象記事毎に前記概念辞書又は前記商品辞書を参照し、前記商品・付属情報抽出手段が抽出した前記商品情報及び前記付属情報に対応する属性を抽出して組み合わせることによって当該商品情報に該当する商品を具体的に特定した特定商品情報を生成するとともに、上記の一連の処理内容を前記入出力端末の前記出力手段に送る商品情報特定手段とを備えた行動情報抽出システムである。 The invention also analyzes product text for each article to be analyzed, product information that is a noun indicating the product itself purchased by the consumer from the text part representing the behavior when the consumer purchases the product, and the product Product / attachment information extraction means for extracting attached information that is a noun indicating a matter related to the product, the name of the product on the market, the noun indicating the product, and the noun indicating the product associated with the noun Are defined as attributes defined in the hierarchical structure, a product dictionary that is registered in association with attributes defined in the hierarchical structure, a noun indicating a product concept, and a noun indicating a product concept associated with the noun. Corresponding to the product information and the accessory information extracted by the product / attachment information extraction means by referring to the concept dictionary registered in association with each other and the concept dictionary or the product dictionary for each analysis target article Product information specifying means for generating specific product information that specifically specifies the product corresponding to the product information by extracting and combining the characteristics, and sending the series of processing contents to the output means of the input / output terminal It is an action information extraction system provided with.
宣伝用の語句や文字であるスパムワードが定義されたスパムワード辞書を備え、前記解析対象記事抽出手段の前記絞込手段は、前記関連記事毎に当該記事の文章の総単語数とスパムワードに該当する単語数との比である占有率を算出し、その占有率が基準値以下の関連記事を解析対象記事として抽出するものである。 A spam word dictionary in which spam words that are words and characters for advertisement are defined is defined, and the narrowing down means of the analysis target article extracting means includes the total number of words of the article and the spam word for each related article. An occupancy ratio that is a ratio to the number of corresponding words is calculated, and related articles whose occupancy ratio is equal to or less than a reference value are extracted as analysis target articles.
前記絞込手段には、前記関連記事の総単語数に応じて、総単語数が相対的に少ない場合は相対的に小さい基準値が設定されているものである。 In the narrowing-down means, a relatively small reference value is set in accordance with the total number of words of the related article when the total number of words is relatively small.
また、消費者が商品を購入するときの行動パターンを表す雛型文章が複数設定された購入パターンテンプレートを備え、前記商品・付属情報抽出手段は、前記解析対象記事の文章に対して、前記購入パターンテンプレートを参照していずれかの前記雛型文章に当てはまる文章を抽出し、抽出した文章の特定部分から前記商品情報及び前記付属情報に該当する名詞を抽出するものである。 In addition, a purchase pattern template in which a plurality of template texts representing behavior patterns when a consumer purchases a product is set is provided, and the product / attached information extraction unit is configured to purchase the purchase text for the analysis target article text. By referring to a pattern template, a sentence applicable to any of the template sentences is extracted, and nouns corresponding to the product information and the attached information are extracted from a specific portion of the extracted sentence.
前記商品情報特定手段は、前記商品辞書を参照し、前記解析対象記事の前記商品情報と一致するものが商品名の属性として登録されているときは、当該商品名の属性に関連付けて登録された他の属性群を抽出して組み合わせることによって前記特定商品情報を生成し、当該商品情報と一致するものが前記商品辞書の商品名の属性に登録されていないときは、前記概念辞書を参照し、前記商品情報及び前記付属情報と一致する属性及び当該属性に関連付けて登録された他の属性群を抽出して組み合わせることによって前記特定商品情報を生成するものである。 The product information specifying means refers to the product dictionary, and when a product that matches the product information of the analysis target article is registered as a product name attribute, the product information specifying unit is registered in association with the product name attribute. The specific product information is generated by extracting and combining other attribute groups, and when the product information that matches the product information is not registered in the product name attribute of the product dictionary, refer to the concept dictionary, The specific merchandise information is generated by extracting and combining attributes matching the merchandise information and the attached information and other attribute groups registered in association with the attributes.
前記概念辞書は、様々な商品に関する事柄を示す名詞と、当該名詞から連想される商品に関する事柄を示す名詞とが、階層構造に定義された属性に互いに対応付けて登録されて成る連想概念辞書と、様々な商品を示す名詞と当該名詞から連想される商品を示す名詞とが、階層構造に定義された属性に互いに対応付けて登録されて成る商品分類概念辞書とで構成され、前記商品情報特定手段は、前記連想概念辞書を参照し、前記解析対象記事の前記付属情報と一致する属性及び当該属性に関連付けて登録された他の属性を付属属性群として抽出し、前記商品分類概念辞書を参照し、前記解析対象記事の前記商品情報と一致する属性及び当該属性に関連付けて登録された他の属性を商品属性群として抽出し、前記付属属性群と前記商品属性群とに共通して存在する属性があるときは、その属性を商品特定属性群として抽出し、当該商品特定属性を組み合わせることによって前記特定商品情報を生成し、前記付属属性群と前記商品属性群に共通して存在する属性がないときは、当該商品情報をそのまま前記特定商品情報とするものである。 The concept dictionary is an associative concept dictionary in which nouns indicating matters related to various products and nouns indicating matters related to products associated with the nouns are registered in association with attributes defined in the hierarchical structure. A product classification concept dictionary in which nouns indicating various products and nouns indicating products associated with the nouns are registered in association with attributes defined in the hierarchical structure, and the product information specifying The means refers to the associative concept dictionary, extracts attributes that match the attached information of the analysis target article and other attributes registered in association with the attributes as attached attribute groups, and refers to the product classification concept dictionary Then, an attribute that matches the product information of the article to be analyzed and other attributes registered in association with the attribute are extracted as a product attribute group, and the attached attribute group and the product attribute group are extracted. When there is an attribute that exists throughout, the attribute is extracted as a product specific attribute group, the specific product information is generated by combining the product specific attributes, and is common to the attached attribute group and the product attribute group when there is no attributes present, it is an intact the specific product information the product information.
また、前記情報収集装置は、インターネット上の通信販売サイトにアクセスし、個々の通信販売サイトの階層構造を解析するサイト構造解析手段と、当該階層構造の最下層のページを解析する最下層ページ解析手段と、前記サイト構造解析手段及び前記最下層ページ解析手段で解析した情報を前記商品辞書に登録する商品辞書登録手段とで成る通信販売情報収集手段を備え、前記サイト構造解析手段は、前記階層毎のメニュー部分に表示されるHTMLデータを取得及び分析することによって、階層構造及び階層毎に付与された商品カテゴリを認識し、前記最下層ページ解析手段は、前記最下層のページの本文部分に表示される商品一覧のHTMLデータを取得及び分析することによって開示されている商品の商品名を抽出し、前記商品辞書登録手段は、前記最下層ページ解析手段が抽出した商品名及びサイト構造解析手段が認識した当該商品名に関連する前記商品カテゴリを、前記商品辞書に定義された属性に互いに対応付けて登録し、前記商品辞書の属性として定義されていない新たな商品カテゴリがあるときは、前記商品辞書に新たな属性を定義した後、当該新たな属性に前記新たな商品カテゴリを登録する行動情報抽出システムである。 In addition, the information collection device accesses a mail order site on the Internet, analyzes the hierarchical structure of each mail order site, and analyzes the lowest layer page for analyzing the bottom page of the hierarchical structure. And a mail order information collecting means comprising a product dictionary registration means for registering information analyzed by the site structure analysis means and the lowest layer page analysis means in the product dictionary, and the site structure analysis means comprises the hierarchy By acquiring and analyzing the HTML data displayed in each menu part, the hierarchical category and the product category assigned to each hierarchy are recognized, and the lowermost layer page analysis means adds to the body part of the lowermost page. The product name of the product disclosed by extracting and analyzing HTML data of the displayed product list is extracted, and the product dictionary Recording means, wherein the product category associated with the trade name of trade name and site structure analyzing means for the lowermost page analysis means has extracted recognizes, and registered in association with each other in the attributes defined in the product dictionary, When there is a new product category that is not defined as an attribute of the product dictionary, the behavior information extraction system registers the new product category in the new attribute after defining the new attribute in the product dictionary. .
またこの発明は、消費者により日々の身の回りの出来事が書かれた消費者記事が開示されているインターネット上のWebサイトにアクセスし、検索ユーザが入力した検索キーワードに基づいて検索処理を行い、検索した消費者記事の中から、当該検索キーワードに適合する消費者の行動に関する情報を抽出する行動情報抽出方法であって、前記検索ユーザが検索キーワードを入力することにより、前記Webサイトの消費者記事の中から前記検索キーワードを含んだ消費者記事を関連記事として抽出する検索ステップと、前記関連記事から、当該記事の文章中に宣伝用語句を含む割合が低いものを解析対象記事として抽出する絞り込みステップと、前記解析対象記事毎に文章を解析し、消費者が何らかの行動をするときの行動情報を表す文章部分から、消費者行動の行動対象を示す名詞である行動対象情報と、当該行動対象に関連する事柄を示す名詞である付属情報とを抽出する行動対象・付属情報抽出ステップと、前記行動対象・付属情報抽出ステップにより抽出した前記行動対象情報及び前記付属情報に対応する属性を抽出して組み合わせることによって、当該行動対象情報に該当する行動対象と行動を具体的に特定して特定行動対象情報を生成する行動対象情報特定ステップとを備えた行動情報抽出方法である。 In addition, the present invention accesses a Web site on the Internet where a consumer article in which a daily life event is written by a consumer is disclosed, performs a search process based on a search keyword input by a search user, and performs a search. A behavior information extracting method for extracting information related to consumer behavior that matches the search keyword from the consumer articles, wherein the search user inputs a search keyword, so that the consumer article on the Web site A search step for extracting a consumer article including the search keyword from among the related articles, and a narrowing down of extracting the articles having a low proportion of advertisement terms from the related articles as sentences to be analyzed Steps and sentences that analyze the sentence for each of the articles to be analyzed and represent behavior information when the consumer takes some action An action object / attachment information extracting step for extracting action object information, which is a noun indicating an action object of consumer behavior, and attached information, which is a noun indicating a matter related to the action object, from the portion; By extracting and combining the action target information extracted in the attached information extraction step and the attribute corresponding to the attached information, the action target corresponding to the action target information and the action are specifically identified, and the specific action target information is obtained. A behavior information extraction method comprising a behavior target information identification step to be generated.
前記行動対象情報特定ステップは、行動名と当該行動を示す名詞及び当該名詞に関連する行動を示す名詞とが、階層構造に定義された属性に互いに対応付けて登録されて成る行動辞書を参照して、前記行動対象辞書の中の行動対象である名詞を選択するものである。 The action target information specifying step refers to an action dictionary in which an action name, a noun indicating the action, and a noun indicating an action related to the noun are registered in association with attributes defined in the hierarchical structure. The noun that is the action target in the action target dictionary is selected.
前記行動対象・付属情報抽出ステップは、消費者が行動するときの行動パターンを表す雛型文章が複数設定された行動パターンテンプレートを参照して、前記解析対象記事の文章に対して、いずれかの前記雛型文章に当てはまる文章を抽出し、抽出した文章の特定部分から前記行動対象情報及び付属情報に該当する名詞を抽出するものである。 The action target / attached information extraction step refers to an action pattern template in which a plurality of template sentences representing action patterns when a consumer behaves is set, A sentence applicable to the template sentence is extracted, and nouns corresponding to the action target information and the attached information are extracted from a specific portion of the extracted sentence.
またこの発明は、前記解析対象記事毎に文章を解析し、消費者が商品を購入するときの行動を表す文章部分から、消費者が購入した商品自体を示す名詞である商品情報と、当該商品に関連する事柄を示す名詞である付属情報とを抽出する商品・付属情報抽出ステップと、商品概念を示す名詞と、当該名詞から連想される商品概念を示す名詞とが、階層構造に定義された属性に互いに対応付けて登録されて成る概念辞書と、市販されている商品の商品名と、当該商品を示す名詞及び当該名詞から連想される商品概念を示す名詞とが階層構造に定義された属性に互いに対応付けて登録されて成る商品辞書とを参照し、前記商品・付属情報抽出ステップにおいて抽出した前記商品情報及び前記付属情報に対応する属性を抽出して組み合わせることによって、当該商品情報に該当する商品を具体的に特定する商品情報特定ステップとを備えた行動情報抽出方法である。 The invention also analyzes product text for each article to be analyzed, product information that is a noun indicating the product itself purchased by the consumer from the text part representing the behavior when the consumer purchases the product, and the product The product / attachment information extraction step for extracting adjunct information, which is a noun indicating matters related to the product, the noun indicating the product concept, and the noun indicating the product concept associated with the noun are defined in a hierarchical structure An attribute in which a concept dictionary that is registered in association with attributes, a product name of a commercially available product, a noun indicating the product and a noun indicating a product concept associated with the noun are defined in a hierarchical structure To extract and combine the product information extracted in the product / attachment information extraction step and the attribute corresponding to the accessory information. What is behavioral information extraction method and a commodity information specifying step of specifically identifying the product corresponding to the product information.
前記絞り込みステップは、前記絞り込み宣伝用の語句や文字であるスパムワードが定義されたスパムワード辞書を参照し、前記関連記事毎に当該記事の文章の総単語数とスパムワードに該当する単語数との比である占有率を算出し、その占有率が基準値以下の関連記事を解析対象記事として抽出するものである。 The narrowing-down step refers to a spam word dictionary in which spam words that are words and characters for narrowing advertisement are defined, and for each related article, the total number of words of the article and the number of words corresponding to the spam word, Occupancy ratio, which is the ratio of, and related articles whose occupancy ratio is below a reference value are extracted as analysis target articles.
前記絞り込みステップは、前記関連記事の総単語数に応じて、総単語数が少ない場合は相対的に小さい基準値を用いて判定を行うものである。 In the narrowing-down step, when the total number of words is small, determination is performed using a relatively small reference value according to the total number of words in the related article.
前記商品・付属情報抽出ステップは、消費者が商品を購入するときの購入パターンを表す雛型文章を参照し、前記解析対象記事から、いずれかの前記雛型文章に当てはまる文章を抽出し、抽出した文章の特定部分から前記商品情報及び前記付属情報に該当する名詞を抽出するものである。 The product / attachment information extraction step refers to a template text representing a purchase pattern when a consumer purchases a product, extracts a text that applies to any of the template texts from the analysis target article, and extracts The noun corresponding to the product information and the attached information is extracted from a specific part of the sentence.
また、前記商品情報特定ステップは、前記商品辞書を参照し、前記解析対象記事の前記商品情報と一致するものが商品名の属性として登録されているときは、当該商品名の属性に関連付けて登録された他の属性群を抽出して組み合わせることによって、当該商品情報に該当する商品を具体的に特定した特定商品情報を生成し、当該商品情報と一致するものが前記商品辞書の商品名の属性に登録されていないときは、前記概念辞書を参照し、前記商品情報及び前記付属情報と一致する属性及び当該属性に関連付けて登録された他の属性群を抽出して組み合わせることによって前記特定商品情報を生成するものである。 Further, the product information specifying step refers to the product dictionary, and when a product that matches the product information of the analysis target article is registered as a product name attribute, the product information specifying step is registered in association with the product name attribute. Specific product information that specifically identifies the product corresponding to the product information is generated by extracting and combining the other attribute groups, and the product name attribute in the product dictionary matches the product information When not registered in the concept dictionary, the specific product information is obtained by extracting and combining the attribute matching the product information and the attached information and other attribute groups registered in association with the attribute with reference to the concept dictionary Is generated.
また、前記概念辞書は、様々な商品に関する事柄を示す名詞と、当該名詞から連想される商品に関する事柄を示す名詞とが、階層構造に定義された属性に互いに対応付けて登録されて成る連想概念辞書と、様々な商品を示す名詞と当該名詞から連想される商品を示す名詞とが、階層構造に定義された属性に互いに対応付けて登録されて成る商品分類概念辞書とで構成され、前記商品情報特定ステップは、前記連想概念辞書を参照し、前記解析対象記事の前記付属情報と一致する属性及び当該属性に関連付けて登録された他の属性を付属属性群として抽出し、前記商品分類概念辞書を参照し、前記解析対象記事の前記商品情報と一致する属性及び当該属性に関連付けて登録された他の属性を商品属性群として抽出し、前記付属属性群と前記商品属性群とに共通して存在する属性があるときは、その属性を商品特定属性群として抽出し、当該商品特定属性を組み合わせることによって前記特定商品情報を生成し、前記付属属性群と前記商品属性群に共通して存在する属性がないときは、当該商品情報をそのまま前記特定商品情報とするものである。 In addition, the concept dictionary is an associative concept in which nouns indicating matters relating to various products and nouns indicating matters relating to products associated with the nouns are registered in association with attributes defined in the hierarchical structure. The product includes a dictionary and a product classification concept dictionary in which nouns indicating various products and nouns indicating products associated with the nouns are registered in association with attributes defined in a hierarchical structure. The information specifying step refers to the associative concept dictionary, extracts attributes corresponding to the attached information of the analysis target article and other attributes registered in association with the attributes as attached attribute groups, and the product classification concept dictionary , The attribute that matches the product information of the article to be analyzed and other attributes registered in association with the attribute are extracted as a product attribute group, and the attached attribute group and the product When there is an attribute that exists in common with the sex group, the attribute is extracted as a product specific attribute group, the specific product information is generated by combining the product specific attributes, and the attached attribute group and the product attribute when there is no attribute that is present commonly in the group are those as the specific product information the product information.
また、インターネット上の通信販売サイトにアクセスし、個々の通信販売サイトの階層構造を解析するサイト構造解析ステップと、当該階層構造の最下層のページを解析する最下層ページ解析ステップと、前記サイト構造解析ステップ及び前記最下層ページ解析ステップで解析した情報を前記商品辞書に登録する商品辞書登録ステップとで構成され、前記検索ステップを行う前にあらかじめ実施される通信販売情報収集ステップを備え、前記サイト構造解析ステップは、前記各階層毎のメニュー部分に表示されるHTMLデータを取得及び分析することによって、階層構造及び各階層毎に付与された商品カテゴリを認識し、前記最下層ページ解析ステップは、前記最下層のページの本文部分に表示される商品一覧のHTMLデータを取得及び分析することによって開示されている商品の商品名を抽出し、前記商品辞書登録ステップは、前記最下層ページ解析ステップが抽出した商品名及びサイト構造解析ステップが認識した当該商品名に関連する前記商品カテゴリを、前記商品辞書に定義された属性に互いに対応付けて登録し、前記商品辞書の属性として定義されていない新たな商品カテゴリがあるときは、前記商品辞書に新たな属性を定義した後、当該新たな属性に前記新たな商品カテゴリを登録する行動情報抽出方法である。 A site structure analyzing step of accessing a mail order site on the Internet and analyzing a hierarchical structure of each mail order site; a bottom layer page analyzing step of analyzing a bottom layer page of the hierarchical structure; and the site structure A product dictionary registration step for registering the information analyzed in the analysis step and the lowermost layer page analysis step in the product dictionary, and comprising a mail order information collection step performed in advance before the search step, The structural analysis step recognizes the hierarchical structure and the product category assigned to each tier by acquiring and analyzing the HTML data displayed in the menu portion for each tier, and the bottom layer page analyzing step includes: Acquire HTML data of a list of products displayed in the body part of the lowermost page and The product was extracted trade name of the product disclosed by analysis, the product dictionary registering step associated with the product name the product name and site structure analysis step of the lowermost page analysis step is extracted recognizes Categories are registered in association with attributes defined in the product dictionary, and when there is a new product category that is not defined as an attribute of the product dictionary, after defining a new attribute in the product dictionary, This is a behavior information extraction method for registering the new product category in the new attribute.
この発明の行動情報抽出システム及び抽出方法は、例えばテレビ番組の視聴者等のように、特定の商品等の広告媒体にアクセスした消費者の購買行動やその他の行動についての情報を、自動的に精度よく抽出することができる。そして、この発明の行動情報抽出システム及び抽出方法で得られた統計情報を分析することによって、例えば、広告媒体の制作者等は、スポンサーとして適した企業や業界を容易に知ることができる。また、スポンサーとなる企業等にとっても、消費者に対する宣伝効果が大きい広告媒体を容易に知ることができ、非常に便利である。 The behavior information extraction system and the extraction method according to the present invention automatically acquire information on purchasing behavior and other behaviors of consumers who have accessed an advertising medium such as a specific product such as a viewer of a television program. It can be extracted with high accuracy. Then, by analyzing the statistical information obtained by the behavior information extraction system and the extraction method of the present invention, for example, the creator of the advertising medium can easily know companies and industries suitable as sponsors. In addition, it is very convenient for a sponsoring company or the like to easily know an advertising medium having a large advertising effect on consumers.
特に、消費者の購入商品を、商品の特徴を階層化して定義した商品辞書及び概念辞書を用いて解析することにより、記事毎に抽出した個別の情報を、例えば「本」「小説」「推理小説」というように任意の階層概念で分類することができる。従って、個別の情報を様々な態様に集計することによって、検索ユーザの目的に合った統計情報を自在に得ることができる。 In particular, by analyzing consumer purchases using product and concept dictionaries that define product features in a hierarchical manner, individual information extracted for each article can be converted into, for example, “books”, “novels”, “inferences”. It can be classified by an arbitrary hierarchical concept such as “novel”. Therefore, statistical information suitable for the purpose of the search user can be obtained freely by aggregating individual information in various modes.
また、市販されている具体的な商品に関する情報が、適切な属性を付与して商品辞書に登録されているので、消費者記事から抽出した商品情報が商品名であっても、容易に購入商品を特定することができる。 In addition, since information about specific products on the market is registered in the product dictionary with appropriate attributes, even if the product information extracted from the consumer article is the product name, it is easy to purchase products. Can be specified.
さらに、日々増加する新商品等の情報についても、インターネット通信販売のサイトから定期的に情報を取得し、自動的に商品辞書等に登録することができるので、市場の動向や流行の変化に十分に対応した調査を行うことができる。 In addition, information on new products that increase daily can be obtained periodically from Internet mail order sites and automatically registered in product dictionaries, etc., which is sufficient for changes in market trends and trends. Surveys corresponding to can be conducted.
以下、本発明の行動情報抽出システムの一実施形態について、図面に基づいて説明する。この実施形態の行動情報抽出システムは、消費者による商品の購入という行動についての情報を抽出するものである。この実施形態の購入商品情報抽出システム10は、コンピュータシステムにより構成され、特定のテレビ番組を視聴した一般消費者が購入した商品又は購入しようとしている商品(購入商品)についての情報を抽出するシステムである。
Hereinafter, an embodiment of the behavior information extraction system of the present invention will be described with reference to the drawings. The behavior information extraction system of this embodiment extracts information about the behavior of purchasing a product by a consumer. The purchased product
購入商品情報抽出システム10は、図1に示すように、インターネット上に開示された種々のWebサイトを検索して、情報を収集する対象となる所定種類のWebサイトについて、文書情報を含む消費者記事を収集する消費者記事収集手段12を有する情報収集装置16を備えている。また、検索ユーザが操作する入出力端末18と、検索ユーザが入力した検索キーワードに基づき、消費者記事収集手段12が収集した消費者記事の中から、解析の対象とする記事を抽出する解析対象記事抽出手段20を備えている。また、特定の解析対象記事の文章から購入商品を特定するための情報を抽出する商品・付属情報抽出手段22と、商品・付属情報抽出手段22が抽出した情報に基づいて購入商品を特定する商品情報特定手段24を備えている。さらに、上記の各手段が所定の処理を行うときに使用するスパムワード辞書26、購入パターンテンプレート28、商品辞書30、概念辞書32を備えている。
As shown in FIG. 1, the purchased product
消費者記事収集手段12は、消費者が日々の身の回りの出来事を開示した消費者記事を収集する。消費者記事の収集は、検索ユーザが入出力端末18を操作したタイミングで行ってもよいが、検索ユーザの検索時間を短縮するため、あらかじめシステム管理者が定期的に収集して情報収集装置16に蓄積しておくことが好ましい。
The consumer article collection means 12 collects consumer articles in which consumers disclose daily events around them. The collection of consumer articles may be performed at the timing when the search user operates the input /
入出力端末18は、検索ユーザが検索キーワードを入力する入力手段18aと、検索結果である購入商品についての情報を出力する出力手段18bで構成されている。ここでは、検索キーワードは、特定のテレビ番組名である。
The input /
解析対象記事抽出手段20は、消費者記事収集手段12にアクセスし、入力手段18aに入力された検索キーワードに該当する関連記事を抽出する検索手段20aと、関連記事から販売者が書いたと思われる記事を除いた解析対象記事を抽出する絞込手段20bを備えている。この絞込手段20bが記事を絞り込むときは、商品の販売者が宣伝用の語句として使用する語句がスパムワードとして定義されたスパムワード辞書26を参照する。そして、関連記事の文章全体に占める宣伝用語句の比率が高い記事を除外し、消費者が書いたと思われる記事のみを抽出することによって、解析の対象とする記事を抽出する。
The analysis target article extraction means 20 accesses the consumer article collection means 12 and the search means 20a for extracting the related articles corresponding to the search keyword input to the input means 18a, and the seller seems to have written from the related articles. A narrowing means 20b for extracting analysis target articles excluding articles is provided. When the narrowing-down means 20b narrows down articles, the
商品・付属情報抽出手段22は、各解析対象記事を、消費者が商品を購入するときの行動パターンを表す雛型文章が複数設定された購入パターンテンプレート28に当てはめ、いずれかの雛型文章に当てはまる文章を抽出し、抽出した文章の特定部分から商品情報及び付属情報に該当する名詞を抽出する。
The product / attached
商品辞書30は、市販されている様々な商品の商品名と、その商品を示す名詞及びその名詞から連想される商品を示す名詞とが、ツリー状の階層構造に定義された属性に互いに対応付けて登録されたデータベースである。
The
概念辞書32は、連想概念辞書32aと商品分類辞書32bとで構成されている。連想概念辞書32aは、様々な商品に関する事柄を示す名詞と、当該名詞から連想される商品に関する事柄を示す名詞とが、ツリー状の階層構造に定義された属性に互いに対応付けて登録されたデータベースである。また、商品分類概念辞書32bは、様々な商品を示す名詞と当該名詞から連想される商品を示す名詞とが、ツリー状の階層構造に定義された属性に互いに対応付けて登録されたデータベースである。
The
商品情報特定手段24は、商品・付属情報抽出手段22が抽出した商品情報及び付属情報に基づいて商品辞書30及び概念辞書32を参照し、商品情報に関連する属性を抽出して組み合わせ、その商品情報を具体的に特定した特定商品情報を生成する。そして、上記の解析対象記事抽出手段20、商品・付属情報抽出手段22、商品情報特定手段24が行った一連の処理内容を示す情報を、入出力端末18の出力手段18bに送る働きをする。
The merchandise
次に、購入商品情報抽出システム10が購入商品に関する情報を取得する動作と抽出方法について、図2のフローチャートに基づいて説明する。まず、検索ユーザが、入力手段18aに検索キーワードである特定のテレビ番組名を入力する(ステップS10)。
Next, the operation | movement and the extraction method in which the purchased merchandise
テレビ番組名が入力されると、検索手段20aは、消費者記事収集手段12にアクセスし、消費者記事の文章を個々に全文検索し、そのテレビ番組名を文字列として含む消費者記事を関連記事として抽出する(ステップS11)。例えば、検索ユーザがテレビ番組名「のんびり旅日記」を入力すると、図3に示すように、膨大な消費者記事の中から記事1,2,4が関連記事として抽出される。同様に、テレビ番組名「ライブ&ライブ」を入力すると、記事3が関連記事として抽出される。
When the TV program name is input, the search means 20a accesses the consumer article collection means 12, searches the sentence of the consumer article individually in full text, and relates the consumer article including the TV program name as a character string. An article is extracted (step S11). For example, when the search user inputs the television program name “Leisurely Travel Diary”,
次に、絞込手段20bが、関連記事の中から消費者が書いたと思われる解析対象記事を抽出する(ステップS12)。以下、ステップS12の詳細な処理を、図4のフローチャートを用いて説明する。 Next, the narrowing down means 20b extracts an analysis target article that is considered to have been written by the consumer from related articles (step S12). Hereinafter, the detailed process of step S12 is demonstrated using the flowchart of FIG.
まず、関連記事の文章を形態素解析によって単語に分割する(ステップS121)。そして、関連記事毎に、総単語数αと、スパムワード辞書26に定義されたスパムワードに該当する単語数であるスパムワード数βを取得する(ステップS122)。スパムワード辞書26には、図5に示すように、一般に宣伝用語句として使用されることが多い「無料」「販売」「話題」などのスパムワードがあらかじめ登録されている。スパムワードの定義は厳密である必要はなく、ここでは、システム管理者が経験則等に基づいて設定している。例えば、記事1の場合、総単語数α=13であり、その中にスパムワードが含まれていないので、スパムワード数β=ゼロである。一方、記事4の場合、総単語数α=20であり、その中にスパムワード「話題」「騒然」「掲示板」が含まれているので、スパムワード数β=3である。
First, the sentence of the related article is divided into words by morphological analysis (step S121). Then, for each related article, the total word number α and the spam word number β, which is the number of words corresponding to the spam word defined in the
次に、スパムワードの占有率(β/α)の高低を判断する基準値γを選択する(ステップS123)。ここでは、基準値γは一定の数値である10%が選択されている。なお、総単語数αが少ない文章の場合、スパムワード数βが少し存在するだけで占有率(β/α)が高いと判定されてしまう傾向があるので、総単語数αが少ないときは、基準値γとして比較的小さな値が自動選択されるよう調節することが好ましい。 Next, a reference value γ for determining the level of spam word occupancy (β / α) is selected (step S123). Here, the reference value γ is selected to be a constant value of 10%. In the case of a sentence with a small total word number α, there is a tendency that it is determined that the occupancy (β / α) is high with only a small number of spam words β, so when the total word number α is small, It is preferable to adjust so that a relatively small value is automatically selected as the reference value γ.
次に、スパムワードの占有率(β/α)を算出して基準値γを比較し(ステップS124)、スパムワードの占有率(β/α)が基準値γよりも低いときは、「当該関連記事は消費者が書いた記事と思われるので有用である」と判定し、解析対象記事として取り扱う(ステップS125)。一方、スパムワードの占有率(β/α)が基準値γよりも高いときは、「当該関連記事は販売者が書いた記事と思われるので有用ではない」と判定し、以降の解析対象から除外する(ステップS126)。 Next, the spam word occupancy (β / α) is calculated and the reference value γ is compared (step S124). When the spam word occupancy (β / α) is lower than the reference value γ, It is determined that the related article is useful because it seems to be an article written by a consumer, and is handled as an analysis target article (step S125). On the other hand, if the spam word occupancy (β / α) is higher than the reference value γ, it is determined that the relevant article is not useful because it seems to be an article written by the seller, Exclude (step S126).
次に、図2のフローチャートに戻り、ステップS12で抽出された解析対象記事を、商品・付属情報抽出手段22に送って解析する。解析対象記事を受けた商品・付属情報抽出手段22は、解析対象記事の文章を購入パターンテンプレート28に当てはめ、商品情報と付属情報を抽出する(ステップ13)。購入パターンテンプテート28は、図6に示すように、「○○○のために△△△を買った」「○○○へ△△△を買いに行く」といった、消費者が商品を購入する時の行動パターンを示す複数の雛型文章が登録されている。そして、解析対象記事の文章を雛型文章に当てはめ、「△△△」に該当する部分の名詞を商品情報として抽出し、「○○○」に該当する部分の名詞を付属情報として抽出する。例えば、記事1の場合、「旅行のために「日本の名城100選」を買った」の文章が雛型文章T1に当てはまり、商品情報「日本の名城100選」と付属情報「旅行」を抽出する。同様に、記事3の場合、「BBB楽器店へキーボードを買いに行く」の文章が雛型文章T3に当てはまり、商品情報「キーボード」と付属情報「BBB楽器店」を抽出する。
Next, returning to the flowchart of FIG. 2, the analysis target article extracted in step S <b> 12 is sent to the product / attached information extraction means 22 for analysis. Upon receiving the analysis target article, the product / attachment
次に、解析対象記事毎に抽出された商品情報と付属情報は、商品情報特定手段24に送られて解析される。商品情報と付属情報を受けた商品情報特定手段24は、商品情報を具体的に特定した特定商品情報を生成する(ステップS14)。以下、ステップS14の詳細な処理を、図7のフローチャートを用いて説明する。
Next, the product information and attached information extracted for each analysis target article are sent to the product
まず、商品辞書30を参照し、解析対象記事の商品情報が属性(商品名)として登録されているか調べる(ステップS141)。商品辞書30は、例えば図8に示すように、「幕末と私」という商品名と、その商品を示す名詞及び連想される商品を示す名詞である「本」「エッセイ」「歴史」「地理」が、ツリー状の階層構造に定義された属性に互いに対応付けて登録されている。商品名「日本の名城100選」についても同様に、属性「本」「ガイドブック」「旅行」が互いに対応付けて登録されている。
First, the
例えば、記事1の場合、商品情報が「日本の名城100選」なので、商品辞書30の属性(商品名)に登録されている。従って、「日本の名城100選」についての商品特定属性として「本」「ガイドブック」「旅行」を抽出する(ステップS142)。そして、これらの商品特定属性を組み合わせることによって、記事1の商品情報「日本の名城100選」が旅行のガイドブックであると特定し、特定商品情報「旅行のガイドブック」を生成する(ステップS143)。一方、記事2の場合、商品情報が「ガイドブック」であり、商品辞書30の属性(商品名)に登録されていないので、ステップS144に進む。
For example, in the case of
記事2のように、商品辞書30に商品情報が属性(商品名)に登録されていない場合、連想概念辞書32aを参照し、付属情報がいずれかの属性に登録されているかを調べ、登録されていれば、その属性に対応付けられた他の属性も合わせて付属属性として抽出する(ステップS144)。連想概念辞書32aは、例えば図9に示すように、「旅行」という商品に関する事柄を示す名詞と、「目的地」「地名」「日本」という「旅行」から連想される商品に関する事柄を示す名詞とが、ツリー状の階層構造に定義された属性に互いに対応付けて登録されている。同様に、「旅行」「移動手段」「飛行機」という属性の対応付けもある。
When the product information is not registered in the
例えば、記事2の場合、付属情報が「九州」なので、「旅行」「目的地」「地名」「九州」という付属属性を抽出する。一方、記事3の場合、付属情報が「BBB楽器店」なので、連想概念辞書32aに属性として登録されておらず、付属属性は無しとなる。
For example, in the case of
次に、商品分類概念辞書32bを参照し、商品情報がいずれかの属性に登録されているかを調べ、登録されていれば、その属性に対応付けられた他の属性も合わせて商品属性として抽出する(ステップS145)。商品分類概念辞書32bは、例えば図10に示すように、「本」という商品を示す名詞と、「ガイドブック」「旅行」のように「本」から連想される商品を示す名詞とが、ツリー状の階層構造に定義された属性に互いに対応付けて登録されている。同様に、「本」「小説」「推理」という対応付けもある。
Next, with reference to the merchandise
例えば、記事2の場合、商品情報が「ガイドブック」なので、「本」「ガイドブック」「旅行」「テレビ番組」「薬」「医療・福祉」という商品属性を抽出する。一方、記事3の場合、商品情報が「キーボード」なので、商品分類概念辞書32bに属性として登録されておらず、商品属性は無しとなる。
For example, in the case of
次に、ステップS144で抽出した付属属性と、ステップS145で抽出した商品属性を比較し、両方の属性に共通して存在する属性があるかを調べる(ステップS146)。例えば、記事2の場合、図11(a)に示すように、「旅行」という属性が共通しているので、「旅行」を商品特定属性として抽出する(ステップS147)。そして、商品特定属性「旅行」により、商品情報「ガイドブック」が旅行のガイドブックであると特定し、特定商品情報「旅行のガイドブック」を生成する(ステップS143)。一方、記事3の場合、商品属性と付属属性が無いので、ステップS148に進む。
Next, the attached attribute extracted in step S144 is compared with the product attribute extracted in step S145 to check whether there is an attribute that is common to both attributes (step S146). For example, in the case of
記事3のように、付属属性と商品属性の両方の属性に共通して存在する属性がない場合、図11(b)に示すように、商品情報「キーボード」をそのまま特定商品情報「キーボード」とする。すなわち、この特定商品情報「キーボード」には、電子楽器であるキーボードとパーソナル・コンピュータ用のキーボードが含まれ、以後、これらを区別せずに同類の情報として取り扱うことになる。なお、この取り扱いが好ましくないとシステム管理者が判断すれば、概念辞書32の「キーボード」に関連する属性の定義を修正すれば、容易に改善することができる。
When there is no attribute that is common to both the attached attribute and the product attribute as in the
次に、図2のフローチャートに戻り、ステップS11〜S14で行った消費者記事毎の解析内容が、商品情報特定手段24から出力手段18bに送られ、出力手段18bがその解析内容を所定の形式に整理して出力する(ステップS15)。例えば、検索ユーザが、テレビ番組「のんびり旅日記」の視聴者の購入商品について知りたいとき、出力手段18bは、図12(a)(b)に示すように、「のんびり旅日記」に該当する解析対象記事の件数とその記事から取得した特定商品情報とを集計した統計情報を出力することができる。また、出力の形式は、検索ユーザが入出力端末18を操作することによって、自由に変更することができる。
Next, returning to the flowchart of FIG. 2, the analysis contents for each consumer article performed in steps S11 to S14 are sent from the product
以上説明したように、購入商品情報抽出システム10及びその抽出方法は、スパムワード辞書26によって、商業的なWebサイト等の個人的なサイトからの情報ではないノイズ情報を除外し、さらに、消費者が購入した商品を検索する用途に特化して設けられた購入パターンテンプレート28や各種辞書を使用することによって、テレビ番組を視聴した消費者の購入商品について、精度の高い情報を自動的に抽出することができる。
As described above, the purchased product
また、消費者の購入商品を、商品の特徴を階層化して定義した商品辞書30や概念辞書32を用いて解析するため、消費者記事毎の個別情報を、系統的に整理された形で抽出することができる。従って、例えば書籍に関する複数の個別情報を集計するとき、「本」「小説」「推理小説」「探偵ものの推理小説」というように任意の階層概念で分類することができる。これにより、出力手段18bは、得られた購入商品に関する個別情報を様々な態様に集計し、検索ユーザの目的に合った統計情報を自在に出力することができる。
Moreover, in order to analyze the consumer's purchased products using the
また、市販されている具体的な商品の情報が、適切な属性を付与して商品辞書30に登録されているので、消費者記事から抽出した商品情報が具体的な商品名であっても、容易に購入商品を特定することができる。
Moreover, since the information of the specific product marketed is given the appropriate attribute and registered in the
そして、購入商品情報抽出システム10及び抽出方法で得られた統計情報を分析することによって、テレビ番組のような商品広告媒体の制作者等は、スポンサーとして適した企業や業界を容易に知ることができる。また、スポンサーとなる企業等も、消費者に対する宣伝効果が大きい商品広告媒体を容易に知ることができる。
Then, by analyzing the statistical information obtained by the purchased product
次に、上述した購入商品情報抽出システム10の情報収集装置16の変形例である情報収集装置40について、図13〜図17に基づいて説明する。情報収集装置40は、インターネットの消費者記事を収集する消費者記事収集手段12に加え、インターネットの通信販売サイトにアクセスし、市販されている商品の情報を収集し、商品辞書30に新たに登録する働きをする通信販売情報収集装置42を備えている。
Next, an
通信販売情報収集装置42は、通信販売サイト個々の階層構造を解析するサイト構造解析手段42aと、その階層構造の最下層のページを解析する最下層ページ解析手段42bと、サイト構造解析手段42aと最下層ページ解析手段42bで解析した情報を商品辞書30に登録する商品辞書登録手段42cとで構成されている。
The mail order
次に、通信販売情報収集装置42の動作を、図14のフローチャートに基づいて説明する。まず、サイト階層構造解析手段42aが通信販売サイトにアクセスする(ステップS20)。そして、メニュー部分の表示に着眼してサイト構造を解析し、階層毎に付与された商品カテゴリを認識する(ステップS21)。以下、ステップS21の詳細な処理を、図15のフローチャートを用いて説明する。
Next, the operation of the mail order
まず、メニュー部分に表示されるHTML(Hyper Text Markup Language)データを取得する(ステップS211)。次に、そのHTMLデータのうち、所定のタグに囲まれた文字列を商品カテゴリ候補として抽出する(ステップS212)。例えば、<div>タグや<li>タグなどで囲まれた文字列である名詞を商品カテゴリ候補にするとよい。そして、商品カテゴリ候補の文字列から商品のサイズや色を示す文字列を削除した文字列を抽出し、当該階層の商品カテゴリとして当該階層構造の情報と共に認識する(ステップS213)。 First, HTML (Hyper Text Markup Language) data displayed in the menu part is acquired (step S211). Next, in the HTML data, a character string surrounded by a predetermined tag is extracted as a product category candidate (step S212). For example, a noun that is a character string surrounded by <div> tags, <li> tags, or the like may be used as a product category candidate. And the character string which deleted the character string which shows the size and color of goods from the character string of a goods category candidate is extracted, and it recognizes with the information of the said hierarchical structure as a goods category of the said hierarchy (step S213).
次に、図14のフローチャートに戻り、最下層ページ解析手段42bが、ステップS21で認識した階層構造の最下層のページを解析し、販売されている商品の商品名を抽出する(ステップS22)。以下、ステップS22の詳細な処理を、図16のフローチャートを用いて説明する。 Next, returning to the flowchart of FIG. 14, the bottom layer page analyzing means 42b analyzes the bottom layer page of the hierarchical structure recognized in step S21, and extracts the product names of the sold products (step S22). Hereinafter, the detailed processing of step S22 will be described using the flowchart of FIG.
まず、最下層ページの本文部分に表示された商品一覧のHTMLデータを取得する(ステップS221)。次に、そのHTMLデータのうち、所定のタグに囲まれた文字列である名詞をリンク付き商品イメージとして抽出する。例えば、<image>タグや、他ページへのリンクを設定する<a>タグなどで囲まれた文字列をリンク付き商品イメージとするとよい。次に、リンク付き商品イメージの文字列のうち、前後の文字列が強調表示されている文字列を選択する(ステップS223)。例えば、<h1>タグや<font>タグなどで囲まれた文字列が該当する。そして、リンク付き商品イメージの文字列から商品のサイズや型番などを示す文字列を削除した文字列である名詞を抽出し、商品名として認識する(ステップS224)。 First, the HTML data of the product list displayed in the body part of the lowest page is acquired (step S221). Next, a noun that is a character string surrounded by a predetermined tag is extracted from the HTML data as a linked product image. For example, a character string surrounded by an <image> tag or an <a> tag for setting a link to another page may be used as a linked product image. Next, a character string in which the preceding and following character strings are highlighted is selected from the character strings of the linked product image (step S223). For example, a character string enclosed by <h1> tag, <font> tag, or the like is applicable. And the noun which is a character string which deleted the character string which shows the size, model number, etc. of a product from the character string of the product image with a link is extracted and recognized as a product name (step S224).
次に、図14のフローチャートに戻り、商品辞書登録手段42cが、ステップS21,S22で認識した新たな商品名と商品カテゴリを、商品辞書30に登録する(ステップS23)。以下、ステップS23の詳細な処理を、図17のフローチャートを用いて説明する。 Next, returning to the flowchart of FIG. 14, the merchandise dictionary registration means 42c registers the new merchandise name and merchandise category recognized in steps S21 and S22 in the merchandise dictionary 30 (step S23). Hereinafter, the detailed processing of step S23 will be described using the flowchart of FIG.
まず、抽出した新たな商品名を、図8に示す商品辞書30の属性(商品名)に登録する(ステップS231)。次に、その商品名に対応付けられた商品カテゴリが、商品辞書30の他の属性に定義されているかを調べる(ステップS232)。定義されている場合は、商品カテゴリをその商品名に対応付け、該当する属性に登録する(ステップS233)。一方、定義されていない場合は、商品辞書30に該当する属性を新たに定義し(ステップS234)、商品カテゴリをその商品名に対応付け、新たに定義した属性に登録する(ステップ235)。
First, the extracted new product name is registered in the attribute (product name) of the
このように、情報収集装置40を備えた購入商品情報収集装置10は、日々増加する新商品の情報についても、インターネット通信販売のWebサイトから定期的に情報を取得し、自動的に商品辞書30に登録・更新されるので、市場の動向や流行の変化に十分に対応した調査を行うことができる。
In this way, the purchased product
この発明の行動情報抽出システム及び抽出方法は上記実施形態に限定されるものではなく、例えば、商品の購入以外に、観光や鑑賞等の目的で何らかの行動対象を見に何処かへ行くと言う行動や、家族や友人と旅行に出かける等の行動についても同様に抽出することができる。以下、上述の購入動作に加えてその他の行動を含む実施形態である行動情報抽出システム50について、図18のブロック図に基づいて説明する。ここで、上記実施形態と同様の構成は同一の符号を付して説明を省略する。
The behavior information extraction system and the extraction method of the present invention are not limited to the above-described embodiment. For example, in addition to purchasing a product, an action of going somewhere to see some action target for the purpose of sightseeing or appreciation. It is also possible to extract actions such as going on a trip with family and friends. Hereinafter, the behavior
この実施形態の行動情報抽出システム50は、上記実施形態の購入商品情報抽出システム10の構成を含むものであって、特定の解析対象記事の文章中から商品購入行動を含む種々の行動情報を抽出するものである。この行動情報抽出システム50は、行動情報の抽出における行動対象(この発明では、物の他、人や抽象的なものも含むものである。)を特定するための情報を抽出する行動対象・付属情報抽出手段52と、行動対象・付属情報抽出手段52が抽出した情報に基づいて行動対象を特定する行動対象情報特定手段54を備えている。
The behavior
行動対象・付属情報抽出手段52は、商品・付属情報抽出手段22を含むものであり、上記実施形態と同様に、購入パターンテンプレート28を含む行動パターンテンプレート56を参照可能に設けられている。行動パターンテンプレート56は、「〜を見に、〜へ行った。」や、「〜と、〜へ行った。」等の、何らかの対象を認識して行動するパターンのテンプレートを備える。そして、行動対象・付属情報抽出手段52は、各解析対象記事を、消費者が行動するときの行動パターンを表す雛型文章が複数設定された行動パターンテンプレート56に当てはめ、いずれかの雛型文章に当てはまる文章を抽出し、抽出した文章の特定部分から行動対象情報及び付属情報に該当する名詞を抽出する。
The action target / attached
また、行動対象情報特定手段54は商品情報特定手段24を含むもので、上記実施形態と同様に、各種辞書を参照する。行動対象情報特定手段54が参照する辞書には、上記実施形態の商品辞書30に加えて、商品辞書30が含まれる行動対象辞書58がある。行動対象辞書58は、商品辞書30と同様に、行動対象となり得る様々な認識物の名前と、その認識物を示す名詞及びその名詞から連想されるものを示す名詞とが、ツリー状の階層構造に定義された属性に互いに対応付けて登録されたデータベースである。
The action target
概念辞書32は、連想概念辞書32aと、商品分類概念辞書32bを含む行動対象分類概念辞書32cを備えている。行動物分類概念辞書32cは、様々な認識物を示す名詞と当該名詞から連想されるものを示す名詞とが、ツリー状の階層構造に定義された属性に互いに対応付けて登録されたデータベースである。
The
さらに、行動対象情報特定手段54には、種々の行動を示す名詞を記録した行動辞書60が参照可能に設けられている。行動辞書60は、行動名と当該行動を示す名詞及び当該名詞に関連する行動を示す名詞とが、階層構造に定義された属性に互いに対応付けて登録されて成るものである。
Further, the action target
この実施形態の解析対象記事抽出手段20は、上記実施形態と同様に、絞込手段20bにより、商品やその他の行動対象を扱う業者が宣伝用の語句として使用する語句がスパムワードとして定義されたスパムワード辞書26を参照して、関連記事の文章全体に占める宣伝用語句の比率が高い記事を除外し、行動対象・付属情報抽出手段52により、消費者が書いたと思われる記事のみを抽出し、解析の対象とする。
In the analysis target
そして、行動対象情報特定手段54は、行動対象・付属情報抽出手段52が抽出した行動対象情報及び付属情報等に基づいて、行動辞書60と行動対象辞書58及び概念辞書32を参照し、行動対象情報に関連する属性を抽出して組み合わせ、その行動対象情報と行動を具体的に特定した特定行動対象情報を生成する。さらに、上記の解析対象記事抽出手段20、行動対象・付属情報抽出手段52、行動対象情報特定手段54が行った一連の処理内容を示す情報を、入出力端末18の出力手段18bに送る働きをする。これにより、商品の購入に加えて、それ以外の種々の消費者行動についても、消費者の行動パターンを抽出し、分析することができる。
Then, the action target
なお、この発明の行動情報抽出システム及び抽出方法は、テレビやラジオ番組の視聴者、雑誌等の購読者、各種施設の使用者など、様々な広告媒体にアクセスした消費者の行動についての情報を抽出するシステム又は抽出方法であり、行動辞書や行動対象辞書、概念辞書等は、上記のそれぞれの用途に適した異なる内容の辞書を複数設けてもよい。 The behavior information extraction system and the extraction method of the present invention provide information on the behavior of consumers who have accessed various advertising media, such as viewers of television and radio programs, subscribers of magazines, users of various facilities, and the like. In the extraction system or extraction method, the action dictionary, the action target dictionary, the concept dictionary, and the like may be provided with a plurality of dictionaries having different contents suitable for the respective uses.
また、通信販売情報収集装置の商品辞書登録手段は、通信販売サイトを解析して得た商品カテゴリの文字列を、シソーラス辞書を使用して変換し、変換後の文字列が既に商品辞書に属性として登録されていれば、その変換後の文字列を商品カテゴリに代えて商品辞書に登録してもよい。また、商品分類概念辞書等の階層構造は、商品辞書等の属性の階層構造と必ずしも一致している必要はないが、商品辞書の属性(商品名)を除く他の属性について同様の構成にしてもよい。そうすれば、商品分類概念辞書等と商品辞書等が互いに同様の性能を維持しながら更新されるので、購入商品情報抽出等の品質や性能が安定し、システム管理者によるメンテナンスも容易になる。 Further, the merchandise dictionary registration means of the mail order information collection device converts the character string of the merchandise category obtained by analyzing the mail order site using the thesaurus dictionary, and the converted character string is already attributed to the merchandise dictionary. May be registered in the product dictionary instead of the product category. In addition, the hierarchical structure of the product classification concept dictionary and the like does not necessarily match the hierarchical structure of the attributes of the product dictionary, but the same configuration is used for the other attributes except the product dictionary attribute (product name). Also good. By doing so, the merchandise classification concept dictionary and the merchandise dictionary are updated while maintaining the same performance, so the quality and performance of the purchased merchandise information extraction and the like are stabilized, and maintenance by the system administrator is facilitated.
10 購入商品情報抽出システム
12 消費者記事収集手段
16 情報収集装置
18 入出力端末
18a 入力手段
18b 出力手段
20 解析対象記事抽出手段
20a 検索手段
20b 絞込手段
22 商品・付属情報抽出手段
24 商品情報特定手段
26 スパムワード辞書
28 購入パターンテンプレート
30 商品辞書
32 概念辞書
32a 連想概念辞書
32b 商品分類概念辞書
40 情報収集手段
42 通信販売情報収集装置
42a サイト階層構造解析手段
42b 最下層ページ解析手段
42c 商品辞書登録手段
52 行動対象・付属情報抽出手段
54 行動対象情報特定手段
56 行動パターンテンプレート
DESCRIPTION OF
Claims (20)
前記Webサイトにアクセスし前記消費者記事を収集する消費者記事収集手段を有する情報収集装置と、
検索ユーザが検索キーワードを入力する入力手段と、検索処理の結果得られた消費者の行動に関する情報を所定の形式で出力する出力手段とを有する入出力端末と、
前記消費者記事収集手段が収集した消費者記事毎に文章を解析し、当該文章中に前記検索キーワードを含んだ消費者記事を関連記事として抽出する検索手段と、前記関連記事から、当該記事の文章中に宣伝用語句を含む割合が低いものを解析対象記事として抽出する絞込手段とが設けられた解析対象記事抽出手段と、
前記解析対象記事毎に文章を解析し、消費者が何らかの行動をするときの行動情報を表す文章部分から、消費者行動の行動対象を示す名詞である行動対象情報と、当該行動対象に関連する事柄を示す名詞である付属情報とを抽出する行動対象・付属情報抽出手段と、
前記行動の行動対象を示す名詞と、当該名詞に関連する行動対象を示す名詞とが階層構造に定義された属性に互いに対応付けて登録されて成る行動対象辞書と、
前記行動の行動対象を示す名詞と、当該名詞から連想される連想概念を示す名詞とが、階層構造に定義された属性に互いに対応付けて登録されて成る概念辞書と、
前記解析対象記事毎に前記行動対象辞書又は前記概念辞書を参照し、前記行動対象・付属情報抽出手段が抽出した前記行動対象情報及び前記付属情報に対応する属性を抽出して組み合わせることによって、当該行動対象情報に該当する行動対象と行動を具体的に特定した特定情報を生成するとともに、上記の一連の処理内容を前記入出力端末の前記出力手段に送る行動対象情報特定手段とを備えたことを特徴とする行動情報抽出システム。 It is configured by a computer system, accesses a website on the Internet where a consumer article in which daily events are written by a consumer is disclosed, performs a search process based on a search keyword input by a search user, In the behavior information extraction system that extracts and outputs information on consumer behavior that matches the search keyword from the collected consumer articles,
An information collection device having consumer article collection means for accessing the website and collecting the consumer articles;
An input / output terminal having an input means for a search user to input a search keyword, and an output means for outputting information relating to consumer behavior obtained as a result of the search processing in a predetermined format;
A sentence is analyzed for each consumer article collected by the consumer article collection means, and a search means for extracting a consumer article containing the search keyword in the sentence as a related article; Analytical article extraction means provided with a narrowing means for extracting as articles to be analyzed those articles that contain a low proportion of advertising terms in the text,
Analyzing sentences for each of the analysis target articles, from the sentence part representing the behavior information when the consumer performs some action, the action target information that is a noun indicating the action target of the consumer action and the action target Action object / attachment information extracting means for extracting attached information that is a noun indicating a matter;
An action object dictionary in which a noun indicating an action object of the action and a noun indicating an action object related to the noun are registered in association with attributes defined in a hierarchical structure;
A concept dictionary in which a noun indicating an action target of the action and a noun indicating an associative concept associated with the noun are registered in association with attributes defined in a hierarchical structure;
By referring to the action target dictionary or the concept dictionary for each analysis target article and extracting and combining the action target information extracted by the action target / attached information extraction unit and the attribute corresponding to the attached information, Action target information specifying means for generating specific information that specifically specifies the action target and action corresponding to the action target information and sending the above-described series of processing contents to the output means of the input / output terminal An action information extraction system characterized by
前記行動対象・付属情報抽出手段は、前記解析対象記事の文章に対して、前記行動パターンテンプレートを参照していずれかの前記雛型文章に当てはまる文章を抽出し、抽出した文章の特定部分から前記行動対象情報及び付属情報に該当する名詞を抽出する請求項1記載の行動情報抽出システム。 It has an action pattern template with multiple template sentences that represent the behavior patterns when consumers act,
The action target / attached information extraction unit extracts a sentence that applies to any of the template sentences with reference to the action pattern template with respect to the sentence of the analysis target article, and extracts the sentence from a specific portion of the extracted sentence. The behavior information extraction system according to claim 1, wherein nouns corresponding to the behavior target information and attached information are extracted.
市販されている商品の商品名と、当該商品を示す名詞及び当該名詞から連想される商品を示す名詞とが階層構造に定義された属性に互いに対応付けて登録されて成る商品辞書と、
商品概念を示す名詞と、当該名詞から連想される商品概念を示す名詞とが、階層構造に定義された属性に互いに対応付けて登録されて成る概念辞書と、
前記解析対象記事毎に前記概念辞書又は前記商品辞書を参照し、前記商品・付属情報抽出手段が抽出した前記商品情報及び前記付属情報に対応する属性を抽出して組み合わせることによって当該商品情報に該当する商品を具体的に特定した特定商品情報を生成するとともに、上記の一連の処理内容を前記入出力端末の前記出力手段に送る商品情報特定手段とを備えた請求項1記載の行動情報抽出システム。 Analyzing the sentence for each analysis target article, from the sentence part representing the behavior when the consumer purchases the product, product information which is a noun indicating the product itself purchased by the consumer, and matters related to the product Product / attachment information extracting means for extracting attached information, which is a noun to indicate;
A product dictionary in which a product name of a commercially available product, a noun indicating the product and a noun indicating a product associated with the noun are registered in association with attributes defined in the hierarchical structure;
A concept dictionary in which a noun indicating a product concept and a noun indicating a product concept associated with the noun are registered in association with attributes defined in the hierarchical structure;
Refer to the concept dictionary or the product dictionary for each article to be analyzed, and correspond to the product information by extracting and combining the product information extracted by the product / attached information extraction unit and the attribute corresponding to the attached information The behavior information extraction system according to claim 1, further comprising: product information specifying means for generating specific product information that specifically specifies a product to be sent and sending the series of processing contents to the output means of the input / output terminal. .
前記解析対象記事抽出手段の前記絞込手段は、前記関連記事毎に当該記事の文章の総単語数とスパムワードに該当する単語数との比である占有率を算出し、その占有率が基準値以下の関連記事を解析対象記事として抽出する請求項1又は4記載の行動情報抽出システム。 It has a spam word dictionary with defined spam words, which are promotional words and characters,
The narrowing down means of the analysis target article extracting means calculates an occupancy ratio, which is a ratio between the total number of words of the sentence of the article and the number of words corresponding to spam words for each related article, and the occupancy ratio is a reference The behavior information extraction system according to claim 1, wherein a related article having a value less than or equal to a value is extracted as an analysis target article.
前記商品・付属情報抽出手段は、前記解析対象記事の文章に対して、前記購入パターンテンプレートを参照していずれかの前記雛型文章に当てはまる文章を抽出し、抽出した文章の特定部分から前記商品情報及び前記付属情報に該当する名詞を抽出する請求項4記載の行動情報抽出システム。 It has a purchase pattern template with multiple template sentences representing behavior patterns when consumers purchase products,
The product / attachment information extracting means extracts a sentence that matches one of the template sentences with reference to the purchase pattern template with respect to the sentence of the analysis target article, and extracts the commodity from a specific portion of the extracted sentence. The behavior information extraction system according to claim 4, wherein a noun corresponding to the information and the attached information is extracted.
前記商品辞書を参照し、前記解析対象記事の前記商品情報と一致するものが商品名の属性として登録されているときは、当該商品名の属性に関連付けて登録された他の属性群を抽出して組み合わせることによって前記特定商品情報を生成し、
当該商品情報と一致するものが前記商品辞書の商品名の属性に登録されていないときは、前記概念辞書を参照し、前記商品情報及び前記付属情報と一致する属性及び当該属性に関連付けて登録された他の属性群を抽出して組み合わせることによって前記特定商品情報を生成する請求項4記載の行動情報抽出システム。 The product information specifying means includes
When the product dictionary matches the product information of the analysis target article with reference to the product dictionary and is registered as a product name attribute, another attribute group registered in association with the product name attribute is extracted. The specific product information is generated by combining
When the product information that matches the product information is not registered in the product name attribute of the product dictionary, the product dictionary and the attribute that matches the product information and the attached information are registered with reference to the concept dictionary. The behavior information extraction system according to claim 4, wherein the specific product information is generated by extracting and combining other attribute groups.
様々な商品に関する事柄を示す名詞と、当該名詞から連想される商品に関する事柄を示す名詞とが、階層構造に定義された属性に互いに対応付けて登録されて成る連想概念辞書と、
様々な商品を示す名詞と当該名詞から連想される商品を示す名詞とが、階層構造に定義された属性に互いに対応付けて登録されて成る商品分類概念辞書とで構成され、
前記商品情報特定手段は、
前記連想概念辞書を参照し、前記解析対象記事の前記付属情報と一致する属性及び当該属性に関連付けて登録された他の属性を付属属性群として抽出し、
前記商品分類概念辞書を参照し、前記解析対象記事の前記商品情報と一致する属性及び当該属性に関連付けて登録された他の属性を商品属性群として抽出し、
前記付属属性群と前記商品属性群とに共通して存在する属性があるときは、その属性を商品特定属性群として抽出し、当該商品特定属性を組み合わせることによって前記特定商品情報を生成し、
前記付属属性群と前記商品属性群に共通して存在する属性がないときは、当該商品情報をそのまま前記特定商品情報とする請求項4又は8記載の行動情報抽出システム。 The concept dictionary is
An associative concept dictionary in which nouns indicating matters related to various products and nouns indicating matters related to products associated with the noun are registered in association with attributes defined in the hierarchical structure;
Composed of a product classification concept dictionary in which nouns indicating various products and nouns indicating products associated with the noun are registered in association with attributes defined in the hierarchical structure,
The product information specifying means includes
Referencing the associative concept dictionary, extracting attributes that match the attached information of the analysis target article and other attributes registered in association with the attributes as an attached attribute group,
Refer to the product classification concept dictionary, extract the attribute that matches the product information of the analysis target article and other attributes registered in association with the attribute as a product attribute group,
When there is an attribute that exists in common in the attached attribute group and the product attribute group, the attribute is extracted as a product specific attribute group, and the specific product information is generated by combining the product specific attributes,
Wherein when no attributes present in common in the attached attribute group and the product attribute group behavior information extraction system according to claim 4 or 8, wherein the intact the specific product information the product information.
前記サイト構造解析手段は、前記階層毎のメニュー部分に表示されるHTMLデータを取得及び分析することによって、階層構造及び階層毎に付与された商品カテゴリを認識し、
前記最下層ページ解析手段は、前記最下層のページの本文部分に表示される商品一覧のHTMLデータを取得及び分析することによって開示されている商品の商品名を抽出し、
前記商品辞書登録手段は、前記最下層ページ解析手段が抽出した商品名及びサイト構造解析手段が認識した当該商品名に関連する前記商品カテゴリを、前記商品辞書に定義された属性に互いに対応付けて登録し、前記商品辞書の属性として定義されていない新たな商品カテゴリがあるときは、前記商品辞書に新たな属性を定義した後、当該新たな属性に前記新たな商品カテゴリを登録する請求項4又は8記載の行動情報抽出システム。 The information collecting apparatus accesses a mail order site on the Internet and analyzes a site structure analyzing means for analyzing the hierarchical structure of each mail order site, and a lowermost layer page analyzing means for analyzing a lowermost page of the hierarchical structure. The mail order information collecting means comprising the product dictionary registration means for registering the information analyzed by the site structure analysis means and the lowest layer page analysis means in the product dictionary,
The site structure analysis means recognizes the product category assigned to each hierarchical structure and each hierarchy by acquiring and analyzing the HTML data displayed in the menu portion for each hierarchy,
The bottom layer page analysis means extracts the product name of the product disclosed by acquiring and analyzing the HTML data of the product list displayed in the body part of the page of the bottom layer,
The product dictionary registration unit associates the product name extracted by the bottom layer page analysis unit and the product category related to the product name recognized by the site structure analysis unit with the attributes defined in the product dictionary. 5. When there is a new product category that is registered and is not defined as an attribute of the product dictionary, the new product category is registered in the new attribute after the new attribute is defined in the product dictionary. Or the action information extraction system of 8 description.
前記検索ユーザが検索キーワードを入力することにより、前記Webサイトの消費者記事の中から前記検索キーワードを含んだ消費者記事を関連記事として抽出する検索ステップと、
前記関連記事から、当該記事の文章中に宣伝用語句を含む割合が低いものを解析対象記事として抽出する絞り込みステップと、
前記解析対象記事毎に文章を解析し、消費者が何らかの行動をするときの行動情報を表す文章部分から、消費者行動の行動対象を示す名詞である行動対象情報と、当該行動対象に関連する事柄を示す名詞である付属情報とを抽出する行動対象・付属情報抽出ステップと、
前記行動対象・付属情報抽出ステップにより抽出した前記行動対象情報及び前記付属情報に対応する属性を抽出して組み合わせることによって、当該行動対象情報に該当する行動対象と行動を具体的に特定して特定行動対象情報を生成する行動対象情報特定ステップとを備えたことを特徴とする行動情報抽出方法。 By accessing a website on the Internet where a consumer article containing daily events written by the consumer is disclosed, a search process is performed based on the search keyword entered by the search user, and the searched consumer article In the behavior information extraction method for extracting information on consumer behavior that matches the search keyword from the inside,
A search step of extracting a consumer article including the search keyword as a related article from consumer articles on the website by the search user inputting a search keyword;
From the related articles, a narrowing step of extracting, as an analysis target article, a thing with a low ratio of including an advertising phrase in the sentence of the article;
Analyzing sentences for each of the analysis target articles, from the sentence part representing the behavior information when the consumer performs some action, the action target information that is a noun indicating the action target of the consumer action and the action target An action object / attachment information extraction step for extracting ancillary information that is a noun indicating a matter;
By specifically extracting and combining the action target information extracted in the action target / attached information extraction step and the attribute corresponding to the attached information, the action target and the action corresponding to the action target information are specifically identified and specified. An action information extraction method comprising: an action target information specifying step for generating action target information.
商品概念を示す名詞と、当該名詞から連想される商品概念を示す名詞とが、階層構造に定義された属性に互いに対応付けて登録されて成る概念辞書と、市販されている商品の商品名と、当該商品を示す名詞及び当該名詞から連想される商品概念を示す名詞とが階層構造に定義された属性に互いに対応付けて登録されて成る商品辞書とを参照し、前記商品・付属情報抽出ステップにおいて抽出した前記商品情報及び前記付属情報に対応する属性を抽出して組み合わせることによって、当該商品情報に該当する商品を具体的に特定する商品情報特定ステップとを備えた請求項11記載の行動情報抽出方法。 Analyzing the sentence for each analysis target article, from the sentence part representing the behavior when the consumer purchases the product, product information which is a noun indicating the product itself purchased by the consumer, and matters related to the product A product / attachment information extraction step for extracting attached information that is a noun to be indicated;
A concept dictionary in which a noun indicating a product concept and a noun indicating a product concept associated with the noun are registered in association with attributes defined in the hierarchical structure, and a product name of a commercially available product A product dictionary in which a noun indicating the product and a noun indicating a product concept associated with the noun are registered in association with attributes defined in a hierarchical structure, and the product / attachment information extracting step The behavior information according to claim 11, further comprising: a product information specifying step for specifically specifying a product corresponding to the product information by extracting and combining the attributes corresponding to the product information extracted in step 1 and the attached information. Extraction method.
前記商品辞書を参照し、前記解析対象記事の前記商品情報と一致するものが商品名の属性として登録されているときは、当該商品名の属性に関連付けて登録された他の属性群を抽出して組み合わせることによって、当該商品情報に該当する商品を具体的に特定した特定商品情報を生成し、
当該商品情報と一致するものが前記商品辞書の商品名の属性に登録されていないときは、前記概念辞書を参照し、前記商品情報及び前記付属情報と一致する属性及び当該属性に関連付けて登録された他の属性群を抽出して組み合わせることによって前記特定商品情報を生成する請求項14記載の行動情報抽出方法。 The product information specifying step includes:
When the product dictionary matches the product information of the analysis target article with reference to the product dictionary and is registered as a product name attribute, another attribute group registered in association with the product name attribute is extracted. To generate specific product information that specifically identifies the product that corresponds to the product information,
When the product information that matches the product information is not registered in the product name attribute of the product dictionary, the product dictionary and the attribute that matches the product information and the attached information are registered with reference to the concept dictionary. The behavior information extraction method according to claim 14, wherein the specific product information is generated by extracting and combining other attribute groups.
様々な商品に関する事柄を示す名詞と、当該名詞から連想される商品に関する事柄を示す名詞とが、階層構造に定義された属性に互いに対応付けて登録されて成る連想概念辞書と、
様々な商品を示す名詞と当該名詞から連想される商品を示す名詞とが、階層構造に定義された属性に互いに対応付けて登録されて成る商品分類概念辞書とで構成され、
前記商品情報特定ステップは、
前記連想概念辞書を参照し、前記解析対象記事の前記付属情報と一致する属性及び当該属性に関連付けて登録された他の属性を付属属性群として抽出し、
前記商品分類概念辞書を参照し、前記解析対象記事の前記商品情報と一致する属性及び当該属性に関連付けて登録された他の属性を商品属性群として抽出し、
前記付属属性群と前記商品属性群とに共通して存在する属性があるときは、その属性を商品特定属性群として抽出し、当該商品特定属性を組み合わせることによって前記特定商品情報を生成し、
前記付属属性群と前記商品属性群に共通して存在する属性がないときは、当該商品情報をそのまま前記特定商品情報とする請求項14又は18記載の行動情報抽出方法。 The concept dictionary is
An associative concept dictionary in which nouns indicating matters related to various products and nouns indicating matters related to products associated with the noun are registered in association with attributes defined in the hierarchical structure;
Composed of a product classification concept dictionary in which nouns indicating various products and nouns indicating products associated with the noun are registered in association with attributes defined in the hierarchical structure,
The product information specifying step includes:
Referencing the associative concept dictionary, extracting attributes that match the attached information of the analysis target article and other attributes registered in association with the attributes as an attached attribute group,
Refer to the product classification concept dictionary, extract the attribute that matches the product information of the analysis target article and other attributes registered in association with the attribute as a product attribute group,
When there is an attribute that exists in common in the attached attribute group and the product attribute group, the attribute is extracted as a product specific attribute group, and the specific product information is generated by combining the product specific attributes,
Wherein when no attributes present in common in the attached attribute group and the product attribute group, behavioral information extraction method according to claim 14 or 18 wherein the directly the specific product information the product information.
前記サイト構造解析ステップは、前記各階層毎のメニュー部分に表示されるHTMLデータを取得及び分析することによって、階層構造及び各階層毎に付与された商品カテゴリを認識し、
前記最下層ページ解析ステップは、前記最下層のページの本文部分に表示される商品一覧のHTMLデータを取得及び分析することによって開示されている商品の商品名を抽出し、
前記商品辞書登録ステップは、前記最下層ページ解析ステップにより抽出した商品名及びサイト構造解析ステップが認識した当該商品名に関連する前記商品カテゴリを、前記商品辞書に定義された属性に互いに対応付けて登録し、前記商品辞書の属性として定義されていない新たな商品カテゴリがあるときは、前記商品辞書に新たな属性を定義した後、当該新たな属性に前記新たな商品カテゴリを登録する請求項14又は18記載の行動情報抽出方法。
A site structure analysis step for accessing a mail order site on the Internet and analyzing the hierarchical structure of each mail order site, a bottom layer page analysis step for analyzing the bottom layer page of the hierarchical structure, and the site structure analysis step And a product dictionary registration step for registering the information analyzed in the lowermost layer page analysis step in the product dictionary, comprising a mail order information collection step performed in advance before performing the search step,
The site structure analysis step recognizes the hierarchical structure and the product category assigned to each level by acquiring and analyzing the HTML data displayed in the menu part for each level,
The bottom layer page analysis step extracts the product name of the product disclosed by acquiring and analyzing the HTML data of the product list displayed in the body part of the page of the bottom layer,
The product dictionary registration step associates the product name extracted in the lowest layer page analysis step and the product category related to the product name recognized in the site structure analysis step with attributes defined in the product dictionary. 15. When there is a new product category that is registered and not defined as an attribute of the product dictionary, the new product category is registered in the new attribute after the new attribute is defined in the product dictionary. Or the action information extraction method of 18 .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009260033A JP5442401B2 (en) | 2009-11-13 | 2009-11-13 | Behavior information extraction system and extraction method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009260033A JP5442401B2 (en) | 2009-11-13 | 2009-11-13 | Behavior information extraction system and extraction method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011107826A JP2011107826A (en) | 2011-06-02 |
JP5442401B2 true JP5442401B2 (en) | 2014-03-12 |
Family
ID=44231247
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009260033A Active JP5442401B2 (en) | 2009-11-13 | 2009-11-13 | Behavior information extraction system and extraction method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5442401B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10657546B2 (en) | 2015-10-19 | 2020-05-19 | Yeon Tae KIM | Omni-channel marketing curation system based on big data |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013246747A (en) * | 2012-05-29 | 2013-12-09 | Fuji Xerox Co Ltd | Program and campaign management device |
JP5507638B2 (en) * | 2012-09-14 | 2014-05-28 | ヤフー株式会社 | Information providing apparatus, information providing method, and information providing program |
WO2014050837A1 (en) * | 2012-09-27 | 2014-04-03 | 日本電気株式会社 | Determination device, determination method, and computer-readable recording medium |
JP6206134B2 (en) * | 2013-11-28 | 2017-10-04 | 富士ゼロックス株式会社 | Printing system and program |
JP5683726B2 (en) * | 2014-03-17 | 2015-03-11 | ヤフー株式会社 | Information providing apparatus and information providing method |
JP6420670B2 (en) * | 2015-01-15 | 2018-11-07 | 富盛 陸川 | Information browsing system |
JP6635865B2 (en) * | 2016-03-31 | 2020-01-29 | 株式会社エヌ・ティ・ティ・データ | Post extraction device, post extraction method, and program |
JP5988345B1 (en) * | 2016-05-24 | 2016-09-07 | ランサーズ株式会社 | Evaluation device, evaluation method, evaluation program, recommendation device, recommendation method, and recommendation program |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002149854A (en) * | 2000-11-16 | 2002-05-24 | Kubo Hikari | Information collection system |
JP3988622B2 (en) * | 2002-11-07 | 2007-10-10 | 日本電気株式会社 | Opinion extraction device, opinion extraction program |
JP5135701B2 (en) * | 2006-03-30 | 2013-02-06 | 富士通株式会社 | Web page classification program, web page classification device, and web page classification method |
JP2008217064A (en) * | 2007-02-28 | 2008-09-18 | Toshiba Corp | Request extraction apparatus, method and program |
JP4950753B2 (en) * | 2007-05-10 | 2012-06-13 | 日本放送協会 | Comment collection and analysis device and program thereof |
WO2009051261A1 (en) * | 2007-10-18 | 2009-04-23 | Nec Corporation | Information influence evaluation method, information influence evaluation system and information influence evaluation program |
JP5150341B2 (en) * | 2008-04-10 | 2013-02-20 | 株式会社東芝 | Data creation apparatus and method |
-
2009
- 2009-11-13 JP JP2009260033A patent/JP5442401B2/en active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10657546B2 (en) | 2015-10-19 | 2020-05-19 | Yeon Tae KIM | Omni-channel marketing curation system based on big data |
Also Published As
Publication number | Publication date |
---|---|
JP2011107826A (en) | 2011-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Alaei et al. | Sentiment analysis in tourism: capitalizing on big data | |
JP5442401B2 (en) | Behavior information extraction system and extraction method | |
Rambocas et al. | Online sentiment analysis in marketing research: a review | |
US10748164B2 (en) | Analyzing sentiment in product reviews | |
US8306962B1 (en) | Generating targeted paid search campaigns | |
US8812505B2 (en) | Method for recommending best information in real time by appropriately obtaining gist of web page and user's preference | |
JP6435426B1 (en) | Information analysis apparatus, information analysis method, and information analysis program | |
KR101132942B1 (en) | Methods and systems for determining a meaning of a document to match the document to conte | |
Menner et al. | Topic detection: identifying relevant topics in tourism reviews | |
JP2009521750A (en) | Analyzing content to determine context and providing relevant content based on context | |
JPWO2009096523A1 (en) | Information analysis apparatus, search system, information analysis method, and information analysis program | |
KR20090000691A (en) | Advertisement method and system for displaying context advertisement | |
US20170228378A1 (en) | Extracting topics from customer review search queries | |
Rutz et al. | A new method to aid copy testing of paid search text advertisements | |
KR101518488B1 (en) | Value enhancing method and system of online contents | |
Ghosh et al. | Answering Count Questions with Structured Answers from Text | |
JP5138621B2 (en) | Information processing apparatus, dissatisfied product discovery method and program | |
Itani | Sentiment analysis and resources for informal Arabic text on social media | |
JP2009223372A (en) | Recommendation device, recommendation system, control method for recommendation device and control method for recommendation system | |
KR102028356B1 (en) | Advertisement recommendation apparatus and method based on comments | |
Doo et al. | Automated product review collection and opinion analysis methods for efficient business analysis | |
KR20230046041A (en) | Keyword based online advertisement matching system and online advertisement method | |
JP5478146B2 (en) | Program search device and program search program | |
KR101545454B1 (en) | Advertisement matching method for online contents based on keyword and advertisement matching system thereof | |
Singh et al. | Proposing contextually relevant advertisements for online videos |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20110809 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121019 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130927 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131015 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131029 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131119 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131218 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5442401 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |