JP5442401B2 - Behavior information extraction system and extraction method - Google Patents

Behavior information extraction system and extraction method Download PDF

Info

Publication number
JP5442401B2
JP5442401B2 JP2009260033A JP2009260033A JP5442401B2 JP 5442401 B2 JP5442401 B2 JP 5442401B2 JP 2009260033 A JP2009260033 A JP 2009260033A JP 2009260033 A JP2009260033 A JP 2009260033A JP 5442401 B2 JP5442401 B2 JP 5442401B2
Authority
JP
Japan
Prior art keywords
product
information
dictionary
action
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009260033A
Other languages
Japanese (ja)
Other versions
JP2011107826A (en
Inventor
智子 矢後
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intec Inc Japan
Original Assignee
Intec Inc Japan
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intec Inc Japan filed Critical Intec Inc Japan
Priority to JP2009260033A priority Critical patent/JP5442401B2/en
Publication of JP2011107826A publication Critical patent/JP2011107826A/en
Application granted granted Critical
Publication of JP5442401B2 publication Critical patent/JP5442401B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Transfer Between Computers (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、インターネット上に存在するブログやSNS等のWebサイトにアクセスし、消費者の購入商品等についての情報やその他の行動パターンを抽出する行動情報抽出システム及び抽出方法に関する。   The present invention relates to a behavior information extraction system and an extraction method for accessing information on a consumer's purchased products and other behavior patterns by accessing a website such as a blog or SNS existing on the Internet.

現在、例えばテレビやラジオの番組で様々な商品広告が放送されている。しかし、その商品広告が本当に消費者の行動パターンに影響を与え、商品の購入に結びついているのかを調べる有効な方法がなく、例えば商品アンケートを行ったとしても、手間がかかる上データ数としても限りがある。そのため、番組制作者は、現在放送中の番組に似たタイプの新しい番組を制作したいと思っても、どのような企業や団体等に提案すれば興味を引くことができるのか分からない。また、一般の企業や団体等も、どのようなテレビ番組等で商品広告を行えば売り上げの向上が期待できるのか精度よく予想することができなかった。   Currently, various product advertisements are broadcast on TV and radio programs, for example. However, there is no effective way to investigate whether the product advertisement really affects the consumer behavior pattern and leads to the purchase of the product. For example, even if a product questionnaire is conducted, it takes time and data There is a limit. Therefore, even if a program producer wants to produce a new program of a type similar to the program currently being broadcast, he / she does not know what kind of company or organization can make it interesting. In addition, general companies and organizations have not been able to predict with high accuracy what kind of television program or the like can be used to improve sales.

これらの問題は、テレビ等の放送媒体を用いた商品広告に限らず、各種施設に設置される看板による商品広告、旅行のパンフレットやコンサートのチラシ等に載せる商品広告等においても同様に生じる問題であった。この問題に対して、インターネット上の種々のWebサイトに開示されている膨大な記事を分析することができれば、例えば消費者が購入した商品等と商品広告との関連性を示す情報やデータを抽出することが可能となると考えられる。   These problems are not limited to product advertisements using broadcasting media such as televisions, but also occur in product advertisements using signboards installed in various facilities, product advertisements placed on travel brochures, concert flyers, etc. there were. If it is possible to analyze an enormous number of articles disclosed on various websites on the Internet for this problem, for example, information and data indicating the relationship between the product purchased by the consumer and the product advertisement are extracted. It will be possible to do this.

しかし、消費者の日々の身の回りの出来事が記載されたブログやSNSに代表される消費者記事は、一般に、文章を書くことに慣れていない人達によって書かれ、また、口語体で書かれている場合が多いので、従来のキーワード抽出や係り受け解析を行う方法では、消費者の購入商品等の行動パターンを精度よく抽出することができない。また、文章に明記された事柄以外の具体的な行動に関する情報を得ることができないという問題がある。   However, consumer articles such as blogs and SNSs that describe everyday events of consumers are generally written by people who are not accustomed to writing and are spoken. For this reason, the conventional method of performing keyword extraction and dependency analysis cannot accurately extract behavior patterns such as consumer purchases. In addition, there is a problem that it is not possible to obtain information on specific actions other than those specified in the text.

一方、口語体のように比較的曖昧な文章を解析し、その文章を書いた人が主張している意見や意図を精度よく抽出しようとする装置や方法も提案されている。例えば、特許文献1に開示されているように、あらかじめ意見の構造のモデルを設定し、入力されたテキスト文章をそのモデルに当てはめることによって、対象物や、対象物に対する評価の着眼点、対象物の性質、肯定・否定・中立の評価の4要素を含む部分テキストを検出する意見抽出装置がある。特に、この意見抽出装置は、上記4要素のうちの対象物を除く3要素を抽出するとき、該当する部分テキスト文章が曖昧に表現されていても、その意味を推定する推定手段を用いることによって、その人の意見を精度よく抽出することができる。   On the other hand, an apparatus and a method for analyzing relatively ambiguous sentences such as colloquial styles and extracting the opinions and intentions claimed by the person who wrote the sentences have been proposed. For example, as disclosed in Patent Document 1, a model of an opinion structure is set in advance, and an input text sentence is applied to the model, so that an object, a focus of evaluation on the object, an object There is an opinion extraction device that detects partial texts that contain four elements: the nature of the evaluation, positive / negative / neutral evaluation. In particular, this opinion extraction device uses an estimation means for estimating the meaning of a partial text sentence, even if the corresponding partial text sentence is ambiguously expressed when extracting three elements excluding the object among the above four elements. , The person's opinions can be extracted accurately.

特開2004−157841号公報JP 2004-157841 A

上述したように、従来、インターネット上の種々のWebサイトに開示されている記事から、消費者の購買行動やその他の消費者行動と商品等の広告との関連性を示す情報やデータを精度よく抽出する方法はなかった。   As described above, information and data indicating the relevance of consumer purchase behavior and other consumer behavior to advertisements such as products are accurately obtained from articles conventionally disclosed on various websites on the Internet. There was no way to extract.

また、特許文献1の意見抽出装置又は方法は、テキスト文章の作成者が対象物の性質をどのように評価しているのかを抽出することができるが、例えば、対象物が「本」「小説」「推理小説」や具体的な商品名といった異なる階層概念で表現されたときに、その対象物自体を正確に特定したり、各対象物を所定の商品カテゴリ別に分類することができない。従って、消費者の商品購買行動等と商品等の広告との関連性を示す統計情報を得ようとする用途には適さないものであった。   Moreover, although the opinion extraction apparatus or method of patent document 1 can extract how the creator of a text sentence is evaluating the property of a target object, for example, a target object is "book" "novel" "When expressed in different hierarchical concepts such as" reason novel "or specific product names, the object itself cannot be accurately specified, and each object cannot be classified by a predetermined product category. Therefore, it is not suitable for a purpose of obtaining statistical information indicating the relevance between the consumer's product purchase behavior and the advertisement of the product.

この発明は、上記背景技術に鑑みて成されたもので、インターネット上の種々のWebサイトに開示された記事を検索し、特定の商品の広告媒体等にアクセスした消費者行動に関する情報を、様々な統計処理に対応可能な形で精度よく抽出することができる行動情報抽出システム及び抽出方法を提供することを目的とする。   The present invention has been made in view of the above-described background art, and searches for articles disclosed on various websites on the Internet, and various types of information related to consumer behavior when accessing an advertising medium or the like of a specific product. It is an object of the present invention to provide a behavior information extraction system and an extraction method that can be accurately extracted in a form that can cope with various statistical processes.

この発明は、コンピュータシステムにより構成され、消費者により日々の身の回りの出来事が書かれた消費者記事が開示されているインターネット上のWebサイトにアクセスし、検索ユーザが入力した検索キーワードに基づいて検索処理を行い、収集した消費者記事の中から、当該検索キーワードに適合する消費者の行動に関する情報を抽出し、出力する行動情報抽出システムであって、前記Webサイトにアクセスし前記消費者記事を収集する消費者記事収集手段を有する情報収集装置と、検索ユーザが検索キーワードを入力する入力手段と、検索処理の結果得られた消費者の行動に関する情報を所定の形式で出力する出力手段とを有する入出力端末と、前記消費者記事収集手段が収集した消費者記事毎に文章を解析し、当該文章中に前記検索キーワードを含んだ消費者記事を関連記事として抽出する検索手段と、前記関連記事から、当該記事の文章中に宣伝用語句を含む割合が低いものを解析対象記事として抽出する絞込手段とが設けられた解析対象記事抽出手段と、前記解析対象記事毎に文章を解析し、消費者が何らかの行動をするときの行動情報を表す文章部分から、消費者行動の行動対象を示す名詞である行動対象情報と、当該行動対象に関連する事柄を示す名詞である付属情報とを抽出する行動対象・付属情報抽出手段と、前記行動の行動対象を示す名詞と、当該名詞に関連する行動対象を示す名詞とが階層構造に定義された属性に互いに対応付けて登録されて成る行動対象辞書と、前記行動の行動対象を示す名詞と、当該名詞から連想される連想概念を示す名詞とが、階層構造に定義された属性に互いに対応付けて登録されて成る概念辞書と、前記解析対象記事毎に前記行動対象辞書又は前記概念辞書を参照し、前記行動対象・付属情報抽出手段が抽出した前記行動対象情報及び前記付属情報に対応する属性を抽出して組み合わせることによって、当該行動対象情報に該当する行動対象と行動を具体的に特定した特定情報を生成するとともに、上記の一連の処理内容を前記入出力端末の前記出力手段に送る行動対象情報特定手段とを備えた行動情報抽出システムである。 The present invention accesses a website on the Internet that is constituted by a computer system and discloses consumer articles in which daily events are written by consumers, and performs a search based on a search keyword entered by a search user. A behavior information extraction system that performs processing, extracts information related to consumer behavior that matches the search keyword from the collected consumer articles, and outputs the information, and accesses the website to retrieve the consumer articles. An information collecting device having a consumer article collecting means for collecting; an input means for a search user to input a search keyword; and an output means for outputting information on consumer behavior obtained as a result of the search processing in a predetermined format. Analyzing sentences for each consumer article collected by the input / output terminal and the consumer article collection means, Search means for extracting a consumer article including a search keyword as a related article, and a narrowing means for extracting, from the related article, an article having a low ratio of including an advertising phrase in the sentence of the article as an analysis target article An analysis target article extraction means provided and an action which is a noun indicating an action target of consumer behavior from a sentence portion representing behavior information when the consumer performs some action by analyzing a sentence for each analysis target article Action object / attachment information extraction means for extracting object information and attached information that is a noun indicating a matter related to the action object, a noun indicating the action object of the action, and an action object related to the noun and is the action target dictionary formed by registering in association with each other attributes defined in a hierarchical structure nouns, nouns indicating an action target of the action, the noun indicating an associative concepts association from the noun A concept dictionary that is registered in association with attributes defined in a hierarchical structure and the action target dictionary or the concept dictionary for each analysis target article, and extracted by the action target / attached information extraction unit By extracting and combining attributes corresponding to the action target information and the attached information, specific information that specifically identifies the action target and action corresponding to the action target information is generated, and the series of processing contents described above Is an action information extraction system comprising action target information specifying means for sending to the output means of the input / output terminal.

前記行動対象情報特定手段には、行動名と当該行動を示す名詞及び当該名詞に関連する行動を示す名詞とが、階層構造に定義された属性に互いに対応付けて登録されて成る行動辞書が参照可能に設けられ、前記行動対象情報特定手段は前記行動辞書を参照して、前記行動対象辞書の中の行動対象である名詞を選択するものである。   The action target information specifying means refers to an action dictionary in which an action name, a noun indicating the action, and a noun indicating an action related to the noun are registered in association with attributes defined in the hierarchical structure. The action target information specifying means refers to the action dictionary and selects a noun that is an action target in the action target dictionary.

さらに、消費者が行動するときの行動パターンを表す雛型文章が複数設定された行動パターンテンプレートを備え、前記行動対象・付属情報抽出手段は、前記解析対象記事の文章に対して、前記行動パターンテンプレートを参照していずれかの前記雛型文章に当てはまる文章を抽出し、抽出した文章の特定部分から前記行動対象情報及び付属情報に該当する名詞を抽出するものである。   Furthermore, a behavior pattern template in which a plurality of template sentences representing behavior patterns when a consumer acts is set, and the behavior target / attached information extraction unit performs the behavior pattern on the analysis target article text. A template that refers to any template text is extracted with reference to a template, and nouns corresponding to the action target information and attached information are extracted from a specific portion of the extracted text.

またこの発明は、前記解析対象記事毎に文章を解析し、消費者が商品を購入するときの行動を表す文章部分から、消費者が購入した商品自体を示す名詞である商品情報と、当該商品に関連する事柄を示す名詞である付属情報とを抽出する商品・付属情報抽出手段と、市販されている商品の商品名と、当該商品を示す名詞及び当該名詞から連想される商品を示す名詞とが階層構造に定義された属性に互いに対応付けて登録されて成る商品辞書と、商品概念を示す名詞と、当該名詞から連想される商品概念を示す名詞とが、階層構造に定義された属性に互いに対応付けて登録されて成る概念辞書と、前記解析対象記事毎に前記概念辞書又は前記商品辞書を参照し、前記商品・付属情報抽出手段が抽出した前記商品情報及び前記付属情報に対応する属性を抽出して組み合わせることによって当該商品情報に該当する商品を具体的に特定した特定商品情報を生成するとともに、上記の一連の処理内容を前記入出力端末の前記出力手段に送る商品情報特定手段とを備えた行動情報抽出システムである。   The invention also analyzes product text for each article to be analyzed, product information that is a noun indicating the product itself purchased by the consumer from the text part representing the behavior when the consumer purchases the product, and the product Product / attachment information extraction means for extracting attached information that is a noun indicating a matter related to the product, the name of the product on the market, the noun indicating the product, and the noun indicating the product associated with the noun Are defined as attributes defined in the hierarchical structure, a product dictionary that is registered in association with attributes defined in the hierarchical structure, a noun indicating a product concept, and a noun indicating a product concept associated with the noun. Corresponding to the product information and the accessory information extracted by the product / attachment information extraction means by referring to the concept dictionary registered in association with each other and the concept dictionary or the product dictionary for each analysis target article Product information specifying means for generating specific product information that specifically specifies the product corresponding to the product information by extracting and combining the characteristics, and sending the series of processing contents to the output means of the input / output terminal It is an action information extraction system provided with.

宣伝用の語句や文字であるスパムワードが定義されたスパムワード辞書を備え、前記解析対象記事抽出手段の前記絞込手段は、前記関連記事毎に当該記事の文章の総単語数とスパムワードに該当する単語数との比である占有率を算出し、その占有率が基準値以下の関連記事を解析対象記事として抽出するものである。   A spam word dictionary in which spam words that are words and characters for advertisement are defined is defined, and the narrowing down means of the analysis target article extracting means includes the total number of words of the article and the spam word for each related article. An occupancy ratio that is a ratio to the number of corresponding words is calculated, and related articles whose occupancy ratio is equal to or less than a reference value are extracted as analysis target articles.

前記絞込手段には、前記関連記事の総単語数に応じて、総単語数が相対的に少ない場合は相対的に小さい基準値が設定されているものである。   In the narrowing-down means, a relatively small reference value is set in accordance with the total number of words of the related article when the total number of words is relatively small.

また、消費者が商品を購入するときの行動パターンを表す雛型文章が複数設定された購入パターンテンプレートを備え、前記商品・付属情報抽出手段は、前記解析対象記事の文章に対して、前記購入パターンテンプレートを参照していずれかの前記雛型文章に当てはまる文章を抽出し、抽出した文章の特定部分から前記商品情報及び前記付属情報に該当する名詞を抽出するものである。   In addition, a purchase pattern template in which a plurality of template texts representing behavior patterns when a consumer purchases a product is set is provided, and the product / attached information extraction unit is configured to purchase the purchase text for the analysis target article text. By referring to a pattern template, a sentence applicable to any of the template sentences is extracted, and nouns corresponding to the product information and the attached information are extracted from a specific portion of the extracted sentence.

前記商品情報特定手段は、前記商品辞書を参照し、前記解析対象記事の前記商品情報と一致するものが商品名の属性として登録されているときは、当該商品名の属性に関連付けて登録された他の属性群を抽出して組み合わせることによって前記特定商品情報を生成し、当該商品情報と一致するものが前記商品辞書の商品名の属性に登録されていないときは、前記概念辞書を参照し、前記商品情報及び前記付属情報と一致する属性及び当該属性に関連付けて登録された他の属性群を抽出して組み合わせることによって前記特定商品情報を生成するものである。   The product information specifying means refers to the product dictionary, and when a product that matches the product information of the analysis target article is registered as a product name attribute, the product information specifying unit is registered in association with the product name attribute. The specific product information is generated by extracting and combining other attribute groups, and when the product information that matches the product information is not registered in the product name attribute of the product dictionary, refer to the concept dictionary, The specific merchandise information is generated by extracting and combining attributes matching the merchandise information and the attached information and other attribute groups registered in association with the attributes.

前記概念辞書は、様々な商品に関する事柄を示す名詞と、当該名詞から連想される商品に関する事柄を示す名詞とが、階層構造に定義された属性に互いに対応付けて登録されて成る連想概念辞書と、様々な商品を示す名詞と当該名詞から連想される商品を示す名詞とが、階層構造に定義された属性に互いに対応付けて登録されて成る商品分類概念辞書とで構成され、前記商品情報特定手段は、前記連想概念辞書を参照し、前記解析対象記事の前記付属情報と一致する属性及び当該属性に関連付けて登録された他の属性を付属属性群として抽出し、前記商品分類概念辞書を参照し、前記解析対象記事の前記商品情報と一致する属性及び当該属性に関連付けて登録された他の属性を商品属性群として抽出し、前記付属属性群と前記商品属性群とに共通して存在する属性があるときは、その属性を商品特定属性群として抽出し、当該商品特定属性を組み合わせることによって前記特定商品情報を生成し、前記付属属性群と前記商品属性群に共通して存在する属性がないときは、当該商品情報をそのまま前記特定商品情報とするものである。 The concept dictionary is an associative concept dictionary in which nouns indicating matters related to various products and nouns indicating matters related to products associated with the nouns are registered in association with attributes defined in the hierarchical structure. A product classification concept dictionary in which nouns indicating various products and nouns indicating products associated with the nouns are registered in association with attributes defined in the hierarchical structure, and the product information specifying The means refers to the associative concept dictionary, extracts attributes that match the attached information of the analysis target article and other attributes registered in association with the attributes as attached attribute groups, and refers to the product classification concept dictionary Then, an attribute that matches the product information of the article to be analyzed and other attributes registered in association with the attribute are extracted as a product attribute group, and the attached attribute group and the product attribute group are extracted. When there is an attribute that exists throughout, the attribute is extracted as a product specific attribute group, the specific product information is generated by combining the product specific attributes, and is common to the attached attribute group and the product attribute group when there is no attributes present, it is an intact the specific product information the product information.

また、前記情報収集装置は、インターネット上の通信販売サイトにアクセスし、個々の通信販売サイトの階層構造を解析するサイト構造解析手段と、当該階層構造の最下層のページを解析する最下層ページ解析手段と、前記サイト構造解析手段及び前記最下層ページ解析手段で解析した情報を前記商品辞書に登録する商品辞書登録手段とで成る通信販売情報収集手段を備え、前記サイト構造解析手段は、前記階層毎のメニュー部分に表示されるHTMLデータを取得及び分析することによって、階層構造及び階層毎に付与された商品カテゴリを認識し、前記最下層ページ解析手段は、前記最下層のページの本文部分に表示される商品一覧のHTMLデータを取得及び分析することによって開示されている商品の商品名を抽出し、前記商品辞書登録手段は、前記最下層ページ解析手段が抽出した商品名及びサイト構造解析手段が認識した当該商品名に関連する前記商品カテゴリを、前記商品辞書に定義された属性に互いに対応付けて登録し、前記商品辞書の属性として定義されていない新たな商品カテゴリがあるときは、前記商品辞書に新たな属性を定義した後、当該新たな属性に前記新たな商品カテゴリを登録する行動情報抽出システムである。 In addition, the information collection device accesses a mail order site on the Internet, analyzes the hierarchical structure of each mail order site, and analyzes the lowest layer page for analyzing the bottom page of the hierarchical structure. And a mail order information collecting means comprising a product dictionary registration means for registering information analyzed by the site structure analysis means and the lowest layer page analysis means in the product dictionary, and the site structure analysis means comprises the hierarchy By acquiring and analyzing the HTML data displayed in each menu part, the hierarchical category and the product category assigned to each hierarchy are recognized, and the lowermost layer page analysis means adds to the body part of the lowermost page. The product name of the product disclosed by extracting and analyzing HTML data of the displayed product list is extracted, and the product dictionary Recording means, wherein the product category associated with the trade name of trade name and site structure analyzing means for the lowermost page analysis means has extracted recognizes, and registered in association with each other in the attributes defined in the product dictionary, When there is a new product category that is not defined as an attribute of the product dictionary, the behavior information extraction system registers the new product category in the new attribute after defining the new attribute in the product dictionary. .

またこの発明は、消費者により日々の身の回りの出来事が書かれた消費者記事が開示されているインターネット上のWebサイトにアクセスし、検索ユーザが入力した検索キーワードに基づいて検索処理を行い、検索した消費者記事の中から、当該検索キーワードに適合する消費者の行動に関する情報を抽出する行動情報抽出方法であって、前記検索ユーザが検索キーワードを入力することにより、前記Webサイトの消費者記事の中から前記検索キーワードを含んだ消費者記事を関連記事として抽出する検索ステップと、前記関連記事から、当該記事の文章中に宣伝用語句を含む割合が低いものを解析対象記事として抽出する絞り込みステップと、前記解析対象記事毎に文章を解析し、消費者が何らかの行動をするときの行動情報を表す文章部分から、消費者行動の行動対象を示す名詞である行動対象情報と、当該行動対象に関連する事柄を示す名詞である付属情報とを抽出する行動対象・付属情報抽出ステップと、前記行動対象・付属情報抽出ステップにより抽出した前記行動対象情報及び前記付属情報に対応する属性を抽出して組み合わせることによって、当該行動対象情報に該当する行動対象と行動を具体的に特定して特定行動対象情報を生成する行動対象情報特定ステップとを備えた行動情報抽出方法である。 In addition, the present invention accesses a Web site on the Internet where a consumer article in which a daily life event is written by a consumer is disclosed, performs a search process based on a search keyword input by a search user, and performs a search. A behavior information extracting method for extracting information related to consumer behavior that matches the search keyword from the consumer articles, wherein the search user inputs a search keyword, so that the consumer article on the Web site A search step for extracting a consumer article including the search keyword from among the related articles, and a narrowing down of extracting the articles having a low proportion of advertisement terms from the related articles as sentences to be analyzed Steps and sentences that analyze the sentence for each of the articles to be analyzed and represent behavior information when the consumer takes some action An action object / attachment information extracting step for extracting action object information, which is a noun indicating an action object of consumer behavior, and attached information, which is a noun indicating a matter related to the action object, from the portion; By extracting and combining the action target information extracted in the attached information extraction step and the attribute corresponding to the attached information, the action target corresponding to the action target information and the action are specifically identified, and the specific action target information is obtained. A behavior information extraction method comprising a behavior target information identification step to be generated.

前記行動対象情報特定ステップは、行動名と当該行動を示す名詞及び当該名詞に関連する行動を示す名詞とが、階層構造に定義された属性に互いに対応付けて登録されて成る行動辞書を参照して、前記行動対象辞書の中の行動対象である名詞を選択するものである。   The action target information specifying step refers to an action dictionary in which an action name, a noun indicating the action, and a noun indicating an action related to the noun are registered in association with attributes defined in the hierarchical structure. The noun that is the action target in the action target dictionary is selected.

前記行動対象・付属情報抽出ステップは、消費者が行動するときの行動パターンを表す雛型文章が複数設定された行動パターンテンプレートを参照して、前記解析対象記事の文章に対して、いずれかの前記雛型文章に当てはまる文章を抽出し、抽出した文章の特定部分から前記行動対象情報及び付属情報に該当する名詞を抽出するものである。   The action target / attached information extraction step refers to an action pattern template in which a plurality of template sentences representing action patterns when a consumer behaves is set, A sentence applicable to the template sentence is extracted, and nouns corresponding to the action target information and the attached information are extracted from a specific portion of the extracted sentence.

またこの発明は、前記解析対象記事毎に文章を解析し、消費者が商品を購入するときの行動を表す文章部分から、消費者が購入した商品自体を示す名詞である商品情報と、当該商品に関連する事柄を示す名詞である付属情報とを抽出する商品・付属情報抽出ステップと、商品概念を示す名詞と、当該名詞から連想される商品概念を示す名詞とが、階層構造に定義された属性に互いに対応付けて登録されて成る概念辞書と、市販されている商品の商品名と、当該商品を示す名詞及び当該名詞から連想される商品概念を示す名詞とが階層構造に定義された属性に互いに対応付けて登録されて成る商品辞書とを参照し、前記商品・付属情報抽出ステップにおいて抽出した前記商品情報及び前記付属情報に対応する属性を抽出して組み合わせることによって、当該商品情報に該当する商品を具体的に特定する商品情報特定ステップとを備えた行動情報抽出方法である。   The invention also analyzes product text for each article to be analyzed, product information that is a noun indicating the product itself purchased by the consumer from the text part representing the behavior when the consumer purchases the product, and the product The product / attachment information extraction step for extracting adjunct information, which is a noun indicating matters related to the product, the noun indicating the product concept, and the noun indicating the product concept associated with the noun are defined in a hierarchical structure An attribute in which a concept dictionary that is registered in association with attributes, a product name of a commercially available product, a noun indicating the product and a noun indicating a product concept associated with the noun are defined in a hierarchical structure To extract and combine the product information extracted in the product / attachment information extraction step and the attribute corresponding to the accessory information. What is behavioral information extraction method and a commodity information specifying step of specifically identifying the product corresponding to the product information.

前記絞り込みステップは、前記絞り込み宣伝用の語句や文字であるスパムワードが定義されたスパムワード辞書を参照し、前記関連記事毎に当該記事の文章の総単語数とスパムワードに該当する単語数との比である占有率を算出し、その占有率が基準値以下の関連記事を解析対象記事として抽出するものである。   The narrowing-down step refers to a spam word dictionary in which spam words that are words and characters for narrowing advertisement are defined, and for each related article, the total number of words of the article and the number of words corresponding to the spam word, Occupancy ratio, which is the ratio of, and related articles whose occupancy ratio is below a reference value are extracted as analysis target articles.

前記絞り込みステップは、前記関連記事の総単語数に応じて、総単語数が少ない場合は相対的に小さい基準値を用いて判定を行うものである。   In the narrowing-down step, when the total number of words is small, determination is performed using a relatively small reference value according to the total number of words in the related article.

前記商品・付属情報抽出ステップは、消費者が商品を購入するときの購入パターンを表す雛型文章を参照し、前記解析対象記事から、いずれかの前記雛型文章に当てはまる文章を抽出し、抽出した文章の特定部分から前記商品情報及び前記付属情報に該当する名詞を抽出するものである。   The product / attachment information extraction step refers to a template text representing a purchase pattern when a consumer purchases a product, extracts a text that applies to any of the template texts from the analysis target article, and extracts The noun corresponding to the product information and the attached information is extracted from a specific part of the sentence.

また、前記商品情報特定ステップは、前記商品辞書を参照し、前記解析対象記事の前記商品情報と一致するものが商品名の属性として登録されているときは、当該商品名の属性に関連付けて登録された他の属性群を抽出して組み合わせることによって、当該商品情報に該当する商品を具体的に特定した特定商品情報を生成し、当該商品情報と一致するものが前記商品辞書の商品名の属性に登録されていないときは、前記概念辞書を参照し、前記商品情報及び前記付属情報と一致する属性及び当該属性に関連付けて登録された他の属性群を抽出して組み合わせることによって前記特定商品情報を生成するものである。 Further, the product information specifying step refers to the product dictionary, and when a product that matches the product information of the analysis target article is registered as a product name attribute, the product information specifying step is registered in association with the product name attribute. Specific product information that specifically identifies the product corresponding to the product information is generated by extracting and combining the other attribute groups, and the product name attribute in the product dictionary matches the product information When not registered in the concept dictionary, the specific product information is obtained by extracting and combining the attribute matching the product information and the attached information and other attribute groups registered in association with the attribute with reference to the concept dictionary Is generated.

また、前記概念辞書は、様々な商品に関する事柄を示す名詞と、当該名詞から連想される商品に関する事柄を示す名詞とが、階層構造に定義された属性に互いに対応付けて登録されて成る連想概念辞書と、様々な商品を示す名詞と当該名詞から連想される商品を示す名詞とが、階層構造に定義された属性に互いに対応付けて登録されて成る商品分類概念辞書とで構成され、前記商品情報特定ステップは、前記連想概念辞書を参照し、前記解析対象記事の前記付属情報と一致する属性及び当該属性に関連付けて登録された他の属性を付属属性群として抽出し、前記商品分類概念辞書を参照し、前記解析対象記事の前記商品情報と一致する属性及び当該属性に関連付けて登録された他の属性を商品属性群として抽出し、前記付属属性群と前記商品属性群とに共通して存在する属性があるときは、その属性を商品特定属性群として抽出し、当該商品特定属性を組み合わせることによって前記特定商品情報を生成し、前記付属属性群と前記商品属性群に共通して存在する属性がないときは、当該商品情報をそのまま前記特定商品情報とするものである。 In addition, the concept dictionary is an associative concept in which nouns indicating matters relating to various products and nouns indicating matters relating to products associated with the nouns are registered in association with attributes defined in the hierarchical structure. The product includes a dictionary and a product classification concept dictionary in which nouns indicating various products and nouns indicating products associated with the nouns are registered in association with attributes defined in a hierarchical structure. The information specifying step refers to the associative concept dictionary, extracts attributes corresponding to the attached information of the analysis target article and other attributes registered in association with the attributes as attached attribute groups, and the product classification concept dictionary , The attribute that matches the product information of the article to be analyzed and other attributes registered in association with the attribute are extracted as a product attribute group, and the attached attribute group and the product When there is an attribute that exists in common with the sex group, the attribute is extracted as a product specific attribute group, the specific product information is generated by combining the product specific attributes, and the attached attribute group and the product attribute when there is no attribute that is present commonly in the group are those as the specific product information the product information.

また、インターネット上の通信販売サイトにアクセスし、個々の通信販売サイトの階層構造を解析するサイト構造解析ステップと、当該階層構造の最下層のページを解析する最下層ページ解析ステップと、前記サイト構造解析ステップ及び前記最下層ページ解析ステップで解析した情報を前記商品辞書に登録する商品辞書登録ステップとで構成され、前記検索ステップを行う前にあらかじめ実施される通信販売情報収集ステップを備え、前記サイト構造解析ステップは、前記各階層毎のメニュー部分に表示されるHTMLデータを取得及び分析することによって、階層構造及び各階層毎に付与された商品カテゴリを認識し、前記最下層ページ解析ステップは、前記最下層のページの本文部分に表示される商品一覧のHTMLデータを取得及び分析することによって開示されている商品の商品名を抽出し、前記商品辞書登録ステップは、前記最下層ページ解析ステップが抽出した商品名及びサイト構造解析ステップが認識した当該商品名に関連する前記商品カテゴリを、前記商品辞書に定義された属性に互いに対応付けて登録し、前記商品辞書の属性として定義されていない新たな商品カテゴリがあるときは、前記商品辞書に新たな属性を定義した後、当該新たな属性に前記新たな商品カテゴリを登録する行動情報抽出方法である。 A site structure analyzing step of accessing a mail order site on the Internet and analyzing a hierarchical structure of each mail order site; a bottom layer page analyzing step of analyzing a bottom layer page of the hierarchical structure; and the site structure A product dictionary registration step for registering the information analyzed in the analysis step and the lowermost layer page analysis step in the product dictionary, and comprising a mail order information collection step performed in advance before the search step, The structural analysis step recognizes the hierarchical structure and the product category assigned to each tier by acquiring and analyzing the HTML data displayed in the menu portion for each tier, and the bottom layer page analyzing step includes: Acquire HTML data of a list of products displayed in the body part of the lowermost page and The product was extracted trade name of the product disclosed by analysis, the product dictionary registering step associated with the product name the product name and site structure analysis step of the lowermost page analysis step is extracted recognizes Categories are registered in association with attributes defined in the product dictionary, and when there is a new product category that is not defined as an attribute of the product dictionary, after defining a new attribute in the product dictionary, This is a behavior information extraction method for registering the new product category in the new attribute.

この発明の行動情報抽出システム及び抽出方法は、例えばテレビ番組の視聴者等のように、特定の商品等の広告媒体にアクセスした消費者の購買行動やその他の行動についての情報を、自動的に精度よく抽出することができる。そして、この発明の行動情報抽出システム及び抽出方法で得られた統計情報を分析することによって、例えば、広告媒体の制作者等は、スポンサーとして適した企業や業界を容易に知ることができる。また、スポンサーとなる企業等にとっても、消費者に対する宣伝効果が大きい広告媒体を容易に知ることができ、非常に便利である。   The behavior information extraction system and the extraction method according to the present invention automatically acquire information on purchasing behavior and other behaviors of consumers who have accessed an advertising medium such as a specific product such as a viewer of a television program. It can be extracted with high accuracy. Then, by analyzing the statistical information obtained by the behavior information extraction system and the extraction method of the present invention, for example, the creator of the advertising medium can easily know companies and industries suitable as sponsors. In addition, it is very convenient for a sponsoring company or the like to easily know an advertising medium having a large advertising effect on consumers.

特に、消費者の購入商品を、商品の特徴を階層化して定義した商品辞書及び概念辞書を用いて解析することにより、記事毎に抽出した個別の情報を、例えば「本」「小説」「推理小説」というように任意の階層概念で分類することができる。従って、個別の情報を様々な態様に集計することによって、検索ユーザの目的に合った統計情報を自在に得ることができる。   In particular, by analyzing consumer purchases using product and concept dictionaries that define product features in a hierarchical manner, individual information extracted for each article can be converted into, for example, “books”, “novels”, “inferences”. It can be classified by an arbitrary hierarchical concept such as “novel”. Therefore, statistical information suitable for the purpose of the search user can be obtained freely by aggregating individual information in various modes.

また、市販されている具体的な商品に関する情報が、適切な属性を付与して商品辞書に登録されているので、消費者記事から抽出した商品情報が商品名であっても、容易に購入商品を特定することができる。   In addition, since information about specific products on the market is registered in the product dictionary with appropriate attributes, even if the product information extracted from the consumer article is the product name, it is easy to purchase products. Can be specified.

さらに、日々増加する新商品等の情報についても、インターネット通信販売のサイトから定期的に情報を取得し、自動的に商品辞書等に登録することができるので、市場の動向や流行の変化に十分に対応した調査を行うことができる。   In addition, information on new products that increase daily can be obtained periodically from Internet mail order sites and automatically registered in product dictionaries, etc., which is sufficient for changes in market trends and trends. Surveys corresponding to can be conducted.

この発明の行動情報抽出システムの一実施形態の構成を示すブロック図である。It is a block diagram which shows the structure of one Embodiment of the action information extraction system of this invention. この実施形態の動作を説明するフローチャートである。It is a flowchart explaining operation | movement of this embodiment. この実施形態で使用した検出キーワードと抽出した関連記事群を説明する図である。It is a figure explaining the detection keyword used in this embodiment, and the related article group extracted. 図2のステップ12を説明するフローチャートである。It is a flowchart explaining step 12 of FIG. この実施形態のスパムワード辞書と絞込手段の動作を説明する図である。It is a figure explaining the operation | movement of the spam word dictionary of this embodiment, and the narrowing-down means. この実施形態の購入パターンテンプレートと抽出した付属情報及び商品情報を説明する図である。It is a figure explaining the purchase pattern template of this embodiment, the extracted attached information, and merchandise information. 図2のステップS14を説明するフローチャートである。It is a flowchart explaining step S14 of FIG. この実施形態の商品辞書と商品情報特定手段の動作を説明する図である。It is a figure explaining operation | movement of the goods dictionary and goods information specific | specification means of this embodiment. この実施形態の連想概念辞書と商品情報特定手段の動作を説明する図である。It is a figure explaining operation | movement of the associative concept dictionary of this embodiment, and a merchandise information identification means. この実施形態の商品分類概念辞書と商品情報特定手段の動作を説明する図である。It is a figure explaining operation | movement of the goods classification concept dictionary and goods information specific | specification means of this embodiment. この実施形態の商品情報特定手段が特定商品情報を生成する動作を説明する図である。It is a figure explaining the operation | movement in which the goods information specific | specification means of this embodiment produces | generates specific goods information. この実施形態の出力手段が出力する統計情報の一例を示す図である。It is a figure which shows an example of the statistical information which the output means of this embodiment outputs. 情報収集装置の変形例を示すブロック図である。It is a block diagram which shows the modification of an information collection device. この変形例の情報収集装置が商品辞書に新規商品を登録する動作を説明するフローチャートである。It is a flowchart explaining the operation | movement in which the information collection apparatus of this modification registers new goods in a goods dictionary. 図14のステップS21を説明するフローチャートである。It is a flowchart explaining step S21 of FIG. 図14のステップS22を説明するフローチャートである。It is a flowchart explaining step S22 of FIG. 図14のステップS23を説明するフローチャートである。It is a flowchart explaining step S23 of FIG. この発明の行動情報抽出システムの他の実施形態の構成を示すブロック図である。It is a block diagram which shows the structure of other embodiment of the action information extraction system of this invention.

以下、本発明の行動情報抽出システムの一実施形態について、図面に基づいて説明する。この実施形態の行動情報抽出システムは、消費者による商品の購入という行動についての情報を抽出するものである。この実施形態の購入商品情報抽出システム10は、コンピュータシステムにより構成され、特定のテレビ番組を視聴した一般消費者が購入した商品又は購入しようとしている商品(購入商品)についての情報を抽出するシステムである。   Hereinafter, an embodiment of the behavior information extraction system of the present invention will be described with reference to the drawings. The behavior information extraction system of this embodiment extracts information about the behavior of purchasing a product by a consumer. The purchased product information extraction system 10 of this embodiment is configured by a computer system, and is a system that extracts information about a product purchased by a general consumer who has watched a specific television program or a product (purchased product) that is about to be purchased. is there.

購入商品情報抽出システム10は、図1に示すように、インターネット上に開示された種々のWebサイトを検索して、情報を収集する対象となる所定種類のWebサイトについて、文書情報を含む消費者記事を収集する消費者記事収集手段12を有する情報収集装置16を備えている。また、検索ユーザが操作する入出力端末18と、検索ユーザが入力した検索キーワードに基づき、消費者記事収集手段12が収集した消費者記事の中から、解析の対象とする記事を抽出する解析対象記事抽出手段20を備えている。また、特定の解析対象記事の文章から購入商品を特定するための情報を抽出する商品・付属情報抽出手段22と、商品・付属情報抽出手段22が抽出した情報に基づいて購入商品を特定する商品情報特定手段24を備えている。さらに、上記の各手段が所定の処理を行うときに使用するスパムワード辞書26、購入パターンテンプレート28、商品辞書30、概念辞書32を備えている。   As shown in FIG. 1, the purchased product information extraction system 10 searches for various websites disclosed on the Internet and collects document information about a predetermined type of website for which information is collected. An information collecting device 16 having consumer article collecting means 12 for collecting articles is provided. Further, based on the input / output terminal 18 operated by the search user and the search keyword input by the search user, an analysis target for extracting an article to be analyzed from the consumer articles collected by the consumer article collection means 12 Article extraction means 20 is provided. Further, a product / attached information extracting means 22 for extracting information for specifying a purchased product from the text of a specific analysis target article, and a product for specifying a purchased product based on the information extracted by the product / attached information extracting means 22 Information specifying means 24 is provided. Furthermore, a spam word dictionary 26, a purchase pattern template 28, a product dictionary 30, and a concept dictionary 32 that are used when each of the above-described means performs predetermined processing are provided.

消費者記事収集手段12は、消費者が日々の身の回りの出来事を開示した消費者記事を収集する。消費者記事の収集は、検索ユーザが入出力端末18を操作したタイミングで行ってもよいが、検索ユーザの検索時間を短縮するため、あらかじめシステム管理者が定期的に収集して情報収集装置16に蓄積しておくことが好ましい。   The consumer article collection means 12 collects consumer articles in which consumers disclose daily events around them. The collection of consumer articles may be performed at the timing when the search user operates the input / output terminal 18, but in order to shorten the search user's search time, the system administrator periodically collects the information in advance to collect the information. It is preferable to accumulate in

入出力端末18は、検索ユーザが検索キーワードを入力する入力手段18aと、検索結果である購入商品についての情報を出力する出力手段18bで構成されている。ここでは、検索キーワードは、特定のテレビ番組名である。   The input / output terminal 18 includes an input unit 18a for a search user to input a search keyword, and an output unit 18b for outputting information about a purchased product as a search result. Here, the search keyword is a specific television program name.

解析対象記事抽出手段20は、消費者記事収集手段12にアクセスし、入力手段18aに入力された検索キーワードに該当する関連記事を抽出する検索手段20aと、関連記事から販売者が書いたと思われる記事を除いた解析対象記事を抽出する絞込手段20bを備えている。この絞込手段20bが記事を絞り込むときは、商品の販売者が宣伝用の語句として使用する語句がスパムワードとして定義されたスパムワード辞書26を参照する。そして、関連記事の文章全体に占める宣伝用語句の比率が高い記事を除外し、消費者が書いたと思われる記事のみを抽出することによって、解析の対象とする記事を抽出する。   The analysis target article extraction means 20 accesses the consumer article collection means 12 and the search means 20a for extracting the related articles corresponding to the search keyword input to the input means 18a, and the seller seems to have written from the related articles. A narrowing means 20b for extracting analysis target articles excluding articles is provided. When the narrowing-down means 20b narrows down articles, the spam word dictionary 26 in which the words used by the merchant of the product as the words for advertisement are defined as spam words is referred to. Then, an article that is subject to analysis is extracted by excluding articles that have a high proportion of advertising terms in the entire related article text and extracting only articles that the consumer seems to have written.

商品・付属情報抽出手段22は、各解析対象記事を、消費者が商品を購入するときの行動パターンを表す雛型文章が複数設定された購入パターンテンプレート28に当てはめ、いずれかの雛型文章に当てはまる文章を抽出し、抽出した文章の特定部分から商品情報及び付属情報に該当する名詞を抽出する。   The product / attached information extracting unit 22 applies each analysis target article to a purchase pattern template 28 in which a plurality of template sentences representing behavior patterns when a consumer purchases a product is set, and the article / attachment information extracting unit 22 applies to each template sentence. The corresponding sentence is extracted, and nouns corresponding to the product information and the attached information are extracted from the specific part of the extracted sentence.

商品辞書30は、市販されている様々な商品の商品名と、その商品を示す名詞及びその名詞から連想される商品を示す名詞とが、ツリー状の階層構造に定義された属性に互いに対応付けて登録されたデータベースである。   The product dictionary 30 associates product names of various commercially available products, nouns indicating the products, and nouns indicating products associated with the nouns with attributes defined in a tree-like hierarchical structure. Registered database.

概念辞書32は、連想概念辞書32aと商品分類辞書32bとで構成されている。連想概念辞書32aは、様々な商品に関する事柄を示す名詞と、当該名詞から連想される商品に関する事柄を示す名詞とが、ツリー状の階層構造に定義された属性に互いに対応付けて登録されたデータベースである。また、商品分類概念辞書32bは、様々な商品を示す名詞と当該名詞から連想される商品を示す名詞とが、ツリー状の階層構造に定義された属性に互いに対応付けて登録されたデータベースである。   The concept dictionary 32 includes an associative concept dictionary 32a and a merchandise classification dictionary 32b. The associative concept dictionary 32a is a database in which nouns indicating matters related to various products and nouns indicating matters related to products associated with the noun are registered in association with attributes defined in a tree-like hierarchical structure. It is. The product classification concept dictionary 32b is a database in which nouns indicating various products and nouns indicating products associated with the nouns are registered in association with attributes defined in a tree-like hierarchical structure. .

商品情報特定手段24は、商品・付属情報抽出手段22が抽出した商品情報及び付属情報に基づいて商品辞書30及び概念辞書32を参照し、商品情報に関連する属性を抽出して組み合わせ、その商品情報を具体的に特定した特定商品情報を生成する。そして、上記の解析対象記事抽出手段20、商品・付属情報抽出手段22、商品情報特定手段24が行った一連の処理内容を示す情報を、入出力端末18の出力手段18bに送る働きをする。   The merchandise information specifying means 24 refers to the merchandise dictionary 30 and the concept dictionary 32 based on the merchandise information and the accessory information extracted by the merchandise / attached information extracting means 22, extracts and combines attributes related to the merchandise information, and the merchandise Specific product information that specifically identifies the information is generated. The analysis target article extracting unit 20, the product / attachment information extracting unit 22, and the product information specifying unit 24 serve to send information indicating a series of processing contents to the output unit 18b of the input / output terminal 18.

次に、購入商品情報抽出システム10が購入商品に関する情報を取得する動作と抽出方法について、図2のフローチャートに基づいて説明する。まず、検索ユーザが、入力手段18aに検索キーワードである特定のテレビ番組名を入力する(ステップS10)。   Next, the operation | movement and the extraction method in which the purchased merchandise information extraction system 10 acquires the information regarding purchased merchandise are demonstrated based on the flowchart of FIG. First, the search user inputs a specific television program name as a search keyword into the input means 18a (step S10).

テレビ番組名が入力されると、検索手段20aは、消費者記事収集手段12にアクセスし、消費者記事の文章を個々に全文検索し、そのテレビ番組名を文字列として含む消費者記事を関連記事として抽出する(ステップS11)。例えば、検索ユーザがテレビ番組名「のんびり旅日記」を入力すると、図3に示すように、膨大な消費者記事の中から記事1,2,4が関連記事として抽出される。同様に、テレビ番組名「ライブ&ライブ」を入力すると、記事3が関連記事として抽出される。   When the TV program name is input, the search means 20a accesses the consumer article collection means 12, searches the sentence of the consumer article individually in full text, and relates the consumer article including the TV program name as a character string. An article is extracted (step S11). For example, when the search user inputs the television program name “Leisurely Travel Diary”, articles 1, 2, and 4 are extracted as related articles from a large number of consumer articles as shown in FIG. Similarly, when the TV program name “Live & Live” is input, Article 3 is extracted as a related article.

次に、絞込手段20bが、関連記事の中から消費者が書いたと思われる解析対象記事を抽出する(ステップS12)。以下、ステップS12の詳細な処理を、図4のフローチャートを用いて説明する。   Next, the narrowing down means 20b extracts an analysis target article that is considered to have been written by the consumer from related articles (step S12). Hereinafter, the detailed process of step S12 is demonstrated using the flowchart of FIG.

まず、関連記事の文章を形態素解析によって単語に分割する(ステップS121)。そして、関連記事毎に、総単語数αと、スパムワード辞書26に定義されたスパムワードに該当する単語数であるスパムワード数βを取得する(ステップS122)。スパムワード辞書26には、図5に示すように、一般に宣伝用語句として使用されることが多い「無料」「販売」「話題」などのスパムワードがあらかじめ登録されている。スパムワードの定義は厳密である必要はなく、ここでは、システム管理者が経験則等に基づいて設定している。例えば、記事1の場合、総単語数α=13であり、その中にスパムワードが含まれていないので、スパムワード数β=ゼロである。一方、記事4の場合、総単語数α=20であり、その中にスパムワード「話題」「騒然」「掲示板」が含まれているので、スパムワード数β=3である。   First, the sentence of the related article is divided into words by morphological analysis (step S121). Then, for each related article, the total word number α and the spam word number β, which is the number of words corresponding to the spam word defined in the spam word dictionary 26, are acquired (step S122). In the spam word dictionary 26, as shown in FIG. 5, spam words such as “free”, “sales”, and “topic”, which are generally used as advertising term phrases, are registered in advance. The definition of the spam word does not need to be strict, and here, the system administrator sets it based on an empirical rule or the like. For example, in the case of article 1, since the total number of words α = 13 and no spam word is included therein, the number of spam words β = 0. On the other hand, in the case of article 4, since the total number of words α = 20 and the spam words “topic”, “noisy”, and “bulletin board” are included therein, the number of spam words β = 3.

次に、スパムワードの占有率(β/α)の高低を判断する基準値γを選択する(ステップS123)。ここでは、基準値γは一定の数値である10%が選択されている。なお、総単語数αが少ない文章の場合、スパムワード数βが少し存在するだけで占有率(β/α)が高いと判定されてしまう傾向があるので、総単語数αが少ないときは、基準値γとして比較的小さな値が自動選択されるよう調節することが好ましい。   Next, a reference value γ for determining the level of spam word occupancy (β / α) is selected (step S123). Here, the reference value γ is selected to be a constant value of 10%. In the case of a sentence with a small total word number α, there is a tendency that it is determined that the occupancy (β / α) is high with only a small number of spam words β, so when the total word number α is small, It is preferable to adjust so that a relatively small value is automatically selected as the reference value γ.

次に、スパムワードの占有率(β/α)を算出して基準値γを比較し(ステップS124)、スパムワードの占有率(β/α)が基準値γよりも低いときは、「当該関連記事は消費者が書いた記事と思われるので有用である」と判定し、解析対象記事として取り扱う(ステップS125)。一方、スパムワードの占有率(β/α)が基準値γよりも高いときは、「当該関連記事は販売者が書いた記事と思われるので有用ではない」と判定し、以降の解析対象から除外する(ステップS126)。   Next, the spam word occupancy (β / α) is calculated and the reference value γ is compared (step S124). When the spam word occupancy (β / α) is lower than the reference value γ, It is determined that the related article is useful because it seems to be an article written by a consumer, and is handled as an analysis target article (step S125). On the other hand, if the spam word occupancy (β / α) is higher than the reference value γ, it is determined that the relevant article is not useful because it seems to be an article written by the seller, Exclude (step S126).

次に、図2のフローチャートに戻り、ステップS12で抽出された解析対象記事を、商品・付属情報抽出手段22に送って解析する。解析対象記事を受けた商品・付属情報抽出手段22は、解析対象記事の文章を購入パターンテンプレート28に当てはめ、商品情報と付属情報を抽出する(ステップ13)。購入パターンテンプテート28は、図6に示すように、「○○○のために△△△を買った」「○○○へ△△△を買いに行く」といった、消費者が商品を購入する時の行動パターンを示す複数の雛型文章が登録されている。そして、解析対象記事の文章を雛型文章に当てはめ、「△△△」に該当する部分の名詞を商品情報として抽出し、「○○○」に該当する部分の名詞を付属情報として抽出する。例えば、記事1の場合、「旅行のために「日本の名城100選」を買った」の文章が雛型文章T1に当てはまり、商品情報「日本の名城100選」と付属情報「旅行」を抽出する。同様に、記事3の場合、「BBB楽器店へキーボードを買いに行く」の文章が雛型文章T3に当てはまり、商品情報「キーボード」と付属情報「BBB楽器店」を抽出する。   Next, returning to the flowchart of FIG. 2, the analysis target article extracted in step S <b> 12 is sent to the product / attached information extraction means 22 for analysis. Upon receiving the analysis target article, the product / attachment information extraction unit 22 applies the sentence of the analysis target article to the purchase pattern template 28 and extracts the product information and the accessory information (step 13). In the purchase pattern template 28, as shown in FIG. 6, a consumer purchases a product such as “Bought △△△ for XXX” or “Go to XXX to buy △△△”. A plurality of template sentences indicating the action pattern of the hour are registered. Then, the sentence of the analysis target article is applied to the template sentence, the noun corresponding to “ΔΔΔ” is extracted as product information, and the noun corresponding to “XXX” is extracted as attached information. For example, in the case of article 1, the sentence “Bought“ 100 famous castles in Japan ”for travel” is applied to the template sentence T1, and product information “100 selected castles in Japan” and attached information “travel” are extracted. To do. Similarly, in the case of article 3, the sentence “go to buy a keyboard to the BBB musical instrument store” applies to the template sentence T3, and product information “keyboard” and attached information “BBB musical instrument store” are extracted.

次に、解析対象記事毎に抽出された商品情報と付属情報は、商品情報特定手段24に送られて解析される。商品情報と付属情報を受けた商品情報特定手段24は、商品情報を具体的に特定した特定商品情報を生成する(ステップS14)。以下、ステップS14の詳細な処理を、図7のフローチャートを用いて説明する。   Next, the product information and attached information extracted for each analysis target article are sent to the product information specifying means 24 and analyzed. Upon receiving the product information and the attached information, the product information specifying unit 24 generates specific product information that specifically specifies the product information (step S14). Hereinafter, the detailed processing of step S14 will be described using the flowchart of FIG.

まず、商品辞書30を参照し、解析対象記事の商品情報が属性(商品名)として登録されているか調べる(ステップS141)。商品辞書30は、例えば図8に示すように、「幕末と私」という商品名と、その商品を示す名詞及び連想される商品を示す名詞である「本」「エッセイ」「歴史」「地理」が、ツリー状の階層構造に定義された属性に互いに対応付けて登録されている。商品名「日本の名城100選」についても同様に、属性「本」「ガイドブック」「旅行」が互いに対応付けて登録されている。   First, the product dictionary 30 is referenced to check whether the product information of the analysis target article is registered as an attribute (product name) (step S141). For example, as shown in FIG. 8, the product dictionary 30 includes a product name “Bakumatsu and I”, a noun indicating the product and nouns indicating associated products, “book”, “essay”, “history”, “geography”. Are registered in association with attributes defined in a tree-like hierarchical structure. Similarly, for the product name “100 famous castles in Japan”, the attributes “book”, “guidebook”, and “travel” are registered in association with each other.

例えば、記事1の場合、商品情報が「日本の名城100選」なので、商品辞書30の属性(商品名)に登録されている。従って、「日本の名城100選」についての商品特定属性として「本」「ガイドブック」「旅行」を抽出する(ステップS142)。そして、これらの商品特定属性を組み合わせることによって、記事1の商品情報「日本の名城100選」が旅行のガイドブックであると特定し、特定商品情報「旅行のガイドブック」を生成する(ステップS143)。一方、記事2の場合、商品情報が「ガイドブック」であり、商品辞書30の属性(商品名)に登録されていないので、ステップS144に進む。   For example, in the case of article 1, since the product information is “100 selections of Japanese famous castles”, it is registered in the attribute (product name) of the product dictionary 30. Therefore, “book”, “guidebook”, and “travel” are extracted as the product identification attributes for “100 famous castles in Japan” (step S142). Then, by combining these product specifying attributes, the product information “100 famous castles in Japan” of the article 1 is specified as a travel guidebook, and specific product information “travel guidebook” is generated (step S143). ). On the other hand, in the case of article 2, since the product information is “guidebook” and is not registered in the attribute (product name) of the product dictionary 30, the process proceeds to step S144.

記事2のように、商品辞書30に商品情報が属性(商品名)に登録されていない場合、連想概念辞書32aを参照し、付属情報がいずれかの属性に登録されているかを調べ、登録されていれば、その属性に対応付けられた他の属性も合わせて付属属性として抽出する(ステップS144)。連想概念辞書32aは、例えば図9に示すように、「旅行」という商品に関する事柄を示す名詞と、「目的地」「地名」「日本」という「旅行」から連想される商品に関する事柄を示す名詞とが、ツリー状の階層構造に定義された属性に互いに対応付けて登録されている。同様に、「旅行」「移動手段」「飛行機」という属性の対応付けもある。   When the product information is not registered in the product dictionary 30 as the attribute (product name) as in the article 2, the association concept dictionary 32a is referred to check whether the attribute information is registered in any attribute. If so, other attributes associated with the attribute are also extracted as attached attributes (step S144). For example, as shown in FIG. 9, the association concept dictionary 32 a is a noun indicating a matter related to a product “travel” and a noun indicating a matter related to a product “destination” “location” “location” “Japan”. Are registered in association with attributes defined in a tree-like hierarchical structure. Similarly, there is also an association of attributes “travel”, “transportation means”, and “airplane”.

例えば、記事2の場合、付属情報が「九州」なので、「旅行」「目的地」「地名」「九州」という付属属性を抽出する。一方、記事3の場合、付属情報が「BBB楽器店」なので、連想概念辞書32aに属性として登録されておらず、付属属性は無しとなる。   For example, in the case of article 2, since the attached information is “Kyushu”, the attached attributes “travel”, “destination”, “place name”, and “Kyushu” are extracted. On the other hand, in the case of article 3, since the attached information is “BBB musical instrument store”, it is not registered as an attribute in the associative concept dictionary 32a, and there is no attached attribute.

次に、商品分類概念辞書32bを参照し、商品情報がいずれかの属性に登録されているかを調べ、登録されていれば、その属性に対応付けられた他の属性も合わせて商品属性として抽出する(ステップS145)。商品分類概念辞書32bは、例えば図10に示すように、「本」という商品を示す名詞と、「ガイドブック」「旅行」のように「本」から連想される商品を示す名詞とが、ツリー状の階層構造に定義された属性に互いに対応付けて登録されている。同様に、「本」「小説」「推理」という対応付けもある。   Next, with reference to the merchandise classification concept dictionary 32b, it is checked whether or not merchandise information is registered in any attribute. If registered, other attributes associated with the attribute are also extracted as merchandise attributes. (Step S145). For example, as shown in FIG. 10, the product classification concept dictionary 32b includes a noun indicating a product “book” and a noun indicating a product associated with “book” such as “guidebook” and “travel”. Are registered in association with attributes defined in a hierarchical structure. Similarly, there is a correspondence of “book”, “novel”, and “inference”.

例えば、記事2の場合、商品情報が「ガイドブック」なので、「本」「ガイドブック」「旅行」「テレビ番組」「薬」「医療・福祉」という商品属性を抽出する。一方、記事3の場合、商品情報が「キーボード」なので、商品分類概念辞書32bに属性として登録されておらず、商品属性は無しとなる。   For example, in the case of article 2, since the product information is “guide book”, product attributes “book”, “guide book”, “travel”, “television program”, “medicine”, and “medical / welfare” are extracted. On the other hand, in the case of article 3, since the product information is “keyboard”, it is not registered as an attribute in the product classification concept dictionary 32b, and there is no product attribute.

次に、ステップS144で抽出した付属属性と、ステップS145で抽出した商品属性を比較し、両方の属性に共通して存在する属性があるかを調べる(ステップS146)。例えば、記事2の場合、図11(a)に示すように、「旅行」という属性が共通しているので、「旅行」を商品特定属性として抽出する(ステップS147)。そして、商品特定属性「旅行」により、商品情報「ガイドブック」が旅行のガイドブックであると特定し、特定商品情報「旅行のガイドブック」を生成する(ステップS143)。一方、記事3の場合、商品属性と付属属性が無いので、ステップS148に進む。   Next, the attached attribute extracted in step S144 is compared with the product attribute extracted in step S145 to check whether there is an attribute that is common to both attributes (step S146). For example, in the case of article 2, as shown in FIG. 11A, since the attribute “travel” is common, “travel” is extracted as a product specifying attribute (step S147). Then, the product information “guide book” is specified as a travel guide book by the product specification attribute “travel”, and the specific product information “travel guide book” is generated (step S143). On the other hand, in the case of article 3, since there are no product attribute and attached attribute, the process proceeds to step S148.

記事3のように、付属属性と商品属性の両方の属性に共通して存在する属性がない場合、図11(b)に示すように、商品情報「キーボード」をそのまま特定商品情報「キーボード」とする。すなわち、この特定商品情報「キーボード」には、電子楽器であるキーボードとパーソナル・コンピュータ用のキーボードが含まれ、以後、これらを区別せずに同類の情報として取り扱うことになる。なお、この取り扱いが好ましくないとシステム管理者が判断すれば、概念辞書32の「キーボード」に関連する属性の定義を修正すれば、容易に改善することができる。   When there is no attribute that is common to both the attached attribute and the product attribute as in the article 3, as shown in FIG. 11B, the product information “keyboard” is directly used as the specific product information “keyboard”. To do. In other words, the specific product information “keyboard” includes a keyboard which is an electronic musical instrument and a keyboard for a personal computer, which will be treated as similar information without distinction thereafter. If the system administrator determines that this handling is not preferable, the definition can be easily improved by correcting the definition of the attribute related to the “keyboard” in the concept dictionary 32.

次に、図2のフローチャートに戻り、ステップS11〜S14で行った消費者記事毎の解析内容が、商品情報特定手段24から出力手段18bに送られ、出力手段18bがその解析内容を所定の形式に整理して出力する(ステップS15)。例えば、検索ユーザが、テレビ番組「のんびり旅日記」の視聴者の購入商品について知りたいとき、出力手段18bは、図12(a)(b)に示すように、「のんびり旅日記」に該当する解析対象記事の件数とその記事から取得した特定商品情報とを集計した統計情報を出力することができる。また、出力の形式は、検索ユーザが入出力端末18を操作することによって、自由に変更することができる。   Next, returning to the flowchart of FIG. 2, the analysis contents for each consumer article performed in steps S11 to S14 are sent from the product information specifying means 24 to the output means 18b, and the output means 18b converts the analysis contents into a predetermined format. Are arranged and output (step S15). For example, when the search user wants to know the purchased product of the viewer of the TV program “Leisurely Travel Diary”, the output means 18b corresponds to “Leisurely Travel Diary” as shown in FIGS. Statistical information obtained by aggregating the number of articles to be analyzed and specific product information acquired from the articles can be output. The output format can be freely changed by the search user operating the input / output terminal 18.

以上説明したように、購入商品情報抽出システム10及びその抽出方法は、スパムワード辞書26によって、商業的なWebサイト等の個人的なサイトからの情報ではないノイズ情報を除外し、さらに、消費者が購入した商品を検索する用途に特化して設けられた購入パターンテンプレート28や各種辞書を使用することによって、テレビ番組を視聴した消費者の購入商品について、精度の高い情報を自動的に抽出することができる。   As described above, the purchased product information extraction system 10 and the extraction method exclude the noise information that is not information from a personal site such as a commercial website by the spam word dictionary 26, and further, consumers By using a purchase pattern template 28 and various dictionaries specially designed for searching for products purchased by customers, information on products purchased by consumers who have watched TV programs is automatically extracted with high accuracy. be able to.

また、消費者の購入商品を、商品の特徴を階層化して定義した商品辞書30や概念辞書32を用いて解析するため、消費者記事毎の個別情報を、系統的に整理された形で抽出することができる。従って、例えば書籍に関する複数の個別情報を集計するとき、「本」「小説」「推理小説」「探偵ものの推理小説」というように任意の階層概念で分類することができる。これにより、出力手段18bは、得られた購入商品に関する個別情報を様々な態様に集計し、検索ユーザの目的に合った統計情報を自在に出力することができる。   Moreover, in order to analyze the consumer's purchased products using the product dictionary 30 and the concept dictionary 32 defined by hierarchizing product characteristics, individual information for each consumer article is extracted in a systematically organized form. can do. Therefore, for example, when a plurality of pieces of individual information related to a book are aggregated, they can be classified by an arbitrary hierarchical concept such as “book”, “novel”, “reasonable novel”, or “detective novel reasoning novel”. Thereby, the output means 18b can total the individual information regarding the obtained purchased product in various modes, and can freely output statistical information suitable for the purpose of the search user.

また、市販されている具体的な商品の情報が、適切な属性を付与して商品辞書30に登録されているので、消費者記事から抽出した商品情報が具体的な商品名であっても、容易に購入商品を特定することができる。   Moreover, since the information of the specific product marketed is given the appropriate attribute and registered in the product dictionary 30, even if the product information extracted from the consumer article is a specific product name, The purchased product can be easily identified.

そして、購入商品情報抽出システム10及び抽出方法で得られた統計情報を分析することによって、テレビ番組のような商品広告媒体の制作者等は、スポンサーとして適した企業や業界を容易に知ることができる。また、スポンサーとなる企業等も、消費者に対する宣伝効果が大きい商品広告媒体を容易に知ることができる。   Then, by analyzing the statistical information obtained by the purchased product information extraction system 10 and the extraction method, producers of product advertisement media such as TV programs can easily know companies and industries suitable as sponsors. it can. In addition, a sponsor company can easily know a product advertisement medium having a large advertising effect on consumers.

次に、上述した購入商品情報抽出システム10の情報収集装置16の変形例である情報収集装置40について、図13〜図17に基づいて説明する。情報収集装置40は、インターネットの消費者記事を収集する消費者記事収集手段12に加え、インターネットの通信販売サイトにアクセスし、市販されている商品の情報を収集し、商品辞書30に新たに登録する働きをする通信販売情報収集装置42を備えている。   Next, an information collection device 40, which is a modification of the information collection device 16 of the purchase product information extraction system 10 described above, will be described with reference to FIGS. In addition to the consumer article collection means 12 that collects consumer articles on the Internet, the information collection device 40 accesses the Internet mail order site, collects information on commercially available products, and newly registers in the product dictionary 30. A mail order information collecting device 42 is provided.

通信販売情報収集装置42は、通信販売サイト個々の階層構造を解析するサイト構造解析手段42aと、その階層構造の最下層のページを解析する最下層ページ解析手段42bと、サイト構造解析手段42aと最下層ページ解析手段42bで解析した情報を商品辞書30に登録する商品辞書登録手段42cとで構成されている。   The mail order information collecting device 42 includes a site structure analyzing unit 42a for analyzing the hierarchical structure of each mail order site, a lowermost layer page analyzing unit 42b for analyzing the lowermost page of the hierarchical structure, and a site structure analyzing unit 42a. The product dictionary registration unit 42c registers the information analyzed by the lowest layer page analysis unit 42b in the product dictionary 30.

次に、通信販売情報収集装置42の動作を、図14のフローチャートに基づいて説明する。まず、サイト階層構造解析手段42aが通信販売サイトにアクセスする(ステップS20)。そして、メニュー部分の表示に着眼してサイト構造を解析し、階層毎に付与された商品カテゴリを認識する(ステップS21)。以下、ステップS21の詳細な処理を、図15のフローチャートを用いて説明する。   Next, the operation of the mail order information collecting apparatus 42 will be described based on the flowchart of FIG. First, the site hierarchical structure analyzing means 42a accesses the mail order site (step S20). Then, the site structure is analyzed focusing on the display of the menu portion, and the product category assigned to each hierarchy is recognized (step S21). Hereinafter, the detailed processing of step S21 will be described using the flowchart of FIG.

まず、メニュー部分に表示されるHTML(Hyper Text Markup Language)データを取得する(ステップS211)。次に、そのHTMLデータのうち、所定のタグに囲まれた文字列を商品カテゴリ候補として抽出する(ステップS212)。例えば、<div>タグや<li>タグなどで囲まれた文字列である名詞を商品カテゴリ候補にするとよい。そして、商品カテゴリ候補の文字列から商品のサイズや色を示す文字列を削除した文字列を抽出し、当該階層の商品カテゴリとして当該階層構造の情報と共に認識する(ステップS213)。   First, HTML (Hyper Text Markup Language) data displayed in the menu part is acquired (step S211). Next, in the HTML data, a character string surrounded by a predetermined tag is extracted as a product category candidate (step S212). For example, a noun that is a character string surrounded by <div> tags, <li> tags, or the like may be used as a product category candidate. And the character string which deleted the character string which shows the size and color of goods from the character string of a goods category candidate is extracted, and it recognizes with the information of the said hierarchical structure as a goods category of the said hierarchy (step S213).

次に、図14のフローチャートに戻り、最下層ページ解析手段42bが、ステップS21で認識した階層構造の最下層のページを解析し、販売されている商品の商品名を抽出する(ステップS22)。以下、ステップS22の詳細な処理を、図16のフローチャートを用いて説明する。   Next, returning to the flowchart of FIG. 14, the bottom layer page analyzing means 42b analyzes the bottom layer page of the hierarchical structure recognized in step S21, and extracts the product names of the sold products (step S22). Hereinafter, the detailed processing of step S22 will be described using the flowchart of FIG.

まず、最下層ページの本文部分に表示された商品一覧のHTMLデータを取得する(ステップS221)。次に、そのHTMLデータのうち、所定のタグに囲まれた文字列である名詞をリンク付き商品イメージとして抽出する。例えば、<image>タグや、他ページへのリンクを設定する<a>タグなどで囲まれた文字列をリンク付き商品イメージとするとよい。次に、リンク付き商品イメージの文字列のうち、前後の文字列が強調表示されている文字列を選択する(ステップS223)。例えば、<h1>タグや<font>タグなどで囲まれた文字列が該当する。そして、リンク付き商品イメージの文字列から商品のサイズや型番などを示す文字列を削除した文字列である名詞を抽出し、商品名として認識する(ステップS224)。   First, the HTML data of the product list displayed in the body part of the lowest page is acquired (step S221). Next, a noun that is a character string surrounded by a predetermined tag is extracted from the HTML data as a linked product image. For example, a character string surrounded by an <image> tag or an <a> tag for setting a link to another page may be used as a linked product image. Next, a character string in which the preceding and following character strings are highlighted is selected from the character strings of the linked product image (step S223). For example, a character string enclosed by <h1> tag, <font> tag, or the like is applicable. And the noun which is a character string which deleted the character string which shows the size, model number, etc. of a product from the character string of the product image with a link is extracted and recognized as a product name (step S224).

次に、図14のフローチャートに戻り、商品辞書登録手段42cが、ステップS21,S22で認識した新たな商品名と商品カテゴリを、商品辞書30に登録する(ステップS23)。以下、ステップS23の詳細な処理を、図17のフローチャートを用いて説明する。   Next, returning to the flowchart of FIG. 14, the merchandise dictionary registration means 42c registers the new merchandise name and merchandise category recognized in steps S21 and S22 in the merchandise dictionary 30 (step S23). Hereinafter, the detailed processing of step S23 will be described using the flowchart of FIG.

まず、抽出した新たな商品名を、図8に示す商品辞書30の属性(商品名)に登録する(ステップS231)。次に、その商品名に対応付けられた商品カテゴリが、商品辞書30の他の属性に定義されているかを調べる(ステップS232)。定義されている場合は、商品カテゴリをその商品名に対応付け、該当する属性に登録する(ステップS233)。一方、定義されていない場合は、商品辞書30に該当する属性を新たに定義し(ステップS234)、商品カテゴリをその商品名に対応付け、新たに定義した属性に登録する(ステップ235)。   First, the extracted new product name is registered in the attribute (product name) of the product dictionary 30 shown in FIG. 8 (step S231). Next, it is checked whether the product category associated with the product name is defined in another attribute of the product dictionary 30 (step S232). If defined, the product category is associated with the product name and registered in the corresponding attribute (step S233). On the other hand, if not defined, an attribute corresponding to the product dictionary 30 is newly defined (step S234), a product category is associated with the product name, and registered in the newly defined attribute (step 235).

このように、情報収集装置40を備えた購入商品情報収集装置10は、日々増加する新商品の情報についても、インターネット通信販売のWebサイトから定期的に情報を取得し、自動的に商品辞書30に登録・更新されるので、市場の動向や流行の変化に十分に対応した調査を行うことができる。   In this way, the purchased product information collection device 10 provided with the information collection device 40 periodically obtains information about new product information that increases daily from the Internet mail order website, and the product dictionary 30 automatically. It is possible to conduct surveys that fully respond to changes in market trends and trends.

この発明の行動情報抽出システム及び抽出方法は上記実施形態に限定されるものではなく、例えば、商品の購入以外に、観光や鑑賞等の目的で何らかの行動対象を見に何処かへ行くと言う行動や、家族や友人と旅行に出かける等の行動についても同様に抽出することができる。以下、上述の購入動作に加えてその他の行動を含む実施形態である行動情報抽出システム50について、図18のブロック図に基づいて説明する。ここで、上記実施形態と同様の構成は同一の符号を付して説明を省略する。   The behavior information extraction system and the extraction method of the present invention are not limited to the above-described embodiment. For example, in addition to purchasing a product, an action of going somewhere to see some action target for the purpose of sightseeing or appreciation. It is also possible to extract actions such as going on a trip with family and friends. Hereinafter, the behavior information extraction system 50, which is an embodiment including other behaviors in addition to the purchase operation described above, will be described based on the block diagram of FIG. Here, the same components as those in the above embodiment are denoted by the same reference numerals, and description thereof is omitted.

この実施形態の行動情報抽出システム50は、上記実施形態の購入商品情報抽出システム10の構成を含むものであって、特定の解析対象記事の文章中から商品購入行動を含む種々の行動情報を抽出するものである。この行動情報抽出システム50は、行動情報の抽出における行動対象(この発明では、物の他、人や抽象的なものも含むものである。)を特定するための情報を抽出する行動対象・付属情報抽出手段52と、行動対象・付属情報抽出手段52が抽出した情報に基づいて行動対象を特定する行動対象情報特定手段54を備えている。   The behavior information extraction system 50 of this embodiment includes the configuration of the purchased product information extraction system 10 of the above embodiment, and extracts various behavior information including product purchase behavior from the text of a specific analysis target article. To do. The behavior information extraction system 50 extracts behavior target / attached information for extracting information for specifying a behavior target in behavior information extraction (in the present invention, a person or an abstract thing is included in addition to an object). Means 52 and action target information specifying means 54 for specifying the action target based on the information extracted by the action target / attached information extracting means 52 are provided.

行動対象・付属情報抽出手段52は、商品・付属情報抽出手段22を含むものであり、上記実施形態と同様に、購入パターンテンプレート28を含む行動パターンテンプレート56を参照可能に設けられている。行動パターンテンプレート56は、「〜を見に、〜へ行った。」や、「〜と、〜へ行った。」等の、何らかの対象を認識して行動するパターンのテンプレートを備える。そして、行動対象・付属情報抽出手段52は、各解析対象記事を、消費者が行動するときの行動パターンを表す雛型文章が複数設定された行動パターンテンプレート56に当てはめ、いずれかの雛型文章に当てはまる文章を抽出し、抽出した文章の特定部分から行動対象情報及び付属情報に該当する名詞を抽出する。   The action target / attached information extracting means 52 includes the product / attached information extracting means 22 and is provided so as to be able to refer to the action pattern template 56 including the purchase pattern template 28 as in the above embodiment. The behavior pattern template 56 includes a template of a pattern that recognizes some object and acts, such as “I went to to see” or “I went to”. Then, the action target / attached information extraction unit 52 applies each analysis target article to the action pattern template 56 in which a plurality of template sentences representing the action patterns when the consumer acts are set, and any of the template sentences Sentences that fall under are extracted, and nouns corresponding to action target information and attached information are extracted from specific parts of the extracted sentences.

また、行動対象情報特定手段54は商品情報特定手段24を含むもので、上記実施形態と同様に、各種辞書を参照する。行動対象情報特定手段54が参照する辞書には、上記実施形態の商品辞書30に加えて、商品辞書30が含まれる行動対象辞書58がある。行動対象辞書58は、商品辞書30と同様に、行動対象となり得る様々な認識物の名前と、その認識物を示す名詞及びその名詞から連想されるものを示す名詞とが、ツリー状の階層構造に定義された属性に互いに対応付けて登録されたデータベースである。   The action target information specifying unit 54 includes the product information specifying unit 24, and refers to various dictionaries as in the above embodiment. The dictionary referred to by the action target information specifying unit 54 includes an action target dictionary 58 including the product dictionary 30 in addition to the product dictionary 30 of the above embodiment. Similar to the product dictionary 30, the action target dictionary 58 has a tree-like hierarchical structure in which names of various recognized objects that can be action objects, nouns indicating the recognized objects, and nouns associated with the nouns. This is a database registered in association with the attributes defined in.

概念辞書32は、連想概念辞書32aと、商品分類概念辞書32bを含む行動対象分類概念辞書32cを備えている。行動物分類概念辞書32cは、様々な認識物を示す名詞と当該名詞から連想されるものを示す名詞とが、ツリー状の階層構造に定義された属性に互いに対応付けて登録されたデータベースである。   The concept dictionary 32 includes an associative concept dictionary 32a and an action target classification concept dictionary 32c including a product classification concept dictionary 32b. The line animal classification concept dictionary 32c is a database in which nouns indicating various recognized objects and nouns indicating things associated with the nouns are registered in association with attributes defined in a tree-like hierarchical structure. .

さらに、行動対象情報特定手段54には、種々の行動を示す名詞を記録した行動辞書60が参照可能に設けられている。行動辞書60は、行動名と当該行動を示す名詞及び当該名詞に関連する行動を示す名詞とが、階層構造に定義された属性に互いに対応付けて登録されて成るものである。   Further, the action target information specifying means 54 is provided with an action dictionary 60 in which nouns indicating various actions are recorded so as to be referred to. The behavior dictionary 60 is configured by registering an action name, a noun indicating the action, and a noun indicating an action related to the noun in association with attributes defined in the hierarchical structure.

この実施形態の解析対象記事抽出手段20は、上記実施形態と同様に、絞込手段20bにより、商品やその他の行動対象を扱う業者が宣伝用の語句として使用する語句がスパムワードとして定義されたスパムワード辞書26を参照して、関連記事の文章全体に占める宣伝用語句の比率が高い記事を除外し、行動対象・付属情報抽出手段52により、消費者が書いたと思われる記事のみを抽出し、解析の対象とする。   In the analysis target article extraction unit 20 of this embodiment, as in the above embodiment, the narrowing unit 20b defines a word or phrase used as a promotion word by a merchant that handles products or other action targets as a spam word. By referring to the spam word dictionary 26, articles having a high ratio of advertising terms in the entire related article text are excluded, and only the articles that the consumer seems to have written are extracted by the action target / attached information extraction means 52. , Subject to analysis.

そして、行動対象情報特定手段54は、行動対象・付属情報抽出手段52が抽出した行動対象情報及び付属情報等に基づいて、行動辞書60と行動対象辞書58及び概念辞書32を参照し、行動対象情報に関連する属性を抽出して組み合わせ、その行動対象情報と行動を具体的に特定した特定行動対象情報を生成する。さらに、上記の解析対象記事抽出手段20、行動対象・付属情報抽出手段52、行動対象情報特定手段54が行った一連の処理内容を示す情報を、入出力端末18の出力手段18bに送る働きをする。これにより、商品の購入に加えて、それ以外の種々の消費者行動についても、消費者の行動パターンを抽出し、分析することができる。   Then, the action target information specifying unit 54 refers to the action dictionary 60, the action target dictionary 58, and the concept dictionary 32 based on the action target information extracted by the action target / attached information extraction unit 52, the attached information, and the like. The attribute related information is extracted and combined, and the specific action target information that specifically specifies the action target information and the action is generated. Furthermore, the above-mentioned analysis target article extracting means 20, action target / attached information extracting means 52, and action target information specifying means 54 send information indicating a series of processing contents to the output means 18b of the input / output terminal 18. To do. Thereby, in addition to the purchase of merchandise, consumer behavior patterns can be extracted and analyzed for various other consumer behaviors.

なお、この発明の行動情報抽出システム及び抽出方法は、テレビやラジオ番組の視聴者、雑誌等の購読者、各種施設の使用者など、様々な広告媒体にアクセスした消費者の行動についての情報を抽出するシステム又は抽出方法であり、行動辞書や行動対象辞書、概念辞書等は、上記のそれぞれの用途に適した異なる内容の辞書を複数設けてもよい。   The behavior information extraction system and the extraction method of the present invention provide information on the behavior of consumers who have accessed various advertising media, such as viewers of television and radio programs, subscribers of magazines, users of various facilities, and the like. In the extraction system or extraction method, the action dictionary, the action target dictionary, the concept dictionary, and the like may be provided with a plurality of dictionaries having different contents suitable for the respective uses.

また、通信販売情報収集装置の商品辞書登録手段は、通信販売サイトを解析して得た商品カテゴリの文字列を、シソーラス辞書を使用して変換し、変換後の文字列が既に商品辞書に属性として登録されていれば、その変換後の文字列を商品カテゴリに代えて商品辞書に登録してもよい。また、商品分類概念辞書等の階層構造は、商品辞書等の属性の階層構造と必ずしも一致している必要はないが、商品辞書の属性(商品名)を除く他の属性について同様の構成にしてもよい。そうすれば、商品分類概念辞書等と商品辞書等が互いに同様の性能を維持しながら更新されるので、購入商品情報抽出等の品質や性能が安定し、システム管理者によるメンテナンスも容易になる。   Further, the merchandise dictionary registration means of the mail order information collection device converts the character string of the merchandise category obtained by analyzing the mail order site using the thesaurus dictionary, and the converted character string is already attributed to the merchandise dictionary. May be registered in the product dictionary instead of the product category. In addition, the hierarchical structure of the product classification concept dictionary and the like does not necessarily match the hierarchical structure of the attributes of the product dictionary, but the same configuration is used for the other attributes except the product dictionary attribute (product name). Also good. By doing so, the merchandise classification concept dictionary and the merchandise dictionary are updated while maintaining the same performance, so the quality and performance of the purchased merchandise information extraction and the like are stabilized, and maintenance by the system administrator is facilitated.

10 購入商品情報抽出システム
12 消費者記事収集手段
16 情報収集装置
18 入出力端末
18a 入力手段
18b 出力手段
20 解析対象記事抽出手段
20a 検索手段
20b 絞込手段
22 商品・付属情報抽出手段
24 商品情報特定手段
26 スパムワード辞書
28 購入パターンテンプレート
30 商品辞書
32 概念辞書
32a 連想概念辞書
32b 商品分類概念辞書
40 情報収集手段
42 通信販売情報収集装置
42a サイト階層構造解析手段
42b 最下層ページ解析手段
42c 商品辞書登録手段
52 行動対象・付属情報抽出手段
54 行動対象情報特定手段
56 行動パターンテンプレート
DESCRIPTION OF SYMBOLS 10 Purchase goods information extraction system 12 Consumer article collection means 16 Information collection apparatus 18 Input / output terminal 18a Input means 18b Output means 20 Analysis object article extraction means 20a Search means 20b Narrowing means 22 Goods / attached information extraction means 24 Product information specification Means 26 Spam word dictionary 28 Purchase pattern template 30 Product dictionary 32 Concept dictionary 32a Association concept dictionary 32b Product classification concept dictionary 40 Information collection means 42 Mail order information collection device 42a Site hierarchy structure analysis means 42b Bottom layer page analysis means 42c Product dictionary registration Means 52 Action target / attached information extraction means 54 Action target information specifying means 56 Action pattern template

Claims (20)

コンピュータシステムにより構成され、消費者により日々の身の回りの出来事が書かれた消費者記事が開示されているインターネット上のWebサイトにアクセスし、検索ユーザが入力した検索キーワードに基づいて検索処理を行い、収集した消費者記事の中から、当該検索キーワードに適合する消費者の行動に関する情報を抽出し、出力する行動情報抽出システムにおいて、
前記Webサイトにアクセスし前記消費者記事を収集する消費者記事収集手段を有する情報収集装置と、
検索ユーザが検索キーワードを入力する入力手段と、検索処理の結果得られた消費者の行動に関する情報を所定の形式で出力する出力手段とを有する入出力端末と、
前記消費者記事収集手段が収集した消費者記事毎に文章を解析し、当該文章中に前記検索キーワードを含んだ消費者記事を関連記事として抽出する検索手段と、前記関連記事から、当該記事の文章中に宣伝用語句を含む割合が低いものを解析対象記事として抽出する絞込手段とが設けられた解析対象記事抽出手段と、
前記解析対象記事毎に文章を解析し、消費者が何らかの行動をするときの行動情報を表す文章部分から、消費者行動の行動対象を示す名詞である行動対象情報と、当該行動対象に関連する事柄を示す名詞である付属情報とを抽出する行動対象・付属情報抽出手段と、
前記行動の行動対象を示す名詞と、当該名詞に関連する行動対象を示す名詞とが階層構造に定義された属性に互いに対応付けて登録されて成る行動対象辞書と、
前記行動の行動対象を示す名詞と、当該名詞から連想される連想概念を示す名詞とが、階層構造に定義された属性に互いに対応付けて登録されて成る概念辞書と、
前記解析対象記事毎に前記行動対象辞書又は前記概念辞書を参照し、前記行動対象・付属情報抽出手段が抽出した前記行動対象情報及び前記付属情報に対応する属性を抽出して組み合わせることによって、当該行動対象情報に該当する行動対象と行動を具体的に特定した特定情報を生成するとともに、上記の一連の処理内容を前記入出力端末の前記出力手段に送る行動対象情報特定手段とを備えたことを特徴とする行動情報抽出システム。
It is configured by a computer system, accesses a website on the Internet where a consumer article in which daily events are written by a consumer is disclosed, performs a search process based on a search keyword input by a search user, In the behavior information extraction system that extracts and outputs information on consumer behavior that matches the search keyword from the collected consumer articles,
An information collection device having consumer article collection means for accessing the website and collecting the consumer articles;
An input / output terminal having an input means for a search user to input a search keyword, and an output means for outputting information relating to consumer behavior obtained as a result of the search processing in a predetermined format;
A sentence is analyzed for each consumer article collected by the consumer article collection means, and a search means for extracting a consumer article containing the search keyword in the sentence as a related article; Analytical article extraction means provided with a narrowing means for extracting as articles to be analyzed those articles that contain a low proportion of advertising terms in the text,
Analyzing sentences for each of the analysis target articles, from the sentence part representing the behavior information when the consumer performs some action, the action target information that is a noun indicating the action target of the consumer action and the action target Action object / attachment information extracting means for extracting attached information that is a noun indicating a matter;
An action object dictionary in which a noun indicating an action object of the action and a noun indicating an action object related to the noun are registered in association with attributes defined in a hierarchical structure;
A concept dictionary in which a noun indicating an action target of the action and a noun indicating an associative concept associated with the noun are registered in association with attributes defined in a hierarchical structure;
By referring to the action target dictionary or the concept dictionary for each analysis target article and extracting and combining the action target information extracted by the action target / attached information extraction unit and the attribute corresponding to the attached information, Action target information specifying means for generating specific information that specifically specifies the action target and action corresponding to the action target information and sending the above-described series of processing contents to the output means of the input / output terminal An action information extraction system characterized by
前記行動対象情報特定手段には、行動名と当該行動を示す名詞及び当該名詞に関連する行動を示す名詞とが、階層構造に定義された属性に互いに対応付けて登録されて成る行動辞書が参照可能に設けられ、前記行動対象情報特定手段は前記行動辞書を参照して、前記行動対象辞書の中の行動対象である名詞を選択するものである請求項1記載の行動情報抽出システム。   The action target information specifying means refers to an action dictionary in which an action name, a noun indicating the action, and a noun indicating an action related to the noun are registered in association with attributes defined in the hierarchical structure. 2. The behavior information extraction system according to claim 1, wherein the behavior target information specifying unit is configured to select a noun that is a behavior target in the behavior target dictionary with reference to the behavior dictionary. 消費者が行動するときの行動パターンを表す雛型文章が複数設定された行動パターンテンプレートを備え、
前記行動対象・付属情報抽出手段は、前記解析対象記事の文章に対して、前記行動パターンテンプレートを参照していずれかの前記雛型文章に当てはまる文章を抽出し、抽出した文章の特定部分から前記行動対象情報及び付属情報に該当する名詞を抽出する請求項1記載の行動情報抽出システム。
It has an action pattern template with multiple template sentences that represent the behavior patterns when consumers act,
The action target / attached information extraction unit extracts a sentence that applies to any of the template sentences with reference to the action pattern template with respect to the sentence of the analysis target article, and extracts the sentence from a specific portion of the extracted sentence. The behavior information extraction system according to claim 1, wherein nouns corresponding to the behavior target information and attached information are extracted.
前記解析対象記事毎に文章を解析し、消費者が商品を購入するときの行動を表す文章部分から、消費者が購入した商品自体を示す名詞である商品情報と、当該商品に関連する事柄を示す名詞である付属情報とを抽出する商品・付属情報抽出手段と、
市販されている商品の商品名と、当該商品を示す名詞及び当該名詞から連想される商品を示す名詞とが階層構造に定義された属性に互いに対応付けて登録されて成る商品辞書と、
商品概念を示す名詞と、当該名詞から連想される商品概念を示す名詞とが、階層構造に定義された属性に互いに対応付けて登録されて成る概念辞書と、
前記解析対象記事毎に前記概念辞書又は前記商品辞書を参照し、前記商品・付属情報抽出手段が抽出した前記商品情報及び前記付属情報に対応する属性を抽出して組み合わせることによって当該商品情報に該当する商品を具体的に特定した特定商品情報を生成するとともに、上記の一連の処理内容を前記入出力端末の前記出力手段に送る商品情報特定手段とを備えた請求項1記載の行動情報抽出システム。
Analyzing the sentence for each analysis target article, from the sentence part representing the behavior when the consumer purchases the product, product information which is a noun indicating the product itself purchased by the consumer, and matters related to the product Product / attachment information extracting means for extracting attached information, which is a noun to indicate;
A product dictionary in which a product name of a commercially available product, a noun indicating the product and a noun indicating a product associated with the noun are registered in association with attributes defined in the hierarchical structure;
A concept dictionary in which a noun indicating a product concept and a noun indicating a product concept associated with the noun are registered in association with attributes defined in the hierarchical structure;
Refer to the concept dictionary or the product dictionary for each article to be analyzed, and correspond to the product information by extracting and combining the product information extracted by the product / attached information extraction unit and the attribute corresponding to the attached information The behavior information extraction system according to claim 1, further comprising: product information specifying means for generating specific product information that specifically specifies a product to be sent and sending the series of processing contents to the output means of the input / output terminal. .
宣伝用の語句や文字であるスパムワードが定義されたスパムワード辞書を備え、
前記解析対象記事抽出手段の前記絞込手段は、前記関連記事毎に当該記事の文章の総単語数とスパムワードに該当する単語数との比である占有率を算出し、その占有率が基準値以下の関連記事を解析対象記事として抽出する請求項1又は4記載の行動情報抽出システム。
It has a spam word dictionary with defined spam words, which are promotional words and characters,
The narrowing down means of the analysis target article extracting means calculates an occupancy ratio, which is a ratio between the total number of words of the sentence of the article and the number of words corresponding to spam words for each related article, and the occupancy ratio is a reference The behavior information extraction system according to claim 1, wherein a related article having a value less than or equal to a value is extracted as an analysis target article.
前記絞込手段には、前記関連記事の総単語数に応じて、総単語数が相対的に少ない場合は相対的に小さい基準値が設定されている請求項1又は4記載の行動情報抽出システム。   The behavior information extraction system according to claim 1 or 4, wherein the narrowing means is set with a relatively small reference value when the total number of words is relatively small, according to the total number of words of the related article. . 消費者が商品を購入するときの行動パターンを表す雛型文章が複数設定された購入パターンテンプレートを備え、
前記商品・付属情報抽出手段は、前記解析対象記事の文章に対して、前記購入パターンテンプレートを参照していずれかの前記雛型文章に当てはまる文章を抽出し、抽出した文章の特定部分から前記商品情報及び前記付属情報に該当する名詞を抽出する請求項4記載の行動情報抽出システム。
It has a purchase pattern template with multiple template sentences representing behavior patterns when consumers purchase products,
The product / attachment information extracting means extracts a sentence that matches one of the template sentences with reference to the purchase pattern template with respect to the sentence of the analysis target article, and extracts the commodity from a specific portion of the extracted sentence. The behavior information extraction system according to claim 4, wherein a noun corresponding to the information and the attached information is extracted.
前記商品情報特定手段は、
前記商品辞書を参照し、前記解析対象記事の前記商品情報と一致するものが商品名の属性として登録されているときは、当該商品名の属性に関連付けて登録された他の属性群を抽出して組み合わせることによって前記特定商品情報を生成し、
当該商品情報と一致するものが前記商品辞書の商品名の属性に登録されていないときは、前記概念辞書を参照し、前記商品情報及び前記付属情報と一致する属性及び当該属性に関連付けて登録された他の属性群を抽出して組み合わせることによって前記特定商品情報を生成する請求項4記載の行動情報抽出システム。
The product information specifying means includes
When the product dictionary matches the product information of the analysis target article with reference to the product dictionary and is registered as a product name attribute, another attribute group registered in association with the product name attribute is extracted. The specific product information is generated by combining
When the product information that matches the product information is not registered in the product name attribute of the product dictionary, the product dictionary and the attribute that matches the product information and the attached information are registered with reference to the concept dictionary. The behavior information extraction system according to claim 4, wherein the specific product information is generated by extracting and combining other attribute groups.
前記概念辞書は、
様々な商品に関する事柄を示す名詞と、当該名詞から連想される商品に関する事柄を示す名詞とが、階層構造に定義された属性に互いに対応付けて登録されて成る連想概念辞書と、
様々な商品を示す名詞と当該名詞から連想される商品を示す名詞とが、階層構造に定義された属性に互いに対応付けて登録されて成る商品分類概念辞書とで構成され、
前記商品情報特定手段は、
前記連想概念辞書を参照し、前記解析対象記事の前記付属情報と一致する属性及び当該属性に関連付けて登録された他の属性を付属属性群として抽出し、
前記商品分類概念辞書を参照し、前記解析対象記事の前記商品情報と一致する属性及び当該属性に関連付けて登録された他の属性を商品属性群として抽出し、
前記付属属性群と前記商品属性群とに共通して存在する属性があるときは、その属性を商品特定属性群として抽出し、当該商品特定属性を組み合わせることによって前記特定商品情報を生成し、
前記付属属性群と前記商品属性群に共通して存在する属性がないときは、当該商品情報をそのまま前記特定商品情報とする請求項4又は8記載の行動情報抽出システム。
The concept dictionary is
An associative concept dictionary in which nouns indicating matters related to various products and nouns indicating matters related to products associated with the noun are registered in association with attributes defined in the hierarchical structure;
Composed of a product classification concept dictionary in which nouns indicating various products and nouns indicating products associated with the noun are registered in association with attributes defined in the hierarchical structure,
The product information specifying means includes
Referencing the associative concept dictionary, extracting attributes that match the attached information of the analysis target article and other attributes registered in association with the attributes as an attached attribute group,
Refer to the product classification concept dictionary, extract the attribute that matches the product information of the analysis target article and other attributes registered in association with the attribute as a product attribute group,
When there is an attribute that exists in common in the attached attribute group and the product attribute group, the attribute is extracted as a product specific attribute group, and the specific product information is generated by combining the product specific attributes,
Wherein when no attributes present in common in the attached attribute group and the product attribute group behavior information extraction system according to claim 4 or 8, wherein the intact the specific product information the product information.
前記情報収集装置は、インターネット上の通信販売サイトにアクセスし、個々の通信販売サイトの階層構造を解析するサイト構造解析手段と、当該階層構造の最下層のページを解析する最下層ページ解析手段と、前記サイト構造解析手段及び前記最下層ページ解析手段で解析した情報を前記商品辞書に登録する商品辞書登録手段とで成る通信販売情報収集手段を備え、
前記サイト構造解析手段は、前記階層毎のメニュー部分に表示されるHTMLデータを取得及び分析することによって、階層構造及び階層毎に付与された商品カテゴリを認識し、
前記最下層ページ解析手段は、前記最下層のページの本文部分に表示される商品一覧のHTMLデータを取得及び分析することによって開示されている商品の商品名を抽出し、
前記商品辞書登録手段は、前記最下層ページ解析手段が抽出した商品名及びサイト構造解析手段が認識した当該商品名に関連する前記商品カテゴリを、前記商品辞書に定義された属性に互いに対応付けて登録し、前記商品辞書の属性として定義されていない新たな商品カテゴリがあるときは、前記商品辞書に新たな属性を定義した後、当該新たな属性に前記新たな商品カテゴリを登録する請求項4又は8記載の行動情報抽出システム。
The information collecting apparatus accesses a mail order site on the Internet and analyzes a site structure analyzing means for analyzing the hierarchical structure of each mail order site, and a lowermost layer page analyzing means for analyzing a lowermost page of the hierarchical structure. The mail order information collecting means comprising the product dictionary registration means for registering the information analyzed by the site structure analysis means and the lowest layer page analysis means in the product dictionary,
The site structure analysis means recognizes the product category assigned to each hierarchical structure and each hierarchy by acquiring and analyzing the HTML data displayed in the menu portion for each hierarchy,
The bottom layer page analysis means extracts the product name of the product disclosed by acquiring and analyzing the HTML data of the product list displayed in the body part of the page of the bottom layer,
The product dictionary registration unit associates the product name extracted by the bottom layer page analysis unit and the product category related to the product name recognized by the site structure analysis unit with the attributes defined in the product dictionary. 5. When there is a new product category that is registered and is not defined as an attribute of the product dictionary, the new product category is registered in the new attribute after the new attribute is defined in the product dictionary. Or the action information extraction system of 8 description.
消費者により日々の身の回りの出来事が書かれた消費者記事が開示されているインターネット上のWebサイトにアクセスし、検索ユーザが入力した検索キーワードに基づいて検索処理を行い、検索した消費者記事の中から、当該検索キーワードに適合する消費者の行動に関する情報を抽出する行動情報抽出方法において、
前記検索ユーザが検索キーワードを入力することにより、前記Webサイトの消費者記事の中から前記検索キーワードを含んだ消費者記事を関連記事として抽出する検索ステップと、
前記関連記事から、当該記事の文章中に宣伝用語句を含む割合が低いものを解析対象記事として抽出する絞り込みステップと、
前記解析対象記事毎に文章を解析し、消費者が何らかの行動をするときの行動情報を表す文章部分から、消費者行動の行動対象を示す名詞である行動対象情報と、当該行動対象に関連する事柄を示す名詞である付属情報とを抽出する行動対象・付属情報抽出ステップと、
前記行動対象・付属情報抽出ステップにより抽出した前記行動対象情報及び前記付属情報に対応する属性を抽出して組み合わせることによって、当該行動対象情報に該当する行動対象と行動を具体的に特定して特定行動対象情報を生成する行動対象情報特定ステップとを備えたことを特徴とする行動情報抽出方法。
By accessing a website on the Internet where a consumer article containing daily events written by the consumer is disclosed, a search process is performed based on the search keyword entered by the search user, and the searched consumer article In the behavior information extraction method for extracting information on consumer behavior that matches the search keyword from the inside,
A search step of extracting a consumer article including the search keyword as a related article from consumer articles on the website by the search user inputting a search keyword;
From the related articles, a narrowing step of extracting, as an analysis target article, a thing with a low ratio of including an advertising phrase in the sentence of the article;
Analyzing sentences for each of the analysis target articles, from the sentence part representing the behavior information when the consumer performs some action, the action target information that is a noun indicating the action target of the consumer action and the action target An action object / attachment information extraction step for extracting ancillary information that is a noun indicating a matter;
By specifically extracting and combining the action target information extracted in the action target / attached information extraction step and the attribute corresponding to the attached information, the action target and the action corresponding to the action target information are specifically identified and specified. An action information extraction method comprising: an action target information specifying step for generating action target information.
前記行動対象情報特定ステップは、行動名と当該行動を示す名詞及び当該名詞に関連する行動を示す名詞とが、階層構造に定義された属性に互いに対応付けて登録されて成る行動辞書を参照して、前記行動の行動対象を示す名詞と、当該名詞に関連する行動対象を示す名詞とが階層構造に定義された属性で互いに対応付けて登録されて成る行動対象辞書の中の行動対象である名詞を選択するものである請求項11記載の行動情報抽出方法。 The action target information specifying step refers to an action dictionary in which an action name, a noun indicating the action, and a noun indicating an action related to the noun are registered in association with attributes defined in the hierarchical structure. The action object in the action object dictionary in which the noun indicating the action object of the action and the noun indicating the action object related to the noun are registered in association with each other with the attributes defined in the hierarchical structure. The behavior information extracting method according to claim 11, wherein a noun is selected. 前記行動対象・付属情報抽出ステップは、消費者が行動するときの行動パターンを表す雛型文章が複数設定された行動パターンテンプレートを参照して、前記解析対象記事の文章に対して、いずれかの前記雛型文章に当てはまる文章を抽出し、抽出した文章の特定部分から前記行動対象情報及び付属情報に該当する名詞を抽出する請求項11記載の行動情報抽出方法。   The action target / attached information extraction step refers to an action pattern template in which a plurality of template sentences representing action patterns when a consumer behaves is set, The behavior information extraction method according to claim 11, wherein a sentence applicable to the template sentence is extracted, and nouns corresponding to the action target information and the attached information are extracted from a specific portion of the extracted sentence. 前記解析対象記事毎に文章を解析し、消費者が商品を購入するときの行動を表す文章部分から、消費者が購入した商品自体を示す名詞である商品情報と、当該商品に関連する事柄を示す名詞である付属情報とを抽出する商品・付属情報抽出ステップと、
商品概念を示す名詞と、当該名詞から連想される商品概念を示す名詞とが、階層構造に定義された属性に互いに対応付けて登録されて成る概念辞書と、市販されている商品の商品名と、当該商品を示す名詞及び当該名詞から連想される商品概念を示す名詞とが階層構造に定義された属性に互いに対応付けて登録されて成る商品辞書とを参照し、前記商品・付属情報抽出ステップにおいて抽出した前記商品情報及び前記付属情報に対応する属性を抽出して組み合わせることによって、当該商品情報に該当する商品を具体的に特定する商品情報特定ステップとを備えた請求項11記載の行動情報抽出方法。
Analyzing the sentence for each analysis target article, from the sentence part representing the behavior when the consumer purchases the product, product information which is a noun indicating the product itself purchased by the consumer, and matters related to the product A product / attachment information extraction step for extracting attached information that is a noun to be indicated;
A concept dictionary in which a noun indicating a product concept and a noun indicating a product concept associated with the noun are registered in association with attributes defined in the hierarchical structure, and a product name of a commercially available product A product dictionary in which a noun indicating the product and a noun indicating a product concept associated with the noun are registered in association with attributes defined in a hierarchical structure, and the product / attachment information extracting step The behavior information according to claim 11, further comprising: a product information specifying step for specifically specifying a product corresponding to the product information by extracting and combining the attributes corresponding to the product information extracted in step 1 and the attached information. Extraction method.
前記絞り込みステップは、前記絞り込み宣伝用の語句や文字であるスパムワードが定義されたスパムワード辞書を参照し、前記関連記事毎に当該記事の文章の総単語数とスパムワードに該当する単語数との比である占有率を算出し、その占有率が基準値以下の関連記事を解析対象記事として抽出する請求項11又は14記載の行動情報抽出方法。   The narrowing-down step refers to a spam word dictionary in which spam words that are words and characters for narrowing advertisement are defined, and for each related article, the total number of words of the article and the number of words corresponding to the spam word, 15. The behavior information extraction method according to claim 11 or 14, wherein an occupancy ratio that is a ratio of the occupancy ratio is calculated, and related articles whose occupancy ratio is a reference value or less are extracted as analysis target articles. 前記絞り込みステップは、前記関連記事の総単語数に応じて、総単語数が少ない場合は相対的に小さい基準値を用いて判定を行う請求項11又は14記載の行動情報抽出方法。   15. The behavior information extraction method according to claim 11 or 14, wherein the narrowing-down step performs determination using a relatively small reference value when the total number of words is small according to the total number of words of the related article. 前記商品・付属情報抽出ステップは、消費者が商品を購入するときの購入パターンを表す雛型文章を参照し、前記解析対象記事から、いずれかの前記雛型文章に当てはまる文章を抽出し、抽出した文章の特定部分から前記商品情報及び前記付属情報に該当する名詞を抽出する請求項14記載の行動情報抽出方法。   The product / attachment information extraction step refers to a template text representing a purchase pattern when a consumer purchases a product, extracts a text that applies to any of the template texts from the analysis target article, and extracts The behavior information extraction method according to claim 14, wherein nouns corresponding to the product information and the attached information are extracted from a specific part of the sentence. 前記商品情報特定ステップは、
前記商品辞書を参照し、前記解析対象記事の前記商品情報と一致するものが商品名の属性として登録されているときは、当該商品名の属性に関連付けて登録された他の属性群を抽出して組み合わせることによって、当該商品情報に該当する商品を具体的に特定した特定商品情報を生成し、
当該商品情報と一致するものが前記商品辞書の商品名の属性に登録されていないときは、前記概念辞書を参照し、前記商品情報及び前記付属情報と一致する属性及び当該属性に関連付けて登録された他の属性群を抽出して組み合わせることによって前記特定商品情報を生成する請求項14記載の行動情報抽出方法。
The product information specifying step includes:
When the product dictionary matches the product information of the analysis target article with reference to the product dictionary and is registered as a product name attribute, another attribute group registered in association with the product name attribute is extracted. To generate specific product information that specifically identifies the product that corresponds to the product information,
When the product information that matches the product information is not registered in the product name attribute of the product dictionary, the product dictionary and the attribute that matches the product information and the attached information are registered with reference to the concept dictionary. The behavior information extraction method according to claim 14, wherein the specific product information is generated by extracting and combining other attribute groups.
前記概念辞書は、
様々な商品に関する事柄を示す名詞と、当該名詞から連想される商品に関する事柄を示す名詞とが、階層構造に定義された属性に互いに対応付けて登録されて成る連想概念辞書と、
様々な商品を示す名詞と当該名詞から連想される商品を示す名詞とが、階層構造に定義された属性に互いに対応付けて登録されて成る商品分類概念辞書とで構成され、
前記商品情報特定ステップは、
前記連想概念辞書を参照し、前記解析対象記事の前記付属情報と一致する属性及び当該属性に関連付けて登録された他の属性を付属属性群として抽出し、
前記商品分類概念辞書を参照し、前記解析対象記事の前記商品情報と一致する属性及び当該属性に関連付けて登録された他の属性を商品属性群として抽出し、
前記付属属性群と前記商品属性群とに共通して存在する属性があるときは、その属性を商品特定属性群として抽出し、当該商品特定属性を組み合わせることによって前記特定商品情報を生成し、
前記付属属性群と前記商品属性群に共通して存在する属性がないときは、当該商品情報をそのまま前記特定商品情報とする請求項14又は18記載の行動情報抽出方法。
The concept dictionary is
An associative concept dictionary in which nouns indicating matters related to various products and nouns indicating matters related to products associated with the noun are registered in association with attributes defined in the hierarchical structure;
Composed of a product classification concept dictionary in which nouns indicating various products and nouns indicating products associated with the noun are registered in association with attributes defined in the hierarchical structure,
The product information specifying step includes:
Referencing the associative concept dictionary, extracting attributes that match the attached information of the analysis target article and other attributes registered in association with the attributes as an attached attribute group,
Refer to the product classification concept dictionary, extract the attribute that matches the product information of the analysis target article and other attributes registered in association with the attribute as a product attribute group,
When there is an attribute that exists in common in the attached attribute group and the product attribute group, the attribute is extracted as a product specific attribute group, and the specific product information is generated by combining the product specific attributes,
Wherein when no attributes present in common in the attached attribute group and the product attribute group, behavioral information extraction method according to claim 14 or 18 wherein the directly the specific product information the product information.
インターネット上の通信販売サイトにアクセスし、個々の通信販売サイトの階層構造を解析するサイト構造解析ステップと、当該階層構造の最下層のページを解析する最下層ページ解析ステップと、前記サイト構造解析ステップ及び前記最下層ページ解析ステップで解析した情報を前記商品辞書に登録する商品辞書登録ステップとで構成され、前記検索ステップを行う前にあらかじめ実施される通信販売情報収集ステップを備え、
前記サイト構造解析ステップは、前記各階層毎のメニュー部分に表示されるHTMLデータを取得及び分析することによって、階層構造及び各階層毎に付与された商品カテゴリを認識し、
前記最下層ページ解析ステップは、前記最下層のページの本文部分に表示される商品一覧のHTMLデータを取得及び分析することによって開示されている商品の商品名を抽出し、
前記商品辞書登録ステップは、前記最下層ページ解析ステップにより抽出した商品名及びサイト構造解析ステップが認識した当該商品名に関連する前記商品カテゴリを、前記商品辞書に定義された属性に互いに対応付けて登録し、前記商品辞書の属性として定義されていない新たな商品カテゴリがあるときは、前記商品辞書に新たな属性を定義した後、当該新たな属性に前記新たな商品カテゴリを登録する請求項14又は18記載の行動情報抽出方法。
A site structure analysis step for accessing a mail order site on the Internet and analyzing the hierarchical structure of each mail order site, a bottom layer page analysis step for analyzing the bottom layer page of the hierarchical structure, and the site structure analysis step And a product dictionary registration step for registering the information analyzed in the lowermost layer page analysis step in the product dictionary, comprising a mail order information collection step performed in advance before performing the search step,
The site structure analysis step recognizes the hierarchical structure and the product category assigned to each level by acquiring and analyzing the HTML data displayed in the menu part for each level,
The bottom layer page analysis step extracts the product name of the product disclosed by acquiring and analyzing the HTML data of the product list displayed in the body part of the page of the bottom layer,
The product dictionary registration step associates the product name extracted in the lowest layer page analysis step and the product category related to the product name recognized in the site structure analysis step with attributes defined in the product dictionary. 15. When there is a new product category that is registered and not defined as an attribute of the product dictionary, the new product category is registered in the new attribute after the new attribute is defined in the product dictionary. Or the action information extraction method of 18 .
JP2009260033A 2009-11-13 2009-11-13 Behavior information extraction system and extraction method Active JP5442401B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009260033A JP5442401B2 (en) 2009-11-13 2009-11-13 Behavior information extraction system and extraction method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009260033A JP5442401B2 (en) 2009-11-13 2009-11-13 Behavior information extraction system and extraction method

Publications (2)

Publication Number Publication Date
JP2011107826A JP2011107826A (en) 2011-06-02
JP5442401B2 true JP5442401B2 (en) 2014-03-12

Family

ID=44231247

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009260033A Active JP5442401B2 (en) 2009-11-13 2009-11-13 Behavior information extraction system and extraction method

Country Status (1)

Country Link
JP (1) JP5442401B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10657546B2 (en) 2015-10-19 2020-05-19 Yeon Tae KIM Omni-channel marketing curation system based on big data

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013246747A (en) * 2012-05-29 2013-12-09 Fuji Xerox Co Ltd Program and campaign management device
JP5507638B2 (en) * 2012-09-14 2014-05-28 ヤフー株式会社 Information providing apparatus, information providing method, and information providing program
WO2014050837A1 (en) * 2012-09-27 2014-04-03 日本電気株式会社 Determination device, determination method, and computer-readable recording medium
JP6206134B2 (en) * 2013-11-28 2017-10-04 富士ゼロックス株式会社 Printing system and program
JP5683726B2 (en) * 2014-03-17 2015-03-11 ヤフー株式会社 Information providing apparatus and information providing method
JP6420670B2 (en) * 2015-01-15 2018-11-07 富盛 陸川 Information browsing system
JP6635865B2 (en) * 2016-03-31 2020-01-29 株式会社エヌ・ティ・ティ・データ Post extraction device, post extraction method, and program
JP5988345B1 (en) * 2016-05-24 2016-09-07 ランサーズ株式会社 Evaluation device, evaluation method, evaluation program, recommendation device, recommendation method, and recommendation program

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002149854A (en) * 2000-11-16 2002-05-24 Kubo Hikari Information collection system
JP3988622B2 (en) * 2002-11-07 2007-10-10 日本電気株式会社 Opinion extraction device, opinion extraction program
JP5135701B2 (en) * 2006-03-30 2013-02-06 富士通株式会社 Web page classification program, web page classification device, and web page classification method
JP2008217064A (en) * 2007-02-28 2008-09-18 Toshiba Corp Request extraction apparatus, method and program
JP4950753B2 (en) * 2007-05-10 2012-06-13 日本放送協会 Comment collection and analysis device and program thereof
WO2009051261A1 (en) * 2007-10-18 2009-04-23 Nec Corporation Information influence evaluation method, information influence evaluation system and information influence evaluation program
JP5150341B2 (en) * 2008-04-10 2013-02-20 株式会社東芝 Data creation apparatus and method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10657546B2 (en) 2015-10-19 2020-05-19 Yeon Tae KIM Omni-channel marketing curation system based on big data

Also Published As

Publication number Publication date
JP2011107826A (en) 2011-06-02

Similar Documents

Publication Publication Date Title
Alaei et al. Sentiment analysis in tourism: capitalizing on big data
JP5442401B2 (en) Behavior information extraction system and extraction method
Rambocas et al. Online sentiment analysis in marketing research: a review
US10748164B2 (en) Analyzing sentiment in product reviews
US8306962B1 (en) Generating targeted paid search campaigns
US8812505B2 (en) Method for recommending best information in real time by appropriately obtaining gist of web page and user&#39;s preference
JP6435426B1 (en) Information analysis apparatus, information analysis method, and information analysis program
KR101132942B1 (en) Methods and systems for determining a meaning of a document to match the document to conte
Menner et al. Topic detection: identifying relevant topics in tourism reviews
JP2009521750A (en) Analyzing content to determine context and providing relevant content based on context
JPWO2009096523A1 (en) Information analysis apparatus, search system, information analysis method, and information analysis program
KR20090000691A (en) Advertisement method and system for displaying context advertisement
US20170228378A1 (en) Extracting topics from customer review search queries
Rutz et al. A new method to aid copy testing of paid search text advertisements
KR101518488B1 (en) Value enhancing method and system of online contents
Ghosh et al. Answering Count Questions with Structured Answers from Text
JP5138621B2 (en) Information processing apparatus, dissatisfied product discovery method and program
Itani Sentiment analysis and resources for informal Arabic text on social media
JP2009223372A (en) Recommendation device, recommendation system, control method for recommendation device and control method for recommendation system
KR102028356B1 (en) Advertisement recommendation apparatus and method based on comments
Doo et al. Automated product review collection and opinion analysis methods for efficient business analysis
KR20230046041A (en) Keyword based online advertisement matching system and online advertisement method
JP5478146B2 (en) Program search device and program search program
KR101545454B1 (en) Advertisement matching method for online contents based on keyword and advertisement matching system thereof
Singh et al. Proposing contextually relevant advertisements for online videos

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20110809

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121019

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130927

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131015

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131029

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131119

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131218

R150 Certificate of patent or registration of utility model

Ref document number: 5442401

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250