JP2009217642A - Reputation information extracting device, dictionary constructing method, and program - Google Patents

Reputation information extracting device, dictionary constructing method, and program Download PDF

Info

Publication number
JP2009217642A
JP2009217642A JP2008061764A JP2008061764A JP2009217642A JP 2009217642 A JP2009217642 A JP 2009217642A JP 2008061764 A JP2008061764 A JP 2008061764A JP 2008061764 A JP2008061764 A JP 2008061764A JP 2009217642 A JP2009217642 A JP 2009217642A
Authority
JP
Japan
Prior art keywords
dictionary
expression
evaluation
attribute
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008061764A
Other languages
Japanese (ja)
Inventor
Junichi Imadaira
純一 今平
Yoshimasa Shibata
喜匡 柴田
Nobuyoshi Nihongi
伸佳 二本木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT PC Communications Inc
Original Assignee
NTT PC Communications Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT PC Communications Inc filed Critical NTT PC Communications Inc
Priority to JP2008061764A priority Critical patent/JP2009217642A/en
Publication of JP2009217642A publication Critical patent/JP2009217642A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To automatically register a new expression in a dictionary in extraction processing of reputation information. <P>SOLUTION: This reputation information extracting device having a function for extracting reputation information being a set of an evaluation expression and an attribute expression from text by referring to an evaluation dictionary and an attribute information includess a means for determining that one clause is an additional candidate clause to the attribute dictionary when it is determined that the other clause between two clause constituting a clause pair extracted from a sentence includes an evaluation expression in the evaluation dictionary and that the one clause includes no expression in any dictionary, and for determining that the one clause is an additional candidate clause to the evaluation dictionary when it is determined that the other clause includes an attribute expression in the attribute dictionary and that the one clause does include no expression in any dictionary, and a means for extracting an evaluation expression or an attribute expression from the additional candidate clause to the evaluation dictionary or the additional candidate clause to the attribute dictionary and adding the extracted expression as a new expression to the evaluation dictionary or the attribute dictionary. <P>COPYRIGHT: (C)2009,JPO&INPIT

Description

本発明は、インターネット等の通信ネットワーク上で提供されるレビューサイト等において蓄積された文章群の中から評判情報を抽出する技術に関するものである。   The present invention relates to a technique for extracting reputation information from a group of sentences stored on a review site or the like provided on a communication network such as the Internet.

近年、個人を情報発信源としたCGM(Customer Generated Media)コンテンツが増大しており、その中でも、サービスや製品等の対象に対する評価が一般の消費者によって記載されるWebサイト(レビューサイト等)は特に普及してきている。   In recent years, CGM (Customer Generated Media) content that uses individuals as an information source has been increasing, and among them, websites (review sites, etc.) where evaluations of services, products, etc. are described by general consumers It has become particularly popular.

このようなWebサイトでは、ある対象(例えば、特定の店)に関して、「お肉がジューシーだ」といった評判を含む文章が記載されている。このような評判を含む文章から、「ジューシーだ」という評価表現と、評価表現に対する「何が」に相当する「お肉」という属性表現との組を評判情報として取得することができれば、サービス利用や製品購入の際に役に立つ。   Such websites contain text that includes a reputation such as “meat is juicy” for a particular object (eg, a particular store). If you can get a pair of evaluation expression “juicy” and attribute expression “meat” corresponding to “what” for the evaluation expression as reputation information from sentences including such reputation, use the service Useful when purchasing products.

ある対象に関する文章群から、上記のような評価表現と属性表現の組からなる評判情報を抽出する従来技術としては、属性表現のリスト(属性辞書)と評価表現のリスト(評価辞書)とを予め作成しておき、属性辞書と評価辞書を参照することにより、パターンマッチングにより文章群から評価表現と属性表現の組からなる評判情報を抽出する技術がある。なお、本願に関連する先行技術文献として特許文献1がある。
特開2007−115118号公報
As a conventional technique for extracting reputation information composed of a set of evaluation expression and attribute expression as described above from a sentence group related to a certain object, a list of attribute expressions (attribute dictionary) and a list of evaluation expressions (evaluation dictionary) are preliminarily stored. There is a technique for extracting reputation information composed of a set of an evaluation expression and an attribute expression from a sentence group by pattern matching by creating an attribute dictionary and an evaluation dictionary. In addition, there exists patent document 1 as a prior art document relevant to this application.
JP 2007-115118 A

しかし、属性辞書と評価辞書を人手で作成するとなると、大きなコストがかかってしまい、評判情報の抽出を実際のサービスとして提供することは容易ではない。このような観点から、日々文章の追加蓄積が行われているレビューサイト等における文章群から評判情報を抽出するとともに、属性辞書と評価辞書を自動的に作成できたら非常に便利である。   However, if the attribute dictionary and the evaluation dictionary are manually created, a large cost is required, and it is not easy to provide reputation information extraction as an actual service. From this point of view, it would be very convenient to extract reputation information from a group of sentences on a review site where additional sentences are accumulated daily and to automatically create an attribute dictionary and an evaluation dictionary.

本発明は上記の点に鑑みてなされたものであり、属性辞書と評価辞書を用いて文章群から評判情報を抽出するとともに、新規に登録するべき属性表現と評価表現の抽出を行い、それらを属性辞書と評価辞書に自動的に登録することを可能とする技術を提供することを目的とする。   The present invention has been made in view of the above points, extracts reputation information from a sentence group using an attribute dictionary and an evaluation dictionary, extracts attribute expressions and evaluation expressions to be newly registered, and extracts them. An object of the present invention is to provide a technique that enables automatic registration in an attribute dictionary and an evaluation dictionary.

上記の課題を解決するために、本発明は、評価辞書を格納する評価辞書格納手段と属性辞書を格納する属性辞書格納手段を備え、前記評価辞書と前記属性辞書を参照することにより、テキスト格納手段に格納されたテキストから評価表現と属性表現の組である評判情報を抽出する機能を有する評判情報抽出装置であって、前記テキスト格納手段に格納された前記テキストを読み出し、当該テキストに含まれる文の係り受け解析を行い、当該文から係り受け関係にある文節のペアを抽出する文節ペア抽出手段と、前記文節ペアの各文節と、前記評価辞書及び前記属性辞書に含まれる表現との比較を行う比較手段と、前記比較手段により、前記文節ペアを構成する2つの文節のうちの一方の文節が前記評価辞書内の評価表現を含み、他方の文節はいずれの辞書内の表現も含まないと判定された場合に、前記他方の文節を前記属性辞書に追加するべき属性表現を含む属性辞書追加候補文節であると判定し、前記比較手段により、前記一方の文節が前記属性辞書内の属性表現を含み、前記他方の文節はいずれの辞書内の表現も含まないと判定された場合に、前記他方の文節を、前記評価辞書に追加するべき評価表現を含む評価辞書追加候補文節であると判定する辞書追加候補文節判定手段と、前記評価辞書追加候補文節又は前記属性辞書追加候補文節を含む文節ペアが、品詞に基づく所定の条件を満たす場合に、前記評価辞書追加候補文節又は前記属性辞書追加候補文節から評価表現又は属性表現を抽出し、新規の表現として前記評価辞書又は前記属性辞書に追加する新規表現追加手段とを備えたことを特徴とする評判情報抽出装置として構成される。   In order to solve the above-described problems, the present invention includes an evaluation dictionary storage unit that stores an evaluation dictionary and an attribute dictionary storage unit that stores an attribute dictionary, and stores text by referring to the evaluation dictionary and the attribute dictionary. A reputation information extracting device having a function of extracting reputation information which is a set of an evaluation expression and an attribute expression from text stored in the means, wherein the text stored in the text storage means is read out and included in the text A phrase pair extraction unit that performs dependency analysis of a sentence and extracts a pair of phrases having a dependency relation from the sentence, and compares each phrase of the phrase pair with expressions included in the evaluation dictionary and the attribute dictionary The comparison means for performing the above and the comparison means, one of the two clauses constituting the clause pair includes an evaluation expression in the evaluation dictionary, and the other clause is If it is determined that the expression in the dictionary of the deviation is not included, the other phrase is determined to be an attribute dictionary addition candidate phrase including an attribute expression to be added to the attribute dictionary, and the comparison means An evaluation expression to be added to the evaluation dictionary when it is determined that the other phrase includes an attribute expression in the attribute dictionary and the other phrase does not include an expression in any dictionary. The dictionary addition candidate clause determining means for determining that the evaluation dictionary addition candidate clause includes and the phrase pair including the evaluation dictionary addition candidate clause or the attribute dictionary addition candidate clause satisfy the predetermined condition based on the part of speech, A new expression adding means for extracting an evaluation expression or attribute expression from the evaluation dictionary addition candidate clause or the attribute dictionary addition candidate clause and adding it as a new expression to the evaluation dictionary or the attribute dictionary; It was example configured as reputation information extracting apparatus according to claim.

前記新規表現追加手段は、前記評価辞書追加候補文節又は前記属性辞書追加候補文節を含む前記文節ペアにおける2つの文節のうちの最初の文節の最後の単語の品詞が予め定めた条件を満たすかどうかを判定する文節ペアフィルタリング手段を有してもよく、前記文節ペアフィルタリング手段により、少なくとも前記最初の文節の最後の単語の品詞が予め定めた条件を満たすと判定された場合に、前記新規表現追加手段は、前記評価辞書追加候補文節に含まれる評価表現又は前記属性辞書追加候補文節に含まれる属性表現を前記新規の表現として前記評価辞書又は前記属性辞書に追加するようにしてもよい。   The new expression adding means determines whether the part of speech of the last word of the first phrase of two phrases in the phrase pair including the evaluation dictionary addition candidate clause or the attribute dictionary addition candidate clause satisfies a predetermined condition A phrase pair filtering unit for determining whether or not the phrase pair filtering unit adds the new expression when it is determined that at least a part of speech of the last word of the first phrase satisfies a predetermined condition. The means may add an evaluation expression included in the evaluation dictionary addition candidate clause or an attribute expression included in the attribute dictionary addition candidate clause to the evaluation dictionary or the attribute dictionary as the new expression.

前記最初の文節が、前記属性辞書追加候補文節又は前記属性辞書内の属性表現を含む文節である場合において、前記予め定めた条件は、少なくとも前記最後の単語の品詞が格助詞又は係助詞であることであり、前記最初の文節が、前記評価辞書追加候補文節又は前記評価辞書内の評価表現を含む文節である場合において、前記予め定めた条件は、前記最後の単語の品詞が活用形をもつ品詞であって、当該活用形が基本形又は体言接続であることであるとしてもよい。   In the case where the first phrase is a phrase including the attribute dictionary addition candidate phrase or the attribute expression in the attribute dictionary, the predetermined condition is that at least the part of speech of the last word is a case particle or a coordinator. In the case where the first phrase is a phrase including the evaluation dictionary addition candidate clause or the evaluation expression in the evaluation dictionary, the predetermined condition is that the part of speech of the last word has a utilization form. It may be a part of speech, and the utilization form may be a basic form or a body connection.

また、前記文節ペアフィルタリング手段において前記文節ペアが前記条件を満たす場合に、前記新規表現追加手段は、前記評価辞書追加候補文節又は前記属性辞書追加候補文節から抽出される表現の最後の単語の品詞が予め定めた条件を満たすかどうかを判定し、当該条件を満たした場合に、当該表現を前記評価辞書又は前記属性辞書に追加することとしてもよい。ここで、前記表現が評価表現である場合、前記予め定めた条件は、当該評価表現の最後の単語が一般名詞、形容詞、又は形容動詞語幹となる名詞であることであり、前記表現が属性表現である場合、前記予め定めた条件は、当該属性表現の最後の単語が一般名詞又は固有名詞であることであるとしてもよい。   In addition, when the phrase pair satisfies the condition in the phrase pair filtering means, the new expression adding means is the part of speech of the last word of the expression extracted from the evaluation dictionary addition candidate clause or the attribute dictionary addition candidate clause Whether or not a predetermined condition is satisfied, and when the condition is satisfied, the expression may be added to the evaluation dictionary or the attribute dictionary. Here, when the expression is an evaluation expression, the predetermined condition is that the last word of the evaluation expression is a noun that is a general noun, an adjective, or an adjective verb stem, and the expression is an attribute expression. In this case, the predetermined condition may be that the last word of the attribute expression is a general noun or proper noun.

また、前記評判情報抽出装置は、前記比較手段により、前記文節ペアを構成する2つの文節のうちの一方の文節が前記評価辞書内の評価表現を含み、他方の文節が前記属性辞書内の属性表現を含むと判定された場合に、前記一方の文節から評価表現を抽出し、前記他方の文節から属性表現を抽出し、当該評価表現と当該属性表現の組を評判情報として評判情報格納手段に格納する評判情報抽出手段を更に備えることとしてもよい。   In the reputation information extracting device, one of two clauses constituting the clause pair includes an evaluation expression in the evaluation dictionary, and the other clause is an attribute in the attribute dictionary. When it is determined that an expression is included, an evaluation expression is extracted from the one phrase, an attribute expression is extracted from the other phrase, and a set of the evaluation expression and the attribute expression is stored as reputation information in the reputation information storage unit. Reputation information extraction means for storing may be further provided.

また、本発明は、コンピュータを、上記の評判情報抽出装置における各処理手段として機能させるプログラムとして構成することもできる。   The present invention can also be configured as a program that causes a computer to function as each processing means in the above reputation information extraction apparatus.

本発明によれば、属性辞書と評価辞書を用いて文章群から評判情報を抽出するとともに、新規に登録するべき属性表現と評価表現の抽出を行い、それらを属性辞書と評価辞書に自動的に登録することが可能となる。   According to the present invention, reputation information is extracted from a sentence group using an attribute dictionary and an evaluation dictionary, and an attribute expression and an evaluation expression to be newly registered are extracted, and these are automatically converted into the attribute dictionary and the evaluation dictionary. It becomes possible to register.

以下、図面を参照して本発明の実施の形態について説明する。本実施の形態では、本発明をレストランのレビューサイトにおいて蓄積される文章群に適用した例について説明しているが、本発明は特定の領域(レストラン等)の文章群に限定されることはなく、どのような領域の文章群に対しても適用できることはいうまでもない。   Embodiments of the present invention will be described below with reference to the drawings. In the present embodiment, an example in which the present invention is applied to a group of sentences accumulated at a restaurant review site is described. However, the present invention is not limited to a group of sentences in a specific area (such as a restaurant). Needless to say, the present invention can be applied to a sentence group in any region.

(システム構成)
図1に、本発明の実施の形態におけるシステム構成を示す。図1に示すように、本発明の実施の形態のシステムは、レストランのレビューサイトをユーザ端末3に提供するレビューサイト提供装置1、本発明に係る処理を実行することにより、評判情報を抽出するとともに属性辞書/評価辞書の構築を行う評判情報抽出装置2、及びユーザ端末3を有し、これらがインターネット等の通信ネットワーク4に接続されている。
(System configuration)
FIG. 1 shows a system configuration in the embodiment of the present invention. As shown in FIG. 1, the system according to the embodiment of the present invention extracts a reputation information by executing a process according to the present invention, a review site providing apparatus 1 that provides a restaurant review site to a user terminal 3. A reputation information extraction device 2 that constructs an attribute dictionary / evaluation dictionary and a user terminal 3 are connected to a communication network 4 such as the Internet.

図2にレビューサイト提供装置1の機能構成図を示す。図2に示すように、レビューサイト提供装置1は、対ユーザ端末インタフェース部11、レビュー情報蓄積提供部12、評判情報提供部13、対評判情報抽出装置インタフェース部14、テキスト格納部15、評判情報格納部16を有する。   FIG. 2 shows a functional configuration diagram of the review site providing apparatus 1. As shown in FIG. 2, the review site providing apparatus 1 includes a user terminal interface unit 11, a review information accumulation / providing unit 12, a reputation information providing unit 13, a reputation information extracting device interface unit 14, a text storage unit 15, reputation information. A storage unit 16 is included.

対ユーザ端末インタフェース部11は、ユーザ端末3との通信のための機能部であり、ユーザ端末3に対してレビュー文章の書き込みや検索のための画面を提供し、ユーザ端末3から送信される情報を受信する。   The user terminal interface unit 11 is a functional unit for communication with the user terminal 3, provides a screen for writing and searching for review text to the user terminal 3, and information transmitted from the user terminal 3. Receive.

レビュー情報蓄積提供部12は、ユーザ端末3から対ユーザ端末インタフェース部11を介して受信するレビュー文章をテキスト格納部15に格納したり、ユーザ端末3からの要求に応じてテキスト格納部15からレビュー文章を読み出し、それを評判情報提供部13から受信する評判情報ととともに、対ユーザ端末インタフェース部11を介してユーザ端末3に送信するための機能部である。   The review information accumulation / providing unit 12 stores the review text received from the user terminal 3 via the user terminal interface unit 11 in the text storage unit 15 or reviews from the text storage unit 15 in response to a request from the user terminal 3. It is a functional unit for reading a sentence and transmitting it to the user terminal 3 through the user terminal interface unit 11 together with the reputation information received from the reputation information providing unit 13.

評判情報提供部13は、ユーザ端末3からの要求に応じて、評判情報格納部16から評判情報を取得し、それをレビュー情報蓄積提供部12に送信する機能部である。   The reputation information providing unit 13 is a functional unit that acquires reputation information from the reputation information storage unit 16 in response to a request from the user terminal 3 and transmits it to the review information storage and provision unit 12.

対評判情報抽出装置インタフェース部14は、評判情報抽出装置2と通信を行うための機能部であり、評判情報抽出装置2からの要求に応じてテキスト格納部15からテキストを読み出し、それを評判情報抽出装置2に送信したり、評判情報抽出装置2から、評判情報を受信し、それを評判情報格納部16に格納する機能部である。   The reputation information extracting device interface unit 14 is a functional unit for communicating with the reputation information extracting device 2, reads text from the text storage unit 15 in response to a request from the reputation information extracting device 2, and converts it into reputation information. It is a functional unit that transmits reputation information to the extraction device 2 or receives reputation information from the reputation information extraction device 2 and stores it in the reputation information storage unit 16.

図3に、テキスト格納部15が格納するデータの構造例を示す。図3に示すように、テキスト格納部15は、評判の対象となる店名に対応付けて、レビューとしてユーザにより書かれた文章群を格納する。図3において、各文章は、ユーザによるレビュー書き込みの都度増加していくものである。なお、このテキストは、レストランの種類(中華、フレンチ等)に応じてカテゴリ分けされていてもよい。   FIG. 3 shows an example of the structure of data stored in the text storage unit 15. As shown in FIG. 3, the text storage unit 15 stores a group of sentences written by the user as a review in association with the name of the store that is the subject of reputation. In FIG. 3, each sentence increases every time a user writes a review. This text may be categorized according to the type of restaurant (Chinese, French, etc.).

また、図4に、評判情報格納部16が格納するデータの構造例を示す。図4に示すように、評判情報格納部16は、店名に対応付けて、属性表現と評価表現の組からなる評判情報を格納する。この評判情報は、上記テキストに基づき評判情報抽出装置2により作成され、評判情報抽出装置2から受信することにより格納されるものである。   FIG. 4 shows an example of the structure of data stored in the reputation information storage unit 16. As shown in FIG. 4, the reputation information storage unit 16 stores reputation information made up of a set of attribute expressions and evaluation expressions in association with the store name. This reputation information is created by the reputation information extraction device 2 based on the text and is stored by being received from the reputation information extraction device 2.

ユーザ端末3が、このレビューサイト提供装置1にアクセスし、例えば店Aのレビュー情報を要求した場合、レビュー情報蓄積提供部12が、テキスト格納部15から店Aに対応するレビュー文章群を取得するとともに、評判情報取得部13が、評判情報格納部16から店Aに対応する評判情報を取得し、レビュー情報蓄積提供部12に渡す。そして、レビュー情報蓄積提供部12は、例えば図5に示すような画面をユーザ端末3に表示する。図5に示す表示形式の他、評判情報をタグクラウド形式で表示してもよい。その場合、例えば、出現頻度の高い評価表現を大きな文字で表示し、その下にその評価表現に対応する属性表現を表示する。   When the user terminal 3 accesses the review site providing apparatus 1 and requests, for example, the review information of the store A, the review information accumulation / providing unit 12 acquires a review text group corresponding to the store A from the text storage unit 15. At the same time, the reputation information acquisition unit 13 acquires the reputation information corresponding to the store A from the reputation information storage unit 16 and passes it to the review information storage and provision unit 12. Then, the review information accumulation / providing unit 12 displays a screen as shown in FIG. 5 on the user terminal 3, for example. In addition to the display format shown in FIG. 5, reputation information may be displayed in a tag cloud format. In this case, for example, an evaluation expression having a high appearance frequency is displayed in large characters, and an attribute expression corresponding to the evaluation expression is displayed below the large expression.

図6に評判情報抽出装置2の機能構成図を示す。図6に示すように、評判情報抽出装置2は、対レビューサイト提供装置インタフェース部21、テキスト取得部22、前処理部23、係り受け解析部24、文節ペア取得部25、文節ペアフィルタリング部26、表現抽出部27、表現フィルタリング部28、データ格納部29、辞書格納部30、評判情報格納部31、評判情報提供部32を有する。   FIG. 6 shows a functional configuration diagram of the reputation information extraction device 2. As shown in FIG. 6, the reputation information extraction device 2 includes an anti-review site providing device interface unit 21, a text acquisition unit 22, a preprocessing unit 23, a dependency analysis unit 24, a phrase pair acquisition unit 25, and a phrase pair filtering unit 26. An expression extraction unit 27, an expression filtering unit 28, a data storage unit 29, a dictionary storage unit 30, a reputation information storage unit 31, and a reputation information providing unit 32.

対レビューサイト提供装置インタフェース部21は、通信ネットワーク4を介してレビューサイト提供装置1と通信を行うための機能部である。テキスト取得部22は、レビューサイト提供装置1から、評価表現及び属性表現の抽出対象となる文の集合であるテキスト(以下、抽出対象テキストと呼ぶ)を取得し、取得したテキストをデータ格納部29(テキスト格納部でもある)に格納するための機能部である。なお、テキスト取得部22は、ある領域(中華等)を指定し、その領域のテキストを処理対象として取得することとしてもよい。   The review site providing apparatus interface unit 21 is a functional unit for communicating with the review site providing apparatus 1 via the communication network 4. The text acquisition unit 22 acquires text (hereinafter referred to as extraction target text) that is a set of sentences from which the evaluation expression and attribute expression are extracted from the review site providing apparatus 1, and the acquired text is stored in the data storage unit 29. It is a functional part for storing in (which is also a text storage part). Note that the text acquisition unit 22 may designate a certain area (Chinese etc.) and acquire the text in that area as a processing target.

前処理部23は、取得したテキストを複数の文へ分割するとともに、分割されたテキストに対する整形処理を行う機能部である。係り受け解析部24は、前処理部23での処理が施された文に対して係り受け解析を行う機能部である。文節ペア取得部25(辞書追加候補文節判定手段を含む)は、係り受け解析により得られた結果に基づき、評価辞書または属性辞書内の表現を含む文節と、その文節と係り受け関係にある文節とをペアとして取得する機能部である。   The pre-processing unit 23 is a functional unit that divides the acquired text into a plurality of sentences and performs a shaping process on the divided text. The dependency analysis unit 24 is a functional unit that performs dependency analysis on the sentence that has been processed by the preprocessing unit 23. The phrase pair acquisition unit 25 (including the dictionary addition candidate phrase determination unit), based on the result obtained by the dependency analysis, a phrase including the expression in the evaluation dictionary or the attribute dictionary, and a phrase having a dependency relationship with the phrase Is a functional unit that acquires as a pair.

文節ペアフィルタリング部26は、文節ペア取得部25で得られた各文節ペアの中の文節を形態素解析し、予め定めた品詞条件に合致する文節ペアのみを残して、以降の処理の対象とする機能部である。   The phrase pair filtering unit 26 performs morphological analysis on the phrases in each phrase pair obtained by the phrase pair acquisition unit 25, and leaves only the phrase pairs that match a predetermined part-of-speech condition, which are the targets of subsequent processing. It is a functional part.

表現抽出部27は、文節ペアフィルタリング部26での条件に合致する文節ペアについて、評価表現を含む文節から評価表現を抽出し、属性表現に対応する文節から属性表現を抽出する機能部である。   The expression extraction unit 27 is a functional unit that extracts an evaluation expression from a phrase including an evaluation expression and extracts an attribute expression from a phrase corresponding to the attribute expression for a phrase pair that matches the condition in the phrase pair filtering unit 26.

表現フィルタリング部28は、表現抽出部27により抽出された評価表現と属性表現のそれぞれを形態素解析し、その最後の単語の品詞が予め定めた条件に合致する評価表現と属性表現をペアとして残す機能部である。   The expression filtering unit 28 performs a morphological analysis on each of the evaluation expression and attribute expression extracted by the expression extraction unit 27, and leaves a pair of evaluation expression and attribute expression whose part of speech of the last word matches a predetermined condition. Part.

データ格納部29は、レビューサイト提供装置1から受信するテキストを格納するとともに、各処理機能部における処理結果のデータを格納する機能部である。各処理機能部は、データ格納部29に格納された前段階の処理結果を読み出して処理を行い、処理結果をデータ格納部29に格納する。   The data storage unit 29 is a functional unit that stores text received from the review site providing apparatus 1 and stores data of processing results in each processing functional unit. Each processing function unit reads and processes the previous stage processing result stored in the data storage unit 29, and stores the processing result in the data storage unit 29.

辞書格納部30は、属性辞書及び評価辞書を格納する機能部である。より詳細には、辞書格納部30は、属性辞書格納部と、評価辞書格納部を含む。評判情報格納部31は、評判情報として抽出された属性表現と評価表現を格納するための機能部である。評判情報提供部32は、評判情報格納部31から評判情報を読み出して、レビューサイト提供装置1に送信するための機能部である。   The dictionary storage unit 30 is a functional unit that stores an attribute dictionary and an evaluation dictionary. More specifically, the dictionary storage unit 30 includes an attribute dictionary storage unit and an evaluation dictionary storage unit. The reputation information storage unit 31 is a functional unit for storing attribute expressions and evaluation expressions extracted as reputation information. The reputation information providing unit 32 is a functional unit for reading out reputation information from the reputation information storage unit 31 and transmitting it to the review site providing apparatus 1.

なお、本明細書及び特許請求の範囲において、属性辞書及び評価辞書は、属性表現のリスト、評価表現のリストである。また、"辞書"と記載した場合は特に属性辞書であるか評価辞書であるかを限定せず、これらのいずれかであるものとする。また、"表現"と記載した場合は特に属性表現であるか評価表現であるかを限定せず、これらのいずれかであるものとする。更に、本明細書及び特許請求の範囲において、辞書、表現、文節、語、候補等は、それぞれ、辞書データ、表現データ、文節データ、語データ、候補データ等の意味であり、それぞれコンピュータで処理可能な形式のデータであるものとする。   In the present specification and claims, the attribute dictionary and the evaluation dictionary are a list of attribute expressions and a list of evaluation expressions. In addition, when “dictionary” is described, it is not particularly limited as to whether it is an attribute dictionary or an evaluation dictionary, and it is assumed to be either of these. In addition, when “expression” is described, it is not particularly limited whether it is an attribute expression or an evaluation expression, and it is any one of these. Further, in the present specification and claims, dictionary, expression, phrase, word, candidate, etc. mean dictionary data, expression data, phrase data, word data, candidate data, etc., and each is processed by a computer. It is assumed that the data is in a possible format.

評判情報抽出装置2は、CPU、記憶装置、通信機能等を備えたコンピュータに、本実施の形態で説明する処理を実行するためのプログラムを搭載することにより実現されるものである。評判情報抽出装置2内の各処理機能部は、コンピュータ内のハードウェア資源(CPU,記憶装置等)とプログラムとが協働して実現される機能部である。当該プログラムは、メモリ等の記録媒体に格納し、そこからコンピュータにインストールすることとしてもよいし、ネットワーク上のサーバからダウンロードすることとしてもよい。   The reputation information extraction device 2 is realized by mounting a program for executing processing described in the present embodiment on a computer having a CPU, a storage device, a communication function, and the like. Each processing function unit in the reputation information extraction device 2 is a function unit realized by cooperation of hardware resources (CPU, storage device, etc.) and a program in the computer. The program may be stored in a recording medium such as a memory and then installed in a computer from there, or may be downloaded from a server on a network.

次に、図7を参照して評判情報抽出装置2の処理の概要を説明する。まず、評判情報抽出装置2は、レビューサイト提供装置1から評価表現及び属性表現の抽出対象となるテキストを取得する(ステップ1)。そして、評判情報抽出装置2は、少数の評価表現を含む予め作成された評価辞書と、少数の属性表現を含む予め作成された属性辞書とを参照して、上記テキストに対して本発明に係る処理を行うことにより、評判情報(属性表現と評価表現の組)を抽出するとともに、辞書に追加するべき新規の表現(新規表現と呼ぶ)を抽出し、新規表現を辞書に追加する(ステップ2、3)。つまり、新規表現を辞書格納部30に辞書データとして追加する。図7に示す例では、「値段」、「お魚」が属性辞書に新規に追加され、「安い」、「新鮮」が評価辞書に追加されることになる。なお、上記の動作では、評判情報と辞書に追加する新規表現とを同時に抽出しているが、辞書の自動構築のみを目的として、辞書に追加する新規表現の抽出のみを行うこととしてもよい。   Next, the outline of the process of the reputation information extracting device 2 will be described with reference to FIG. First, the reputation information extraction device 2 acquires the text from which the evaluation expression and attribute expression are extracted from the review site providing device 1 (step 1). Then, the reputation information extraction device 2 refers to the pre-created evaluation dictionary including a small number of evaluation expressions and the pre-created attribute dictionary including a small number of attribute expressions according to the present invention with respect to the text. By performing processing, reputation information (a combination of attribute expression and evaluation expression) is extracted, a new expression to be added to the dictionary (referred to as a new expression) is extracted, and the new expression is added to the dictionary (step 2). 3). That is, the new expression is added to the dictionary storage unit 30 as dictionary data. In the example shown in FIG. 7, “price” and “fish” are newly added to the attribute dictionary, and “cheap” and “fresh” are added to the evaluation dictionary. In the above operation, reputation information and a new expression to be added to the dictionary are extracted at the same time. However, only the new expression to be added to the dictionary may be extracted for the purpose of automatic construction of the dictionary only.

(評判情報抽出装置の動作)
次に、評判情報抽出装置2の動作について、図8〜図10のフローチャート、及び図11〜図13に示す具体例を参照して詳細に説明する。
(Operation of reputation information extraction device)
Next, the operation of the reputation information extracting apparatus 2 will be described in detail with reference to the flowcharts of FIGS. 8 to 10 and the specific examples shown in FIGS.

下記の処理の前提として、辞書格納部30における評価辞書格納部には評価表現として「よい」が既に格納され、属性辞書格納部には属性表現として「スープ」が既に格納されているものとする。これらは手動で格納されたものである。なお、評価辞書と属性辞書は、本実施の形態に係る処理フローを複数回実行することにより拡充されていくものである。   As a premise of the following processing, it is assumed that “good” is already stored as an evaluation expression in the evaluation dictionary storage unit in the dictionary storage unit 30 and “soup” is already stored as an attribute expression in the attribute dictionary storage unit. . These are manually stored. Note that the evaluation dictionary and the attribute dictionary are expanded by executing the processing flow according to the present embodiment a plurality of times.

図8に示すフローチャートにおいて、まず、評判情報抽出装置2におけるテキスト取得部22が、表現の抽出対象となるテキスト(抽出対象テキスト)をレビューサイト提供装置1から取得し、データ格納部29に格納する(ステップ11)。前述したように、各処理機能部におけるその後の処理は、データ格納部29から処理結果のデータを読み出し、処理結果のデータを格納することにより行われるものである。抽出対象テキストは、ある特定の対象(店)に対応するもののもとしてもよいし、ある領域(中華)に対応するものとしてもよい。また、より広い範囲(レストラン全体)に対応するテキストとしてもよい。ただし、データ格納部29は、テキストに含まれる文を店毎、領域毎に格納するものとする。   In the flowchart shown in FIG. 8, first, the text acquisition unit 22 in the reputation information extraction device 2 acquires the text to be extracted (expression target text) from the review site providing device 1 and stores it in the data storage unit 29. (Step 11). As described above, the subsequent processing in each processing function unit is performed by reading processing result data from the data storage unit 29 and storing the processing result data. The extraction target text may be based on text corresponding to a specific target (store), or may be based on a certain area (Chinese). Moreover, it is good also as a text corresponding to a wider range (the whole restaurant). However, the data storage unit 29 stores a sentence included in the text for each store and each area.

抽出対象テキストの一例を図11(a)に示す。以下、図11(a)に示す抽出対象テキストに対して処理がなされるものとして具体例を説明する。   An example of the extraction target text is shown in FIG. A specific example will be described below assuming that processing is performed on the extraction target text shown in FIG.

続いて、前処理部23が、データ格納部29から読み出した抽出対象テキストを文に分割する(ステップ12)。図11(a)に示す抽出対象テキストの例では、図11(b)に示すように2つの文に分割され、各文毎に次からの処理が行われることになる。以下の処理では、第1番目の文が対象となる。   Subsequently, the preprocessing unit 23 divides the extraction target text read from the data storage unit 29 into sentences (step 12). In the example of the extraction target text shown in FIG. 11A, it is divided into two sentences as shown in FIG. 11B, and the following processing is performed for each sentence. In the following processing, the first sentence is targeted.

続いて、前処理部23は、処理対象の文に対して整形処理を施す(ステップ13)。具体的には、例えば、Htmlタグの除去、Wiki文法タグの除去、半角文字を全角に変換する等の処理を行う。文の整形処理が施された後の文を図11(c)に示す。   Subsequently, the preprocessing unit 23 performs a shaping process on the sentence to be processed (step 13). Specifically, for example, processing such as removal of an Html tag, removal of a Wiki grammar tag, or conversion of half-width characters to full-width characters is performed. The sentence after the sentence shaping process is shown in FIG.

次に、整形処理が施された文に対し、係り受け解析部24が文の係り受け解析を行う(ステップ14)。本実施の形態では、係り受け解析部24における係り受け解析処理を行うためのプログラムとしてcabochaと呼ばれるプログラムを使用しているが、本発明は、特定の係り受け解析処理に限定されるわけではなく、一般的な係り受け解析処理を行えばよい。   Next, the dependency analysis unit 24 performs dependency analysis on the sentence that has undergone the shaping process (step 14). In the present embodiment, a program called cabocha is used as a program for performing dependency analysis processing in the dependency analysis unit 24, but the present invention is not limited to specific dependency analysis processing. A general dependency analysis process may be performed.

続いて、文節ペア取得部25が、ステップ14における文の係り受け解析結果に基づき、係り受け関係にある文節のペアを抽出する(ステップ15)。つまり、ステップ14において、どの文節とどの文節が係り受け関係にあるかを示すデータが解析結果として取得され、その結果を用いて、処理対象の文から係り受け関係にある文節のペアをデータとして抽出する。文節ペア取得部25により取得される文節のペアの例を図12(a)に示す。図12(a)において、"この−お店"、"お店−「ikaruga」の"等はそれぞれ係り受け関係にある文節ペアである。ステップ15では、このような文節ペアが1つづつ抽出され、各文節ペアに対して次からの処理が行われることになる。   Subsequently, the phrase pair acquisition unit 25 extracts phrase pairs having a dependency relationship based on the dependency analysis result of the sentence in step 14 (step 15). That is, in step 14, data indicating which clause and which clause are in a dependency relationship is acquired as an analysis result, and using the result, a pair of clauses in a dependency relationship from the processing target sentence is used as data. Extract. An example of a phrase pair acquired by the phrase pair acquisition unit 25 is shown in FIG. 12 (a), “this-store”, “store-“ ikaruga ”, etc.” are phrase pairs having a dependency relationship, and in step 15, such phrase pairs are extracted one by one. Then, the following processing is performed for each phrase pair.

次に、文書ペア取得部25は、処理対象となっている文節ペアに含まれるそれぞれの文節における語と、属性辞書及び評価辞書に含まれる表現との比較を行うことにより(ステップ16)、各文節に属性辞書又は評価辞書に含まれる表現が含まれるかどうか等の判定を行う(ステップ17)。   Next, the document pair acquisition unit 25 compares the words in each phrase included in the phrase pair that is the processing target with the expressions included in the attribute dictionary and the evaluation dictionary (step 16). It is determined whether or not the phrase includes an expression included in the attribute dictionary or the evaluation dictionary (step 17).

例えば、図12(a)に示す各文節ペアの例では、図12(b)に示すように、括弧で括った語が、評価辞書に含まれている評価表現又は属性辞書に含まれている属性表現とマッチした語である。なお、図中の括弧はマッチした語を分かりやすくするために記載したものであり、文節の中に含まれているものではない。以下同様である。また、処理対象の文節内において、辞書内の表現に対応する語が活用形になっている場合には、辞書内と同じ形(基本形)に変換して、変換後の語が辞書内の表現とマッチすれば、文節内の語と辞書内の表現はマッチしたと判断する。   For example, in the example of each phrase pair shown in FIG. 12A, as shown in FIG. 12B, the words enclosed in parentheses are included in the evaluation expression or attribute dictionary included in the evaluation dictionary. A word that matches the attribute expression. In addition, the parentheses in the figure are described for easy understanding of the matched word, and are not included in the clause. The same applies hereinafter. Also, if the word corresponding to the expression in the dictionary is in the utilization form in the clause to be processed, it is converted to the same form (basic form) as in the dictionary, and the converted word is the expression in the dictionary. If it matches, the word in the phrase and the expression in the dictionary match.

文節ペアにおける各文節に辞書に含まれる表現が含まれるかどうかについては以下の場合に分けることができる。   Whether each phrase in the phrase pair includes an expression included in the dictionary can be divided into the following cases.

(A)文節ペアにおけるいずれの文節も辞書に含まれる表現を含まない。   (A) None of the clauses in the clause pair includes an expression included in the dictionary.

(B)文節ペアにおける両方の文節が、属性辞書と評価辞書のうちの片方の辞書のみに含まれる表現を含む。   (B) Both clauses in the clause pair include expressions included in only one of the attribute dictionary and the evaluation dictionary.

(C)文節ペアの一方の文節が評価辞書内の評価表現を含み、文節ペアの他方の文節が属性辞書内の属性表現を含む。   (C) One clause of the phrase pair includes an evaluation expression in the evaluation dictionary, and the other clause of the phrase pair includes an attribute expression in the attribute dictionary.

(D)文節ペアの一方の文節が、評価辞書内の評価表現又は属性辞書内の属性表現を含むが、文節ペアの他方の文節はどの辞書の表現も含まない。   (D) One clause of the phrase pair includes an evaluation expression in the evaluation dictionary or an attribute expression in the attribute dictionary, but the other phrase in the phrase pair does not include any dictionary expression.

ステップ17において、文節ペア取得部25は、対象の文節ペアが(A)〜(D)のどれに該当するかを判定し、(A)又は(B)であればステップ15に戻り、次の文節ペアを処理対象とする。また、文節ペア取得部25は、ステップ17における判定結果が(C)である場合には、ステップ19の処理に進み、判定結果が(D)である場合には、ステップ18の処理に進む。   In step 17, the phrase pair acquisition unit 25 determines which of (A) to (D) the target phrase pair corresponds to. If (A) or (B), the phrase pair acquisition unit 25 returns to step 15 to Process phrase pairs. The phrase pair acquisition unit 25 proceeds to the process of step 19 when the determination result in step 17 is (C), and proceeds to the process of step 18 when the determination result is (D).

判定結果が(D)である場合のステップ18において、文書ペア取得部25は、文節ペアの中の2つの文節のうち、辞書の中の表現が含まれていない側の文節を、辞書に追加すべき新規表現の候補を含む辞書追加候補文節であると見なして、そのことを示すフラグ(辞書追加候補フラグ)を当該文節に付与する。より詳細には、文書ペア取得部25は、文節ペアの中の2つの文節のうち一方の文節が評価辞書内の評価表現を含む場合には、他方の文節を新規の属性表現の候補を含むと見なして属性辞書追加候補文節であることを示すフラグを当該文節に付与し、文節ペアの中の2つの文節のうち一方の文節が属性辞書内の属性表現を含む場合には、他方の文節を評価表現の候補を含む見なして評価辞書追加候補文節であることを示すフラグを当該文節に付与する。そして、ステップ19に進む。   In step 18 in the case where the determination result is (D), the document pair acquisition unit 25 adds the phrase on the side that does not include the expression in the dictionary, out of the two phrases in the phrase pair, to the dictionary. It is regarded as a dictionary addition candidate clause including a candidate for a new expression to be added, and a flag (dictionary addition candidate flag) indicating this is given to the clause. More specifically, when one of the two clauses in the clause pair includes an evaluation expression in the evaluation dictionary, the document pair acquisition unit 25 includes a candidate for a new attribute expression in the other clause. If a flag indicating that it is an attribute dictionary addition candidate clause is given to the clause, and one of the two clauses in the clause pair includes the attribute expression in the attribute dictionary, the other clause Is included as a candidate for evaluation expression, and a flag indicating that it is an evaluation dictionary addition candidate clause is given to the clause. Then, the process proceeds to Step 19.

図12(b)に示した各文に対してステップ17、ステップ18の処理を施した後の結果を図12(c)に示す。フラグが"(属性)"等のように小さな括弧を用いて示されている。本実施の形態のフローでは、1つの文節ペア毎に処理が行われるが、ここでは処理を分かりやすくするために、全ての文節ペアに対する処理結果を示す。   FIG. 12C shows the result after the processing of Step 17 and Step 18 is performed on each sentence shown in FIG. Flags are shown using small parentheses such as "(attribute)". In the flow of the present embodiment, processing is performed for each clause pair. Here, in order to make the processing easy to understand, processing results for all clause pairs are shown.

図12(c)に示すように、例えば、"「ikaruga」の−スープは"の文節ペアに関し、文節"「ikaruga」の"はどの辞書の表現も含まないが、文節"スープは"は、属性辞書の中の属性表現を含むので、"「ikaruga」の"には、評価辞書追加候補文節であることを示すフラグが付与されている。フラグが何も付与されていない文節ペアは、ステップ17における判定が(C)に該当するペアである。   As shown in FIG. 12C, for example, the phrase “soup of“ ikaruga ”is related to the phrase pair, and the phrase“ ikaruga ”does not include any dictionary expression, but the phrase“ soup ”is Since the attribute expression is included in the attribute dictionary, a flag indicating that it is an evaluation dictionary addition candidate clause is assigned to “of ikaruga”. The determination in 17 is a pair corresponding to (C).

続いて、文書ペア取得部25は、ステップ17又はステップ18を経由した文節ペアに対して、文節の係り方についてのチェックを行う(ステップ19)。なお、本実施の形態では、上記(C)と(D)に該当する文節ペアに対して以降の処理を行うこととしているが、例えば辞書構築のみを行いたい場合には、上記の(D)に該当するフラグが付与された文節ペアに対してのみこれ以降の処理を行うこととしてもよい。   Subsequently, the document pair acquisition unit 25 checks the phrase engagement method for the phrase pair that has passed through step 17 or step 18 (step 19). In this embodiment, the subsequent processing is performed on the phrase pairs corresponding to the above (C) and (D). However, for example, when only the dictionary construction is to be performed, the above (D) The subsequent processing may be performed only for the phrase pair to which the flag corresponding to is attached.

文節の係り方についてのチェックにおいて、具体的には、文書ペア取得部25は、係り受けの距離が長すぎないか、係り受けの形式が並列又は同格でないか、文節ペアの文節を構成する単語数が多すぎないか、のチェックを行う。係り受けの距離が長すぎないかについては、例えば元の文において文節ペアの一方の文節と他方の文節との間に含まれていた文節を形態素解析して単語数を算出し、その単語数が予め定めた数以上か否かで判定できる。このように単語数を用いる代わりに、一方の文節と他方の文節との間に含まれていた文節の数を用いて距離が長すぎないかどうかを判定してもよい。   Specifically, in the check on how to handle clauses, the document pair acquisition unit 25 determines whether the dependency distance is not too long, whether the dependency format is parallel or not equivalent, and the words constituting the clause of the phrase pair Check if there are too many numbers. To determine whether the dependency distance is too long, for example, in the original sentence, calculate the number of words by morphologically analyzing the phrase included between one phrase and the other phrase in the phrase pair. Can be determined by whether or not is greater than or equal to a predetermined number. Instead of using the number of words in this way, it may be determined whether the distance is too long by using the number of clauses included between one clause and the other.

文節を構成する単語数が多すぎないかについても、文節を形態素解析して文節の単語数を算出し、その単語数が予め定めた数以上か否かで判定できる。ステップ19において処理対象の文節ペアが上記チェックを満足しなかった場合は、ステップ15に移り、次の文節ペアに対して処理が行われる。   Whether the number of words constituting the phrase is too large can be determined by calculating the number of words in the phrase by morphological analysis of the phrase and determining whether the number of words is equal to or greater than a predetermined number. If the phrase pair to be processed does not satisfy the above check in step 19, the process proceeds to step 15 where the next phrase pair is processed.

次に、ステップ19を経由した文節ペアに対し、文節ペアフィルタリング部26が、品詞に基づく係り受け形式のチェックを行う(図9のステップ20)。具体的には、文書ペアフィルタリング部26は、図10に示す手順でチェックを行う。図10に示すとおり、まず、文書ペアフィルタリング部26は、文節ペアにおける最初の文節と次の文節の内容を参照し、文節の出現順をチェックする(ステップ201)。そして、最初の文節が属性表現を含む文節であり、次の文節が評価表現を含む文節である場合には、ステップ202の処理を行い、最初の文節が評価表現を含む文節であり、次の文節が属性表現を含む文節である場合には、ステップ203の処理を行う。なお、文節ペアフィルタリング部26は、評価辞書追加候補文節又は属性辞書追加候補文節を含む文節ペアにおける2つの文節のうちの最初の文節の最後の単語の品詞が予め定めた条件を満たすかどうかを判定する文節ペアフィルタリング手段に相当する。   Next, the phrase pair filtering unit 26 checks the dependency format based on the part of speech for the phrase pair that has passed through step 19 (step 20 in FIG. 9). Specifically, the document pair filtering unit 26 performs a check according to the procedure shown in FIG. As shown in FIG. 10, first, the document pair filtering unit 26 refers to the contents of the first phrase and the next phrase in the phrase pair, and checks the order in which the phrases appear (step 201). If the first clause is a clause including an attribute expression and the next clause is a clause including an evaluation expression, the process of step 202 is performed, and the first clause is a phrase including an evaluation expression. If the phrase is a phrase including an attribute expression, the process of step 203 is performed. The phrase pair filtering unit 26 determines whether or not the part of speech of the last word of the first phrase of two phrases in the phrase pair including the evaluation dictionary addition candidate phrase or the attribute dictionary addition candidate phrase satisfies a predetermined condition. This corresponds to the phrase pair filtering means for determination.

なお、属性表現を含む文節であるかどうかは、その文節が属性辞書に含まれる属性表現を含むか、又は、その文節が属性辞書追加候補文節であるかどうかで判断する。また、評価表現を含む文節であるかどうかは、その文節が評価辞書に含まれる評価表現を含むか、又は、その文節が評価辞書追加候補文節であるかどうかで判断する。   Whether or not the phrase includes an attribute expression is determined based on whether or not the phrase includes an attribute expression included in the attribute dictionary or whether the phrase is an attribute dictionary addition candidate phrase. Whether the phrase includes an evaluation expression is determined by whether the phrase includes an evaluation expression included in the evaluation dictionary or whether the phrase is an evaluation dictionary addition candidate phrase.

最初の文節が属性表現を含む文節であり、次の文節が評価表現を含む文節である場合のステップ202において、文書ペアフィルタリング部26は、属性表現を含む文節を形態素解析し、当該文節内の最後に出現する単語の品詞が、「助詞−格助詞」又は「助詞−係助詞」であって、かつ、それが「が」、「は」、「も」のうちのいずれかであるかどうかを判定し、判定の結果がOKであれば次の処理に進むが、NGであればステップ15に戻り、次の文節ペアの処理に進む。   In step 202 when the first clause is a clause including an attribute expression and the next clause is a clause including an evaluation expression, the document pair filtering unit 26 performs morphological analysis on the clause including the attribute expression, and Whether the last part of speech of the word is “particle-case particle” or “particle-coordinate particle” and it is one of “ga”, “ha”, “mo” If the determination result is OK, the process proceeds to the next process, but if it is NG, the process returns to step 15 to proceed to the next phrase pair process.

なお、本実施の形態では、形態素解析のプログラムとしてmecabと呼ばれるプログラムを使用しており、本実施の形態で用いている品詞体系はmecabで使用されるIPA品詞体系等に基づくものである。また、活用形についてもmecabで使用されるものである。ただし、例えば「助詞−格助詞」は、助詞の中の格助詞、つまり単に格助詞を意味するに過ぎず、本実施の形態で説明している品詞の種類は一般的な日本語の文法に従ったものである。活用形についても一般的な日本語の文法に従ったものである。「助詞−格助詞」という標記は、助詞という品詞が接続助詞、格助詞、係助詞等に細分類される中での格助詞であることを意味している。以下同様である。   In this embodiment, a program called mecab is used as a morphological analysis program, and the part-of-speech system used in this embodiment is based on the IPA part-of-speech system used in mecab. The usage form is also used by mecab. However, for example, “particle-case particle” merely means a case particle in a particle, that is, a case particle, and the type of part of speech described in the present embodiment is a general Japanese grammar. It is what I followed. The usage form also follows general Japanese grammar. The term “particle-case particle” means a case particle in which the part of speech as a particle is subdivided into a connected particle, a case particle, an auxiliary particle, and the like. The same applies hereinafter.

ステップ202において、例えば、文節ペアが「お肉が/ジューシーだ」である場合、属性表現を含む文節「お肉が」の最後に出現する単語「が」の品詞は格助詞であるから、ここでの判定はOKになる。また、文節ペアが「お肉の/産地は」である場合、「お肉の」における「の」は、ステップ202の条件に合致しないため、判定はNGになる。   In step 202, for example, when the phrase pair is “meat is juicy”, the part of speech of the word “ga” that appears at the end of the phrase “meat” including the attribute expression is a case particle. The determination at is OK. When the phrase pair is “Meat / Producing region”, “NO” in “Meat” does not match the condition of step 202, so the determination is NG.

最初の文節が評価表現を含む文節であり、次の文節が属性表現を含む文節である場合のステップ203において、文節ペアフィルタリング部26は、評価表現を含む文節を形態素解析し、当該文節内の最後に出現する単語の活用形が「基本形」又は「体言接続」であるかどうかを判定し、判定の結果がOKであれば次の処理に進むが、NGであればステップ15に戻り、次の文節ペアの処理に進む。つまり、ここでは、文節内の最後に出現する単語が活用形を有する品詞の単語であって、その活用形が「基本形」又は「体言接続」であるかどうかの判定がなされる。なお、「体言接続」とは、体言に接続する活用形である。また、ステップ202、203において、チェック対象の単語が記号である場合には、その前の単語でチェックを行う。   In step 203 when the first clause is a clause containing an evaluation expression and the next clause is a clause containing an attribute expression, the clause pair filtering unit 26 performs a morphological analysis on the clause containing the evaluation expression, It is determined whether or not the last word usage form is “basic form” or “diagram connection”. If the result of the determination is OK, the process proceeds to the next process. Proceed to processing the phrase pair. That is, here, it is determined whether or not the last word in the phrase is a part-of-speech word having an inflected form, and the inflected form is “basic form” or “partially connected”. Note that the “dialogue connection” is a utilization form that connects to the paraphrase. In steps 202 and 203, if the word to be checked is a symbol, the check is performed with the previous word.

図12(c)に示した各文節ペアの例についての判定結果を図13(a)に示す。例えば、"「ikaruga」の−スープは"の文節ペアでは、最初の文節に評価表現を含むからステップ203の判定が行われるが、文節の最後の単語「の」の活用形はないので、ステップ203での判定はNGとなる。一方、文節ペアが"スープは−よく、"の場合、最初の文節に属性表現を含むので、ステップ202の判定がなされる。そして、"スープは"の最後の単語は「は」であり、品詞は係助詞であるので、ここでの判定はOKとなる。   FIG. 13A shows the determination results for the example of each phrase pair shown in FIG. For example, in the phrase pair ““ ikaruga ”-soup is”, the first phrase contains an evaluation expression, so the determination in step 203 is performed, but there is no utilization form of the last word “no” in the phrase. The determination at 203 is NG. On the other hand, if the phrase pair is “Soup is good,” the attribute is included in the first phrase, so the determination in step 202 is made. And since the last word of “Soup” is “ha” and the part of speech is an auxiliary particle, the determination here is OK.

図9のステップ20において、処理対象になっている文節ペアについてOKとの判定結果が得られた後、表現抽出部27は、当該文節ペアにおいて評価表現又は属性表現を含むそれぞれの文節(評価辞書追加候補文節又は属性辞書追加候補文節を含む)に対し、当該文節内の単語の品詞を文節の末尾にある単語から順に確認する処理を行い、この処理の中で、確認対象の単語の品詞が記号、助詞、助動詞、又は接続詞であればその単語を削除し、次の単語の品詞確認処理を行う。もし、確認対象の単語の品詞が、記号、助詞、助動詞、接続詞のいずれでもない場合には、その単語の出現時点で品詞確認処理を終了し、削除されずに残ったものを評価表現又は属性表現として抽出する(ステップ21)。もちろん、評価表現を含む文節において上記処理を行って残った部分が評価表現であり、属性表現を含む文節において上記処理を行って残った部分が属性表現である。   In step 20 in FIG. 9, after the determination result of OK is obtained for the phrase pair to be processed, the expression extracting unit 27 includes each phrase (evaluation dictionary) including the evaluation expression or attribute expression in the phrase pair. Additional candidate clauses or attribute dictionary additional candidate clauses), the part of speech of the words in the clause is checked in order from the word at the end of the clause, and in this processing, the part of speech of the word to be checked is If it is a symbol, particle, auxiliary verb, or conjunction, the word is deleted and the part of speech confirmation process for the next word is performed. If the part of speech of the word to be confirmed is neither a symbol, a particle, an auxiliary verb, nor a conjunction, the part of speech confirmation process ends at the time the word appears, and the remaining part of the word is not evaluated Extracted as an expression (step 21). Of course, the part remaining after performing the above processing in the clause including the evaluation expression is the evaluation expression, and the part remaining after performing the above processing in the clause including the attribute expression is the attribute expression.

なお、上記ステップ21の処理において、評価表現を含む文節の場合には、助動詞「ない」は削除対象としない。また、処理の結果として残った部分の最後の単語が活用形である場合には、その最後の単語を基本形に変換する。   In the processing of step 21 above, in the case of a phrase including an evaluation expression, the auxiliary verb “none” is not subject to deletion. Further, when the last word of the portion remaining as a result of the processing is a utilization form, the last word is converted into a basic form.

ステップ20で図13(a)に示すようにOKと判定された文節ペアにおいては、ステップ21では、図13(b)に示すように評価表現と属性表現が抽出される。例えば、"スープは−よく、"という文節ペアでは、属性表現を含む文節である"スープは"において、"は"は助詞であるから削除され、"スープ"は記号、助詞、助動詞、接続詞のいずれでもないから残され、結果として"スープ"が属性表現として抽出される。"よく、"の"、"は記号であるから削除され、"よく"は基本形に変換されて"よい"として評価表現として抽出される。   In the phrase pair determined to be OK in step 20 as shown in FIG. 13A, in step 21, the evaluation expression and the attribute expression are extracted as shown in FIG. 13B. For example, in the phrase pair "Soup-well," the phrase containing the attribute expression "Soup" is deleted because "is" is a particle, "Soup" is a symbol, particle, auxiliary verb, conjunction As a result, “soup” is extracted as an attribute expression. "Well," "" and "" are deleted because they are symbols, and "Well" is converted to the basic form and extracted as an evaluation expression as "Good".

続いて、表現フィルタリング部28が、抽出された表現を形態素解析し、その最後の単語の品詞を確認する(ステップ22)。より具体的には、表現フィルタリング部28は、確認の対象が評価表現である場合、その最後の単語が「名詞−一般」(一般名詞)、「形容詞」、「名詞−形容動詞語幹」(「贅沢」のように「〜な」の形をとれる名詞)のうちのいずれかであるかどうかを判定する。   Subsequently, the expression filtering unit 28 performs morphological analysis on the extracted expression and confirms the part of speech of the last word (step 22). More specifically, the expression filtering unit 28 determines that the last word is “noun-general” (general noun), “adjective”, “noun-adjective verb stem” (“ It is determined whether it is any of the nouns that can take the form of “~” like “luxury”.

確認の対象が属性表現である場合、表現フィルタリング部28は、その最後の単語が「名詞−一般」又は「名詞−固有名詞」であるかどうかを判定する。   When the confirmation target is an attribute expression, the expression filtering unit 28 determines whether the last word is “noun-general” or “noun-proper noun”.

評価表現と属性表現の両方について判定がOKであった場合に、ステップ22における判定がOKとなり次の処理に進み、評価表現と属性表現のいずれか又は両方について判定がNGであればステップ15に戻り、次の文節ペアに対する処理を行う。図13(b)に示す属性表現と評価表現の各ペアについて、ステップ22の判定を行った結果を図13(c)に示す。例えば、評価表現「よい」と属性表現「スープ」のペアに関して、「よい」は形容詞であり、「スープ」は一般名詞であるからステップ22の判定条件を満足するためステップ22の判定結果はOKとなる。   If the determination for both the evaluation expression and the attribute expression is OK, the determination in step 22 is OK, and the process proceeds to the next process. If the determination for either or both of the evaluation expression and the attribute expression is NG, the process proceeds to step 15. Return and process the next phrase pair. FIG. 13C shows the result of the determination in step 22 for each pair of attribute expression and evaluation expression shown in FIG. For example, regarding the pair of the evaluation expression “good” and the attribute expression “soup”, “good” is an adjective and “soup” is a general noun, so the determination result of step 22 is OK to satisfy the determination condition of step 22. It becomes.

ステップ22において判定結果がOKであった場合、表現フィルタリング部28は、処理対象である属性表現と評価表現のペアのいずれかに辞書追加候補フラグが付与されているかどうかを判定する(ステップ23)。図13(c)の例であれば、属性表現「思い」に辞書追加候補フラグが付与されているので、「よい」と「思い」が処理対象である場合には、ステップ23の判定結果がYesとなり、表現フィルタリング部28は、属性辞書格納部に新規の属性表現「思い」を追加する(ステップ24)。なお、表現フィルタリング部28は、文節ペアフィルタリング部26において文節ペアが該当条件を満たす場合に、評価辞書追加候補文節又は属性辞書追加候補文節から抽出される表現の最後の単語の品詞が予め定めた条件を満たすかどうかを判定し、当該条件を満たした場合に、当該表現を評価辞書又は属性辞書に追加する処理を行っている。   If the determination result in step 22 is OK, the expression filtering unit 28 determines whether a dictionary addition candidate flag is assigned to any of the attribute expression and evaluation expression pairs to be processed (step 23). . In the example of FIG. 13C, since the dictionary addition candidate flag is assigned to the attribute expression “thought”, if “good” and “thought” are processing targets, the determination result in step 23 is Yes, the expression filtering unit 28 adds a new attribute expression “thought” to the attribute dictionary storage unit (step 24). The expression filtering unit 28 determines the part of speech of the last word of the expression extracted from the evaluation dictionary addition candidate clause or the attribute dictionary addition candidate clause when the phrase pair satisfies the corresponding condition in the phrase pair filtering unit 26. It is determined whether or not the condition is satisfied, and when the condition is satisfied, processing for adding the expression to the evaluation dictionary or the attribute dictionary is performed.

また、ステップ23において、処理対象である属性表現と評価表現のペアのいずれにもフラグが付与されていない場合、表現フィルタリング部28は、そのペアを評判情報格納部31に格納する(ステップ25)。図13(c)の例では、図13(d)に示すように、評価表現「よい」と属性表現「スープ」のペアと、評価表現「よい」と属性表現「鶏がらスープ」のペアが評判情報として評判情報格納部31に格納される。評判情報格納部31に評判情報を格納する際には、例えば、当該評判情報が抽出された文に対応する店名に対応付けて評判情報を格納する。   If no flag is assigned to any attribute expression / evaluation expression pair to be processed in step 23, the expression filtering unit 28 stores the pair in the reputation information storage unit 31 (step 25). . In the example of FIG. 13C, as shown in FIG. 13D, a pair of the evaluation expression “good” and the attribute expression “soup” and a pair of the evaluation expression “good” and the attribute expression “chicken soup” It is stored in the reputation information storage unit 31 as reputation information. When storing reputation information in the reputation information storage unit 31, for example, the reputation information is stored in association with the store name corresponding to the sentence from which the reputation information is extracted.

ステップ26において、処理対象の文節ペアが、処理対象の文の中での最後の文節であるかどうかの判定がなされ、最後でなければ次の文節ペアに処理を移す。最後の文節ペアであれば、処理対象の文がテキストの中の最後の文であるかどうかの判定がなされ(ステップ27)、最後の文でなければ次の文に処理が移され、最後の文であれば処理を終了する。   In step 26, it is determined whether or not the phrase pair to be processed is the last phrase in the sentence to be processed. If not, the process proceeds to the next phrase pair. If it is the last phrase pair, it is determined whether or not the sentence to be processed is the last sentence in the text (step 27). If it is not the last sentence, the process moves to the next sentence, and the last sentence If it is a sentence, the process ends.

その後、例えば、レビューサイト提供装置1からの要求に応じて、評判情報提供部32が、評判情報格納部31から評判情報を読み出し、それをレビューサイト提供装置1に送信する。上記の評判情報抽出/辞書構築処理は、例えば、ある一定期間毎(レビューサイトにおいてテキストがある程度増加する都度)に行ってもよいし、レビューサイトにおいてユーザからの書き込みがなされる都度、そのテキストをレビューサイト提供装置1から評判情報抽出装置2に送り、その都度、評判情報抽出装置2が評判情報抽出/辞書構築処理を行うこととしてもよい。また、レビューサイト提供装置1内に、本実施の形態における評判情報抽出装置2の機能を備えてもよい。   Thereafter, for example, in response to a request from the review site providing apparatus 1, the reputation information providing unit 32 reads out the reputation information from the reputation information storage unit 31 and transmits it to the review site providing apparatus 1. The above reputation information extraction / dictionary construction process may be performed, for example, every certain period (every time text is increased to some extent at the review site), or whenever the user writes on the review site, the text is processed. It is good also as sending to the reputation information extraction apparatus 2 from the review site provision apparatus 1, and the reputation information extraction apparatus 2 performing a reputation information extraction / dictionary construction process each time. Further, the review site providing apparatus 1 may be provided with the function of the reputation information extracting apparatus 2 in the present embodiment.

以上説明したように、本実施の形態における評判情報抽出装置2によれば、評判情報抽出に用いられる評価辞書と属性辞書を、予め少数の単語を登録しておくだけで自動的に作成することが可能となる。   As described above, according to the reputation information extraction apparatus 2 in the present embodiment, the evaluation dictionary and the attribute dictionary used for reputation information extraction are automatically created simply by registering a small number of words in advance. Is possible.

本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。   The present invention is not limited to the above-described embodiments, and various modifications and applications are possible within the scope of the claims.

本発明の実施の形態におけるシステム構成図である。It is a system configuration figure in an embodiment of the invention. レビューサイト提供装置の機能構成図である。It is a functional block diagram of a review site provision apparatus. テキスト格納部が格納するデータの構造例を示す図である。It is a figure which shows the structural example of the data which a text storage part stores. 評判情報格納部が格納するデータの構造例を示す図である。It is a figure which shows the structural example of the data which a reputation information storage part stores. ユーザ端末に表示される画面例である。It is an example of a screen displayed on a user terminal. 評判情報抽出装置の機能構成図である。It is a functional lineblock diagram of a reputation information extraction device. 評判情報抽出装置の処理の概要を説明するための図である。It is a figure for demonstrating the outline | summary of the process of a reputation information extraction apparatus. 評判情報抽出装置の動作を示すフローチャートである。It is a flowchart which shows operation | movement of a reputation information extraction apparatus. 評判情報抽出装置の動作を示すフローチャートである。It is a flowchart which shows operation | movement of a reputation information extraction apparatus. 評判情報抽出装置の動作を示すフローチャートである。It is a flowchart which shows operation | movement of a reputation information extraction apparatus. テキストの一例を示す図である。It is a figure which shows an example of a text. 具体例を説明するための図である。It is a figure for demonstrating a specific example. 具体例を説明するための図である。It is a figure for demonstrating a specific example.

符号の説明Explanation of symbols

1 レビューサイト提供装置
2 評判情報抽出装置
3 ユーザ端末
4 通信ネットワーク
11 対ユーザ端末インタフェース部
12 レビュー情報蓄積提供部
13 評判情報提供部
14 対評判情報抽出装置インタフェース部
15 テキスト格納部
16 評判情報格納部
21 対レビューサイト提供装置インタフェース部
22 テキスト取得部
23 前処理部
24 係り受け解析部
25 文節ペア取得部
26 文節ペアフィルタリング部
27 表現抽出部
28 表現フィルタリング部
29 データ格納部
30 辞書格納部
31 評判情報格納部
32 評判情報提供部
DESCRIPTION OF SYMBOLS 1 Review site provision apparatus 2 Reputation information extraction apparatus 3 User terminal 4 Communication network 11 To user terminal interface part 12 Review information storage provision part 13 Reputation information provision part 14 Reputation information extraction apparatus interface part 15 Text storage part 16 Reputation information storage part 21 Interview site providing device interface unit 22 Text acquisition unit 23 Preprocessing unit 24 Dependency analysis unit 25 Phrase pair acquisition unit 26 Phrase pair filtering unit 27 Expression extraction unit 28 Expression filtering unit 29 Data storage unit 30 Dictionary storage unit 31 Reputation information Storage unit 32 Reputation information provider

Claims (8)

評価辞書を格納する評価辞書格納手段と属性辞書を格納する属性辞書格納手段を備え、前記評価辞書と前記属性辞書を参照することにより、テキスト格納手段に格納されたテキストから評価表現と属性表現の組である評判情報を抽出する機能を有する評判情報抽出装置であって、
前記テキスト格納手段に格納された前記テキストを読み出し、当該テキストに含まれる文の係り受け解析を行い、当該文から係り受け関係にある文節のペアを抽出する文節ペア抽出手段と、
前記文節ペアの各文節と、前記評価辞書及び前記属性辞書に含まれる表現との比較を行う比較手段と、
前記比較手段により、前記文節ペアを構成する2つの文節のうちの一方の文節が前記評価辞書内の評価表現を含み、他方の文節はいずれの辞書内の表現も含まないと判定された場合に、前記他方の文節を前記属性辞書に追加するべき属性表現を含む属性辞書追加候補文節であると判定し、前記比較手段により、前記一方の文節が前記属性辞書内の属性表現を含み、前記他方の文節はいずれの辞書内の表現も含まないと判定された場合に、前記他方の文節を、前記評価辞書に追加するべき評価表現を含む評価辞書追加候補文節であると判定する辞書追加候補文節判定手段と、
前記評価辞書追加候補文節又は前記属性辞書追加候補文節を含む文節ペアが、品詞に基づく所定の条件を満たす場合に、前記評価辞書追加候補文節又は前記属性辞書追加候補文節から評価表現又は属性表現を抽出し、新規の表現として前記評価辞書又は前記属性辞書に追加する新規表現追加手段と
を備えたことを特徴とする評判情報抽出装置。
An evaluation dictionary storage means for storing an evaluation dictionary and an attribute dictionary storage means for storing an attribute dictionary are provided. By referring to the evaluation dictionary and the attribute dictionary, evaluation expressions and attribute expressions can be obtained from the text stored in the text storage means. A reputation information extraction device having a function of extracting reputation information as a set,
Reading the text stored in the text storage means, performing dependency analysis of sentences included in the text, and extracting a pair of clauses having a dependency relationship from the sentence;
A comparison means for comparing each phrase of the phrase pair with expressions included in the evaluation dictionary and the attribute dictionary;
When it is determined by the comparison means that one of the two clauses constituting the clause pair includes an evaluation expression in the evaluation dictionary and the other clause does not include any expression in any dictionary Determining that the other phrase is an attribute dictionary addition candidate phrase including an attribute expression to be added to the attribute dictionary, and the comparing means includes the one phrase including an attribute expression in the attribute dictionary, and the other phrase If it is determined that the phrase in FIG. 5 does not include any expression in any dictionary, the dictionary additional candidate phrase that determines that the other phrase is an evaluation dictionary addition candidate phrase including an evaluation expression to be added to the evaluation dictionary A determination means;
When a phrase pair including the evaluation dictionary addition candidate clause or the attribute dictionary addition candidate clause satisfies a predetermined condition based on part of speech, an evaluation expression or attribute expression is obtained from the evaluation dictionary addition candidate clause or the attribute dictionary addition candidate clause. A reputation information extracting device comprising: a new expression adding means for extracting and adding as a new expression to the evaluation dictionary or the attribute dictionary.
前記新規表現追加手段は、前記評価辞書追加候補文節又は前記属性辞書追加候補文節を含む前記文節ペアにおける2つの文節のうちの最初の文節の最後の単語の品詞が予め定めた条件を満たすかどうかを判定する文節ペアフィルタリング手段を有し、
前記文節ペアフィルタリング手段により、少なくとも前記最初の文節の最後の単語の品詞が予め定めた条件を満たすと判定された場合に、前記新規表現追加手段は、前記評価辞書追加候補文節に含まれる評価表現又は前記属性辞書追加候補文節に含まれる属性表現を前記新規の表現として前記評価辞書又は前記属性辞書に追加することを特徴とする請求項1に記載の評判情報抽出装置。
The new expression adding means determines whether the part of speech of the last word of the first phrase of two phrases in the phrase pair including the evaluation dictionary addition candidate clause or the attribute dictionary addition candidate clause satisfies a predetermined condition A phrase pair filtering means for determining
When it is determined by the phrase pair filtering means that at least the part of speech of the last word of the first phrase satisfies a predetermined condition, the new expression adding means includes an evaluation expression included in the evaluation dictionary addition candidate phrase 2. The reputation information extracting apparatus according to claim 1, wherein an attribute expression included in the attribute dictionary addition candidate clause is added to the evaluation dictionary or the attribute dictionary as the new expression.
前記最初の文節が、前記属性辞書追加候補文節又は前記属性辞書内の属性表現を含む文節である場合において、前記予め定めた条件は、少なくとも前記最後の単語の品詞が格助詞又は係助詞であることであり、
前記最初の文節が、前記評価辞書追加候補文節又は前記評価辞書内の評価表現を含む文節である場合において、前記予め定めた条件は、前記最後の単語の品詞が活用形をもつ品詞であって、当該活用形が基本形又は体言接続であることである
ことを特徴とする請求項2に記載の評判情報抽出装置。
In the case where the first phrase is a phrase including the attribute dictionary addition candidate phrase or the attribute expression in the attribute dictionary, the predetermined condition is that at least the part of speech of the last word is a case particle or a coordinator. That is,
In the case where the first phrase is a phrase including the evaluation dictionary addition candidate phrase or the evaluation expression in the evaluation dictionary, the predetermined condition is a part of speech in which the part of speech of the last word has a utilization form. The reputation information extracting device according to claim 2, wherein the utilization form is a basic form or a body connection.
前記文節ペアフィルタリング手段において前記文節ペアが前記条件を満たす場合に、前記新規表現追加手段は、前記評価辞書追加候補文節又は前記属性辞書追加候補文節から抽出される表現の最後の単語の品詞が予め定めた条件を満たすかどうかを判定し、当該条件を満たした場合に、当該表現を前記評価辞書又は前記属性辞書に追加することを特徴とする請求項2又は3に記載の評判情報抽出装置。   When the phrase pair satisfies the condition in the phrase pair filtering means, the new expression adding means has a part of speech of the last word of the expression extracted from the evaluation dictionary addition candidate clause or the attribute dictionary addition candidate clause in advance. 4. The reputation information extracting apparatus according to claim 2, wherein whether or not a predetermined condition is satisfied is determined, and the expression is added to the evaluation dictionary or the attribute dictionary when the condition is satisfied. 前記表現が評価表現である場合、前記予め定めた条件は、当該評価表現の最後の単語が一般名詞、形容詞、又は形容動詞語幹となる名詞であることであり、
前記表現が属性表現である場合、前記予め定めた条件は、当該属性表現の最後の単語が一般名詞又は固有名詞であることである
ことを特徴とする請求項4に記載の評判情報抽出装置。
When the expression is an evaluation expression, the predetermined condition is that the last word of the evaluation expression is a noun that is a general noun, an adjective, or an adjective verb stem,
The reputation information extraction device according to claim 4, wherein, when the expression is an attribute expression, the predetermined condition is that the last word of the attribute expression is a general noun or a proper noun.
前記評判情報抽出装置は、前記比較手段により、前記文節ペアを構成する2つの文節のうちの一方の文節が前記評価辞書内の評価表現を含み、他方の文節が前記属性辞書内の属性表現を含むと判定された場合に、前記一方の文節から評価表現を抽出し、前記他方の文節から属性表現を抽出し、当該評価表現と当該属性表現の組を評判情報として評判情報格納手段に格納する評判情報抽出手段を更に備えることを特徴とする請求項1ないし5のうちいずれか1項に記載の評判情報抽出装置。   In the reputation information extracting device, one of two clauses constituting the clause pair includes an evaluation expression in the evaluation dictionary, and the other clause includes an attribute expression in the attribute dictionary by the comparison unit. When it is determined that the evaluation expression is included, the evaluation expression is extracted from the one phrase, the attribute expression is extracted from the other phrase, and the combination of the evaluation expression and the attribute expression is stored as reputation information in the reputation information storage unit. The reputation information extraction device according to claim 1, further comprising reputation information extraction means. 評価辞書を格納する評価辞書格納手段と属性辞書を格納する属性辞書格納手段を備え、前記評価辞書と前記属性辞書を参照することにより、テキスト格納手段に格納されたテキストから評価表現と属性表現の組である評判情報を抽出する機能を有する評判情報抽出装置が実行する辞書構築方法であって、
前記テキスト格納手段に格納された前記テキストを読み出し、当該テキストに含まれる文の係り受け解析を行い、当該文から係り受け関係にある文節のペアを抽出する文節ペア抽出ステップと、
前記文節ペアの各文節と、前記評価辞書及び前記属性辞書に含まれる表現との比較を行う比較ステップと、
前記比較ステップにより、前記文節ペアを構成する2つの文節のうちの一方の文節が前記評価辞書内の評価表現を含み、他方の文節はいずれの辞書内の表現も含まないと判定された場合に、前記他方の文節を前記属性辞書に追加するべき属性表現を含む属性辞書追加候補文節であると判定し、前記比較ステップにより、前記一方の文節が前記属性辞書内の属性表現を含み、前記他方の文節はいずれの辞書内の表現も含まないと判定された場合に、前記他方の文節を、前記評価辞書に追加するべき評価表現を含む評価辞書追加候補文節であると判定する辞書追加候補文節判定ステップと、
前記評価辞書追加候補文節又は前記属性辞書追加候補文節を含む文節ペアが、品詞に基づく所定の条件を満たす場合に、前記評価辞書追加候補文節又は前記属性辞書追加候補文節から評価表現又は属性表現を抽出し、新規の表現として前記評価辞書又は前記属性辞書に追加する新規表現追加ステップと
を備えたことを特徴とする辞書構築方法。
An evaluation dictionary storage means for storing an evaluation dictionary and an attribute dictionary storage means for storing an attribute dictionary are provided. By referring to the evaluation dictionary and the attribute dictionary, evaluation expressions and attribute expressions can be obtained from the text stored in the text storage means. It is a dictionary construction method executed by a reputation information extraction device having a function of extracting reputation information as a set,
A phrase pair extraction step of reading the text stored in the text storage means, performing dependency analysis of the sentence included in the text, and extracting a pair of phrases having a dependency relation from the sentence;
A comparison step of comparing each clause of the clause pair with expressions included in the evaluation dictionary and the attribute dictionary;
When it is determined by the comparison step that one of the two clauses constituting the clause pair includes an evaluation expression in the evaluation dictionary and the other clause does not include an expression in any dictionary Determining that the other phrase is an attribute dictionary addition candidate phrase including an attribute expression to be added to the attribute dictionary, and the one step includes an attribute expression in the attribute dictionary by the comparing step; If it is determined that the phrase in FIG. 5 does not include any expression in any dictionary, the dictionary additional candidate phrase that determines that the other phrase is an evaluation dictionary addition candidate phrase including an evaluation expression to be added to the evaluation dictionary A determination step;
When a phrase pair including the evaluation dictionary addition candidate clause or the attribute dictionary addition candidate clause satisfies a predetermined condition based on part of speech, an evaluation expression or attribute expression is obtained from the evaluation dictionary addition candidate clause or the attribute dictionary addition candidate clause. A new expression adding step of extracting and adding as a new expression to the evaluation dictionary or the attribute dictionary.
コンピュータを、評価辞書を格納する評価辞書格納手段と属性辞書を格納する属性辞書格納手段を備え、前記評価辞書と前記属性辞書を参照することにより、テキスト格納手段に格納されたテキストから評価表現と属性表現の組である評判情報を抽出する機能を有する評判情報抽出装置として機能させるプログラムであって、コンピュータを、
前記テキスト格納手段に格納された前記テキストを読み出し、当該テキストに含まれる文の係り受け解析を行い、当該文から係り受け関係にある文節のペアを抽出する文節ペア抽出手段、
前記文節ペアの各文節と、前記評価辞書及び前記属性辞書に含まれる表現との比較を行う比較手段、
前記比較手段により、前記文節ペアを構成する2つの文節のうちの一方の文節が前記評価辞書内の評価表現を含み、他方の文節はいずれの辞書内の表現も含まないと判定された場合に、前記他方の文節を前記属性辞書に追加するべき属性表現を含む属性辞書追加候補文節であると判定し、前記比較手段により、前記一方の文節が前記属性辞書内の属性表現を含み、前記他方の文節はいずれの辞書内の表現も含まないと判定された場合に、前記他方の文節を、前記評価辞書に追加するべき評価表現を含む評価辞書追加候補文節であると判定する辞書追加候補文節判定手段、
前記評価辞書追加候補文節又は前記属性辞書追加候補文節を含む文節ペアが、品詞に基づく所定の条件を満たす場合に、前記評価辞書追加候補文節又は前記属性辞書追加候補文節から評価表現又は属性表現を抽出し、新規の表現として前記評価辞書又は前記属性辞書に追加する新規表現追加手段、
として機能させるプログラム。
The computer comprises an evaluation dictionary storage means for storing an evaluation dictionary and an attribute dictionary storage means for storing an attribute dictionary, and by referring to the evaluation dictionary and the attribute dictionary, an evaluation expression from the text stored in the text storage means, A program for causing a computer to function as a reputation information extraction device having a function of extracting reputation information that is a set of attribute expressions,
Reading out the text stored in the text storage means, performing dependency analysis of the sentence included in the text, and extracting a pair of clauses having a dependency relation from the sentence;
A comparison means for comparing each clause of the clause pair with expressions included in the evaluation dictionary and the attribute dictionary;
When it is determined by the comparison means that one of the two clauses constituting the clause pair includes an evaluation expression in the evaluation dictionary and the other clause does not include any expression in any dictionary Determining that the other phrase is an attribute dictionary addition candidate phrase including an attribute expression to be added to the attribute dictionary, and the comparing means includes the one phrase including an attribute expression in the attribute dictionary, and the other phrase If it is determined that the phrase in FIG. 5 does not include any expression in any dictionary, the dictionary additional candidate phrase that determines that the other phrase is an evaluation dictionary addition candidate phrase including an evaluation expression to be added to the evaluation dictionary Determination means,
When a phrase pair including the evaluation dictionary addition candidate clause or the attribute dictionary addition candidate clause satisfies a predetermined condition based on part of speech, an evaluation expression or attribute expression is obtained from the evaluation dictionary addition candidate clause or the attribute dictionary addition candidate clause. New expression adding means for extracting and adding to the evaluation dictionary or the attribute dictionary as a new expression;
Program to function as.
JP2008061764A 2008-03-11 2008-03-11 Reputation information extracting device, dictionary constructing method, and program Pending JP2009217642A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008061764A JP2009217642A (en) 2008-03-11 2008-03-11 Reputation information extracting device, dictionary constructing method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008061764A JP2009217642A (en) 2008-03-11 2008-03-11 Reputation information extracting device, dictionary constructing method, and program

Publications (1)

Publication Number Publication Date
JP2009217642A true JP2009217642A (en) 2009-09-24

Family

ID=41189401

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008061764A Pending JP2009217642A (en) 2008-03-11 2008-03-11 Reputation information extracting device, dictionary constructing method, and program

Country Status (1)

Country Link
JP (1) JP2009217642A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011070541A (en) * 2009-09-28 2011-04-07 Shimizu Corp Method and device for supporting internet marketing
JP2021108098A (en) * 2019-12-27 2021-07-29 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド Review information processing method, device, computer apparatus, and medium

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG200401645012, 小林のぞみ 他4名, "テキストマイニングによる評価表現の収集", 情報処理学会研究報告, 20030306, Vol2003 No.23(2003−NL−154), 77−84頁, JP, 社団法人情報処理学会 *
JPN6011003997, 小林のぞみ 他4名, "テキストマイニングによる評価表現の収集", 情報処理学会研究報告, 20030306, Vol2003 No.23(2003−NL−154), 77−84頁, JP, 社団法人情報処理学会 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011070541A (en) * 2009-09-28 2011-04-07 Shimizu Corp Method and device for supporting internet marketing
JP2021108098A (en) * 2019-12-27 2021-07-29 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド Review information processing method, device, computer apparatus, and medium
JP7159248B2 (en) 2019-12-27 2022-10-24 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド Review information processing method, apparatus, computer equipment and medium
US11507751B2 (en) 2019-12-27 2022-11-22 Beijing Baidu Netcom Science And Technology Co., Ltd. Comment information processing method and apparatus, and medium

Similar Documents

Publication Publication Date Title
US10002125B2 (en) Language model personalization
KR100870056B1 (en) Translation Information Segment
US8073865B2 (en) System and method for content extraction from unstructured sources
JP6462970B1 (en) Classification device, classification method, generation method, classification program, and generation program
JP5541049B2 (en) DATA GENERATION DEVICE, DATA GENERATION METHOD, AND DATA GENERATION PROGRAM
CN110263248A (en) A kind of information-pushing method, device, storage medium and server
CN110287405B (en) Emotion analysis method, emotion analysis device and storage medium
CN109992653A (en) Information processing method and processing system
CN113986864A (en) Log data processing method and device, electronic equipment and storage medium
JP2014175000A (en) Method and system for file conversion
Wu Language independent web news extraction system based on text detection framework
KR101646414B1 (en) Lengthy Translation Service Apparatus and Method of same
JP5940056B2 (en) Method and system for adapting text content to language behavior of an online community
JP4743766B2 (en) Impression determination system, advertisement article generation system, impression determination method, advertisement article generation method, impression determination program, and advertisement article generation program
CN112818091A (en) Object query method, device, medium and equipment based on keyword extraction
Xu et al. RIP emojis and words to contextualize mourning on Twitter
US20050102619A1 (en) Document processing device, method and program for summarizing evaluation comments using social relationships
KR20170008357A (en) System for Translating Using Crowd Sourcing, Server and Method for Web toon Language Automatic Translating
JP2009217642A (en) Reputation information extracting device, dictionary constructing method, and program
CN108319586B (en) Information extraction rule generation and semantic analysis method and device
CN111144122A (en) Evaluation processing method, evaluation processing device, computer system, and medium
JP2001265774A (en) Method and device for retrieving information, recording medium with recorded information retrieval program and hypertext information retrieving system
JP2023010805A (en) Method for training document information extraction model and extracting document information, device, electronic apparatus, storage medium and computer program
KR102585545B1 (en) Method for providing speech recognition based product guidance service using user manual
JP6384469B2 (en) Information processing apparatus, information processing system, control method, and program

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110201

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110404

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20111018