JP5729633B2 - Terminal device, expression output method, and program - Google Patents
Terminal device, expression output method, and program Download PDFInfo
- Publication number
- JP5729633B2 JP5729633B2 JP2010276563A JP2010276563A JP5729633B2 JP 5729633 B2 JP5729633 B2 JP 5729633B2 JP 2010276563 A JP2010276563 A JP 2010276563A JP 2010276563 A JP2010276563 A JP 2010276563A JP 5729633 B2 JP5729633 B2 JP 5729633B2
- Authority
- JP
- Japan
- Prior art keywords
- evaluation
- expression
- evaluation expression
- phrase
- polarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、文章から評価表現を抽出する端末装置等に関するものである。 The present invention relates to a terminal device that extracts an evaluation expression from a sentence.
従来の第一の技術において、消費者によるレビュー記事に含まれる評判情報を要約するために、評判情報がそれぞれ注目している特徴で評判情報を分類する。この方法では、例えば、「デジタルカメラ」というトピックの場合は「画質」や「大きさ」などの特徴ごとに分類して、肯定的または否定的な意見を知ることができる(非特許文献1参照)。 In the first conventional technique, in order to summarize the reputation information included in the review article by the consumer, the reputation information is classified according to the characteristics that the reputation information is focused on. In this method, for example, in the case of the topic “digital camera”, classification can be made for each feature such as “image quality” and “size”, and positive or negative opinions can be known (see Non-Patent Document 1). ).
従来の第二の技術において、評価表現が同じであっても、関連するトピックが異なれば、トピック毎に評判情報を分類することができる評判情報分類装置がある(特許文献1参照)。本装置は、評価表現が同じでも、関連するトピックが異なればトピックごとに評価表現を分類するために、評価表現の周辺テキストを利用してクラスタリングを行う。 In the second conventional technique, there is a reputation information classification device that can classify reputation information for each topic even if the evaluation expressions are the same, if related topics are different (see Patent Document 1). Even if the evaluation expression is the same, the apparatus performs clustering using the peripheral text of the evaluation expression to classify the evaluation expression for each topic if the related topics are different.
しかしながら、従来の技術においては、Web等の多量の文書から、対立する評価表現を出力できなかった。なお、対立する評価表現とは、同じ観点について述べられた評価表現であり、相反する内容を持つような評価表現の組のことである。例えば、「キシリトール」というトピックに関する「キシリトールガムによりむし歯になる可能性があります。」という否定表現に対して、「キシリトールはむし歯を起こさない甘味料です。」という肯定表現は、むし歯予防の効能という同一の観点について逆の内容が述べられているため、対立する評価表現である。一方、「キシリトールは安全な甘味料です。」、または「キシリトールは価格が安い。」などの肯定表現は、キシリトールという同一のトピックについて述べられた逆の評価極性を持つ表現ではあるが、着目している観点が安全性や価格などでありむし歯予防の効能についてではないため、これらは対立する評価表現ではない。 However, in the conventional technology, it is not possible to output conflicting evaluation expressions from a large amount of documents such as the Web. Note that the conflicting evaluation expressions are evaluation expressions that describe the same viewpoint and are sets of evaluation expressions that have conflicting contents. For example, the positive expression “xylitol is a sweetener that does not cause caries” is a negative expression for the topic “xylitol”, whereas it can be caries with xylitol gum. Since the opposite content is stated for the same viewpoint, it is a conflicting evaluation expression. On the other hand, positive expressions such as “Xylitol is a safe sweetener” or “Xylitol is cheap” are the expressions with the opposite evaluation polarity described on the same topic as xylitol. These are not conflicting evaluation expressions, because the viewpoints that are concerned are safety and price and not about the efficacy of preventing tooth decay.
つまり、第一の技術では、あらかじめどのような特徴が存在するかを列挙して辞書を作成しておく必要がある。また、例えば、「むし歯を起こさない甘味料です」というような、評価の対象となる特徴が何であるかが明確ではない評価情報を扱うことは困難である。したがって、第一の技術では、何らの準備なしに、自由度高く、対立する評価表現を抽出できない。
つまり、例えば、否定表現1の「キシリトールガムにより、むし歯になる可能性があります。」に対立する表現として、同様のトピックに関連する肯定表現「キシリトールは、むし歯を起こさない甘味料です。」だけではなく、トピックが異なる肯定表現、例えば、「キシリトールは、むし歯を起こさない甘味料です。」「キシリトールガムは、歯を丈夫で健康に保ちます。」「キシリトールは価格が安い。」なども抽出し得る。
That is, in the first technique, it is necessary to create a dictionary lists whether the advance what features exist. In addition, it is difficult to handle evaluation information that is not clear as to what characteristics are to be evaluated, such as “a sweetener that does not cause caries”. Therefore, in the first technique, it is not possible to extract a conflicting evaluation expression with a high degree of freedom without any preparation.
In other words, for example, as an expression opposite to
また、第二の技術では、対立する評価表現を抽出することを考慮しておらず、対立する評価表現を抽出できない。 The second technique does not consider extracting conflicting evaluation expressions and cannot extract conflicting evaluation expressions.
本発明は、上記課題に鑑み、以下のような解決手段を有する。
本第一の発明の端末装置は、1以上のサーバ装置に格納されている文章から、一のトピックに関する肯定的な表現および否定的な表現の両方を出力する端末装置であって、評価に関する語句である評価語句と、評価語句が肯定的であるか否定的であるかを示す情報である評価極性とを有する評価語句情報を1以上格納し得る評価語句辞書と、1以上のサーバ装置に格納されている文章を構成する文であり、トピックに関連する文から、評価語句辞書に格納されている評価語句を用いて、評価語句を含む1以上の語句の集合である評価表現を、2以上抽出する評価表現抽出部と、評価表現抽出部が抽出した2以上の各評価表現に含まれている1以上の語句から、2以上の評価表現をクラスタリングし、2以上の評価表現を含む1以上の評価表現グループを取得する評価表現クラスタリング部と、1以上の各評価表現グループのうちの一の評価表現グループに含まれる2以上の評価表現から、評価語句辞書に含まれる評価語句と評価極性とを用いて、一のトピックに関する肯定的な評価表現、および一のトピックに関する否定的な評価表現を取得する対立評価表現取得部と、対立評価表現取得部が取得した一のトピックに関する肯定的な評価表現および否定的な評価表現の両方を出力する対立評価表現出力部とを具備する端末装置である。
In view of the above problems, the present invention has the following solutions.
The terminal device according to the first aspect of the present invention is a terminal device that outputs both a positive expression and a negative expression related to one topic from sentences stored in one or more server devices. And evaluation phrase dictionary that can store one or more evaluation phrase information having evaluation polarity that is information indicating whether the evaluation phrase is positive or negative, and stored in one or more server devices Two or more evaluation expressions that are a set of one or more words including evaluation words, using the evaluation words stored in the evaluation word dictionary from sentences related to the topic. Two or more evaluation expressions are clustered from one or more words / phrases included in each of the two or more evaluation expressions extracted by the evaluation expression extraction unit and the evaluation expression extraction unit to be extracted. Evaluation expression An evaluation expression clustering unit that obtains a loop and two or more evaluation expressions included in one evaluation expression group of one or more evaluation expression groups, using an evaluation word and evaluation polarity included in the evaluation word dictionary , A confrontation evaluation expression acquisition unit that obtains a positive evaluation expression related to one topic and a negative evaluation expression related to one topic, and a positive evaluation expression and negative regarding one topic acquired by the confrontation evaluation expression acquisition unit It is a terminal device provided with the opposite evaluation expression output part which outputs both typical evaluation expressions.
かかる構成により、Web等の多量の文書から、対立する評価表現を出力できることができる。 With this configuration, it is possible to output conflicting evaluation expressions from a large amount of documents such as the Web.
また、本第二の発明の端末装置は、第一の発明に対して、評価表現に含まれる1以上の各語句、各語句の原形、各語句の品詞、各語句の評価極性、および語句が評価表現の開始語句であるか評価表現の途中の語句であるか評価表現に無関係な語句であるかを示す各語句の種類を示す種類情報、および評価表現に含まれる1以上の語句の並びに関する情報とを有する学習データであり、評価表現ごとの学習データを、2以上格納し得る学習データ格納部をさらに具備し、評価表現抽出部は、1以上のサーバ装置に格納されている文章を構成する各文を形態素解析し、1以上の語句を取得する形態素解析手段と、形態素解析手段の処理結果から、形態素解析手段が取得した1以上の各語句、各語句の原形、各語句の品詞、および評価表現に含まれる1以上の語句の並びに関する情報を取得し、かつ、評価語句辞書を1以上の各語句をキーとして検索し、1以上の各語句の評価極性を、文ごとに取得する素性取得手段と、素性取得手段が取得した情報を素性として、学習データ格納部の2以上の学習データを用いて、機械学習し、各文を構成する語句の種類を示す種類情報の1以上の列に関する情報を取得する機械学習手段と、機械学習手段が取得した1以上の種類情報の列のうち、評価表現の開始語句または評価表現の途中の語句であることを示す種類情報が連続する種類情報列に対応する1以上の連続する語句の集合である評価表現を取得する評価表現取得手段とを具備する端末装置である。 In addition, the terminal device of the second aspect of the present invention is different from the first aspect in that one or more words / phrases included in the evaluation expression, the original form of each phrase, the part of speech of each phrase, the evaluation polarity of each phrase and the phrase Kind information indicating the type of each phrase indicating whether it is a starting phrase of the evaluation expression, a phrase in the middle of the evaluation expression, or a phrase unrelated to the evaluation expression, and a sequence of one or more words included in the evaluation expression A learning data storage unit capable of storing two or more pieces of learning data for each evaluation expression, and the evaluation expression extraction unit constitutes sentences stored in one or more server devices. Morphological analysis of each sentence to be obtained, morpheme analysis means for acquiring one or more words, and from the processing result of the morpheme analysis means, one or more words acquired by the morpheme analysis means, the original form of each word, the part of speech of each word, And included in the evaluation expression A feature acquisition unit that acquires information related to an arrangement of one or more words, searches the evaluation word dictionary using one or more words as a key, and acquires evaluation polarities of the one or more words for each sentence; Using information acquired by the acquisition means as a feature, machine learning is performed using two or more learning data in the learning data storage unit, and information on one or more columns of type information indicating the types of words constituting each sentence is acquired. 1 corresponding to a type information sequence in which type information indicating a start phrase of an evaluation expression or a phrase in the middle of an evaluation expression is continuous among machine learning means and one or more types of information columns acquired by the machine learning means. It is a terminal device comprising an evaluation expression acquisition means for acquiring an evaluation expression that is a set of the above continuous phrases.
かかる構成により、Web等の多量の文書から、評価表現を適切に抽出できる。 With this configuration, it is possible to appropriately extract evaluation expressions from a large amount of documents such as the Web.
また、本第三の発明の端末装置は、第一の発明に対して、評価表現クラスタリング部は、評価表現抽出部が抽出した2以上の各評価表現に含まれている1以上の各語句の出現に関する情報である出現情報を、評価表現ごとに取得する語句出現情報取得手段と、語句出現情報取得手段が取得した評価表現ごとの出現情報から、評価表現ごとに評価表現の属性ベクトルを構成する属性ベクトル構成手段と、属性ベクトル構成手段が構成した評価表現ごとの属性ベクトルを用いて、評価表現間の類似度を算出する類似度算出手段と、類似度算出手段が算出した類似度を用いて、2以上の評価表現をクラスタリングし、1以上の評価表現を含む2以上の評価表現グループを取得する評価表現グループ取得手段とを具備する端末装置である。 Further, in the terminal device according to the third aspect of the present invention, in contrast to the first aspect, the evaluation expression clustering unit includes one or more words included in each of the two or more evaluation expressions extracted by the evaluation expression extraction unit. An attribute expression vector for each evaluation expression is constructed from the phrase appearance information acquisition means for acquiring appearance information, which is information relating to the appearance, for each evaluation expression, and the appearance information for each evaluation expression acquired by the phrase appearance information acquisition means. Using the attribute vector construction means, the similarity calculation means for calculating the similarity between the evaluation expressions using the attribute vector for each evaluation expression formed by the attribute vector construction means, and the similarity calculated by the similarity calculation means An evaluation expression group acquiring unit that clusters two or more evaluation expressions and acquires two or more evaluation expression groups including the one or more evaluation expressions.
かかる構成により、適切に評価表現をクラスタリングできる。 With this configuration, evaluation expressions can be appropriately clustered.
また、本第四の発明の端末装置は、第三の発明に対して、属性ベクトルは、評価表現に含まれている1以上の各語句(w)に対して、評価表現中での出現頻度tf(w)、1以上のサーバ装置に格納されている文章中から抽出されたすべての評価表現に含まれる頻度cf(w)を用いて、各語句に該当する次元が「tf(w)/cf(w)」の値を有するベクトルである端末装置である。 In the terminal device of the fourth aspect of the invention, in the third aspect of the invention, the attribute vector has an appearance frequency in the evaluation expression for one or more words (w) included in the evaluation expression. tf (w) Using the frequency cf (w) included in all evaluation expressions extracted from sentences stored in one or more server devices, the dimension corresponding to each word is “tf (w) / The terminal device is a vector having a value of “cf (w)”.
かかる構成により、適切に評価表現をクラスタリングできる。 With this configuration, evaluation expressions can be appropriately clustered.
また、本第五の発明の端末装置は、第三または第四の発明に対して、評価表現クラスタリング部は、使用頻度が高い1以上の評価語句を格納し得る高頻度評価語句格納手段をさらに具備し、語句出現情報取得手段は、高頻度評価語句格納手段に格納されている評価語句に対応する出現情報の重みを、評価語句ではない他の語句に対応する出現情報の重みよりも小さくなるように、評価表現抽出部が抽出した2以上の各評価表現に含まれている1以上の各語句の出現情報を、評価表現ごとに取得する端末装置である。 In the terminal device according to the fifth aspect of the present invention, in contrast to the third or fourth aspect, the evaluation expression clustering unit further includes a high-frequency evaluation phrase storage unit that can store one or more evaluation words that are frequently used. The phrase appearance information acquisition means includes a weight of appearance information corresponding to the evaluation phrase stored in the high-frequency evaluation phrase storage means smaller than a weight of appearance information corresponding to another phrase that is not the evaluation phrase. As described above, the terminal device acquires, for each evaluation expression, appearance information of one or more words included in each of the two or more evaluation expressions extracted by the evaluation expression extraction unit.
かかる構成により、より適切に評価表現をクラスタリングできる。 With this configuration, evaluation expressions can be clustered more appropriately.
また、本第六の発明の端末装置は、第一の発明に対して、対立評価表現取得部は、評価表現から構成される評価極性の列である評価極性列であり、評価表現に含まれる1以上の各語句に対応する評価極性の並びである評価極性列と、評価表現に含まれる1以上の各語句と、各語句の原形と、各語句の品詞と、評価表現が肯定的であるか否定的であるかを示す情報である評価表現極性とを対応付けている評価表現学習データを、2以上格納し得る評価表現学習データ格納手段と、1以上の評価表現グループのうちのいずれかの評価表現グループに含まれる2以上の各評価表現を語句に区分し、1以上の語句を取得し、かつ、1以上の各語句の原形および品詞を取得する語句情報取得手段と、語句情報取得手段が取得した1以上の各語句をキーとして、評価語句辞書を検索し、各語句に対応する評価極性を取得し、1以上の評価極性の列である評価極性列を、評価表現ごとに取得する評価極性列取得手段と、語句情報取得手段が取得した1以上の各語句、各語句の原形、各語句の品詞、および評価極性列取得手段が取得した評価極性列を、評価表現学習データ格納手段に格納されている2以上の評価表現学習データに、機械学習を用いて適用し、各評価表現の評価表現極性を、評価表現ごとに取得する評価表現極性取得手段と、評価表現極性取得手段が取得した評価表現極性が肯定的である評価表現と、評価表現極性取得手段が取得した評価表現極性が否定的である評価表現とを取得する対立評価表現取得手段とを具備する端末装置である。 Further, in the terminal device according to the sixth aspect of the invention, in contrast to the first aspect, the confrontation evaluation expression acquisition unit is an evaluation polarity string that is an evaluation polarity string composed of evaluation expressions, and is included in the evaluation expression The evaluation polarity sequence that is a sequence of evaluation polarities corresponding to one or more words, one or more words included in the evaluation expression, the original form of each word, the part of speech of each word, and the evaluation expression are positive. One of the evaluation expression learning data storage means that can store two or more evaluation expression learning data that associates evaluation expression polarity that is information indicating whether or not, and one or more evaluation expression groups Two or more evaluation expressions included in the evaluation expression group are divided into words, one or more words are acquired, and the phrase information acquisition means for acquiring the original form and part of speech of each of one or more words, and the phrase information acquisition One or more words acquired by the means as a key The evaluation word dictionary is searched, the evaluation polarity corresponding to each word is acquired, the evaluation polarity string acquisition means for acquiring the evaluation polarity string that is one or more evaluation polarity strings for each evaluation expression, and the phrase information acquisition Two or more evaluation expressions stored in the evaluation expression learning data storage means, each of the one or more words acquired by the means, the original form of each word, the part of speech of each word, and the evaluation polarity string acquired by the evaluation polarity string acquisition means Applies to learning data using machine learning, and the evaluation expression polarity acquisition means for acquiring the evaluation expression polarity of each evaluation expression for each evaluation expression, and the evaluation expression polarity acquired by the evaluation expression polarity acquisition means is positive. The terminal device includes an evaluation expression and a conflict evaluation expression acquisition unit that acquires an evaluation expression that is negative in the evaluation expression polarity acquired by the evaluation expression polarity acquisition unit.
かかる構成により、Web等の多量の文書から、対立する評価表現を適切に抽出できる。 With this configuration, it is possible to appropriately extract conflicting evaluation expressions from a large amount of documents such as the Web.
また、本第七の発明の端末装置は、第一から第六いずれかの発明に対して、ユーザからトピックを受け付ける受付部をさらに具備し、評価表現抽出部は、1以上のサーバ装置に格納されている文章を構成する文であり、受付部が受け付けたトピックに関連する文から、評価語句辞書に格納されている評価語句を用いて、評価語句を含む1以上の語句の集合である評価表現を、2以上抽出する端末装置である。 Further, the terminal device according to the seventh aspect of the present invention further comprises a receiving unit for receiving a topic from the user with respect to any one of the first to sixth aspects, and the evaluation expression extracting unit is stored in one or more server devices. An evaluation that is a set of one or more words including evaluation words using sentences that are included in the evaluation word stored in the evaluation word dictionary from sentences related to the topic received by the reception unit. A terminal device that extracts two or more expressions.
かかる構成により、Web等の多量の文書から、入力されたトピックに関する表現であり、対立する評価表現を出力できる。 With this configuration, it is possible to output a conflicting evaluation expression that is an expression related to an input topic from a large amount of documents such as the Web.
本発明による端末装置によれば、Web等の多量の文書から、対立する評価表現を出力できる。 The terminal device according to the present invention can output conflicting evaluation expressions from a large amount of documents such as the Web.
以下、端末装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
(実施の形態1)
Hereinafter, embodiments of a terminal device and the like will be described with reference to the drawings. In addition, since the component which attached | subjected the same code | symbol in embodiment performs the same operation | movement, description may be abbreviate | omitted again.
(Embodiment 1)
本実施の形態において、Web等の多量の文書から、肯定的な表現および否定的な表現の両方を抽出して出力する情報システムについて説明する。 In this embodiment, an information system that extracts and outputs both positive expressions and negative expressions from a large amount of documents such as the Web will be described.
図1は、本実施の形態における情報システム1のブロック図である。また、図2は、情報システム1を構成する端末装置12のブロック図である。
FIG. 1 is a block diagram of an
情報システム1は、1以上のサーバ装置11、および1以上の端末装置12を具備する。各サーバ装置11、および各端末装置12は、インターネット等のネットワークにより、通常、相互に通信可能である。サーバ装置11は、文章を格納している装置であり、例えば、Webサーバ装置である。また、端末装置12は、1以上のサーバ装置11に格納されている文章から、一のトピックに関する肯定的な表現および否定的な表現の両方を出力する装置である。
The
サーバ装置11は、文章格納部111、および文章送信部112を備える。
The
端末装置12は、テキスト格納部120、評価語句辞書121、学習データ格納部122、受付部123、評価表現抽出部124、評価表現クラスタリング部125、対立評価表現取得部126、および対立評価表現出力部127を備える。端末装置12において、受付部123から受け付けられたトピックに対応する評価表現を評価表現抽出部124が抽出する。この際、評価表現抽出部124は、テキスト格納部120、評価語句辞書121、学習データ格納部122の各情報を用いる。また、評価表現抽出部124で抽出した評価表現を、評価表現クラスタリング部125がクラスタリングする。また、クラスタリングした評価表現から、対立評価表現取得部126は対立する評価表現を取得し、対立評価表現出力部127は、当該対立する評価表現を出力する。
The
評価表現抽出部124は、形態素解析手段1241、素性取得手段1242、機械学習手段1243、および評価表現取得手段1244を備える。
The evaluation
評価表現クラスタリング部125は、高頻度評価語句格納手段1251、語句出現情報取得手段1252、属性ベクトル構成手段1253、類似度算出手段1254、および評価表現グループ取得手段1255を備える。
The evaluation
対立評価表現取得部126は、評価表現学習データ格納手段1261、語句情報取得手段1262、評価極性列取得手段1263、評価表現極性取得手段1264、および対立評価表現取得手段1265を備える。
The confrontation evaluation
サーバ装置11の文章格納部111は、1以上の文章を格納している。文章は、通常、ファイルであるが、データベース等、そのデータ形式は問わない。また、文章は、HTML、XML、プレーンテキスト等、その構造は問わない。なお、文章は、例えば、Webページである。
The
文章送信部112は、文章格納部111の文章を端末装置12に送信する。通常、文章送信部112は、端末装置12の要求に応じて、文章を送信する。
The
テキスト格納部120は、1以上の文章を格納している。文章は、サーバ装置11から受信された文章である。文章の受信は、例えば、図示しない受信手段が行う。テキスト格納部120は、一時的に、文章を格納しても良い。
The
端末装置12の評価語句辞書121は、1以上の評価語句情報を格納し得る。評価語句情報は、評価語句と評価極性とを有する情報である。評価語句は、評価に関する語句である。評価語句情報は、例えば、「すばらしい」「好き」「良い」「嫌い」「悪い」「上手い」「不味い」等である。評価極性は、評価語句が肯定的であるか否定的であるかを示す情報である。評価極性は、例えば、肯定/否定のいずれかを示す情報でも良いし、3種類以上の中のいずれかの情報でも良い。評価極性は、例えば、「+5」〜「−5」までの情報でも良い。ここで、「+5」は非常に肯定的、「−5」は非常に否定的等である。また、語句とは、通常、単語であるが、形態素や句などでも良く、広く解する。つまり、語句は、2以上の単語の集合等でも良い。さらに、評価極性が肯定または否定のいずれかを示す情報である場合、例えば、肯定は「1」、否定「−1」である。
The
学習データ格納部122は、2以上の学習データを格納し得る。学習データは、例えば、評価表現に含まれる1以上の各語句、各語句の原形、各語句の品詞(「語句の品詞」は「単語の品質」と同意義である。)、各語句の評価極性、種類情報および評価表現に含まれる1以上の語句の並びに関する情報を有するデータ(情報)である。種類情報とは、語句が評価表現の開始語句(例えば「B」とする。)であるか評価表現の途中の語句(例えば「I」とする。)であるか評価表現に無関係な語句(例えば「O」とする。)であるかを示す各語句の種類を示す情報である。また、学習データは、評価表現ごとのデータである。なお、学習データは、評価表現に関する情報であれば、上述した情報に限らない。学習データは、評価表現を構成する語句に関する情報であることは好適である。
The learning
受付部123は、トピックを受け付ける。トピックは、通常、語句である。ただし、トピックは、語句を含む文などでも良い。受付部123が語句を含む文を受け付けた場合、当該文から語句を抽出して、抽出した語句を評価表現抽出部124に渡すなどしても良い。ここで、受け付けとは、キーボードやマウス、タッチパネルなどの入力デバイスから入力された情報の受け付け、有線もしくは無線の通信回線を介して送信された情報の受信、光ディスクや磁気ディスク、半導体メモリなどの記録媒体から読み出された情報の受け付けなどを含む概念である。
The
トピックの入力手段は、テンキーやキーボードやマウスやメニュー画面によるもの等、何でも良い。受付部123は、テンキーやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。
The topic input means may be anything such as a numeric keypad, keyboard, mouse or menu screen. The receiving
評価表現抽出部124は、1以上のサーバ装置11に格納されている文章を構成する文であり、トピックに関連する文から、2以上の評価表現を抽出する。評価表現とは、評価語句を含む1以上の語句の集合である。評価表現抽出部124は、評価語句辞書121に格納されている評価語句を用いて、トピックに関連する文から、2以上の評価表現を抽出する。ここで、トピックは、通常、受付部123が受け付けたトピックである。また、評価表現抽出部124は、1以上のサーバ装置11から、文章を受信する受信手段を有しても良い。なお、評価表現抽出部124を実現する技術として、「Tetsuji Nakagawa, Takuya Kawada, Kentaro Inui and Sadao Kurohashi: Extracting Subjective and Objective Evaluative Expressions from the Web, ISUC-2008 (2008).」に記載の技術を用いることができる。また、トピックに関連する文とは、トピックを含む文、トピックと類義語、同義語、上位語、下位語などを含む文、トピックから取得でき得る文等である。
The evaluation
評価表現抽出部124を構成する形態素解析手段1241は、1以上のサーバ装置11に格納されている文章を構成する各文を形態素解析し、1以上の語句を取得する。形態素解析手段1241は、文章を構成する各文を形態素解析し、1以上の各語句の品詞、各語句の原形等を取得しても良い。なお、形態素解析手段1241は、形態素解析し、取得した各語句の原形を、図示しない単語辞書から取得するようにしても良い。また、形態素解析は、公知技術であるので詳細な説明を省略する。また、語句の原形を取得する技術も公知技術であるので詳細な説明を省略する。
The morpheme analyzing means 1241 constituting the evaluation
素性取得手段1242は、形態素解析手段1241の処理結果を用いて、例えば、形態素解析手段1241が取得した1以上の各語句、各語句の原形、各語句の品詞、および評価表現に含まれる1以上の語句の並びに関する情報を取得し、かつ、評価語句辞書121を1以上の各語句をキーとして検索し、1以上の各語句の評価極性を、文ごとに取得する。なお、例えば、文が「キシリトールは、むし歯を起こさない甘味料です」である場合、評価表現に含まれる1以上の語句の並びに関する情報とは、「キシリトール|は|むし歯|を|起こさ|ない|甘味料|です」という語句の並びである。なお、"|"が語句の区切りである。また、文ごとに取得された1以上の各語句の評価極性とは、例えば、「0|0|−1|0|0|0|0|0」である。ここで、「0」は肯定でも否定でもない語句、「1」は肯定の語句、「−1」は否定の語句である。素性取得手段1242は、機械学習手段1243が利用する素性を取得する。素性は、語句に関する情報であり、上述した情報に限らない。また、素性に、上述した情報をすべて含むことは必須ではない。
The feature acquisition unit 1242 uses the processing result of the morpheme analysis unit 1241, for example, one or more each phrase acquired by the morpheme analysis unit 1241, the original form of each phrase, the part of speech of each phrase, and one or more included in the evaluation expression The information on the arrangement of the phrases is acquired, the
機械学習手段1243は、素性取得手段1242が取得した情報を素性として、学習データ格納部122の2以上の学習データを用いて、機械学習し、各文を構成する語句の種類を示す種類情報の1以上の列に関する情報を取得する。ここで、種類情報の1以上の列に関する情報は、例えば、「O|O|B|I|I|I|I|I」である。ここで、「O」は評価表現に無関係な語句、「B」は評価表現の開始語句、「I」は評価表現の途中の語句である。機械学習は、SVM(サポートベクターマシン)、決定木等、そのアルゴリズムは問わない。機械学習は、公知技術であるので詳細な説明を省略する。
The
評価表現取得手段1244は、機械学習手段1243が取得した1以上の種類情報の列のうち、評価表現の開始語句または評価表現の途中の語句であることを示す種類情報が連続する種類情報列に対応する1以上の連続する語句の集合である評価表現を取得する。評価表現取得手段1244は、例えば、「O|O|B|I|I|I|I|I」のうちの「B」または「I」の列である種類情報列「BIIIII」を取得し、「BIIIII」に対応する語句の集合である評価表現「むし歯を起こさない甘味料です」を取得する。
The evaluation expression acquisition means 1244 is a type information string in which type information indicating that it is a start phrase of an evaluation expression or a phrase in the middle of an evaluation expression among one or more types of information strings acquired by the machine learning means 1243. An evaluation expression that is a set of one or more corresponding consecutive phrases is acquired. The evaluation
評価表現クラスタリング部125は、1以上の評価表現を含む2以上の評価表現グループを取得する。つまり、評価表現クラスタリング部125は、2以上の評価表現を、各評価表現が有する語句の共通性から、2以上のグループ(評価表現グループ)に分類する。具体的には、評価表現クラスタリング部125は、評価表現抽出部124が抽出した2以上の各評価表現に含まれている1以上の語句から、2以上の評価表現をクラスタリングし、1以上の評価表現を含む2以上の評価表現グループを取得する。評価表現クラスタリング部125は、1以上の評価表現を含む2以上の評価表現グループを取得する。具体的には、評価表現クラスタリング部125は、評価表現抽出部124が抽出した2以上の各評価表現に含まれている1以上の語句から、2以上の評価表現間の類似度を算出し、当該類似度から、2以上の評価表現をクラスタリングし、1以上の評価表現を含む2以上の評価表現グループを取得することは好適である。ここで、「評価表現グループを取得する」とは、評価表現を分類することである。また、「評価表現グループを取得する」とは、各評価表現に対してグループ識別子を付与することでも良いし、各評価表現をグループにより分けられた記憶領域に蓄積することでも良い。つまり、評価表現をグループに分類できれば良い。なお、評価表現クラスタリング部125を実現する技術として、「神嶌敏弘: データマイニング分野のクラスタリング手法(1) −クラスタリングを使ってみよう!−, 人工知能学会誌, Vol.18, No.1, pp.59-65 (2003).」に記載の技術を用いることもできる。また、評価表現クラスタリング部125は、評価表現に対応する属性ベクトルを用いて、属性ベクトルの近さから、評価表現を2以上のグループに分類する。
The evaluation
評価表現クラスタリング部125を構成する高頻度評価語句格納手段1251は、使用頻度が高い1以上の評価語句を格納し得る。使用頻度が高い1以上の評価語句は、例えば、良く使用される「すばらしい」、「嫌い」、「好き」などである。
The high-frequency evaluation phrase storage unit 1251 that constitutes the evaluation
語句出現情報取得手段1252は、評価表現抽出部124が抽出した2以上の各評価表現に含まれている1以上の各語句の出現情報を、評価表現ごとに取得する。出現情報とは、語句の出現に関する情報である。出現情報とは、例えば、出現回数、出現割合(出現回数/全語句数)、後述する「tf(w)/cf(w)」などである。
The phrase appearance
また、語句出現情報取得手段1252は、高頻度評価語句格納手段1251に格納されている評価語句に対応する出現情報の重みを、評価語句ではない他の語句に対応する出現情報の重みよりも小さくなるように、評価表現抽出部124が抽出した2以上の各評価表現に含まれている1以上の各語句の出現情報を、評価表現ごとに取得しても良い。ここで、他の語句とは、高頻度評価語句格納手段1251に格納されていない語句のことである。また、「出現情報の重みを小さくなるように」とは、例えば、出現情報(値)に対して「0.8」を乗算する、または、出現情報(値)に対して「0.2」を減算する、などの処理を行うことにより実現できる。
Moreover, the phrase appearance
属性ベクトル構成手段1253は、語句出現情報取得手段1252が取得した評価表現ごとの出現情報から、評価表現ごとに、評価表現の属性ベクトルを構成する。属性ベクトルは、例えば、(語句,出現情報)の集合である。また、属性ベクトルとは、例えば、評価表現に含まれている1以上の各語句(w)に対して、評価表現中での各語句(w)の出現頻度tf(w)、1以上のサーバ装置11に格納されている文章中から抽出されたすべての評価表現に含まれる各語句(w)の頻度cf(w)を用いて、各語句に該当する次元が「tf(w)/cf(w)」の値を有するベクトルである。
The attribute vector construction unit 1253 constructs an evaluation expression attribute vector for each evaluation expression from the appearance information for each evaluation expression acquired by the phrase appearance
類似度算出手段1254は、属性ベクトル構成手段1253が構成した評価表現ごとの属性ベクトルを用いて、評価表現間の類似度を算出する。ここで、類似度とは、例えば、ベクトル間のユークリッド距離を用いて算出される値である。また、類似度とは、例えば、一致するベクトルの要素の数を用いて算出される類似の度合い(一致するベクトルの要素の数をパラメータとする増加関数により算出される値)等でも良い。なお、属性ベクトル間の類似度の算出方法は種々あり得る。
The
評価表現グループ取得手段1255は、類似度算出手段1254が算出した類似度を用いて、2以上の評価表現をクラスタリングし、1以上の評価表現を含む2以上の評価表現グループを取得する。ここで、「類似度を用いて」とは、例えば、類似度が閾値以内の評価表現を同一のグループとすることである。また、評価表現グループ取得手段1255は、各評価表現に対応する属性ベクトルが最も近い評価表現をペアにし、当該ペアを一つの評価表現群として、再帰的に評価表現群のペアを作成し、一定の条件(再帰処理の回数や、類似度が閾値以内など)を満たすところで処理を終了し、2以上の評価表現をグループに分類する。
The evaluation expression
対立評価表現取得部126は、1以上の各評価表現グループのうちの一の評価表現グループに含まれる2以上の評価表現から、評価語句辞書121に含まれる評価語句と評価極性とを用いて、一のトピックに関する肯定的な評価表現、および一のトピックに関する否定的な評価表現を取得する。
The confrontation evaluation
対立評価表現取得部126を構成する評価表現学習データ格納手段1261は、2以上の評価表現学習データを格納し得る。評価表現学習データとは、例えば、評価極性列と、評価表現を構成する各語句と、各語句の原形と、当該各語句の品詞と、評価表現極性とを対応付けているデータである。なお、評価表現学習データ格納手段1261は、2以上の評価表現学習データを格納し得る。評価表現学習データとは、例えば、評価極性列と、評価表現を構成する各語句と、各語句の原形と、当該各語句の品詞と、評価表現極性とを有するデータであることは好適である。評価極性列とは、評価表現から構成される評価極性の列であり、評価表現に含まれる1以上の各語句に対応する評価極性の並びである。評価表現極性とは、評価表現が肯定的であるか否定的であるかを示す情報である。評価表現学習データは、評価極性列、各語句、各語句の原形、各語句の品詞、評価表現極性以外の情報が含まれていても良いし、上記の情報が全て含まれていることは必須ではない。
The evaluation expression learning
語句情報取得手段1262は、1以上の評価表現グループのうちのいずれかの評価表現グループに含まれる2以上の各評価表現に対応する語句情報を取得する。語句情報は、評価表現を構成する1以上の語句に関する情報であり、例えば、評価表現を構成する1以上の語句、1以上の各語句の原形および品詞である。語句情報取得手段1262は、例えば、2以上の評価表現グループのうちのいずれかの評価表現グループに含まれる2以上の各評価表現を語句に区分し、1以上の語句を取得し、かつ、当該1以上の各語句の原形および品詞を取得する。また、語句情報取得手段1262は、例えば、形態素解析の技術を用いて、評価表現を語句に区分し、かつ、当該語句の原形や品詞を取得する。なお、語句情報取得手段1262は、素性取得手段1242が取得している各語句、当該各語句の原形、および当該各語句の品詞を利用しても良いことは言うまでもない。また、語句情報取得手段1262は、形態素解析の結果である語句をキーとして、図示しない単語辞書を検索し、その原形を取得するなどしても良い。
The phrase
評価極性列取得手段1263は、語句情報取得手段1262が取得した1以上の各語句をキーとして、評価語句辞書121を検索し、各語句に対応する1以上の評価極性を取得し、1以上の評価極性の列である評価極性列を、評価表現ごとに取得する。なお、語句が評価語句でない場合は、評価極性列取得手段1263は、語句に対応する評価極性を取得できない。
The evaluation polarity
評価表現極性取得手段1264は、評価極性列取得手段1263が取得した評価極性列を、評価表現学習データ格納手段1261に格納されている2以上の評価表現学習データに、機械学習を用いて適用し、評価極性列の評価表現極性を、評価表現ごとに取得する。
The evaluation expression
対立評価表現取得手段1265は、評価表現極性取得手段1264が取得した評価表現極性が肯定的である1以上の評価表現と、評価表現極性取得手段が取得した評価表現極性が否定的である1以上の評価表現とを取得する。なお、対立評価表現取得手段1265が多数の肯定的または否定的な評価表現から一の肯定的または否定的な評価表現を選択する場合、任意に選択しても良いし、評価表現の長さ、語句数などの属性値を基準に選択するなどしても良い。
The confrontation evaluation
対立評価表現出力部127は、対立評価表現取得部126が取得した一のトピックに関する肯定的な評価表現および否定的な評価表現の両方を出力する。評価表現を出力することは、評価表現を含む文を出力したり、評価表現を含むファイルを出力したりすることも含まれることは言うまでもない。ここで、出力とは、ディスプレイへの表示、プロジェクターを用いた投影、プリンタへの印字、音出力、外部の装置への送信、記録媒体への蓄積、他の処理装置や他のプログラムなどへの処理結果の引渡しなどを含む概念である。
The conflict evaluation
文章格納部111、テキスト格納部120、評価語句辞書121、学習データ格納部122、高頻度評価語句格納手段1251、評価表現学習データ格納手段1261は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。なお、評価語句辞書121等に評価語句情報等が記憶される過程は問わない。例えば、記録媒体を介して評価語句情報等が評価語句辞書121等で記憶されるようになってもよく、通信回線等を介して送信された評価語句情報等が評価語句辞書121等で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された評価語句情報等が評価語句辞書121等で記憶されるようになってもよい。
The
文章送信部112は、通常、無線または有線の通信手段で実現されるが、放送手段で実現されても良い。
The
評価表現抽出部124、評価表現クラスタリング部125、対立評価表現取得部126、形態素解析手段1241、素性取得手段1242、機械学習手段1243、評価表現取得手段1244、語句出現情報取得手段1252、属性ベクトル構成手段1253、類似度算出手段1254、評価表現グループ取得手段1255、語句情報取得手段1262、評価極性列取得手段1263、評価表現極性取得手段1264、対立評価表現取得手段1265は、通常、MPUやメモリ等から実現され得る。評価表現抽出部124等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
Evaluation
対立評価表現出力部127は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。対立評価表現出力部127は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
The conflict evaluation
次に、情報システム1の動作について説明する。まず、サーバ装置11の動作について説明する。サーバ装置11の文章送信部112は、端末装置12からの要求に応じて、文章格納部111の文章を、端末装置12にネットワーク13を介して送信する。なお、端末装置12は、受付部123がトピックを受け付けた場合に、サーバ装置11に文章の送信を要求しても良いし、ユーザからの文章送信要求に従って、サーバ装置11に文章の送信を要求しても良い。文章送信部112は、トピックに関連する文のみを送付しても良いし、トピックに関連する文を含む文章のみを送付しても良いし、格納されているすべての文章を送付しても良い。
Next, the operation of the
次に、端末装置12の動作について、図3のフローチャートを用いて説明する。図3のフローチャートにおいて、テキスト格納部120に既に1以上の文章が格納されている、とする。
Next, operation | movement of the
(ステップS301)受付部123は、トピックを受け付けたか否かを判断する。トピックを受け付ければステップS302に行き、トピックを受け付けなければステップS301に戻る。
(Step S301) The receiving
(ステップS302)評価表現抽出部124は、テキスト格納部120から、ステップS301で受け付けたトピックに関連する文をすべて抽出する。
(Step S302) The evaluation
(ステップS303)評価表現抽出部124は、ステップS302で読み込んだ各文から評価表現を抽出する。かかる評価表現抽出処理について、図4のフローチャートを用いて説明する。
(Step S303) The evaluation
(ステップS304)評価表現クラスタリング部125は、ステップS303で抽出された評価表現をグループに分類する。かかる評価表現クラスタリング処理について、図5のフローチャートを用いて説明する。
(Step S304) The evaluation
(ステップS305)対立評価表現取得部126は、ステップS304で分類されたグループのうちの一のグループに含まれる2以上の評価表現から対立する評価表現を取得する。かかる対立評価表現取得処理について、図8のフローチャートを用いて説明する。
(Step S305) The confrontation evaluation
(ステップS306)対立評価表現出力部127は、ステップS305で取得された対立する評価表現を出力し、ステップS301に戻る。
(Step S306) The conflict evaluation
なお、図3のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。 In the flowchart of FIG. 3, the process ends when the power is turned off or the process is terminated.
次に、ステップS303の評価表現抽出処理について、図4のフローチャートを用いて説明する。 Next, the evaluation expression extraction process in step S303 will be described with reference to the flowchart of FIG.
(ステップS401)評価表現抽出部124は、カウンタiに1を代入する。
(Step S401) The evaluation
(ステップS402)評価表現抽出部124は、i番目の文が存在するか否かを判断する。i番目の文が存在すればステップS403に行き、存在しなければ上位処理(ステップS304)にリターンする。
(Step S402) The evaluation
(ステップS403)形態素解析手段1241は、i番目の文を取得する。 (Step S403) The morpheme analyzing unit 1241 acquires the i-th sentence.
(ステップS404)形態素解析手段1241は、ステップS403で取得された文を形態素解析し、1以上の語句(形態素でも良い)を取得する。 (Step S404) The morpheme analyzing unit 1241 performs morphological analysis on the sentence acquired in Step S403, and acquires one or more words (or morpheme).
(ステップS405)素性取得手段1242は、カウンタjに1を代入する。
(Step S405) The feature acquisition unit 1242
(ステップS406)素性取得手段1242は、ステップS404で取得された語句の中に、j番目の語句が存在するか否かを判断する。j番目の語句が存在すればステップS407に行き、j番目の語句が存在しなければステップS410に行く。 (Step S406) The feature acquisition unit 1242 determines whether or not the j-th word is present in the words acquired in step S404. If the jth word / phrase exists, the process goes to step S407, and if the jth word / phrase does not exist, the process goes to step S410.
(ステップS407)素性取得手段1242は、ステップS404における形態素解析の処理結果を用いて、形態素解析手段1241が取得した1以上の各語句、各語句の原形、各語句の品詞、および評価表現に含まれる1以上の語句の並びに関する情報を取得する。そして、素性取得手段1242は、取得した情報をバッファ(図示しない)に追記する。 (Step S407) The feature acquisition unit 1242 includes one or more words / phrases acquired by the morpheme analysis unit 1241, the original form of each word, the part of speech of each word, and the evaluation expression using the processing result of the morpheme analysis in Step S404. Get information about the sequence of one or more words. Then, the feature acquisition unit 1242 adds the acquired information to a buffer (not shown).
(ステップS408)素性取得手段1242は、j番目の語句をキーとして評価語句辞書121を検索し、当該語句の評価極性を取得する。そして、素性取得手段1242は、取得した評価極性を、ステップS407で追記した情報に対応付けて、バッファ(図示しない)に追記する。
(Step S408) The feature acquisition unit 1242 searches the
(ステップS409)素性取得手段1242は、カウンタjを1、インクリメントし、ステップS406に戻る。 (Step S409) The feature acquisition unit 1242 increments the counter j by 1, and returns to step S406.
(ステップS410)機械学習手段1243は、バッファに蓄積されている1以上の各語句、各語句の原形、各語句の品詞、評価表現に含まれる1以上の語句の並びに関する情報、および評価極性を素性として、学習データ格納部122の2以上の学習データを用いて、機械学習する。そして、機械学習手段1243は、機械学習の結果である語句の列に対応する種類情報の1以上の列を取得する。
(Step S410) The machine learning means 1243 obtains one or more words / phrases stored in the buffer, the original form of each word / phrase, the part of speech of each word / phrase, information on the arrangement of one or more words / phrases included in the evaluation expression, and the evaluation polarity. Machine learning is performed using two or more pieces of learning data stored in the learning
(ステップS411)評価表現取得手段1244は、ステップS410で取得された1以上の種類情報の列のうち、評価表現の開始語句または評価表現の途中の語句であることを示す種類情報が連続する種類情報列を取得しようとする。
(Step S411) The evaluation
(ステップS412)評価表現取得手段1244は、ステップS411で種類情報列が取得できたか否かを判断する。種類情報列が取得できればステップS413に行き、種類情報列が取得できなければステップS414にジャンプする。
(Step S412) The evaluation
(ステップS413)評価表現取得手段1244は、種類情報列が有する各種類情報に対応する1以上の語句である評価表現を取得する。
(Step S413) The evaluation
(ステップS414)評価表現抽出部124は、カウンタiを1、インクリメントし、ステップS402に戻る。
(Step S414) The evaluation
次に、ステップS304の評価表現クラスタリング処理について、図5のフローチャートを用いて説明する。 Next, the evaluation expression clustering process in step S304 will be described using the flowchart of FIG.
(ステップS501)評価表現クラスタリング部125は、カウンタiに1を代入する。
(Step S501) The evaluation
(ステップS502)評価表現クラスタリング部125は、評価表現抽出処理により抽出された評価表現のうち、i番目の評価表現が存在するか否かを判断する。i番目の評価表現が存在すればステップS503に行き、i番目の評価表現が存在しなければステップS510に行く。
(Step S502) The evaluation
(ステップS503)語句出現情報取得手段1252は、i番目の評価表現を、語句に分割する。語句出現情報取得手段1252は、i番目の評価表現を形態素解析して、語句に分割しても良いし、既に分割された1以上の語句が評価表現と対応付けて図示しない記憶媒体に格納されており、かかる1以上の語句を読み出しても良い。
(Step S503) The phrase appearance
(ステップS504)語句出現情報取得手段1252は、カウンタjに1を代入する。
(Step S504) The phrase appearance
(ステップS505)語句出現情報取得手段1252は、j番目の語句が存在するか否かを判断する。j番目の語句が存在すればステップS506に行き、j番目の語句が存在しなければステップS508に行く。
(Step S505) The phrase appearance
(ステップS506)語句出現情報取得手段1252は、出現情報を算出する処理を行う。かかる出現情報算出処理について、図6のフローチャートを用いて説明する。なお、算出された出現情報は、j番目の語句と対応付けてバッファに、少なくとも一時蓄積される。
(Step S506) The phrase appearance
(ステップS507)語句出現情報取得手段1252は、カウンタjを1、インクリメントし、ステップS505に戻る。
(Step S507) The phrase appearance
(ステップS508)属性ベクトル構成手段1253は、ステップS506で取得された語句ごとの出現情報から、i番目の評価表現の属性ベクトルを構成する。つまり、例えば、属性ベクトル構成手段1253は、(語句1の出現情報,語句2の出現情報,・・・,語句nの出現情報)という属性ベクトルを構成する。
(Step S508) The attribute vector construction unit 1253 constructs an attribute vector of the i-th evaluation expression from the appearance information for each word acquired in Step S506. That is, for example, the attribute vector construction unit 1253 constructs an attribute vector (appearance information of
(ステップS509)評価表現クラスタリング部125は、カウンタiを1、インクリメントし、ステップS502に戻る。
(Step S509) The evaluation
(ステップS510)類似度算出手段1254、および評価表現グループ取得手段1255は、属性ベクトルを用いて、2以上の評価表現をグループに分類し、上位処理(ステップS305)にリターンする。なお、かかるグループ化処理について、図7のフローチャートを用いて説明する。
(Step S510) The
次に、ステップS506の出現情報算出処理について、図6のフローチャートを用いて説明する。 Next, the appearance information calculation process in step S506 will be described with reference to the flowchart of FIG.
(ステップS601)語句出現情報取得手段1252は、語句(w)を取得する。
(Step S601) The phrase appearance
(ステップS602)語句出現情報取得手段1252は、着目する評価表現の中での語句(w)の出現頻度tf(w)を取得する。
(Step S602) The phrase appearance
(ステップS603)語句出現情報取得手段1252は、すべての評価表現の中での語句(w)の出現頻度cf(w)を取得する。
(Step S603) The phrase appearance
(ステップS604)語句出現情報取得手段1252は、「出現情報=tf(w)/cf(w)」を算出する。
(Step S604) The phrase appearance
(ステップS605)語句出現情報取得手段1252は、語句(w)をキーとして高頻度評価語句格納手段1251を検索し、語句(w)が高頻度評価語句格納手段1251に格納されているか否かを判断する。高頻度評価語句格納手段1251に格納されていればステップS606に行き、格納されていなければステップS607にジャンプする。なお、高頻度評価語句格納手段1251に格納されている語句は、高頻度評価語句である。
(Step S605) The phrase appearance
(ステップS606)語句出現情報取得手段1252は、ステップS604で算出した出現情報を減じる処理を行う。
(Step S606) The phrase appearance
(ステップS607)語句出現情報取得手段1252は、ステップS604またはステップS606で算出された出現情報を、語句(w)に対応付けて、バッファに蓄積し、上位処理(ステップS507)にリターンする。
(Step S607) The phrase appearance
なお、図6のフローチャートにおいて、ステップS606の出現情報を減じる処理は、例えば、ステップS602で算出したtf(w)に対して行っても良い。 In the flowchart of FIG. 6, the process of reducing the appearance information in step S606 may be performed on tf (w) calculated in step S602, for example.
次に、ステップS510のグループ化処理について、図7のフローチャートを用いて説明する。 Next, the grouping process of step S510 will be described using the flowchart of FIG.
(ステップS701)類似度算出手段1254は、カウンタiに1を代入する。
(Step S701) The
(ステップS702)類似度算出手段1254は、i番目の評価表現が存在するか否かを判断する。i番目の評価表現が存在すればステップS703に行き、存在しなければステップS711に行く。
(Step S702) The
(ステップS703)類似度算出手段1254は、i番目の評価表現に対応する属性ベクトルを取得する。
(Step S703) The
(ステップS704)類似度算出手段1254は、カウンタjに1を代入する。
(Step S704) The similarity calculation means 1254
(ステップS705)類似度算出手段1254は、j番目の他の評価表現(i番目の評価表現ではなく、過去にペアができた評価表現ではない評価表現)が存在するか否かを判断する。存在すればステップS706に行き、存在しなければステップS709に行く。
(Step S705) The
(ステップS706)類似度算出手段1254は、j番目の評価表現に対応する属性ベクトルを取得する。 (Step S706) The similarity calculation means 1254 acquires an attribute vector corresponding to the jth evaluation expression.
(ステップS707)類似度算出手段1254は、i番目の評価表現に対応する属性ベクトルと、j番目の評価表現に対応する属性ベクトルとの類似度を算出する。なお、類似度は、例えば、ベクトル間の距離をパラメータとする減少関数により算出される値(例えば、1/ベクトル間の距離)である。
(Step S707) The
(ステップS708)類似度算出手段1254は、カウンタjを1、インクリメントし、ステップS705に戻る。
(Step S708) The
(ステップS709)類似度算出手段1254は、i番目の評価表現に対応する属性ベクトルと最も類似度が大きい属性ベクトルに対応する評価表現を、i番目の評価表現のペア(対)とする。「ペアとする」とは、2つの評価表現をリンク付けるなど、何らかの情報により2つの評価表現を対応付けられることである。
(Step S709) The
(ステップS710)類似度算出手段1254は、カウンタiを1、インクリメントし、ステップS702に戻る。
(Step S710) The
(ステップS711)評価表現クラスタリング部125は、ペアとなった評価表現を一つの評価表現として、グループ決定処理を行う。「ペアとなった評価表現を一つの評価表現にする」とは、例えば、ペアとなった評価表現の各属性ベクトルから、一の属性ベクトルを生成することである。「2以上の属性ベクトルから、一の属性ベクトルを生成する」とは、2以上の属性ベクトルの各要素の平均値を、要素毎に算出しても良いし、2以上の属性ベクトルを連結して一のベクトルとしても良い。
(Step S711) The evaluation
(ステップS712)評価表現クラスタリング部125は、すべての評価表現が一つのグループになったか否かを判断する。一つのグループになればステップS713に行き、一つのグループにならなければステップS711に戻る。
(Step S712) The evaluation
(ステップS713)評価表現グループ取得手段1255は、予め決められた類似度の範囲内の2以上の評価表現を一のグループとする。例えば、評価表現グループ取得手段1255は、予め決められた類似度の範囲内の2以上の各評価表現に対して、同一のグループ識別子を付与する。そして、上位処理(ステップS305)にリターンする。
(Step S713) The evaluation expression
なお、図7のフローチャートにおいて、例えば、類似度が閾値以下の類似度のグループが出来た時点で、処理を終了するなどしても良い。 In the flowchart of FIG. 7, for example, the process may be terminated when a group having a similarity with a similarity equal to or less than a threshold is formed.
次に、ステップS305の対立評価表現取得処理について、図8のフローチャートを用いて説明する。 Next, the conflict evaluation expression acquisition process of step S305 will be described using the flowchart of FIG.
(ステップS801)対立評価表現取得部126は、一のグループの2以上の評価表現を取得する。
(Step S801) The confrontation evaluation
(ステップS802)対立評価表現取得部126は、カウンタiに1を代入する。
(Step S802) The conflict evaluation
(ステップS803)語句情報取得手段1262は、i番目の評価表現が存在するか否かを判断する。存在すればステップS804に行き、存在しなければステップS813に行く。
(Step S803) The phrase
(ステップS804)語句情報取得手段1262は、i番目の評価表現を取得し、当該評価表現を1以上の語句に分割する。なお、語句情報取得手段1262は、i番目の評価表現に対応する1以上の分割された語句を読み出しても良い。
(Step S804) The phrase
(ステップS805)評価極性列取得手段1263は、カウンタjに1を代入する。
(Step S805) The evaluation polarity
(ステップS806)評価極性列取得手段1263は、i番目の評価表現にj番目の語句が存在するか否かを判断する。存在すればステップS807に行き、存在しなければステップS810に行く。
(Step S806) The evaluation polarity
(ステップS807)評価極性列取得手段1263は、j番目の語句をキーとして、評価語句辞書121を検索し、j番目の語句に対応する評価極性を取得する。そして、評価極性列取得手段1263は、取得した評価極性をj番目の語句に対応付けて、バッファに一時蓄積する。なお、ここでの蓄積は追記である。
(Step S807) The evaluation polarity
(ステップS808)語句情報取得手段1262は、j番目の語句の原形、品詞を取得する。
(Step S808) The phrase
(ステップS809)カウンタjを1、インクリメントし、ステップS806に戻る。 (Step S809) The counter j is incremented by 1, and the process returns to step S806.
(ステップS810)評価表現極性取得手段1264は、ステップS807でバッファに蓄積した評価極性列、各語句、各語句の原形、各語句の品詞などを、評価表現学習データ格納手段1261に格納されている2以上の評価表現学習データに、機械学習を用いて適用し、当該評価表現の評価表現極性を取得する。
(Step S810) The evaluation expression
(ステップS811)評価表現極性取得手段1264は、i番目の評価表現とステップS809で取得した評価表現極性とを対応付けて、図示しない記録媒体に蓄積する。 (Step S811) The evaluation expression polarity acquisition means 1264 associates the i-th evaluation expression with the evaluation expression polarity acquired in step S809, and stores them in a recording medium (not shown).
(ステップS812)対立評価表現取得部126は、カウンタiを1、インクリメントし、ステップS803に戻る。
(Step S812) The conflict evaluation
(ステップS813)対立評価表現取得手段1265は、評価表現極性取得手段1264が取得した評価表現極性が肯定的である1以上の(通常、一つの)評価表現と、評価表現極性取得手段が取得した評価表現極性が否定的である1以上の(通常、一つの)評価表現とを取得する。そして、上位処理(ステップS306)にリターンする。
(Step S813) The confrontation evaluation
以下、本実施の形態における情報システム1の具体的な動作について説明する。
Hereinafter, a specific operation of the
今、1以上の各サーバ装置11には、例えば、blogやニュース記事等の多様なWebページが格納されている、とする。
Now, it is assumed that one or
また、端末装置12の評価語句辞書121は、図9に示す評価語句情報管理表を格納している、とする。評価語句情報管理表は、1以上の評価語句情報を有する。評価語句情報は、「ID」「評価語句」「評価極性」を有する。評価語句は、対象物の評価を示す用語である。評価極性「1」は肯定的な評価、「−1」は否定的な評価を示す。
Further, it is assumed that the
また、学習データ格納部122は、図10に示す学習データ管理表を格納している、とする。学習データ管理表は、「ID」「評価表現」「語句」「原形」「品詞」「評価極性」「種類情報」を有するレコードを1以上格納している。なお、レコード内の語句の順序は、評価表現に含まれる1以上の語句の並びに関する情報である。
Further, it is assumed that the learning
また、高頻度評価語句格納手段1251は、図11に示す高頻度評価語句管理表を保持している。高頻度評価語句管理表は、「ID」「高頻度評価語句」を有するレコードを1以上格納している。 Further, the high-frequency evaluation phrase storage unit 1251 holds a high-frequency evaluation word management table shown in FIG. The high frequency evaluation phrase management table stores one or more records having “ID” and “high frequency evaluation phrase”.
さらに、評価表現学習データ格納手段1261は、図12に示す評価表現学習データ管理表を保持している。評価表現学習データ管理表は、「ID」「評価表現極性」「評価極性列」「語句」「原形」「品詞」「評価表現」を有するレコードを1以上格納している。
Further, the evaluation expression learning
かかる状況において、ユーザは、端末装置12に、トピック「キシリトール」を入力した、とする。すると、端末装置12の受付部123は、「キシリトール」を受け付ける。
In this situation, it is assumed that the user inputs the topic “xylitol” to the
次に、受付部123は、1以上の各サーバ装置11に「キシリトール」を含む文の送信を促す。
Next, the
次に、1以上の各サーバ装置11の文章送信部112は、送信要求を受け付け、「キシリトール」を含む文を文章格納部111から読み出す。そして、文章送信部112は、「キシリトール」を含む文を端末装置12に送信する。
Next, the
次に、端末装置12の図示しない受信部(受付部123が有する受信手段でも良い)は、1以上のサーバ装置11から「キシリトール」を含む文を受信し、テキスト格納部120に蓄積する。テキスト格納部120には、例えば、図13に示す文の集合が格納された、とする。
Next, a receiving unit (not shown) of the terminal device 12 (which may be a receiving unit included in the receiving unit 123) receives sentences including “xylitol” from one or
なお、かかる処理は、いわゆるWeb検索エンジンの処理と同様であり、公知技術であるので詳細な説明を省略する。 This process is similar to the process of a so-called Web search engine, and is a known technique, and thus detailed description thereof is omitted.
次に、評価表現抽出部124は、テキスト格納部120から、トピック「キシリトール」を含む文をすべて読み込む。そして、評価表現抽出部124は、読み込んだすべての文から、以下のように、評価表現を抽出する。
Next, the evaluation
つまり、まず、評価表現抽出部124の形態素解析手段1241は、各文を形態素解析し、1以上の語句を取得する。例えば、「キシリトールは、むし歯を起こさない甘味料です」という文の場合、形態素解析手段1241は、例えば、「キシリトール|は|むし歯|を|起こさ|ない|甘味料|です」と語句(ここでは、形態素)に区切る。
That is, first, the morphological analysis unit 1241 of the evaluation
次に、素性取得手段1242は、形態素解析手段1241が取得した1以上の各語句、各語句の原形、各語句の品詞、および評価表現に含まれる1以上の語句の並びに関する情報を取得する。つまり、例えば、文「キシリトールは、むし歯を起こさない甘味料です」に対して、素性取得手段1242は、各語句「キシリトール|は|むし歯|を|起こさ|ない|甘味料|です」、各語句の原形「キシリトール|は|むし歯|を|起こす|ない|甘味料|です」、各語句の品詞「名詞|助詞|名詞|助詞|動詞|助動詞|名詞|助動詞」を取得する。なお、1以上の語句の並びに関する情報は、「キシリトール|は|むし歯|を|起こさ|ない|甘味料|です」である。 Next, the feature acquisition unit 1242 acquires information on one or more words acquired by the morpheme analysis unit 1241, the original form of each word, the part of speech of each word, and the arrangement of one or more words included in the evaluation expression. That is, for example, for the sentence “xylitol is a sweetener that does not cause caries”, the feature acquisition means 1242 uses each word “xylitol | is | cavity || is awakened | not | sweetener | is”, each word The original form of “xylitol | ha | mushi | | wake | not | sweetener | is”, the part of speech “noun | particle” | noun | particle | verb | auxiliary | noun | auxiliary verb ”of each phrase is acquired. Note that the information related to the arrangement of one or more words is “xylitol | is | cavity | | awake | not | sweetener | is”.
次に、素性取得手段1242は、各語句をキーとして評価語句辞書121(図9参照)を検索し、当該語句の評価極性を取得する。そして、例えば、文「キシリトールは、むし歯を起こさない甘味料です」に対して、素性取得手段1242は、「キシリトール|は|むし歯|を|起こさ|ない|甘味料|です」に対応する評価極性の列「0|0|−1|0|0|0|0|0」を取得する。 Next, the feature acquisition unit 1242 searches the evaluation word dictionary 121 (see FIG. 9) using each word as a key, and acquires the evaluation polarity of the word. For example, for the sentence “xylitol is a sweetener that does not cause caries”, the feature acquisition means 1242 determines the evaluation polarity corresponding to “xylitol | is | Column "0 | 0 | -1 | 0 | 0 | 0 | 0 | 0" is acquired.
以上の処理により、素性取得手段1242は、各文に対して、1以上の各語句、各語句の原形、各語句の品詞、および評価表現に含まれる1以上の語句の並びに関する情報、各語句の評価極性を取得した。 Through the processing described above, the feature acquisition unit 1242 performs, for each sentence, one or more words / phrases, the original form of each word / phrase, the part of speech of each word / phrase, information on the arrangement of one or more words / phrases included in the evaluation expression, Evaluation polarity was obtained.
次に、機械学習手段1243は、バッファに蓄積されている1以上の各語句、各語句の原形、各語句の品詞、評価表現に含まれる1以上の語句の並びに関する情報、および評価極性を素性として、学習データ格納部122(図10)の2以上の学習データを用いて、機械学習する。そして、機械学習手段1243は、各文を構成する語句の種類を示す種類情報の1以上の列に関する情報を取得する。なお、例えば、文「キシリトールは、むし歯を起こさない甘味料です」に対して、機械学習手段1243は、「O|O|B|I|I|I|I|I」を取得した、とする。
Next, the
次に、評価表現取得手段1244は、取得された1以上の種類情報の列のうち、評価表現の開始語句「B」または評価表現の途中の語句「I」であることを示す種類情報が連続する種類情報列「B|I|I|I|I|I」を取得する。そして、評価表現取得手段1244は、種類情報列「B|I|I|I|I|I」に対応する1以上の語句である評価表現「むし歯を起こさない甘味料です」を取得する。かかる処理を、すべての文に対して行い、多数の評価表現が取得される。なお、文「キシリトールガムにより、むし歯になる可能性があります」から、評価表現「むし歯になる可能性があります」が取得され、文「キシリトールガムは、歯を丈夫で健康に保ちます」から、評価表現「歯を丈夫で健康に保ちます」が取得された、とする。
Next, the evaluation
次に、評価表現クラスタリング部125は、以下のように、抽出された多数の評価表現をグループに分類する。
Next, the evaluation
まず、語句出現情報取得手段1252は、各評価表現を、語句に分割する。例えば、評価表現「むし歯を起こさない甘味料です」に対して、語句出現情報取得手段1252は、「むし歯|を|起こさ|ない|甘味料|です」と、語句に分割する。
First, the phrase appearance
次に、語句出現情報取得手段1252は、各語句に対して、出現情報を算出する。つまり、まず、語句出現情報取得手段1252は、語句(w)(例えば、「むし歯」)を取得する。語句出現情報取得手段1252は、着目する評価表現「むし歯を起こさない甘味料です」の中での語句(w)「むし歯」の出現頻度tf(w)「1」を取得する。次に、語句出現情報取得手段1252は、すべての評価表現の中での語句(w)「むし歯」の出現頻度cf(w)(例えば、「15」)を取得する。次に、語句出現情報取得手段1252は、「出現情報=tf(w)/cf(w)=1/15」を算出する。次に、語句出現情報取得手段1252は、語句(w)「むし歯」をキーとして高頻度評価語句格納手段1251を検索し、語句(w)が高頻度評価語句格納手段1251に格納されていない、と判断する。そして、語句出現情報取得手段1252は、算出された出現情報「1/15」を、語句(w)「むし歯」に対応付けて、バッファに蓄積する。以上の処理を各語句に対して行う。
Next, the phrase appearance
そして、次に、属性ベクトル構成手段1253は、取得された語句ごとの出現情報から、各評価表現の属性ベクトルを構成する。例えば、評価表現「むし歯を起こさない甘味料です」に対して、属性ベクトル構成手段1253は、(・,・,・,1/15,・,・,・,1/20,・,・,・)を得た、とする。なお、属性ベクトルの各要素は、通常、すべての各用語の出現情報である。例えば、属性ベクトルの要素数は、語句の種類数と一致する。 Next, the attribute vector construction unit 1253 constructs an attribute vector of each evaluation expression from the acquired appearance information for each word. For example, for the evaluation expression “It is a sweetener that does not cause caries”, the attribute vector construction means 1253 has (1 /,..., 1/15,..., 1/20,. ). Each element of the attribute vector is usually appearance information of all the terms. For example, the number of elements in the attribute vector matches the number of types of words.
次に、類似度算出手段1254、および評価表現グループ取得手段1255は、以下のように、各評価表現の属性ベクトルを用いて、2以上の評価表現をグループに分類する。
Next, the
つまり、類似度算出手段1254は、各評価表現の属性ベクトルに最も類似度が高い属性ベクトルを決定し、かかる2つの属性ベクトルに対応する2つの評価表現を一グループにする。その際、類似度算出手段1254は、2つの評価表現に対応付けて、類似度もバッファに蓄積する。なお、類似度算出手段1254は、上述したように、2つの属性ベクトルの距離をパラメータとする減少関数(例えば、反比例)により、2つの属性ベクトルの類似度を算出する。
That is, the
次に、評価表現クラスタリング部125は、ペアとなった評価表現を一つの評価表現として捉えて、再帰的にグループ決定処理を行う。つまり、例えば、評価表現1から8が存在する場合、図14に示すように、対(グループの一種)になっている各評価表現群の中で、最も類似度が大きい2つの評価表現群をグループにまとめ上げていく。そして、評価表現グループ取得手段1255は、例えば、閾値「0.5」を、グループを分ける閾値とする。つまり、図14において、閾値「0.5」のラインで、評価表現がグループ化される。そして、評価表現クラスタリング部125は、8つの評価表現を、評価表現1、評価表現2、評価表現3、評価表現4を有する第一グループ、評価表現5、評価表現6を有する第二グループ、評価表現7、評価表現8を有する第三グループの、3つのグループに分類する。つまり、例えば、評価表現グループ取得手段1255は、評価表現1、評価表現2、評価表現3、評価表現4に対して第一グループ識別子「1」を付与し、評価表現5、評価表現6に対して第二グループ識別子「2」を付与し、評価表現7、評価表現8に対して第三グループ識別子「3」を付与する。なお、例えば、評価表現1は「むし歯を起こさない甘味料です」、評価表現2は「むし歯になる可能性があります」である、とする。つまり、例えば、第一グループは、「むし歯」に関する評価表現のグループである。
Next, the evaluation
次に、対立評価表現取得部126は、以下のように対立する評価表現を取得する。つまり、対立評価表現取得部126は、例えば、第一グループ識別子「1」が付与された4つの評価表現を取得する、とする。ここで、対立評価表現取得部126は、任意に第一グループを選択しても良いし、ユーザの指示により第一グループを選択しても良い。
Next, the confrontation evaluation
次に、語句情報取得手段1262は、各評価表現を1以上の語句に分割する。語句情報取得手段1262は、例えば、「むし歯を起こさない甘味料です」から「むし歯|を|起こさ|ない|甘味料|です」を得る。また、語句情報取得手段1262は、例えば、「むし歯になる可能性があります」から「むし歯|に|なる|可能性|が|あり|ます」を得る。
Next, the phrase
次に、評価極性列取得手段1263は、各評価表現の各語句をキーとして、評価語句辞書121(図9参照)を検索し、各語句に対応する評価極性を取得する。例えば、評価極性列取得手段1263は、「むし歯|を|起こさ|ない|甘味料|です」に対して、「−1|0|0|0|0|0」を取得した、とする。また、評価極性列取得手段1263は、例えば、「むし歯|に|なる|可能性|が|あり|ます」に対して、「−1|0|0|0|0|0|0」を取得した、とする。
Next, the evaluation polarity
次に、語句情報取得手段1262は、各語句の原形、品詞を取得する。例えば、評価極性列取得手段1263は、「むし歯|を|起こさ|ない|甘味料|です」に対して、各語句の原形「むし歯|を|起こす|ない|甘味料|です」、各語句の品詞「名詞|助詞|動詞|助詞|名詞|助詞」を取得する。また、例えば、「むし歯|に|なる|可能性|が|あり|ます」に対して、語句情報取得手段1262は、各語句の原形「むし歯|に|なる|可能性|が|ある」、各語句の品詞「名詞|助詞|動詞|名詞|助詞|動詞」を取得する。
Next, the phrase
次に、評価表現極性取得手段1264は、バッファに蓄積した評価極性列、各語句、各語句の原形、各語句の品詞などを、評価表現学習データ格納手段1261に格納されている2以上の評価表現学習データ(図12参照)に、機械学習を用いて適用し、各評価表現の評価表現極性を取得する。評価表現極性取得手段1264は、例えば、評価表現「むし歯を起こさない甘味料です」に対する評価表現極性「+」、「むし歯になる可能性があります」に対する評価表現極性「−」を取得する。ここで、評価表現極性「+」は肯定的であり、「−」は否定的である。
Next, the evaluation expression
次に、評価表現極性取得手段1264は、各評価表現と取得した評価表現極性とを対応付けて、図示しない記録媒体に蓄積する。つまり、例えば、評価表現極性取得手段1264は、「むし歯を起こさない甘味料です,+」、「むし歯になる可能性があります,−」を記録媒体に蓄積する。
Next, the evaluation expression
次に、対立評価表現取得手段1265は、評価表現極性が肯定的である一つの評価表現(例えば、「むし歯を起こさない甘味料です」)と、評価表現極性取得手段が取得した評価表現極性が否定的である一つの評価表現(例えば、「むし歯になる可能性があります」)とを取得する。ここで、対立評価表現取得手段1265は、評価表現を含む文「キシリトールは、むし歯を起こさない甘味料です」、および「キシリトールガムにより、むし歯になる可能性があります」を取得した、とする。
Next, the confrontation evaluation
次に、対立評価表現出力部127は、取得された対立する評価表現を出力する。ここで、対立評価表現出力部127は、評価表現を含む文「キシリトールは、むし歯を起こさない甘味料です」、および「キシリトールガムにより、むし歯になる可能性があります」とを出力した、とする。かかる出力例は、図15である。
Next, the conflict evaluation
以上、本実施の形態によれば、Web等の多量の文書から、対立する評価表現を適切に出力できることができる。そのため、本実施の形態によれば、例えば、入力されたトピックに関する対立意見を出力する検索エンジンが実現できる。
また、本実施の形態によれば、予め特徴や観点を指定しなくとも、対立する評価表現が抽出できる。
As described above, according to the present embodiment, it is possible to appropriately output conflicting evaluation expressions from a large amount of documents such as the Web. Therefore, according to the present embodiment, for example, it is possible to realize a search engine that outputs a conflict opinion regarding an input topic.
Further, according to the present embodiment, it is possible to extract conflicting evaluation expressions without designating features or viewpoints in advance.
なお、本実施の形態において、評価表現の抽出は機械学習を利用することが好適であるが、評価語句「良い」「悪い」などを用いたパターンマッチング等、他のアルゴリズムを用いても良い。かかることは、他の実施の形態においても同様である。 In the present embodiment, it is preferable to use machine learning to extract evaluation expressions, but other algorithms such as pattern matching using evaluation words “good” and “bad” may be used. The same applies to other embodiments.
また、本実施の形態において、評価表現のクラスタリングのために属性ベクトルの類似度を利用することが好適であるが、評価表現を構成する名詞(評価対象)が同じものを同じグループにするなど、他のアルゴリズムを用いても良い。かかることは、他の実施の形態においても同様である。 Further, in the present embodiment, it is preferable to use the similarity of attribute vectors for clustering evaluation expressions, but the nouns (evaluation targets) constituting the evaluation expressions are grouped into the same group, etc. Other algorithms may be used. The same applies to other embodiments.
また、本実施の形態において、評価表現のクラスタリングのために、高頻度評価語句を用いたが、高頻度評価語句を用いなくても良い。かかることは、他の実施の形態においても同様である。 In the present embodiment, high-frequency evaluation words / phrases are used for clustering evaluation expressions, but high-frequency evaluation words / phrases may not be used. The same applies to other embodiments.
また、本実施の形態において、評価表現の特性(評価極性)の取得のために機械学習を利用することが好適であるが、評価表現を構成する評価語句の評価極性を乗算した結果から評価表現の特性を取得する等、他のアルゴリズムを用いても良い。評価極性を乗算することは、例えば、否定の否定は肯定となり、肯定の否定は否定となることを示す。かかることは、他の実施の形態においても同様である。 In the present embodiment, it is preferable to use machine learning to acquire the characteristics (evaluation polarity) of the evaluation expression, but the evaluation expression is obtained from the result of multiplying the evaluation polarities of the evaluation words constituting the evaluation expression. Other algorithms may be used, such as obtaining the characteristics of Multiplying the evaluation polarity indicates, for example, that negation of negation is affirmative and affirmation denial is negation. The same applies to other embodiments.
さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをCD−ROMなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における端末装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、記録媒体に、1以上の文章と、評価に関する語句である評価語句と、当該評価語句が肯定的であるか否定的であるかを示す情報である評価極性とを有する1以上の評価語句情報を格納しており、コンピュータを、前記記録媒体に格納されている文章を構成する文であり、前記トピックに関連する文から、前記記録媒体に格納されている評価語句を用いて、当該評価語句を含む1以上の語句の集合である評価表現を、2以上抽出する評価表現抽出部と、前記評価表現抽出部が抽出した2以上の各評価表現に含まれている1以上の語句から、2以上の評価表現間の類似度を算出し、当該類似度から、前記2以上の評価表現をクラスタリングし、1以上の評価表現を含む1以上の評価表現グループを取得する評価表現評価表現クラスタリング部と、前記1以上の評価表現グループのうちのいずれかの評価表現グループに含まれる2以上の評価表現から、前記記録媒体に含まれる評価語句と評価極性とを用いて、前記一のトピックに関する肯定的な評価表現および否定的な評価表現の両方を取得する対立評価表現取得部と、前記対立評価表現取得部が取得した前記一のトピックに関する肯定的な評価表現および否定的な評価表現の両方を出力する対立評価表現出力部として機能させるためのプログラム、である。
(実施の形態2)
Furthermore, the processing in the present embodiment may be realized by software. Then, this software may be distributed by software download or the like. Further, this software may be recorded and distributed on a recording medium such as a CD-ROM. This also applies to other embodiments in this specification. The software that realizes the terminal device in the present embodiment is the following program. In other words, this program has one or more sentences, an evaluation phrase that is a word relating to evaluation, and an evaluation polarity that is information indicating whether the evaluation word is positive or negative on the recording medium. The above evaluation word / phrase information is stored, the computer is a sentence constituting the sentence stored in the recording medium, and the evaluation word / phrase stored in the recording medium is used from the sentence related to the topic The evaluation expression extraction unit that extracts two or more evaluation expressions that are a set of one or more words including the evaluation word and the one or more included in each of the two or more evaluation expressions extracted by the evaluation expression extraction unit An evaluation expression that calculates a similarity between two or more evaluation expressions from the words, and clusters the two or more evaluation expressions from the similarity to obtain one or more evaluation expression groups including one or more evaluation expressions Comment From the expression clustering unit and two or more evaluation expressions included in any one of the one or more evaluation expression groups, an evaluation phrase and an evaluation polarity included in the recording medium are used. Opposite evaluation expression acquisition unit that acquires both positive evaluation expression and negative evaluation expression related to a topic, and positive evaluation expression and negative evaluation expression related to the one topic acquired by the opposing evaluation expression acquisition unit Is a program for functioning as a conflict evaluation expression output unit that outputs both.
(Embodiment 2)
本実施の形態において、実施の形態1のシステムの処理を一の端末装置で行う態様について説明する。また、本実施の形態において、一のトピックに関する肯定的な表現および否定的な表現の両方を出力する端末装置について説明する。本実施の形態における端末装置2は、実施の形態1の情報システム1を構成する端末装置12と比較して、文章格納部111を具備する点が異なる。
In the present embodiment, a mode in which the processing of the system of the first embodiment is performed by one terminal device will be described. In the present embodiment, a terminal device that outputs both positive expressions and negative expressions related to one topic will be described. The
図16は、本実施の形態における端末装置2のブロック図である。
FIG. 16 is a block diagram of
端末装置2は、文章格納部111、評価語句辞書121、学習データ格納部122、受付部123、評価表現抽出部124、評価表現クラスタリング部125、対立評価表現取得部126、対立評価表現出力部127を備える。端末装置2を構成する各構成要素は、実施の形態1で説明した。
The
なお、評価表現抽出部124は、受付部123が受け付けたトピックに関連する文を、文章格納部111の文章から取得する処理も行う。
Note that the evaluation
次に、端末装置2の動作について説明する。端末装置2の動作は、実施の形態1で説明した端末装置12の動作と概ね同じであるので、説明を省略する。
Next, the operation of the
以上、本実施の形態によれば、多量の文書から、対立する評価表現を適切に出力できることができる。 As described above, according to this embodiment, it is possible to appropriately output conflicting evaluation expressions from a large amount of documents.
また、図17は、本明細書で述べたプログラムを実行して、上述した実施の形態の端末装置等を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図17は、このコンピュータシステム340の概観図であり、図18は、コンピュータシステム340の内部構成を示す図である。
FIG. 17 shows the external appearance of a computer that executes the program described in this specification to realize the terminal device or the like of the above-described embodiment. The above-described embodiments can be realized by computer hardware and a computer program executed thereon. FIG. 17 is an overview diagram of the
図17において、コンピュータシステム340は、FDドライブ3411、CD−ROMドライブ3412を含むコンピュータ341と、キーボード342と、マウス343と、モニタ344とを含む。
In FIG. 17, the
図18において、コンピュータ341は、FDドライブ3411、CD−ROMドライブ3412に加えて、MPU3413と、CD−ROMドライブ3412及びFDドライブ3411に接続されたバス3414と、ブートアッププログラム等のプログラムを記憶するためのROM3415とに接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのRAM3416と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク3417とを含む。ここでは、図示しないが、コンピュータ341は、さらに、LANへの接続を提供するネットワークカードを含んでも良い。
In FIG. 18, in addition to the
コンピュータシステム340に、上述した実施の形態の端末装置等の機能を実行させるプログラムは、CD−ROM3501、またはFD3502に記憶されて、CD−ROMドライブ3412またはFDドライブ3411に挿入され、さらにハードディスク3417に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ341に送信され、ハードディスク3417に記憶されても良い。プログラムは実行の際にRAM3416にロードされる。プログラムは、CD−ROM3501、FD3502またはネットワークから直接、ロードされても良い。
A program that causes the
プログラムは、コンピュータ341に、上述した実施の形態の端末装置等の機能を実行させるオペレーティングシステム(OS)、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム340がどのように動作するかは周知であり、詳細な説明は省略する。
The program does not necessarily include an operating system (OS), a third-party program, or the like that causes the
なお、上記プログラムにおいて、情報を送信するステップや、情報を受信するステップなどでは、ハードウェアによって行われる処理、例えば、モデムやインターフェースカードなどで行われる処理(ハードウェアでしか行われない処理)は含まれない。 In the above program, in a step of transmitting information, a step of receiving information, etc., processing performed by hardware, for example, processing performed by a modem or an interface card (processing performed only by hardware) is performed. Not included.
また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。 Further, the computer that executes the program may be singular or plural. That is, centralized processing may be performed, or distributed processing may be performed.
また、上記各実施の形態において、一の装置に存在する2以上の通信手段は、物理的に一の媒体で実現されても良いことは言うまでもない。 Further, in each of the above embodiments, it goes without saying that two or more communication units existing in one apparatus may be physically realized by one medium.
また、上記各実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。 In each of the above embodiments, each process (each function) may be realized by centralized processing by a single device (system), or by distributed processing by a plurality of devices. May be.
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。 The present invention is not limited to the above-described embodiments, and various modifications are possible, and it goes without saying that these are also included in the scope of the present invention.
以上のように、本発明にかかる端末装置は、Web等の多量の文書から、対立する評価表現を出力できるという効果を有し、入力されたトピックに関する対立意見を出力する検索エンジンを実現する端末装置等として有用である。 As described above, the terminal device according to the present invention has an effect of being able to output conflicting evaluation expressions from a large amount of documents such as the Web, and implements a search engine that outputs conflicting opinions regarding the input topic. It is useful as a device.
1 情報システム
2、12 端末装置
11 サーバ装置
111 文章格納部
112 文章送信部
120 テキスト格納部
121 評価語句辞書
122 学習データ格納部
123 受付部
124 評価表現抽出部
125 評価表現クラスタリング部
126 対立評価表現取得部
127 対立評価表現出力部
1241 形態素解析手段
1242 素性取得手段
1243 機械学習手段
1244 評価表現取得手段
1251 高頻度評価語句格納手段
1252 語句出現情報取得手段
1253 属性ベクトル構成手段
1254 類似度算出手段
1255 評価表現グループ取得手段
1261 評価表現学習データ格納手段
1262 語句情報取得手段
1263 評価極性列取得手段
1264 評価表現極性取得手段
1265 対立評価表現取得手段
DESCRIPTION OF
Claims (8)
評価に関する語句である評価語句と、当該評価語句が肯定的であるか否定的であるかを示す情報である評価極性とを有する評価語句情報を1以上格納し得る評価語句辞書と、
前記1以上のサーバ装置に格納されている文章を構成する文であり、前記トピックに関連する文から、前記評価語句辞書に格納されている評価語句を用いて、当該評価語句を含む1以上の語句の集合である評価表現を、2以上抽出する評価表現抽出部と、
前記評価表現抽出部が抽出した2以上の各評価表現に含まれている1以上の語句から、2以上の評価表現間の類似度を算出し、当該類似度から、前記2以上の評価表現をクラスタリングし、2以上の評価表現を含む1以上の評価表現グループを取得する評価表現クラスタリング部と、
前記1以上の各評価表現グループのうちの一の評価表現グループに含まれる2以上の評価表現から、前記評価語句辞書に含まれる評価語句と評価極性とを用いて、前記一のトピックに関する肯定的な評価表現、および前記一のトピックに関する否定的な評価表現を取得する対立評価表現取得部と、
前記対立評価表現取得部が取得した前記一のトピックに関する肯定的な評価表現および否定的な評価表現の両方を出力する対立評価表現出力部とを具備する端末装置であって、
評価表現に含まれる1以上の各語句、当該各語句の原形、当該各語句の品詞、当該各語句の評価極性、および語句が評価表現の開始語句であるか評価表現の途中の語句であるか評価表現に無関係な語句であるかを示す当該各語句の種類を示す種類情報、および評価表現に含まれる1以上の語句の並びに関する情報とを有する学習データであり、評価表現ごとの学習データを、2以上格納し得る学習データ格納部をさらに具備し、
前記評価表現抽出部は、
前記1以上のサーバ装置に格納されている文章を構成する各文を形態素解析し、1以上の語句を取得する形態素解析手段と、
前記形態素解析手段の処理結果から、前記形態素解析手段が取得した1以上の各語句、当該各語句の原形、当該各語句の品詞、および評価表現に含まれる1以上の語句の並びに関する情報を取得し、かつ、前記評価語句辞書を1以上の各語句をキーとして検索し、前記1以上の各語句の評価極性を、文ごとに取得する素性取得手段と、
前記素性取得手段が取得した情報を素性として、前記学習データ格納部の2以上の学習データを用いて、機械学習し、各文を構成する語句の種類を示す種類情報の1以上の列に関する情報を取得する機械学習手段と、
前記機械学習手段が取得した1以上の種類情報の列のうち、評価表現の開始語句または評価表現の途中の語句であることを示す種類情報が連続する種類情報列に対応する1以上の連続する語句の集合である評価表現を取得する評価表現取得手段とを具備する端末装置。 A terminal device that outputs both positive and negative expressions related to one topic from sentences stored in one or more server devices,
An evaluation phrase dictionary that can store one or more evaluation phrase information having evaluation phrases that are evaluation-related phrases and evaluation polarity that is information indicating whether the evaluation phrase is positive or negative;
A sentence constituting a sentence stored in the one or more server devices, and using an evaluation phrase stored in the evaluation phrase dictionary from a sentence related to the topic, the one or more including the evaluation phrase An evaluation expression extraction unit that extracts two or more evaluation expressions that are sets of phrases;
The similarity between two or more evaluation expressions is calculated from one or more words included in each of the two or more evaluation expressions extracted by the evaluation expression extracting unit, and the two or more evaluation expressions are calculated from the similarity. An evaluation expression clustering unit that performs clustering and obtains one or more evaluation expression groups including two or more evaluation expressions;
Using one or more evaluation expressions included in one evaluation expression group among the one or more evaluation expression groups, an evaluation word and evaluation polarity included in the evaluation word dictionary and an affirmative regarding the one topic A conflict evaluation expression acquisition unit that acquires a negative evaluation expression and a negative evaluation expression related to the one topic;
A terminal device comprising: a conflict evaluation expression output unit that outputs both a positive evaluation expression and a negative evaluation expression related to the one topic acquired by the conflict evaluation expression acquisition unit ;
One or more words included in the evaluation expression, the original form of each word, the part of speech of each word, the evaluation polarity of each word, and whether the word is a starting word or a word in the middle of the evaluation expression Learning data having type information indicating the type of each of the phrases indicating whether the phrase is irrelevant to the evaluation expression, and information relating to an arrangement of one or more words included in the evaluation expression, and learning data for each evaluation expression Two or more learning data storage units that can be stored,
The evaluation expression extraction unit includes:
A morpheme analysis unit that obtains one or more words by morphologically analyzing each sentence constituting a sentence stored in the one or more server devices;
From the processing result of the morpheme analysis unit, obtain information on one or more words acquired by the morpheme analysis unit, the original form of each of the words, the part of speech of each of the words, and the arrangement of one or more words included in the evaluation expression And a feature acquisition unit that searches the evaluation word dictionary using one or more words as a key, and acquires an evaluation polarity of each of the one or more words for each sentence;
Information on one or more columns of type information indicating the types of words constituting each sentence by machine learning using information acquired by the feature acquisition means as features and using two or more learning data in the learning data storage unit Machine learning means for acquiring
Among the one or more types of information column acquired by the machine learning means, one or more continuous types corresponding to the type information sequence in which the type information indicating that the evaluation expression is a starting word or phrase in the middle of the evaluation expression is continuous. A terminal device comprising evaluation expression acquisition means for acquiring an evaluation expression that is a set of phrases .
評価に関する語句である評価語句と、当該評価語句が肯定的であるか否定的であるかを示す情報である評価極性とを有する評価語句情報を1以上格納し得る評価語句辞書と、
前記1以上のサーバ装置に格納されている文章を構成する文であり、前記トピックに関連する文から、前記評価語句辞書に格納されている評価語句を用いて、当該評価語句を含む1以上の語句の集合である評価表現を、2以上抽出する評価表現抽出部と、
前記評価表現抽出部が抽出した2以上の各評価表現に含まれている1以上の語句から、2以上の評価表現間の類似度を算出し、当該類似度から、前記2以上の評価表現をクラスタリングし、2以上の評価表現を含む1以上の評価表現グループを取得する評価表現クラスタリング部と、
前記1以上の各評価表現グループのうちの一の評価表現グループに含まれる2以上の評価表現から、前記評価語句辞書に含まれる評価語句と評価極性とを用いて、前記一のトピックに関する肯定的な評価表現、および前記一のトピックに関する否定的な評価表現を取得する対立評価表現取得部と、
前記対立評価表現取得部が取得した前記一のトピックに関する肯定的な評価表現および否定的な評価表現の両方を出力する対立評価表現出力部とを具備する端末装置であって、
前記対立評価表現取得部は、
評価表現から構成される評価極性の列である評価極性列であり、当該評価表現に含まれる1以上の各語句に対応する評価極性の並びである評価極性列と、当該評価表現に含まれる1以上の各語句と、当該各語句の原形と、当該各語句の品詞と、当該評価表現が肯定的であるか否定的であるかを示す情報である評価表現極性とを対応付けている評価表現学習データを、2以上格納し得る評価表現学習データ格納手段と、
前記1以上の評価表現グループのうちのいずれかの評価表現グループに含まれる2以上の各評価表現を語句に区分し、1以上の語句を取得し、かつ、当該1以上の各語句の原形および品詞を取得する語句情報取得手段と、
前記語句情報取得手段が取得した1以上の各語句をキーとして、前記評価語句辞書を検索し、各語句に対応する評価極性を取得し、当該1以上の評価極性の列である評価極性列を、評価表現ごとに取得する評価極性列取得手段と、
前記語句情報取得手段が取得した1以上の各語句、各語句の原形、各語句の品詞、および前記評価極性列取得手段が取得した評価極性列を、前記評価表現学習データ格納手段に格納されている2以上の評価表現学習データに、機械学習を用いて適用し、前記各評価表現の評価表現極性を、評価表現ごとに取得する評価表現極性取得手段と、
前記評価表現極性取得手段が取得した評価表現極性が肯定的である評価表現と、前記評価表現極性取得手段が取得した評価表現極性が否定的である評価表現とを取得する対立評価表現取得手段とを具備する端末装置。 A terminal device that outputs both positive and negative expressions related to one topic from sentences stored in one or more server devices,
An evaluation phrase dictionary that can store one or more evaluation phrase information having evaluation phrases that are evaluation-related phrases and evaluation polarity that is information indicating whether the evaluation phrase is positive or negative;
A sentence constituting a sentence stored in the one or more server devices, and using an evaluation phrase stored in the evaluation phrase dictionary from a sentence related to the topic, the one or more including the evaluation phrase An evaluation expression extraction unit that extracts two or more evaluation expressions that are sets of phrases;
The similarity between two or more evaluation expressions is calculated from one or more words included in each of the two or more evaluation expressions extracted by the evaluation expression extracting unit, and the two or more evaluation expressions are calculated from the similarity. An evaluation expression clustering unit that performs clustering and obtains one or more evaluation expression groups including two or more evaluation expressions;
Using one or more evaluation expressions included in one evaluation expression group among the one or more evaluation expression groups, an evaluation word and evaluation polarity included in the evaluation word dictionary and an affirmative regarding the one topic A conflict evaluation expression acquisition unit that acquires a negative evaluation expression and a negative evaluation expression related to the one topic;
A terminal device comprising: a conflict evaluation expression output unit that outputs both a positive evaluation expression and a negative evaluation expression related to the one topic acquired by the conflict evaluation expression acquisition unit;
The conflict evaluation expression acquisition unit
An evaluation polarity string that is a string of evaluation polarities composed of evaluation expressions, an evaluation polarity string that is an array of evaluation polarities corresponding to one or more words included in the evaluation expression, and 1 included in the evaluation expression An evaluation expression that associates each of the above phrases, the original form of each of the phrases, the part of speech of each of the phrases, and an evaluation expression polarity that is information indicating whether the evaluation expression is positive or negative Evaluation expression learning data storage means capable of storing two or more learning data;
Two or more evaluation expressions included in any one of the one or more evaluation expression groups are divided into words, one or more words are obtained, and the original form of each of the one or more words and Phrase information acquisition means for acquiring a part of speech;
Using the one or more words acquired by the word information acquisition means as a key, the evaluation word dictionary is searched, an evaluation polarity corresponding to each word is acquired, and an evaluation polarity column that is a column of the one or more evaluation polarities is obtained. Evaluation polarity string acquisition means for acquiring for each evaluation expression;
One or more each phrase acquired by the phrase information acquisition unit, the original form of each phrase, the part of speech of each phrase, and the evaluation polarity string acquired by the evaluation polarity string acquisition unit are stored in the evaluation expression learning data storage unit. An evaluation expression polarity acquisition unit that applies machine learning to two or more evaluation expression learning data, and acquires the evaluation expression polarity of each evaluation expression for each evaluation expression;
Opposite evaluation expression acquisition means for acquiring an evaluation expression in which the evaluation expression polarity acquired by the evaluation expression polarity acquisition means is positive and an evaluation expression in which the evaluation expression polarity acquired by the evaluation expression polarity acquisition means is negative; A terminal device comprising:
1以上の文章を格納し得る文章格納部と、
評価に関する語句である評価語句と、当該評価語句が肯定的であるか否定的であるかを示す情報である評価極性とを有する評価語句情報を1以上格納し得る評価語句辞書と、
前記文章格納部に格納されている文章を構成する文であり、前記トピックに関連する文から、前記評価語句辞書に格納されている評価語句を用いて、当該評価語句を含む1以上の語句の集合である評価表現を、2以上抽出する評価表現抽出部と、
前記評価表現抽出部が抽出した2以上の各評価表現に含まれている1以上の語句から、2以上の評価表現間の類似度を算出し、当該類似度から、前記2以上の評価表現をクラスタリングし、1以上の評価表現を含む1以上の評価表現グループを取得する評価表現評価表現クラスタリング部と、
前記1以上の各評価表現グループのうちの一の評価表現グループに含まれる2以上の評価表現から、前記評価語句辞書に含まれる評価語句と評価極性とを用いて、前記一のトピックに関する肯定的な評価表現、および前記一のトピックに関する否定的な評価表現を取得する対立評価表現取得部と、
前記対立評価表現取得部が取得した前記一のトピックに関する肯定的な評価表現および否定的な評価表現の両方を出力する対立評価表現出力部とを具備する端末装置であって、
評価表現に含まれる1以上の各語句、当該各語句の原形、当該各語句の品詞、当該各語句の評価極性、および語句が評価表現の開始語句であるか評価表現の途中の語句であるか評価表現に無関係な語句であるかを示す当該各語句の種類を示す種類情報、および評価表現に含まれる1以上の語句の並びに関する情報とを有する学習データであり、評価表現ごとの学習データを、2以上格納し得る学習データ格納部をさらに具備し、
前記評価表現抽出部は、
前記1以上の文章を構成する各文を形態素解析し、1以上の語句を取得する形態素解析手段と、
前記形態素解析手段の処理結果から、前記形態素解析手段が取得した1以上の各語句、当該各語句の原形、当該各語句の品詞、および評価表現に含まれる1以上の語句の並びに関する情報を取得し、かつ、前記評価語句辞書を1以上の各語句をキーとして検索し、前記1以上の各語句の評価極性を、文ごとに取得する素性取得手段と、
前記素性取得手段が取得した情報を素性として、前記学習データ格納部の2以上の学習データを用いて、機械学習し、各文を構成する語句の種類を示す種類情報の1以上の列に関する情報を取得する機械学習手段と、
前記機械学習手段が取得した1以上の種類情報の列のうち、評価表現の開始語句または評価表現の途中の語句であることを示す種類情報が連続する種類情報列に対応する1以上の連続する語句の集合である評価表現を取得する評価表現取得手段とを具備する端末装置。 A terminal device that outputs both positive and negative expressions related to a topic,
A sentence storage unit capable of storing one or more sentences;
An evaluation phrase dictionary that can store one or more evaluation phrase information having evaluation phrases that are evaluation-related phrases and evaluation polarity that is information indicating whether the evaluation phrase is positive or negative;
A sentence constituting a sentence stored in the sentence storage unit, and an evaluation phrase stored in the evaluation phrase dictionary from a sentence related to the topic, and one or more words including the evaluation phrase An evaluation expression extraction unit that extracts two or more evaluation expressions as a set; and
The similarity between two or more evaluation expressions is calculated from one or more words included in each of the two or more evaluation expressions extracted by the evaluation expression extracting unit, and the two or more evaluation expressions are calculated from the similarity. An evaluation expression evaluation expression clustering unit that performs clustering and obtains one or more evaluation expression groups including one or more evaluation expressions;
Using one or more evaluation expressions included in one evaluation expression group among the one or more evaluation expression groups, an evaluation word and evaluation polarity included in the evaluation word dictionary and an affirmative regarding the one topic A conflict evaluation expression acquisition unit that acquires a negative evaluation expression and a negative evaluation expression related to the one topic;
A terminal device comprising: a conflict evaluation expression output unit that outputs both a positive evaluation expression and a negative evaluation expression related to the one topic acquired by the conflict evaluation expression acquisition unit ;
One or more words included in the evaluation expression, the original form of each word, the part of speech of each word, the evaluation polarity of each word, and whether the word is a starting word or a word in the middle of the evaluation expression Learning data having type information indicating the type of each of the phrases indicating whether the phrase is irrelevant to the evaluation expression, and information relating to an arrangement of one or more words included in the evaluation expression, and learning data for each evaluation expression Two or more learning data storage units that can be stored,
The evaluation expression extraction unit includes:
Morphological analysis of each sentence constituting the one or more sentences and obtaining one or more words;
From the processing result of the morpheme analysis unit, obtain information on one or more words acquired by the morpheme analysis unit, the original form of each of the words, the part of speech of each of the words, and the arrangement of one or more words included in the evaluation expression And a feature acquisition unit that searches the evaluation word dictionary using one or more words as a key, and acquires an evaluation polarity of each of the one or more words for each sentence;
Information on one or more columns of type information indicating the types of words constituting each sentence by machine learning using information acquired by the feature acquisition means as features and using two or more learning data in the learning data storage unit Machine learning means for acquiring
Among the one or more types of information column acquired by the machine learning means, one or more continuous types corresponding to the type information sequence in which the type information indicating that the evaluation expression is a starting word or phrase in the middle of the evaluation expression is continuous. A terminal device comprising evaluation expression acquisition means for acquiring an evaluation expression that is a set of phrases .
1以上の文章を格納し得る文章格納部と、A sentence storage unit capable of storing one or more sentences;
評価に関する語句である評価語句と、当該評価語句が肯定的であるか否定的であるかを示す情報である評価極性とを有する評価語句情報を1以上格納し得る評価語句辞書と、An evaluation phrase dictionary that can store one or more evaluation phrase information having evaluation phrases that are evaluation-related phrases and evaluation polarity that is information indicating whether the evaluation phrase is positive or negative;
前記文章格納部に格納されている文章を構成する文であり、前記トピックに関連する文から、前記評価語句辞書に格納されている評価語句を用いて、当該評価語句を含む1以上の語句の集合である評価表現を、2以上抽出する評価表現抽出部と、A sentence constituting a sentence stored in the sentence storage unit, and an evaluation phrase stored in the evaluation phrase dictionary from a sentence related to the topic, and one or more words including the evaluation phrase An evaluation expression extraction unit that extracts two or more evaluation expressions as a set; and
前記評価表現抽出部が抽出した2以上の各評価表現に含まれている1以上の語句から、2以上の評価表現間の類似度を算出し、当該類似度から、前記2以上の評価表現をクラスタリングし、1以上の評価表現を含む1以上の評価表現グループを取得する評価表現評価表現クラスタリング部と、The similarity between two or more evaluation expressions is calculated from one or more words included in each of the two or more evaluation expressions extracted by the evaluation expression extracting unit, and the two or more evaluation expressions are calculated from the similarity. An evaluation expression evaluation expression clustering unit that performs clustering and obtains one or more evaluation expression groups including one or more evaluation expressions;
前記1以上の各評価表現グループのうちの一の評価表現グループに含まれる2以上の評価表現から、前記評価語句辞書に含まれる評価語句と評価極性とを用いて、前記一のトピックに関する肯定的な評価表現、および前記一のトピックに関する否定的な評価表現を取得する対立評価表現取得部と、Using one or more evaluation expressions included in one evaluation expression group among the one or more evaluation expression groups, an evaluation word and evaluation polarity included in the evaluation word dictionary and an affirmative regarding the one topic A conflict evaluation expression acquisition unit that acquires a negative evaluation expression and a negative evaluation expression related to the one topic;
前記対立評価表現取得部が取得した前記一のトピックに関する肯定的な評価表現および否定的な評価表現の両方を出力する対立評価表現出力部とを具備する端末装置であって、A terminal device comprising: a conflict evaluation expression output unit that outputs both a positive evaluation expression and a negative evaluation expression related to the one topic acquired by the conflict evaluation expression acquisition unit;
前記対立評価表現取得部は、The conflict evaluation expression acquisition unit
評価表現から構成される評価極性の列である評価極性列であり、当該評価表現に含まれる1以上の各語句に対応する評価極性の並びである評価極性列と、当該評価表現に含まれる1以上の各語句と、当該各語句の原形と、当該各語句の品詞と、当該評価表現が肯定的であるか否定的であるかを示す情報である評価表現極性とを対応付けている評価表現学習データを、2以上格納し得る評価表現学習データ格納手段と、An evaluation polarity string that is a string of evaluation polarities composed of evaluation expressions, an evaluation polarity string that is an array of evaluation polarities corresponding to one or more words included in the evaluation expression, and 1 included in the evaluation expression An evaluation expression that associates each of the above phrases, the original form of each of the phrases, the part of speech of each of the phrases, and an evaluation expression polarity that is information indicating whether the evaluation expression is positive or negative Evaluation expression learning data storage means capable of storing two or more learning data;
前記1以上の評価表現グループのうちのいずれかの評価表現グループに含まれる2以上の各評価表現を語句に区分し、1以上の語句を取得し、かつ、当該1以上の各語句の原形および品詞を取得する語句情報取得手段と、Two or more evaluation expressions included in any one of the one or more evaluation expression groups are divided into words, one or more words are obtained, and the original form of each of the one or more words and Phrase information acquisition means for acquiring a part of speech;
前記語句情報取得手段が取得した1以上の各語句をキーとして、前記評価語句辞書を検索し、各語句に対応する評価極性を取得し、当該1以上の評価極性の列である評価極性列を、評価表現ごとに取得する評価極性列取得手段と、Using the one or more words acquired by the word information acquisition means as a key, the evaluation word dictionary is searched, an evaluation polarity corresponding to each word is acquired, and an evaluation polarity column that is a column of the one or more evaluation polarities is obtained. Evaluation polarity string acquisition means for acquiring for each evaluation expression;
前記語句情報取得手段が取得した1以上の各語句、各語句の原形、各語句の品詞、および前記評価極性列取得手段が取得した評価極性列を、前記評価表現学習データ格納手段に格納されている2以上の評価表現学習データに、機械学習を用いて適用し、前記各評価表現の評価表現極性を、評価表現ごとに取得する評価表現極性取得手段と、One or more each phrase acquired by the phrase information acquisition unit, the original form of each phrase, the part of speech of each phrase, and the evaluation polarity string acquired by the evaluation polarity string acquisition unit are stored in the evaluation expression learning data storage unit. An evaluation expression polarity acquisition unit that applies machine learning to two or more evaluation expression learning data, and acquires the evaluation expression polarity of each evaluation expression for each evaluation expression;
前記評価表現極性取得手段が取得した評価表現極性が肯定的である評価表現と、前記評価表現極性取得手段が取得した評価表現極性が否定的である評価表現とを取得する対立評価表現取得手段とを具備する端末装置。Opposite evaluation expression acquisition means for acquiring an evaluation expression in which the evaluation expression polarity acquired by the evaluation expression polarity acquisition means is positive and an evaluation expression in which the evaluation expression polarity acquired by the evaluation expression polarity acquisition means is negative; A terminal device comprising:
1以上の文章と、
評価に関する語句である評価語句と、当該評価語句が肯定的であるか否定的であるかを示す情報である評価極性とを有する1以上の評価語句情報を格納しており、
評価表現抽出部、評価表現評価表現クラスタリング部、対立評価表現取得部、および対立評価表現出力部により実現される表現出力方法であって、
前記評価表現抽出部が、前記記録媒体に格納されている文章を構成する文であり、前記トピックに関連する文から、前記記録媒体に格納されている評価語句を用いて、当該評価語句を含む1以上の語句の集合である評価表現を、2以上抽出する評価表現抽出ステップと、
前記評価表現評価表現クラスタリング部が、前記評価表現抽出ステップで抽出された2以上の各評価表現に含まれている1以上の語句から、前記2以上の評価表現をクラスタリングし、1以上の評価表現を含む1以上の評価表現グループを取得する評価表現評価表現クラスタリングステップと、
前記対立評価表現取得部が、前記1以上の評価表現グループのうちのいずれかの評価表現グループに含まれる2以上の評価表現から、前記記録媒体に含まれる評価語句と評価極性とを用いて、前記一のトピックに関する肯定的な評価表現および否定的な評価表現の両方を取得する対立評価表現取得ステップと、
前記対立評価表現出力部が、前記対立評価表現取得ステップで取得された前記一のトピックに関する肯定的な評価表現および否定的な評価表現の両方を出力する対立評価表現出力ステップとを具備する表現出力方法であって、
前記記録媒体に、
評価表現に含まれる1以上の各語句、当該各語句の原形、当該各語句の品詞、当該各語句の評価極性、および語句が評価表現の開始語句であるか評価表現の途中の語句であるか評価表現に無関係な語句であるかを示す当該各語句の種類を示す種類情報、および評価表現に含まれる1以上の語句の並びに関する情報とを有する学習データであり、評価表現ごとの学習データを、2以上格納し得る学習データ格納部をさらに具備し、
前記評価表現抽出ステップは、
前記1以上の文章を構成する各文を形態素解析し、1以上の語句を取得する形態素解析サブステップと、
前記形態素解析サブステップにおける処理結果から、前記形態素解析サブステップにおいて取得された1以上の各語句、当該各語句の原形、当該各語句の品詞、および評価表現に含まれる1以上の語句の並びに関する情報を取得し、かつ、前記評価語句辞書を1以上の各語句をキーとして検索し、前記1以上の各語句の評価極性を、文ごとに取得する素性取得サブステップと、
前記素性取得サブステップにおいて取得された情報を素性として、前記学習データ格納部の2以上の学習データを用いて、機械学習し、各文を構成する語句の種類を示す種類情報の1以上の列に関する情報を取得する機械学習サブステップと、
前記機械学習サブステップにおいて取得された1以上の種類情報の列のうち、評価表現の開始語句または評価表現の途中の語句であることを示す種類情報が連続する種類情報列に対応する1以上の連続する語句の集合である評価表現を取得する評価表現取得サブステップとを具備する表現出力方法。 On the recording medium,
One or more sentences,
Storing one or more evaluation word / phrase information having an evaluation word / phrase relating to evaluation and an evaluation polarity which is information indicating whether the evaluation word / phrase is positive or negative;
An expression output method realized by an evaluation expression extraction unit, an evaluation expression evaluation expression clustering unit, an opponent evaluation expression acquisition unit, and an opponent evaluation expression output unit,
The evaluation expression extraction unit is a sentence that constitutes a sentence stored in the recording medium, and includes the evaluation phrase using an evaluation phrase stored in the recording medium from a sentence related to the topic An evaluation expression extraction step of extracting two or more evaluation expressions that are a set of one or more words;
The evaluation expression evaluation expression clustering unit clusters the two or more evaluation expressions from one or more words / phrases included in each of the two or more evaluation expressions extracted in the evaluation expression extraction step. An evaluation expression evaluation expression clustering step for obtaining one or more evaluation expression groups including:
The conflict evaluation expression acquisition unit uses an evaluation word and an evaluation polarity included in the recording medium from two or more evaluation expressions included in any evaluation expression group of the one or more evaluation expression groups, An opposing evaluation expression acquisition step of acquiring both a positive evaluation expression and a negative evaluation expression related to the one topic;
The conflict output expression output unit includes the conflict evaluation expression output step for outputting both a positive evaluation expression and a negative evaluation expression related to the one topic acquired in the conflict evaluation expression acquisition step. A method ,
In the recording medium,
One or more words included in the evaluation expression, the original form of each word, the part of speech of each word, the evaluation polarity of each word, and whether the word is a starting word or a word in the middle of the evaluation expression Learning data having type information indicating the type of each of the phrases indicating whether the phrase is irrelevant to the evaluation expression, and information relating to an arrangement of one or more words included in the evaluation expression, and learning data for each evaluation expression Two or more learning data storage units that can be stored,
The evaluation expression extraction step includes:
Morphological analysis of each sentence constituting the one or more sentences to obtain one or more words / phrases,
From the processing result in the morphological analysis sub-step, the one or more words / phrases acquired in the morphological analysis sub-step, the original form of the words / phrases, the part of speech of the words / phrases, and the arrangement of one or more words / phrases included in the evaluation expression A feature acquisition sub-step of acquiring information, searching the evaluation phrase dictionary using one or more words as a key, and acquiring evaluation polarities of the one or more words for each sentence;
One or more columns of type information indicating the types of phrases constituting each sentence by machine learning using the information acquired in the feature acquisition substep as features and using two or more learning data in the learning data storage unit A machine learning substep to obtain information about,
Of the one or more types of information columns acquired in the machine learning sub-step, one or more types corresponding to a type information sequence in which type information indicating a start phrase of evaluation expression or a phrase in the middle of evaluation expression is continuous An expression output method comprising: an evaluation expression acquisition sub-step of acquiring an evaluation expression that is a set of consecutive words .
1以上の文章と、One or more sentences,
評価に関する語句である評価語句と、当該評価語句が肯定的であるか否定的であるかを示す情報である評価極性とを有する1以上の評価語句情報を格納しており、Storing one or more evaluation word / phrase information having an evaluation word / phrase relating to evaluation and an evaluation polarity which is information indicating whether the evaluation word / phrase is positive or negative;
評価表現抽出部、評価表現評価表現クラスタリング部、対立評価表現取得部、および対立評価表現出力部により実現される表現出力方法であって、An expression output method realized by an evaluation expression extraction unit, an evaluation expression evaluation expression clustering unit, an opponent evaluation expression acquisition unit, and an opponent evaluation expression output unit,
前記評価表現抽出部が、前記記録媒体に格納されている文章を構成する文であり、前記トピックに関連する文から、前記記録媒体に格納されている評価語句を用いて、当該評価語句を含む1以上の語句の集合である評価表現を、2以上抽出する評価表現抽出ステップと、The evaluation expression extraction unit is a sentence that constitutes a sentence stored in the recording medium, and includes the evaluation phrase using an evaluation phrase stored in the recording medium from a sentence related to the topic An evaluation expression extraction step of extracting two or more evaluation expressions that are a set of one or more words;
前記評価表現評価表現クラスタリング部が、前記評価表現抽出ステップで抽出された2以上の各評価表現に含まれている1以上の語句から、前記2以上の評価表現をクラスタリングし、1以上の評価表現を含む1以上の評価表現グループを取得する評価表現評価表現クラスタリングステップと、The evaluation expression evaluation expression clustering unit clusters the two or more evaluation expressions from one or more words / phrases included in each of the two or more evaluation expressions extracted in the evaluation expression extraction step. An evaluation expression evaluation expression clustering step for obtaining one or more evaluation expression groups including:
前記対立評価表現取得部が、前記1以上の評価表現グループのうちのいずれかの評価表現グループに含まれる2以上の評価表現から、前記記録媒体に含まれる評価語句と評価極性とを用いて、前記一のトピックに関する肯定的な評価表現および否定的な評価表現の両方を取得する対立評価表現取得ステップと、The conflict evaluation expression acquisition unit uses an evaluation word and an evaluation polarity included in the recording medium from two or more evaluation expressions included in any evaluation expression group of the one or more evaluation expression groups, An opposing evaluation expression acquisition step of acquiring both a positive evaluation expression and a negative evaluation expression related to the one topic;
前記対立評価表現出力部が、前記対立評価表現取得ステップで取得された前記一のトピックに関する肯定的な評価表現および否定的な評価表現の両方を出力する対立評価表現出力ステップとを具備する表現出力方法であって、The conflict output expression output unit includes the conflict evaluation expression output step for outputting both a positive evaluation expression and a negative evaluation expression related to the one topic acquired in the conflict evaluation expression acquisition step. A method,
前記記録媒体は、The recording medium is
評価表現から構成される評価極性の列である評価極性列であり、当該評価表現に含まれる1以上の各語句に対応する評価極性の並びである評価極性列と、当該評価表現に含まれる1以上の各語句と、当該各語句の原形と、当該各語句の品詞と、当該評価表現が肯定的であるか否定的であるかを示す情報である評価表現極性とを対応付けている評価表現学習データを、2以上格納し得る評価表現学習データ格納手段をさらに具備し、An evaluation polarity string that is a string of evaluation polarities composed of evaluation expressions, an evaluation polarity string that is an array of evaluation polarities corresponding to one or more words included in the evaluation expression, and 1 included in the evaluation expression An evaluation expression that associates each of the above phrases, the original form of each of the phrases, the part of speech of each of the phrases, and an evaluation expression polarity that is information indicating whether the evaluation expression is positive or negative Further comprising evaluation expression learning data storage means capable of storing two or more learning data;
前記対立評価表現取得ステップは、The conflict evaluation expression acquisition step includes:
前記1以上の評価表現グループのうちのいずれかの評価表現グループに含まれる2以上の各評価表現を語句に区分し、1以上の語句を取得し、かつ、当該1以上の各語句の原形および品詞を取得する語句情報取得サブステップと、Two or more evaluation expressions included in any one of the one or more evaluation expression groups are divided into words, one or more words are obtained, and the original form of each of the one or more words and A phrase information acquisition substep for acquiring a part of speech;
前記語句情報取得サブステップで取得された1以上の各語句をキーとして、前記評価語句辞書を検索し、各語句に対応する評価極性を取得し、当該1以上の評価極性の列である評価極性列を、評価表現ごとに取得する評価極性列取得サブステップと、Using the one or more words acquired in the word information acquisition sub-step as a key, the evaluation word dictionary is searched, the evaluation polarity corresponding to each word is acquired, and the evaluation polarity that is a column of the one or more evaluation polarities An evaluation polarity column acquisition substep for acquiring columns for each evaluation expression;
前記語句情報取得サブステップで取得された1以上の各語句、各語句の原形、各語句の品詞、および前記評価極性列取得手段が取得した評価極性列を、前記評価表現学習データ格納手段に格納されている2以上の評価表現学習データに、機械学習を用いて適用し、前記各評価表現の評価表現極性を、評価表現ごとに取得する評価表現極性取得サブステップと、One or more words / phrases acquired in the word / phrase information acquisition sub-step, the original form of each word, the part of speech of each word, and the evaluation polarity string acquired by the evaluation polarity string acquisition means are stored in the evaluation expression learning data storage means An evaluation expression polarity acquisition sub-step of applying to each of the two or more evaluation expression learning data being performed using machine learning and acquiring the evaluation expression polarity of each evaluation expression for each evaluation expression;
前記評価表現極性取得サブステップで取得された評価表現極性が肯定的である評価表現と、前記評価表現極性取得サブステップで取得された評価表現極性が否定的である評価表現とを取得する対立評価表現取得サブステップとを具備する表現出力方法。Opposite evaluation to acquire an evaluation expression in which the evaluation expression polarity acquired in the evaluation expression polarity acquisition substep is positive and an evaluation expression in which the evaluation expression polarity acquired in the evaluation expression polarity acquisition substep is negative An expression output method comprising an expression acquisition substep.
1以上の文章と、
評価に関する語句である評価語句と、当該評価語句が肯定的であるか否定的であるかを示す情報である評価極性とを有する1以上の評価語句情報を格納しており、
コンピュータを、
前記記録媒体に格納されている文章を構成する文であり、前記トピックに関連する文から、前記記録媒体に格納されている評価語句を用いて、当該評価語句を含む1以上の語句の集合である評価表現を、2以上抽出する評価表現抽出部と、
前記評価表現抽出部が抽出した2以上の各評価表現に含まれている1以上の語句から、前記2以上の評価表現をクラスタリングし、1以上の評価表現を含む1以上の評価表現グループを取得する評価表現評価表現クラスタリング部と、
前記1以上の評価表現グループのうちのいずれかの評価表現グループに含まれる2以上の評価表現から、前記記録媒体に含まれる評価語句と評価極性とを用いて、前記一のトピックに関する肯定的な評価表現および否定的な評価表現の両方を取得する対立評価表現取得部と、
前記対立評価表現取得部が取得した前記一のトピックに関する肯定的な評価表現および否定的な評価表現の両方を出力する対立評価表現出力部として機能させるためのプログラムであって、
前記記録媒体は、
評価表現に含まれる1以上の各語句、当該各語句の原形、当該各語句の品詞、当該各語句の評価極性、および語句が評価表現の開始語句であるか評価表現の途中の語句であるか評価表現に無関係な語句であるかを示す当該各語句の種類を示す種類情報、および評価表現に含まれる1以上の語句の並びに関する情報とを有する学習データであり、評価表現ごとの学習データを、2以上格納し得る学習データ格納部をさらに具備し、
前記評価表現抽出部は、
前記1以上の文章を構成する各文を形態素解析し、1以上の語句を取得する形態素解析手段と、
前記形態素解析手段の処理結果から、前記形態素解析手段が取得した1以上の各語句、当該各語句の原形、当該各語句の品詞、および評価表現に含まれる1以上の語句の並びに関する情報を取得し、かつ、前記評価語句辞書を1以上の各語句をキーとして検索し、前記1以上の各語句の評価極性を、文ごとに取得する素性取得手段と、
前記素性取得手段が取得した情報を素性として、前記学習データ格納部の2以上の学習データを用いて、機械学習し、各文を構成する語句の種類を示す種類情報の1以上の列に関する情報を取得する機械学習手段と、
前記機械学習手段が取得した1以上の種類情報の列のうち、評価表現の開始語句または評価表現の途中の語句であることを示す種類情報が連続する種類情報列に対応する1以上の連続する語句の集合である評価表現を取得する評価表現取得手段とを具備するものとして、コンピュータを機能させるためのプログラム。 On the recording medium,
One or more sentences,
Storing one or more evaluation word / phrase information having an evaluation word / phrase relating to evaluation and an evaluation polarity which is information indicating whether the evaluation word / phrase is positive or negative;
Computer
A sentence constituting a sentence stored in the recording medium, and a set of one or more words including the evaluation word / phrase using an evaluation word / phrase stored in the recording medium from a sentence related to the topic An evaluation expression extraction unit for extracting two or more evaluation expressions;
The two or more evaluation expressions are clustered from one or more words included in each of the two or more evaluation expressions extracted by the evaluation expression extraction unit, and one or more evaluation expression groups including one or more evaluation expressions are obtained. An evaluation expression clustering unit for
Using one or more evaluation expressions included in any one of the one or more evaluation expression groups, an evaluation phrase included in the recording medium and an evaluation polarity are used to positively determine the one topic. An opposing evaluation expression acquisition unit that acquires both evaluation expressions and negative evaluation expressions;
A program for functioning as a conflict evaluation expression output unit that outputs both a positive evaluation expression and a negative evaluation expression related to the one topic acquired by the conflict evaluation expression acquisition unit ,
The recording medium is
One or more words included in the evaluation expression, the original form of each word, the part of speech of each word, the evaluation polarity of each word, and whether the word is a starting word or a word in the middle of the evaluation expression Learning data having type information indicating the type of each of the phrases indicating whether the phrase is irrelevant to the evaluation expression, and information relating to an arrangement of one or more words included in the evaluation expression, and learning data for each evaluation expression Two or more learning data storage units that can be stored,
The evaluation expression extraction unit includes:
Morphological analysis of each sentence constituting the one or more sentences and obtaining one or more words;
From the processing result of the morpheme analysis unit, obtain information on one or more words acquired by the morpheme analysis unit, the original form of each of the words, the part of speech of each of the words, and the arrangement of one or more words included in the evaluation expression And a feature acquisition unit that searches the evaluation word dictionary using one or more words as a key, and acquires an evaluation polarity of each of the one or more words for each sentence;
Information on one or more columns of type information indicating the types of words constituting each sentence by machine learning using information acquired by the feature acquisition means as features and using two or more learning data in the learning data storage unit Machine learning means for acquiring
Among the one or more types of information column acquired by the machine learning means, one or more continuous types corresponding to the type information sequence in which the type information indicating that the evaluation expression is a starting word or phrase in the middle of the evaluation expression is continuous. A program for causing a computer to function as an evaluation expression acquisition unit that acquires an evaluation expression that is a set of phrases .
1以上の文章と、One or more sentences,
評価に関する語句である評価語句と、当該評価語句が肯定的であるか否定的であるかを示す情報である評価極性とを有する1以上の評価語句情報を格納しており、Storing one or more evaluation word / phrase information having an evaluation word / phrase relating to evaluation and an evaluation polarity which is information indicating whether the evaluation word / phrase is positive or negative;
コンピュータを、Computer
前記記録媒体に格納されている文章を構成する文であり、前記トピックに関連する文から、前記記録媒体に格納されている評価語句を用いて、当該評価語句を含む1以上の語句の集合である評価表現を、2以上抽出する評価表現抽出部と、A sentence constituting a sentence stored in the recording medium, and a set of one or more words including the evaluation word / phrase using an evaluation word / phrase stored in the recording medium from a sentence related to the topic An evaluation expression extraction unit for extracting two or more evaluation expressions;
前記評価表現抽出部が抽出した2以上の各評価表現に含まれている1以上の語句から、前記2以上の評価表現をクラスタリングし、1以上の評価表現を含む1以上の評価表現グループを取得する評価表現評価表現クラスタリング部と、The two or more evaluation expressions are clustered from one or more words included in each of the two or more evaluation expressions extracted by the evaluation expression extraction unit, and one or more evaluation expression groups including one or more evaluation expressions are obtained. An evaluation expression clustering unit for
前記1以上の評価表現グループのうちのいずれかの評価表現グループに含まれる2以上の評価表現から、前記記録媒体に含まれる評価語句と評価極性とを用いて、前記一のトピックに関する肯定的な評価表現および否定的な評価表現の両方を取得する対立評価表現取得部と、Using one or more evaluation expressions included in any one of the one or more evaluation expression groups, an evaluation phrase included in the recording medium and an evaluation polarity are used to positively determine the one topic. An opposing evaluation expression acquisition unit that acquires both evaluation expressions and negative evaluation expressions;
前記対立評価表現取得部が取得した前記一のトピックに関する肯定的な評価表現および否定的な評価表現の両方を出力する対立評価表現出力部として機能させるためのプログラムであって、A program for functioning as a conflict evaluation expression output unit that outputs both a positive evaluation expression and a negative evaluation expression related to the one topic acquired by the conflict evaluation expression acquisition unit,
前記記録媒体は、The recording medium is
評価表現から構成される評価極性の列である評価極性列であり、当該評価表現に含まれる1以上の各語句に対応する評価極性の並びである評価極性列と、当該評価表現に含まれる1以上の各語句と、当該各語句の原形と、当該各語句の品詞と、当該評価表現が肯定的であるか否定的であるかを示す情報である評価表現極性とを対応付けている評価表現学習データを、2以上格納し得る評価表現学習データ格納手段をさらに具備し、An evaluation polarity string that is a string of evaluation polarities composed of evaluation expressions, an evaluation polarity string that is an array of evaluation polarities corresponding to one or more words included in the evaluation expression, and 1 included in the evaluation expression An evaluation expression that associates each of the above phrases, the original form of each of the phrases, the part of speech of each of the phrases, and an evaluation expression polarity that is information indicating whether the evaluation expression is positive or negative Further comprising evaluation expression learning data storage means capable of storing two or more learning data;
前記対立評価表現取得部は、The conflict evaluation expression acquisition unit
前記1以上の評価表現グループのうちのいずれかの評価表現グループに含まれる2以上の各評価表現を語句に区分し、1以上の語句を取得し、かつ、当該1以上の各語句の原形および品詞を取得する語句情報取得手段と、Two or more evaluation expressions included in any one of the one or more evaluation expression groups are divided into words, one or more words are obtained, and the original form of each of the one or more words and Phrase information acquisition means for acquiring a part of speech;
前記語句情報取得手段が取得した1以上の各語句をキーとして、前記評価語句辞書を検索し、各語句に対応する評価極性を取得し、当該1以上の評価極性の列である評価極性列を、評価表現ごとに取得する評価極性列取得手段と、Using the one or more words acquired by the word information acquisition means as a key, the evaluation word dictionary is searched, an evaluation polarity corresponding to each word is acquired, and an evaluation polarity column that is a column of the one or more evaluation polarities is obtained. Evaluation polarity string acquisition means for acquiring for each evaluation expression;
前記語句情報取得手段が取得した1以上の各語句、各語句の原形、各語句の品詞、および前記評価極性列取得手段が取得した評価極性列を、前記評価表現学習データ格納手段に格納されている2以上の評価表現学習データに、機械学習を用いて適用し、前記各評価表現の評価表現極性を、評価表現ごとに取得する評価表現極性取得手段と、One or more each phrase acquired by the phrase information acquisition unit, the original form of each phrase, the part of speech of each phrase, and the evaluation polarity string acquired by the evaluation polarity string acquisition unit are stored in the evaluation expression learning data storage unit. An evaluation expression polarity acquisition unit that applies machine learning to two or more evaluation expression learning data, and acquires the evaluation expression polarity of each evaluation expression for each evaluation expression;
前記評価表現極性取得手段が取得した評価表現極性が肯定的である評価表現と、前記評価表現極性取得手段が取得した評価表現極性が否定的である評価表現とを取得する対立評価表現取得手段とを具備するものとして、コンピュータを機能させるためのプログラム。Opposite evaluation expression acquisition means for acquiring an evaluation expression in which the evaluation expression polarity acquired by the evaluation expression polarity acquisition means is positive and an evaluation expression in which the evaluation expression polarity acquired by the evaluation expression polarity acquisition means is negative; A program for causing a computer to function.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010276563A JP5729633B2 (en) | 2010-12-13 | 2010-12-13 | Terminal device, expression output method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010276563A JP5729633B2 (en) | 2010-12-13 | 2010-12-13 | Terminal device, expression output method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012128468A JP2012128468A (en) | 2012-07-05 |
JP5729633B2 true JP5729633B2 (en) | 2015-06-03 |
Family
ID=46645456
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010276563A Active JP5729633B2 (en) | 2010-12-13 | 2010-12-13 | Terminal device, expression output method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5729633B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6150291B2 (en) * | 2013-10-08 | 2017-06-21 | 国立研究開発法人情報通信研究機構 | Contradiction expression collection device and computer program therefor |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080215571A1 (en) * | 2007-03-01 | 2008-09-04 | Microsoft Corporation | Product review search |
JP5291351B2 (en) * | 2008-02-01 | 2013-09-18 | ヤフー株式会社 | Evaluation expression extraction method, evaluation expression extraction device, and evaluation expression extraction program |
JP5224532B2 (en) * | 2009-02-25 | 2013-07-03 | 日本電信電話株式会社 | Reputation information classification device and program |
-
2010
- 2010-12-13 JP JP2010276563A patent/JP5729633B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2012128468A (en) | 2012-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11216248B2 (en) | Methods and systems for identifying a level of similarity between a plurality of data representations | |
Schäfer et al. | Web corpus construction | |
US8745039B2 (en) | Method and system for user guided search navigation | |
US10013404B2 (en) | Targeted story summarization using natural language processing | |
US10990616B2 (en) | Fast pattern discovery for log analytics | |
KR102170206B1 (en) | Information Search System and Method using keyword and relation information | |
JP2018530047A (en) | Method and system for identifying similarity between filtering criteria and data items in a set of stream documents | |
JP2005276183A (en) | Method and system for ranking words and concepts in text using graph-based ranking | |
Mills et al. | Graph-based methods for natural language processing and understanding—A survey and analysis | |
WO2022134779A1 (en) | Method, apparatus and device for extracting character action related data, and storage medium | |
US11734332B2 (en) | Methods and systems for reuse of data item fingerprints in generation of semantic maps | |
JP6254378B2 (en) | Information processing apparatus, information processing method, and program | |
JP5780633B2 (en) | Expert search device and expert search method | |
JP5729633B2 (en) | Terminal device, expression output method, and program | |
JP7122773B2 (en) | DICTIONARY CONSTRUCTION DEVICE, DICTIONARY PRODUCTION METHOD, AND PROGRAM | |
KR20120070713A (en) | Method for indexing natural language and mathematical formula, apparatus and computer-readable recording medium with program therefor | |
JP2008140204A (en) | Data retrieval system and program | |
JP5557791B2 (en) | Microblog text classification device, microblog text classification method, and program | |
JP3486406B2 (en) | Patent information search device | |
JP5829471B2 (en) | Semantic analyzer and program thereof | |
TWI709050B (en) | Recommendation method and recommendation system | |
Brand | Automatic Prediction of Comment Quality | |
da Silva Guimarães | Lexicon expansion system for domain and time oriented sentiment analysis | |
JP2020057420A (en) | Dictionary construction device, information processing device, comment output device, evaluation word dictionary production method, information processing method, comment output method, and program | |
JP6410455B2 (en) | Semantic relationship extraction apparatus and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20131018 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140729 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140826 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141014 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150303 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150326 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5729633 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |