JP2007299071A - Reputation information processing system, reputation information processing method, and reputation information processing program - Google Patents
Reputation information processing system, reputation information processing method, and reputation information processing program Download PDFInfo
- Publication number
- JP2007299071A JP2007299071A JP2006124483A JP2006124483A JP2007299071A JP 2007299071 A JP2007299071 A JP 2007299071A JP 2006124483 A JP2006124483 A JP 2006124483A JP 2006124483 A JP2006124483 A JP 2006124483A JP 2007299071 A JP2007299071 A JP 2007299071A
- Authority
- JP
- Japan
- Prior art keywords
- reputation information
- usefulness
- specific user
- classification model
- morphemes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、映画、書籍等の様々な対象の評価を表す評判情報を分類するための処理を行う評判情報処理システム、当該評判情報処理システムにおける処理方法、及び、当該評判情報処理システムにおいて実行されるプログラムに関する。 The present invention is executed in a reputation information processing system that performs processing for classifying reputation information representing evaluations of various objects such as movies and books, a processing method in the reputation information processing system, and the reputation information processing system. Related to the program.
映画、書籍等の様々な対象についての感想や意見等の主観的な評価である評判情報を、評価の対象や評価の内容(肯定的な評価や否定的な評価)に応じて分類する手法が知られている(例えば特許文献1参照)。 There is a technique to classify reputation information, which is a subjective evaluation of opinions and opinions about various objects such as movies and books, according to the evaluation object and the content of the evaluation (positive evaluation or negative evaluation). It is known (see, for example, Patent Document 1).
評判情報の分類は、一般に予め形容詞、形容動詞、機能語等である肯定表現や否定表現である単語(形態素)と、その評価の度合いを表す評価値とを定義した辞書を保持しておき、文単位あるいは文書単位で評価値の合計を算出することにより実現される。例えば、「面白い」は「2」、「好き」は「1」、「悪い」は「−1」と定義された辞書が保持され、評判情報が「あの作品キャストは悪いけど、ストーリーは面白いから好き。」という文である場合、当該評判情報の評価値は−1+2+1=2となり、正の数値であるため、肯定の評判情報であると判断される。評価値の算出に際しては、形態素情報に加えて構文情報が用いられる場合もある(例えば非特許文献1参照)。
しかしながら、上述した従来の手法は、評判情報の全体的な傾向の把握に主眼が置かれ、個々の評判情報の利用に際して十分な分類がなされているとは言い難い。特に、あるユーザが個々の評判情報を利用する場合、その評判情報が当該ユーザにとって有用な内容であるかが不明である場合がある。 However, the above-described conventional method focuses on grasping the overall tendency of reputation information, and it is difficult to say that sufficient classification is made when using each piece of reputation information. In particular, when a certain user uses individual reputation information, it may be unclear whether the reputation information is useful for the user.
例えば、上述した従来の手法では、「面白い。」という評判情報と、「冷静に考えるとバカバカしいストーリーなのですが、白木瞳の浮世離れしたセレブぶりがサマになっているのと、岡本准一、松木潤の二人がイケメンで画面を支えているのとで、不思議と面白い映画になっています。」という評判情報とは、いずれも「面白い」という肯定表現の形態素を含むものであるために、肯定の評判情報として扱われる。 For example, in the conventional method described above, the reputation information is “interesting” and “It ’s a stupid story when you think calmly, but Hitomi Shiraki ’s celebs are crazy, Junichi Okamoto, Because both Matsuki Jun's screens are handsome and supportive, it has become a mysterious and interesting movie. ”Both of the reputation information include positive expression morpheme that is“ interesting ”. Treated as reputation information.
しかし、あるユーザが評判情報を、例えば映画の鑑賞に際しての参考として利用する場合、「面白い。」という評判情報は、当該評判情報の書き手にとって面白いものがユーザにとって面白いものであるかが不明であり、利用しづらい。このような場合、ユーザは、書き手の性質や趣向を熟知していれば、評判情報の書き手にとって面白いものが自分にとって面白いものであるかをある程度判断することができるが、インターネット等からの評判情報を利用する場合には、評判情報は大量の不特定多数の書き手により作成されるため、このような判断も困難である。 However, when a user uses reputation information as a reference when watching a movie, for example, it is unclear whether the reputation information “interesting” is interesting for the user who wrote the reputation information. It is difficult to use. In such a case, if the user is familiar with the nature and preferences of the writer, the user can determine to a certain extent whether something interesting for the writer of reputation information is interesting for himself, but reputation information from the Internet etc. When using, reputation information is created by a large number of unspecified number of writers, so such a determination is difficult.
本発明の目的は、上述した問題を解決するものであり、特定ユーザにとって有用な評判情報を得ることが可能な評判情報処理システム、評判情報処理方法及び評判情報処理プログラムを提供するものである。 An object of the present invention is to solve the above-described problems, and provide a reputation information processing system, a reputation information processing method, and a reputation information processing program that can obtain reputation information useful for a specific user.
本発明に係る評判情報処理システムは、対象の評価を表す評判情報と、該評判情報の特定ユーザにとっての有用度を取得する取得手段と、前記取得した評判情報に対して構文意味解析のうち少なくとも形態素解析を行う解析手段と、前記取得した特定ユーザにとっての有用度に対応する評判情報の前記形態素解析によって得られる形態素からなる分類モデルを生成する生成手段とを有することを特徴とする。 The reputation information processing system according to the present invention includes reputation information representing an evaluation of an object, acquisition means for acquiring the usefulness of the reputation information for a specific user, and syntactic / semantic analysis of the acquired reputation information. It comprises analysis means for performing morpheme analysis, and generation means for generating a classification model composed of morphemes obtained by the morpheme analysis of reputation information corresponding to the acquired usefulness for a specific user.
この構成によれば、評判情報と、当該評判情報の特定ユーザにとっての有用度を取得するとともに、当該評判情報について形態素解析を行い、これら特定ユーザにとっての有用度と、形態素解析により得られる形態素とに基づいて、分類モデルが生成される。この分類モデルは、特定ユーザにとっての有用度に対応する評判情報の形態素解析によって得られる形態素を含んでいるため、当該分類モデルを用いることによって、大量の評判情報を、特定ユーザにとっての有用度に応じて分類することが可能となる。ここで、有用度とは、評判情報の特定ユーザにとっての有用性の程度を表す、例えば数値である。 According to this configuration, the reputation information and the usefulness of the reputation information for the specific user are acquired, and the morphological analysis is performed on the reputation information. The usefulness for the specific user and the morpheme obtained by the morphological analysis Based on the above, a classification model is generated. Since this classification model includes morphemes obtained by morphological analysis of reputation information corresponding to the usefulness for a specific user, a large amount of reputation information can be converted into usefulness for a specific user by using the classification model. It becomes possible to classify accordingly. Here, the usefulness is, for example, a numerical value representing the degree of usefulness of reputation information for a specific user.
また、本発明の評判情報処理システムは、前記評判情報が文単位の情報であり、各文に対して前記有用度を付与されるものであるようにしてもよい。 In the reputation information processing system according to the present invention, the reputation information may be sentence-by-sentence information, and the usefulness may be given to each sentence.
また、本発明の評判情報処理システムは、前記生成手段が、前記形態素解析により得られる形態素のうち、前記有用度が所定値以上である評判情報における出現頻度の上位所定数に含まれる形態素の組と、前記有用度が所定値未満である評判情報における出現頻度の上位所定数に含まれる形態素の組とを有する分類モデルを生成するようにしてもよい。 In the reputation information processing system of the present invention, the generation means includes a set of morphemes included in a higher predetermined number of appearance frequencies in reputation information whose usefulness is a predetermined value or more among morphemes obtained by the morpheme analysis. And a morpheme set included in the upper predetermined number of appearance frequencies in the reputation information whose usefulness is less than a predetermined value may be generated.
形態素解析により得られる形態素は、有用度が所定値以上である評判情報における出現頻度が上位であれば、有用度の高い評判情報に含まれるべき形態素である可能性が高く、また、有用度が所定値未満である評判情報における出現頻度が上位であれば、有用度の低い評判情報に含まれるべき形態素である可能性が高い。従って、有用度が所定値以上である評判情報における出現頻度が上位である形態素からなる組と、有用度が所定値未満である評判情報における出現頻度が上位である形態素からなる組とを有する分類モデルを生成することによって、評判情報における形態素の出現頻度の観点から適切な分類モデルを生成することができる。 A morpheme obtained by morpheme analysis is highly likely to be a morpheme that should be included in reputation information with a high degree of usefulness if the frequency of appearance in reputation information with a usefulness equal to or greater than a predetermined value is high. If the appearance frequency in reputation information that is less than a predetermined value is high, it is highly likely that the morpheme should be included in reputation information with low usefulness. Therefore, a classification having a set of morphemes with higher appearance frequency in reputation information having usefulness equal to or higher than a predetermined value and a set of morphemes with higher appearance frequency in reputation information having usefulness less than a predetermined value. By generating a model, an appropriate classification model can be generated from the viewpoint of the appearance frequency of morphemes in reputation information.
同様の観点から、本発明の評判情報処理システムは、前記生成手段が、前記形態素解析により得られる形態素のうち、前記有用度が所定値以上である評判情報における出現頻度の上位所定数に含まれ、且つ、前記有用度が所定値未満である評判情報における出現頻度の下位所定数に含まれる形態素の組と、前記有用度が所定値未満である評判情報における出現頻度の上位所定数に含まれ、且つ、前記有用度が所定値以上である評判情報における出現頻度の下位所定数に含まれる形態素の組とを有する分類モデルを生成するようにしてもよい。 From the same viewpoint, the reputation information processing system according to the present invention includes the generation unit included in a higher predetermined number of appearance frequencies in reputation information whose usefulness is a predetermined value or more among morphemes obtained by the morpheme analysis. And a set of morphemes included in a lower predetermined number of appearance frequencies in reputation information whose usefulness is less than a predetermined value, and included in an upper predetermined number of appearance frequencies in reputation information whose usefulness is less than a predetermined value. In addition, a classification model having a set of morphemes included in a lower predetermined number of appearance frequencies in reputation information whose usefulness is greater than or equal to a predetermined value may be generated.
この構成によれば、更に、形態素解析により得られる形態素は、有用度が所定値未満である評判情報における出現頻度が下位であれば、有用度の高い評判情報に含まれるべき形態素である可能性が高く、また、有用度が所定値以上である評判情報における出現頻度が下位であれば、有用度の低い評判情報に含まれるべき形態素である可能性が高いことを考慮して、適切な分類モデルを生成することができる。 According to this configuration, the morpheme obtained by morpheme analysis may be a morpheme that should be included in reputation information with high usefulness if the frequency of appearance in reputation information with a usefulness less than a predetermined value is low. Appropriate classification considering that it is highly likely that it is a morpheme that should be included in reputation information with low usefulness if the frequency of appearance is low in reputation information that is high and usefulness is greater than or equal to a predetermined value A model can be generated.
また、本発明の評判情報処理システムは、前記取得手段が、前記特定ユーザによる前記評判情報に対する有用度の設定に応じて、該評判情報の特定ユーザにとっての有用度を取得するようにしてもよい。 In the reputation information processing system of the present invention, the acquisition unit may acquire the usefulness of the reputation information for the specific user according to the setting of the usefulness for the reputation information by the specific user. .
この構成によれば、特定ユーザによってなされる設定に応じて評判情報の有用度が取得されるため、特定ユーザにとっての有用度により的確に対応する分類モデルの生成、更には、評判情報の分類が可能となる。 According to this configuration, since the usefulness of the reputation information is acquired according to the setting made by the specific user, the generation of the classification model more accurately corresponding to the usefulness for the specific user, and further, the classification of the reputation information can be performed. It becomes possible.
また、本発明の評判情報処理システムは、前記取得手段が、前記評判情報の一部について、前記特定ユーザにとっての有用度を取得するようにしてもよい。 In the reputation information processing system of the present invention, the acquisition unit may acquire the usefulness for the specific user for a part of the reputation information.
また、本発明の評判情報処理システムは、前記分類モデルに基づいて、与えられた評判情報を、前記特定ユーザにとっての有用度に応じた分類を行う分類手段を有するようにしてもよい。 In addition, the reputation information processing system of the present invention may have classification means for classifying given reputation information according to the usefulness for the specific user based on the classification model.
また、本発明の評判情報処理システムは、前記取得手段が、前記特定ユーザにとっての有用度が取得された評判情報の全ての評判情報の数が第1の所定値になるまで、前記評判情報の特定ユーザにとっての有用度の取得を継続するようにしてもよい。 Further, the reputation information processing system of the present invention is configured so that the acquisition means stores the reputation information until the number of all pieces of reputation information of the reputation information whose usefulness for the specific user is acquired reaches a first predetermined value. You may make it continue acquisition of the usefulness for a specific user.
この構成によれば、評判情報についての有用度の取得を、評判情報の分類に用いられる分類モデルが適切なものとなるための必要最小限に抑えることが可能となり、迅速な分類モデルの生成が可能になるとともに、処理負担や特定ユーザによる有用度の設定操作の負荷を軽減することができる。 According to this configuration, it is possible to minimize the acquisition of the usefulness of reputation information to the minimum necessary for the classification model used for reputation information classification to be appropriate, and to quickly generate a classification model. As well as being possible, it is possible to reduce the processing load and the load of the usefulness setting operation by a specific user.
同様の観点から、本発明の評判情報処理システムは、前記取得手段が、前記特定ユーザによる設定に応じて該特定ユーザにとっての有用度が取得された評判情報の数が第2の所定値になるまで、前記特定ユーザによる設定に応じた前記評判情報の特定ユーザにとっての有用度の取得を継続し、前記生成手段が、前記特定ユーザによる設定に応じて該特定ユーザにとっての有用度が取得された評判情報の数が第2の所定値になった場合に、前記取得した特定ユーザにとっての有用度に対応する評判情報の前記形態素解析によって得られる形態素からなる分類モデルを生成するようにしてもよい。 From the same point of view, in the reputation information processing system of the present invention, the number of pieces of reputation information whose usefulness for the specific user is acquired by the acquisition unit according to the setting by the specific user is a second predetermined value. Until then, acquisition of the usefulness for the specific user of the reputation information according to the setting by the specific user is continued, and the generation means acquires the usefulness for the specific user according to the setting by the specific user When the number of reputation information reaches the second predetermined value, a classification model composed of morphemes obtained by the morpheme analysis of reputation information corresponding to the acquired usefulness for a specific user may be generated. .
本発明に係る評判情報処理方法は、対象の評価を表す評判情報と、該評判情報の特定ユーザにとっての有用度を取得する取得ステップと、前記取得した評判情報に対して構文意味解析のうち少なくとも形態素解析を行う解析ステップと、前記取得した特定ユーザにとっての有用度に対応する評判情報の前記形態素解析によって得られる形態素からなる分類モデルを生成する生成ステップとを有することを特徴とする。 The reputation information processing method according to the present invention includes reputation information representing an evaluation of a target, an acquisition step of acquiring the usefulness of the reputation information for a specific user, and at least syntactic and semantic analysis of the acquired reputation information An analysis step for performing morpheme analysis and a generation step for generating a classification model composed of morphemes obtained by the morpheme analysis of reputation information corresponding to the acquired usefulness for a specific user are provided.
また、本発明の評判情報処理方法は、前記生成ステップが、前記形態素解析により得られる形態素のうち、前記有用度が所定値以上である評判情報における出現頻度の上位所定数に含まれる形態素の組と、前記有用度が所定値未満である評判情報における出現頻度の上位所定数に含まれる形態素の組とを有する分類モデルを生成するようにしてもよい。 Further, in the reputation information processing method of the present invention, the generation step includes a set of morphemes included in a higher predetermined number of appearance frequencies in reputation information whose usefulness is a predetermined value or more among morphemes obtained by the morpheme analysis. And a morpheme set included in the upper predetermined number of appearance frequencies in the reputation information whose usefulness is less than a predetermined value may be generated.
本発明に係る評判情報処理プログラムは、対象の評価を表す評判情報と、該評判情報の特定ユーザにとっての有用度を取得する取得ステップと、前記取得した評判情報に対して構文意味解析のうち少なくとも形態素解析を行う解析ステップと、前記取得した特定ユーザにとっての有用度に対応する評判情報の前記形態素解析によって得られる形態素からなる分類モデルを生成する生成ステップとを有することを特徴とする。 The reputation information processing program according to the present invention includes reputation information representing an evaluation of a target, an acquisition step of acquiring the usefulness of the reputation information for a specific user, and at least of syntactic and semantic analysis on the acquired reputation information An analysis step for performing morpheme analysis and a generation step for generating a classification model composed of morphemes obtained by the morpheme analysis of reputation information corresponding to the acquired usefulness for a specific user are provided.
また、本発明の評判情報処理プログラムは、前記生成ステップが、前記形態素解析により得られる形態素のうち、前記有用度が所定値以上である評判情報における出現頻度の上位所定数に含まれる形態素の組と、前記有用度が所定値未満である評判情報における出現頻度の上位所定数に含まれる形態素の組とを有する分類モデルを生成するようにしてもよい。 In the reputation information processing program of the present invention, the generation step includes a set of morphemes included in a higher predetermined number of appearance frequencies in reputation information whose usefulness is a predetermined value or more among morphemes obtained by the morpheme analysis. And a morpheme set included in the upper predetermined number of appearance frequencies in the reputation information whose usefulness is less than a predetermined value may be generated.
本発明によれば、評判情報についての特定ユーザにとっての有用度と、形態素解析により得られる形態素とに基づいて分類モデルが生成され、当該分類モデルに基づいて、大量の評判情報を、大量の評判情報を、特定ユーザにとっての有用度に応じて分類することが可能となり、特定ユーザにとって有用な評判情報を得ることが可能となる。 According to the present invention, a classification model is generated based on the usefulness of reputation information for a specific user and a morpheme obtained by morpheme analysis. Based on the classification model, a large amount of reputation information is converted into a large amount of reputation information. Information can be classified according to the degree of usefulness for a specific user, and reputation information useful for the specific user can be obtained.
本発明の実施の形態について、図面を参照して具体的に説明する。図1は、評判情報処理システムとしてのパーソナルコンピュータ(PC)のハードウェア構成を示す図である。図1に示す評判情報処理システムとしてのPC100は、内部バス107に接続されたCPU101、メモリ102、ハードディスクドライブ(HDD)103、操作部105、モニタ106及び通信ユニット108によって構成される。
Embodiments of the present invention will be specifically described with reference to the drawings. FIG. 1 is a diagram showing a hardware configuration of a personal computer (PC) as a reputation information processing system. A
図2は、評判情報処理システムとしてのPC100の機能ブロック図である。図2に示すPC100は、映画、書籍等の様々な対象の評価を表す評判情報を分類するものであって、取得手段に対応する有用度取得部10と、解析手段に対応する形態素解析部20と、生成手段に対応する分類モデル生成部30と、分類手段に対応する分類部40とにより構成される。これら各機能ブロックは、図1のハードウェア構成においては、CPU101が操作部105の操作に応じて、HDD103から読み出してメモリ102に記憶させた所定のプログラムを実行することによって実現される。
FIG. 2 is a functional block diagram of the PC 100 as a reputation information processing system. The PC 100 shown in FIG. 2 classifies reputation information representing evaluations of various objects such as movies and books, and includes a
有用度取得部10は、評判情報を入力し、その一部について、特定ユーザの操作指示に応じて、当該特定ユーザにとっての有用度に応じたタグ情報(有用度タグ情報)を付加する。
The
形態素解析部20は、有用度タグ情報が付加された評判情報の形態素解析を行う。分類モデル生成部30は、評判情報に付加された有用度タグ情報と、当該評判情報の形態素解析により得られる形態素とに基づいて、有用度の高い評判情報に含まれるべき形態素と、有用度の低い評判情報に含まれるべき形態素とを含む評判情報の分類モデルを生成する。分類部40は、この分類モデルに基づいて、評判情報を、特定ユーザにとって有用なものと、有用でないものとに分類する。
The
以下、フローチャートを参照しつつ、評判情報処理システムとしてのPC100の動作を説明する。図3は、評判情報処理システムとしてのPC100の動作を示すフローチャートである。
Hereinafter, the operation of the
有用度取得部10は、任意の検索エンジン等を利用し、通信ユニット108を介して、例えばインターネットの様々なサイトから分類対象となる評判情報を入力する(S101)。
The
次に、有用度取得部10は、評判情報の一部を無作為に抽出し、当該抽出した評判情報(第1評判情報)と、当該第1評判情報の有用度の設定を促す画面とを、モニタ106に表示する。特定ユーザは、操作部105を操作して、各第1評判情報について、自身にとっての有用性の程度を表す有用度を設定する。有用度取得部10は、この特定ユーザによって設定された有用度のタグ情報を、対応する第1評判情報に付加する(S102)。有用度タグ情報が付加された第1評判情報と、他の評判情報とは、形態素解析部20へ送られる。なお、抽出される第1評判情報の数や、有用度のとり得る値の範囲は、後述する分類モデル生成部30において用いられる学習モデルに依存したものとなる。
Next, the
図4は、学習モデルが一般的なテキスト分類に用いられるSVM(非特許文献 Joachims, T著、「Text Categorization with Support Vector Machines: Learning with Many Relevant Features.」、In Proceedings of the European Conference on Machine Learning, Springer、1998年を参照)である場合における、有用度の設定の一例を示す図である。 Figure 4 shows SVM (Non-Patent Document Joachims, T, “Text Categorization with Support Vector Machines: Learning with Many Relevant Features.”, In Proceedings of the European Conference on Machine Learning. , Springer, 1998)) is a diagram showing an example of setting the usefulness.
再び、図3に戻って説明する。形態素解析部20は、有用度タグ情報が付加された第1評判情報の形態素解析を行い、当該第1評判情報に含まれる形態素の情報を得る(S103)。形態素解析の例としては、非特許文献(松本裕治、北内啓、山下達雄、平野善隆、松田寛、高岡一馬、浅原正幸著、「形態素解析システム『茶筌』 version 2.2.1 使用説明書」、2000年)に詳細が記述されている茶筌等を挙げることができる。有用度タグ情報、第1評判情報の形態素解析の結果、及び、評判情報は、分類モデル生成部30へ送られる。
Again, referring back to FIG. The
図5は、形態素解析の結果である、形態素の情報の一例を示す図である。図5に示す形態素の情報は、形態素の表層文字列、形態素の読み、形態素の基本形、及び、形態素の品詞名からなる。 FIG. 5 is a diagram illustrating an example of morpheme information, which is a result of morpheme analysis. The morpheme information shown in FIG. 5 includes a morpheme surface character string, a morpheme reading, a morpheme basic form, and a morpheme part-of-speech name.
再び、図3に戻って説明する。分類モデル生成部30は、有用度タグ情報と、当該有用度タグ情報が付加された第1評判情報の形態素解析の結果である、形態素の情報を取得すると、これらに基づいて、評判情報の分類に用いられる分類モデルを生成する(S104)。
Again, referring back to FIG. When the classification
図6は、分類モデル生成部30の動作を示すフローチャートである。なお、分類モデル生成部30において用いられる学習モデルは、SVMであるものとする。
FIG. 6 is a flowchart showing the operation of the classification
分類モデル生成部30は、形態素解析により得られる形態素について、有用度タグ情報で表される有用度が所定値以上である第1評判情報における形態素の出現頻度と、有用度が所定値未満である第1評判情報における出現頻度とを取得する(S201)。
For the morphemes obtained by morpheme analysis, the classification
次に、分類モデル生成部30は、形態素解析により得られる形態素のうち、有用度タグ情報で表される有用度が所定値以上である第1評判情報における出現頻度の上位所定数に含まれ、且つ、有用度が所定値未満である第1評判情報における出現頻度の下位所定数に含まれる形態素を、有用性形態素として抽出する(S202)。
Next, the classification
更に、分類モデル生成部30は、形態素解析により得られる形態素のうち、有用度タグ情報で表される有用度が所定値未満である第1評判情報における出現頻度の上位所定数に含まれ、且つ、有用度が所定値以上である第1評判情報における出現頻度の下位所定数に含まれる形態素を、非有用性形態素として抽出する(S203)。
Furthermore, the classification
分類モデル生成部30は、これら有用性形態素と非有用性形態素とを素性として含む分類モデルを生成する。上述した分類モデルの生成手法は、スクリーニング手法と称される。生成された分類モデルは、評判情報とともに、分類部40へ送られる。なお、分類モデル生成部30は、全ての形態素を、品詞の種類によらずに、分類モデルに含まれ得る対象としたが、名詞の形態素については除外してもよい。また、分類モデル生成部30は、形態素の係り受け等の構文パターンも素性として、分類モデルに含ませるようにしてもよい。構文パターンを素性とする場合、構文意味解析手段として非特許文献(増市、大熊著、「Lexical Functional Grammarに基づく実用的な日本語解析システムの構築」、自然言語処理 Vol.10 No.2、p.79−109、2003年)に詳細が記述されているLFG等を用いてもよい。
The classification
再び、図3に戻って説明する。分類部40は、分類モデルに基づいて、PC100に与えられた評判情報のうち、第1評判情報以外の評判情報(第2評判情報)を有用なものと有用でないものとに分類する(S105)。具体的には、分類部40は、評判情報のうち、分類モデル内の素性である有用性形態素を含むものを、有用なものとし、非有用性形態素を含むものを、有用でないものとする。なお、分類対象となる評判情報は、PC100に与えられた全ての評判情報であってもよい。
Again, referring back to FIG. Based on the classification model, the
また、分類部40は、1つの第2評判情報に有用性形態素と非有用性形態素の双方が含まれる場合には、予め定められた分類手法、例えば、有用性形態素の数の方が多い場合には有用なものとし、非有用性形態素の数の方が多い場合には有用でないものとしてもよい。また、分類部40は、第2評判情報に有用性形態素と非有用性形態素のいずれも含まれない場合には、予め定められた分類手法により、有用なものとしてもよく、有用でないものとしてもよく、更には、有用なもの及び有用でないもののいずれでもないものとしてもよい。
In addition, the
以下、本発明の発明者による実験結果を説明する。本実験では、上述したスクリーニング手法を適用して生成した分類モデル(sPN)と、スクリーニング手法を適用せずに生成した分類モデル(uPN)とが用意された。更には、スクリーニング手法を適用して生成した分類モデルとして、個々の話題の影響を受けやすい品詞であると考えられる、名詞の形態素を含めたもの(sPN_all)と、含めないもの(sPN_n)とが用意され、スクリーニング手法を適用せずに生成した分類モデルとして、名詞の形態素を含めたもの(uPN_all)と、含めないもの(uPN_n)とが用意され、それぞれ評判情報の分類に利用された。 Hereinafter, experimental results by the inventors of the present invention will be described. In this experiment, a classification model (sPN) generated by applying the screening method described above and a classification model (uPN) generated without applying the screening method were prepared. Furthermore, classification models generated by applying screening methods include those that include parts of noun morphemes (sPN_all) and those that do not (sPN_n), which are considered to be part-of-speech that are easily affected by individual topics. The classification models that were prepared and generated without applying the screening method were prepared to include noun morphemes (uPN_all) and not included (uPN_n), and each was used to classify reputation information.
また、本実験では、ある商品について記述された3852個のレビュー文を分類対象の評判情報として用いた。これらのうち、1034個のレビュー文は、特定ユーザによって予め、その商品の購入を検討する際に意思決定に寄与するレビュー文、すなわち、有用な評判情報(正例)であると判断されたものであり、他の2818個のレビュー文は、特定ユーザによって、予め有用でない評判情報(負例)であると判断されたものである。 In this experiment, 3852 review sentences describing a certain product were used as reputation information for classification. Of these, 1034 review sentences have been determined in advance by a specific user as review sentences that contribute to decision making when considering the purchase of the product, that is, useful reputation information (positive examples). The other 2818 review sentences have been determined by the specific user to be reputation information (negative examples) that are not useful in advance.
分類モデルを用いた評判情報の分類精度を表す指標としては、Accuracy、Precision、Baselineを用いた。Accuracyは、図7(a)に示すように、分類モデルを用いたシステムによる分類と人手による分類とが一致した評判情報の数を、全ての評判情報で除した値であり、大きいほど分類モデルを用いた評判情報の分類が適切であることを示す。また、Precisionは、図7(b)に示すように、人手により有用であると分類された評判情報の数を、分類モデルを用いたシステムにより有用であると分類された評判情報の数で除した値であり、1に近いほど分類モデルを用いた評判情報の分類が適切であることを示す。また、Baselineは、人手により有用であると分類された評判情報の数を全ての評判情報で除した値であり、全ての評判情報から無作為で抽出した評判情報が、人手により有用であると分類されるものである確率を示す。 Accuracy, Precision, and Baseline were used as indices representing the accuracy of reputation information classification using a classification model. As shown in FIG. 7 (a), Accuracy is a value obtained by dividing the number of reputation information in which the classification by the system using the classification model and the classification by hand are divided by all the reputation information. Indicates that the reputation information classification using is appropriate. As shown in FIG. 7 (b), Precision divides the number of reputation information classified as useful by humans by the number of reputation information classified as useful by a system using a classification model. The closer to 1, the more appropriate the reputation information classification using the classification model. Baseline is the value obtained by dividing the number of reputation information classified as useful by human resources by all the reputation information, and the reputation information randomly extracted from all reputation information is more useful by human resources. Indicates the probability of being classified.
図8は、実験結果を表す図であり、図8(a)は、分類モデルに含まれる有用性形態素及び非有用性形態素の数と、その分類モデルを用いたシステムによる分類を行った場合におけるAccuracyを示し、図8(b)は、分類モデルに含まれる有用性形態素及び非有用性形態素の数と、その分類モデルを用いたシステムによる分類を行った場合におけるPrecisionを示す。 FIG. 8 is a diagram showing experimental results. FIG. 8A shows the number of useful morphemes and non-useful morphemes included in the classification model, and when classification is performed by the system using the classification model. FIG. 8B shows the number of useful morphemes and non-useful morphemes included in the classification model, and Precision when classification is performed by the system using the classification model.
図8(a)では、スクリーニング手法を適用して生成された分類モデル(sPN_all)に対応するAccuracy201、及び、分類モデル(sPN_n)に対応するAccuracy202は、スクリーニング手法を適用せずに生成した分類モデル(uPN_all)に対応するAccuracy203、及び、分類モデル(uPN_n)に対応するAccuracy204によりも値が大きく、スクリーニング手法を適用して生成された分類モデルの方が、分類精度が高いことを示している。
In FIG. 8A, the
また、図8(b)では、スクリーニング手法を適用して生成された分類モデル(sPN_all)に対応するPrecision211、及び、分類モデル(sPN_n)に対応するPrecision212と、スクリーニング手法を適用せずに生成した分類モデル(uPN_all)に対応するPrecision213、及び、分類モデル(uPN_n)に対応するPrecision214は、いずれもBaselineよりも大きい値であり、これら分類モデルを用いた分類が無作為抽出よりも有効であることを示している。また、スクリーニング手法を適用して生成された分類モデル(sPN_all)に対応するPrecision211、及び、分類モデル(sPN_n)に対応するPrecision212は、スクリーニング手法を適用せずに生成した分類モデル(uPN_all)に対応するPrecision213、及び、分類モデル(uPN_n)に対応するPrecision214よりも値が大きく、スクリーニング手法を適用して生成された分類モデルの方が、分類精度が高いことを示している。
Further, in FIG. 8B, the
このように、本実施形態の評判情報処理システムとしてのPC100は、与えられた評判情報の一部である第1評判情報について、特定ユーザにとっての有用度を取得するとともに、当該第1評判情報の形態素解析を行い、これら特定ユーザにとっての有用度と、形態素解析により得られる形態素とに基づいて、有用度の高い評判情報に含まれるべき形態素と、有用度の低い評判情報に含まれるべき形態素とを含む評判情報の分類モデルを生成し、この分類モデルに基づいて、第2評判情報を、特定ユーザにとって有用なものと、有用でないものとに分類する。
As described above, the
これにより、分類モデルは、有用度の高い評判情報に含まれるべき形態素と、有用度の低い評判情報に含まれるべき形態素とを含むため、当該分類モデルに基づいて、大量の評判情報を、特定ユーザにとって有用なものと、有用でないものとに分類することができる。 Thus, since the classification model includes morphemes that should be included in reputation information with high usefulness and morphemes that should be included in reputation information with low usefulness, a large amount of reputation information is identified based on the classification model. It can be classified into those that are useful to the user and those that are not useful.
なお、上述した実施形態においては、特定ユーザの設定に応じた有用度タグ情報が順次評判情報に付加され、その有用度タグ情報が吹かされた評判情報の数が所定値になった場合に、分類モデルを生成するようにしてもよい。 In the above-described embodiment, when the usefulness tag information according to the setting of the specific user is sequentially added to the reputation information, and the number of reputation information that the usefulness tag information is blown becomes a predetermined value, A classification model may be generated.
図9は、評判情報に有用度が順次付加される場合における評判情報処理システムとしてのPC100の動作を示すフローチャートである。
FIG. 9 is a flowchart showing the operation of the
分類モデル生成部30は、人手により、すなわち、特定ユーザの設定に応じた有用度タグ情報が付加された第1評判情報の数が、SVMの機械学習が可能な数以上であるか否かを判定する(S301)。
The classification
特定ユーザの設定に応じた有用度タグ情報が付加された第1評判情報の数が、SVMの機械学習が可能な数である場合、分類モデル生成部30は、第1評判情報に付加された有用度タグ情報と、当該第1評判情報の形態素解析の結果である、形態素の情報とに基づいて、分類モデルを生成する(S302)。具体的な動作は、図4に示す動作と同様である。
When the number of the first reputation information to which the usefulness tag information according to the setting of the specific user is added is a number capable of machine learning of SVM, the classification
次に、分類モデル生成部30は、人手により有用度タグ情報が付加された第1評判情報の全体の評判情報に占める割合が、予め定められた値であるn以下であるか否かを判定する(S303)。
Next, the classification
人手により有用度タグ情報が付加された評判情報の割合がnより大きい場合には、十分な数の第1評判情報に応じて分類モデルが生成されたものとみなして、一連の動作が終了する。一方、人手により有用度タグ情報が付加された評判情報の割合がn以下の場合には、分類部40は、分類モデルに基づいて第1評判情報以外の評判情報から有用なものを抽出する(S304)。具体的な動作は、図3のS105における動作と同様である。
When the ratio of reputation information to which usefulness tag information is manually added is greater than n, it is considered that a classification model has been generated according to a sufficient number of first reputation information, and the series of operations ends. . On the other hand, when the ratio of reputation information to which usefulness tag information is manually added is n or less, the
次に、分類部30は、有用度タグ情報の付加の対象として有用なものとして抽出した評判情報を、モニタ106に表示し、特定ユーザに対して有用度の設定を促す(S305)。
Next, the
特定ユーザは、操作部105を操作して、表示された評判情報について、自身にとっての有用度を設定する。有用度取得部10は、この特定ユーザによって設定された有用度を表す有用度タグ情報を、対応する評判情報に付加する(S306)。更に、有用度取得部10は、新たに有用度タグ情報が付加された評判情報の数が予め定められた値であるm以上であるか否かを判定する(S307)。
The specific user operates the
新たに有用度タグ情報が付加された第2評判情報の数がm以上である場合には、その評判情報が新たな第1評判情報として、形態素解析部20によって形態素解析が行われ、分類モデル生成部30による分類モデルの生成(S302)以降の動作が繰り返される。また、新たに有用度タグ情報が付加された評判情報の数がm未満である場合には、分類部40による第2評判情報からの有用なものの抽出(S304)以降の動作が繰り返される。
When the number of the second reputation information to which the usefulness tag information is newly added is m or more, the morpheme analysis is performed by the
また、S301において、人手により有用度タグ情報が付加された第1評判情報の数が、SVMの機械学習が可能な数未満である場合には、有用度取得部10、分類モデル生成部30、あるいは、分類部40は、人手によって有用度タグ情報が付加されていない評判情報から任意のものを抽出する(S308)。その後は、分類部30による、有用度タグ情報の付加の対象として抽出した評判情報の表示(S305)以降の動作が繰り返される。
In S301, when the number of first reputation information to which the usefulness tag information is manually added is less than the number capable of SVM machine learning, the
このように、特定ユーザの設定に応じて順次有用度タグ情報が付加される評判情報の数が所定値になった場合に、当該有用度タグ情報を利用しながら分類モデルを生成することによって、第1評判情報についての有用度の取得を、評判情報の分類に用いられる分類モデルが適切なものとなるための必要最小限に抑えることが可能となり、迅速な分類モデルの生成が可能になるとともに、処理負担や特定ユーザによる有用度の設定操作の負荷を軽減することができる。 Thus, when the number of reputation information to which usefulness tag information is sequentially added according to the setting of a specific user reaches a predetermined value, by generating a classification model while using the usefulness tag information, It is possible to minimize the acquisition of usefulness for the first reputation information to the minimum necessary for the classification model used for classification of reputation information to be appropriate, and to quickly generate a classification model. In addition, it is possible to reduce the processing burden and the load of the usefulness setting operation by a specific user.
また、特定ユーザは、単独ではなく複数であってもよい。図11は、特定ユーザが複数存在する場合における、有用度の設定の一例を示す図である。このように、複数の特定ユーザにとっての有用度が設定される場合には、各特定ユーザの有用度の設定にばらつきがあるものの、当該有用度に応じて生成される分類モデルに基づいて、大量の評判情報を、複数の特定ユーザを代表する仮想的な特定ユーザにとって有用なものと、有用でないものとに分類することができる。なお、発明者の実験によれば、複数の特定ユーザに対応した分類モデルを用いた分類は、無作為抽出よりも有効であることが確かめられた。 Further, the specific user may be plural instead of single. FIG. 11 is a diagram illustrating an example of setting usefulness when there are a plurality of specific users. As described above, when the usefulness for a plurality of specific users is set, although there are variations in the setting of the usefulness of each specific user, a large amount based on the classification model generated according to the usefulness Can be classified into those useful for virtual specific users representing a plurality of specific users and those not useful. According to the inventors' experiment, it was confirmed that classification using a classification model corresponding to a plurality of specific users is more effective than random sampling.
また、上述した実施形態では、単体のPC100によって評判情報処理システムが構成されたが、1のPC内に有用度取得部10、形態素解析部20及び分類モデル生成部30が構成されて分類モデルの生成が行われ、当該1のPCと通信ネットワークによって接続された他のPCに分類部40が構成されて1のPCによって生成された分類モデルを用いた評判情報の分類が行われるようにしてもよい。
In the above-described embodiment, the reputation information processing system is configured by a
以上、説明したように、本発明に係る評判情報処理システム、評判情報処理方法及び評判情報処理プログラムは、特定ユーザにとって有用な評判情報を得ることが可能であり、評判情報処理システム等として有用である。 As described above, the reputation information processing system, the reputation information processing method, and the reputation information processing program according to the present invention can obtain reputation information useful for a specific user, and are useful as a reputation information processing system and the like. is there.
10 有用度取得部
20 形態素解析部
30 分類モデル生成部
40 分類部
100 PC
102 メモリ
103 HDD
105 操作部
106 モニタ
107 内部バス
10
102
105
Claims (13)
前記取得した評判情報に対して構文意味解析のうち少なくとも形態素解析を行う解析手段と、
前記取得した特定ユーザにとっての有用度に対応する評判情報の前記形態素解析によって得られる形態素からなる分類モデルを生成する生成手段とを有することを特徴とする評判情報処理システム。 Reputation information representing the evaluation of the object, and acquisition means for acquiring the usefulness of the reputation information for a specific user;
Analysis means for performing at least morpheme analysis among the syntactic and semantic analysis on the acquired reputation information;
A reputation information processing system comprising: generating means for generating a classification model composed of morphemes obtained by the morpheme analysis of reputation information corresponding to the acquired usefulness for a specific user.
前記生成手段は、前記特定ユーザによる設定に応じて該特定ユーザにとっての有用度が取得された評判情報の数が第2の所定値になった場合に、前記取得した特定ユーザにとっての有用度に対応する評判情報の前記形態素解析によって得られる形態素からなる分類モデルを生成することを特徴とする請求項8に記載の評判情報処理システム。 The acquisition unit is configured to update the reputation information according to the setting by the specific user until the number of reputation information whose usefulness for the specific user is acquired according to the setting by the specific user reaches a second predetermined value. Continue to acquire usefulness for specific users,
The generation means sets the usefulness for the acquired specific user when the number of reputation information acquired for the specific user according to the setting by the specific user reaches a second predetermined value. The reputation information processing system according to claim 8, wherein a classification model composed of morphemes obtained by the morphological analysis of corresponding reputation information is generated.
前記取得した評判情報に対して構文意味解析のうち少なくとも形態素解析を行う解析ステップと、
前記取得した特定ユーザにとっての有用度に対応する評判情報の前記形態素解析によって得られる形態素からなる分類モデルを生成する生成ステップとを有することを特徴とする評判情報処理システムにおける処理方法。 Reputation information representing the evaluation of the object, and an acquisition step of obtaining the usefulness of the reputation information for a specific user;
An analysis step of performing at least a morphological analysis of the syntactic and semantic analysis on the acquired reputation information;
And a generation step of generating a classification model composed of morphemes obtained by the morpheme analysis of the reputation information corresponding to the acquired usefulness for a specific user.
前記取得した評判情報に対して構文意味解析のうち少なくとも形態素解析を行う解析ステップと、
前記取得した特定ユーザにとっての有用度に対応する評判情報の前記形態素解析によって得られる形態素からなる分類モデルを生成する生成ステップとを有することを特徴とする評判情報処理システムにおいて実行されるプログラム。 Reputation information representing the evaluation of the object, and an acquisition step of obtaining the usefulness of the reputation information for a specific user;
An analysis step of performing at least a morphological analysis of the syntactic and semantic analysis on the acquired reputation information;
And a generation step of generating a classification model composed of morphemes obtained by the morpheme analysis of reputation information corresponding to the obtained usefulness for a specific user.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006124483A JP2007299071A (en) | 2006-04-27 | 2006-04-27 | Reputation information processing system, reputation information processing method, and reputation information processing program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006124483A JP2007299071A (en) | 2006-04-27 | 2006-04-27 | Reputation information processing system, reputation information processing method, and reputation information processing program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007299071A true JP2007299071A (en) | 2007-11-15 |
Family
ID=38768530
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006124483A Pending JP2007299071A (en) | 2006-04-27 | 2006-04-27 | Reputation information processing system, reputation information processing method, and reputation information processing program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007299071A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012141837A (en) * | 2011-01-04 | 2012-07-26 | Sony Corp | Information processor, information processing method and program |
US9740681B2 (en) | 2012-04-25 | 2017-08-22 | International Business Machines Corporation | Method for classifying pieces of text on basis of evaluation polarity, computer program product, and computer |
-
2006
- 2006-04-27 JP JP2006124483A patent/JP2007299071A/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012141837A (en) * | 2011-01-04 | 2012-07-26 | Sony Corp | Information processor, information processing method and program |
US9740681B2 (en) | 2012-04-25 | 2017-08-22 | International Business Machines Corporation | Method for classifying pieces of text on basis of evaluation polarity, computer program product, and computer |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2571373C2 (en) | Method of analysing text data tonality | |
JP6676110B2 (en) | Utterance sentence generation apparatus, method and program | |
JP2003248676A (en) | Solution data compiling device and method, and automatic summarizing device and method | |
JP5620349B2 (en) | Dialogue device, dialogue method and dialogue program | |
JP2009146041A (en) | Communication support method, system, and server device | |
JP2008287406A (en) | Information processor, information processing method, program, and recording medium | |
CN108153831A (en) | Music adding method and device | |
JP2006004399A (en) | Information extraction program, its recording medium, information extraction device and information extraction rule creation method | |
WO2022134779A1 (en) | Method, apparatus and device for extracting character action related data, and storage medium | |
JP2019121139A (en) | Summarizing device, summarizing method, and summarizing program | |
Ju et al. | Scisummpip: An unsupervised scientific paper summarization pipeline | |
Rizki et al. | Word formation process in novel alice’s adventures in wonderland by Lewis Carroll and movie alice in wonderland by Walt Disney | |
Akita | A typology of depiction marking: The prosody of Japanese ideophones and beyond | |
JP2010067005A (en) | Retrieval device, and method of controlling the same | |
CN113886568A (en) | Text abstract generation method and device | |
Margan et al. | LaNCoA: a python toolkit for language networks construction and analysis | |
JP2007299071A (en) | Reputation information processing system, reputation information processing method, and reputation information processing program | |
Keh et al. | Pancetta: Phoneme aware neural completion to elicit tongue twisters automatically | |
Hosseini et al. | Resolving Indirect Referring Expressions for Entity Selection | |
JP6709678B2 (en) | Reading support device and program | |
Jorge-Botana et al. | The representation of polysemy through vectors: some building blocks for constructing models and applications with LSA | |
Marian | Orthographic and phonological neighborhood databases across multiple languages | |
JP6996190B2 (en) | Compound word generator, program and compound word generation method | |
Ghosh et al. | MTTN: Multi-Pair Text to Text Narratives for Prompt Generation | |
JP3734101B2 (en) | Hypermedia construction support device |