JP2007299071A - Reputation information processing system, reputation information processing method, and reputation information processing program - Google Patents

Reputation information processing system, reputation information processing method, and reputation information processing program Download PDF

Info

Publication number
JP2007299071A
JP2007299071A JP2006124483A JP2006124483A JP2007299071A JP 2007299071 A JP2007299071 A JP 2007299071A JP 2006124483 A JP2006124483 A JP 2006124483A JP 2006124483 A JP2006124483 A JP 2006124483A JP 2007299071 A JP2007299071 A JP 2007299071A
Authority
JP
Japan
Prior art keywords
reputation information
usefulness
specific user
classification model
morphemes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006124483A
Other languages
Japanese (ja)
Inventor
Miyuki Yamazawa
美由起 山澤
Hiroshi Masuichi
博 増市
Hiroki Yoshimura
宏樹 吉村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2006124483A priority Critical patent/JP2007299071A/en
Publication of JP2007299071A publication Critical patent/JP2007299071A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a reputation information processing system, a reputation information processing method, and a reputation information processing program by which reputation information useful for a specific user can be acquired. <P>SOLUTION: A PC 100 as a reputation information processing system comprises a usefulness acquisition part 10 for acquiring reputation information showing the evaluation of an object and usefulness of the reputation information for a specific user, a morphological analysis part 20 for executing the morphological analysis of the reputation information, a classification model generation part 30 for generating a classification model consisting of morphemes obtained by the morphological analysis of the reputation information corresponding to the usefulness for the specific user, and a classification part 40 for classifying the reputation information based on the classification model according to the usefulness for the specific user. <P>COPYRIGHT: (C)2008,JPO&INPIT

Description

本発明は、映画、書籍等の様々な対象の評価を表す評判情報を分類するための処理を行う評判情報処理システム、当該評判情報処理システムにおける処理方法、及び、当該評判情報処理システムにおいて実行されるプログラムに関する。   The present invention is executed in a reputation information processing system that performs processing for classifying reputation information representing evaluations of various objects such as movies and books, a processing method in the reputation information processing system, and the reputation information processing system. Related to the program.

映画、書籍等の様々な対象についての感想や意見等の主観的な評価である評判情報を、評価の対象や評価の内容(肯定的な評価や否定的な評価)に応じて分類する手法が知られている(例えば特許文献1参照)。   There is a technique to classify reputation information, which is a subjective evaluation of opinions and opinions about various objects such as movies and books, according to the evaluation object and the content of the evaluation (positive evaluation or negative evaluation). It is known (see, for example, Patent Document 1).

評判情報の分類は、一般に予め形容詞、形容動詞、機能語等である肯定表現や否定表現である単語(形態素)と、その評価の度合いを表す評価値とを定義した辞書を保持しておき、文単位あるいは文書単位で評価値の合計を算出することにより実現される。例えば、「面白い」は「2」、「好き」は「1」、「悪い」は「−1」と定義された辞書が保持され、評判情報が「あの作品キャストは悪いけど、ストーリーは面白いから好き。」という文である場合、当該評判情報の評価値は−1+2+1=2となり、正の数値であるため、肯定の評判情報であると判断される。評価値の算出に際しては、形態素情報に加えて構文情報が用いられる場合もある(例えば非特許文献1参照)。
特許第2402599号公報 Matsumoto S、Takamura H、Okumura M著、「Sentiment Classification using Word Sub-Sequences and Dependency Sub-Trees.」、In Proceedings of the 9th Pacific-Asia Conference on Knowledge Discovery and Data Mining (PAKDD-05)、p。301−310、2005年
Reputation information classification generally holds in advance a dictionary that defines adjectives, adjective verbs, words that are positive or negative expressions (morphemes) such as function words, and evaluation values that represent the degree of evaluation, This is realized by calculating the total evaluation value in sentence units or document units. For example, a dictionary defined as “2” for “interesting”, “1” for “like” and “−1” for “bad” is retained, and reputation information is “that work cast is bad, but the story is interesting” In the case of a sentence “I like”, the evaluation value of the reputation information is −1 + 2 + 1 = 2 and is a positive numerical value, and therefore, it is determined that the reputation information is affirmative. In calculating the evaluation value, syntax information may be used in addition to morpheme information (see, for example, Non-Patent Document 1).
Japanese Patent No. 2402599 Matsumoto S, Takamura H, Okumura M, “Sentiment Classification using Word Sub-Sequences and Dependency Sub-Trees.”, In Proceedings of the 9th Pacific-Asia Conference on Knowledge Discovery and Data Mining (PAKDD-05), p. 301-310, 2005

しかしながら、上述した従来の手法は、評判情報の全体的な傾向の把握に主眼が置かれ、個々の評判情報の利用に際して十分な分類がなされているとは言い難い。特に、あるユーザが個々の評判情報を利用する場合、その評判情報が当該ユーザにとって有用な内容であるかが不明である場合がある。   However, the above-described conventional method focuses on grasping the overall tendency of reputation information, and it is difficult to say that sufficient classification is made when using each piece of reputation information. In particular, when a certain user uses individual reputation information, it may be unclear whether the reputation information is useful for the user.

例えば、上述した従来の手法では、「面白い。」という評判情報と、「冷静に考えるとバカバカしいストーリーなのですが、白木瞳の浮世離れしたセレブぶりがサマになっているのと、岡本准一、松木潤の二人がイケメンで画面を支えているのとで、不思議と面白い映画になっています。」という評判情報とは、いずれも「面白い」という肯定表現の形態素を含むものであるために、肯定の評判情報として扱われる。   For example, in the conventional method described above, the reputation information is “interesting” and “It ’s a stupid story when you think calmly, but Hitomi Shiraki ’s celebs are crazy, Junichi Okamoto, Because both Matsuki Jun's screens are handsome and supportive, it has become a mysterious and interesting movie. ”Both of the reputation information include positive expression morpheme that is“ interesting ”. Treated as reputation information.

しかし、あるユーザが評判情報を、例えば映画の鑑賞に際しての参考として利用する場合、「面白い。」という評判情報は、当該評判情報の書き手にとって面白いものがユーザにとって面白いものであるかが不明であり、利用しづらい。このような場合、ユーザは、書き手の性質や趣向を熟知していれば、評判情報の書き手にとって面白いものが自分にとって面白いものであるかをある程度判断することができるが、インターネット等からの評判情報を利用する場合には、評判情報は大量の不特定多数の書き手により作成されるため、このような判断も困難である。   However, when a user uses reputation information as a reference when watching a movie, for example, it is unclear whether the reputation information “interesting” is interesting for the user who wrote the reputation information. It is difficult to use. In such a case, if the user is familiar with the nature and preferences of the writer, the user can determine to a certain extent whether something interesting for the writer of reputation information is interesting for himself, but reputation information from the Internet etc. When using, reputation information is created by a large number of unspecified number of writers, so such a determination is difficult.

本発明の目的は、上述した問題を解決するものであり、特定ユーザにとって有用な評判情報を得ることが可能な評判情報処理システム、評判情報処理方法及び評判情報処理プログラムを提供するものである。   An object of the present invention is to solve the above-described problems, and provide a reputation information processing system, a reputation information processing method, and a reputation information processing program that can obtain reputation information useful for a specific user.

本発明に係る評判情報処理システムは、対象の評価を表す評判情報と、該評判情報の特定ユーザにとっての有用度を取得する取得手段と、前記取得した評判情報に対して構文意味解析のうち少なくとも形態素解析を行う解析手段と、前記取得した特定ユーザにとっての有用度に対応する評判情報の前記形態素解析によって得られる形態素からなる分類モデルを生成する生成手段とを有することを特徴とする。   The reputation information processing system according to the present invention includes reputation information representing an evaluation of an object, acquisition means for acquiring the usefulness of the reputation information for a specific user, and syntactic / semantic analysis of the acquired reputation information. It comprises analysis means for performing morpheme analysis, and generation means for generating a classification model composed of morphemes obtained by the morpheme analysis of reputation information corresponding to the acquired usefulness for a specific user.

この構成によれば、評判情報と、当該評判情報の特定ユーザにとっての有用度を取得するとともに、当該評判情報について形態素解析を行い、これら特定ユーザにとっての有用度と、形態素解析により得られる形態素とに基づいて、分類モデルが生成される。この分類モデルは、特定ユーザにとっての有用度に対応する評判情報の形態素解析によって得られる形態素を含んでいるため、当該分類モデルを用いることによって、大量の評判情報を、特定ユーザにとっての有用度に応じて分類することが可能となる。ここで、有用度とは、評判情報の特定ユーザにとっての有用性の程度を表す、例えば数値である。   According to this configuration, the reputation information and the usefulness of the reputation information for the specific user are acquired, and the morphological analysis is performed on the reputation information. The usefulness for the specific user and the morpheme obtained by the morphological analysis Based on the above, a classification model is generated. Since this classification model includes morphemes obtained by morphological analysis of reputation information corresponding to the usefulness for a specific user, a large amount of reputation information can be converted into usefulness for a specific user by using the classification model. It becomes possible to classify accordingly. Here, the usefulness is, for example, a numerical value representing the degree of usefulness of reputation information for a specific user.

また、本発明の評判情報処理システムは、前記評判情報が文単位の情報であり、各文に対して前記有用度を付与されるものであるようにしてもよい。   In the reputation information processing system according to the present invention, the reputation information may be sentence-by-sentence information, and the usefulness may be given to each sentence.

また、本発明の評判情報処理システムは、前記生成手段が、前記形態素解析により得られる形態素のうち、前記有用度が所定値以上である評判情報における出現頻度の上位所定数に含まれる形態素の組と、前記有用度が所定値未満である評判情報における出現頻度の上位所定数に含まれる形態素の組とを有する分類モデルを生成するようにしてもよい。   In the reputation information processing system of the present invention, the generation means includes a set of morphemes included in a higher predetermined number of appearance frequencies in reputation information whose usefulness is a predetermined value or more among morphemes obtained by the morpheme analysis. And a morpheme set included in the upper predetermined number of appearance frequencies in the reputation information whose usefulness is less than a predetermined value may be generated.

形態素解析により得られる形態素は、有用度が所定値以上である評判情報における出現頻度が上位であれば、有用度の高い評判情報に含まれるべき形態素である可能性が高く、また、有用度が所定値未満である評判情報における出現頻度が上位であれば、有用度の低い評判情報に含まれるべき形態素である可能性が高い。従って、有用度が所定値以上である評判情報における出現頻度が上位である形態素からなる組と、有用度が所定値未満である評判情報における出現頻度が上位である形態素からなる組とを有する分類モデルを生成することによって、評判情報における形態素の出現頻度の観点から適切な分類モデルを生成することができる。   A morpheme obtained by morpheme analysis is highly likely to be a morpheme that should be included in reputation information with a high degree of usefulness if the frequency of appearance in reputation information with a usefulness equal to or greater than a predetermined value is high. If the appearance frequency in reputation information that is less than a predetermined value is high, it is highly likely that the morpheme should be included in reputation information with low usefulness. Therefore, a classification having a set of morphemes with higher appearance frequency in reputation information having usefulness equal to or higher than a predetermined value and a set of morphemes with higher appearance frequency in reputation information having usefulness less than a predetermined value. By generating a model, an appropriate classification model can be generated from the viewpoint of the appearance frequency of morphemes in reputation information.

同様の観点から、本発明の評判情報処理システムは、前記生成手段が、前記形態素解析により得られる形態素のうち、前記有用度が所定値以上である評判情報における出現頻度の上位所定数に含まれ、且つ、前記有用度が所定値未満である評判情報における出現頻度の下位所定数に含まれる形態素の組と、前記有用度が所定値未満である評判情報における出現頻度の上位所定数に含まれ、且つ、前記有用度が所定値以上である評判情報における出現頻度の下位所定数に含まれる形態素の組とを有する分類モデルを生成するようにしてもよい。   From the same viewpoint, the reputation information processing system according to the present invention includes the generation unit included in a higher predetermined number of appearance frequencies in reputation information whose usefulness is a predetermined value or more among morphemes obtained by the morpheme analysis. And a set of morphemes included in a lower predetermined number of appearance frequencies in reputation information whose usefulness is less than a predetermined value, and included in an upper predetermined number of appearance frequencies in reputation information whose usefulness is less than a predetermined value. In addition, a classification model having a set of morphemes included in a lower predetermined number of appearance frequencies in reputation information whose usefulness is greater than or equal to a predetermined value may be generated.

この構成によれば、更に、形態素解析により得られる形態素は、有用度が所定値未満である評判情報における出現頻度が下位であれば、有用度の高い評判情報に含まれるべき形態素である可能性が高く、また、有用度が所定値以上である評判情報における出現頻度が下位であれば、有用度の低い評判情報に含まれるべき形態素である可能性が高いことを考慮して、適切な分類モデルを生成することができる。   According to this configuration, the morpheme obtained by morpheme analysis may be a morpheme that should be included in reputation information with high usefulness if the frequency of appearance in reputation information with a usefulness less than a predetermined value is low. Appropriate classification considering that it is highly likely that it is a morpheme that should be included in reputation information with low usefulness if the frequency of appearance is low in reputation information that is high and usefulness is greater than or equal to a predetermined value A model can be generated.

また、本発明の評判情報処理システムは、前記取得手段が、前記特定ユーザによる前記評判情報に対する有用度の設定に応じて、該評判情報の特定ユーザにとっての有用度を取得するようにしてもよい。   In the reputation information processing system of the present invention, the acquisition unit may acquire the usefulness of the reputation information for the specific user according to the setting of the usefulness for the reputation information by the specific user. .

この構成によれば、特定ユーザによってなされる設定に応じて評判情報の有用度が取得されるため、特定ユーザにとっての有用度により的確に対応する分類モデルの生成、更には、評判情報の分類が可能となる。   According to this configuration, since the usefulness of the reputation information is acquired according to the setting made by the specific user, the generation of the classification model more accurately corresponding to the usefulness for the specific user, and further, the classification of the reputation information can be performed. It becomes possible.

また、本発明の評判情報処理システムは、前記取得手段が、前記評判情報の一部について、前記特定ユーザにとっての有用度を取得するようにしてもよい。   In the reputation information processing system of the present invention, the acquisition unit may acquire the usefulness for the specific user for a part of the reputation information.

また、本発明の評判情報処理システムは、前記分類モデルに基づいて、与えられた評判情報を、前記特定ユーザにとっての有用度に応じた分類を行う分類手段を有するようにしてもよい。   In addition, the reputation information processing system of the present invention may have classification means for classifying given reputation information according to the usefulness for the specific user based on the classification model.

また、本発明の評判情報処理システムは、前記取得手段が、前記特定ユーザにとっての有用度が取得された評判情報の全ての評判情報の数が第1の所定値になるまで、前記評判情報の特定ユーザにとっての有用度の取得を継続するようにしてもよい。   Further, the reputation information processing system of the present invention is configured so that the acquisition means stores the reputation information until the number of all pieces of reputation information of the reputation information whose usefulness for the specific user is acquired reaches a first predetermined value. You may make it continue acquisition of the usefulness for a specific user.

この構成によれば、評判情報についての有用度の取得を、評判情報の分類に用いられる分類モデルが適切なものとなるための必要最小限に抑えることが可能となり、迅速な分類モデルの生成が可能になるとともに、処理負担や特定ユーザによる有用度の設定操作の負荷を軽減することができる。   According to this configuration, it is possible to minimize the acquisition of the usefulness of reputation information to the minimum necessary for the classification model used for reputation information classification to be appropriate, and to quickly generate a classification model. As well as being possible, it is possible to reduce the processing load and the load of the usefulness setting operation by a specific user.

同様の観点から、本発明の評判情報処理システムは、前記取得手段が、前記特定ユーザによる設定に応じて該特定ユーザにとっての有用度が取得された評判情報の数が第2の所定値になるまで、前記特定ユーザによる設定に応じた前記評判情報の特定ユーザにとっての有用度の取得を継続し、前記生成手段が、前記特定ユーザによる設定に応じて該特定ユーザにとっての有用度が取得された評判情報の数が第2の所定値になった場合に、前記取得した特定ユーザにとっての有用度に対応する評判情報の前記形態素解析によって得られる形態素からなる分類モデルを生成するようにしてもよい。   From the same point of view, in the reputation information processing system of the present invention, the number of pieces of reputation information whose usefulness for the specific user is acquired by the acquisition unit according to the setting by the specific user is a second predetermined value. Until then, acquisition of the usefulness for the specific user of the reputation information according to the setting by the specific user is continued, and the generation means acquires the usefulness for the specific user according to the setting by the specific user When the number of reputation information reaches the second predetermined value, a classification model composed of morphemes obtained by the morpheme analysis of reputation information corresponding to the acquired usefulness for a specific user may be generated. .

本発明に係る評判情報処理方法は、対象の評価を表す評判情報と、該評判情報の特定ユーザにとっての有用度を取得する取得ステップと、前記取得した評判情報に対して構文意味解析のうち少なくとも形態素解析を行う解析ステップと、前記取得した特定ユーザにとっての有用度に対応する評判情報の前記形態素解析によって得られる形態素からなる分類モデルを生成する生成ステップとを有することを特徴とする。   The reputation information processing method according to the present invention includes reputation information representing an evaluation of a target, an acquisition step of acquiring the usefulness of the reputation information for a specific user, and at least syntactic and semantic analysis of the acquired reputation information An analysis step for performing morpheme analysis and a generation step for generating a classification model composed of morphemes obtained by the morpheme analysis of reputation information corresponding to the acquired usefulness for a specific user are provided.

また、本発明の評判情報処理方法は、前記生成ステップが、前記形態素解析により得られる形態素のうち、前記有用度が所定値以上である評判情報における出現頻度の上位所定数に含まれる形態素の組と、前記有用度が所定値未満である評判情報における出現頻度の上位所定数に含まれる形態素の組とを有する分類モデルを生成するようにしてもよい。   Further, in the reputation information processing method of the present invention, the generation step includes a set of morphemes included in a higher predetermined number of appearance frequencies in reputation information whose usefulness is a predetermined value or more among morphemes obtained by the morpheme analysis. And a morpheme set included in the upper predetermined number of appearance frequencies in the reputation information whose usefulness is less than a predetermined value may be generated.

本発明に係る評判情報処理プログラムは、対象の評価を表す評判情報と、該評判情報の特定ユーザにとっての有用度を取得する取得ステップと、前記取得した評判情報に対して構文意味解析のうち少なくとも形態素解析を行う解析ステップと、前記取得した特定ユーザにとっての有用度に対応する評判情報の前記形態素解析によって得られる形態素からなる分類モデルを生成する生成ステップとを有することを特徴とする。   The reputation information processing program according to the present invention includes reputation information representing an evaluation of a target, an acquisition step of acquiring the usefulness of the reputation information for a specific user, and at least of syntactic and semantic analysis on the acquired reputation information An analysis step for performing morpheme analysis and a generation step for generating a classification model composed of morphemes obtained by the morpheme analysis of reputation information corresponding to the acquired usefulness for a specific user are provided.

また、本発明の評判情報処理プログラムは、前記生成ステップが、前記形態素解析により得られる形態素のうち、前記有用度が所定値以上である評判情報における出現頻度の上位所定数に含まれる形態素の組と、前記有用度が所定値未満である評判情報における出現頻度の上位所定数に含まれる形態素の組とを有する分類モデルを生成するようにしてもよい。   In the reputation information processing program of the present invention, the generation step includes a set of morphemes included in a higher predetermined number of appearance frequencies in reputation information whose usefulness is a predetermined value or more among morphemes obtained by the morpheme analysis. And a morpheme set included in the upper predetermined number of appearance frequencies in the reputation information whose usefulness is less than a predetermined value may be generated.

本発明によれば、評判情報についての特定ユーザにとっての有用度と、形態素解析により得られる形態素とに基づいて分類モデルが生成され、当該分類モデルに基づいて、大量の評判情報を、大量の評判情報を、特定ユーザにとっての有用度に応じて分類することが可能となり、特定ユーザにとって有用な評判情報を得ることが可能となる。   According to the present invention, a classification model is generated based on the usefulness of reputation information for a specific user and a morpheme obtained by morpheme analysis. Based on the classification model, a large amount of reputation information is converted into a large amount of reputation information. Information can be classified according to the degree of usefulness for a specific user, and reputation information useful for the specific user can be obtained.

本発明の実施の形態について、図面を参照して具体的に説明する。図1は、評判情報処理システムとしてのパーソナルコンピュータ(PC)のハードウェア構成を示す図である。図1に示す評判情報処理システムとしてのPC100は、内部バス107に接続されたCPU101、メモリ102、ハードディスクドライブ(HDD)103、操作部105、モニタ106及び通信ユニット108によって構成される。   Embodiments of the present invention will be specifically described with reference to the drawings. FIG. 1 is a diagram showing a hardware configuration of a personal computer (PC) as a reputation information processing system. A PC 100 as a reputation information processing system shown in FIG. 1 includes a CPU 101, a memory 102, a hard disk drive (HDD) 103, an operation unit 105, a monitor 106, and a communication unit 108 connected to an internal bus 107.

図2は、評判情報処理システムとしてのPC100の機能ブロック図である。図2に示すPC100は、映画、書籍等の様々な対象の評価を表す評判情報を分類するものであって、取得手段に対応する有用度取得部10と、解析手段に対応する形態素解析部20と、生成手段に対応する分類モデル生成部30と、分類手段に対応する分類部40とにより構成される。これら各機能ブロックは、図1のハードウェア構成においては、CPU101が操作部105の操作に応じて、HDD103から読み出してメモリ102に記憶させた所定のプログラムを実行することによって実現される。   FIG. 2 is a functional block diagram of the PC 100 as a reputation information processing system. The PC 100 shown in FIG. 2 classifies reputation information representing evaluations of various objects such as movies and books, and includes a usefulness acquisition unit 10 corresponding to an acquisition unit and a morpheme analysis unit 20 corresponding to an analysis unit. And a classification model generation unit 30 corresponding to the generation unit and a classification unit 40 corresponding to the classification unit. In the hardware configuration of FIG. 1, each of these functional blocks is realized by the CPU 101 executing a predetermined program read from the HDD 103 and stored in the memory 102 in response to an operation of the operation unit 105.

有用度取得部10は、評判情報を入力し、その一部について、特定ユーザの操作指示に応じて、当該特定ユーザにとっての有用度に応じたタグ情報(有用度タグ情報)を付加する。   The usefulness acquisition unit 10 inputs reputation information, and adds tag information (usefulness tag information) according to the usefulness for the specific user according to an operation instruction of the specific user for a part of the reputation information.

形態素解析部20は、有用度タグ情報が付加された評判情報の形態素解析を行う。分類モデル生成部30は、評判情報に付加された有用度タグ情報と、当該評判情報の形態素解析により得られる形態素とに基づいて、有用度の高い評判情報に含まれるべき形態素と、有用度の低い評判情報に含まれるべき形態素とを含む評判情報の分類モデルを生成する。分類部40は、この分類モデルに基づいて、評判情報を、特定ユーザにとって有用なものと、有用でないものとに分類する。   The morpheme analysis unit 20 performs morpheme analysis of reputation information to which usefulness tag information is added. Based on the usefulness tag information added to the reputation information and the morpheme obtained by the morpheme analysis of the reputation information, the classification model generation unit 30 includes the morpheme to be included in the highly useful reputation information, the usefulness level A reputation information classification model including morphemes to be included in low reputation information is generated. Based on this classification model, the classification unit 40 classifies reputation information into those that are useful for a specific user and those that are not useful.

以下、フローチャートを参照しつつ、評判情報処理システムとしてのPC100の動作を説明する。図3は、評判情報処理システムとしてのPC100の動作を示すフローチャートである。   Hereinafter, the operation of the PC 100 as the reputation information processing system will be described with reference to a flowchart. FIG. 3 is a flowchart showing the operation of the PC 100 as the reputation information processing system.

有用度取得部10は、任意の検索エンジン等を利用し、通信ユニット108を介して、例えばインターネットの様々なサイトから分類対象となる評判情報を入力する(S101)。   The usefulness acquisition unit 10 uses an arbitrary search engine or the like and inputs reputation information to be classified from various sites on the Internet, for example, via the communication unit 108 (S101).

次に、有用度取得部10は、評判情報の一部を無作為に抽出し、当該抽出した評判情報(第1評判情報)と、当該第1評判情報の有用度の設定を促す画面とを、モニタ106に表示する。特定ユーザは、操作部105を操作して、各第1評判情報について、自身にとっての有用性の程度を表す有用度を設定する。有用度取得部10は、この特定ユーザによって設定された有用度のタグ情報を、対応する第1評判情報に付加する(S102)。有用度タグ情報が付加された第1評判情報と、他の評判情報とは、形態素解析部20へ送られる。なお、抽出される第1評判情報の数や、有用度のとり得る値の範囲は、後述する分類モデル生成部30において用いられる学習モデルに依存したものとなる。   Next, the usefulness acquisition unit 10 randomly extracts a part of the reputation information, and displays the extracted reputation information (first reputation information) and a screen that prompts the user to set the usefulness of the first reputation information. Are displayed on the monitor 106. The specific user operates the operation unit 105 to set the usefulness level representing the degree of usefulness for each first reputation information. The usefulness acquisition unit 10 adds the tag information of the usefulness set by the specific user to the corresponding first reputation information (S102). The first reputation information to which the usefulness tag information is added and the other reputation information are sent to the morphological analysis unit 20. Note that the number of pieces of first reputation information to be extracted and the range of values that the usefulness can take depend on the learning model used in the classification model generation unit 30 described later.

図4は、学習モデルが一般的なテキスト分類に用いられるSVM(非特許文献 Joachims, T著、「Text Categorization with Support Vector Machines: Learning with Many Relevant Features.」、In Proceedings of the European Conference on Machine Learning, Springer、1998年を参照)である場合における、有用度の設定の一例を示す図である。   Figure 4 shows SVM (Non-Patent Document Joachims, T, “Text Categorization with Support Vector Machines: Learning with Many Relevant Features.”, In Proceedings of the European Conference on Machine Learning. , Springer, 1998)) is a diagram showing an example of setting the usefulness.

再び、図3に戻って説明する。形態素解析部20は、有用度タグ情報が付加された第1評判情報の形態素解析を行い、当該第1評判情報に含まれる形態素の情報を得る(S103)。形態素解析の例としては、非特許文献(松本裕治、北内啓、山下達雄、平野善隆、松田寛、高岡一馬、浅原正幸著、「形態素解析システム『茶筌』 version 2.2.1 使用説明書」、2000年)に詳細が記述されている茶筌等を挙げることができる。有用度タグ情報、第1評判情報の形態素解析の結果、及び、評判情報は、分類モデル生成部30へ送られる。   Again, referring back to FIG. The morpheme analysis unit 20 performs morpheme analysis of the first reputation information to which the usefulness tag information is added, and obtains morpheme information included in the first reputation information (S103). Examples of morphological analysis include non-patent literature (Yuji Matsumoto, Kei Kitauchi, Tatsuo Yamashita, Yoshitaka Hirano, Hiroshi Matsuda, Kazuma Takaoka, Masayuki Asahara, “Morphological Analysis System“ Chaya ”version 2.2.1 ”, 2000), for example. The usefulness tag information, the result of the morphological analysis of the first reputation information, and the reputation information are sent to the classification model generation unit 30.

図5は、形態素解析の結果である、形態素の情報の一例を示す図である。図5に示す形態素の情報は、形態素の表層文字列、形態素の読み、形態素の基本形、及び、形態素の品詞名からなる。   FIG. 5 is a diagram illustrating an example of morpheme information, which is a result of morpheme analysis. The morpheme information shown in FIG. 5 includes a morpheme surface character string, a morpheme reading, a morpheme basic form, and a morpheme part-of-speech name.

再び、図3に戻って説明する。分類モデル生成部30は、有用度タグ情報と、当該有用度タグ情報が付加された第1評判情報の形態素解析の結果である、形態素の情報を取得すると、これらに基づいて、評判情報の分類に用いられる分類モデルを生成する(S104)。   Again, referring back to FIG. When the classification model generation unit 30 acquires morpheme information, which is the result of morpheme analysis of the usefulness tag information and the first reputation information to which the usefulness tag information is added, the classification of the reputation information is based on these. A classification model used for the above is generated (S104).

図6は、分類モデル生成部30の動作を示すフローチャートである。なお、分類モデル生成部30において用いられる学習モデルは、SVMであるものとする。   FIG. 6 is a flowchart showing the operation of the classification model generation unit 30. Note that the learning model used in the classification model generation unit 30 is SVM.

分類モデル生成部30は、形態素解析により得られる形態素について、有用度タグ情報で表される有用度が所定値以上である第1評判情報における形態素の出現頻度と、有用度が所定値未満である第1評判情報における出現頻度とを取得する(S201)。   For the morphemes obtained by morpheme analysis, the classification model generation unit 30 has a morpheme occurrence frequency in the first reputation information whose usefulness represented by the usefulness tag information is equal to or greater than a predetermined value, and the usefulness is less than the predetermined value. The appearance frequency in the first reputation information is acquired (S201).

次に、分類モデル生成部30は、形態素解析により得られる形態素のうち、有用度タグ情報で表される有用度が所定値以上である第1評判情報における出現頻度の上位所定数に含まれ、且つ、有用度が所定値未満である第1評判情報における出現頻度の下位所定数に含まれる形態素を、有用性形態素として抽出する(S202)。   Next, the classification model generation unit 30 is included in the upper predetermined number of appearance frequencies in the first reputation information in which the usefulness represented by the usefulness tag information is a predetermined value or more among the morphemes obtained by the morpheme analysis, And the morpheme contained in the lower predetermined number of the appearance frequency in the 1st reputation information whose usefulness is less than predetermined value is extracted as useful morpheme (S202).

更に、分類モデル生成部30は、形態素解析により得られる形態素のうち、有用度タグ情報で表される有用度が所定値未満である第1評判情報における出現頻度の上位所定数に含まれ、且つ、有用度が所定値以上である第1評判情報における出現頻度の下位所定数に含まれる形態素を、非有用性形態素として抽出する(S203)。   Furthermore, the classification model generation unit 30 is included in the upper predetermined number of appearance frequencies in the first reputation information whose usefulness represented by the usefulness tag information is less than a predetermined value among the morphemes obtained by morphological analysis, and The morpheme included in the lower predetermined number of the appearance frequencies in the first reputation information whose usefulness is greater than or equal to a predetermined value is extracted as a non-useful morpheme (S203).

分類モデル生成部30は、これら有用性形態素と非有用性形態素とを素性として含む分類モデルを生成する。上述した分類モデルの生成手法は、スクリーニング手法と称される。生成された分類モデルは、評判情報とともに、分類部40へ送られる。なお、分類モデル生成部30は、全ての形態素を、品詞の種類によらずに、分類モデルに含まれ得る対象としたが、名詞の形態素については除外してもよい。また、分類モデル生成部30は、形態素の係り受け等の構文パターンも素性として、分類モデルに含ませるようにしてもよい。構文パターンを素性とする場合、構文意味解析手段として非特許文献(増市、大熊著、「Lexical Functional Grammarに基づく実用的な日本語解析システムの構築」、自然言語処理 Vol.10 No.2、p.79−109、2003年)に詳細が記述されているLFG等を用いてもよい。   The classification model generation unit 30 generates a classification model including these useful morphemes and non-useful morphemes as features. The classification model generation method described above is referred to as a screening method. The generated classification model is sent to the classification unit 40 together with reputation information. The classification model generation unit 30 sets all morphemes as targets that can be included in the classification model regardless of the type of part of speech. However, noun morphemes may be excluded. Further, the classification model generation unit 30 may include a syntax pattern such as a morpheme dependency as a feature in the classification model. When using syntactic patterns as features, non-patent literature (Masuichi, Okuma, “Building a Practical Japanese Parsing System Based on Lexical Functional Grammar”, Natural Language Processing Vol.10 No.2, p. 79-109, 2003), LFG or the like described in detail may be used.

再び、図3に戻って説明する。分類部40は、分類モデルに基づいて、PC100に与えられた評判情報のうち、第1評判情報以外の評判情報(第2評判情報)を有用なものと有用でないものとに分類する(S105)。具体的には、分類部40は、評判情報のうち、分類モデル内の素性である有用性形態素を含むものを、有用なものとし、非有用性形態素を含むものを、有用でないものとする。なお、分類対象となる評判情報は、PC100に与えられた全ての評判情報であってもよい。   Again, referring back to FIG. Based on the classification model, the classification unit 40 classifies reputation information other than the first reputation information (second reputation information) into useful and unusable information among the reputation information given to the PC 100 (S105). . Specifically, the classification unit 40 considers reputation information that includes useful morphemes that are features in the classification model to be useful, and those that include non-useful morphemes to be not useful. The reputation information to be classified may be all the reputation information given to the PC 100.

また、分類部40は、1つの第2評判情報に有用性形態素と非有用性形態素の双方が含まれる場合には、予め定められた分類手法、例えば、有用性形態素の数の方が多い場合には有用なものとし、非有用性形態素の数の方が多い場合には有用でないものとしてもよい。また、分類部40は、第2評判情報に有用性形態素と非有用性形態素のいずれも含まれない場合には、予め定められた分類手法により、有用なものとしてもよく、有用でないものとしてもよく、更には、有用なもの及び有用でないもののいずれでもないものとしてもよい。   In addition, the classification unit 40 may determine a predetermined classification method, for example, when the number of useful morphemes is larger when one second reputation information includes both useful morphemes and non-useful morphemes. May be useful and may not be useful when there are more non-useful morphemes. Further, the classification unit 40 may be useful or not useful according to a predetermined classification method when neither the useful morpheme nor the non-useful morpheme is included in the second reputation information. Moreover, it may be neither useful nor not useful.

以下、本発明の発明者による実験結果を説明する。本実験では、上述したスクリーニング手法を適用して生成した分類モデル(sPN)と、スクリーニング手法を適用せずに生成した分類モデル(uPN)とが用意された。更には、スクリーニング手法を適用して生成した分類モデルとして、個々の話題の影響を受けやすい品詞であると考えられる、名詞の形態素を含めたもの(sPN_all)と、含めないもの(sPN_n)とが用意され、スクリーニング手法を適用せずに生成した分類モデルとして、名詞の形態素を含めたもの(uPN_all)と、含めないもの(uPN_n)とが用意され、それぞれ評判情報の分類に利用された。   Hereinafter, experimental results by the inventors of the present invention will be described. In this experiment, a classification model (sPN) generated by applying the screening method described above and a classification model (uPN) generated without applying the screening method were prepared. Furthermore, classification models generated by applying screening methods include those that include parts of noun morphemes (sPN_all) and those that do not (sPN_n), which are considered to be part-of-speech that are easily affected by individual topics. The classification models that were prepared and generated without applying the screening method were prepared to include noun morphemes (uPN_all) and not included (uPN_n), and each was used to classify reputation information.

また、本実験では、ある商品について記述された3852個のレビュー文を分類対象の評判情報として用いた。これらのうち、1034個のレビュー文は、特定ユーザによって予め、その商品の購入を検討する際に意思決定に寄与するレビュー文、すなわち、有用な評判情報(正例)であると判断されたものであり、他の2818個のレビュー文は、特定ユーザによって、予め有用でない評判情報(負例)であると判断されたものである。   In this experiment, 3852 review sentences describing a certain product were used as reputation information for classification. Of these, 1034 review sentences have been determined in advance by a specific user as review sentences that contribute to decision making when considering the purchase of the product, that is, useful reputation information (positive examples). The other 2818 review sentences have been determined by the specific user to be reputation information (negative examples) that are not useful in advance.

分類モデルを用いた評判情報の分類精度を表す指標としては、Accuracy、Precision、Baselineを用いた。Accuracyは、図7(a)に示すように、分類モデルを用いたシステムによる分類と人手による分類とが一致した評判情報の数を、全ての評判情報で除した値であり、大きいほど分類モデルを用いた評判情報の分類が適切であることを示す。また、Precisionは、図7(b)に示すように、人手により有用であると分類された評判情報の数を、分類モデルを用いたシステムにより有用であると分類された評判情報の数で除した値であり、1に近いほど分類モデルを用いた評判情報の分類が適切であることを示す。また、Baselineは、人手により有用であると分類された評判情報の数を全ての評判情報で除した値であり、全ての評判情報から無作為で抽出した評判情報が、人手により有用であると分類されるものである確率を示す。   Accuracy, Precision, and Baseline were used as indices representing the accuracy of reputation information classification using a classification model. As shown in FIG. 7 (a), Accuracy is a value obtained by dividing the number of reputation information in which the classification by the system using the classification model and the classification by hand are divided by all the reputation information. Indicates that the reputation information classification using is appropriate. As shown in FIG. 7 (b), Precision divides the number of reputation information classified as useful by humans by the number of reputation information classified as useful by a system using a classification model. The closer to 1, the more appropriate the reputation information classification using the classification model. Baseline is the value obtained by dividing the number of reputation information classified as useful by human resources by all the reputation information, and the reputation information randomly extracted from all reputation information is more useful by human resources. Indicates the probability of being classified.

図8は、実験結果を表す図であり、図8(a)は、分類モデルに含まれる有用性形態素及び非有用性形態素の数と、その分類モデルを用いたシステムによる分類を行った場合におけるAccuracyを示し、図8(b)は、分類モデルに含まれる有用性形態素及び非有用性形態素の数と、その分類モデルを用いたシステムによる分類を行った場合におけるPrecisionを示す。   FIG. 8 is a diagram showing experimental results. FIG. 8A shows the number of useful morphemes and non-useful morphemes included in the classification model, and when classification is performed by the system using the classification model. FIG. 8B shows the number of useful morphemes and non-useful morphemes included in the classification model, and Precision when classification is performed by the system using the classification model.

図8(a)では、スクリーニング手法を適用して生成された分類モデル(sPN_all)に対応するAccuracy201、及び、分類モデル(sPN_n)に対応するAccuracy202は、スクリーニング手法を適用せずに生成した分類モデル(uPN_all)に対応するAccuracy203、及び、分類モデル(uPN_n)に対応するAccuracy204によりも値が大きく、スクリーニング手法を適用して生成された分類モデルの方が、分類精度が高いことを示している。   In FIG. 8A, the Accuracy 201 corresponding to the classification model (sPN_all) generated by applying the screening technique and the Accuracy 202 corresponding to the classification model (sPN_n) are the classification models generated without applying the screening technique. The value is larger than Accuracy 203 corresponding to (uPN_all) and Accuracy 204 corresponding to the classification model (uPN_n), indicating that the classification model generated by applying the screening method has higher classification accuracy.

また、図8(b)では、スクリーニング手法を適用して生成された分類モデル(sPN_all)に対応するPrecision211、及び、分類モデル(sPN_n)に対応するPrecision212と、スクリーニング手法を適用せずに生成した分類モデル(uPN_all)に対応するPrecision213、及び、分類モデル(uPN_n)に対応するPrecision214は、いずれもBaselineよりも大きい値であり、これら分類モデルを用いた分類が無作為抽出よりも有効であることを示している。また、スクリーニング手法を適用して生成された分類モデル(sPN_all)に対応するPrecision211、及び、分類モデル(sPN_n)に対応するPrecision212は、スクリーニング手法を適用せずに生成した分類モデル(uPN_all)に対応するPrecision213、及び、分類モデル(uPN_n)に対応するPrecision214よりも値が大きく、スクリーニング手法を適用して生成された分類モデルの方が、分類精度が高いことを示している。   Further, in FIG. 8B, the Precision 211 corresponding to the classification model (sPN_all) generated by applying the screening technique and the Precision 212 corresponding to the classification model (sPN_n), and generated without applying the screening technique. The Precision 213 corresponding to the classification model (uPN_all) and the Precision 214 corresponding to the classification model (uPN_n) are both larger than Baseline, and classification using these classification models is more effective than random sampling. Is shown. Also, Precision 211 corresponding to the classification model (sPN_all) generated by applying the screening technique and Precision 212 corresponding to the classification model (sPN_n) correspond to the classification model (uPN_all) generated without applying the screening technique. Therefore, the classification model generated by applying the screening technique has higher classification accuracy than the Precision 214 corresponding to the Precision 213 and the classification model (uPN_n).

このように、本実施形態の評判情報処理システムとしてのPC100は、与えられた評判情報の一部である第1評判情報について、特定ユーザにとっての有用度を取得するとともに、当該第1評判情報の形態素解析を行い、これら特定ユーザにとっての有用度と、形態素解析により得られる形態素とに基づいて、有用度の高い評判情報に含まれるべき形態素と、有用度の低い評判情報に含まれるべき形態素とを含む評判情報の分類モデルを生成し、この分類モデルに基づいて、第2評判情報を、特定ユーザにとって有用なものと、有用でないものとに分類する。   As described above, the PC 100 as the reputation information processing system of the present embodiment acquires the usefulness for the specific user for the first reputation information that is a part of the given reputation information, and Perform morpheme analysis, and based on the usefulness for these specific users and the morpheme obtained by morpheme analysis, the morpheme to be included in reputation information with high usefulness and the morpheme to be included in reputation information with low usefulness Is generated, and the second reputation information is classified into those useful for a specific user and those not useful based on the classification model.

これにより、分類モデルは、有用度の高い評判情報に含まれるべき形態素と、有用度の低い評判情報に含まれるべき形態素とを含むため、当該分類モデルに基づいて、大量の評判情報を、特定ユーザにとって有用なものと、有用でないものとに分類することができる。   Thus, since the classification model includes morphemes that should be included in reputation information with high usefulness and morphemes that should be included in reputation information with low usefulness, a large amount of reputation information is identified based on the classification model. It can be classified into those that are useful to the user and those that are not useful.

なお、上述した実施形態においては、特定ユーザの設定に応じた有用度タグ情報が順次評判情報に付加され、その有用度タグ情報が吹かされた評判情報の数が所定値になった場合に、分類モデルを生成するようにしてもよい。   In the above-described embodiment, when the usefulness tag information according to the setting of the specific user is sequentially added to the reputation information, and the number of reputation information that the usefulness tag information is blown becomes a predetermined value, A classification model may be generated.

図9は、評判情報に有用度が順次付加される場合における評判情報処理システムとしてのPC100の動作を示すフローチャートである。   FIG. 9 is a flowchart showing the operation of the PC 100 as a reputation information processing system when usefulness is sequentially added to reputation information.

分類モデル生成部30は、人手により、すなわち、特定ユーザの設定に応じた有用度タグ情報が付加された第1評判情報の数が、SVMの機械学習が可能な数以上であるか否かを判定する(S301)。   The classification model generation unit 30 determines whether or not the number of first reputation information to which usefulness tag information according to the setting of a specific user is added is greater than or equal to the number that enables SVM machine learning. Determine (S301).

特定ユーザの設定に応じた有用度タグ情報が付加された第1評判情報の数が、SVMの機械学習が可能な数である場合、分類モデル生成部30は、第1評判情報に付加された有用度タグ情報と、当該第1評判情報の形態素解析の結果である、形態素の情報とに基づいて、分類モデルを生成する(S302)。具体的な動作は、図4に示す動作と同様である。   When the number of the first reputation information to which the usefulness tag information according to the setting of the specific user is added is a number capable of machine learning of SVM, the classification model generation unit 30 is added to the first reputation information. A classification model is generated based on the usefulness tag information and morpheme information that is the result of the morpheme analysis of the first reputation information (S302). The specific operation is the same as the operation shown in FIG.

次に、分類モデル生成部30は、人手により有用度タグ情報が付加された第1評判情報の全体の評判情報に占める割合が、予め定められた値であるn以下であるか否かを判定する(S303)。   Next, the classification model generation unit 30 determines whether the ratio of the first reputation information to which the usefulness tag information is manually added to the overall reputation information is n or less which is a predetermined value. (S303).

人手により有用度タグ情報が付加された評判情報の割合がnより大きい場合には、十分な数の第1評判情報に応じて分類モデルが生成されたものとみなして、一連の動作が終了する。一方、人手により有用度タグ情報が付加された評判情報の割合がn以下の場合には、分類部40は、分類モデルに基づいて第1評判情報以外の評判情報から有用なものを抽出する(S304)。具体的な動作は、図3のS105における動作と同様である。   When the ratio of reputation information to which usefulness tag information is manually added is greater than n, it is considered that a classification model has been generated according to a sufficient number of first reputation information, and the series of operations ends. . On the other hand, when the ratio of reputation information to which usefulness tag information is manually added is n or less, the classification unit 40 extracts useful information from reputation information other than the first reputation information based on the classification model ( S304). The specific operation is the same as the operation in S105 of FIG.

次に、分類部30は、有用度タグ情報の付加の対象として有用なものとして抽出した評判情報を、モニタ106に表示し、特定ユーザに対して有用度の設定を促す(S305)。   Next, the classification unit 30 displays reputation information extracted as useful as a target of addition of usefulness tag information on the monitor 106, and prompts a specific user to set usefulness (S305).

特定ユーザは、操作部105を操作して、表示された評判情報について、自身にとっての有用度を設定する。有用度取得部10は、この特定ユーザによって設定された有用度を表す有用度タグ情報を、対応する評判情報に付加する(S306)。更に、有用度取得部10は、新たに有用度タグ情報が付加された評判情報の数が予め定められた値であるm以上であるか否かを判定する(S307)。   The specific user operates the operation unit 105 to set the usefulness for the displayed reputation information. The usefulness acquisition unit 10 adds usefulness tag information representing the usefulness set by the specific user to the corresponding reputation information (S306). Furthermore, the usefulness acquisition unit 10 determines whether or not the number of pieces of reputation information to which usefulness tag information is newly added is equal to or more than a predetermined value m (S307).

新たに有用度タグ情報が付加された第2評判情報の数がm以上である場合には、その評判情報が新たな第1評判情報として、形態素解析部20によって形態素解析が行われ、分類モデル生成部30による分類モデルの生成(S302)以降の動作が繰り返される。また、新たに有用度タグ情報が付加された評判情報の数がm未満である場合には、分類部40による第2評判情報からの有用なものの抽出(S304)以降の動作が繰り返される。   When the number of the second reputation information to which the usefulness tag information is newly added is m or more, the morpheme analysis is performed by the morpheme analysis unit 20 as the new first reputation information, and the classification model The operations after the generation of the classification model (S302) by the generation unit 30 are repeated. When the number of reputation information with newly added usefulness tag information is less than m, the operations after the extraction of useful information from the second reputation information by the classification unit 40 (S304) are repeated.

また、S301において、人手により有用度タグ情報が付加された第1評判情報の数が、SVMの機械学習が可能な数未満である場合には、有用度取得部10、分類モデル生成部30、あるいは、分類部40は、人手によって有用度タグ情報が付加されていない評判情報から任意のものを抽出する(S308)。その後は、分類部30による、有用度タグ情報の付加の対象として抽出した評判情報の表示(S305)以降の動作が繰り返される。   In S301, when the number of first reputation information to which the usefulness tag information is manually added is less than the number capable of SVM machine learning, the usefulness obtaining unit 10, the classification model generating unit 30, Or the classification | category part 40 extracts arbitrary things from the reputation information to which the usefulness tag information is not added manually (S308). Thereafter, the operations after the display of the reputation information extracted as the addition target of the usefulness tag information by the classification unit 30 (S305) are repeated.

このように、特定ユーザの設定に応じて順次有用度タグ情報が付加される評判情報の数が所定値になった場合に、当該有用度タグ情報を利用しながら分類モデルを生成することによって、第1評判情報についての有用度の取得を、評判情報の分類に用いられる分類モデルが適切なものとなるための必要最小限に抑えることが可能となり、迅速な分類モデルの生成が可能になるとともに、処理負担や特定ユーザによる有用度の設定操作の負荷を軽減することができる。   Thus, when the number of reputation information to which usefulness tag information is sequentially added according to the setting of a specific user reaches a predetermined value, by generating a classification model while using the usefulness tag information, It is possible to minimize the acquisition of usefulness for the first reputation information to the minimum necessary for the classification model used for classification of reputation information to be appropriate, and to quickly generate a classification model. In addition, it is possible to reduce the processing burden and the load of the usefulness setting operation by a specific user.

また、特定ユーザは、単独ではなく複数であってもよい。図11は、特定ユーザが複数存在する場合における、有用度の設定の一例を示す図である。このように、複数の特定ユーザにとっての有用度が設定される場合には、各特定ユーザの有用度の設定にばらつきがあるものの、当該有用度に応じて生成される分類モデルに基づいて、大量の評判情報を、複数の特定ユーザを代表する仮想的な特定ユーザにとって有用なものと、有用でないものとに分類することができる。なお、発明者の実験によれば、複数の特定ユーザに対応した分類モデルを用いた分類は、無作為抽出よりも有効であることが確かめられた。   Further, the specific user may be plural instead of single. FIG. 11 is a diagram illustrating an example of setting usefulness when there are a plurality of specific users. As described above, when the usefulness for a plurality of specific users is set, although there are variations in the setting of the usefulness of each specific user, a large amount based on the classification model generated according to the usefulness Can be classified into those useful for virtual specific users representing a plurality of specific users and those not useful. According to the inventors' experiment, it was confirmed that classification using a classification model corresponding to a plurality of specific users is more effective than random sampling.

また、上述した実施形態では、単体のPC100によって評判情報処理システムが構成されたが、1のPC内に有用度取得部10、形態素解析部20及び分類モデル生成部30が構成されて分類モデルの生成が行われ、当該1のPCと通信ネットワークによって接続された他のPCに分類部40が構成されて1のPCによって生成された分類モデルを用いた評判情報の分類が行われるようにしてもよい。   In the above-described embodiment, the reputation information processing system is configured by a single PC 100, but the usefulness acquisition unit 10, the morpheme analysis unit 20, and the classification model generation unit 30 are configured in one PC, and the classification model After the generation, the classification unit 40 is configured in the other PC connected to the one PC through the communication network so that the reputation information is classified using the classification model generated by the one PC. Good.

以上、説明したように、本発明に係る評判情報処理システム、評判情報処理方法及び評判情報処理プログラムは、特定ユーザにとって有用な評判情報を得ることが可能であり、評判情報処理システム等として有用である。   As described above, the reputation information processing system, the reputation information processing method, and the reputation information processing program according to the present invention can obtain reputation information useful for a specific user, and are useful as a reputation information processing system and the like. is there.

評判情報処理システムのハードウェア構成を示す図である。It is a figure which shows the hardware constitutions of a reputation information processing system. 評判情報処理システムの機能ブロック図を示す図である。It is a figure which shows the functional block diagram of a reputation information processing system. 評判情報処理システムの動作を示すフローチャートである。It is a flowchart which shows operation | movement of a reputation information processing system. 特定ユーザにとっての有用度設定の一例を示す図である。It is a figure which shows an example of the usefulness setting for a specific user. 形態素解析の結果である、形態素の情報の一例を示す図である。It is a figure which shows an example of the information of a morpheme which is a result of a morpheme analysis. 分類モデル生成の動作を示すフローチャートである。It is a flowchart which shows the operation | movement of classification model generation. 分類モデルを用いた評判情報の分類精度を表す指標を示す図である。It is a figure which shows the parameter | index showing the classification | category precision of reputation information using a classification model. 分類モデルを用いた評判情報の分類実験の結果を示す図である。It is a figure which shows the result of the classification experiment of reputation information using a classification model. 評判情報に有用度が順次付加される場合における評判情報処理システムの動作を示すフローチャートである。It is a flowchart which shows operation | movement of the reputation information processing system when usefulness is added to reputation information sequentially. 特定ユーザが複数存在する場合における、有用度の設定の一例を示す図である。It is a figure which shows an example of the setting of usefulness in case there exist multiple specific users.

符号の説明Explanation of symbols

10 有用度取得部
20 形態素解析部
30 分類モデル生成部
40 分類部
100 PC
102 メモリ
103 HDD
105 操作部
106 モニタ
107 内部バス
10 Usefulness Acquisition Unit 20 Morphological Analysis Unit 30 Classification Model Generation Unit 40 Classification Unit 100 PC
102 Memory 103 HDD
105 Operation unit 106 Monitor 107 Internal bus

Claims (13)

対象の評価を表す評判情報と、該評判情報の特定ユーザにとっての有用度を取得する取得手段と、
前記取得した評判情報に対して構文意味解析のうち少なくとも形態素解析を行う解析手段と、
前記取得した特定ユーザにとっての有用度に対応する評判情報の前記形態素解析によって得られる形態素からなる分類モデルを生成する生成手段とを有することを特徴とする評判情報処理システム。
Reputation information representing the evaluation of the object, and acquisition means for acquiring the usefulness of the reputation information for a specific user;
Analysis means for performing at least morpheme analysis among the syntactic and semantic analysis on the acquired reputation information;
A reputation information processing system comprising: generating means for generating a classification model composed of morphemes obtained by the morpheme analysis of reputation information corresponding to the acquired usefulness for a specific user.
前記評判情報は文単位の情報であり、各文に対して前記有用度を付与されるものであることを特徴とする請求項1に記載の評判情報処理システム。   The reputation information processing system according to claim 1, wherein the reputation information is information in a sentence unit, and the usefulness is given to each sentence. 前記生成手段は、前記形態素解析により得られる形態素のうち、前記有用度が所定値以上である評判情報における出現頻度の上位所定数に含まれる形態素の組と、前記有用度が所定値未満である評判情報における出現頻度の上位所定数に含まれる形態素の組とを有する分類モデルを生成することを特徴とする請求項1又は2に記載の評判情報処理システム。   The generation means includes a set of morphemes that are included in the upper predetermined number of appearance frequencies in reputation information whose usefulness is greater than or equal to a predetermined value among morphemes obtained by the morpheme analysis, and the usefulness is less than a predetermined value. The reputation information processing system according to claim 1 or 2, wherein a classification model having a set of morphemes included in a top predetermined number of appearance frequencies in reputation information is generated. 前記生成手段は、前記形態素解析により得られる形態素のうち、前記有用度が所定値以上である評判情報における出現頻度の上位所定数に含まれ、且つ、前記有用度が所定値未満である評判情報における出現頻度の下位所定数に含まれる形態素の組と、前記有用度が所定値未満である評判情報における出現頻度の上位所定数に含まれ、且つ、前記有用度が所定値以上である評判情報における出現頻度の下位所定数に含まれる形態素の組とを有する分類モデルを生成することを特徴とする請求項3に記載の評判情報処理システム。   The generating means includes, among the morphemes obtained by the morpheme analysis, reputation information that is included in an upper predetermined number of appearance frequencies in reputation information whose usefulness is greater than or equal to a predetermined value and whose usefulness is less than a predetermined value A set of morphemes included in the lower predetermined number of appearance frequencies in the above and reputation information included in the upper predetermined number of appearance frequencies in the reputation information whose usefulness is less than a predetermined value and whose usefulness is greater than or equal to the predetermined value The reputation information processing system according to claim 3, wherein a classification model having a set of morphemes included in a lower predetermined number of appearance frequencies in is generated. 前記取得手段は、前記特定ユーザによる前記評判情報に対する有用度の設定に応じて、該評判情報の特定ユーザにとっての有用度を取得することを特徴とする請求項1乃至4のいずれかに記載の評判情報処理システム。   The said acquisition means acquires the usefulness for the specific user of this reputation information according to the setting of the usefulness with respect to the said reputation information by the said specific user, The Claim 1 thru | or 4 characterized by the above-mentioned. Reputation information processing system. 前記取得手段は、前記評判情報の一部について、前記特定ユーザにとっての有用度を取得することを特徴とする請求項1乃至5のいずれかに記載の評判情報処理システム。   The reputation information processing system according to claim 1, wherein the obtaining unit obtains a usefulness level for the specific user for a part of the reputation information. 前記分類モデルに基づいて、与えられた評判情報を、前記特定ユーザにとっての有用度に応じた分類を行う分類手段を有することを特徴とする請求項1乃至6のいずれかに記載の評判情報処理システム。   The reputation information processing according to any one of claims 1 to 6, further comprising classification means for classifying the given reputation information according to the usefulness for the specific user based on the classification model. system. 前記取得手段は、前記特定ユーザにとっての有用度が取得された評判情報の数が第1の所定値になるまで、前記評判情報の特定ユーザにとっての有用度の取得を継続することを特徴とする請求項1乃至7のいずれかに記載の評判情報処理システム。   The acquisition unit continues to acquire the usefulness of the reputation information for the specific user until the number of the reputation information from which the usefulness for the specific user is acquired reaches a first predetermined value. The reputation information processing system according to any one of claims 1 to 7. 前記取得手段は、前記特定ユーザによる設定に応じて該特定ユーザにとっての有用度が取得された評判情報の数が第2の所定値になるまで、前記特定ユーザによる設定に応じた前記評判情報の特定ユーザにとっての有用度の取得を継続し、
前記生成手段は、前記特定ユーザによる設定に応じて該特定ユーザにとっての有用度が取得された評判情報の数が第2の所定値になった場合に、前記取得した特定ユーザにとっての有用度に対応する評判情報の前記形態素解析によって得られる形態素からなる分類モデルを生成することを特徴とする請求項8に記載の評判情報処理システム。
The acquisition unit is configured to update the reputation information according to the setting by the specific user until the number of reputation information whose usefulness for the specific user is acquired according to the setting by the specific user reaches a second predetermined value. Continue to acquire usefulness for specific users,
The generation means sets the usefulness for the acquired specific user when the number of reputation information acquired for the specific user according to the setting by the specific user reaches a second predetermined value. The reputation information processing system according to claim 8, wherein a classification model composed of morphemes obtained by the morphological analysis of corresponding reputation information is generated.
対象の評価を表す評判情報と、該評判情報の特定ユーザにとっての有用度を取得する取得ステップと、
前記取得した評判情報に対して構文意味解析のうち少なくとも形態素解析を行う解析ステップと、
前記取得した特定ユーザにとっての有用度に対応する評判情報の前記形態素解析によって得られる形態素からなる分類モデルを生成する生成ステップとを有することを特徴とする評判情報処理システムにおける処理方法。
Reputation information representing the evaluation of the object, and an acquisition step of obtaining the usefulness of the reputation information for a specific user;
An analysis step of performing at least a morphological analysis of the syntactic and semantic analysis on the acquired reputation information;
And a generation step of generating a classification model composed of morphemes obtained by the morpheme analysis of the reputation information corresponding to the acquired usefulness for a specific user.
前記生成ステップは、前記形態素解析により得られる形態素のうち、前記有用度が所定値以上である評判情報における出現頻度の上位所定数に含まれる形態素の組と、前記有用度が所定値未満である評判情報における出現頻度の上位所定数に含まれる形態素の組とを有する分類モデルを生成することを特徴とする請求項10に記載の処理方法。   The generation step includes a set of morphemes included in a higher predetermined number of appearance frequencies in reputation information whose usefulness is equal to or greater than a predetermined value among morphemes obtained by the morpheme analysis, and the usefulness is less than a predetermined value. The processing method according to claim 10, further comprising: generating a classification model having a set of morphemes included in an upper predetermined number of appearance frequencies in reputation information. 対象の評価を表す評判情報と、該評判情報の特定ユーザにとっての有用度を取得する取得ステップと、
前記取得した評判情報に対して構文意味解析のうち少なくとも形態素解析を行う解析ステップと、
前記取得した特定ユーザにとっての有用度に対応する評判情報の前記形態素解析によって得られる形態素からなる分類モデルを生成する生成ステップとを有することを特徴とする評判情報処理システムにおいて実行されるプログラム。
Reputation information representing the evaluation of the object, and an acquisition step of obtaining the usefulness of the reputation information for a specific user;
An analysis step of performing at least a morphological analysis of the syntactic and semantic analysis on the acquired reputation information;
And a generation step of generating a classification model composed of morphemes obtained by the morpheme analysis of reputation information corresponding to the obtained usefulness for a specific user.
前記生成ステップは、前記形態素解析により得られる形態素のうち、前記有用度が所定値以上である評判情報における出現頻度の上位所定数に含まれる形態素の組と、前記有用度が所定値未満である評判情報における出現頻度の上位所定数に含まれる形態素の組とを有する分類モデルを生成することを特徴とする請求項12に記載のプログラム。   The generation step includes a set of morphemes included in a higher predetermined number of appearance frequencies in reputation information whose usefulness is equal to or greater than a predetermined value among morphemes obtained by the morpheme analysis, and the usefulness is less than a predetermined value. 13. The program according to claim 12, wherein a classification model having a set of morphemes included in a high-order predetermined number of appearance frequencies in reputation information is generated.
JP2006124483A 2006-04-27 2006-04-27 Reputation information processing system, reputation information processing method, and reputation information processing program Pending JP2007299071A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006124483A JP2007299071A (en) 2006-04-27 2006-04-27 Reputation information processing system, reputation information processing method, and reputation information processing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006124483A JP2007299071A (en) 2006-04-27 2006-04-27 Reputation information processing system, reputation information processing method, and reputation information processing program

Publications (1)

Publication Number Publication Date
JP2007299071A true JP2007299071A (en) 2007-11-15

Family

ID=38768530

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006124483A Pending JP2007299071A (en) 2006-04-27 2006-04-27 Reputation information processing system, reputation information processing method, and reputation information processing program

Country Status (1)

Country Link
JP (1) JP2007299071A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012141837A (en) * 2011-01-04 2012-07-26 Sony Corp Information processor, information processing method and program
US9740681B2 (en) 2012-04-25 2017-08-22 International Business Machines Corporation Method for classifying pieces of text on basis of evaluation polarity, computer program product, and computer

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012141837A (en) * 2011-01-04 2012-07-26 Sony Corp Information processor, information processing method and program
US9740681B2 (en) 2012-04-25 2017-08-22 International Business Machines Corporation Method for classifying pieces of text on basis of evaluation polarity, computer program product, and computer

Similar Documents

Publication Publication Date Title
RU2571373C2 (en) Method of analysing text data tonality
JP6676110B2 (en) Utterance sentence generation apparatus, method and program
JP2003248676A (en) Solution data compiling device and method, and automatic summarizing device and method
JP5620349B2 (en) Dialogue device, dialogue method and dialogue program
JP2009146041A (en) Communication support method, system, and server device
JP2008287406A (en) Information processor, information processing method, program, and recording medium
CN108153831A (en) Music adding method and device
JP2006004399A (en) Information extraction program, its recording medium, information extraction device and information extraction rule creation method
WO2022134779A1 (en) Method, apparatus and device for extracting character action related data, and storage medium
JP2019121139A (en) Summarizing device, summarizing method, and summarizing program
Ju et al. Scisummpip: An unsupervised scientific paper summarization pipeline
Rizki et al. Word formation process in novel alice’s adventures in wonderland by Lewis Carroll and movie alice in wonderland by Walt Disney
Akita A typology of depiction marking: The prosody of Japanese ideophones and beyond
JP2010067005A (en) Retrieval device, and method of controlling the same
CN113886568A (en) Text abstract generation method and device
Margan et al. LaNCoA: a python toolkit for language networks construction and analysis
JP2007299071A (en) Reputation information processing system, reputation information processing method, and reputation information processing program
Keh et al. Pancetta: Phoneme aware neural completion to elicit tongue twisters automatically
Hosseini et al. Resolving Indirect Referring Expressions for Entity Selection
JP6709678B2 (en) Reading support device and program
Jorge-Botana et al. The representation of polysemy through vectors: some building blocks for constructing models and applications with LSA
Marian Orthographic and phonological neighborhood databases across multiple languages
JP6996190B2 (en) Compound word generator, program and compound word generation method
Ghosh et al. MTTN: Multi-Pair Text to Text Narratives for Prompt Generation
JP3734101B2 (en) Hypermedia construction support device