JP2015125570A - Information processing apparatus, control method, and program - Google Patents
Information processing apparatus, control method, and program Download PDFInfo
- Publication number
- JP2015125570A JP2015125570A JP2013269019A JP2013269019A JP2015125570A JP 2015125570 A JP2015125570 A JP 2015125570A JP 2013269019 A JP2013269019 A JP 2013269019A JP 2013269019 A JP2013269019 A JP 2013269019A JP 2015125570 A JP2015125570 A JP 2015125570A
- Authority
- JP
- Japan
- Prior art keywords
- evaluation
- word
- information
- evaluation word
- polarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
本発明は、文書の分析処理において文書から効果的な情報を抽出するための分析技術に関するものであり、特にウェブ上の電子化された文書データから主観的な評判・評価、意見等を抽出し提示する技術、及びその管理技術に関する。 The present invention relates to an analysis technique for extracting effective information from a document in document analysis processing, and in particular extracts subjective reputation / evaluation, opinion, etc. from digitized document data on the web. The present invention relates to the technology to be presented and its management technology.
ウェブを中心に日々膨大な量の文書が作成されており、また同時に消費されていく中から、必要な情報を抽出し提示することは重要な課題である。特に事業者にとって、扱う商品の評判やサービスへの評価・意見等に関して、その評価状況を分析することは有益である。 It is an important issue to extract and present necessary information from the vast amount of documents that are created every day, mainly on the web, and being consumed at the same time. In particular, it is useful for business operators to analyze the evaluation status regarding the reputation of the products they handle and the evaluation / opinions on services.
このような課題に対して、大量の電子化された文書データから商品の評判や評価、意見といった主観的な評価を抽出し提示する様々な手法が提案されている。 In order to deal with such problems, various methods for extracting and presenting subjective evaluations such as product reputation, evaluation and opinion from a large amount of digitized document data have been proposed.
例えば、評価や評判を表す意味を持つ語(以下、評価語とする)を、その評価値(肯定的或いは否定的な意味・評価を表す属性値)とともに辞書に登録しておき、文書データから評価語を抽出し、その頻度等から定量的に評価値を算出する手法等がある。 For example, a word having a meaning representing evaluation or reputation (hereinafter referred to as an evaluation word) is registered in a dictionary together with its evaluation value (an attribute value representing a positive or negative meaning / evaluation). There is a method of extracting an evaluation word and calculating an evaluation value quantitatively from its frequency.
特許文献1では、予め定められた評価語を辞書に登録しておき、分析対象となる文書から評価語を検出して評価値を求めて、肯定的意見或いは否定的意見を判定する手法を開示している。また、この手法では、否定文の構成を考慮することや複数の単語からひとつの具体的な評価値を算出する手法も開示している。
特許文献2では、特許文献1と同様に、予め定められた評価語から評価値を求めているが、ひとつの評価語が評価の対象先によって評価値の反転が発生することを考慮しており、その対策としてユーザ投票による辞書管理手法を開示している。
In
しかしながら、特許文献1における評価値の反転については、一般的な否定語(例えば「ない」)の考慮を行っており、例えば、評価語「病気」の評価値が否定であるとき、「病気ではない」という表現は、評価値が反転して肯定となるが、「病気が治る」のとき、即ち、否定語以外の単語の組み合わせについての評価値の反転が考慮されていない。
However, regarding the reversal of the evaluation value in
また、このような評価値の反転課題に対して、特許文献1では複数の単語からひとつの具体的な評価値を算出する「二項関係」を利用して課題を解決することも可能と思われるが、「病気が治る」のような、単一の評価語と同時に二項関係が存在する場合の対策手法が開示されていないこと、さらにはこのような評価値が反転するような二項関係を膨大に登録・管理することの新たな課題がある。
In addition, with respect to such an evaluation value inversion problem,
また、特許文献2に記載の手法では、評価値が反転する根拠に評価語の係り先に当たる対象語が使われており、「古い寺」では肯定的評価を、「古い生鮮食料品」では否定的評価をする事例が開示されている。
Moreover, in the method described in
しかしながら、この事例のような評価を行うのは、あくまでもユーザ投票に起因する部分が大きく、所定の単語の組み合わせにおいては、ユーザ投票を行わなくとも、評価を行うことが可能なケースも存在するが、ユーザ投票を行うことなく、システムで対応すべき術については、具体的に明示されていない。 However, the evaluation as in this case is largely due to user voting, and there are cases where the evaluation can be performed without performing user voting in a predetermined combination of words. The technique that should be dealt with in the system without performing user voting is not clearly specified.
更に、特許文献1についても同様なことが言えるが、評価値が反転する根拠には、対象語だけではなく、主格に当たる語も根拠となり得る。例えば、「値段が高い」の評価値は、消費者から見れば否定的評価となるが、販売者の立場から見れば肯定的評価をみなすことができる。
Further, although the same can be said for
このように、文書データから評判や評価、意見といった主観的な評価を抽出することは重要な課題であり、より効率的に精度良く評価値を算出する必要がある。 Thus, extracting subjective evaluations such as reputation, evaluation and opinion from document data is an important issue, and it is necessary to calculate evaluation values more efficiently and accurately.
本発明は、上記課題を解決するためになされたものであり、評価対象となる文書が、肯定的な評価あるいは否定的な評価等であるかを分析するにあたり、ユーザへの手間をかけることなく、より精度良く評価対象文書の分析を行うことができる、情報処理装置、制御方法、及びプログラム。 The present invention has been made in order to solve the above-described problems, and it is possible to analyze whether a document to be evaluated is a positive evaluation or a negative evaluation without taking time and effort to a user. An information processing apparatus, a control method, and a program capable of analyzing an evaluation target document with higher accuracy.
上記目的を達成するための第1の発明は、文書における肯定評価あるいは否定評価を分析する情報処理装置であって、前記文書の形態素解析及び構文解析から求まる評価対象とする評価語及び前記評価語の評価極性を含む評価語情報を取得する評価情報取得手段と、前記評価情報取得手段によって取得した評価情報の評価語との係り受け関係となる前記評価語と異なる評価語を取得する係受評価語取得手段と、前記係受評価語取得手段によって取得した評価語と係り受け関係にある評価語とが、共起関係にあるか否かを判定する共起関係判定手段と、前記共起関係判定手段によって共起関係にある評価語の評価極性を変更するための変更情報を取得する変更情報取得手段と、を備えたことを特徴とする。 A first invention for achieving the above object is an information processing apparatus for analyzing affirmative evaluation or negative evaluation in a document, the evaluation word to be evaluated obtained from morphological analysis and syntactic analysis of the document, and the evaluation word Evaluation evaluation for acquiring evaluation word different from the evaluation word which is a dependency relationship between evaluation information acquisition means for acquiring evaluation word information including the evaluation polarity of the evaluation information and evaluation words of the evaluation information acquired by the evaluation information acquisition means A co-occurrence relation determining means for determining whether or not a word acquisition means and an evaluation word that is in a dependency relationship with the evaluation word acquired by the dependency evaluation word acquisition means are in a co-occurrence relationship; And a change information acquisition means for acquiring change information for changing the evaluation polarity of evaluation words in a co-occurrence relationship by a determination means.
上記目的を達成するための第2の発明は、文書における肯定評価あるいは否定評価を分析する情報処理装置の制御方法であって、前記情報処理装置は、前記文書の形態素解析及び構文解析から求まる評価対象とする評価語及び前記評価語の評価極性を含む評価語情報を取得する評価情報取得ステップと、前記評価情報取得ステップによって取得した評価情報の評価語との係り受け関係となる前記評価語と異なる評価語を取得する係受評価語取得手段と、前記係受評価語取得手段によって取得した評価語と係り受け関係にある評価語とが、共起関係にあるか否かを判定する共起関係判定ステップと、前記共起関係判定ステップによって共起関係にある評価語の評価極性を変更するための変更情報を取得する変更情報取得ステップと、を実行することを特徴とする。 A second invention for achieving the above object is a method of controlling an information processing apparatus that analyzes positive evaluation or negative evaluation in a document, wherein the information processing apparatus is obtained by morphological analysis and syntactic analysis of the document. The evaluation word which is a dependency relationship between the evaluation information acquisition step for acquiring evaluation word information including the evaluation word to be evaluated and the evaluation polarity of the evaluation word, and the evaluation word of the evaluation information acquired by the evaluation information acquisition step; Co-occurrence that determines whether or not a dependency evaluation word acquisition unit that acquires different evaluation words and an evaluation word that is in a dependency relationship with the evaluation word acquired by the dependency evaluation word acquisition unit have a co-occurrence relationship Executing a relationship determination step and a change information acquisition step of acquiring change information for changing the evaluation polarity of the evaluation words in the co-occurrence relationship by the co-occurrence relationship determination step And wherein the door.
上記目的を達成するための第3の発明は、文書における肯定評価あるいは否定評価を分析する情報処理装置において読取実行可能なプログラムであって、前記情報処理装置を、前記文書の形態素解析及び構文解析から求まる評価対象とする評価語及び前記評価語の評価極性を含む評価語情報を取得する評価情報取得手段と、前記評価情報取得手段によって取得した評価情報の評価語との係り受け関係となる前記評価語と異なる評価語を取得する係受評価語取得手段と、前記係受評価語取得手段によって取得した評価語と係り受け関係にある評価語とが、共起関係にあるか否かを判定する共起関係判定手段と、前記共起関係判定手段によって共起関係にある評価語の評価極性を変更するための変更情報を取得する変更情報取得手段と、して機能させることを特徴とする。 A third invention for achieving the above object is a program readable and executable by an information processing apparatus for analyzing positive evaluation or negative evaluation in a document, wherein the information processing apparatus is used for morphological analysis and syntax analysis of the document. The evaluation information acquisition means for acquiring evaluation word information including the evaluation word to be evaluated and the evaluation polarity of the evaluation word, and the evaluation word of the evaluation information acquired by the evaluation information acquisition means It is determined whether or not the dependency evaluation word acquisition unit that acquires an evaluation word different from the evaluation word and the evaluation word acquired by the dependency evaluation word acquisition unit and the evaluation word that is in a dependency relationship have a co-occurrence relationship. Function as a co-occurrence relation determining means, and a change information acquiring means for acquiring change information for changing the evaluation polarity of evaluation words in a co-occurrence relation by the co-occurrence relation determining means And characterized in that.
本発明によれば、評価対象となる文書が、肯定的な評価あるいは否定的な評価等であるかを分析するにあたり、評価対象となる文書を構成する評価語の分野属性を考慮して分析を行うことが可能となるので、ユーザへの手間をかけることなく、より精度良く評価対象文書の分析を行うことができる、という効果をそうする。 According to the present invention, in analyzing whether a document to be evaluated is a positive evaluation or a negative evaluation, an analysis is performed in consideration of the field attributes of evaluation words constituting the document to be evaluated. Therefore, the evaluation target document can be analyzed with higher accuracy without taking time and effort for the user.
以下、図面を参照して本発明の実施の形態の一例について説明する。 Hereinafter, an example of an embodiment of the present invention will be described with reference to the drawings.
図1は、本発明の実施形態における情報処理装置としての文書分析装置の構成を示す図である。 FIG. 1 is a diagram illustrating a configuration of a document analysis apparatus as an information processing apparatus according to an embodiment of the present invention.
文書分析装置100は、評価辞書部101と、類語辞書部102と、評判情報抽出部103と、発言者情報抽出部104と、極性判定部105と、発言者情報辞書部106と、を備える。なお、評価辞書部101及び類語辞書部102及び発言者情報辞書部106は後述する外部メモリ211等の記憶装置に記憶されている。
The
文書分析装置100は、テキスト文書107について、評判情報抽出部103及び発言者情報抽出部104に送られて、各種情報が抽出される。それぞれの抽出部では、形態素解析や構文解析された結果と各種辞書の情報を参照しながら抽出処理が実施される。
The
そして、それぞれに抽出された結果は、極性判定部105に送られて、テキスト文書107の評価極性が算出される。これら一連の文書分析手法については、詳しく後述する。
The extracted results are sent to the
次に、図1の文書分析装置100のハードウェア構成について、図2を用いて説明する。
Next, the hardware configuration of the
図中、CPU201は、システムバス204に接続される後述の各デバイスやコントローラを統括的に制御する。また、ROM203あるいは外部メモリ211には、CPU201の制御プログラムであるBIOS(Basic Input/Output System)やオペレーティングシステムプログラム(以下、OS)や、文書分析装置100に後述する各種の処理を実行させるために必要な各種プログラムやデータ等が記憶されている。RAM202は、CPU201の主メモリ、ワークエリア等として機能する。
In the figure, a
CPU201は、処理の実行に際して必要なプログラム等をRAM202にロードして、プログラムを実行することで後述する各種処理を実現するものである。また、入力コントローラ(入力C)205は、入力装置209からの入力を制御する。入力装置209は、例えばメカニカルキーボードやソフトウェアキーボード、タッチパネル等で構成される。ビデオコントローラ(VC)206は、表示装置210への表示を制御する。表示装置210は、例えば液晶ディスプレイ等で構成される。
The
メモリコントローラ(MC)207は、ブートプログラム、ブラウザソフトウエア、各種のアプリケーション、フォントデータ、ユーザファイル、編集ファイル、各種データ等を記憶するハードディスク(HD)やソリッドステートディスク(SSD)或いはPCMCIAカードスロットにアダプタを介して接続されるコンパクトフラッシュ(登録商標)メモリ等の外部メモリ211へのアクセスを制御する。
The memory controller (MC) 207 is stored in a hard disk (HD), solid state disk (SSD), or PCMCIA card slot for storing boot programs, browser software, various applications, font data, user files, editing files, various data, and the like. Controls access to an
通信I/Fコントローラ(通信I/FC)208は、ネットワークを介して、外部機器と接続・通信するものであり、ネットワークでの通信制御処理を実行する。例えば、TCP/IPを用いたインターネット通信等が可能である。 A communication I / F controller (communication I / FC) 208 is connected to and communicates with an external device via a network, and executes communication control processing in the network. For example, Internet communication using TCP / IP is possible.
なお、CPU201は、例えばRAM202内の表示情報用領域へアウトラインフォントの展開(ラスタライズ)処理を実行することにより、表示装置210上での表示を可能としている。以上が、文書分析装置100のハードウェア構成の説明であるが、後述する各種の処理を実行可能であれば、必ずしも図2に記載のハードウェア構成を有していなくとも構わないことは言うまでもない。
Note that the
次に、文書分析装置100における文書分析処理について、図3から図15を用いて、詳しく説明する。
Next, document analysis processing in the
図3は、文書分析処理における全体の処理を示すフローチャートである。文書分析処理では、CPU201は、文書に記述されている各文に対して、形態素解析及び構文解析を実施してから評価語抽出処理、及び発言者情報抽出処理を実施する。その後、抽出した各データを元に極性判定処理を実施する。
FIG. 3 is a flowchart showing the overall processing in the document analysis processing. In the document analysis processing, the
文書分析処理は、文単位で処理を実施するため、まず、ステップS301において、文書を文に分割して以降の処理を実施する。文の分割については、句点、感嘆符、疑問符、連続した改行文字列等を区切り文字として扱うことで実現する。続くステップS302において、抽出した文の形態素解析を行う。 Since the document analysis process is executed in units of sentences, first, in step S301, the document is divided into sentences and the subsequent processes are executed. Sentence splitting is realized by treating punctuation marks, exclamation marks, question marks, continuous newline strings, etc. as delimiters. In subsequent step S302, morphological analysis of the extracted sentence is performed.
続いて、ステップS303において、正規化処理を行う。正規化処理を行う理由としては、後続の構文解析の精度を一定に保つためであり、例えば、敬語・丁寧表現を標準形に戻す、或いは活用形を原型に戻す、といった処理が該当する。 Subsequently, in step S303, normalization processing is performed. The reason for performing the normalization process is to keep the accuracy of the subsequent parsing constant, for example, the process of returning the honorific and polite expression to the standard form, or returning the utilization form to the original form.
図4には、文「おいしい魚をいただいた」に対する正規化処理の一例を示す。なお、文401の表記は、形態素解析結果(ステップS302)で得られる形態素列で記述しており、文402の表記は、正規化処理結果(ステップS303)で得られる形態素列で記述している。
FIG. 4 shows an example of normalization processing for the sentence “I received a delicious fish”. The notation of the
文401において、下線部「いただい」が「食べる」の謙譲語であるため、ステップS303の正規化処理の結果、文402のように補正される。この事例では「謙譲語を標準形にする」「活用形を原型にする」の2つの補正が実施されている。補正のための情報はステップS302で実施した形態素解析の結果に含まれている。
In the
図3に戻って、続くステップS304で構文解析を行う。構文解析では文節間の係り先を特定する係り受け解析処理を実施して、文節単位での文構造を獲得する。 Returning to FIG. 3, syntax analysis is performed in the subsequent step S304. In the syntax analysis, dependency analysis processing for specifying a dependency destination between clauses is performed, and a sentence structure in a phrase unit is acquired.
一般的な構文解析ツールにはCaboChaやKNP等があり、特にCaboChaは、構文解析でステップS302の形態素解析を一度に実施できるツールであるため、ステップS302の形態素解析の代わりにステップS304の構文解析を実施してから、構文解析結果に含まれる形態素に関する情報に基づいて、ステップS303の正規化処理を実施する必要がある。 Common parsing tools include CaboCha and KNP. In particular, CaboCha is a tool that can perform the morphological analysis of step S302 at a time in the parsing, and therefore the parsing of step S304 instead of the morphological analysis of step S302. After performing the above, it is necessary to perform the normalization process in step S303 based on the information about the morpheme included in the syntax analysis result.
ステップS304を実施した時点で、入力文書に対して形態素解析結果と構文解析結果との2つの解析結果を得る。これらの解析結果からステップS305の評価語抽出処理、及びステップS306の発言者情報抽出処理を実施する。 When step S304 is performed, two analysis results are obtained for the input document: a morphological analysis result and a syntax analysis result. From these analysis results, an evaluation word extraction process in step S305 and a speaker information extraction process in step S306 are performed.
まず、ステップS305の評価語抽出処理について、図5から図12を用いて説明する。 First, the evaluation word extraction process in step S305 will be described with reference to FIGS.
評価語抽出処理は、ステップS302の形態素解析から得られた解析結果に対して、パターンマッチングを行うことで、予め評価辞書部101(図16に示す評価辞書)に登録されている評価語を抽出する処理である。 The evaluation word extraction process extracts evaluation words registered in advance in the evaluation dictionary unit 101 (the evaluation dictionary shown in FIG. 16) by performing pattern matching on the analysis result obtained from the morphological analysis in step S302. It is processing to do.
図16に評価辞書の一例を示す。評価辞書は評価表現と成り得る語を登録している辞書である。各語にはユニークなID値が定義されており(図16における語ID1601)、一意に管理されている。
FIG. 16 shows an example of the evaluation dictionary. The evaluation dictionary is a dictionary in which words that can be evaluated expressions are registered. A unique ID value is defined for each word (
語ID1601ごとに、表記1602、初期極性1603、共起属性1604、分野1606が定義されている。これらの詳細については前述した通りである。なお、語ID1601については、ID値に対して任意の演算を実施することで、評価辞書において管理しているID値であることがわかるようになっている。
For each
まず、ステップS501において、評価語候補リストを初期化する。評価語候補リストとは、以降の抽出処理において検出された評価語及び当該評価語に関係する付属情報を一時保存しておくための領域である。 First, in step S501, the evaluation word candidate list is initialized. The evaluation word candidate list is an area for temporarily storing evaluation words detected in the subsequent extraction process and attached information related to the evaluation words.
続くステップS502からステップS506において、前記形態素解析結果(ステップS302)と前記正規化処理(ステップS303)で得た形態素列に対して、予め評価辞書部101に登録されている評価語に一致するものがあるか否かを判定する。
In subsequent steps S502 to S506, the morpheme analysis result (step S302) and the morpheme string obtained by the normalization process (step S303) match the evaluation words registered in the
一致するものがあると判定した場合(ステップS504で「はい」のとき)、ステップS505に進み、前記評価語候補リストに当該語IDと形態素IDと文節IDとを組み合わせて追加し、一致するものがないと判定した場合(ステップS504で「いいえ」のとき)、ステップS506に進む(ステップS502へ戻る)。 If it is determined that there is a match (if “Yes” in step S504), the process proceeds to step S505, and the word ID, morpheme ID, and phrase ID are added to the evaluation word candidate list in combination and matched. If it is determined that there is no (No in step S504), the process proceeds to step S506 (returns to step S502).
図10に評価語候補リストの一例を示す。語ID1001は、抽出された評価語候補の語を一意に識別するための語IDが格納されており、語IDは、評価辞書部101で管理されている。
FIG. 10 shows an example of the evaluation word candidate list. The
形態素ID1002は、ステップS302で得られた形態素解析結果における形態素識別番号である。同様に文節ID1003は、ステップS304で得られた構文解析結果における文節識別番号である。
The
なお、表記1004は、図表の理解を得やすくするために便宜上記載しているものである。この事例では、評価候補語「値段」の語IDは、167であり、形態素IDは4、文節IDは2として抽出されていることを意味する。
Note that the
なお、ステップS503における評価語検索では、類語辞書部102に登録されている同義語や類義語も合わせて検索することも可能である。評価辞書部101と類語辞書部102との関係については、後述する。
In the evaluation word search in step S503, it is also possible to search for synonyms and synonyms registered in the
続くステップS507において、重複候補削除処理を実施する。図6を用いて重複候補削除処理を説明する。 In subsequent step S507, the duplication candidate deletion process is performed. The duplication candidate deletion process will be described with reference to FIG.
図6における文601は、文「おたふく風邪になった」に対して、ステップS302の形態素解析処理及びステップS303の正規化処理を実施した結果である。ここで、評価辞書部101に評価語「おたふく風邪」と「風邪」が登録されている、とする。
The
このとき、ステップS503の評価語検索では、文601の第1形態素と第2形態素からなる「おたふく/風邪」と第2形態素のみの「風邪」をともに前記評価語候補リストに登録する。
At this time, in the evaluation word search of step S503, both “muffled / cold” consisting of the first morpheme and second morpheme of the
この態様の例としては、Aho-Corasick法等の複数キーワードを用いたパターンマッチングを行うことが1例としてあげられる。 As an example of this mode, pattern matching using a plurality of keywords such as the Aho-Corasick method can be cited as an example.
重複候補削除処理では、このような任意の評価語候補(文601における「風邪」)が他の評価語候補(文601における「おたふく/風邪」)に含まれる場合、構成形態素数の多い候補を優先する。文601の例では2つの形態素からなる「おたふく/風邪」を優先し、1つの形態素からなる「風邪」を前記評価語候補リストから削除する。
In the duplication candidate deletion process, when such an arbitrary evaluation word candidate (“cold” in the sentence 601) is included in another evaluation word candidate (“muffled / cold” in the sentence 601), a candidate having a large number of constituent morphemes is selected. Prioritize. In the example of the
続くステップS508において、共起処理を実施する。図7、図8、図9、図11及び図12を用いて、共起処理を説明する。 In subsequent step S508, co-occurrence processing is performed. The co-occurrence process will be described with reference to FIGS. 7, 8, 9, 11, and 12.
共起処理とは、他の語と合わせて何らかの評価を表す表現(以下、評価表現とする)を検出する処理である。図7の文701は、文「今年のさんまは値段が高い」に対して、ステップS302の形態素解析処理を実施した結果である。この例では「値段」は単独で評価表現ではないが、「高い」とともに出現することで、評価表現となる一例である。
The co-occurrence process is a process for detecting an expression representing some evaluation together with other words (hereinafter referred to as an evaluation expression). A
ここで、図8に文701の構文解析の結果である係り受け解析結果を示す。係り受けとは、文を文節単位に切り分けたとき、どの文節がどの文節に係るかを示す構文解析結果である。
FIG. 8 shows a dependency analysis result that is a result of the syntax analysis of the
図8では、文節801は文節804に係り、文節802は文節803に係り、文節803は文節804に係ることを示す。このとき、「値段」を含む文節803と「高い」を含む文節804に着目すると、文節803から文節804に係っていることがわかる。従って、「値段」と「高い」は共起関係にあると判断することができるため、評価表現(値段、高い)が有効となる。
In FIG. 8, the
一方で、単に「値段」と「高い」が文中で出現したから評価表現であると判断することはできない。このような語の組み合わせは、前述したように、文中において関係性のある位置になければならない。 On the other hand, since “price” and “high” appear in the sentence, it cannot be judged as evaluation expressions. Such word combinations must be in relevant positions in the sentence, as described above.
例えば、文「背の高い人が売っていたさんまの値段はいくらですか?」の構文解析結果を、図9に示す。「値段」を含む文節906は文節907に係り、「高い」を含む文節902は文節903に係るため、「値段」と「高い」は共起関係にない、と判断できる。このように、文中において2つの語に関係性があるかどうかを判定するために、前記ステップS304で得られた構文解析結果を用いる。
For example, FIG. 9 shows a syntax analysis result of the sentence “How much is the price of a sama sold by a tall person?”. Since the
図11を用いて共起処理の詳細を説明する。図5のステップS505で追加した前記評価語候補リストからひとつの評価語候補を取り出し、語IDをキーとして評価辞書部101から当該語の極性等の情報を含む評価語情報を取得する(ステップS1102)。
Details of the co-occurrence process will be described with reference to FIG. One evaluation word candidate is extracted from the evaluation word candidate list added in step S505 in FIG. 5, and evaluation word information including information such as the polarity of the word is obtained from the
なお、後述するが、語IDが類義語の場合は、類語辞書部102(図18に示す類語辞書)から代表評価語を検索した上で、評価辞書部101から当該語の評価語情報を取得する。
As will be described later, when the word ID is a synonym, the representative word is retrieved from the synonym dictionary unit 102 (the synonym dictionary shown in FIG. 18), and the evaluation word information of the word is acquired from the
次に、図18に類語辞書の一例を示す。類語辞書は評価表現及び代表反転語或いは発言者情報における用言等、本システムで利用される様々な語に対して類義語や同義語を管理している。 Next, FIG. 18 shows an example of a synonym dictionary. The synonym dictionary manages synonyms and synonyms for various words used in this system, such as evaluation expressions, representative inverted words, or predicates in speaker information.
各類語にはユニークなID値が定義されており(図18における類語ID1801)、一意に管理されている。類語ID1801ごとに、表記1802、語ID1803が設定されている。語ID1803は、当該類語の統一表記へのリンクを意味する。例えば、類語ID値10223である「価格」の統一表記は語ID値が167であり、これは評価辞書の「値段」であることがわかる。なお、類語ID1801についても前述したように任意の演算によって、類語であることがわかるような識別番号になっている。
A unique ID value is defined for each synonym (
ステップS1103において、ステップS1102で獲得した評価語情報から初期極性を付与する。初期極性とは、評価語に初期値として設定されている極性であり、肯定(正数)或いは否定(負数)或いは中立(0)の極性が設定されている。 In step S1103, initial polarity is given from the evaluation word information acquired in step S1102. The initial polarity is a polarity set as an initial value in the evaluation word, and an affirmative (positive number), negative (negative number), or neutral (0) polarity is set.
続くステップS1104において、前記評価語情報において、共起属性が設定されているかを判定し、共起属性を持たない(共起属性1604に値が設定されていない)と判定した場合(ステップS1104で「いいえ」の場合)、ステップS1111に進み、共起属性を持っている(共起属性1604に値が設定されている)と判定した場合(ステップS1104において「はい」の場合)、ステップS1105に進む。 In the subsequent step S1104, it is determined whether or not a co-occurrence attribute is set in the evaluation word information, and if it is determined that the co-occurrence attribute is not present (a value is not set in the co-occurrence attribute 1604) (in step S1104). If “no”, the process proceeds to step S1111 and if it is determined that the co-occurrence attribute is present (a value is set in the co-occurrence attribute 1604) (“Yes” in step S1104), the process proceeds to step S1105. move on.
ステップS1105では、前述したように、当該評価語候補の係り先文節を確認する処理を実施する。当該評価語候補の係り先文節IDを持つ別の評価語候補が前記評価語候補リスト内にあるかどうかを確認する。 In step S1105, as described above, a process of confirming the related phrase of the evaluation word candidate is performed. It is checked whether another evaluation word candidate having a related phrase ID of the evaluation word candidate is in the evaluation word candidate list.
また、係り先文節の情報は、ステップS304で得られた構文解析結果を参照することで得ることができる。あるいは、図10に示す評価語候補リストに構文解析結果として係り先の文節を示す文節IDを備え、この文節IDを参照して、係り先文節の情報を取得しても良い。 Further, the information on the relation clause can be obtained by referring to the syntax analysis result obtained in step S304. Alternatively, the evaluation word candidate list shown in FIG. 10 may be provided with a clause ID indicating a related clause as a syntax analysis result, and information on the related clause may be acquired by referring to this clause ID.
例えば、図8における文節803の文節IDが2及び文節804の文節IDが3であるとき、構文解析結果では文節ID2から文節ID3に係り受け関係が成立している情報が含まれており、これに図10で示した評価語候補リストの例と合わせてみると、語ID167の文節IDが2であり、語ID938の文節IDが3であることから、語ID167は語ID938と係り受け関係が成立していると判断できる。
For example, when the phrase ID of the
このような係り受け関係が成立するような評価語候補が前記評価語候補リスト内に存在する場合(ステップS1106で「はい」の場合)、ステップS1107に進み、係り受け関係が成立するような評価語候補が前記評価語候補リスト内に存在しない場合(ステップS1106で「いいえ」の場合)、ステップS1111に進む。 If there are evaluation word candidates that satisfy such a dependency relationship in the evaluation word candidate list (in the case of “Yes” in step S1106), the process proceeds to step S1107, and the evaluation is such that the dependency relationship is satisfied. If the word candidate does not exist in the evaluation word candidate list (“NO” in step S1106), the process proceeds to step S1111.
ステップS1107では、係り受け関係が成立した2つの語が共起関係であるかを判定する。前述した評価辞書部101から取得した評価語情報を参照することで判定する。例えば、語「値段」の共起属性1604に「高い」が設定されているため、共起関係が成立していると判定し(ステップS1107で「はい」の場合)、ステップS1108に進み、係り受け関係は成立するが共起関係にないと判定した場合(ステップS1107で「いいえ」の場合)、ステップS1111に進む。
ステップS1108に進むと、極性を伴った評価表現を検出する。
In step S1107, it is determined whether the two words having the dependency relationship are co-occurrence relationships. The determination is made by referring to the evaluation word information acquired from the
In step S1108, an evaluation expression with polarity is detected.
一方、ステップS1104で「いいえ」の場合或いはステップS1106で「いいえ」の場合或いはステップS1107で「いいえ」の場合は、共起関係等がないため、前記評価語候補単独で評価表現が成立するかどうかを判定する。前記初期極性が中立であると判定した場合(ステップS1111で「いいえ」の場合)は、極性がないため評価表現として検出しないためステップS1110に進み、前記初期極性が中立でないと判定した場合(ステップS1111で「はい」の場合)、ステップS1108に進み、極性を伴った評価表現として検出する。 On the other hand, if “NO” in step S1104, “NO” in step S1106, or “NO” in step S1107, since there is no co-occurrence relationship, etc., is the evaluation word candidate established by the evaluation word candidate alone? Determine if. When it is determined that the initial polarity is neutral (in the case of “No” in step S1111), since there is no polarity, it is not detected as an evaluation expression, so the process proceeds to step S1110, and when it is determined that the initial polarity is not neutral (step In the case of “Yes” in S1111, the process proceeds to step S1108 and is detected as an evaluation expression with polarity.
ステップS1108で検出した評価表現に対して、続くステップS1109で否定表現によって評価極性が変化しないかどうかを判定する。図12に否定表現処理のフローチャートを示す。 For the evaluation expression detected in step S1108, it is determined in subsequent step S1109 whether or not the evaluation polarity is changed by a negative expression. FIG. 12 shows a flowchart of negative expression processing.
まず、ステップS1201において、評価辞書部101から当該評価語の分野情報(分野1606)を取得する。分野情報とは評価語が属する分野を表し、例えば、「癌」「病気」「怪我」といった語は「医療」分野に属する、と定義している。
First, in step S1201, field information (field 1606) of the evaluation word is acquired from the
分野情報には代表反転語が定義されており(図17に示す分野反転語のうち代表反転語1702)、例えば、「医療」の代表反転語は「治る」と定義されている。即ち、「医療」関連の評価語が検出されたとき、その共起関係に「治る」が出現している場合、極性を反転させることを目的とする。
In the field information, a representative inverted word is defined (represented
次に、図17に分野反転語の一例を示す。分野1701に対して代表反転語1702がひとつ定義されている。語ID1703は代表反転語1702のID値を示している。代表反転語のID値も、前述したように任意の演算を実施することで、代表反転語であることがわかるようになっている。
Next, FIG. 17 shows an example of the field inversion word. One
続くステップS1202において、抽出された評価表現の係り先に、前述した代表反転語が含まれているかどうかを判定する。評価表現が共起関係にないと判定した場合(図11においてステップ1104で「いいえ」であり且つステップS1111で「はい」の場合)は、係り先が存在しないためステップS1204に進む。
In a succeeding step S1202, it is determined whether or not the representative inverted word described above is included in the relation of the extracted evaluation expression. If it is determined that the evaluation expression does not have a co-occurrence relationship (“No” in
一方、共起関係が成立していると判定した場合は、係り先の文節を確認し当該代表反転語(代表反転語1702)があれば(ステップS1202で「はい」の場合)ステップS1203に進み、なければ(ステップS1202で「いいえ」の場合)ステップS1204に進む。 On the other hand, if it is determined that the co-occurrence relationship is established, the related phrase is confirmed, and if there is the representative inverted word (representative inverted word 1702) (in the case of “Yes” in step S1202), the process proceeds to step S1203. If not (if “NO” in step S1202), the process proceeds to step S1204.
なお、類語辞書部102に代表反転語の類語が設定されている場合は、代表反転語と同様に処理する。例えば、代表反転語「治る」の類語として「治療する」「完治する」(表記1802)等が相当する。
When a synonym of a representative inverted word is set in the
ステップS1203では、代表反転語による否定情報を付与する。抽出された前記評価表現の極性を反転させるのではなく、否定情報を付与することのみを実施し、最終的な評価極性の決定は極性判定部105で行う。
In step S1203, negative information based on representative inverted words is given. Instead of inverting the polarity of the extracted evaluation expression, only the negative information is given, and the final evaluation polarity is determined by the
続くステップS1204において、抽出された評価表現の係り先に否定表現が含まれているかどうかを判定する。共起関係が成立していると判定した場合は、係り先の文節に例えば助動詞「ない」が含まれていないか、或いは「ありません」といった否定表現が存在しないかを確認し、否定表現を含まないと判定した場合は、否定表現処理を終了する。否定表現を含む場合(ステップS1204で「はい」の場合)は、ステップS1205に進み、ステップS1203と同様に、否定情報を付与する。 In a succeeding step S1204, it is determined whether or not a negative expression is included in the relation of the extracted evaluation expression. If it is determined that the co-occurrence relationship has been established, check whether the related clause contains, for example, the auxiliary verb “None” or the presence of a negative expression such as “None”. If it is determined that there is no negative expression process, the negative expression process is terminated. If a negative expression is included (in the case of “Yes” in step S1204), the process proceeds to step S1205, and negative information is added in the same manner as in step S1203.
否定情報処理の一例をあげる。文「病気にならなかった」の場合、構文解析結果は
[病気 / に]→[なる / ない / た]
となり、評価表現「病気」の係り先に否定助動詞「ない」が存在するため、評価表現「病気」の初期極性(−1)に否定情報が付与される。また、文「病気が治った」の場合、構文解析結果は
[病気 / が」→[治る / た]
となり、評価表現「病気」の係り先に分野の代表反転語「治る」が存在するため、評価表現「病気」の初期極性(−1)に否定情報が付与される。また、文「病気が治らなかった」の場合、構文解析結果は
[病気 / が」→[治る / ない / た]
となり、評価表現「病気」の係り先に分野の代表反転語「治る」が存在するため、評価表現「病気」の初期極性(−1)に否定情報が付与され、さらに否定助動詞「ない」が存在するため、さらに否定情報が付与される。即ち、初期極性(−1)に否定情報が2つ付与される。
An example of negative information processing is given. In the case of the sentence “I did not get sick”, the result of the parsing is [ Ill / Ne ] → [Become / N / t]
Thus, since the negative auxiliary verb “None” exists at the destination of the evaluation expression “disease”, negative information is given to the initial polarity (−1) of the evaluation expression “disease”. Also, in the case of the sentence “Illness has been cured”, the parsing result is [ Illness / Gas ] → [ Healing / Ta ]
Thus, since the representative inversion word “cure” of the field exists at the destination of the evaluation expression “disease”, negative information is given to the initial polarity (−1) of the evaluation expression “disease”. Also, in the case of the sentence “Disease was not cured”, the result of the parsing is [ Illness / Gas ] → [ Cure / No / Ta ]
Since there is a representative inversion word “cure” in the field of the evaluation expression “disease”, negative information is given to the initial polarity (−1) of the evaluation expression “disease”, and the negative auxiliary verb “no” is further added. Since it exists, further negative information is given. That is, two pieces of negative information are assigned to the initial polarity (−1).
図11に戻り、以上の処理を前記評価語候補リスト内のすべての評価語候補について繰り返し、共起処理を終了する。 Returning to FIG. 11, the above process is repeated for all the evaluation word candidates in the evaluation word candidate list, and the co-occurrence process is terminated.
図6に戻り、以上の処理で評価語抽出処理を終了する。この段階で文から、評価表現と否定情報の有無及び構文解析結果等を得ている。 Returning to FIG. 6, the evaluation word extraction processing is completed by the above processing. At this stage, the evaluation expression, the presence or absence of negative information, the result of parsing, etc. are obtained from the sentence.
前記評価語抽出処理を行う一方で、発言者情報抽出部104において、発言者情報の抽出処理が実施される。発言者情報の抽出とは、文の主格にあたる発言者の「立場」を推定することである。
While performing the evaluation word extraction process, the speaker
例えば、文「値段が高かったのでさんまは買わなかった」の場合、動詞「買う」が使用されていることから発言者情報は「消費者」と推定できる。 For example, in the case of the sentence “I did not buy Sanma because the price was high”, the verb information “Buy” is used, so that the speaker information can be estimated as “Consumer”.
ここで、前述した評価表現「値段が高い」を例に説明する。発言者情報が「消費者」の場合、評価表現「値段が高い」は否定極性になることが容易に推測される。一方で発言者情報が「供給者」の場合は肯定極性になることが推測される。 Here, the evaluation expression “price is high” will be described as an example. When the speaker information is “consumer”, it is easily estimated that the evaluation expression “price is high” has a negative polarity. On the other hand, when the speaker information is “supplier”, it is presumed that the polarity is positive.
即ち、評価表現「値段が高い」について、文「値段が高かったのでさんまは買わなかった」では否定極性となり、文「昨日のさんまは値段が高く売れた」の場合では肯定極性と判定すべきである。このような発言者情報を抽出する手法について、図13を用いて説明する。 In other words, the evaluation expression “price is high” should be judged as negative polarity in the sentence “I didn't buy sanma because the price was high”, and positive in the case of the sentence “yama yesterday was high in price” It is. A method for extracting such speaker information will be described with reference to FIG.
図13のステップS1301において、前記構文解析の結果から最終文節を選択する。続くステップS1302で最終文節が引用節を伴う述部であるかどうかを判定する。引用節とは述部が「と思う」或いは「と考える」等といった述部を要しているものであり、本来評価すべき文章は引用節に含まれている。 In step S1301 of FIG. 13, the final phrase is selected from the result of the syntax analysis. In a succeeding step S1302, it is determined whether or not the final clause is a predicate accompanied by a citation clause. A quote clause requires a predicate such as “I think” or “I think”, and the sentence to be evaluated is included in the quote clause.
引用節を伴うと判定した場合(ステップS1302で「はい」の場合)、ステップS1303に進み、ステップS1301で選択した最終節の代わりに引用節を選択する。具体的には、係り受け解析結果を参照し、最終節に係る文節を選択することで引用節を選択することができる。 If it is determined that a quoted clause is included (“Yes” in step S1302), the process proceeds to step S1303, and a quoted clause is selected instead of the last clause selected in step S1301. Specifically, the citation section can be selected by referring to the dependency analysis result and selecting the clause related to the last section.
続くステップS1304において、選択した文節に発言者用言が含まれているかどうかを判定する。発言者用言とは、例えば、前述した「買う」或いは「売る」といった用言を示し、発言者情報として発言者情報辞書部106(図19に示す発言者情報辞書)に登録されている。 In a succeeding step S1304, it is determined whether or not a speaker precaution is included in the selected phrase. The speaker predicates are, for example, the above-mentioned prescriptions such as “buy” or “sell”, and are registered in the speaker information dictionary unit 106 (speaker information dictionary shown in FIG. 19) as speaker information.
次に、図19に発言者情報辞書の一例を示す。発言者情報辞書も他の辞書と同様に、ユニークなID値である発言者情報ID1901を持ち、用言1902、評価表現1903、極性1904、発言者属性1905を持つ。発言者情報IDについても前述したように任意の演算によって、発言者情報であることがわかるようになっている。
Next, FIG. 19 shows an example of the speaker information dictionary. Like other dictionaries, the speaker information dictionary also has a
選択した文節に発言者用言が含まれると判定した場合(ステップS1304で「はい」の場合)、ステップS1305に進み、当該発言者情報を取得し、発言者用言を含まないと判定した場合(ステップS1304で「いいえ」の場合)、発言者情報がないため、発言者情報抽出処理を終了する。 If it is determined that the selected phrase contains a speaker precaution (if “Yes” in step S1304), the process proceeds to step S1305, where the speaker information is acquired and it is determined that the speaker prescript is not included (In the case of “No” in step S1304), since there is no speaker information, the speaker information extraction process is terminated.
なお、発言者用言の検索には類語辞書部102を利用することも可能であり、この場合は類語辞書から代表用言を獲得して発言者情報辞書部106から発言者情報を得る。例えば、発言者用言の代表用言が「買う」のとき、類語辞書部102に「購入する」が登録されているような場合である。
Note that the
続くステップS1306において、発言者用言を含む文節に逆接の接続助詞があるかを判定する。具体的には「が」「けれども」「のに」等が当該文節に含まれているかどうか、を判定し、逆接の接続助詞を含むと判定した場合(ステップS1306で「はい」の場合)、ステップS1307に進み、逆接の接続助詞による極性補正情報を付与する。一方、逆接の接続助詞を含まないと判定した場合(ステップS1306で「いいえ」の場合)、そのまま発言者情報抽出処理を終了する。 In a succeeding step S1306, it is determined whether or not there is an inverse connected particle in the phrase including the speaker precaution. Specifically, it is determined whether or not “ga”, “but”, “noni”, and the like are included in the clause, and when it is determined that the connected particle of the reverse connection is included (in the case of “Yes” in step S1306), Proceeding to step S 1307, polarity correction information based on reverse connected particles is added. On the other hand, if it is determined that the connected particle is not included (in the case of “No” in step S1306), the speaker information extraction process is terminated as it is.
なお、発言者情報は常に文中で明示されているわけでない。従って、例えば、ひとつ前の発言者情報抽出処理の結果を一時的に記憶しておき、後段の文章において発言者情報が記載されていない場合にのみ前記一時記憶した前文の発言者情報を参照する、といったこともできる。 Note that the speaker information is not always specified in the text. Therefore, for example, the result of the previous speaker information extraction process is temporarily stored, and the temporarily stored speaker information is referred only when the speaker information is not described in the subsequent sentence. , And so on.
発言者情報抽出処理を終了した段階で、発言者用言を検出している場合は、ステップS1305で取得した発言者情報と、逆接の接続助詞を検出している場合は、ステップS1307で付与した極性補正情報を獲得している。以上の発言者情報抽出処理の結果と、前述した評価語抽出処理の結果を合わせて、図3のステップS307における極性判定処理を実施する。 If the speaker information is detected at the stage where the speaker information extraction process is completed, the speaker information acquired in step S1305 and the connected particle of the reverse connection are detected, and are added in step S1307. Polarity correction information has been acquired. The polarity determination process in step S307 in FIG. 3 is performed by combining the result of the above speaker information extraction process and the result of the evaluation word extraction process described above.
図14には、評価語抽出処理の結果と発言者情報抽出処理の結果と、の一例を示す。文「値段が高かったのでさんまは買わなかった」を処理したとき、評価語抽出処理の結果は1401に、発言者情報抽出処理の結果は1405に示す。これらは、所定の記憶領域へテーブルを備え、当該テーブルへ結果を記憶する構成として良い。 FIG. 14 shows an example of the result of the evaluation word extraction process and the result of the speaker information extraction process. When the sentence “Sanma was not bought because the price was high” is processed, the result of the evaluation word extraction process is shown in 1401, and the result of the speaker information extraction process is shown in 1405. These may be configured to include a table in a predetermined storage area and store the result in the table.
評価語抽出処理では、評価表現1402と初期極性1404が抽出される。当該評価表現を含む部分文字列「値段が高かったので」には代表反転語や否定表現を含まないため、結果1401に否定情報は存在しない。なお、語ID1403は、評価辞書部101に登録されている語「値段」のID値になる。
In the evaluation word extraction process, an
発言者情報抽出処理では、最終文節から抽出された用言1407とその発言者情報である発言者情報ID1406、極性1408及び評価表現1409が抽出される。逆説の接続助詞は存在しない。なお、語ID1410は、発言者情報の一部である評価表現1409に設定されている語「値段」のID値になる。
In the speaker information extraction process, the
次に、図15を用いて極性判定処理を説明する。極性判定処理は、前記評価語抽出結果及び前記発言者情報抽出結果から最終的な評価極性を決定する処理である。 Next, the polarity determination process will be described with reference to FIG. The polarity determination process is a process of determining a final evaluation polarity from the evaluation word extraction result and the speaker information extraction result.
図15のステップS1501において、前記評価語抽出処理で抽出結果が得られたかどうかを判定し、抽出結果がないと判定した場合(ステップS1501で「いいえ」の場合)、極性を設定する評価表現が存在しないため、極性判定処理を終了し、抽出結果があると判定した場合(ステップS1501で「はい」の場合)、ステップS1502に進む。 In step S1501 of FIG. 15, it is determined whether or not an extraction result has been obtained by the evaluation word extraction process. If it is determined that there is no extraction result (“No” in step S1501), an evaluation expression for setting the polarity is Since it does not exist, the polarity determination process is terminated, and when it is determined that there is an extraction result (in the case of “Yes” in step S1501), the process proceeds to step S1502.
続くステップS1502において、前記発言者抽出処理で抽出結果が得られたかどうかを判定し、抽出結果がないと判定した場合(ステップS1502で「いいえ」の場合)、ステップS1505に進み、抽出結果があると判定した場合(ステップS1502で「はい」の場合)、ステップS1503に進む。 In subsequent step S1502, it is determined whether or not an extraction result has been obtained by the speaker extraction process. If it is determined that there is no extraction result (in the case of “No” in step S1502), the process proceeds to step S1505, and there is an extraction result. (Yes in step S1502), the process proceeds to step S1503.
ステップS1503では前記発言者抽出処理の結果得られた発言者用言に対して設定されている評価表現が、前記評価語抽出処理の結果に存在するかどうかを判定する。 In step S1503, it is determined whether or not an evaluation expression set for the speaker word obtained as a result of the speaker extraction process exists in the result of the evaluation word extraction process.
図14の例で言えば、評価表現1409「値段、高い」が発言者情報抽出処理で得られているので、評価語抽出処理の結果である1401における評価表現1402と一致するかどうかを判定する。
In the example of FIG. 14, since the
結果が一致すると判定した場合(ステップS1503で「はい」の場合)ステップS1504に進み、一致しないと判定した場合(ステップS1503で「いいえ」の場合)、ステップ1505に進む。 If it is determined that the results match (if “Yes” in step S1503), the process proceeds to step S1504. If it is determined that the results do not match (“no” in step S1503), the process proceeds to step 1505.
続くステップS1504では、前述した2つの評価表現が一致したため、発言者情報における極性を評価語抽出結果に適用する。図14の例で言えば、極性1404の中立(0)を極性1408の否定(−1)に置き換える。
In subsequent step S1504, since the two evaluation expressions described above match, the polarity in the speaker information is applied to the evaluation word extraction result. In the example of FIG. 14, the neutrality (0) of the
続くステップS1505からステップS1507までにおいて、前記評価語抽出処理において検出した否定情報を適用する(図12におけるステップS1203及びステップS1205の処理)。 In subsequent steps S1505 to S1507, the negative information detected in the evaluation word extraction process is applied (the processes in steps S1203 and S1205 in FIG. 12).
さらに続くステップS1508において、発言者情報抽出処理において逆接の接続助詞に起因する極性情報(図13におけるステップS1307の処理)がないかを判定する。極性情報があると判定した場合(ステップS1508で「はい」の場合)、ステップS1509に進み極性を反転し、極性情報がないと判定した場合(ステップS1508で「いいえ」の場合)、極性補正を行わず極性決定処理を終了する。 In further subsequent step S1508, it is determined whether or not there is polarity information (processing in step S1307 in FIG. 13) due to the reverse connected particle in the speaker information extraction processing. If it is determined that there is polarity information (in the case of “Yes” in step S1508), the process proceeds to step S1509, the polarity is reversed, and if it is determined that there is no polarity information (in the case of “No” in step S1508), polarity correction is performed. The polarity determination process is terminated without performing the process.
図14の例で言えば、前述したように極性1404が中立(0)から否定(−1)に置き換わり、その他の否定情報は付与されていないことから、全体として否定(−1)として極性が決定する。従って、文「値段が高かったのでさんまは買わなかった」の評価極性は否定となる。
In the example of FIG. 14, as described above, the
次に、各辞書の一例を、図16〜図19に示したが、評価辞書部101及び類語辞書部102及び発言者情報辞書部106で使用するすべての語句をひとつのパターンマッチングマシン(トライ法等で構築)に登録して処理することで、システム或いは装置において効率的な抽出処理が実施できることは言うまでもない。
Next, an example of each dictionary is shown in FIG. 16 to FIG. 19, but all the phrases used in the
以上、本発明によれば、評価対象となる文書が、肯定的な評価あるいは否定的な評価等であるかを分析するにあたり、評価対象となる文書を構成する評価語の分野属性を考慮して分析を行うことが可能となるので、ユーザへの手間をかけることなく、より精度良く評価対象文書の分析を行うことができる。 As described above, according to the present invention, in analyzing whether a document to be evaluated is a positive evaluation or a negative evaluation, the field attributes of evaluation words constituting the document to be evaluated are considered. Since the analysis can be performed, it is possible to analyze the evaluation target document with higher accuracy without taking time and effort for the user.
以上、実施形態例を詳述したが、本発明は、例えば、システム、装置、方法、プログラムもしくは記憶媒体等としての実施態様を取ることが可能であり、具体的には、複数の機器から構成するシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。 Although the embodiments have been described in detail above, the present invention can take an embodiment as, for example, a system, an apparatus, a method, a program, or a storage medium, and specifically includes a plurality of devices. The present invention may be applied to a system that performs such a process, or may be applied to an apparatus that includes a single device.
なお、上述した各種データの構成及びその内容はこれに限定されるものではなく、用途や目的に応じて、様々な内容で構成されることは言うまでもない。 It should be noted that the configuration and contents of the various data described above are not limited to this, and it is needless to say that they are configured with various contents according to applications and purposes.
また、本発明は、システム或いは装置にプログラムを供給することによって達成される場合にも適用できることは言うまでもない。この場合、本発明を達成するためのソフトウェアによって表されるプログラムを格納した記憶媒体を該システム或いは装置に読み出すことによって、そのシステム或いは装置が、本発明の効果を享受することが可能となる。 Needless to say, the present invention can also be applied to a case where the present invention is achieved by supplying a program to a system or apparatus. In this case, by reading a storage medium storing a program represented by software for achieving the present invention into the system or apparatus, the system or apparatus can enjoy the effects of the present invention.
さらに、本発明を達成するためのソフトウェアによって表されるプログラムをネットワーク上のサーバ、データベース等から通信プログラムによりダウンロードして読み出すことによって、そのシステム或いは装置が、本発明の効果を享受することが可能となる。 Furthermore, by downloading and reading a program represented by software for achieving the present invention from a server, database, etc. on a network using a communication program, the system or apparatus can enjoy the effects of the present invention. It becomes.
なお、上述した各実施形態及びその変形例を組み合わせた構成もすべて本発明に含まれるものである。 In addition, all the structures which combined each embodiment mentioned above and its modification are also included in this invention.
100 文書分析装置
101 評価辞書部
102 類語辞書部
103 評判情報抽出部
104 発言者情報抽出部
105 極性判定部
106 発言者情報辞書部
107 テキスト文書
201 CPU
202 RAM
203 ROM
204 システムバス
205 入力コントローラ
206 ビデオコントローラ
207 メモリコントローラ
208 通信I/F(インターフェース)コントローラ
209 入力装置
210 表示装置
211 外部メモリ
DESCRIPTION OF
202 RAM
203 ROM
204
Claims (6)
前記文書の形態素解析及び構文解析から求まる評価対象とする評価語及び前記評価語の評価極性を含む評価語情報を取得する評価情報取得手段と、
前記評価情報取得手段によって取得した評価情報の評価語との係り受け関係となる前記評価語と異なる評価語を取得する係受評価語取得手段と、
前記係受評価語取得手段によって取得した評価語と係り受け関係にある評価語とが、共起関係にあるか否かを判定する共起関係判定手段と、
前記共起関係判定手段によって共起関係にある評価語の評価極性を変更するための変更情報を取得する変更情報取得手段と、
を備えたことを特徴とする情報処理装置。 An information processing apparatus that analyzes positive evaluation or negative evaluation in a document,
Evaluation information acquisition means for acquiring evaluation word information including an evaluation word to be evaluated and an evaluation polarity of the evaluation word obtained from morphological analysis and syntax analysis of the document;
Dependency evaluation word acquisition means for acquiring an evaluation word different from the evaluation word that is a dependency relationship with the evaluation word of the evaluation information acquired by the evaluation information acquisition means;
Co-occurrence relation determining means for determining whether or not an evaluation word acquired by the dependency evaluation word acquiring means and an evaluation word having a dependency relation have a co-occurrence relationship;
Change information acquisition means for acquiring change information for changing the evaluation polarity of evaluation words in co-occurrence relation by the co-occurrence relation determination means;
An information processing apparatus comprising:
前記変更情報取得手段は、前記変更判別情報記憶手段によって記憶した変更判別情報から前記変更情報を取得することを特徴とする請求項1に記載の情報処理装置。 Change determination information storage means for storing change determination information indicating whether or not to change the evaluation polarity for the evaluation words in the co-occurrence relationship;
The information processing apparatus according to claim 1, wherein the change information acquisition unit acquires the change information from the change determination information stored by the change determination information storage unit.
前記変更情報取得手段は、前記発言者特定手段によって特定された発言者によって、前記評価語の前記変更情報を、更に、変更することを特徴とする請求項1乃至3の何れか1項に記載の情報処理装置。 A speaker identification means for identifying a speaker in the document;
The said change information acquisition means changes the said change information of the said evaluation word further by the speaker specified by the said speaker specific means, The change in any one of Claim 1 thru | or 3 characterized by the above-mentioned. Information processing device.
前記情報処理装置は、
前記文書の形態素解析及び構文解析から求まる評価対象とする評価語及び前記評価語の評価極性を含む評価語情報を取得する評価情報取得ステップと、
前記評価情報取得ステップによって取得した評価情報の評価語との係り受け関係となる前記評価語と異なる評価語を取得する係受評価語取得ステップと、
前記係受評価語取得ステップによって取得した評価語と係り受け関係にある評価語とが、共起関係にあるか否かを判定する共起関係判定ステップと、
前記共起関係判定ステップによって共起関係にある評価語の評価極性を変更するための変更情報を取得する変更情報取得ステップと、
を実行することを特徴とする情報処理装置の制御方法。 A method for controlling an information processing apparatus that analyzes positive evaluation or negative evaluation in a document,
The information processing apparatus includes:
An evaluation information acquisition step for acquiring evaluation word information including an evaluation word to be evaluated and an evaluation polarity of the evaluation word obtained from morphological analysis and syntax analysis of the document;
A dependency evaluation word acquisition step of acquiring an evaluation word different from the evaluation word which is a dependency relationship with the evaluation word of the evaluation information acquired by the evaluation information acquisition step;
A co-occurrence relationship determination step for determining whether or not the evaluation word acquired in the dependency evaluation word acquisition step and the evaluation word in the dependency relationship are in a co-occurrence relationship;
A change information acquisition step for acquiring change information for changing the evaluation polarity of evaluation words in a co-occurrence relationship by the co-occurrence relationship determination step;
A method for controlling an information processing apparatus, characterized by:
前記情報処理装置を、
前記文書の形態素解析及び構文解析から求まる評価対象とする評価語及び前記評価語の評価極性を含む評価語情報を取得する評価情報取得手段と、
前記評価情報取得手段によって取得した評価情報の評価語との係り受け関係となる前記評価語と異なる評価語を取得する係受評価語取得手段と、
前記係受評価語取得手段によって取得した評価語と係り受け関係にある評価語とが、共起関係にあるか否かを判定する共起関係判定手段と、
前記共起関係判定手段によって共起関係にある評価語の評価極性を変更するための変更情報を取得する変更情報取得手段と、
して機能させることを特徴とするプログラム。 A program that can be read and executed by an information processing device that analyzes positive evaluation or negative evaluation in a document,
The information processing apparatus;
Evaluation information acquisition means for acquiring evaluation word information including an evaluation word to be evaluated and an evaluation polarity of the evaluation word obtained from morphological analysis and syntax analysis of the document;
Dependency evaluation word acquisition means for acquiring an evaluation word different from the evaluation word that is a dependency relationship with the evaluation word of the evaluation information acquired by the evaluation information acquisition means;
Co-occurrence relation determining means for determining whether or not an evaluation word acquired by the dependency evaluation word acquiring means and an evaluation word having a dependency relation have a co-occurrence relationship;
Change information acquisition means for acquiring change information for changing the evaluation polarity of evaluation words in co-occurrence relation by the co-occurrence relation determination means;
A program characterized by making it function.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013269019A JP2015125570A (en) | 2013-12-26 | 2013-12-26 | Information processing apparatus, control method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013269019A JP2015125570A (en) | 2013-12-26 | 2013-12-26 | Information processing apparatus, control method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015125570A true JP2015125570A (en) | 2015-07-06 |
Family
ID=53536240
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013269019A Pending JP2015125570A (en) | 2013-12-26 | 2013-12-26 | Information processing apparatus, control method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2015125570A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018200650A (en) * | 2017-05-30 | 2018-12-20 | 株式会社ソケッツ | Language information analysis apparatus and method |
CN109117470A (en) * | 2017-06-22 | 2019-01-01 | 北京国双科技有限公司 | A kind of evaluation relation extracting method and device for evaluating text information |
-
2013
- 2013-12-26 JP JP2013269019A patent/JP2015125570A/en active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018200650A (en) * | 2017-05-30 | 2018-12-20 | 株式会社ソケッツ | Language information analysis apparatus and method |
CN109117470A (en) * | 2017-06-22 | 2019-01-01 | 北京国双科技有限公司 | A kind of evaluation relation extracting method and device for evaluating text information |
CN109117470B (en) * | 2017-06-22 | 2022-11-04 | 北京国双科技有限公司 | Evaluation relation extraction method and device for evaluating text information |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10157171B2 (en) | Annotation assisting apparatus and computer program therefor | |
US9965547B2 (en) | System and methods for automating trademark and service mark searches | |
US20160180221A1 (en) | Systems and methods for semantic concept definition and semantic concept relationship synthesis utilizing existing domain definitions | |
US10552522B2 (en) | Automatically generating a glossary of terms for a given document or group of documents | |
US10496756B2 (en) | Sentence creation system | |
KR20120135218A (en) | Matching metadata sources using rules for characterizing matches | |
CN105095204A (en) | Method and device for obtaining synonym | |
CA3207902C (en) | Auditing citations in a textual document | |
US20180060779A1 (en) | Method of generating business process model and computerized system associated therewith | |
JP5204203B2 (en) | Example translation system, example translation method, and example translation program | |
US10324966B2 (en) | Search by example | |
CN114141384A (en) | Method, apparatus and medium for retrieving medical data | |
JP2015125570A (en) | Information processing apparatus, control method, and program | |
KR20170044408A (en) | System and method for recommending project | |
JP6305630B2 (en) | Document search apparatus, method and program | |
JP2003108571A (en) | Document summary device, control method of document summary device, control program of document summary device and recording medium | |
JP5594225B2 (en) | Knowledge acquisition device, knowledge acquisition method, and program | |
JP4417967B2 (en) | Example database and example search system | |
WO2021049485A1 (en) | Legal analyzer and legal analysis method | |
TWI427494B (en) | A patent document search system, processing method, and search method with cloud structure | |
WO2016071942A1 (en) | Method for processing knowledge or information, device, and computer program | |
Luo et al. | Toward an accurate method renaming approach via structural and lexical analyses | |
JP2023073641A (en) | Item management apparatus, item management method, and program | |
JP2016122263A (en) | Information processing apparatus, information processing method, and program | |
JP2023062700A (en) | Document analysis support system and method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20150410 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20161101 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20161101 |