JP6213196B2 - Information processing program and information processing apparatus - Google Patents
Information processing program and information processing apparatus Download PDFInfo
- Publication number
- JP6213196B2 JP6213196B2 JP2013251966A JP2013251966A JP6213196B2 JP 6213196 B2 JP6213196 B2 JP 6213196B2 JP 2013251966 A JP2013251966 A JP 2013251966A JP 2013251966 A JP2013251966 A JP 2013251966A JP 6213196 B2 JP6213196 B2 JP 6213196B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- polarity
- range
- information processing
- extracted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000010365 information processing Effects 0.000 title claims description 63
- 230000014509 gene expression Effects 0.000 claims description 37
- 230000006870 function Effects 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 11
- 238000010801 machine learning Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 description 16
- 238000013075 data extraction Methods 0.000 description 15
- 230000008451 emotion Effects 0.000 description 8
- 239000000284 extract Substances 0.000 description 7
- 230000000694 effects Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000000034 method Methods 0.000 description 2
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、情報処理プログラム及び情報処理装置に関する。 The present invention relates to an information processing program and an information processing apparatus.
従来の技術として、極性表現が複数含まれる文を整形する情報処理装置が提案されている(例えば、特許文献1参照)。 As a conventional technique, an information processing apparatus that shapes a sentence including a plurality of polar expressions has been proposed (see, for example, Patent Document 1).
特許文献1に開示された情報処理装置は、言語データとして事実を表した事態文と感情を表した感情語が入力されると、事態文に形態素解析を行って事態文を単語に分解し、感情語から第1の感情極性を判定するとともに事態文を分解することで得られた単語から第2の感情極性を判定して、第1の感情極性と第2の感情極性とが相反するものである場合、第2の感情極性が判定された単語を事態文から削除することで文を整形する。
The information processing device disclosed in
本発明の目的は、言語データから極性表現が均一に含まれるデータを抽出する情報処理プログラム及び情報処理装置を提供することにある。 An object of the present invention is to provide an information processing program and an information processing apparatus that extract data that includes a polar expression uniformly from language data.
本発明の一態様は、上記目的を達成するため、以下の情報処理プログラム及び情報処理装置を提供する。 In order to achieve the above object, one embodiment of the present invention provides the following information processing program and information processing apparatus.
[1] コンピュータを、
言語データから分析する対象として予め定めた範囲のデータを抽出する抽出手段と、
単語と極性及び極性の強さとを対応付けた極性表現辞書に基づいて前記抽出したデータに含まれる単語の極性を分析する分析手段と、
前記分析した極性の強さが予め定めた値より大きい場合、前記抽出したデータの範囲を拡げ、前記抽出したデータに複数の極性が混在している場合、それぞれの極性が含まれる範囲で当該抽出したデータを分割して、前記抽出したデータの範囲を変更する変更手段と、
前記変更手段が範囲を変更したデータを抽出データとして出力する出力手段として機能させるための情報処理プログラム。
[1] Connect the computer
Extracting means for extracting data in a predetermined range as an object to be analyzed from language data;
Analyzing means for analyzing the polarity of a word included in the extracted data based on a polarity expression dictionary that associates a word with polarity and polarity strength;
When the intensity of the analyzed polarity is larger than a predetermined value, the range of the extracted data is expanded. When a plurality of polarities are mixed in the extracted data, the extraction is performed in a range including each polarity. Changing means for dividing the extracted data and changing the range of the extracted data;
An information processing program for causing the changing means to function as output means for outputting data whose range has been changed as extracted data.
[2] コンピュータを
言語データから分析する対象として予め定めた範囲のデータを抽出する抽出手段と、
単語と極性及び極性の強さとを対応付けた極性表現辞書に基づいて前記抽出したデータに含まれる単語の極性を分析する分析手段と、
前記分析した極性の強さが予め定めた値より大きい場合、前記抽出したデータの範囲を拡げ、前記抽出したデータに複数の極性が混在している場合、それぞれの極性が含まれる範囲で当該抽出したデータを分割して、前記抽出したデータの範囲を変更する変更手段と、
前記変更手段が範囲を変更したデータを機械学習に用いる教師データとして出力する教師データ出力手段
として機能させるための情報処理プログラム。
[2] Extraction means for extracting data in a predetermined range as a target for analyzing a computer from language data;
Analyzing means for analyzing the polarity of a word included in the extracted data based on a polarity expression dictionary that associates a word with polarity and polarity strength;
When the intensity of the analyzed polarity is larger than a predetermined value, the range of the extracted data is expanded. When a plurality of polarities are mixed in the extracted data, the extraction is performed in a range including each polarity. Changing means for dividing the extracted data and changing the range of the extracted data;
An information processing program for functioning as teacher data output means for outputting data whose range has been changed by the changing means as teacher data used for machine learning.
[3]コンピュータを、
言語データから分析する対象として予め定めた範囲のデータを抽出する抽出手段と、
予め用意した学習モデルを用いて前記抽出したデータを多値分類する判定手段と、
単語と極性及び極性の強さとを対応付けた極性表現辞書に基づいて前記判定したデータに含まれる単語の極性を分析する分析手段と、
前記分析した極性の強さが予め定めた値より大きい場合、前記判定したデータの範囲を拡げ、前記判定したデータに複数の極性が混在している場合、それぞれの極性が含まれる範囲で当該判定したデータを分割して、前記判定したデータの範囲を変更する変更手段として機能させ、
前記判定手段は、当該範囲の変更されたデータを多値分類する情報処理プログラム。
[3]
Extracting means for extracting data in a predetermined range as an object to be analyzed from language data;
Determination means for multi-value classification of the extracted data using a learning model prepared in advance;
Analyzing means for analyzing the polarity of a word included in the determined data based on a polarity expression dictionary that associates a word with polarity and polarity strength;
If the strength of the analyzed polarity is greater than a predetermined value, the range of the determined data is expanded, and if a plurality of polarities are mixed in the determined data, the determination is made within a range including each polarity. Dividing the processed data and functioning as a changing means for changing the determined data range,
The determination means is an information processing program for performing multi-value classification on data whose range has been changed.
[4]コンピュータを、
言語データから分析する対象として予め定めた範囲のデータを抽出する抽出手段と、
予め用意した学習モデルを用いて前記抽出したデータを多値分類する判定手段と、
単語と極性及び極性の強さとを対応付けた極性表現辞書に基づいて前記判定したデータに含まれる単語の極性を分析する分析手段と、
前記分析した極性の強さが予め定めた値より大きい場合、前記判定したデータの範囲を拡げ、前記判定したデータに複数の極性が混在している場合、それぞれの極性が含まれる範囲で当該判定したデータを分割して、前記判定したデータの範囲を変更する変更手段と、
当該範囲の変更されたデータを教師データとして前記学習モデルを再学習する再学習手段として機能させるための情報処理プログラム。
[4]
Extracting means for extracting data in a predetermined range as an object to be analyzed from language data;
Determination means for multi-value classification of the extracted data using a learning model prepared in advance;
Analyzing means for analyzing the polarity of a word included in the determined data based on a polarity expression dictionary that associates a word with polarity and polarity strength;
If the strength of the analyzed polarity is greater than a predetermined value, the range of the determined data is expanded, and if a plurality of polarities are mixed in the determined data, the determination is made within a range including each polarity. Changing means for dividing the determined data and changing the range of the determined data;
An information processing program for functioning as relearning means for relearning the learning model using the data in which the range is changed as teacher data.
[5]言語データから分析する対象として予め定めた範囲のデータを抽出する抽出手段と、
単語と極性及び極性の強さとを対応付けた極性表現辞書に基づいて前記抽出したデータに含まれる単語の極性を分析する分析手段と、
前記分析した極性の強さが予め定めた値より大きい場合、前記抽出したデータの範囲を拡げ、前記抽出したデータに複数の極性が混在している場合、それぞれの極性が含まれる範囲で当該抽出したデータを分割して、前記抽出したデータの範囲を変更する変更手段と、
前記変更手段が範囲を変更したデータを抽出データとして出力する出力手段とを有する情報処理装置。
[5] extraction means for extracting data in a predetermined range as an object to be analyzed from language data;
Analyzing means for analyzing the polarity of a word included in the extracted data based on a polarity expression dictionary that associates a word with polarity and polarity strength;
When the intensity of the analyzed polarity is larger than a predetermined value, the range of the extracted data is expanded. When a plurality of polarities are mixed in the extracted data, the extraction is performed in a range including each polarity. Changing means for dividing the extracted data and changing the range of the extracted data;
An information processing apparatus comprising: output means for outputting the data whose range has been changed by the changing means as extracted data.
請求項1又は5に係る発明によれば、言語データから極性表現が均一に含まれるデータを抽出することができる。
According to the invention which concerns on
請求項2に係る発明によれば、極性表現が均一に含まれるデータを多値分類器の教師データにすることで、多値分類の精度を向上することができる。 According to the second aspect of the present invention, the accuracy of multi-level classification can be improved by using the data including the polar expression uniformly as the teacher data of the multi-level classifier.
請求項3に係る発明によれば、極性表現が均一に含まれるデータを多値分類することで、多値分類の精度を向上することができる。 According to the third aspect of the invention, it is possible to improve the accuracy of multi-level classification by performing multi-level classification on data in which polarity expressions are uniformly included.
請求項4に係る発明によれば、極性表現が均一に含まれるデータを用いて再学習することで、機械学習の精度を向上することができる。 According to the fourth aspect of the present invention, it is possible to improve the accuracy of machine learning by performing relearning using data in which the polar expression is uniformly included.
[第1の実施の形態]
(情報処理装置の構成)
図1は、第1の実施の形態に係る情報処理装置の構成の一例を示すブロック図である。
[First Embodiment]
(Configuration of information processing device)
FIG. 1 is a block diagram illustrating an example of the configuration of the information processing apparatus according to the first embodiment.
この情報処理装置1は、複数の文を含む言語データ111から、一例として、文や節を単位としてデータを抽出し、当該データに極性表現が均一に含まれるようにし、当該データを抽出データ113として出力するものである。ここで、「極性」とは「ポジティブ」や「ネガティブ」といった2以上の値を有するものであって、「極性表現」とは、極性が「ポジティブ」に属する「うれしい」や「たのしい」等、極性が「ネガティブ」に属する「つまらない」や「飽きた」等の形態素又は単語を示すものとする。
As an example, the
情報処理装置1は、CPU等から構成され各部を制御するとともに各種のプログラムを実行する制御部10と、HDD(Hard Disk Drive)やフラッシュメモリ等の記録媒体から構成され情報を記憶する記憶装置の一例としての記憶部11と、外部機器と図示しないネットワークを介して接続される通信部12とを備える。
The
制御部10は、後述する情報処理プログラム110を実行することで、言語データ取得手段100、データ抽出手段101、極性分析手段102、データ範囲変更手段103及び抽出データ出力手段104等として機能する。
The
言語データ取得手段100は、記憶部11の言語データ111から指定された条件に該当する言語データを取得する。条件は適宜変更可能であるが、例えば、データを作成した利用者やデータが作成された日時等を指定するものである。
The language
データ抽出手段101は、言語データ取得手段100が取得した言語データ111から、予め定めた単位でデータを抽出する。予め定めた単位は適宜変更可能であるが、本実施の形態では例えば、文を単位とする。また、所定の文字数以内の文を単位としてデータを抽出してもよい。
The
極性分析手段102は、データ抽出手段101が抽出したデータのそれぞれについて、後述する極性表現辞書データ112を参照することにより、当該データに含まれる極性の種類、極性の強さ 等を分析する。ここで、「極性の強さ」とは、後述する図2に示すように複数段階(「3、2、1」や「大、中、小」)で程度を示すものや、極性の有無(「有、無」)で程度を示すものが含まれ、強さを示すものであれば他の表記法に従うものであってもよい。
The
データ範囲変更手段103 は、極性分析手段102の分析結果に基づき、データ抽出手段101が抽出したデータの範囲を文や節の単位で拡張したり、 分割したりすることで変更する。なお、データ範囲変更手段103は、拡張又は分割のいずれかのみでデータの範囲を変更するものであってもよい。また、データ範囲変更手段103は、データの範囲を拡張する際、データの後ろに続く文や節の単位で拡張するものであってもよいし、データの前に位置する文や節の単位で拡張するものであってもよい。さらに、データの前後に拡張するものであってもよい。
The data range changing
抽出データ出力手段104は、データ範囲変更手段103によって範囲が変更されたデータを抽出データ113として出力する。
The extracted
記憶部11は、情報処理プログラム110、言語データ111、極性表現辞書データ112及び抽出データ113等を格納する。
The
情報処理プログラム110は、制御部10で実行することにより制御部10を上記した各手段100〜104として機能させるプログラムである。
The
言語データ111は、一例として、日本語であって複数の文を含むものである。文は、電子メールでやりとりされるテキスト情報や、複数の利用者によって文字情報が投稿されるマイクロブログ(Microblog)、音声をテキスト化した情報や、印刷された紙面を光学走査して得られる情報等である。なお、言語データ111は、日本語に限らず他の言語を用いてもよい。なお、言語データ111は、外部から取得する構成であってもよい。
The
極性表現辞書データ112は、極性表現である単語が、極性の種類及び極性の強さとともに予め登録された情報である。
The polar
抽出データ113は、抽出データ出力手段104により抽出されたデータである。
The extracted
なお、情報処理装置1は、例えば、サーバ装置やパーソナルコンピュータであり、携帯電話等や携帯情報処理端末を用いることができる。
The
図2は、極性表現辞書データ112の構成の一例を示す概略図である。
FIG. 2 is a schematic diagram illustrating an example of the configuration of the polarity
極性表現辞書データ112aは、極性表現辞書データ112の例示であり、極性表現である単語と、当該単語の極性の種類である極性と、当該極性の強さとを有する。例えば、「楽しい」という単語は極性が「ポジティブ」であって、極性の強さが「2」である。
The polarity
(情報処理装置の動作)
次に、第1の実施の形態の動作を説明する。
(Operation of information processing device)
Next, the operation of the first embodiment will be described.
図5は、情報処理装置1の動作の一例を示すフローチャートである。
FIG. 5 is a flowchart illustrating an example of the operation of the
まず、言語データ取得手段100は、記憶部11の言語データ111から指定された条件、例えば、データを作成した利用者やデータが作成された日時等が条件に該当する言語データ111を取得する(S1)。
First, the language
次に、データ抽出手段101は、言語データ取得手段100が取得した言語データ111から、例えば、35文字以内で文を単位としてデータを抽出する(S2)。当該条件によって抽出されるデータの構成の例を以下に示す。
Next, the
図3(a)−(c)は、データ抽出手段101が抽出するデータの構成の一例を示す図である。
FIGS. 3A to 3C are diagrams illustrating an example of a configuration of data extracted by the
図3(a)に示すように、データ101aは2つの文からなり、21文字である。また、図3(b)に示すように、データ101bは1つの文であり、32文字である。また、図3(c)に示すように、データ101cは1つの文であり、21文字である。
As shown in FIG. 3A, the
次に、極性分析手段102は、データ抽出手段101が抽出したデータ101a‐101cのそれぞれについて、極性表現辞書データ112を参照することにより、当該データに含まれる極性の種類、極性の強さ等を分析する(S3、S4、S7)。
Next, the
例えば、極性分析手段102は、データ101aに「嬉しい」、「幸せ」という単語が含まれているため、データ101aの極性は「ポジティブ」であり、極性の強さは「5」であって、極性が強いと判断する(S4;Yes)。なお、極性が強いと判断する極性の強さは例えば「5」以上の場合であるとする。
For example, since the polarity analysis means 102 includes the words “happy” and “happy” in the
また、極性分析手段102は、データ101bに「楽しい」と「疲れた」という単語が含まれているため、データ101bの極性は「ポジティブ」と「ネガティブ」の双方が混在していると判断する(S4;No、S7;Yes)。
In addition, since the
また、極性分析手段102は、データ101cに「面白い」が含まれているため、データ101cの極性は「ポジティブ」であり、極性の強さは「1」であって、極性が強くなく(S4;No)、極性が混在していない(S7;No)と判断する。
Further, since the polarity analysis means 102 includes “interesting” in the
次に、データ範囲変更手段103は、極性分析手段102の分析結果に基づき、データ101a‐101cの範囲を以下に説明するように変更する。
Next, the data range changing
図4(a)−(c)は、範囲変更前のデータ101a‐101cと範囲の変更されたデータとの関係を示す概略図である。
4A to 4C are schematic diagrams illustrating the relationship between the
データ範囲変更手段103は、上述したデータ101aは極性が強いため、後ろに続く文も同様の極性を含む蓋然性が高いと判断し、データ101aと同じデータ103a1に後続する文であるデータ103a2まで範囲を拡張して範囲変更後のデータ103aとする(S5)。
Data range changing
また、データ範囲変更手段103は、上述したデータ101bは極性が混在しているため、データ101aをそれぞれの極性を含む範囲のデータ103b1とデータ103b2とに分割する(S8)。
The data range changing means 103,
また、データ範囲変更手段103は、上述したデータ101cは極性が強くなく、極性も混在していないため、抽出範囲の変更が必要ないデータであると判断して、データ101cの範囲を維持してデータ103cとする(S9)。
Further, the data range changing
次に、抽出データ出力手段104は、データ範囲変更手段103によって範囲が変更されたデータ103a、103b1、103b2、103cを抽出データ113として出力し、記憶部11に記憶する(S6)。
Next, the extracted data output means 104 outputs the
(第1の実施の形態の効果)
上記した第1の実施の形態によると、極性分析手段102によって抽出したデータの極性を分析し、極性が強い場合は範囲を拡げ、極性が複数含まれる場合は分割したため、言語データ111から極性表現が均一に含まれる抽出データ113を抽出することができる。
(Effects of the first embodiment)
According to the first embodiment described above, the polarity of the data extracted by the
なお、データ範囲変更手段103は、ステップS3−S5、S7−S9を複数回繰り返して行ってもよい。
The data range changing
[第2の実施の形態]
(情報処理装置の構成)
第2の実施の形態は、第1の実施の形態を応用したものであり、抽出データ113を機械学習に用いる教師データとして出力する点で異なる。
[Second Embodiment]
(Configuration of information processing device)
The second embodiment is an application of the first embodiment, and differs in that the extracted
図6は、第2の実施の形態に係る情報処理装置の構成の一例を示すブロック図である。なお、第1の実施の形態と同様の機能を有する構成については同様の符号を付している。 FIG. 6 is a block diagram illustrating an example of the configuration of the information processing apparatus according to the second embodiment. In addition, the same code | symbol is attached | subjected about the structure which has the same function as 1st Embodiment.
情報処理装置1Aの制御部10は、情報処理プログラム110Aを実行することで、抽出データ出力手段104に代えて教師データ出力手段105として機能する。
The
教師データ出力手段105は、第1の実施の形態と同様に機能する手段100−103によりデータを得て、教師データ114として出力する。
The teacher data output means 105 obtains data by means 100-103 functioning in the same manner as in the first embodiment, and outputs it as
また、情報処理装置1Aの記憶部11は、抽出データ113に代えて教師データ114を有する。
The
教師データ114は、機械学習に用いられる情報として収集され、通信部12を介して図示しない外部の機械学習を実行する装置に送信される。なお、学習はサポートベクターマシン、ナイーブベイズ、Adaboost、決定木 等 の手法を用いて行われる。
The
(第2の実施の形態の効果)
上記した第2の実施の形態によると、第1の実施の形態の情報処理装置1を教師データ114の収集に応用することができ、教師データ114に均一に極性表現が含まれるため、ノイズが減少し、素性として用いることができる情報が増大し、結果として当該教師データ114を機械学習に用いた場合、学習の精度が向上する。
(Effect of the second embodiment)
According to the second embodiment described above, the
[第3の実施の形態]
(情報処理装置の構成)
第3の実施の形態は、第1の実施の形態を多値分類器に応用した例である。
[Third Embodiment]
(Configuration of information processing device)
The third embodiment is an example in which the first embodiment is applied to a multilevel classifier.
図7は、第3の実施の形態に係る情報処理装置の構成の一例を示すブロック図である。なお、第1の実施の形態及び第2の実施の形態と同様の機能を有する構成については同様の符号を付している。 FIG. 7 is a block diagram illustrating an example of the configuration of the information processing apparatus according to the third embodiment. In addition, the same code | symbol is attached | subjected about the structure which has the function similar to 1st Embodiment and 2nd Embodiment.
情報処理装置1Bの制御部10は、情報処理プログラム110Bを実行することで、多値分類判定手段106としてさらに機能し、抽出データ出力手段104に代えて判定結果出力手段107として機能する。
The
多値分類判定手段106は、後述する学習モデル115に基づいて与えられたデータについて多値分類判定する。ここで、多値分類判定とは、与えられたデータが予め用意された複数のクラスのいずれに分類されるか判定するものであって、例えば、データとしてマイクロブログを用いた場合に「ポジティブ」、「ネガティブ」、「ニュートラル」の3値極性に分類したり、データとしてアンケートやインタビュー等により収集されたある製品の購入理由を用いた場合に「機能」、「包装」、「価格」、「デザイン」、「その他」等の値に分類したりする。
The multi-value
判定結果出力手段107は、判定の対象となったデータと、多値分類判定手段106によって分類されたクラスとを関連付けて判定結果データ116として出力する。
The determination
情報処理装置1Bの記憶部11は、学習モデル115をさらに有し、抽出データ113に代えて判定結果データ116を有する。
The
学習モデル115は、機械学習により生成されたものであり、多値分類判定手段106に用いられる。
The
判定結果データ116は、判定結果出力手段107によって出力されたデータである。
The
(情報処理装置の動作)
次に、第3の実施の形態の動作を説明する。
(Operation of information processing device)
Next, the operation of the third embodiment will be described.
図8は、情報処理装置1Bの動作の一例を示すフローチャートである。 FIG. 8 is a flowchart illustrating an example of the operation of the information processing apparatus 1B.
まず、言語データ取得手段100は、記憶部11の言語データ111から指定された条件、例えば、データを作成した利用者やデータが作成された日時等が条件に該当する言語データ111を取得する(S10)。
First, the language
次に、データ抽出手段101は、言語データ取得手段100が取得した言語データ111から、例えば、35文字以内で文を単位としてデータを抽出する(S11)。
Next, the
次に、多値分類判定手段106は、データ抽出手段101が抽出したデータについて学習モデル115に基づいて多値分類判定する(S12)。
Next, the multi-level
次に、極性分析手段102は、多値分類判定手段106が多値分類判定したデータのそれぞれについて、極性表現辞書データ112を参照することにより、当該データに含まれる極性の種類、極性の強さ等を分析する(S13、S14、S16)。
Next, the
次に、データ範囲変更手段103は、多値分類判定したデータの極性が強い場合(S14;Yes)、後続する文であるデータまで範囲を拡張して範囲変更する(S15)。なお、多値分類判定手段106の判定結果が信頼度の高いものである場合は、当該信頼度を考慮して拡張しないようにしてもよい。
Next, when the polarity of the data subjected to the multi-value classification determination is strong (S14; Yes), the data range changing
また、データ範囲変更手段103は、多値分類判定したデータに極性が混在している場合(S14;No、S16;Yes)、多値分類判定したデータのそれぞれの極性を含む範囲のデータに分割する(S17)。なお、多値分類判定手段106の判定結果が信頼度の高いものである場合は、当該信頼度を考慮して分割しないようにしてもよい。
Further, when the polarity is mixed in the data determined by the multi-value classification (S14; No, S16; Yes), the data range changing
また、データ範囲変更手段103は、多値分類判定したデータの極性が強くなく(S14;No)、極性も混在していない場合(S16;No)、抽出範囲の変更が必要ないデータであると判断して、データの範囲を維持する(S18)。
Further, the data range changing
次に、多値分類判定手段106は、データ範囲変更手段103によって範囲が変更されたデータを学習モデル115に基づいて再度、多値分類判定する(S19)。
Next, the multi-level
次に、判定結果出力手段107は、多値分類判定手段106が判定対象としたデータと、多値分類判定手段106によって分類されたクラスとを関連付けて判定結果データ116として出力する(S20)。
Next, the determination
(第3の実施の形態の効果)
上記した第3の実施の形態によると、第1の実施の形態の情報処理装置1を多値分類器に応用することができ、具体的には、多値分類の信頼度と極性分析との両方の観点から分類対象を分析することができ、極性表現が均一に含まれるデータを多値分類することで、多値分類の精度を向上することができる。
(Effect of the third embodiment)
According to the third embodiment described above, the
[第4の実施の形態]
第4の実施の形態は、予め用意された学習モデルを用いて多値分類判定されたデータに、第1の実施の形態を応用して極性表現が均一に含まれるよう範囲を変更することで教師データとし、当該教師データを用いて学習モデルの再学習を行うものである(ブートストラップ手法への応用)。
[Fourth Embodiment]
In the fourth embodiment, by applying the first embodiment to the data determined by multilevel classification using a learning model prepared in advance, the range is changed so that the polar expression is uniformly included. It is used as teacher data, and the learning model is relearned using the teacher data (application to a bootstrap method).
図9は、第4の実施の形態に係る情報処理装置の構成の一例を示すブロック図である。なお、第1の実施の形態‐第3の実施の形態と同様の機能を有する構成については同様の符号を付している。 FIG. 9 is a block diagram illustrating an example of the configuration of the information processing apparatus according to the fourth embodiment. In addition, the same code | symbol is attached | subjected about the structure which has the function similar to 1st Embodiment-3rd Embodiment.
情報処理装置1Cの制御部10は、情報処理プログラム110Cを実行することで、学習モデル再学習手段108としてさらに機能する。
The
学習モデル再学習手段108は、教師データ114を用いて学習モデル115の再学習を行う。
The learning
(情報処理装置の動作)
次に、第4の実施の形態の動作を説明する。
(Operation of information processing device)
Next, the operation of the fourth embodiment will be described.
図10は、情報処理装置1Cの動作の一例を示すフローチャートである。 FIG. 10 is a flowchart illustrating an example of the operation of the information processing apparatus 1C.
まず、言語データ取得手段100は、記憶部11の言語データ111から指定された条件、例えば、データを作成した利用者やデータが作成された日時等の条件に該当する言語データ111を取得する(S30)。
First, the language
次に、データ抽出手段101は、言語データ取得手段100が取得した言語データ111から、例えば、35文字以内で文を単位としてデータを抽出する(S31)。
Next, the
次に、多値分類判定手段106は、学習モデル115に基づいてデータ抽出手段101が抽出したデータについて多値分類判定する(S32)。
Next, the multi-level
次に、極性分析手段102は、多値分類判定手段106が多値分類判定したデータのそれぞれについて、極性表現辞書データ112を参照することにより、当該データに含まれる極性の種類、極性の強さ等を分析する(S33、S34、S36)。
Next, the
次に、データ範囲変更手段103は、多値分類判定したデータの極性が強い場合(S34;Yes)、後続する文であるデータまで範囲を拡張して範囲変更する(S35)。なお、多値分類判定手段106の判定結果が信頼度の高いものである場合は、当該信頼度を考慮して拡張しないようにしてもよい。
Next, when the polarity of the data subjected to the multi-value classification determination is strong (S34; Yes), the data range changing
また、データ範囲変更手段103は、多値分類判定したデータに極性が混在している場合(S34;No、S36;Yes)、多値分類判定したデータのそれぞれの極性を含む範囲のデータに分割する(S37)。なお、多値分類判定手段106の判定結果が信頼度の高いものである場合は、当該信頼度を考慮して分割しないようにしてもよい。
Further, when the polarity is mixed in the data determined by the multi-level classification (S34; No, S36; Yes), the data range changing
また、データ範囲変更手段103は、多値分類判定したデータの極性が強くなく(S34;No)、極性も混在していない場合(S36;No)、抽出範囲の変更が必要ないデータであると判断して、データの範囲を維持する(S38)。
Further, the data range changing
次に、教師データ出力手段105は、データ範囲変更手段103が範囲を変更したデータを教師データ114として出力する(S39)。 Next, the teacher data output means 105 outputs the data whose range has been changed by the data range change means 103 as teacher data 114 (S39).
次に、学習モデル再学習手段108は、教師データ114を用いて学習モデル115を再学習する(S40)。
Next, the learning model re-learning means 108 re-learns the
なお、多値分類判定手段106により判定された結果は、再学習の教師データ114として用いない場合は、判定結果出力手段107により、第3の実施の形態と同様に、判定結果データ116として出力する。
When the result determined by the multi-value
(第4の実施の形態の効果)
上記した第4の実施の形態によると、第1の実施の形態の情報処理装置1を学習モデルの再学習に応用することができ、極性表現が均一に含まれるデータを用いて再学習することで、機械学習の精度を向上することができる。
(Effect of the fourth embodiment)
According to the above-described fourth embodiment, the
(実施例)
この実施例は、第2の実施の形態において言語データ111として「twitter」(登録商標)等のマイクロブログを用い、当該マイクロブログから教師データ114を抽出するものである。また、極性判定として「ポジティブ」又は「ネガティブ」のいずれの極性を有するか判定するものとする。
(Example)
In this embodiment, a microblog such as “twitter” (registered trademark) is used as the
図12は、情報処理装置1Aの動作の一例を示すフローチャートである。 FIG. 12 is a flowchart illustrating an example of the operation of the information processing apparatus 1A.
まず、言語データ取得手段100は、記憶部11の言語データ111から指定された条件、例えば、データを作成した利用者やデータが作成された日時等の条件に該当する言語データ111を取得する(S50)。
First, the language
次に、データ抽出手段101は、言語データ取得手段100が取得した言語データ111から、例えば、1つの記事(「twitter」においては1つの「tweet」)を単位として教師データ候補を抽出する(S51)。当該条件によって抽出されるデータの構成の例を以下に示す。
Next, the
図11(a)−(c)は、データ抽出手段101が抽出する教師データ候補の構成の一例を示す図である。
FIGS. 11A to 11C are diagrams illustrating an example of a configuration of teacher data candidates extracted by the
図11(a)に示すように、教師データ候補101dは2つの文からなる。また、図11(b)に示すように、教師データ候補101eは1つの文である。また、図11(c)に示すように、教師データ候補101fは1つの文である。
As shown in FIG. 11A, the teacher data candidate 101d consists of two sentences. As shown in FIG. 11B, the
次に、極性分析手段102は、教師データ候補101d‐101fのそれぞれについて、極性表現辞書データ112を参照することにより、当該データに含まれる極性表現の種類、極性の強さ等を分析する(S52)。
Next, the polarity analysis means 102 analyzes the type of polarity expression, the strength of polarity, etc. included in the data by referring to the polarity
例えば、極性分析手段102は、教師データ候補101dに「できた」、「達成」という単語が含まれているため、教師データ候補101dの極性は「ポジティブ」であり、極性が非常に強いと判断する(S53;Yes)。
For example, the
また、極性分析手段102は、教師データ候補101eに「面白い」と「疲れた」という単語が含まれているため、教師データ候補101eの極性は「ポジティブ」と「ネガティブ」で相反していると判断する(S53;No、S55;Yes)。
Further, since the polarity analysis means 102 includes the words “interesting” and “tired” in the
また、極性分析手段102は、教師データ候補101fに「おいしかった」が含まれているため、教師データ候補101fの極性は「ポジティブ」であるが、極性が強くなく(S53;No)、極性が相反していない(S55;No)と判断する。
In addition, since the
次に、データ範囲変更手段103は、極性分析手段102の分析結果に基づき、教師データ候補101d‐101fの範囲を以下に説明するように変更する。
Next, the data range changing
データ範囲変更手段103は、上述した教師データ候補101dは極性が強いため、返信である「reply」や「retweet」も同様の極性を含む蓋然性が高いと判断し、教師データ候補103dを追加する(S54)。
The data range changing
また、データ範囲変更手段103は、上述した教師データ候補101eは極性が混在しているため、返信である「reply」や「retweet」である教師データ候補103e1は破棄し(S56)、教師データ候補101eをそれぞれの極性「ポジティブ」と「ネガティブ」を含む範囲の教師データ候補103e2と教師データ候補103e3とに分割する(S57)。
Further, the data range changing
また、データ範囲変更手段103は、上述した教師データ候補101fは極性が強くなく、極性も混在していないため、抽出範囲の変更が必要ないデータであると判断して、教師データ候補101fの範囲を維持し、返信である「reply」や「retweet」である教師データ候補103fは破棄する(S58)。
Further, the data range changing
次に、抽出データ出力手段104は、データ範囲変更手段103によって範囲が変更されたデータ101d及び103d、103e2及び103e3、101fを教師データ114として出力し、記憶部11に記憶する(S59)。
Then, the extracted
[他の実施の形態]
なお、本発明は、上記実施の形態に限定されず、本発明の趣旨を逸脱しない範囲で種々な変形が可能である。
[Other embodiments]
The present invention is not limited to the above embodiment, and various modifications can be made without departing from the spirit of the present invention.
上記実施の形態では制御部10内の各手段100−108の機能をプログラムで実現したが、各手段の全て又は一部をASIC等のハードウエアによって実現してもよい。また、上記実施の形態で用いたプログラムをCD−ROM等の記録媒体に記憶して提供することもできる。また、上記実施の形態で説明した上記ステップの入れ替え、削除、追加等は本発明の要旨を変更しない範囲内で可能である。
In the above embodiment, the function of each means 100-108 in the
1、1A、1B、1C 情報処理装置
10 制御部
11 記憶部
12 通信部
100 言語データ取得手段
101 データ抽出手段
102 極性分析手段
103 データ範囲変更手段
104 抽出データ出力手段
105 教師データ出力手段
106 多値分類判定手段
107 判定結果出力手段
108 学習モデル再学習手段
110 情報処理プログラム
110A‐110C 情報処理プログラム
111 言語データ
112 極性表現辞書データ
113 抽出データ
114 教師データ
115 学習モデル
116 判定結果データ
1, 1A, 1B, 1C
Claims (5)
言語データから分析する対象として予め定めた範囲のデータを抽出する抽出手段と、
単語と極性及び極性の強さとを対応付けた極性表現辞書に基づいて前記抽出したデータに含まれる単語の極性を分析する分析手段と、
前記分析した極性の強さが予め定めた値より大きい場合、前記抽出したデータの範囲を拡げ、前記抽出したデータに複数の極性が混在している場合、それぞれの極性が含まれる範囲で当該抽出したデータを分割して、前記抽出したデータの範囲を変更する変更手段と、
前記変更手段が範囲を変更したデータを抽出データとして出力する出力手段として機能させるための情報処理プログラム。 Computer
Extracting means for extracting data in a predetermined range as an object to be analyzed from language data;
Analyzing means for analyzing the polarity of a word included in the extracted data based on a polarity expression dictionary that associates a word with polarity and polarity strength;
When the intensity of the analyzed polarity is larger than a predetermined value, the range of the extracted data is expanded. When a plurality of polarities are mixed in the extracted data, the extraction is performed in a range including each polarity. Changing means for dividing the extracted data and changing the range of the extracted data;
An information processing program for causing the changing means to function as output means for outputting data whose range has been changed as extracted data.
言語データから分析する対象として予め定めた範囲のデータを抽出する抽出手段と、
単語と極性及び極性の強さとを対応付けた極性表現辞書に基づいて前記抽出したデータに含まれる単語の極性を分析する分析手段と、
前記分析した極性の強さが予め定めた値より大きい場合、前記抽出したデータの範囲を拡げ、前記抽出したデータに複数の極性が混在している場合、それぞれの極性が含まれる範囲で当該抽出したデータを分割して、前記抽出したデータの範囲を変更する変更手段と、
前記変更手段が範囲を変更したデータを機械学習に用いる教師データとして出力する教師データ出力手段として機能させるための情報処理プログラム。 Extracting means for extracting data in a predetermined range as a target for analyzing a computer from language data;
Analyzing means for analyzing the polarity of a word included in the extracted data based on a polarity expression dictionary that associates a word with polarity and polarity strength;
When the intensity of the analyzed polarity is larger than a predetermined value, the range of the extracted data is expanded. When a plurality of polarities are mixed in the extracted data, the extraction is performed in a range including each polarity. Changing means for dividing the extracted data and changing the range of the extracted data;
An information processing program for functioning as teacher data output means for outputting data whose range has been changed by the changing means as teacher data used for machine learning.
言語データから分析する対象として予め定めた範囲のデータを抽出する抽出手段と、
予め用意した学習モデルを用いて前記抽出したデータを多値分類する判定手段と、
単語と極性及び極性の強さとを対応付けた極性表現辞書に基づいて前記判定したデータに含まれる単語の極性を分析する分析手段と、
前記分析した極性の強さが予め定めた値より大きい場合、前記判定したデータの範囲を拡げ、前記判定したデータに複数の極性が混在している場合、それぞれの極性が含まれる範囲で当該判定したデータを分割して、前記判定したデータの範囲を変更する変更手段として機能させ、
前記判定手段は、当該範囲の変更されたデータを多値分類する情報処理プログラム。 Computer
Extracting means for extracting data in a predetermined range as an object to be analyzed from language data;
Determination means for multi-value classification of the extracted data using a learning model prepared in advance;
Analyzing means for analyzing the polarity of a word included in the determined data based on a polarity expression dictionary that associates a word with polarity and polarity strength;
If the strength of the analyzed polarity is greater than a predetermined value, the range of the determined data is expanded, and if a plurality of polarities are mixed in the determined data, the determination is made within a range including each polarity. Dividing the processed data and functioning as a changing means for changing the determined data range,
The determination means is an information processing program for performing multi-value classification on data whose range has been changed.
言語データから分析する対象として予め定めた範囲のデータを抽出する抽出手段と、
予め用意した学習モデルを用いて前記抽出したデータを多値分類する判定手段と、
単語と極性及び極性の強さとを対応付けた極性表現辞書に基づいて前記判定したデータに含まれる単語の極性を分析する分析手段と、
前記分析した極性の強さが予め定めた値より大きい場合、前記判定したデータの範囲を拡げ、前記判定したデータに複数の極性が混在している場合、それぞれの極性が含まれる範囲で当該判定したデータを分割して、前記判定したデータの範囲を変更する変更手段と、
当該範囲の変更されたデータを教師データとして前記学習モデルを再学習する再学習手段として機能させるための情報処理プログラム。 Computer
Extracting means for extracting data in a predetermined range as an object to be analyzed from language data;
Determination means for multi-value classification of the extracted data using a learning model prepared in advance;
Analyzing means for analyzing the polarity of a word included in the determined data based on a polarity expression dictionary that associates a word with polarity and polarity strength;
If the strength of the analyzed polarity is greater than a predetermined value, the range of the determined data is expanded, and if a plurality of polarities are mixed in the determined data, the determination is made within a range including each polarity. Changing means for dividing the determined data and changing the range of the determined data;
An information processing program for functioning as relearning means for relearning the learning model using the data in which the range is changed as teacher data.
単語と極性及び極性の強さとを対応付けた極性表現辞書に基づいて前記抽出したデータに含まれる単語の極性を分析する分析手段と、
前記分析した極性の強さが予め定めた値より大きい場合、前記抽出したデータの範囲を拡げ、前記抽出したデータに複数の極性が混在している場合、それぞれの極性が含まれる範囲で当該抽出したデータを分割して、前記抽出したデータの範囲を変更する変更手段と、
前記変更手段が範囲を変更したデータを抽出データとして出力する出力手段とを有する情報処理装置。 Extracting means for extracting data in a predetermined range as an object to be analyzed from language data;
Analyzing means for analyzing the polarity of a word included in the extracted data based on a polarity expression dictionary that associates a word with polarity and polarity strength;
When the intensity of the analyzed polarity is greater than a predetermined value, the range of the extracted data is expanded. Changing means for dividing the extracted data and changing the range of the extracted data;
An information processing apparatus comprising: output means for outputting the data whose range has been changed by the changing means as extracted data.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013251966A JP6213196B2 (en) | 2013-12-05 | 2013-12-05 | Information processing program and information processing apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013251966A JP6213196B2 (en) | 2013-12-05 | 2013-12-05 | Information processing program and information processing apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015109004A JP2015109004A (en) | 2015-06-11 |
JP6213196B2 true JP6213196B2 (en) | 2017-10-18 |
Family
ID=53439298
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013251966A Expired - Fee Related JP6213196B2 (en) | 2013-12-05 | 2013-12-05 | Information processing program and information processing apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6213196B2 (en) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3903993B2 (en) * | 2004-02-05 | 2007-04-11 | セイコーエプソン株式会社 | Sentiment recognition device, sentence emotion recognition method and program |
JP4148522B2 (en) * | 2004-11-19 | 2008-09-10 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Expression detection system, expression detection method, and program |
JP2009163565A (en) * | 2008-01-08 | 2009-07-23 | Toyota Central R&D Labs Inc | Sentence shaping device and sentence shaping program |
CN102200969A (en) * | 2010-03-25 | 2011-09-28 | 日电(中国)有限公司 | Text sentiment polarity classification system and method based on sentence sequence |
-
2013
- 2013-12-05 JP JP2013251966A patent/JP6213196B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2015109004A (en) | 2015-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112035669B (en) | Social media multi-modal rumor detection method based on propagation heterogeneous graph modeling | |
CN108984530B (en) | Detection method and detection system for network sensitive content | |
US11106714B2 (en) | Summary generating apparatus, summary generating method and computer program | |
Prasad et al. | Sentiment analysis for sarcasm detection on streaming short text data | |
JP6541673B2 (en) | Real time voice evaluation system and method in mobile device | |
CN113055386B (en) | Method and device for identifying and analyzing attack organization | |
CN107967258B (en) | Method and system for emotion analysis of text information | |
Sandaruwan et al. | Sinhala hate speech detection in social media using text mining and machine learning | |
CN110555440B (en) | Event extraction method and device | |
CN102279890A (en) | Sentiment word extracting and collecting method based on micro blog | |
CN110674297B (en) | Public opinion text classification model construction method, public opinion text classification device and public opinion text classification equipment | |
WO2019042450A1 (en) | Natural language processing method and apparatus | |
CN110910175A (en) | Tourist ticket product portrait generation method | |
Habib et al. | Unsupervised improvement of named entity extraction in short informal context using disambiguation clues | |
US10217455B2 (en) | Linguistic model database for linguistic recognition, linguistic recognition device and linguistic recognition method, and linguistic recognition system | |
US12008609B2 (en) | Method and system for initiating an interface concurrent with generation of a transitory sentiment community | |
US11605004B2 (en) | Method and system for generating a transitory sentiment community | |
JP6220762B2 (en) | Next utterance candidate scoring device, method, and program | |
Sagcan et al. | Toponym recognition in social media for estimating the location of events | |
CN114065749A (en) | Text-oriented Guangdong language recognition model and training and recognition method of system | |
WO2023245869A1 (en) | Speech recognition model training method and apparatus, electronic device, and storage medium | |
JP6213196B2 (en) | Information processing program and information processing apparatus | |
Vu et al. | Multilingual rules for spam detection | |
Selmer et al. | NTNU: Domain semi-independent short message sentiment classification | |
Batra et al. | CovFakeBot: a machine learning based chatbot using ensemble learning technique for COVID-19 fake news detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161019 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170822 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170825 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170904 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6213196 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |