JP6213196B2 - Information processing program and information processing apparatus - Google Patents

Information processing program and information processing apparatus Download PDF

Info

Publication number
JP6213196B2
JP6213196B2 JP2013251966A JP2013251966A JP6213196B2 JP 6213196 B2 JP6213196 B2 JP 6213196B2 JP 2013251966 A JP2013251966 A JP 2013251966A JP 2013251966 A JP2013251966 A JP 2013251966A JP 6213196 B2 JP6213196 B2 JP 6213196B2
Authority
JP
Japan
Prior art keywords
data
polarity
range
information processing
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013251966A
Other languages
Japanese (ja)
Other versions
JP2015109004A (en
Inventor
茂之 榊
茂之 榊
大熊 智子
智子 大熊
康秀 三浦
康秀 三浦
圭悟 服部
圭悟 服部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2013251966A priority Critical patent/JP6213196B2/en
Publication of JP2015109004A publication Critical patent/JP2015109004A/en
Application granted granted Critical
Publication of JP6213196B2 publication Critical patent/JP6213196B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報処理プログラム及び情報処理装置に関する。   The present invention relates to an information processing program and an information processing apparatus.

従来の技術として、極性表現が複数含まれる文を整形する情報処理装置が提案されている(例えば、特許文献1参照)。   As a conventional technique, an information processing apparatus that shapes a sentence including a plurality of polar expressions has been proposed (see, for example, Patent Document 1).

特許文献1に開示された情報処理装置は、言語データとして事実を表した事態文と感情を表した感情語が入力されると、事態文に形態素解析を行って事態文を単語に分解し、感情語から第1の感情極性を判定するとともに事態文を分解することで得られた単語から第2の感情極性を判定して、第1の感情極性と第2の感情極性とが相反するものである場合、第2の感情極性が判定された単語を事態文から削除することで文を整形する。   The information processing device disclosed in Patent Literature 1 receives a situation sentence representing facts and an emotion word representing emotions as language data, and performs a morphological analysis on the situation sentence to decompose the situation sentence into words, The first emotion polarity and the second emotion polarity conflict with each other by determining the first emotion polarity from the emotion word and determining the second emotion polarity from the word obtained by decomposing the situation sentence. If it is, the sentence is shaped by deleting the word for which the second emotion polarity is determined from the situation sentence.

特開2009−163565号公報JP 2009-163565 A

本発明の目的は、言語データから極性表現が均一に含まれるデータを抽出する情報処理プログラム及び情報処理装置を提供することにある。   An object of the present invention is to provide an information processing program and an information processing apparatus that extract data that includes a polar expression uniformly from language data.

本発明の一態様は、上記目的を達成するため、以下の情報処理プログラム及び情報処理装置を提供する。   In order to achieve the above object, one embodiment of the present invention provides the following information processing program and information processing apparatus.

[1] コンピュータを、
言語データから分析する対象として予め定めた範囲のデータを抽出する抽出手段と、
単語と極性及び極性の強さとを対応付けた極性表現辞書に基づいて前記抽出したデータに含まれる単語の極性を分析する分析手段と、
前記分析した極性の強さが予め定めた値より大きい場合、前記抽出したデータの範囲を拡げ、前記抽出したデータに複数の極性が混在している場合、それぞれの極性が含まれる範囲で当該抽出したデータを分割して、前記抽出したデータの範囲を変更する変更手段と、
前記変更手段が範囲を変更したデータを抽出データとして出力する出力手段として機能させるための情報処理プログラム。
[1] Connect the computer
Extracting means for extracting data in a predetermined range as an object to be analyzed from language data;
Analyzing means for analyzing the polarity of a word included in the extracted data based on a polarity expression dictionary that associates a word with polarity and polarity strength;
When the intensity of the analyzed polarity is larger than a predetermined value, the range of the extracted data is expanded. When a plurality of polarities are mixed in the extracted data, the extraction is performed in a range including each polarity. Changing means for dividing the extracted data and changing the range of the extracted data;
An information processing program for causing the changing means to function as output means for outputting data whose range has been changed as extracted data.

[2] コンピュータを
言語データから分析する対象として予め定めた範囲のデータを抽出する抽出手段と、
単語と極性及び極性の強さとを対応付けた極性表現辞書に基づいて前記抽出したデータに含まれる単語の極性を分析する分析手段と、
前記分析した極性の強さが予め定めた値より大きい場合、前記抽出したデータの範囲を拡げ、前記抽出したデータに複数の極性が混在している場合、それぞれの極性が含まれる範囲で当該抽出したデータを分割して、前記抽出したデータの範囲を変更する変更手段と、
前記変更手段が範囲を変更したデータを機械学習に用いる教師データとして出力する教師データ出力手段
として機能させるための情報処理プログラム。
[2] Extraction means for extracting data in a predetermined range as a target for analyzing a computer from language data;
Analyzing means for analyzing the polarity of a word included in the extracted data based on a polarity expression dictionary that associates a word with polarity and polarity strength;
When the intensity of the analyzed polarity is larger than a predetermined value, the range of the extracted data is expanded. When a plurality of polarities are mixed in the extracted data, the extraction is performed in a range including each polarity. Changing means for dividing the extracted data and changing the range of the extracted data;
An information processing program for functioning as teacher data output means for outputting data whose range has been changed by the changing means as teacher data used for machine learning.

[3]コンピュータを、
言語データから分析する対象として予め定めた範囲のデータを抽出する抽出手段と、
予め用意した学習モデルを用いて前記抽出したデータを多値分類する判定手段と、
単語と極性及び極性の強さとを対応付けた極性表現辞書に基づいて前記判定したデータに含まれる単語の極性を分析する分析手段と、
前記分析した極性の強さが予め定めた値より大きい場合、前記判定したデータの範囲を拡げ、前記判定したデータに複数の極性が混在している場合、それぞれの極性が含まれる範囲で当該判定したデータを分割して、前記判定したデータの範囲を変更する変更手段として機能させ、
前記判定手段は、当該範囲の変更されたデータを多値分類する情報処理プログラム。
[3]
Extracting means for extracting data in a predetermined range as an object to be analyzed from language data;
Determination means for multi-value classification of the extracted data using a learning model prepared in advance;
Analyzing means for analyzing the polarity of a word included in the determined data based on a polarity expression dictionary that associates a word with polarity and polarity strength;
If the strength of the analyzed polarity is greater than a predetermined value, the range of the determined data is expanded, and if a plurality of polarities are mixed in the determined data, the determination is made within a range including each polarity. Dividing the processed data and functioning as a changing means for changing the determined data range,
The determination means is an information processing program for performing multi-value classification on data whose range has been changed.

[4]コンピュータを、
言語データから分析する対象として予め定めた範囲のデータを抽出する抽出手段と、
予め用意した学習モデルを用いて前記抽出したデータを多値分類する判定手段と、
単語と極性及び極性の強さとを対応付けた極性表現辞書に基づいて前記判定したデータに含まれる単語の極性を分析する分析手段と、
前記分析した極性の強さが予め定めた値より大きい場合、前記判定したデータの範囲を拡げ、前記判定したデータに複数の極性が混在している場合、それぞれの極性が含まれる範囲で当該判定したデータを分割して、前記判定したデータの範囲を変更する変更手段と、
当該範囲の変更されたデータを教師データとして前記学習モデルを再学習する再学習手段として機能させるための情報処理プログラム。
[4]
Extracting means for extracting data in a predetermined range as an object to be analyzed from language data;
Determination means for multi-value classification of the extracted data using a learning model prepared in advance;
Analyzing means for analyzing the polarity of a word included in the determined data based on a polarity expression dictionary that associates a word with polarity and polarity strength;
If the strength of the analyzed polarity is greater than a predetermined value, the range of the determined data is expanded, and if a plurality of polarities are mixed in the determined data, the determination is made within a range including each polarity. Changing means for dividing the determined data and changing the range of the determined data;
An information processing program for functioning as relearning means for relearning the learning model using the data in which the range is changed as teacher data.

[5]言語データから分析する対象として予め定めた範囲のデータを抽出する抽出手段と、
単語と極性及び極性の強さとを対応付けた極性表現辞書に基づいて前記抽出したデータに含まれる単語の極性を分析する分析手段と、
前記分析した極性の強さが予め定めた値より大きい場合、前記抽出したデータの範囲を拡げ、前記抽出したデータに複数の極性が混在している場合、それぞれの極性が含まれる範囲で当該抽出したデータを分割して、前記抽出したデータの範囲を変更する変更手段と、
前記変更手段が範囲を変更したデータを抽出データとして出力する出力手段とを有する情報処理装置。
[5] extraction means for extracting data in a predetermined range as an object to be analyzed from language data;
Analyzing means for analyzing the polarity of a word included in the extracted data based on a polarity expression dictionary that associates a word with polarity and polarity strength;
When the intensity of the analyzed polarity is larger than a predetermined value, the range of the extracted data is expanded. When a plurality of polarities are mixed in the extracted data, the extraction is performed in a range including each polarity. Changing means for dividing the extracted data and changing the range of the extracted data;
An information processing apparatus comprising: output means for outputting the data whose range has been changed by the changing means as extracted data.

請求項1又は5に係る発明によれば、言語データから極性表現が均一に含まれるデータを抽出することができる。   According to the invention which concerns on Claim 1 or 5, the data in which polarity expression is contained uniformly can be extracted from language data.

請求項2に係る発明によれば、極性表現が均一に含まれるデータを多値分類器の教師データにすることで、多値分類の精度を向上することができる。   According to the second aspect of the present invention, the accuracy of multi-level classification can be improved by using the data including the polar expression uniformly as the teacher data of the multi-level classifier.

請求項3に係る発明によれば、極性表現が均一に含まれるデータを多値分類することで、多値分類の精度を向上することができる。   According to the third aspect of the invention, it is possible to improve the accuracy of multi-level classification by performing multi-level classification on data in which polarity expressions are uniformly included.

請求項4に係る発明によれば、極性表現が均一に含まれるデータを用いて再学習することで、機械学習の精度を向上することができる。   According to the fourth aspect of the present invention, it is possible to improve the accuracy of machine learning by performing relearning using data in which the polar expression is uniformly included.

図1は、第1の実施の形態に係る情報処理装置の構成の一例を示すブロック図である。FIG. 1 is a block diagram illustrating an example of the configuration of the information processing apparatus according to the first embodiment. 図2は、極性表現辞書データの構成の一例を示す概略図である。FIG. 2 is a schematic diagram illustrating an example of the configuration of the polarity expression dictionary data. 図3(a)−(c)は、データ抽出手段が抽出するデータの構成の一例を示す図である。FIGS. 3A to 3C are diagrams illustrating an example of a configuration of data extracted by the data extraction unit. 図4(a)−(c)は、範囲変更前のデータと範囲の変更されたデータとの関係を示す概略図である。FIGS. 4A to 4C are schematic diagrams illustrating the relationship between the data before the range change and the data whose range has been changed. 図5は、情報処理装置の動作の一例を示すフローチャートである。FIG. 5 is a flowchart illustrating an example of the operation of the information processing apparatus. 図6は、第2の実施の形態に係る情報処理装置の構成の一例を示すブロック図である。FIG. 6 is a block diagram illustrating an example of the configuration of the information processing apparatus according to the second embodiment. 図7は、第3の実施の形態に係る情報処理装置の構成の一例を示すブロック図である。FIG. 7 is a block diagram illustrating an example of the configuration of the information processing apparatus according to the third embodiment. 図8は、情報処理装置の動作の一例を示すフローチャートである。FIG. 8 is a flowchart illustrating an example of the operation of the information processing apparatus. 図9は、第4の実施の形態に係る情報処理装置の構成の一例を示すブロック図である。FIG. 9 is a block diagram illustrating an example of the configuration of the information processing apparatus according to the fourth embodiment. 図10は、情報処理装置の動作の一例を示すフローチャートである。FIG. 10 is a flowchart illustrating an example of the operation of the information processing apparatus. 図11(a)−(c)は、データ抽出手段が抽出する教師データ候補の構成の一例を示す図である。FIGS. 11A to 11C are diagrams illustrating an example of a configuration of teacher data candidates extracted by the data extraction unit. 図12は、情報処理装置の動作の一例を示すフローチャートである。FIG. 12 is a flowchart illustrating an example of the operation of the information processing apparatus.

[第1の実施の形態]
(情報処理装置の構成)
図1は、第1の実施の形態に係る情報処理装置の構成の一例を示すブロック図である。
[First Embodiment]
(Configuration of information processing device)
FIG. 1 is a block diagram illustrating an example of the configuration of the information processing apparatus according to the first embodiment.

この情報処理装置1は、複数の文を含む言語データ111から、一例として、文や節を単位としてデータを抽出し、当該データに極性表現が均一に含まれるようにし、当該データを抽出データ113として出力するものである。ここで、「極性」とは「ポジティブ」や「ネガティブ」といった2以上の値を有するものであって、「極性表現」とは、極性が「ポジティブ」に属する「うれしい」や「たのしい」等、極性が「ネガティブ」に属する「つまらない」や「飽きた」等の形態素又は単語を示すものとする。   As an example, the information processing apparatus 1 extracts data in units of sentences and clauses from language data 111 including a plurality of sentences, the polarity expression is uniformly included in the data, and the data is extracted data 113. Is output as Here, “polarity” has two or more values such as “positive” and “negative”, and “polarity expression” means “joyful”, “fun”, etc. in which the polarity belongs to “positive”. It shall indicate a morpheme or word such as “boring” or “get bored” whose polarity is “negative”.

情報処理装置1は、CPU等から構成され各部を制御するとともに各種のプログラムを実行する制御部10と、HDD(Hard Disk Drive)やフラッシュメモリ等の記録媒体から構成され情報を記憶する記憶装置の一例としての記憶部11と、外部機器と図示しないネットワークを介して接続される通信部12とを備える。   The information processing apparatus 1 includes a control unit 10 that includes a CPU and the like, controls each unit and executes various programs, and a storage device that includes a recording medium such as an HDD (Hard Disk Drive) and a flash memory and stores information. A storage unit 11 as an example and a communication unit 12 connected to an external device via a network (not shown) are provided.

制御部10は、後述する情報処理プログラム110を実行することで、言語データ取得手段100、データ抽出手段101、極性分析手段102、データ範囲変更手段103及び抽出データ出力手段104等として機能する。   The control unit 10 functions as a language data acquisition unit 100, a data extraction unit 101, a polarity analysis unit 102, a data range change unit 103, an extracted data output unit 104, and the like by executing an information processing program 110 described later.

言語データ取得手段100は、記憶部11の言語データ111から指定された条件に該当する言語データを取得する。条件は適宜変更可能であるが、例えば、データを作成した利用者やデータが作成された日時等を指定するものである。   The language data acquisition unit 100 acquires language data corresponding to a specified condition from the language data 111 in the storage unit 11. The conditions can be changed as appropriate. For example, the user who created the data, the date and time when the data was created, and the like are specified.

データ抽出手段101は、言語データ取得手段100が取得した言語データ111から、予め定めた単位でデータを抽出する。予め定めた単位は適宜変更可能であるが、本実施の形態では例えば、文を単位とする。また、所定の文字数以内の文を単位としてデータを抽出してもよい。   The data extraction unit 101 extracts data in units determined in advance from the language data 111 acquired by the language data acquisition unit 100. Although the predetermined unit can be appropriately changed, in this embodiment, for example, a sentence is used as a unit. Data may be extracted in units of sentences within a predetermined number of characters.

極性分析手段102は、データ抽出手段101が抽出したデータのそれぞれについて、後述する極性表現辞書データ112を参照することにより、当該データに含まれる極性の種類、極性の強さ 等を分析する。ここで、「極性の強さ」とは、後述する図2に示すように複数段階(「3、2、1」や「大、中、小」)で程度を示すものや、極性の有無(「有、無」)で程度を示すものが含まれ、強さを示すものであれば他の表記法に従うものであってもよい。   The polarity analysis unit 102 analyzes the type of polarity, the strength of the polarity, and the like included in the data by referring to the polarity expression dictionary data 112 described later for each of the data extracted by the data extraction unit 101. Here, the “polarity strength” means a degree indicating the degree in a plurality of stages (“3, 2, 1” and “large, medium, small”) as shown in FIG. “Yes, No”) may be included, and may be in accordance with other notation as long as it indicates strength.

データ範囲変更手段103 は、極性分析手段102の分析結果に基づき、データ抽出手段101が抽出したデータの範囲を文や節の単位で拡張したり、 分割したりすることで変更する。なお、データ範囲変更手段103は、拡張又は分割のいずれかのみでデータの範囲を変更するものであってもよい。また、データ範囲変更手段103は、データの範囲を拡張する際、データの後ろに続く文や節の単位で拡張するものであってもよいし、データの前に位置する文や節の単位で拡張するものであってもよい。さらに、データの前後に拡張するものであってもよい。   The data range changing unit 103 changes the range of data extracted by the data extracting unit 101 based on the analysis result of the polarity analyzing unit 102 by expanding or dividing the data range in units of sentences or clauses. Note that the data range changing unit 103 may change the data range only by expansion or division. In addition, when the data range is expanded, the data range changing unit 103 may extend in units of sentences or clauses that follow the data, or in units of sentences or clauses that precede the data. It may be extended. Further, it may be extended before and after the data.

抽出データ出力手段104は、データ範囲変更手段103によって範囲が変更されたデータを抽出データ113として出力する。   The extracted data output unit 104 outputs the data whose range has been changed by the data range changing unit 103 as the extracted data 113.

記憶部11は、情報処理プログラム110、言語データ111、極性表現辞書データ112及び抽出データ113等を格納する。   The storage unit 11 stores an information processing program 110, language data 111, polarity expression dictionary data 112, extracted data 113, and the like.

情報処理プログラム110は、制御部10で実行することにより制御部10を上記した各手段100〜104として機能させるプログラムである。   The information processing program 110 is a program that causes the control unit 10 to function as the above-described units 100 to 104 by being executed by the control unit 10.

言語データ111は、一例として、日本語であって複数の文を含むものである。文は、電子メールでやりとりされるテキスト情報や、複数の利用者によって文字情報が投稿されるマイクロブログ(Microblog)、音声をテキスト化した情報や、印刷された紙面を光学走査して得られる情報等である。なお、言語データ111は、日本語に限らず他の言語を用いてもよい。なお、言語データ111は、外部から取得する構成であってもよい。   The language data 111 is, for example, Japanese and includes a plurality of sentences. Sentences are text information exchanged by e-mail, microblogs where text information is posted by multiple users, information obtained by converting voice into text, and information obtained by optically scanning printed paper. Etc. The language data 111 is not limited to Japanese, and other languages may be used. The language data 111 may be acquired from the outside.

極性表現辞書データ112は、極性表現である単語が、極性の種類及び極性の強さとともに予め登録された情報である。   The polar expression dictionary data 112 is information in which words that are polar expressions are registered in advance together with the type of polarity and the strength of the polarity.

抽出データ113は、抽出データ出力手段104により抽出されたデータである。   The extracted data 113 is data extracted by the extracted data output unit 104.

なお、情報処理装置1は、例えば、サーバ装置やパーソナルコンピュータであり、携帯電話等や携帯情報処理端末を用いることができる。   The information processing device 1 is, for example, a server device or a personal computer, and a mobile phone or a mobile information processing terminal can be used.

図2は、極性表現辞書データ112の構成の一例を示す概略図である。   FIG. 2 is a schematic diagram illustrating an example of the configuration of the polarity expression dictionary data 112.

極性表現辞書データ112aは、極性表現辞書データ112の例示であり、極性表現である単語と、当該単語の極性の種類である極性と、当該極性の強さとを有する。例えば、「楽しい」という単語は極性が「ポジティブ」であって、極性の強さが「2」である。   The polarity expression dictionary data 112a is an example of the polarity expression dictionary data 112, and includes a word that is a polarity expression, a polarity that is a type of polarity of the word, and a strength of the polarity. For example, the word “fun” has a polarity of “positive” and a polarity of “2”.

(情報処理装置の動作)
次に、第1の実施の形態の動作を説明する。
(Operation of information processing device)
Next, the operation of the first embodiment will be described.

図5は、情報処理装置1の動作の一例を示すフローチャートである。   FIG. 5 is a flowchart illustrating an example of the operation of the information processing apparatus 1.

まず、言語データ取得手段100は、記憶部11の言語データ111から指定された条件、例えば、データを作成した利用者やデータが作成された日時等が条件に該当する言語データ111を取得する(S1)。   First, the language data acquisition unit 100 acquires the language data 111 in which the conditions specified from the language data 111 in the storage unit 11, for example, the user who created the data, the date and time when the data was created, and the like meet the conditions ( S1).

次に、データ抽出手段101は、言語データ取得手段100が取得した言語データ111から、例えば、35文字以内で文を単位としてデータを抽出する(S2)。当該条件によって抽出されるデータの構成の例を以下に示す。   Next, the data extraction unit 101 extracts data from the language data 111 acquired by the language data acquisition unit 100 in units of sentences within 35 characters, for example (S2). An example of the configuration of data extracted according to the conditions is shown below.

図3(a)−(c)は、データ抽出手段101が抽出するデータの構成の一例を示す図である。   FIGS. 3A to 3C are diagrams illustrating an example of a configuration of data extracted by the data extraction unit 101. FIG.

図3(a)に示すように、データ101aは2つの文からなり、21文字である。また、図3(b)に示すように、データ101bは1つの文であり、32文字である。また、図3(c)に示すように、データ101cは1つの文であり、21文字である。   As shown in FIG. 3A, the data 101a is composed of two sentences and is 21 characters. Further, as shown in FIG. 3B, the data 101b is one sentence and is 32 characters. Further, as shown in FIG. 3C, the data 101c is one sentence and is 21 characters.

次に、極性分析手段102は、データ抽出手段101が抽出したデータ101a‐101cのそれぞれについて、極性表現辞書データ112を参照することにより、当該データに含まれる極性の種類、極性の強さ等を分析する(S3、S4、S7)。   Next, the polarity analysis unit 102 refers to the polarity expression dictionary data 112 for each of the data 101a-101c extracted by the data extraction unit 101, thereby determining the type of polarity, the strength of the polarity, etc. included in the data. Analyze (S3, S4, S7).

例えば、極性分析手段102は、データ101aに「嬉しい」、「幸せ」という単語が含まれているため、データ101aの極性は「ポジティブ」であり、極性の強さは「5」であって、極性が強いと判断する(S4;Yes)。なお、極性が強いと判断する極性の強さは例えば「5」以上の場合であるとする。   For example, since the polarity analysis means 102 includes the words “happy” and “happy” in the data 101a, the polarity of the data 101a is “positive” and the strength of the polarity is “5”. It is determined that the polarity is strong (S4; Yes). It is assumed that the polarity determined to be strong is, for example, “5” or more.

また、極性分析手段102は、データ101bに「楽しい」と「疲れた」という単語が含まれているため、データ101bの極性は「ポジティブ」と「ネガティブ」の双方が混在していると判断する(S4;No、S7;Yes)。   In addition, since the data 101b includes the words “fun” and “tired”, the polarity analysis unit 102 determines that the polarity of the data 101b includes both “positive” and “negative”. (S4; No, S7; Yes).

また、極性分析手段102は、データ101cに「面白い」が含まれているため、データ101cの極性は「ポジティブ」であり、極性の強さは「1」であって、極性が強くなく(S4;No)、極性が混在していない(S7;No)と判断する。   Further, since the polarity analysis means 102 includes “interesting” in the data 101c, the polarity of the data 101c is “positive”, the strength of the polarity is “1”, and the polarity is not strong (S4). ; No), it is determined that the polarities are not mixed (S7; No).

次に、データ範囲変更手段103は、極性分析手段102の分析結果に基づき、データ101a‐101cの範囲を以下に説明するように変更する。   Next, the data range changing unit 103 changes the range of the data 101a-101c based on the analysis result of the polarity analyzing unit 102 as described below.

図4(a)−(c)は、範囲変更前のデータ101a‐101cと範囲の変更されたデータとの関係を示す概略図である。   4A to 4C are schematic diagrams illustrating the relationship between the data 101a to 101c before the range change and the data whose range has been changed.

データ範囲変更手段103は、上述したデータ101aは極性が強いため、後ろに続く文も同様の極性を含む蓋然性が高いと判断し、データ101aと同じデータ103aに後続する文であるデータ103aまで範囲を拡張して範囲変更後のデータ103aとする(S5)。 Data range changing unit 103, the data 101a described above more polar, statements that follows also determines that there is a high probability that contains the same polarity, the data 103a 2 is a sentence that follows the same data 103a 1 and data 101a The range is expanded to the data 103a after the range change (S5).

また、データ範囲変更手段103は、上述したデータ101bは極性が混在しているため、データ101aをそれぞれの極性を含む範囲のデータ103bとデータ103bとに分割する(S8)。 The data range changing means 103, data 101b described above because the polarities are mixed, divides the data 101a to the data 103b 1 range including respective polarity and the data 103b 2 (S8).

また、データ範囲変更手段103は、上述したデータ101cは極性が強くなく、極性も混在していないため、抽出範囲の変更が必要ないデータであると判断して、データ101cの範囲を維持してデータ103cとする(S9)。   Further, the data range changing unit 103 determines that the data 101c described above is data that does not need to be changed because the polarity of the data 101c is not strong and the polarity is not mixed, and maintains the range of the data 101c. Data 103c is set (S9).

次に、抽出データ出力手段104は、データ範囲変更手段103によって範囲が変更されたデータ103a、103b、103b、103cを抽出データ113として出力し、記憶部11に記憶する(S6)。 Next, the extracted data output means 104 outputs the data 103a, 103b 1 , 103b 2 , 103c whose ranges have been changed by the data range changing means 103 as the extracted data 113 and stores them in the storage unit 11 (S6).

(第1の実施の形態の効果)
上記した第1の実施の形態によると、極性分析手段102によって抽出したデータの極性を分析し、極性が強い場合は範囲を拡げ、極性が複数含まれる場合は分割したため、言語データ111から極性表現が均一に含まれる抽出データ113を抽出することができる。
(Effects of the first embodiment)
According to the first embodiment described above, the polarity of the data extracted by the polarity analysis unit 102 is analyzed. When the polarity is strong, the range is expanded, and when a plurality of polarities are included, the data is divided. Can be extracted.

なお、データ範囲変更手段103は、ステップS3−S5、S7−S9を複数回繰り返して行ってもよい。   The data range changing unit 103 may repeat steps S3-S5 and S7-S9 a plurality of times.

[第2の実施の形態]
(情報処理装置の構成)
第2の実施の形態は、第1の実施の形態を応用したものであり、抽出データ113を機械学習に用いる教師データとして出力する点で異なる。
[Second Embodiment]
(Configuration of information processing device)
The second embodiment is an application of the first embodiment, and differs in that the extracted data 113 is output as teacher data used for machine learning.

図6は、第2の実施の形態に係る情報処理装置の構成の一例を示すブロック図である。なお、第1の実施の形態と同様の機能を有する構成については同様の符号を付している。   FIG. 6 is a block diagram illustrating an example of the configuration of the information processing apparatus according to the second embodiment. In addition, the same code | symbol is attached | subjected about the structure which has the same function as 1st Embodiment.

情報処理装置1Aの制御部10は、情報処理プログラム110Aを実行することで、抽出データ出力手段104に代えて教師データ出力手段105として機能する。   The control unit 10 of the information processing apparatus 1A functions as the teacher data output unit 105 instead of the extracted data output unit 104 by executing the information processing program 110A.

教師データ出力手段105は、第1の実施の形態と同様に機能する手段100−103によりデータを得て、教師データ114として出力する。   The teacher data output means 105 obtains data by means 100-103 functioning in the same manner as in the first embodiment, and outputs it as teacher data 114.

また、情報処理装置1Aの記憶部11は、抽出データ113に代えて教師データ114を有する。   The storage unit 11 of the information processing apparatus 1 </ b> A has teacher data 114 instead of the extracted data 113.

教師データ114は、機械学習に用いられる情報として収集され、通信部12を介して図示しない外部の機械学習を実行する装置に送信される。なお、学習はサポートベクターマシン、ナイーブベイズ、Adaboost、決定木 等 の手法を用いて行われる。   The teacher data 114 is collected as information used for machine learning, and is transmitted to an external machine learning device (not shown) via the communication unit 12. Learning is performed using a method such as support vector machine, naive bayes, adaboost, decision tree and the like.

(第2の実施の形態の効果)
上記した第2の実施の形態によると、第1の実施の形態の情報処理装置1を教師データ114の収集に応用することができ、教師データ114に均一に極性表現が含まれるため、ノイズが減少し、素性として用いることができる情報が増大し、結果として当該教師データ114を機械学習に用いた場合、学習の精度が向上する。
(Effect of the second embodiment)
According to the second embodiment described above, the information processing apparatus 1 of the first embodiment can be applied to the collection of the teacher data 114, and since the teacher data 114 includes the polar expression uniformly, noise is generated. The information that can be used as features is decreased, and as a result, when the teacher data 114 is used for machine learning, the accuracy of learning is improved.

[第3の実施の形態]
(情報処理装置の構成)
第3の実施の形態は、第1の実施の形態を多値分類器に応用した例である。
[Third Embodiment]
(Configuration of information processing device)
The third embodiment is an example in which the first embodiment is applied to a multilevel classifier.

図7は、第3の実施の形態に係る情報処理装置の構成の一例を示すブロック図である。なお、第1の実施の形態及び第2の実施の形態と同様の機能を有する構成については同様の符号を付している。   FIG. 7 is a block diagram illustrating an example of the configuration of the information processing apparatus according to the third embodiment. In addition, the same code | symbol is attached | subjected about the structure which has the function similar to 1st Embodiment and 2nd Embodiment.

情報処理装置1Bの制御部10は、情報処理プログラム110Bを実行することで、多値分類判定手段106としてさらに機能し、抽出データ出力手段104に代えて判定結果出力手段107として機能する。   The control unit 10 of the information processing apparatus 1B further functions as the multi-value classification determination unit 106 by executing the information processing program 110B, and functions as the determination result output unit 107 instead of the extracted data output unit 104.

多値分類判定手段106は、後述する学習モデル115に基づいて与えられたデータについて多値分類判定する。ここで、多値分類判定とは、与えられたデータが予め用意された複数のクラスのいずれに分類されるか判定するものであって、例えば、データとしてマイクロブログを用いた場合に「ポジティブ」、「ネガティブ」、「ニュートラル」の3値極性に分類したり、データとしてアンケートやインタビュー等により収集されたある製品の購入理由を用いた場合に「機能」、「包装」、「価格」、「デザイン」、「その他」等の値に分類したりする。   The multi-value classification determination unit 106 determines multi-value classification for data given based on a learning model 115 described later. Here, the multi-value classification determination is to determine which given data is classified into a plurality of classes prepared in advance. For example, when a microblog is used as data, “positive” is determined. , “Negative”, “Neutral”, categorized as ternary polarity, or “data”, “packaging”, “price”, “ It is classified into values such as “design” and “other”.

判定結果出力手段107は、判定の対象となったデータと、多値分類判定手段106によって分類されたクラスとを関連付けて判定結果データ116として出力する。   The determination result output unit 107 associates the data to be determined with the class classified by the multi-value classification determination unit 106 and outputs the result as determination result data 116.

情報処理装置1Bの記憶部11は、学習モデル115をさらに有し、抽出データ113に代えて判定結果データ116を有する。   The storage unit 11 of the information processing apparatus 1 </ b> B further includes a learning model 115 and includes determination result data 116 instead of the extracted data 113.

学習モデル115は、機械学習により生成されたものであり、多値分類判定手段106に用いられる。   The learning model 115 is generated by machine learning and is used for the multi-value classification determination unit 106.

判定結果データ116は、判定結果出力手段107によって出力されたデータである。   The determination result data 116 is data output by the determination result output unit 107.

(情報処理装置の動作)
次に、第3の実施の形態の動作を説明する。
(Operation of information processing device)
Next, the operation of the third embodiment will be described.

図8は、情報処理装置1Bの動作の一例を示すフローチャートである。   FIG. 8 is a flowchart illustrating an example of the operation of the information processing apparatus 1B.

まず、言語データ取得手段100は、記憶部11の言語データ111から指定された条件、例えば、データを作成した利用者やデータが作成された日時等が条件に該当する言語データ111を取得する(S10)。   First, the language data acquisition unit 100 acquires the language data 111 in which the conditions specified from the language data 111 in the storage unit 11, for example, the user who created the data, the date and time when the data was created, and the like meet the conditions ( S10).

次に、データ抽出手段101は、言語データ取得手段100が取得した言語データ111から、例えば、35文字以内で文を単位としてデータを抽出する(S11)。   Next, the data extraction unit 101 extracts data from the language data 111 acquired by the language data acquisition unit 100 in units of sentences within 35 characters, for example (S11).

次に、多値分類判定手段106は、データ抽出手段101が抽出したデータについて学習モデル115に基づいて多値分類判定する(S12)。   Next, the multi-level classification determination unit 106 determines multi-level classification based on the learning model 115 for the data extracted by the data extraction unit 101 (S12).

次に、極性分析手段102は、多値分類判定手段106が多値分類判定したデータのそれぞれについて、極性表現辞書データ112を参照することにより、当該データに含まれる極性の種類、極性の強さ等を分析する(S13、S14、S16)。   Next, the polarity analysis unit 102 refers to the polarity expression dictionary data 112 for each of the data that the multi-level classification determination unit 106 has determined multi-level classification, so that the type of polarity and the strength of the polarity included in the data are determined. Etc. are analyzed (S13, S14, S16).

次に、データ範囲変更手段103は、多値分類判定したデータの極性が強い場合(S14;Yes)、後続する文であるデータまで範囲を拡張して範囲変更する(S15)。なお、多値分類判定手段106の判定結果が信頼度の高いものである場合は、当該信頼度を考慮して拡張しないようにしてもよい。   Next, when the polarity of the data subjected to the multi-value classification determination is strong (S14; Yes), the data range changing unit 103 extends the range to the subsequent sentence data and changes the range (S15). In addition, when the determination result of the multi-value classification determination unit 106 has a high reliability, it may not be expanded in consideration of the reliability.

また、データ範囲変更手段103は、多値分類判定したデータに極性が混在している場合(S14;No、S16;Yes)、多値分類判定したデータのそれぞれの極性を含む範囲のデータに分割する(S17)。なお、多値分類判定手段106の判定結果が信頼度の高いものである場合は、当該信頼度を考慮して分割しないようにしてもよい。   Further, when the polarity is mixed in the data determined by the multi-value classification (S14; No, S16; Yes), the data range changing unit 103 divides the data into the data including the respective polarities of the data determined by the multi-value classification. (S17). In addition, when the determination result of the multi-value classification determination unit 106 has a high reliability, it may not be divided in consideration of the reliability.

また、データ範囲変更手段103は、多値分類判定したデータの極性が強くなく(S14;No)、極性も混在していない場合(S16;No)、抽出範囲の変更が必要ないデータであると判断して、データの範囲を維持する(S18)。   Further, the data range changing means 103 is data that does not need to be changed in the extraction range when the polarity of the data subjected to the multi-value classification determination is not strong (S14; No) and the polarities are not mixed (S16; No). Judgment is made and the range of data is maintained (S18).

次に、多値分類判定手段106は、データ範囲変更手段103によって範囲が変更されたデータを学習モデル115に基づいて再度、多値分類判定する(S19)。   Next, the multi-level classification determination unit 106 determines the multi-level classification of the data whose range has been changed by the data range change unit 103 based on the learning model 115 (S19).

次に、判定結果出力手段107は、多値分類判定手段106が判定対象としたデータと、多値分類判定手段106によって分類されたクラスとを関連付けて判定結果データ116として出力する(S20)。   Next, the determination result output unit 107 outputs the determination result data 116 by associating the data targeted by the multilevel classification determination unit 106 with the class classified by the multilevel classification determination unit 106 (S20).

(第3の実施の形態の効果)
上記した第3の実施の形態によると、第1の実施の形態の情報処理装置1を多値分類器に応用することができ、具体的には、多値分類の信頼度と極性分析との両方の観点から分類対象を分析することができ、極性表現が均一に含まれるデータを多値分類することで、多値分類の精度を向上することができる。
(Effect of the third embodiment)
According to the third embodiment described above, the information processing apparatus 1 of the first embodiment can be applied to a multi-level classifier. Specifically, the reliability of the multi-level classification and the polarity analysis The classification target can be analyzed from both viewpoints, and the accuracy of the multi-level classification can be improved by performing multi-level classification on the data in which the polar expression is uniformly included.

[第4の実施の形態]
第4の実施の形態は、予め用意された学習モデルを用いて多値分類判定されたデータに、第1の実施の形態を応用して極性表現が均一に含まれるよう範囲を変更することで教師データとし、当該教師データを用いて学習モデルの再学習を行うものである(ブートストラップ手法への応用)。
[Fourth Embodiment]
In the fourth embodiment, by applying the first embodiment to the data determined by multilevel classification using a learning model prepared in advance, the range is changed so that the polar expression is uniformly included. It is used as teacher data, and the learning model is relearned using the teacher data (application to a bootstrap method).

図9は、第4の実施の形態に係る情報処理装置の構成の一例を示すブロック図である。なお、第1の実施の形態‐第3の実施の形態と同様の機能を有する構成については同様の符号を付している。   FIG. 9 is a block diagram illustrating an example of the configuration of the information processing apparatus according to the fourth embodiment. In addition, the same code | symbol is attached | subjected about the structure which has the function similar to 1st Embodiment-3rd Embodiment.

情報処理装置1Cの制御部10は、情報処理プログラム110Cを実行することで、学習モデル再学習手段108としてさらに機能する。   The control unit 10 of the information processing apparatus 1C further functions as the learning model relearning unit 108 by executing the information processing program 110C.

学習モデル再学習手段108は、教師データ114を用いて学習モデル115の再学習を行う。   The learning model relearning unit 108 relearns the learning model 115 using the teacher data 114.

(情報処理装置の動作)
次に、第4の実施の形態の動作を説明する。
(Operation of information processing device)
Next, the operation of the fourth embodiment will be described.

図10は、情報処理装置1Cの動作の一例を示すフローチャートである。   FIG. 10 is a flowchart illustrating an example of the operation of the information processing apparatus 1C.

まず、言語データ取得手段100は、記憶部11の言語データ111から指定された条件、例えば、データを作成した利用者やデータが作成された日時等の条件に該当する言語データ111を取得する(S30)。   First, the language data acquisition unit 100 acquires language data 111 corresponding to conditions specified from the language data 111 in the storage unit 11, for example, conditions such as the user who created the data and the date and time when the data was created ( S30).

次に、データ抽出手段101は、言語データ取得手段100が取得した言語データ111から、例えば、35文字以内で文を単位としてデータを抽出する(S31)。   Next, the data extraction unit 101 extracts data from the language data 111 acquired by the language data acquisition unit 100 in units of sentences within 35 characters, for example (S31).

次に、多値分類判定手段106は、学習モデル115に基づいてデータ抽出手段101が抽出したデータについて多値分類判定する(S32)。   Next, the multi-level classification determination unit 106 determines multi-level classification for the data extracted by the data extraction unit 101 based on the learning model 115 (S32).

次に、極性分析手段102は、多値分類判定手段106が多値分類判定したデータのそれぞれについて、極性表現辞書データ112を参照することにより、当該データに含まれる極性の種類、極性の強さ等を分析する(S33、S34、S36)。   Next, the polarity analysis unit 102 refers to the polarity expression dictionary data 112 for each of the data that the multi-level classification determination unit 106 has determined multi-level classification, so that the type of polarity and the strength of the polarity included in the data are determined. Etc. are analyzed (S33, S34, S36).

次に、データ範囲変更手段103は、多値分類判定したデータの極性が強い場合(S34;Yes)、後続する文であるデータまで範囲を拡張して範囲変更する(S35)。なお、多値分類判定手段106の判定結果が信頼度の高いものである場合は、当該信頼度を考慮して拡張しないようにしてもよい。   Next, when the polarity of the data subjected to the multi-value classification determination is strong (S34; Yes), the data range changing unit 103 extends the range to the data that is a subsequent sentence and changes the range (S35). In addition, when the determination result of the multi-value classification determination unit 106 has a high reliability, it may not be expanded in consideration of the reliability.

また、データ範囲変更手段103は、多値分類判定したデータに極性が混在している場合(S34;No、S36;Yes)、多値分類判定したデータのそれぞれの極性を含む範囲のデータに分割する(S37)。なお、多値分類判定手段106の判定結果が信頼度の高いものである場合は、当該信頼度を考慮して分割しないようにしてもよい。   Further, when the polarity is mixed in the data determined by the multi-level classification (S34; No, S36; Yes), the data range changing unit 103 divides the data into the range including the respective polarities of the data determined by the multi-level classification. (S37). In addition, when the determination result of the multi-value classification determination unit 106 has a high reliability, it may not be divided in consideration of the reliability.

また、データ範囲変更手段103は、多値分類判定したデータの極性が強くなく(S34;No)、極性も混在していない場合(S36;No)、抽出範囲の変更が必要ないデータであると判断して、データの範囲を維持する(S38)。   Further, the data range changing means 103 is data that does not need to be changed in the extraction range when the polarity of the data subjected to the multi-value classification determination is not strong (S34; No) and the polarities are not mixed (S36; No). Judgment is made and the range of data is maintained (S38).

次に、教師データ出力手段105は、データ範囲変更手段103が範囲を変更したデータを教師データ114として出力する(S39)。   Next, the teacher data output means 105 outputs the data whose range has been changed by the data range change means 103 as teacher data 114 (S39).

次に、学習モデル再学習手段108は、教師データ114を用いて学習モデル115を再学習する(S40)。   Next, the learning model re-learning means 108 re-learns the learning model 115 using the teacher data 114 (S40).

なお、多値分類判定手段106により判定された結果は、再学習の教師データ114として用いない場合は、判定結果出力手段107により、第3の実施の形態と同様に、判定結果データ116として出力する。   When the result determined by the multi-value classification determination unit 106 is not used as the relearning teacher data 114, the determination result output unit 107 outputs the determination result data 116 as in the third embodiment. To do.

(第4の実施の形態の効果)
上記した第4の実施の形態によると、第1の実施の形態の情報処理装置1を学習モデルの再学習に応用することができ、極性表現が均一に含まれるデータを用いて再学習することで、機械学習の精度を向上することができる。
(Effect of the fourth embodiment)
According to the above-described fourth embodiment, the information processing apparatus 1 according to the first embodiment can be applied to relearning of a learning model, and relearning is performed using data that includes a polar expression uniformly. Thus, the accuracy of machine learning can be improved.

(実施例)
この実施例は、第2の実施の形態において言語データ111として「twitter」(登録商標)等のマイクロブログを用い、当該マイクロブログから教師データ114を抽出するものである。また、極性判定として「ポジティブ」又は「ネガティブ」のいずれの極性を有するか判定するものとする。
(Example)
In this embodiment, a microblog such as “twitter” (registered trademark) is used as the language data 111 in the second embodiment, and the teacher data 114 is extracted from the microblog. Further, as a polarity determination, it is determined whether the polarity is “positive” or “negative”.

図12は、情報処理装置1Aの動作の一例を示すフローチャートである。   FIG. 12 is a flowchart illustrating an example of the operation of the information processing apparatus 1A.

まず、言語データ取得手段100は、記憶部11の言語データ111から指定された条件、例えば、データを作成した利用者やデータが作成された日時等の条件に該当する言語データ111を取得する(S50)。   First, the language data acquisition unit 100 acquires language data 111 corresponding to conditions specified from the language data 111 in the storage unit 11, for example, conditions such as the user who created the data and the date and time when the data was created ( S50).

次に、データ抽出手段101は、言語データ取得手段100が取得した言語データ111から、例えば、1つの記事(「twitter」においては1つの「tweet」)を単位として教師データ候補を抽出する(S51)。当該条件によって抽出されるデータの構成の例を以下に示す。   Next, the data extraction unit 101 extracts teacher data candidates from the language data 111 acquired by the language data acquisition unit 100, for example, in units of one article (one “tweet” in “twitter”) (S51). ). An example of the configuration of data extracted according to the conditions is shown below.

図11(a)−(c)は、データ抽出手段101が抽出する教師データ候補の構成の一例を示す図である。   FIGS. 11A to 11C are diagrams illustrating an example of a configuration of teacher data candidates extracted by the data extraction unit 101. FIG.

図11(a)に示すように、教師データ候補101dは2つの文からなる。また、図11(b)に示すように、教師データ候補101eは1つの文である。また、図11(c)に示すように、教師データ候補101fは1つの文である。   As shown in FIG. 11A, the teacher data candidate 101d consists of two sentences. As shown in FIG. 11B, the teacher data candidate 101e is one sentence. In addition, as shown in FIG. 11C, the teacher data candidate 101f is one sentence.

次に、極性分析手段102は、教師データ候補101d‐101fのそれぞれについて、極性表現辞書データ112を参照することにより、当該データに含まれる極性表現の種類、極性の強さ等を分析する(S52)。   Next, the polarity analysis means 102 analyzes the type of polarity expression, the strength of polarity, etc. included in the data by referring to the polarity expression dictionary data 112 for each of the teacher data candidates 101d-101f (S52). ).

例えば、極性分析手段102は、教師データ候補101dに「できた」、「達成」という単語が含まれているため、教師データ候補101dの極性は「ポジティブ」であり、極性が非常に強いと判断する(S53;Yes)。   For example, the polarity analysis unit 102 determines that the teacher data candidate 101d is “positive” because the teacher data candidate 101d includes the words “completed” and “achievement”, and the polarity is very strong. (S53; Yes).

また、極性分析手段102は、教師データ候補101eに「面白い」と「疲れた」という単語が含まれているため、教師データ候補101eの極性は「ポジティブ」と「ネガティブ」で相反していると判断する(S53;No、S55;Yes)。   Further, since the polarity analysis means 102 includes the words “interesting” and “tired” in the teacher data candidate 101e, the polarity of the teacher data candidate 101e is contradictory between “positive” and “negative”. Judgment is made (S53; No, S55; Yes).

また、極性分析手段102は、教師データ候補101fに「おいしかった」が含まれているため、教師データ候補101fの極性は「ポジティブ」であるが、極性が強くなく(S53;No)、極性が相反していない(S55;No)と判断する。   In addition, since the polarity analyzing unit 102 includes “delicious” in the teacher data candidate 101f, the polarity of the teacher data candidate 101f is “positive”, but the polarity is not strong (S53; No), and the polarity is It is determined that there is no conflict (S55; No).

次に、データ範囲変更手段103は、極性分析手段102の分析結果に基づき、教師データ候補101d‐101fの範囲を以下に説明するように変更する。   Next, the data range changing unit 103 changes the range of the teacher data candidates 101d to 101f based on the analysis result of the polarity analyzing unit 102 as described below.

データ範囲変更手段103は、上述した教師データ候補101dは極性が強いため、返信である「reply」や「retweet」も同様の極性を含む蓋然性が高いと判断し、教師データ候補103dを追加する(S54)。   The data range changing unit 103 determines that the above-described teacher data candidate 101d has a strong polarity, so that “reply” and “retweet” that are replies have a high probability of including the same polarity, and adds the teacher data candidate 103d ( S54).

また、データ範囲変更手段103は、上述した教師データ候補101eは極性が混在しているため、返信である「reply」や「retweet」である教師データ候補103eは破棄し(S56)、教師データ候補101eをそれぞれの極性「ポジティブ」と「ネガティブ」を含む範囲の教師データ候補103eと教師データ候補103eとに分割する(S57)。 Further, the data range changing unit 103 discards the teacher data candidate 103e 1 that is a reply “reply” or “retweet” because the teacher data candidate 101e described above has a mixed polarity (S56), and the teacher data dividing the candidate 101e to each of the polar "positive" and scope teacher data candidate 103e 2 and the teacher data candidates 103e 3, including a "negative" (S57).

また、データ範囲変更手段103は、上述した教師データ候補101fは極性が強くなく、極性も混在していないため、抽出範囲の変更が必要ないデータであると判断して、教師データ候補101fの範囲を維持し、返信である「reply」や「retweet」である教師データ候補103fは破棄する(S58)。   Further, the data range changing unit 103 determines that the above-described teacher data candidate 101f is data that does not require a change of the extraction range because the polarity is not strong and the polarity is not mixed, and the range of the teacher data candidate 101f is determined. And the teacher data candidate 103f that is a reply “reply” or “retweet” is discarded (S58).

次に、抽出データ出力手段104は、データ範囲変更手段103によって範囲が変更されたデータ101d及び103d、103e及び103e、101fを教師データ114として出力し、記憶部11に記憶する(S59)。 Then, the extracted data output unit 104 outputs the data 101d scope by data range changing unit 103 is changed and 103d, the 103e 2 and 103e 3, 101f as teacher data 114, stored in the storage unit 11 (S59) .

[他の実施の形態]
なお、本発明は、上記実施の形態に限定されず、本発明の趣旨を逸脱しない範囲で種々な変形が可能である。
[Other embodiments]
The present invention is not limited to the above embodiment, and various modifications can be made without departing from the spirit of the present invention.

上記実施の形態では制御部10内の各手段100−108の機能をプログラムで実現したが、各手段の全て又は一部をASIC等のハードウエアによって実現してもよい。また、上記実施の形態で用いたプログラムをCD−ROM等の記録媒体に記憶して提供することもできる。また、上記実施の形態で説明した上記ステップの入れ替え、削除、追加等は本発明の要旨を変更しない範囲内で可能である。   In the above embodiment, the function of each means 100-108 in the control unit 10 is realized by a program, but all or a part of each means may be realized by hardware such as ASIC. The program used in the above embodiment can be provided by being stored in a recording medium such as a CD-ROM. In addition, replacement, deletion, addition, and the like of the above-described steps described in the above embodiment are possible within a range that does not change the gist of the present invention.

1、1A、1B、1C 情報処理装置
10 制御部
11 記憶部
12 通信部
100 言語データ取得手段
101 データ抽出手段
102 極性分析手段
103 データ範囲変更手段
104 抽出データ出力手段
105 教師データ出力手段
106 多値分類判定手段
107 判定結果出力手段
108 学習モデル再学習手段
110 情報処理プログラム
110A‐110C 情報処理プログラム
111 言語データ
112 極性表現辞書データ
113 抽出データ
114 教師データ
115 学習モデル
116 判定結果データ
1, 1A, 1B, 1C Information processing apparatus 10 Control unit 11 Storage unit 12 Communication unit 100 Language data acquisition unit 101 Data extraction unit 102 Polarity analysis unit 103 Data range change unit 104 Extracted data output unit 105 Teacher data output unit 106 Multi-value Classification determination means 107 Determination result output means 108 Learning model relearning means 110 Information processing program 110A-110C Information processing program 111 Language data 112 Polarity expression dictionary data 113 Extraction data 114 Teacher data 115 Learning model 116 Determination result data

Claims (5)

コンピュータを、
言語データから分析する対象として予め定めた範囲のデータを抽出する抽出手段と、
単語と極性及び極性の強さとを対応付けた極性表現辞書に基づいて前記抽出したデータに含まれる単語の極性を分析する分析手段と、
前記分析した極性の強さが予め定めた値より大きい場合、前記抽出したデータの範囲を拡げ、前記抽出したデータに複数の極性が混在している場合、それぞれの極性が含まれる範囲で当該抽出したデータを分割して、前記抽出したデータの範囲を変更する変更手段と、
前記変更手段が範囲を変更したデータを抽出データとして出力する出力手段として機能させるための情報処理プログラム。
Computer
Extracting means for extracting data in a predetermined range as an object to be analyzed from language data;
Analyzing means for analyzing the polarity of a word included in the extracted data based on a polarity expression dictionary that associates a word with polarity and polarity strength;
When the intensity of the analyzed polarity is larger than a predetermined value, the range of the extracted data is expanded. When a plurality of polarities are mixed in the extracted data, the extraction is performed in a range including each polarity. Changing means for dividing the extracted data and changing the range of the extracted data;
An information processing program for causing the changing means to function as output means for outputting data whose range has been changed as extracted data.
コンピュータを
言語データから分析する対象として予め定めた範囲のデータを抽出する抽出手段と、
単語と極性及び極性の強さとを対応付けた極性表現辞書に基づいて前記抽出したデータに含まれる単語の極性を分析する分析手段と、
前記分析した極性の強さが予め定めた値より大きい場合、前記抽出したデータの範囲を拡げ、前記抽出したデータに複数の極性が混在している場合、それぞれの極性が含まれる範囲で当該抽出したデータを分割して、前記抽出したデータの範囲を変更する変更手段と、
前記変更手段が範囲を変更したデータを機械学習に用いる教師データとして出力する教師データ出力手段として機能させるための情報処理プログラム。
Extracting means for extracting data in a predetermined range as a target for analyzing a computer from language data;
Analyzing means for analyzing the polarity of a word included in the extracted data based on a polarity expression dictionary that associates a word with polarity and polarity strength;
When the intensity of the analyzed polarity is larger than a predetermined value, the range of the extracted data is expanded. When a plurality of polarities are mixed in the extracted data, the extraction is performed in a range including each polarity. Changing means for dividing the extracted data and changing the range of the extracted data;
An information processing program for functioning as teacher data output means for outputting data whose range has been changed by the changing means as teacher data used for machine learning.
コンピュータを、
言語データから分析する対象として予め定めた範囲のデータを抽出する抽出手段と、
予め用意した学習モデルを用いて前記抽出したデータを多値分類する判定手段と、
単語と極性及び極性の強さとを対応付けた極性表現辞書に基づいて前記判定したデータに含まれる単語の極性を分析する分析手段と、
前記分析した極性の強さが予め定めた値より大きい場合、前記判定したデータの範囲を拡げ、前記判定したデータに複数の極性が混在している場合、それぞれの極性が含まれる範囲で当該判定したデータを分割して、前記判定したデータの範囲を変更する変更手段として機能させ、
前記判定手段は、当該範囲の変更されたデータを多値分類する情報処理プログラム。
Computer
Extracting means for extracting data in a predetermined range as an object to be analyzed from language data;
Determination means for multi-value classification of the extracted data using a learning model prepared in advance;
Analyzing means for analyzing the polarity of a word included in the determined data based on a polarity expression dictionary that associates a word with polarity and polarity strength;
If the strength of the analyzed polarity is greater than a predetermined value, the range of the determined data is expanded, and if a plurality of polarities are mixed in the determined data, the determination is made within a range including each polarity. Dividing the processed data and functioning as a changing means for changing the determined data range,
The determination means is an information processing program for performing multi-value classification on data whose range has been changed.
コンピュータを、
言語データから分析する対象として予め定めた範囲のデータを抽出する抽出手段と、
予め用意した学習モデルを用いて前記抽出したデータを多値分類する判定手段と、
単語と極性及び極性の強さとを対応付けた極性表現辞書に基づいて前記判定したデータに含まれる単語の極性を分析する分析手段と、
前記分析した極性の強さが予め定めた値より大きい場合、前記判定したデータの範囲を拡げ、前記判定したデータに複数の極性が混在している場合、それぞれの極性が含まれる範囲で当該判定したデータを分割して、前記判定したデータの範囲を変更する変更手段と、
当該範囲の変更されたデータを教師データとして前記学習モデルを再学習する再学習手段として機能させるための情報処理プログラム。
Computer
Extracting means for extracting data in a predetermined range as an object to be analyzed from language data;
Determination means for multi-value classification of the extracted data using a learning model prepared in advance;
Analyzing means for analyzing the polarity of a word included in the determined data based on a polarity expression dictionary that associates a word with polarity and polarity strength;
If the strength of the analyzed polarity is greater than a predetermined value, the range of the determined data is expanded, and if a plurality of polarities are mixed in the determined data, the determination is made within a range including each polarity. Changing means for dividing the determined data and changing the range of the determined data;
An information processing program for functioning as relearning means for relearning the learning model using the data in which the range is changed as teacher data.
言語データから分析する対象として予め定めた範囲のデータを抽出する抽出手段と、
単語と極性及び極性の強さとを対応付けた極性表現辞書に基づいて前記抽出したデータに含まれる単語の極性を分析する分析手段と、
前記分析した極性の強さが予め定めた値より大きい場合、前記抽出したデータの範囲を拡げ、前記抽出したデータに複数の極性が混在している場合、それぞれの極性が含まれる範囲で当該抽出したデータを分割して、前記抽出したデータの範囲を変更する変更手段と、
前記変更手段が範囲を変更したデータを抽出データとして出力する出力手段とを有する情報処理装置。
Extracting means for extracting data in a predetermined range as an object to be analyzed from language data;
Analyzing means for analyzing the polarity of a word included in the extracted data based on a polarity expression dictionary that associates a word with polarity and polarity strength;
When the intensity of the analyzed polarity is greater than a predetermined value, the range of the extracted data is expanded. Changing means for dividing the extracted data and changing the range of the extracted data;
An information processing apparatus comprising: output means for outputting the data whose range has been changed by the changing means as extracted data.
JP2013251966A 2013-12-05 2013-12-05 Information processing program and information processing apparatus Expired - Fee Related JP6213196B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013251966A JP6213196B2 (en) 2013-12-05 2013-12-05 Information processing program and information processing apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013251966A JP6213196B2 (en) 2013-12-05 2013-12-05 Information processing program and information processing apparatus

Publications (2)

Publication Number Publication Date
JP2015109004A JP2015109004A (en) 2015-06-11
JP6213196B2 true JP6213196B2 (en) 2017-10-18

Family

ID=53439298

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013251966A Expired - Fee Related JP6213196B2 (en) 2013-12-05 2013-12-05 Information processing program and information processing apparatus

Country Status (1)

Country Link
JP (1) JP6213196B2 (en)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3903993B2 (en) * 2004-02-05 2007-04-11 セイコーエプソン株式会社 Sentiment recognition device, sentence emotion recognition method and program
JP4148522B2 (en) * 2004-11-19 2008-09-10 インターナショナル・ビジネス・マシーンズ・コーポレーション Expression detection system, expression detection method, and program
JP2009163565A (en) * 2008-01-08 2009-07-23 Toyota Central R&D Labs Inc Sentence shaping device and sentence shaping program
CN102200969A (en) * 2010-03-25 2011-09-28 日电(中国)有限公司 Text sentiment polarity classification system and method based on sentence sequence

Also Published As

Publication number Publication date
JP2015109004A (en) 2015-06-11

Similar Documents

Publication Publication Date Title
CN112035669B (en) Social media multi-modal rumor detection method based on propagation heterogeneous graph modeling
CN108984530B (en) Detection method and detection system for network sensitive content
US11106714B2 (en) Summary generating apparatus, summary generating method and computer program
Prasad et al. Sentiment analysis for sarcasm detection on streaming short text data
JP6541673B2 (en) Real time voice evaluation system and method in mobile device
CN113055386B (en) Method and device for identifying and analyzing attack organization
CN107967258B (en) Method and system for emotion analysis of text information
Sandaruwan et al. Sinhala hate speech detection in social media using text mining and machine learning
CN110555440B (en) Event extraction method and device
CN102279890A (en) Sentiment word extracting and collecting method based on micro blog
CN110674297B (en) Public opinion text classification model construction method, public opinion text classification device and public opinion text classification equipment
WO2019042450A1 (en) Natural language processing method and apparatus
CN110910175A (en) Tourist ticket product portrait generation method
Habib et al. Unsupervised improvement of named entity extraction in short informal context using disambiguation clues
US10217455B2 (en) Linguistic model database for linguistic recognition, linguistic recognition device and linguistic recognition method, and linguistic recognition system
US12008609B2 (en) Method and system for initiating an interface concurrent with generation of a transitory sentiment community
US11605004B2 (en) Method and system for generating a transitory sentiment community
JP6220762B2 (en) Next utterance candidate scoring device, method, and program
Sagcan et al. Toponym recognition in social media for estimating the location of events
CN114065749A (en) Text-oriented Guangdong language recognition model and training and recognition method of system
WO2023245869A1 (en) Speech recognition model training method and apparatus, electronic device, and storage medium
JP6213196B2 (en) Information processing program and information processing apparatus
Vu et al. Multilingual rules for spam detection
Selmer et al. NTNU: Domain semi-independent short message sentiment classification
Batra et al. CovFakeBot: a machine learning based chatbot using ensemble learning technique for COVID-19 fake news detection

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161019

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170822

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170825

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170904

R150 Certificate of patent or registration of utility model

Ref document number: 6213196

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees