JP5704732B2 - Program particle complementation program, apparatus, server, and method for target sentence - Google Patents
Program particle complementation program, apparatus, server, and method for target sentence Download PDFInfo
- Publication number
- JP5704732B2 JP5704732B2 JP2014010827A JP2014010827A JP5704732B2 JP 5704732 B2 JP5704732 B2 JP 5704732B2 JP 2014010827 A JP2014010827 A JP 2014010827A JP 2014010827 A JP2014010827 A JP 2014010827A JP 5704732 B2 JP5704732 B2 JP 5704732B2
- Authority
- JP
- Japan
- Prior art keywords
- particle
- sentence information
- expression
- sentence
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
本発明は、インターネットに公開されるWebサイトに記述された文章情報の内容を解析する技術に関する。 The present invention relates to a technique for analyzing the contents of text information described on a website published on the Internet.
インターネットの普及により、ブログ、掲示板又はクチコミコメントを公開するWebサイトに、様々なテキストが記述されている。「ブログ」(Weblog)とは、一般的に個人によって運営され、時事ニュースや専門的トピックスに関する自らの意見を表明するために、日記的に更新することができるサイトをいう。また、「掲示板」とは、様々なテーマについて、他人と議論を逐次に交換するためのサイトをいう。更に、「クチコミコメント」とは、人の噂のような、物事の評判などに関するコメントを記述することができるサイトをいう。これらのサイトの普及により、一般のユーザが、インターネットで自由に情報発信できるようになった。 With the spread of the Internet, various texts are described on blogs, bulletin boards, or Web sites that publish reviews. A “blog” is a site that is generally run by an individual and can be updated in a diary to express their opinions on current news and specialized topics. A “bulletin board” is a site for sequentially exchanging discussions with other people on various themes. Furthermore, “review comments” refers to a site where comments about things such as people's rumors can be described. With the spread of these sites, general users can freely send information on the Internet.
これら文章情報を内容的に解析することによって、不特定多数の一般ユーザの意見を収集することができる。例えば、商品及びサービスに関する評判解析や、違法・有害情報をフィルタリングするための情報検索に適用できる。このような文章情報の解析には、係り受け解析や格解析を用いて、形態素間の関係を取得する技術を要する。しかしながら、文章情報の中に、助詞落ちや倒置によって記載された文章は、係り受け解析や格解析に失敗する場合がある。 By analyzing these text information in detail, opinions of an unspecified number of general users can be collected. For example, the present invention can be applied to reputation analysis regarding products and services and information retrieval for filtering illegal / harmful information. Such analysis of sentence information requires a technique for acquiring a relationship between morphemes using dependency analysis or case analysis. However, a sentence described by particle dropping or inversion in the sentence information may fail in dependency analysis or case analysis.
従来技術として、助詞落ちや倒置のような書き言葉特有の傾向を統計的に分析し、助詞落ちや倒置がある文章の係り受け解析精度を向上させる技術がある(例えば非特許文献1参照)。この技術は、例えば「助詞落ちがある名詞は、直後の述語にかかる可能性が高い」というようなヒューリスティック(heuristic)なルールによって判定する。 As a conventional technique, there is a technique for statistically analyzing a tendency unique to a written word such as particle dropping or inversion and improving dependency analysis accuracy of a sentence having particle dropping or inversion (for example, see Non-Patent Document 1). This technique is determined based on a heuristic rule such as “a noun with a particle dropping is highly likely to be applied to the immediately following predicate”.
また、ME(最大エントロピー法)に基づくモデルを用いて、係り受け解析精度を向上させる技術もある(例えば非特許文献2参照)。更に、口語文書を文単位に分割し、「節」と称される細かい単位に分類することで、係り受け解析精度を向上させる技術もある(例えば非特許文献3参照)。 There is also a technique for improving dependency analysis accuracy using a model based on ME (maximum entropy method) (see, for example, Non-Patent Document 2). Furthermore, there is a technique for improving dependency analysis accuracy by dividing a colloquial document into sentence units and classifying them into fine units called “sections” (see, for example, Non-Patent Document 3).
しかしながら、インターネット上の電子掲示板やブログなど、不特定多数の一般ユーザによって記述された文章情報は、口語表現などが多く含まれる。そのために、係り受け解析や格解析の精度が低下するという課題があった。このような精度低下の原因の多くは、「ラーメン食べた」(ラーメンを食べた)や「足速いね」(足が速いね)のような助詞落ち表現に基づくものである。 However, sentence information written by an unspecified number of general users, such as electronic bulletin boards and blogs on the Internet, includes many colloquial expressions. For this reason, there is a problem that the accuracy of dependency analysis and case analysis decreases. Many of the causes of such a decrease in accuracy are based on particle dropping expressions such as “I ate ramen” (I ate ramen) and “I have fast feet” (I have fast feet).
非特許文献1に記載された技術によれば、助詞落ちのある名詞は、高い確率で直後の動詞に係ると判定する。しかしながら、口語表現の場合、「名詞+動詞」の形態の文章であっても、助詞落ちではない文章も多数存在する。結局、不特定多数の一般ユーザにおける口語表現を含む文章情報の場合、文章情報の解析精度は低下してしまう。 According to the technique described in Non-Patent Document 1, a noun with a particle dropping is determined to be related to the immediately following verb with a high probability. However, in the case of colloquial expressions, there are many sentences that are not particles, even if they are sentences in the form of “noun + verb”. Eventually, in the case of sentence information including colloquial expressions for an unspecified number of general users, the analysis accuracy of the sentence information is lowered.
また、非特許文献2に記載された技術によれば、係り受け解析結果が付与された学習文書を要するため、人手によるラベル作業が必要となる。更に、非特許文献3に記載された技術によれば、助詞落ちを含む文書の解析精度を向上させる効果は少ないと考えられる。
In addition, according to the technique described in Non-Patent
そこで、本発明は、対象文章情報について助詞落ちの有無を検出する共に、落ちた助詞を補完することによって、対象文章情報の解析精度を向上させることができる助詞落ち補完プログラム、装置、サーバ及び方法を提供することを目的とする。 Therefore, the present invention detects a particle dropping presence / absence in the target sentence information and complements the dropped particle, thereby improving the analysis accuracy of the target sentence information, apparatus, server, and method The purpose is to provide.
本発明によれば、助詞落ち表現を含む対象文章情報に対して、該助詞を補完するようにコンピュータを機能させる助詞補完プログラムであって、
助詞落ち表現を含まない基準文章情報を蓄積した基準文章蓄積手段と、
基準文章情報から、助詞を削除することによって助詞落ち文章情報を生成する助詞落ち文章生成手段と、
助詞落ち文章情報を正例データとし、基準文章情報を負例データとして、2クラスのパターン識別器を構成すると共に、該パターン識別器を用いて、入力された対象文章情報が助詞落ち表現か否かを識別し、当該助詞落ち表現に対応する複数の助詞有り表現の候補を抽出する識別エンジン手段と
候補となる助詞有り表現毎に、基準文章蓄積手段に蓄積された基準文章情報の中における出現頻度を計数する出現頻度計数手段と、
出現頻度が最も高い助詞有り表現における助詞を、対象文章情報に対して補完する助詞落ち補完手段と
してコンピュータを機能させることを特徴とする。
According to the present invention, there is a particle complement program for causing a computer to function to complement a particle for target sentence information including a particle missing expression,
A reference sentence storage means for storing reference sentence information that does not include a particle omission expression;
A particle missing sentence generating means for generating particle missing sentence information by deleting a particle from the reference sentence information;
2 class pattern discriminators are constructed using particle missing sentence information as positive example data and reference sentence information as negative example data . Whether or not the input target sentence information is a particle missing expression using the pattern classifier And an identification engine means for extracting a plurality of particle candidate expressions corresponding to the particle dropping expression
Appearance frequency counting means that counts the appearance frequency in the reference sentence information stored in the reference sentence storage means for each candidate particle expression,
The computer is caused to function as a particle dropping complement means for complementing the particle in the expression with the particle having the highest appearance frequency with respect to the target sentence information .
本発明の助詞補完プログラムにおける他の実施形態によれば、
識別エンジン手段は、サポートベクタマシン(Support Vector Machine)に基づくもの、又は、ルールベースに基づくもの、であるようにコンピュータを更に機能させることも好ましい。
According to another embodiment of the particle complement program of the present invention,
It is also preferred that the computer further functions so that the identification engine means is based on a Support Vector Machine or based on a rule base.
本発明の助詞補完プログラムにおける他の実施形態によれば、
基準文章情報は、公用的に公開されており、信用ある特定ユーザによって記述された文章情報であり、
対象文章情報は、私用的に公開されており、不特定多数のユーザによって記述された文章情報である
ようにコンピュータを更に機能させることも好ましい。
According to another embodiment of the particle complement program of the present invention,
The standard sentence information is publicly available and is sentence information described by a specific user who is trusted,
It is also preferable that the target text information is open to the public and that the computer further functions to be text information described by an unspecified number of users.
本発明によれば、助詞落ち表現を含む対象文章情報に対して、該助詞を補完する文章解析装置であって、
助詞落ち表現を含まない基準文章情報を蓄積した基準文章蓄積手段と、
基準文章情報から、助詞を削除することによって助詞落ち文章情報を生成する助詞落ち文章生成手段と、
助詞落ち文章情報を正例データとし、基準文章情報を負例データとして、2クラスのパターン識別器を構成すると共に、該パターン識別器を用いて、入力された対象文章情報が助詞落ち表現か否かを識別し、当該助詞落ち表現に対応する複数の助詞有り表現の候補を抽出する識別エンジン手段と
候補となる助詞有り表現毎に、基準文章蓄積手段に蓄積された基準文章情報の中における出現頻度を計数する出現頻度計数手段と、
出現頻度が最も高い助詞有り表現における助詞を、対象文章情報に対して補完する助詞落ち補完手段と
を有することを特徴とする。
According to the present invention, for a target sentence information including a particle removal expression, a sentence analysis device that complements the particle,
A reference sentence storage means for storing reference sentence information that does not include a particle omission expression;
A particle missing sentence generating means for generating particle missing sentence information by deleting a particle from the reference sentence information;
2 class pattern discriminators are constructed using particle missing sentence information as positive example data and reference sentence information as negative example data . Whether or not the input target sentence information is a particle missing expression using the pattern classifier And an identification engine means for extracting a plurality of particle candidate expressions corresponding to the particle dropping expression
Appearance frequency counting means that counts the appearance frequency in the reference sentence information stored in the reference sentence storage means for each candidate particle expression,
A particle omission complementing means for complementing a particle in an expression with a particle having the highest appearance frequency with respect to target sentence information is provided.
本発明によれば、助詞落ち表現を含む対象文章情報を他の公開サーバからネットワークを介して取得し、該助詞を補完する文章解析サーバであって、
助詞落ち表現を含まない基準文章情報を蓄積した基準文章蓄積手段と、
基準文章情報から、助詞を削除することによって助詞落ち文章情報を生成する助詞落ち文章生成手段と、
助詞落ち文章情報を正例データとし、基準文章情報を負例データとして、2クラスのパターン識別器を構成すると共に、該パターン識別器を用いて、入力された対象文章情報が助詞落ち表現か否かを識別し、当該助詞落ち表現に対応する複数の助詞有り表現の候補を抽出する識別エンジン手段と
候補となる助詞有り表現毎に、基準文章蓄積手段に蓄積された基準文章情報の中における出現頻度を計数する出現頻度計数手段と、
出現頻度が最も高い助詞有り表現における助詞を、対象文章情報に対して補完する助詞落ち補完手段と
を有することを特徴とする。
According to the present invention, it is a sentence analysis server that acquires target sentence information including a particle removal expression from another public server via a network, and complements the particle,
A reference sentence storage means for storing reference sentence information that does not include a particle omission expression;
A particle missing sentence generating means for generating particle missing sentence information by deleting a particle from the reference sentence information;
2 class pattern discriminators are constructed using particle missing sentence information as positive example data and reference sentence information as negative example data . Whether or not the input target sentence information is a particle missing expression using the pattern classifier And an identification engine means for extracting a plurality of particle candidate expressions corresponding to the particle dropping expression
Appearance frequency counting means that counts the appearance frequency in the reference sentence information stored in the reference sentence storage means for each candidate particle expression,
A particle omission complementing means for complementing a particle in an expression with a particle having the highest appearance frequency with respect to target sentence information is provided.
本発明によれば、コンピュータを搭載した装置を用いて、助詞落ち表現を含む対象文章情報に対して、該助詞を補完する助詞落ち補完方法であって、
助詞落ち表現を含まない基準文章情報を蓄積した基準文章蓄積部を有し、
基準文章情報から、助詞を削除することによって助詞落ち文章情報を生成する第1のステップと、
助詞落ち文章情報を正例データとし、基準文章情報を負例データとして、2クラスのパターン識別器を構成する第2のステップと、
パターン識別器を用いて、入力された対象文章情報が助詞落ち表現か否かを識別し、当該助詞落ち表現に対応する複数の助詞有り表現の候補を抽出する第3のステップと、
候補となる助詞有り表現毎に、基準文章蓄積部に蓄積された基準文章情報の中における出現頻度を計数する第4のステップと、
出現頻度が最も高い助詞有り表現における助詞を、対象文章情報に対して補完する第5のステップと
を有することを特徴とする。
According to the present invention, there is a particle omission complementing method for complementing the particle with respect to the target sentence information including the particle omission expression using an apparatus equipped with a computer,
It has a reference sentence storage unit that stores reference sentence information that does not include particle removal expressions,
A first step of generating particle missing sentence information by deleting particles from the reference sentence information;
A second step of constructing a two-class pattern discriminator, with the particle missing sentence information as positive example data and the reference sentence information as negative example data ;
A third step of identifying whether or not the input target sentence information is a particle dropping expression using a pattern discriminator, and extracting a plurality of particle-with-expression candidates corresponding to the particle dropping expression;
A fourth step of counting the frequency of appearance in the reference sentence information stored in the reference sentence storage unit for each candidate particle with expression;
A fifth step of complementing the particle in the expression with a particle having the highest appearance frequency with respect to the target sentence information .
本発明の助詞落ち補完プログラム、装置、サーバ及び方法によれば、対象文章情報について助詞落ちの有無を検出する共に、落ちた助詞を補完することによって、対象文章情報の解析精度を向上させることができる。特に、本発明によれば、既存の新聞文書のみを対象文章情報として用いることできるので、解析精度が向上し、且つ、汎用性が高いという効果を有する。 According to the particle omission completion program, the apparatus, the server, and the method of the present invention, it is possible to improve the analysis accuracy of the target sentence information by detecting the presence or absence of the particle in the target sentence information and complementing the dropped particle. it can. In particular, according to the present invention, since only existing newspaper documents can be used as target sentence information, the analysis accuracy is improved and the versatility is high.
以下、本発明の実施の形態について、図面を用いて詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
図1は、本発明における助詞落ち補完プログラムの機能構成図である。 FIG. 1 is a functional configuration diagram of a particle dropping complement program according to the present invention.
本発明の助詞補完プログラムは、助詞落ち表現を含む対象文章情報に対して、その助詞を補完するようにコンピュータを機能させる。ここで、助詞補完プログラムは、「助詞落ち検出機能」と「助詞補完機能」とに区分される。 The particle complement program of the present invention causes the computer to function to complement the particle with respect to the target sentence information including the particle dropping expression. Here, the particle complement program is divided into a “particle missing detection function” and a “particle complement function”.
図1によれば、助詞落ち補完プログラム1は、基準文章蓄積部10と、「助詞落ち検出機能」としての助詞落ち文章生成部11及び識別エンジン部12とを有する。
According to FIG. 1, the particle missing complement program 1 includes a reference
基準文章蓄積部10は、助詞落ち表現を含まない基準文章情報を蓄積する。「基準文章情報」は、公用的に公開されており、信用ある特定ユーザによって記述された文章情報である。例えば、新聞記事の文章のように、助詞落ち表現が少なく、且つ、形態素解析精度が高い文章の集合であることが好ましい。
The reference
助詞落ち文章生成部11は、基準文章情報から、助詞を削除することによって助詞落ち文章情報を生成する。助詞落ち文章生成部11は、基準文章情報を形態素に分割し、形態素の品詞が「助詞」となるものを削除する。「形態素」とは、文章の構成要素のうち、意味を持つ最小の単位をいう。また、「単語」毎に「品詞」が登録された辞書を要する。
The particle missing
識別エンジン部12は、助詞落ち文章情報を正例データとし、基準文章情報を負例データとして学習データベースを生成する。識別エンジン部12は、サポートベクタマシン(Support Vector Machine)に基づくものであってもよいし、ルールベースに基づくものであってもよい(例えばC4.5)。
The
サポートベクタマシンの識別エンジンによれば、明確なルールを生成せず、外見上ブラックボックスである。正例データ及び負例データは、サポートベクトルとして生成される。「サポートベクタマシン」とは、教師有り学習を用いる識別アルゴリズムであって、パターン認識に適用される。サポートベクタマシンは、線形入力素子を用いて2クラス(正例/負例)のパターン識別器を構成し、線形入力素子のパラメータを学習する。 According to the identification engine of the support vector machine, it does not generate a clear rule and looks black box. Positive example data and negative example data are generated as support vectors. The “support vector machine” is an identification algorithm using supervised learning and is applied to pattern recognition. The support vector machine configures two classes (positive examples / negative examples) of pattern discriminators using linear input elements, and learns parameters of the linear input elements.
また、ルールベースの識別エンジンによれば、正例データ及び負例データから明確なルールを生成する。「C4.5」とは、クラス分類に用いるための決定木を生成するアルゴリズムであって、統計学的クラス分類器である。これは、情報エントロピの概念を用いて、正例データ及び負例データのセットから決定木を生成する。 Further, according to the rule-based identification engine, a clear rule is generated from positive example data and negative example data. “C4.5” is an algorithm for generating a decision tree for use in class classification, and is a statistical class classifier. This uses a concept of information entropy to generate a decision tree from a set of positive example data and negative example data.
識別エンジン部12は、学習データベースを生成した後、助詞落ち表現を含む対象文章情報を入力する。「対象文章情報」は、私用的に公開されており、不特定多数のユーザによって記述された文章情報である。例えば、インターネット上の電子掲示板やブログなどに記述された文章情報であって、口語表現などが多く含まれるものである。
After generating the learning database, the
識別エンジン部12は、学習データベースを用いて、入力された対象文章情報から、助詞落ち箇所を特定する。ここで、当該助詞落ち表現に対応する1つ以上の助詞有り表現の候補が抽出される。助詞有り表現は、1つの候補に限られず、複数の候補が抽出されてもよい。
The
また、図1の助詞落ち補完プログラムにおける「助詞落ち検出機能」は、品詞抽出部15を更に有するものであってもよい。識別エンジン部12は、文章情報(単語列)そのものを学習し且つ識別することなく、その品詞列のみを学習し且つ識別することによって、学習効果を高めることができる。具体的には、記憶容量が少なく且つ演算量も少なくなることが期待できる。
Further, the “participant drop detection function” in the particle dropout supplement program of FIG. 1 may further include a part of
図2は、品詞抽出部における品詞体系を表す説明図である。 FIG. 2 is an explanatory diagram showing a part of speech system in the part of speech extraction unit.
品詞抽出部15は、文章情報を形態素に分割し、形態素毎に品詞体系を対応付ける。即ち、文章情報の形態素列を、品詞列に変換する。「品詞列」は、複数の品詞の列からなる。「品詞」は、図2のように、品詞自体と、1つ以上の品詞細分類とによって表される。
The part-of-
図1によれば、助詞落ち文章生成部11から出力された正例データの助詞落ち文章情報は、品詞抽出部15によって助詞落ち品詞列に変換される。そして、その助詞落ち品詞列は、正例データとして識別エンジン部12へ入力される。また、基準文章蓄積部10から出力された負例データの基準文章情報も、品詞抽出部15によって助詞有り品詞列に変換される。そして、その助詞有り品詞列は、負例データとして識別エンジン部12へ入力される。これによって、識別エンジン部12は、品詞列に基づく学習データベースを生成することができる。
According to FIG. 1, the particle missing sentence information of the positive example data output from the particle missing
同様に、品詞抽出部15は、識別エンジン部12へ入力すべき対象文章情報も、品詞列に変換する。品詞列に基づく対象文章情報が、識別エンジン部12へ入力される。これによって、識別エンジン部12は、品詞列に基づく学習データベースを用いて、候補となる助詞有り品詞列を抽出することができる。
Similarly, the part-of-
図1によれば、「助詞補完機能」として、出現頻度計数部13及び助詞落ち補完部14を更に有する。
According to FIG. 1, the “particle auxiliary function” further includes an appearance
出現頻度計数部13は、候補となる助詞有り表現毎に、基準文章蓄積部10に蓄積された基準文章情報の中における出現頻度を計数する。また、識別エンジンが品詞列に基づくものである場合、候補となる助詞有り品詞列毎に、基準文章蓄積部10に蓄積された基準文章情報の中における出現頻度を計数する。
The appearance
助詞落ち補完部14は、出現頻度が最も高い助詞有り表現における助詞を、対象文章情報に対して補完する。また、識別エンジンが品詞列に基づくものである場合、出現頻度が最も高い助詞有り品詞列における助詞を、対象文章情報に対して補完する。
The particle
図3は、文章情報に基づく助詞落ち文章の補完を表す説明図である。 FIG. 3 is an explanatory diagram showing complementation of particle dropping sentences based on sentence information.
(S31)基準文章蓄積部10に、以下の2つの基準文章情報が蓄積されているとする。
「ラーメンを食べていた」
「足が速くて追いつかない」
これら基準文章情報は、正例データとして助詞落ち文章生成部11へ出力され、負例データとして識別エンジン部12へ出力される。
(S31) It is assumed that the following two pieces of reference text information are stored in the reference
"I was eating ramen"
"I can't catch up because my feet are fast"
The reference sentence information is output as positive example data to the particle dropping
(S32)助詞落ち文章生成部11は、基準文章情報から助詞を削除した助詞落ち文章情報を生成する。
「ラーメン(を)食べていた」 ->「ラーメン食べていた」
「足(が)速くて追いつかない」->「足速くて追いつかない」
生成された助詞落ち文章情報は、正例データとして識別エンジン部12へ出力される。
(S32) The particle missing
"I was eating ramen"->"I was eating ramen"
"Foot is fast and can't catch up"->"Foot is fast and can't catch up"
The generated particle missing sentence information is output to the
(S33)識別エンジン部12は、正例データの基準文章情報と、負例データの基準文章情報とから、学習データベースを生成する。
(S33) The
(S34)以下の3つの対象文章情報が、識別エンジン部12に入力されたとする。
「ラーメン食べちゃった」
(S34) It is assumed that the following three pieces of target sentence information are input to the
"I ate ramen"
(S35)識別エンジン部12は、候補となる助詞有り表現を出力する。助詞有り表現は、例えば以下のようなパターンに該当するものであることが好ましい。
(パターン1)「名詞」+「補完する助詞」+「動詞」
(パターン2)「名詞」+「補完する助詞」
(パターン3)「補完する助詞」+「動詞」
例えば、「ラーメン食べちゃった」については、以下のような助詞有り表現を、出現頻度計数部13へ出力する。
「ラーメン+を+食べる」
「ラーメン+を」
「を+食べる」
「ラーメン+が+食べる」
「ラーメン+が」
「が+食べる」
・・・・・
(S35) The
(Pattern 1) “Noun” + “Complementary particle” + “Verb”
(Pattern 2) “Noun” + “Complementary particle”
(Pattern 3) “Participant to complement” + “Verb”
For example, for “Ramen has been eaten”, the following expression with a particle is output to the appearance
"Eat ramen +"
"Ramen +"
"Eat +"
"Ramen + eat +"
"Ramen + is"
"Ga + eat"
...
(S36)出現頻度計数部13は、候補となる助詞有り表現について、基準文章蓄積部10を用いて出現頻度を計数する。
「ラーメン+を+食べる」:10回
「ラーメン+を」 :50回
「を+食べる」 :100回
「ラーメン+が+食べる」:0回
「ラーメン+が」 :3回
「が+食べる」 :5回
・・・・・
尚、前述したパターンに応じて、それぞれの出現頻度に重み付けることも好ましい。例えば、パターン1は、パターン2及び3よりも大きく重み付ける。
(S36) The appearance
“Eat Ramen +”: 10 times “Ramen + Eat”: 50 times “Eat + Eat”: 100 times “Ramen + Eat +”: 0 times “Ramen + Eat”: 3 times “Eat + Eat”: 5 times
In addition, it is also preferable to weight each appearance frequency according to the pattern mentioned above. For example, pattern 1 is weighted more than
(S37)助詞落ち補完部14は、出現頻度が最も高い助詞有り表現における助詞を、対象文章情報に対して補完する。例えば以下のように補完される。
「ラーメン食べちゃった」->「ラーメンを食べちゃった」
(S37) The particle dropping
"I ate ramen"->"I ate ramen"
図4は、品詞列に基づく助詞落ち文章の補完を表す説明図である。 FIG. 4 is an explanatory diagram showing complementation of particle dropping sentences based on the part of speech string.
(S41)前述の図3のS31と同様の基準文章情報が、正例データとして助詞落ち生成部11へ出力され、負例データとして品詞抽出部15へ出力される。
(S41) The reference text information similar to S31 in FIG. 3 is output as positive example data to the
(S42)前述の図3のS32と同様に、助詞落ち文章生成部11は、基準文章情報から助詞を削除した助詞落ち文章情報を生成する。生成された助詞落ち文章情報は、正例データとして品詞抽出部15へ出力される。
(S42) As in S32 of FIG. 3 described above, the particle missing
(S43)品質抽出部15は、助詞落ち文章生成部11から入力された助詞落ち文章情報を、助詞落ち品詞列に変換する。例えば、以下のように変換される。
「ラーメン食べていた」
->「(名詞・一般)(動詞・自立)」
「足速くて追いつかない」
->「(名詞・一般)(形容詞・自立)(動詞・自立)」
そして、助詞落ち品詞列は、正例データとして識別エンジン部12へ入力される。
(S43) The
"I was eating ramen"
->"(Noun / general) (verb / independence)"
"I can't catch up with my feet fast"
->"(Noun / general) (adjective / independence) (verb / independence)"
Then, the particle part-of-speech part string is input to the
(S44)品質抽出部15は、基準文章蓄積部10から入力された基準文章情報を、助詞有り品詞列に変換する。例えば、以下のように変換される。
「ラーメンを食べていた」
->「(名詞・一般)+を+(動詞・自立)」
「足が速くて追いつかない」
->「(名詞・一般)+が+(形容詞・自立)(動詞・自立)」
助詞有り品詞列は、負例データとして識別エンジン部12へ入力される。
(S44) The
"I was eating ramen"
->"(Noun / general) + + (verb / independence)"
"I can't catch up because my feet are fast"
-> “(Noun / general) + ga + (adjective / independence) (verb / independence)”
The part-of-speech string with particles is input to the
(S45)識別エンジン部12は、正例データの助詞落ち品詞列と、負例データの助詞有り品詞列とから、学習データベースを生成する。
(S45) The
(S46)以下の3つの対象文章情報が、識別エンジン部12に入力されたとする。
「ラーメン食べちゃった」
(S46) It is assumed that the following three pieces of target sentence information are input to the
"I ate ramen"
(S47)識別エンジン部12は、候補となる助詞有り品詞列を出力する。
例えば、「ラーメン食べちゃった」については、以下のような助詞有り品詞列を、出現頻度計数部13へ出力する。
「(名詞・一般)+を+(動詞・自立)」
「(名詞・一般)+を」
「を+(動詞・自立)」
「(名詞・一般)+が+(動詞・自立)」
「(名詞・一般)+が」
「が+(動詞・自立)」
・・・・・
(S47) The
For example, for “Ramen has been eaten”, the following part-of-speech string with particles is output to the appearance
“(Noun / general) +” + (verb / independence) ”
"(Noun / general) +"
"O + (verb, independence)"
“(Noun / general) + ga + (verb / independence)”
"(Noun / general) +"
"Ga + (verb, independence)"
...
(S48)出現頻度計数部13は、候補となる助詞有り品詞列について、基準文章蓄積部10における出現頻度を計数する。
「(名詞・一般)(助詞・格助詞一般)(動詞・自立)」:1500回
「(名詞・一般)(助詞・格助詞一般)」 :900回
「(助詞・格助詞一般)(動詞・自立)」 :4500回
「(名詞・一般)(助詞・係助詞)(動詞・自立)」 :10回
「(名詞・一般)(助詞・係助詞)」 :200回
「(助詞・係助詞)(動詞・自立)」 :350回
・・・・・
尚、基準文章蓄積部10が、基準文章情報に基づく品詞列を予め蓄積しているものであってもよいし、品詞抽出部15が負例データとして出力した助詞有り品詞列を予め蓄積しているものであってもよい。
(S48) The appearance
“(Noun / general) (particle / case particle in general) (verb / independence)” 1500 times “(noun / general) (particle / case particle in general)”: 900 times “(particle / case particle in general) (verb / "Independence)": 4500 times "(Noun / general) (particles / corresponding particles) (verb / independence)": 10 times "(Noun / general) (particles / corresponding particles)": 200 times (Verb / independence) ”: 350 times
In addition, the reference
(S49)助詞落ち補完部14は、出現頻度が最も高い助詞有り品詞列における助詞を、対象文章情報に対して補完する。例えば以下のように補完される。
「ラーメン食べちゃった」->「ラーメンを食べちゃった」
(S49) The particle
"I ate ramen"->"I ate ramen"
図5は、本発明における文章解析サーバのシステム構成図である。 FIG. 5 is a system configuration diagram of the sentence analysis server according to the present invention.
図5によれば、文章解析サーバ2は、通信インタフェース部と、助詞落ち補完機能部と、文章内容解析部とを有する。文章解析サーバ2は、通信インタフェース部を介してインターネットに接続する。
According to FIG. 5, the
また、図5によれば、文章解析サーバ2は、インターネットを介して、Webサーバ3と通信することができる。また、Webサーバ3は、投稿者用端末4から接続される。
Moreover, according to FIG. 5, the
Webサーバ3は、投稿者用端末4から受信した、解析対象文章であるブログテキスト及びクチコミコメントのようなWeb文書を公開する。文章解析サーバ2は、インターネットを介して、Webサーバ3から、そのWeb文書を解析対象文章として取得する。
The
助詞落ち補完機能部は、通信インタフェース部を介して、対象文章情報を受信する。その対象文章情報に対して助詞落ちを補完する。助詞落ちが補完された対象文章情報は、文章内容解析部へ出力される。文章内容解析部は、様々な観点から文章内容を解析し、対象文章情報を特定カテゴリに分類することもできる。 The particle omission complementation function unit receives the target sentence information via the communication interface unit. Complement the particle omission for the target sentence information. The target sentence information supplemented with the particle omission is output to the sentence content analysis unit. The text content analysis unit can analyze text content from various viewpoints and classify target text information into a specific category.
図6は、本発明におけるシステムのシーケンス図である。 FIG. 6 is a sequence diagram of the system according to the present invention.
(S601)基準文章情報から、助詞を削除することによって助詞落ち文章情報を生成する。
(S602)識別エンジンが、品詞列の学習データベースを生成する場合、正例データの助詞落ち文章情報を助詞落ち品詞列に変換し、負例データの基準文章情報を助詞有り品詞列に変換する。
(S603)識別エンジンは、助詞落ち文章情報を正例データとし、基準文章情報を負例データとして、学習データベースを生成する。
(S601) The particle missing sentence information is generated by deleting the particle from the reference sentence information.
(S602) When the learning engine generates a part-of-speech string learning database, it converts the particle missing sentence information of the positive example data into a particle missing part-of-speech string and converts the reference sentence information of negative example data into a part-of-speech string with a particle.
(S603) The identification engine generates a learning database using the missing particle information as positive example data and the reference sentence information as negative example data.
(S611)投稿者用端末4は、対象文章情報であるブログテキストをWebサーバ3へ投稿する。対象文章情報は、助詞落ち表現を含むとする。
(S612)文章解析サーバ2は、Webサーバ3から対象文章情報(「ラーメン食べた」)を受信する。
(S611) The terminal 4 for contributors posts the blog text that is the target sentence information to the
(S612) The
(S613)識別エンジンが、品詞列の学習データベースを生成している場合、対象文章情報を品詞列に変換する。
(S614)識別エンジンが、対象文章情報の助詞落ち表現を特定し、その候補となる助詞有り表現を出力する。
(S615)候補となる助詞有り表現について、基準文章蓄積部を用いて出現頻度を計数する。
(S616)出現頻度が最も高い助詞有り表現における助詞を、対象文章情報に対して補完する。
(S617)助詞落ち表現が補完された対象文章情報に基づいて、文章内容の解析処理が実行される。
(S613) When the identification engine has generated a part-of-speech string learning database, the target sentence information is converted into a part-of-speech string.
(S614) The identification engine specifies a particle dropping expression of the target sentence information, and outputs a candidate particle-with expression.
(S615) The frequency of appearance is counted by using the reference sentence accumulating unit for the candidate particles with expressions.
(S616) The particle in the expression with the particle having the highest appearance frequency is supplemented with respect to the target sentence information.
(S617) The sentence content analysis process is executed based on the target sentence information supplemented with the particle missing expression.
以上、詳細に説明したように、本発明の助詞落ち補完プログラム、装置、サーバ及び方法によれば、対象文章情報について助詞落ちの有無を検出する共に、落ちた助詞を補完することによって、対象文章情報の解析精度を向上させることができる。特に、本発明によれば、既存の新聞文書のみを対象文章情報として用いることできるので、解析精度が向上し、且つ、汎用性が高いという効果を有する。 As described above in detail, according to the particle omission complementation program, the apparatus, the server, and the method of the present invention, the target sentence is detected by detecting the presence or absence of the particle omission in the object sentence information and complementing the dropped particle. Information analysis accuracy can be improved. In particular, according to the present invention, since only existing newspaper documents can be used as target sentence information, the analysis accuracy is improved and the versatility is high.
本発明では、一般ユーザによって記述された文章に頻繁に見られる口語的な表現(助詞落ち表現)に対して、係り受け解析精度を低下させる要因である助詞落ちを発見し且つ補完することができる。これによって、口語的な文章を、自然で読みやすい文章に訂正する。 In the present invention, it is possible to find and complement a particle dropping, which is a factor that lowers dependency analysis accuracy, with respect to a colloquial expression (particle dropping expression) frequently seen in sentences written by general users. . This corrects colloquial sentences into natural and easy-to-read sentences.
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。 Various changes, modifications, and omissions of the above-described various embodiments of the present invention can be easily made by those skilled in the art. The above description is merely an example, and is not intended to be restrictive. The invention is limited only as defined in the following claims and the equivalents thereto.
1 助詞落ち補完プログラム
10 基準文章蓄積部
11 助詞落ち文章生成部
12 識別エンジン部
13 出現頻度計数部
14 助詞落ち補完部
15 品詞抽出部
2 文章解析サーバ
3 Webサーバ
4 投稿用端末
DESCRIPTION OF SYMBOLS 1
Claims (6)
助詞落ち表現を含まない基準文章情報を蓄積した基準文章蓄積手段と、
前記基準文章情報から、助詞を削除することによって助詞落ち文章情報を生成する助詞落ち文章生成手段と、
前記助詞落ち文章情報を正例データとし、前記基準文章情報を負例データとして、2クラスのパターン識別器を構成すると共に、該パターン識別器を用いて、入力された前記対象文章情報が助詞落ち表現か否かを識別し、当該助詞落ち表現に対応する複数の助詞有り表現の候補を抽出する識別エンジン手段と、
候補となる前記助詞有り表現毎に、前記基準文章蓄積手段に蓄積された前記基準文章情報の中における出現頻度を計数する出現頻度計数手段と、
前記出現頻度が最も高い助詞有り表現における助詞を、前記対象文章情報に対して補完する助詞落ち補完手段と
してコンピュータを機能させることを特徴とする助詞補完プログラム。 A particle complement program for causing a computer to function to complement a particle for target sentence information including a particle dropping expression,
A reference sentence storage means for storing reference sentence information that does not include a particle omission expression;
From the reference sentence information, a particle missing sentence generating means for generating particle missing sentence information by deleting a particle,
The particle sentence sentence information is used as positive example data, the reference sentence information is used as negative example data, and a two-class pattern classifier is formed. An identification engine means for identifying whether or not the expression is present, and extracting a plurality of candidate particles with corresponding particles corresponding to the particle dropping expression ;
Appearance frequency counting means for counting the appearance frequency in the reference sentence information stored in the reference sentence storage means for each candidate expression with particles,
A particle complement program for causing a computer to function as a particle drop complement means for complementing the particle in the expression with a particle having the highest appearance frequency with respect to the target sentence information .
前記対象文章情報は、私用的に公開されており、不特定多数のユーザによって記述された文章情報である
ようにコンピュータを更に機能させることを特徴とする請求項1又は2に記載の助詞補完プログラム。 The reference sentence information is publicly available and is sentence information described by a specific user who is trusted,
3. The particle complementing according to claim 1, wherein the target sentence information is publicly disclosed and further functions as a sentence information written by an unspecified number of users. program.
助詞落ち表現を含まない基準文章情報を蓄積した基準文章蓄積手段と、
前記基準文章情報から、助詞を削除することによって助詞落ち文章情報を生成する助詞落ち文章生成手段と、
前記助詞落ち文章情報を正例データとし、前記基準文章情報を負例データとして、2クラスのパターン識別器を構成すると共に、該パターン識別器を用いて、入力された前記対象文章情報が助詞落ち表現か否かを識別し、当該助詞落ち表現に対応する複数の助詞有り表現の候補を抽出する識別エンジン手段と、
候補となる前記助詞有り表現毎に、前記基準文章蓄積手段に蓄積された前記基準文章情報の中における出現頻度を計数する出現頻度計数手段と、
前記出現頻度が最も高い助詞有り表現における助詞を、前記対象文章情報に対して補完する助詞落ち補完手段と
を有することを特徴とする文章解析装置。 A sentence analysis device that complements the particle with respect to target sentence information including a particle omission expression,
A reference sentence storage means for storing reference sentence information that does not include a particle omission expression;
From the reference sentence information, a particle missing sentence generating means for generating particle missing sentence information by deleting a particle,
The particle sentence sentence information is used as positive example data, the reference sentence information is used as negative example data, and a two-class pattern classifier is formed. An identification engine means for identifying whether or not the expression is present, and extracting a plurality of candidate particles with corresponding particles corresponding to the particle dropping expression ;
Appearance frequency counting means for counting the appearance frequency in the reference sentence information stored in the reference sentence storage means for each candidate expression with particles,
A sentence analysis apparatus comprising: a particle omission complementing means for complementing a particle in an expression with a particle having the highest appearance frequency with respect to the target sentence information .
助詞落ち表現を含まない基準文章情報を蓄積した基準文章蓄積手段と、
前記基準文章情報から、助詞を削除することによって助詞落ち文章情報を生成する助詞落ち文章生成手段と、
前記助詞落ち文章情報を正例データとし、前記基準文章情報を負例データとして、2クラスのパターン識別器を構成すると共に、該パターン識別器を用いて、入力された前記対象文章情報が助詞落ち表現か否かを識別し、当該助詞落ち表現に対応する複数の助詞有り表現の候補を抽出する識別エンジン手段と、
候補となる前記助詞有り表現毎に、前記基準文章蓄積手段に蓄積された前記基準文章情報の中における出現頻度を計数する出現頻度計数手段と、
前記出現頻度が最も高い助詞有り表現における助詞を、前記対象文章情報に対して補完する助詞落ち補完手段と
を有することを特徴とする文章解析サーバ。 A sentence analysis server that obtains target sentence information including a particle omission expression from another public server via a network, and complements the particle;
A reference sentence storage means for storing reference sentence information that does not include a particle omission expression;
From the reference sentence information, a particle missing sentence generating means for generating particle missing sentence information by deleting a particle,
The particle sentence sentence information is used as positive example data, the reference sentence information is used as negative example data, and a two-class pattern classifier is formed. An identification engine means for identifying whether or not the expression is present, and extracting a plurality of candidate particles with corresponding particles corresponding to the particle dropping expression ;
Appearance frequency counting means for counting the appearance frequency in the reference sentence information stored in the reference sentence storage means for each candidate expression with particles,
A sentence analysis server , comprising: a particle omission complementing means for complementing a particle in an expression with a particle having the highest appearance frequency with respect to the target sentence information .
助詞落ち表現を含まない基準文章情報を蓄積した基準文章蓄積部を有し、
前記基準文章情報から、助詞を削除することによって助詞落ち文章情報を生成する第1のステップと、
前記助詞落ち文章情報を正例データとし、前記基準文章情報を負例データとして、2クラスのパターン識別器を構成する第2のステップと、
前記パターン識別器を用いて、入力された前記対象文章情報が助詞落ち表現であると識別された際に、当該助詞落ち表現に対応する複数の助詞有り表現の候補を抽出する第3のステップと、
候補となる前記助詞有り表現毎に、前記基準文章蓄積部に蓄積された前記基準文章情報の中における出現頻度を計数する第4のステップと、
前記出現頻度が最も高い助詞有り表現における助詞を、前記対象文章情報に対して補完する第5のステップと
を有することを特徴とする助詞落ち補完方法。 Using a device equipped with a computer, for a target sentence information including a particle dropping expression, a particle dropping completion method for complementing the particle,
It has a reference sentence storage unit that stores reference sentence information that does not include particle removal expressions,
A first step of generating particle missing sentence information by deleting a particle from the reference sentence information;
A second step of configuring a two-class pattern discriminator with the particle missing sentence information as positive example data and the reference sentence information as negative example data ;
A third step of extracting a plurality of candidate particles with a particle corresponding to the particle dropping expression when the input target text information is identified as a particle dropping expression using the pattern classifier; ,
A fourth step of counting the frequency of appearance in the reference sentence information stored in the reference sentence storage unit for each candidate particle expression that is a candidate;
A particle omission complementing method comprising: a fifth step of complementing a particle in an expression with a particle having the highest appearance frequency with respect to the target sentence information .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014010827A JP5704732B2 (en) | 2014-01-23 | 2014-01-23 | Program particle complementation program, apparatus, server, and method for target sentence |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014010827A JP5704732B2 (en) | 2014-01-23 | 2014-01-23 | Program particle complementation program, apparatus, server, and method for target sentence |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010189098A Division JP5630901B2 (en) | 2010-08-26 | 2010-08-26 | Program particle complementation program, apparatus, server, and method for target sentence |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014067458A JP2014067458A (en) | 2014-04-17 |
JP5704732B2 true JP5704732B2 (en) | 2015-04-22 |
Family
ID=50743701
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014010827A Active JP5704732B2 (en) | 2014-01-23 | 2014-01-23 | Program particle complementation program, apparatus, server, and method for target sentence |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5704732B2 (en) |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2599973B2 (en) * | 1988-08-29 | 1997-04-16 | 日本電信電話株式会社 | Japanese sentence correction candidate character extraction device |
-
2014
- 2014-01-23 JP JP2014010827A patent/JP5704732B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2014067458A (en) | 2014-04-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108804512B (en) | Text classification model generation device and method and computer readable storage medium | |
CN104573054B (en) | A kind of information-pushing method and equipment | |
US9495345B2 (en) | Methods and systems for modeling complex taxonomies with natural language understanding | |
Sharif et al. | Sentiment analysis of Bengali texts on online restaurant reviews using multinomial Naïve Bayes | |
Duwairi | Sentiment analysis for dialectical Arabic | |
CN109145216A (en) | Network public-opinion monitoring method, device and storage medium | |
Basiri et al. | A framework for sentiment analysis in persian | |
WO2015185019A1 (en) | Semantic comprehension-based expression input method and apparatus | |
US10216838B1 (en) | Generating and applying data extraction templates | |
CN108305180B (en) | Friend recommendation method and device | |
US9785705B1 (en) | Generating and applying data extraction templates | |
CN103593431A (en) | Internet public opinion analyzing method and device | |
Mohammed et al. | Classifying unsolicited bulk email (UBE) using python machine learning techniques | |
JP5527845B2 (en) | Document classification program, server and method based on textual and external features of document information | |
CN107391684B (en) | Method and system for generating threat information | |
Doddi et al. | Sentiment classification of news article | |
Bhole et al. | Extracting named entities and relating them over time based on Wikipedia | |
Jagadeesan et al. | Twitter Sentiment Analysis with Machine Learning | |
Khemani et al. | A review on reddit news headlines with nltk tool | |
Campbell et al. | Content+ context networks for user classification in twitter | |
CN105512270B (en) | Method and device for determining related objects | |
JP5477910B2 (en) | Text search program, device, server and method using search keyword dictionary and dependency keyword dictionary | |
JP5630901B2 (en) | Program particle complementation program, apparatus, server, and method for target sentence | |
JP5704732B2 (en) | Program particle complementation program, apparatus, server, and method for target sentence | |
Yin et al. | Research of integrated algorithm establishment of a spam detection system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140123 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150213 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150220 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150220 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5704732 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |