JP7017533B2 - Classification device, learning device, classification method and program - Google Patents
Classification device, learning device, classification method and program Download PDFInfo
- Publication number
- JP7017533B2 JP7017533B2 JP2019030780A JP2019030780A JP7017533B2 JP 7017533 B2 JP7017533 B2 JP 7017533B2 JP 2019030780 A JP2019030780 A JP 2019030780A JP 2019030780 A JP2019030780 A JP 2019030780A JP 7017533 B2 JP7017533 B2 JP 7017533B2
- Authority
- JP
- Japan
- Prior art keywords
- document data
- classification
- words
- combination
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明は、機械翻訳と人間翻訳とを分類するための装置に関する。 The present invention relates to a device for classifying machine translation and human translation.
従来、スパムメール等の悪意のある文書を攻撃者が作成するために、機械翻訳が利用されている。このため、文書が機械翻訳されたものであるか、人間により翻訳されたものであるかを判別することにより、悪意のある文書を高い確率で検出し、セキュリティ上のリスクを低減することができる。
例えば、非特許文献1~8において、機械翻訳と人間翻訳とを分類する手法が提案されている。
Traditionally, machine translation has been used by attackers to create malicious documents such as spam emails. Therefore, by determining whether the document is machine-translated or human-translated, it is possible to detect a malicious document with a high probability and reduce the security risk. ..
For example, Non-Patent
しかしながら、従来の分類手法は、機械翻訳の品質に大きく依存しており、機械翻訳の品質が人間翻訳に比べて大きく劣っている場合には両者を分類できるものの、近年の機械翻訳の性能向上により、分類精度が低下していた。 However, the conventional classification method largely depends on the quality of machine translation, and although it is possible to classify both when the quality of machine translation is significantly inferior to that of human translation, due to the recent improvement in machine translation performance. , The classification accuracy was low.
本発明は、精度良く機械翻訳と人間翻訳とを分類できる分類装置、学習装置、分類方法及びプログラムを提供することを目的とする。 An object of the present invention is to provide a classification device, a learning device, a classification method and a program capable of accurately classifying machine translation and human translation.
本発明に係る分類装置は、文書データのそれぞれを単語に分割し、当該単語のそれぞれに品詞タグを付与するタグ付け部と、前記文書データ毎に、前記単語の組み合わせについて、当該単語のそれぞれに定義された単語ベクトル間の距離を算出する距離算出部と、前記文書データ、及び前記品詞タグの組み合わせ毎に、同一の単語に関する前記距離のグループの中で最小値をそれぞれ抽出する抽出部と、前記文書データ、及び前記品詞タグの組み合わせ毎に、前記最小値の前記グループの中での統計量を特徴量として算出する特徴量算出部と、前記文書データ毎に、前記品詞タグの組み合わせに対する前記特徴量を入力とし、予め機械翻訳又は人間翻訳の区分がラベル付けされた文書データにより学習されたモデルにより、分類結果を出力する分類部と、を備える。 The classification device according to the present invention has a tagging unit that divides each of the document data into words and assigns a part of speech tag to each of the words, and for each of the document data, for each of the words, for each of the words. A distance calculation unit that calculates the distance between the defined word vectors, and an extraction unit that extracts the minimum value in the distance group for the same word for each combination of the document data and the part of speech tag. For each combination of the document data and the part of speech tag, the feature amount calculation unit that calculates the minimum value of the statistics in the group as the feature amount, and for each of the document data, the said for the combination of the part of speech tag. It is provided with a classification unit that inputs a feature amount and outputs a classification result by a model trained by document data in which a classification of machine translation or human translation is labeled in advance.
前記統計量は、平均又は分散の少なくともいずれかを含んでもよい。 The statistic may include at least one of mean or variance.
本発明に係る学習装置は、文書データのそれぞれを単語に分割し、当該単語のそれぞれに品詞タグを付与するタグ付け部と、前記文書データ毎に、前記単語の組み合わせについて、当該単語のそれぞれに定義された単語ベクトル間の距離を算出する距離算出部と、前記文書データ、及び前記品詞タグの組み合わせ毎に、同一の単語に関する前記距離のグループの中で最小値をそれぞれ抽出する抽出部と、前記文書データ、及び前記品詞タグの組み合わせ毎に、前記最小値の前記グループの中での統計量を特徴量として算出する特徴量算出部と、前記文書データ毎に、前記品詞タグの組み合わせに対する前記特徴量を入力とし、予めラベル付けされている機械翻訳又は人間翻訳の区分を学習したモデルを生成する学習部と、を備える。 The learning device according to the present invention has a tagging unit that divides each of the document data into words and assigns a part of speech tag to each of the words, and for each of the document data, for each of the words, for each of the words. A distance calculation unit that calculates the distance between the defined word vectors, and an extraction unit that extracts the minimum value in the distance group for the same word for each combination of the document data and the part of speech tag. For each combination of the document data and the part of speech tag, the feature amount calculation unit that calculates the minimum value of the statistics in the group as the feature amount, and for each of the document data, the said for the combination of the part of speech tag. It is provided with a learning unit that takes a feature amount as an input and generates a model that has learned a pre-labeled division of machine translation or human translation.
前記学習部は、複数の学習アルゴリズムにより複数の前記モデルを生成し、前記区分の出力精度が最も高いモデルを選別してもよい。 The learning unit may generate a plurality of the models by a plurality of learning algorithms and select the model having the highest output accuracy of the division.
本発明に係る分類方法は、文書データのそれぞれを単語に分割し、当該単語のそれぞれに品詞タグを付与するタグ付けステップと、前記文書データ毎に、前記単語の組み合わせについて、当該単語のそれぞれに定義された単語ベクトル間の距離を算出する距離算出ステップと、前記文書データ、及び前記品詞タグの組み合わせ毎に、同一の単語に関する前記距離のグループの中で最小値をそれぞれ抽出する抽出ステップと、前記文書データ、及び前記品詞タグの組み合わせ毎に、前記最小値の前記グループの中での統計量を特徴量として算出する特徴量算出ステップと、前記文書データ毎に、前記品詞タグの組み合わせに対する前記特徴量を入力とし、予め機械翻訳又は人間翻訳の区分がラベル付けされた文書データにより学習されたモデルにより、分類結果を出力する分類ステップと、をコンピュータが実行する。 In the classification method according to the present invention, each of the document data is divided into words, and a tagging step of assigning a part of speech tag to each of the words, and for each of the document data, for each of the words, for each of the words. A distance calculation step for calculating the distance between the defined word vectors, an extraction step for extracting the minimum value in the distance group for the same word for each combination of the document data and the part of speech tag, and an extraction step. For each combination of the document data and the part of speech tag, a feature amount calculation step for calculating the minimum value of the statistics in the group as a feature amount, and for each of the document data, the said for the combination of the part of speech tags. The computer executes a classification step of outputting the classification result by a model trained by the document data in which the feature amount is input and the classification of machine translation or human translation is labeled in advance.
本発明に係る分類プログラムは、前記分類装置としてコンピュータを機能させるためのものである。 The classification program according to the present invention is for operating a computer as the classification device.
本発明に係る学習プログラムは、前記学習装置としてコンピュータを機能させるためのものである。 The learning program according to the present invention is for making a computer function as the learning device.
本発明によれば、精度よく機械翻訳と人間翻訳とを分類できる。 According to the present invention, machine translation and human translation can be accurately classified.
以下、本発明の実施形態の一例について説明する。
図1は、本実施形態に係る分類装置1の機能構成を示す図である。
分類装置及び学習装置としての分類装置1は、サーバ装置又はパーソナルコンピュータ等の情報処理装置(コンピュータ)であり、制御部10及び記憶部20の他、各種データの入出力デバイス及び通信デバイス等を備える。
Hereinafter, an example of the embodiment of the present invention will be described.
FIG. 1 is a diagram showing a functional configuration of the
The
制御部10は、分類装置1の全体を制御する部分であり、記憶部20に記憶された各種プログラムを適宜読み出して実行することにより、本実施形態における各機能を実現する。制御部10は、CPUであってよい。
The
記憶部20は、ハードウェア群を分類装置1として機能させるための各種プログラム、及び各種データ等の記憶領域であり、ROM、RAM、フラッシュメモリ又はハードディスク(HDD)等であってよい。具体的には、記憶部20は、本実施形態の各機能を制御部10に実行させるためのプログラムの他、辞書データ21、コーパス22、学習モデル23等を記憶する。
The
制御部10は、入力部11と、タグ付け部12と、距離算出部13と、抽出部14と、特徴量算出部15と、学習部16と、分類部17とを備える。制御部10は、これらの機能部により、機械翻訳と人間翻訳とを分類する学習モデル23を生成し、新たな文書データを、機械翻訳されたものであるか、人間により翻訳されたものであるかに分類して結果を出力する。
The
入力部11は、学習モデル23の訓練データ、又は学習モデル23による分類対象として、文書データ(テキスト)の入力を受け付ける。
The
タグ付け部12は、入力された文書データのそれぞれを単語に分割し、これらの単語のそれぞれに品詞タグを付与する。
品詞タグを付与するためには、既存の形態素解析の手法が利用可能である。このとき、日本語又は英語等の言語に応じた品詞が定義された辞書データ21が参照される。
なお、辞書データ21は、分類装置1とは別の装置に記憶されていてもよいし、また、例えば、インターネット等を経由してアクセス可能な公開データベースに記憶されていてもよい。
The tagging
Existing morphological analysis methods can be used to add part-speech tags. At this time, the
The
図2は、本実施形態に係る品詞タグの種類を例示する図である。
ここでは、英語の文書データを処理する場合を例に、分解された単語に付与する45種類の品詞(POS tag)と、その意味とを示している。
FIG. 2 is a diagram illustrating the types of part of speech tags according to the present embodiment.
Here, 45 kinds of part-of-speech (POS tag) given to the decomposed words and their meanings are shown by taking the case of processing English document data as an example.
図3は、本実施形態に係る文書データを構成する単語に品詞タグが付与される手順を例示する図である。
例えば、文書1に含まれる名詞「school」、「morning」、「bag」等には、品詞タグ「NN」が付与され、動詞「go」、「walk」等には、品詞タグ「VB」が付与されている。
このように、タグ付け部12は、入力された複数の文書データのそれぞれに対して、文書データを構成する全ての単語について、前述の45種類の品詞タグのいずれかを付与する。
FIG. 3 is a diagram illustrating a procedure in which a part-of-speech tag is added to a word constituting the document data according to the present embodiment.
For example, the nouns "school", "morning", "bag" and the like included in the
As described above, the tagging
距離算出部13は、文書データ毎に、単語の組み合わせについて、単語のそれぞれに定義された単語ベクトル間の距離を算出する。
各単語に固有の多次元(例えば300次元)の単語ベクトルは、大量のデータセットに基づいて学習され、単語間の相対的な距離の近さによって意味の類似性又は関連性が示されるデータである。単語ベクトルは、予めコーパス22に格納されている。
なお、コーパス22は、分類装置1とは別の装置に記憶されていてもよいし、また、例えば、インターネット等を経由してアクセス可能な公開データベースに記憶されていてもよい。
The
Multidimensional (eg, 300-dimensional) word vectors that are unique to each word are data that are trained on the basis of large datasets and whose relative closeness between words indicates semantic similarity or relevance. be. The word vector is stored in the
The
距離算出部13は、例えば、次の計算式によりユークリッド距離dを算出する。ここで、p及びqは、2つの単語を、pi及びqiは、n次元の単語ベクトルのi(1≦i≦n)番目の要素を示す。
図4は、本実施形態に係る距離の算出単位の具体例を示す図である。
距離算出部13は、文書1に含まれる名詞(NN)と名詞との組み合わせ(品詞ペア)として、「school」と「morning」、「school」と「bag」、「morning」と「bag」のように、2つの単語の組み合わせを順に抽出し、これらの組み合わせの距離dを算出する。
同様に、例えば品詞が45種類の場合には、1035通りの品詞ペアそれぞれについて、単語間の距離dが文書毎に算出される。
FIG. 4 is a diagram showing a specific example of the distance calculation unit according to the present embodiment.
The
Similarly, for example, when there are 45 types of part of speech, the distance d between words is calculated for each document for each of the 1035 part of speech pairs.
抽出部14は、文書データ及び品詞ペア毎に、同一の単語に関する他の単語との距離のグループの中で、最小値をそれぞれ抽出する。
例えば、文書1の品詞ペア「NN-NN」については、「school」と他の単語(「morning」及び「bag」等)との距離のグループ、「morning」と他の単語との距離のグループ、「bag」と他の単語との距離のグループのように、複数のグループからそれぞれ距離の最小値を抽出する。
The
For example, for the part-speech pair "NN-NN" in
図5は、本実施形態に係る単語間の距離の最小値を抽出する手順を示す図である。
文書1の品詞ペア1(NN-NN)では、ある単語に関する距離のグループ「6.3,4.6,2.8,0.6,9.2」からは、最小値0.6が抽出される。また、別の単語に関する距離のグループ「3.9,6.5,2.1,5.8,4.6」からは、最小値2.1が抽出される。
このように、文書データ及び品詞ペア毎に、1つ以上の最小値データが抽出され、同様の処理が全ての品詞ペア及び文書データについて行われる。
FIG. 5 is a diagram showing a procedure for extracting the minimum value of the distance between words according to the present embodiment.
In the part of speech pair 1 (NN-NN) of
In this way, one or more minimum value data is extracted for each document data and part of speech pair, and the same processing is performed for all part of speech pairs and document data.
図6は、本実施形態に係る文書データ及び品詞ペア毎の単語間の距離データを例示する図である。
この例では、抽出部14により抽出された最小値データが文書データと品詞ペアとのマトリクスとして記述されている。マトリクスの各要素には、前述の通り、1つ又は複数の最小値データが配置される。
さらに、文書データが学習のための訓練データである場合、各文書データには、機械翻訳か人間翻訳かの分類ラベルが付与されている。
FIG. 6 is a diagram illustrating document data and distance data between words for each part of speech pair according to the present embodiment.
In this example, the minimum value data extracted by the
Further, when the document data is training data for learning, each document data is given a classification label of machine translation or human translation.
特徴量算出部15は、文書データ及び品詞ペア毎に、最小値のグループの中での統計量を特徴量として算出する。
統計量は、例えば、次の計算式により算出される平均(average)又は分散(variance)の少なくともいずれかを含んでよい。ここで、ai(1≦i≦n)は、マトリクスの要素(グループ)に含まれるn個の最小値データのi番目を示す。
The statistic may include, for example, at least one of the average or variance calculated by the following formula. Here, ai (1 ≦ i ≦ n) indicates the i-th of the n minimum value data included in the element (group) of the matrix.
図7は、本実施形態に係る文書データ毎の特徴量を例示する図である。
この例では、文書データ毎に、1035通りの品詞ペアに対して平均及び分散の2つの特徴量がそれぞれ算出されている。
FIG. 7 is a diagram illustrating the feature amount for each document data according to the present embodiment.
In this example, two feature quantities, average and variance, are calculated for 1035 part-speech pairs for each document data.
学習部16は、文書データ毎に、品詞ペアに対する特徴量を入力とし、予めラベル付けされている機械翻訳又は人間翻訳の区分を学習した学習モデル23を生成する。
学習モデル23を生成する手法は、ロジスティック回帰、線形分類器、確率的勾配降下法によるサポートベクタマシン、逐次最小問題最適化法によるサポートベクタマシン等、各種の学習アルゴリズムから適宜選択されてよい。
また、学習部16は、複数の学習アルゴリズムにより複数の学習モデル23を生成してもよく、この場合、出力精度が最も高い学習モデル23が選別されてよい。
The
The method for generating the
Further, the
分類部17は、分類対象の文書データが入力された際に、前述の特徴量算出部15により算出された品詞ペアに対する特徴量(例えば、平均及び分散)を入力とし、学習モデル23により、分類結果を出力する。
When the document data to be classified is input, the
本実施形態によれば、分類装置1は、文書データを構成する単語に品詞タグを付与し、品詞ペア毎に単語間の距離を算出する。そして分類装置1は、この単語間の距離を統計処理した特徴量を入力として、機械翻訳であるか人間翻訳であるかの既知の区分に基づいて学習モデル23を生成する。
機械翻訳に比べて人間翻訳は、単一の文だけでなく文書内の複数の文の中で、類似性又は関連性の高い単語が一貫性を持って使用される傾向にある。分類装置1は、このような傾向の違いを、単語間の距離に基づく特徴量により表し、適切な学習モデル23を生成できる。
したがって、分類装置1は、精度良く機械翻訳と人間翻訳とを分類できる。この結果、スパムメール等のユーザが望まない文書データを高精度に判別することが可能となる。
According to the present embodiment, the
Compared to machine translation, human translation tends to use words with high similarity or relevance consistently not only in a single sentence but also in multiple sentences in a document. The
Therefore, the
また、分類装置1は、特徴量として、単語毎の距離の最小値に関する平均又は分散の少なくともいずれかを用いることで、容易な計算により精度良く文書データを分類できる。
さらに、分類装置1は、複数の学習アルゴリズムを用いて学習モデル23を生成し、精度が最も高いものを選別するので、より高精度に文書データを分類できる。
Further, the
Further, since the
以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、前述した実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、実施形態に記載されたものに限定されるものではない。 Although the embodiments of the present invention have been described above, the present invention is not limited to the above-described embodiments. Moreover, the effects described in the above-described embodiments are merely a list of the most suitable effects resulting from the present invention, and the effects according to the present invention are not limited to those described in the embodiments.
分類装置1による学習方法及び分類方法は、ソフトウェアにより実現される。ソフトウェアによって実現される場合には、このソフトウェアを構成するプログラムが、情報処理装置(コンピュータ)にインストールされる。また、これらのプログラムは、CD-ROMのようなリムーバブルメディアに記録されてユーザに配布されてもよいし、ネットワークを介してユーザのコンピュータにダウンロードされることにより配布されてもよい。さらに、これらのプログラムは、ダウンロードされることなくネットワークを介したWebサービスとしてユーザのコンピュータに提供されてもよい。
The learning method and the classification method by the
1 分類装置(学習装置)
10 制御部
11 入力部
12 タグ付け部
13 距離算出部
14 抽出部
15 特徴量算出部
16 学習部
17 分類部
20 記憶部
23 学習モデル
1 Classification device (learning device)
10
Claims (7)
前記文書データ毎に、前記単語の組み合わせについて、当該単語のそれぞれに定義された単語ベクトル間の距離を算出する距離算出部と、
前記文書データ、及び前記品詞タグの組み合わせ毎に、同一の単語に関する前記距離のグループの中で最小値をそれぞれ抽出する抽出部と、
前記文書データ、及び前記品詞タグの組み合わせ毎に、前記最小値の前記グループの中での統計量を特徴量として算出する特徴量算出部と、
前記文書データ毎に、前記品詞タグの組み合わせに対する前記特徴量を入力とし、予め機械翻訳又は人間翻訳の区分がラベル付けされた文書データにより学習されたモデルにより、分類結果を出力する分類部と、を備える分類装置。 A tagging unit that divides each of the document data into words and assigns a part-of-speech tag to each of the words.
For each of the document data, for the combination of the words, a distance calculation unit that calculates the distance between the word vectors defined for each of the words, and a distance calculation unit.
An extraction unit that extracts the minimum value in the distance group for the same word for each combination of the document data and the part of speech tag.
A feature amount calculation unit that calculates a statistic of the minimum value in the group as a feature amount for each combination of the document data and the part of speech tag.
For each of the document data, a classification unit that outputs the classification result by a model trained by the document data in which the feature amount for the combination of the part of speech tags is input and the classification of machine translation or human translation is labeled in advance, and the classification unit. A classification device equipped with.
前記文書データ毎に、前記単語の組み合わせについて、当該単語のそれぞれに定義された単語ベクトル間の距離を算出する距離算出部と、
前記文書データ、及び前記品詞タグの組み合わせ毎に、同一の単語に関する前記距離のグループの中で最小値をそれぞれ抽出する抽出部と、
前記文書データ、及び前記品詞タグの組み合わせ毎に、前記最小値の前記グループの中での統計量を特徴量として算出する特徴量算出部と、
前記文書データ毎に、前記品詞タグの組み合わせに対する前記特徴量を入力とし、予めラベル付けされている機械翻訳又は人間翻訳の区分を学習したモデルを生成する学習部と、を備える学習装置。 A tagging unit that divides each of the document data into words and assigns a part-of-speech tag to each of the words.
For each of the document data, for the combination of the words, a distance calculation unit that calculates the distance between the word vectors defined for each of the words, and a distance calculation unit.
An extraction unit that extracts the minimum value in the distance group for the same word for each combination of the document data and the part of speech tag.
A feature amount calculation unit that calculates a statistic of the minimum value in the group as a feature amount for each combination of the document data and the part of speech tag.
A learning device including a learning unit that inputs the feature amount for the combination of the part of speech tags for each document data and generates a model that learns a pre-labeled machine translation or human translation classification.
前記文書データ毎に、前記単語の組み合わせについて、当該単語のそれぞれに定義された単語ベクトル間の距離を算出する距離算出ステップと、
前記文書データ、及び前記品詞タグの組み合わせ毎に、同一の単語に関する前記距離のグループの中で最小値をそれぞれ抽出する抽出ステップと、
前記文書データ、及び前記品詞タグの組み合わせ毎に、前記最小値の前記グループの中での統計量を特徴量として算出する特徴量算出ステップと、
前記文書データ毎に、前記品詞タグの組み合わせに対する前記特徴量を入力とし、予め機械翻訳又は人間翻訳の区分がラベル付けされた文書データにより学習されたモデルにより、分類結果を出力する分類ステップと、をコンピュータが実行する分類方法。 A tagging step that divides each of the document data into words and assigns a part-of-speech tag to each of the words.
For each of the document data, for the combination of the words, a distance calculation step for calculating the distance between the word vectors defined for each of the words, and a distance calculation step.
An extraction step for extracting the minimum value in the distance group for the same word for each combination of the document data and the part of speech tag.
For each combination of the document data and the part of speech tag, a feature amount calculation step of calculating the statistic of the minimum value in the group as a feature amount, and
For each of the document data, the classification step of outputting the classification result by the model trained by the document data in which the feature amount for the combination of the part of speech tags is input and the classification of machine translation or human translation is labeled in advance, and the classification step. The classification method that the computer performs.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019030780A JP7017533B2 (en) | 2019-02-22 | 2019-02-22 | Classification device, learning device, classification method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019030780A JP7017533B2 (en) | 2019-02-22 | 2019-02-22 | Classification device, learning device, classification method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020135644A JP2020135644A (en) | 2020-08-31 |
JP7017533B2 true JP7017533B2 (en) | 2022-02-08 |
Family
ID=72263320
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019030780A Active JP7017533B2 (en) | 2019-02-22 | 2019-02-22 | Classification device, learning device, classification method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7017533B2 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009129279A (en) | 2007-11-26 | 2009-06-11 | Yahoo Japan Corp | Machine learning apparatus and machine learning method |
JP2015176511A (en) | 2014-03-18 | 2015-10-05 | 日本電信電話株式会社 | Document classification device, document classification method and document classification program |
US20160267073A1 (en) | 2015-03-10 | 2016-09-15 | International Business Machines Corporation | Performance detection and enhancement of machine translation |
-
2019
- 2019-02-22 JP JP2019030780A patent/JP7017533B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009129279A (en) | 2007-11-26 | 2009-06-11 | Yahoo Japan Corp | Machine learning apparatus and machine learning method |
JP2015176511A (en) | 2014-03-18 | 2015-10-05 | 日本電信電話株式会社 | Document classification device, document classification method and document classification program |
US20160267073A1 (en) | 2015-03-10 | 2016-09-15 | International Business Machines Corporation | Performance detection and enhancement of machine translation |
Also Published As
Publication number | Publication date |
---|---|
JP2020135644A (en) | 2020-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mekala et al. | SCDV: Sparse Composite Document Vectors using soft clustering over distributional representations | |
García Seco de Herrera et al. | Overview of the ImageCLEF 2018 caption prediction tasks | |
Villegas et al. | General overview of ImageCLEF at the CLEF 2015 labs | |
RU2583716C2 (en) | Method of constructing and detection of theme hull structure | |
US20150095017A1 (en) | System and method for learning word embeddings using neural language models | |
JP2021182398A (en) | Event prediction device and program for event prediction | |
Romanov et al. | Application of natural language processing algorithms to the task of automatic classification of Russian scientific texts | |
Yang et al. | A topic drift model for authorship attribution | |
Sivanantham | Sentiment analysis on social media for emotional prediction during COVID‐19 pandemic using efficient machine learning approach | |
Lim et al. | Examining machine learning techniques in business news headline sentiment analysis | |
Ragupathy et al. | Comparative analysis of machine learning algorithms on social media test | |
JP6899973B2 (en) | Semantic relationship learning device, semantic relationship learning method, and semantic relationship learning program | |
US20210117448A1 (en) | Iterative sampling based dataset clustering | |
Viswanathan et al. | Detection of duplicates in Quora and Twitter corpus | |
Kinariwala et al. | Onto_TML: Auto-labeling of topic models | |
JP7017533B2 (en) | Classification device, learning device, classification method and program | |
JP6026036B1 (en) | DATA ANALYSIS SYSTEM, ITS CONTROL METHOD, PROGRAM, AND RECORDING MEDIUM | |
CN110399595B (en) | Text information labeling method and related device | |
Naik et al. | Classifying documents within multiple hierarchical datasets using multi-task learning | |
Thakur et al. | The SAFE miner: A fine grained aspect level approach for resolving the sentiment | |
JP5342574B2 (en) | Topic modeling apparatus, topic modeling method, and program | |
JP7175244B2 (en) | Classification device, learning device, classification method and program | |
CN107622129B (en) | Method and device for organizing knowledge base and computer storage medium | |
Rajkumar et al. | An efficient feature extraction with bidirectional long short term memory based deep learning model for Tamil document classification | |
Alian et al. | Unsupervised learning blocking keys technique for indexing Arabic entity resolution |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210201 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211217 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220111 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220127 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7017533 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |