JP2022051305A - Information processing apparatus, system, learning device, information processing method and program - Google Patents
Information processing apparatus, system, learning device, information processing method and program Download PDFInfo
- Publication number
- JP2022051305A JP2022051305A JP2020157721A JP2020157721A JP2022051305A JP 2022051305 A JP2022051305 A JP 2022051305A JP 2020157721 A JP2020157721 A JP 2020157721A JP 2020157721 A JP2020157721 A JP 2020157721A JP 2022051305 A JP2022051305 A JP 2022051305A
- Authority
- JP
- Japan
- Prior art keywords
- data
- unit
- classifier
- items
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 49
- 238000003672 processing method Methods 0.000 title claims abstract description 6
- 230000005540 biological transmission Effects 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 7
- 238000010801 machine learning Methods 0.000 claims description 4
- 230000002787 reinforcement Effects 0.000 claims description 3
- 230000001737 promoting effect Effects 0.000 claims 4
- 239000013598 vector Substances 0.000 abstract description 37
- 238000006243 chemical reaction Methods 0.000 abstract description 6
- 238000004891 communication Methods 0.000 description 18
- 238000000034 method Methods 0.000 description 18
- 238000012986 modification Methods 0.000 description 13
- 230000004048 modification Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 7
- 238000013480 data collection Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000004044 response Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 239000002537 cosmetic Substances 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Abstract
Description
本発明は、情報処理装置、システム、学習装置、情報処理方法、およびプログラムに関する。 The present invention relates to an information processing device, a system, a learning device, an information processing method, and a program.
ユーザが快適に電子メールを閲覧できるように、広告や宣伝などの迷惑メールを特定する技術が知られている。例えば、特許文献1には、電子メールのヘッダ情報に基づいて、当該電子メールを正常メールか迷惑メールかに分類する技術が開示されている。当技術は、電子メールのヘッダ情報から特徴ベクトルを取得し、取得した特徴ベクトルと分類ルールとを比較することで、迷惑メールを特定するものである。 Technology for identifying unsolicited e-mails such as advertisements and promotions is known so that users can comfortably read e-mails. For example, Patent Document 1 discloses a technique for classifying an e-mail into normal e-mail or junk e-mail based on the header information of the e-mail. The present technology acquires a feature vector from the header information of an e-mail and compares the acquired feature vector with a classification rule to identify unsolicited e-mail.
特許文献1に記載の技術における特徴ベクトルは、アドレス帳における送信者の登録有無など、ヘッダ情報に関するメタ情報を離散値で表現しただけのものであり、ヘッダ情報の内容そのものを表現したものではない。また、ヘッダ情報の内容を特徴ベクトルで表現する際には、テキストの用例を集積したコーパスを用いてヘッダ情報が分散表現に変換されることが考えられる。その場合、ヘッダ情報には複数の項目があるにも関わらず、全ての項目に共通した単一のコーパスを用いて分散表現に変換されてしまう。その結果、変換の精度が低く、また、情報量が少ない項目(例えば、mime_typeなど)も、ワンホットベクトルから特徴ベクトルに変換される際に、ベクトルの次元が必要以上に高くなり、メモリが過剰に消費されるという課題が想定される。このように、従来の技術では、メモリやCPU負荷などのリソース消費が高かったり、分類対象の分類精度が十分でない場合があった。 The feature vector in the technique described in Patent Document 1 merely expresses meta information related to header information such as whether or not a sender is registered in an address book as a discrete value, and does not represent the content of the header information itself. .. Further, when expressing the content of the header information by a feature vector, it is conceivable that the header information is converted into a distributed representation by using a corpus that accumulates text examples. In that case, even though the header information has a plurality of items, it is converted into a distributed representation using a single corpus common to all the items. As a result, even for items with low conversion accuracy and small amount of information (for example, mime_type), when the one-hot vector is converted to the feature vector, the dimension of the vector becomes higher than necessary and the memory becomes excessive. It is assumed that it will be consumed in the future. As described above, in the conventional technique, resource consumption such as memory and CPU load may be high, or the classification accuracy of the classification target may not be sufficient.
本発明は、このような事情を考慮してなされたものであり、リソース消費を抑制しつつ分類精度を高めることができる、情報処理装置、システム、学習装置、情報処理方法、およびプログラムを提供することを目的の一つとする。 The present invention has been made in consideration of such circumstances, and provides an information processing device, a system, a learning device, an information processing method, and a program capable of improving classification accuracy while suppressing resource consumption. That is one of the purposes.
本発明の一態様である情報処理装置は、電子メールに関する複数の項目のデータを含むメールデータを取得する取得部と、前記取得した複数の項目のデータを、前記複数の項目のデータを入力すると前記メールデータに係る電子メールが所定属性の電子メールであるか否かを示す分類結果を出力するように学習された分類器に入力することで、前記メールデータに係る電子メールが前記所定属性の電子メールであるか否かを示す分類結果を得る属性分類部と、を備え、前記分類器は、前記複数の項目のデータの各々が入力されると項目ごと特徴量を出力する項目ごと子分類器と、それぞれの前記項目ごと特徴量が入力されると前記分類結果を出力する統合分類器とを含むものである。 In the information processing apparatus according to one aspect of the present invention, when the acquisition unit that acquires the data of a plurality of items related to e-mail and the data of the acquired plurality of items are input, the data of the plurality of items is input. By inputting to a classifier trained to output a classification result indicating whether or not the e-mail related to the mail data is an e-mail having a predetermined attribute, the e-mail related to the mail data has the predetermined attribute. It is equipped with an attribute classification unit that obtains a classification result indicating whether or not it is an e-mail, and the classifier outputs a feature amount for each item when each of the data of the plurality of items is input. It includes a device and an integrated classifier that outputs the classification result when the feature amount for each item is input.
本発明の一態様によれば、分類器が、複数の項目のデータの各々が入力されると項目ごと特徴量を出力する項目ごと子分類器を含むことにより、リソース消費を抑制しつつ分類精度を高めることができる。 According to one aspect of the present invention, the classifier includes a child classifier for each item that outputs a feature amount for each item when each of the data of a plurality of items is input, so that the classification accuracy is suppressed while suppressing resource consumption. Can be enhanced.
以下、図面を参照し、本発明の実施形態に係る情報処理装置、システム、学習装置、情報処理方法、およびプログラムについて説明する。 Hereinafter, the information processing device, the system, the learning device, the information processing method, and the program according to the embodiment of the present invention will be described with reference to the drawings.
<実施形態>
[システム構成]
図1は、本発明の実施形態に係るシステム1の構成の例を示すブロック図である。システム1は、例えば、メールサーバ50と、情報処理装置100と、を備える。メールサーバ50は、ネットワークNWを介して端末装置10と通信する。ネットワークNWは、インターネットやLAN(Local Area Network)、WAN(Wide Area Network)、セルラー網などを含む。
<Embodiment>
[System configuration]
FIG. 1 is a block diagram showing an example of the configuration of the system 1 according to the embodiment of the present invention. The system 1 includes, for example, a
端末装置10は、例えば、パーソナルコンピュータや業務用コンピュータ、スマートフォン、タブレット端末などの通信機能を有するコンピュータ装置である。端末装置10では、メール送受信用のアプリケーションプログラムやブラウザが動作し、メールサーバ50から自身宛ての電子メール53Aをダウンロードしたり、メールサーバ50に電子メール53Aの他のメールサーバへの送信を依頼したりする。
The
端末装置10は、さらに、電子メール53Aと合わせて、当該電子メール53Aがプロモーションメールであるか否かを示す分類結果をメールサーバ50から受信し、分類結果の内容に応じて、電子メール53Aをメインメールフォルダ30又はプロモーションメールフォルダ40に振り分ける。具体的には、端末装置10は、分類結果がメインメールを示している場合には、電子メール53Aをメインメールフォルダ30に振り分ける一方、分類結果がプロモーションメールを示している場合には、電子メール53Aをプロモーションメールフォルダ40に振り分ける。以下、分類結果をフラグ情報とも称する。
Further, the
メールサーバ50は、例えば、端末装置10によって送受信される電子メール53Aの振り分けや転送を行う装置である。メールサーバ50は、例えば、通信部51と、送受信制御部52と、記憶部53とを備える。通信部51は、例えば、NIC等の通信インターフェースを含み、図示しない他のメールサーバ、端末装置10、及び情報処理装置100と通信する。
The
送受信制御部52は、通信部51を用いて、他のメールサーバから受信した電子メール53Aを自身が管轄する端末装置10に送信したり、端末装置10から依頼された宛先に対応するメールサーバに電子メール53Aを送信したりする。送受信制御部52は、送受信される電子メール53Aを記憶部53に格納する。記憶部53は、HDDやフラッシュメモリ、RAM(Random Access Memory)などの記憶装置により実現される。
The transmission /
送受信制御部52は、さらに、他のメールサーバから受信した電子メール53Aに関する複数の項目のデータを含むメールデータ180Aを情報処理装置100に送信し、メールデータ180Aに係る電子メール53Aの分類を依頼する。送受信制御部52は、依頼に応じて返信される、当該電子メール53Aがプロモーションメールであるか否かを示すフラグ情報を情報処理装置100から受信する。送受信制御部52は、電子メール53Aと当該フラグ情報とを合わせて端末装置10に送信する。メールデータ180Aとは、例えば、電子メール53Aの送信者の名前を示す「表示名」、タイトルを示す「件名」、及びファイルの形式を示す「mime_type」などの素性を含むものである(「複数の項目のデータ」の一例である)。メールデータ180Aは、電子メール53Aそのものであってもよい。
The transmission /
情報処理装置100は、例えば、メールサーバ50からの依頼に応じて、ユーザに宛てられた電子メール53Aに係るメールデータ180Aをメールサーバ50から受信し、当該メールデータ180Aに係る電子メール53Aを、例えばメインメール又はプロモーションメール(「所定属性」の一例である)のいずれかに分類し、分類結果を示すフラグ情報をメールサーバ50に送信する。
For example, the
情報処理装置100は、例えば、通信部110と、メールデータ取得部120と、属性分類部130と、フラグ情報送信部140と、分類器生成部150と、フィードバック情報受付部160と、再学習指示部170と、記憶部180と、を備える。
The
送受信制御部52、メールデータ取得部120、属性分類部130、フラグ情報送信部140、分類器生成部150、フィードバック情報受付部160、及び再学習指示部170のそれぞれは、例えば、CPU(Central Processing Unit)などのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。これらの構成要素のうち一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)などのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めHDD(Hard Disk Drive)やフラッシュメモリなどの記憶装置(非一過性の記憶媒体を備える記憶装置)に格納されていてもよいし、DVDやCD-ROMなどの着脱可能な記憶媒体(非一過性の記憶媒体)に格納されており、記憶媒体がドライブ装置に装着されることでインストールされてもよい。
Each of the transmission /
通信部110は、例えば、NIC等の通信インターフェースを含む。通信部110は、メールサーバ50から、メールデータ180Aを受信する。さらに、通信部110は、後述する属性分類部130が得たフラグ情報をメールサーバ50に送信する。メールサーバ50と情報処理装置100が通信するネットワークは、ネットワークNWの一部であってもよい。
The
[推論段階]
以下、分類器180Bを用いた推論段階の処理について説明する。メールデータ取得部120は、通信部110が受信したメールデータ180Aを取得し、記憶部180に格納する。記憶部180は、HDDやフラッシュメモリ、RAMなどの記憶装置により実現される。
[Inference stage]
Hereinafter, the processing of the inference stage using the
属性分類部130は、後述する分類器生成部150によって生成される分類器180Bにメールデータ180Aを入力することで、当該メールデータ180Aに係る電子メール53Aがプロモーションメールであるか否かを示す分類結果、すなわち、フラグ情報を得る。
By inputting the
ここで、属性分類部130による分類器180Bを用いた分類処理の詳細について説明する。図2は、属性分類部130による分類処理について説明するための図である。
Here, the details of the classification process using the
属性分類部130は、メールデータ180Aのうち、表示名、件名、及びmime_typeを分類器180Bに入力する。ここで、表示名、件名、mime_typeのそれぞれは、規定の単語数を規定の長さとして入力される。具体的な一例として、表示名は13単語、件名は44単語、mime_typeは1単語を規定の長さとして入力される。各項目の規定の単語数は、ベクトル変換の精度を低めないように適宜設定されれば良い。例えば、規定の単語数は、教師データとして記憶部180に格納されている複数のメールデータ180Aのうち、所定割合(例えば95%)以上のデータが収まるように設定されれば良く、その場合、設定単語数を超過したデータの単語列は切り捨てても良い。規定の単語数および所定割合として、任意の数値が設定されて良い。
The
属性分類部130は、入力された表示名、件名、及びmime_typeをワンホットベクトルに変換する。ある対象データのワンホットベクトルとは、事前に登録された単語の各々について、当該単語が対象データに含まれる場合には1、含まれない場合には0を成分とするベクトルのことである。なお、表示名および件名は自然言語で表現されていると考えられるため、属性分類部130は、表示名および件名に形態素解析を施して単語に分割した後に、数字などの要素を除外した対象ワードに基づいて、ワンホットベクトルを生成する。
The
属性分類部130は、ワンホットベクトル化によって得られた表示名のワンホットベクトルを表示名用の辞書に入力することで、表示名ベクトルを得る。同様に、属性分類部130は、件名のワンホットベクトルを件名用の辞書に入力することで、件名ベクトルを得る。同様に、属性分類部130は、mime_typeのワンホットベクトルをmime_type用の辞書に入力することで、mime_typeベクトルを得る。表示名用の辞書、件名用の辞書、及びmime_type用の辞書のそれぞれは、項目ごと子分類器の一例である。表示名ベクトル、件名ベクトル、およびmime_typeベクトルのそれぞれは、項目ごと特徴量の一例である。
The
ここで、辞書とは、ワンホットベクトルから、ワンホットベクトルよりも低次元で、ベクトル成分が所定範囲内の連続値をとる特徴ベクトルへの変換を定義するルールないしアルゴリズムを意味し、各項目の用例を集積したコーパスから機械学習により生成される。このような特徴ベクトルには、例えば、分散表現ベクトルが含まれる。全ての項目に共通したコーパス及び辞書を用いるのではなく、項目ごとにコーパス及び辞書を用意することで、ベクトル変換時の次元を削減してリソース消費を低減し、更に分類精度を向上させることができる。 Here, the dictionary means a rule or algorithm that defines a conversion from a one-hot vector to a feature vector having a lower dimension than the one-hot vector and having continuous values within a predetermined range, and of each item. It is generated by machine learning from a corpus that collects examples. Such feature vectors include, for example, a distributed representation vector. By preparing a corpus and dictionary for each item instead of using a corpus and dictionary common to all items, it is possible to reduce the dimensions during vector conversion, reduce resource consumption, and further improve classification accuracy. can.
ここで、形態素解析の結果、複数の対象ワードが発生した場合について説明する。この場合、複数のワンホットベクトルが生成され、それに対応する表示名ベクトルまたは件名ベクトル(以下、特徴量ベクトル)が複数生成されることになるが、属性分類部130は、例えば複数の特徴量ベクトルの平均を分類器180Bへの入力データとする。これに代えて、属性分類部130は、複数の対象ワードのそれぞれに対応する要素を1とした一つのワンホットベクトルを生成してもよい。
Here, a case where a plurality of target words are generated as a result of the morphological analysis will be described. In this case, a plurality of one-hot vectors are generated, and a plurality of display name vectors or subject vectors (hereinafter referred to as feature quantity vectors) corresponding thereto are generated. However, the
属性分類部130は、変換によって得られた表示名ベクトル、件名ベクトル、及びmime_typeベクトルを統合するニューラルネットワーク(「統合分類器」の一例である)に入力し、出力として、メールデータ180Aに係る電子メール53Aがプロモーションメールであるか否かを示すフラグ情報を得る。これにより、属性分類部130は、電子メール53Aがプロモーションメールであるか否かを特定することができる。
The
フラグ情報送信部140は、通信部110を用いて、属性分類部130が得たフラグ情報をメールサーバ50に送信する。
The flag
[学習段階]
以下、分類器180Bの学習段階の処理について説明する。学習段階の処理に当たって、記憶部180は、メールデータ180Aの一部又は全てについて、当該メールデータ180Aに係る電子メール53Aがプロモーションメールであるか否かを示すフラグ情報をラベルとして記憶しておく。ラベルはフラグ情報と同等の情報であり、例えば人によって電子メール53Aを分類した結果がラベルとして与えられる。
[Learning stage]
Hereinafter, the processing of the learning stage of the
図3は、分類器生成部150による生成処理について説明するための図である。図3に示す通り、分類器生成部150は、記憶部180によって事前に記憶されたメールデータ180Aを学習データとし、学習データに付与されたラベルを教師データとして、例えば、誤差逆伝播法を用いて、機械学習を実行し、分類器180Bを生成する。分類器生成部150は、学習モデルに対して学習データを入力した結果が教師データに近づくように、学習モデルのパラメータを調整する。そして、予定された回数のパラメータ調整が終了すると、その時点の学習モデルが学習済みモデル、すなわち分類器180Bとなる。誤差逆伝播法において用いられる損失関数は、例えば、二乗和誤差や交差エントロピーなどの任意の関数である。分類器生成部150は、生成した分類器180Bを記憶部180に格納する。
FIG. 3 is a diagram for explaining the generation process by the
なお、本実施形態において、情報処理装置100は分類器生成部150を備え、記憶部180は、分類器生成部150が生成した分類器180Bを格納している。しかし、代替的に、情報処理装置100はこれらの機能部を備えず、分類器生成部150と、分類器生成部150が生成した分類器180Bと、を備える他の装置(学習装置)が存在しても良い。
In the present embodiment, the
フィードバック情報受付部160は、属性分類部130による分類結果が正しかったかどうかを利用者が判断した結果である(正誤を示す)フィードバック情報を、当該分類結果に係る電子メール53Aを受信した端末装置10から受け付ける。フィードバック情報の詳細については、図5を参照して後述する。
The feedback
再学習指示部170は、フィードバック情報受付部160が受け付けたフィードバック情報に基づいて、分類器生成部150に、当該フィードバック情報を用いた再学習または強化学習を実行させる。再学習については、分類器生成部150が分類器180Bを生成する手法(例えば誤差逆伝播法)と同様の手法で行えば良く、強化学習については、任意のアルゴリズムを用いて良い。
The
[処理シーケンス]
次に、図4を参照して、端末装置10、メールサーバ50、及び情報処理装置100によって実行される一連の処理について説明する。図4は、端末装置10、メールサーバ50、及び情報処理装置100が行う処理の流れの一例を示すシーケンス図である。なお、本図では、メールサーバ50から情報処理装置100に電子メール53Aの全部が送信されるものとしている。
[Processing sequence]
Next, with reference to FIG. 4, a series of processes executed by the
まず、メールサーバ50は、端末装置10のユーザ宛てに送られた電子メール53Aを他のメールサーバから受信する(S1)。次に、メールサーバ50は、受信した電子メール53Aを情報処理装置100に送信する(S2)。
First, the
情報処理装置100は、メールサーバ50から電子メール53Aを受信すると、電子メール53Aからメールデータ180Aを抽出する(S3)。次に、情報処理装置100は、属性分類部130を用いて、メールデータ180Aを分類器180Bに入力することで、メールデータ180Aに係る電子メール53Aがプロモーションメールであるか否かを示すフラグ情報を取得する(S4)。次に、情報処理装置100は、取得したフラグ情報をメールサーバ50に送信する(S5)。
When the
メールサーバ50は、フラグ情報を受信すると、電子メール53Aと当該フラグ情報とを合わせて端末装置10に送信する(S6)。本ステップにおける電子メール53Aの送信は、端末装置10からのダウンロード要求、HTTPリクエスト等に応じて行われてもよい。
When the
端末装置10は、電子メール53Aとフラグ情報を受信すると、フラグ情報の内容に応じて、電子メール53Aをメインメールフォルダ30又はプロモーションメールフォルダ40に振り分けて表示する(S7)。次に、端末装置10は、振り分けに対する正誤を示すフィードバック情報の入力をユーザから受け付け、受け付けたフィードバック情報を情報処理装置100に送信する(S8)。
When the
情報処理装置100は、フィードバック情報を受け付けると、分類器生成部150に、当該フィードバック情報に基づいた再学習を指示する(S9)。これにより、処理が終了する。
When the
次に、S7に係る電子メール53Aの振り分けと、S8に係るフィードバック情報の入力について説明する。図5は、端末装置10による電子メール53Aの振り分けとフィードバック情報の入力の一例を説明するための図である。
Next, the distribution of the
図5に示す通り、端末装置10のメール受信箱は、メインメールフォルダ30とプロモーションメールフォルダ40とを含む。端末装置10は、メールサーバ50から受け付けたフラグ情報がメインメールを示している場合には、電子メール53Aをメインメールフォルダ30に振り分ける。一方、フラグ情報がプロモーションメールを示している場合には、電子メール53Aをプロモーションメールフォルダ40に振り分ける。端末装置10のユーザは、それぞれのフォルダの電子メール53Aを閲覧し、フォルダに応じたフィードバック情報を入力することができる。具体的には、ユーザは、メインメールフォルダ30に格納された電子メール53Aについては、「プロモーション報告」を選択することができる。一方、プロモーションメールフォルダ40に格納された電子メール53Aについては、「プロモーションではないと報告」を選択することができる。ユーザによって入力されたフィードバック情報は、メールサーバ50を介して、情報処理装置100に送信され、分類器生成部150によって、再学習に利用される。
As shown in FIG. 5, the mail inbox of the
以上説明した実施形態によれば、情報処理装置100は、複数の項目のデータの各々が入力されると項目ごと特徴量を出力する項目ごと子分類器と、それぞれの項目ごと特徴量が入力されると分類結果を出力する統合分類器とを含む分類器を用いて、電子メール53Aがプロモーションメールであるか否かを示すフラグ情報を取得し、端末装置10は、当該フラグ情報に基づいて、電子メール53Aを振り分ける。その際、項目ごと子分類器は、各項目に共通した辞書ではなく、項目ごとの辞書を用いて、項目ごと特徴量を出力する。これにより、情報処理装置100は、リソース消費を抑制しつつ分類精度を高めることができる。
According to the embodiment described above, in the
<第1変形例>
次に、図6を参照しつつ、第1変形例のメールサーバについて説明する。本変形例は、メインメールとプロモーションメールとの分類を実行しつつ、ユーザに対してプロモーションのリマインド通知を送信することによって、効果的なプロモーションを行うことを目的とする。
<First modification>
Next, the mail server of the first modification will be described with reference to FIG. The purpose of this modification is to perform effective promotion by sending a promotion remind notification to the user while executing the classification of the main mail and the promotion mail.
図6は、第1変形例に係るメールサーバ50Aの構成の例を示すブロック図である。図1に示す構成に加えて、メールサーバ50Aは、プロモーションデータ収集部54と、プロモーション通知部55と、ジャンル分類部56と、開封率算出部57と、を備える。
FIG. 6 is a block diagram showing an example of the configuration of the
プロモーションデータ収集部54は、端末装置10に送信されるプロモーションメール、具体的には、プロモーションメールであることを示すフラグ情報が付けられた電子メール53Aの本文を解析し、キャンペーン期限などのプロモーションデータ53Bを収集する。プロモーションデータ収集部54は、収集したデータをプロモーションデータ53Bとして記憶部53に格納する。
The promotion
プロモーション通知部55は、記憶部53に格納されるプロモーションデータ53Bを一定間隔(例えば、一日ごと)で参照し、キャンペーン期限が近いプロモーションデータ53Bを特定し、特定したプロモーションデータ53Bに関するプロモーションの期限が近いことを示すリマインド通知を端末装置10に送信する(第1案)。この際、プロモーション通知部55は、キャンペーン期限の一日前など、ユーザがキャンペーンに注目しやすいと考えられる任意のタイミングでリマインド通知を送信して良い。さらに、プロモーション通知部55は、期限が近い全てのプロモーションデータ53Bではなく、後述の開封率算出部57によって計算された、開封率の高いジャンルのプロモーションデータ53Bについてのみ、リマインド通知を送信しても良い(第2案)。プロモーション通知部55は、リマインド通知として、例えば、プッシュ通知を送信しても良いし、メール通知を送信しても良い。図7は、プロモーション通知部55によるプッシュ通知の一例を説明するための図である。図7に示す通り、プロモーション通知部55は、キャンペーン期限が近いプロモーションメールについて、端末装置10にプッシュ通知を送信する。
The
ジャンル分類部56は、端末装置10に送信されるプロモーションメール、具体的には、プロモーションメールであることを示すフラグ情報が付けられた電子メール53Aの本文を解析し、既知のクラスタリングなどの手法を用いてジャンル分類を行う。ジャンル分類部56は、各プロモーションメールについて分類したジャンルをプロモーションデータ53Bの追加情報として記憶部53に格納する。分類するジャンルは、例えば、食品、ファッション、コスメ、旅行、書籍など任意のジャンルであって良い。
The
開封率算出部57は、ジャンル分類部56によって分類されたジャンルごと、かつユーザごとに、受信された電子メール53Aの総数を、開封された電子メール53Aの数で除算することによって得られる開封率を算出する。開封率算出部57は、算出した開封率をプロモーションデータ53Bの追加情報として記憶部53に格納する。
The open
以上説明した第1変形例によれば、第1案において、キャンペーン期限が近いプロモーションデータ53Bに関するリマインド通知を送信することによって、メインメールとプロモーションメールとの分類を実行しつつ、効果的なプロモーションを行うことができる。また、第1変形例によれば、第2案において、ジャンル分類部56及び開封率算出部57を用いて、各ユーザの関心が高いジャンルについてのみリマインド通知を送信することによって、パーソナライズされた、より効果的なプロモーションを行うことができる。
According to the first modification described above, in the first plan, by sending a reminder notification regarding the
<第2変形例>
以上説明した実施形態または第1変形例では、メインメールとプロモーションメールの分類、及びプロモーションのリマインド通知は、情報処理装置100とメールサーバ50とがサーバ側で実行するものであった。代替的に、これらの機能は、端末装置10がアプリとして実装しても良い。
<Second modification>
In the embodiment or the first modification described above, the classification of the main mail and the promotion mail and the remind notification of the promotion are executed by the
図8は、第2変形例に係る端末装置10Aの構成の例を示すブロック図である。図8に示す通り、端末装置10Aは、NIC又は無線通信機等の通信インターフェースを含む通信部12と、ディスプレイ等の表示部14と、タッチパネル、キーボード、マウス等の入力部16と、メールデータ取得部18と、属性分類部20と、プロモーションデータ収集部22と、プロモーション通知部24と、を備える。
FIG. 8 is a block diagram showing an example of the configuration of the
メールデータ取得部18、属性分類部20、プロモーションデータ収集部22、及びプロモーション通知部24の基本的な機能は、メールデータ取得部120、属性分類部130、プロモーションデータ収集部54、及びプロモーション通知部55の機能とそれぞれ同様である。なお、メールデータ取得部120は、メールサーバ50からメールデータ180Aを受信するのに対して、メールデータ取得部18は、メールサーバ50から電子メール53Aを受信し、当該電子メール53Aからメールデータ180Aを抽出することで取得する。また、プロモーション通知部55によるプロモーションの通知は、メールサーバ50と端末装置10との協調動作によって実現されるが、プロモーション通知部24によるプロモーションの通知は、端末装置10のみの動作によって実現される。
The basic functions of the mail
以上説明した第2変形例によれば、サーバ側で通知機能を実装する必要なく、端末側で簡易的に通知を実現することができる。 According to the second modification described above, it is not necessary to implement the notification function on the server side, and the notification can be easily realized on the terminal side.
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。 Although the embodiments for carrying out the present invention have been described above using the embodiments, the present invention is not limited to these embodiments, and various modifications and substitutions are made without departing from the gist of the present invention. Can be added.
10、10A 端末装置
12 通信部
14 表示部
16 入力部
18 メールデータ取得部
20 属性分類部
22 プロモーションデータ収集部
24 プロモーション通知部
30 メインメールフォルダ
40 プロモーションメールフォルダ
50、50A メールサーバ
51 通信部
52 送受信制御部
53 記憶部
53A 電子メール
53B プロモーションデータ
54 プロモーションデータ収集部
55 プロモーション通知部
56 ジャンル分類部
57 開封率算出部
100 情報処理装置
110 通信部
120 メールデータ取得部
130 属性分類部
140 フラグ情報送信部
150 分類器生成部
160 フィードバック情報受付部
170 再学習指示部
180 記憶部
180A メールデータ
180B 分類器
10, 10A terminal device 12
Claims (13)
前記取得した複数の項目のデータを、前記複数の項目のデータを入力すると前記メールデータに係る電子メールが所定属性の電子メールであるか否かを示す分類結果を出力するように学習された分類器に入力することで、前記メールデータに係る電子メールが前記所定属性の電子メールであるか否かを示す分類結果を得る属性分類部と、を備え、
前記分類器は、前記複数の項目のデータの各々が入力されると項目ごと特徴量を出力する項目ごと子分類器と、それぞれの前記項目ごと特徴量が入力されると前記分類結果を出力する統合分類器とを含む、
情報処理装置。 An acquisition unit that acquires email data that includes data for multiple items related to email,
Classification learned to output the classification result indicating whether or not the e-mail related to the e-mail data is an e-mail having a predetermined attribute when the data of the plurality of items acquired is input. It is provided with an attribute classification unit that obtains a classification result indicating whether or not the e-mail related to the e-mail data is an e-mail having the predetermined attribute by inputting to the device.
The classifier outputs a child classifier for each item when each of the data of the plurality of items is input, and outputs the classification result when the feature amount for each item is input. Including integrated classifier,
Information processing equipment.
請求項1に記載の情報処理装置。 The item-by-item child classifier learns to use the population corresponding to each of the data of the plurality of items as learning data and output the feature amount for each item when each of the data of the plurality of items is input. Was done,
The information processing apparatus according to claim 1.
請求項1又は2に記載の情報処理装置。 The data of the plurality of items includes a part or all of the display name, subject, and type of e-mail of the e-mail.
The information processing apparatus according to claim 1 or 2.
請求項1から3のうちいずれか1項に記載の情報処理装置。 The predetermined attribute indicates an e-mail sent for the purpose of promoting a product, service, or business.
The information processing apparatus according to any one of claims 1 to 3.
請求項1から4のうちいずれか1項に記載の情報処理装置。 Generation to generate the classifier by machine learning using the data of the plurality of items as training data and the flag information indicating whether or not the e-mail related to the mail data is the e-mail of the predetermined attribute as the teacher data. With more parts,
The information processing apparatus according to any one of claims 1 to 4.
前記生成部に、前記フィードバック情報を用いた再学習または強化学習を実行させる指示部と、
を更に備える、請求項5に記載の情報処理装置。 A reception unit that receives feedback information indicating the correctness of the classification result by the attribute classification unit from the user who received the e-mail, and a reception unit.
An instruction unit that causes the generation unit to execute re-learning or reinforcement learning using the feedback information.
The information processing apparatus according to claim 5, further comprising.
前記電子メールの送受信を管理し、前記情報処理装置に前記メールデータを提供するメールサーバと、
を備えるシステム。 The information processing apparatus according to any one of claims 1 to 6 and the information processing apparatus.
A mail server that manages the transmission and reception of the e-mail and provides the mail data to the information processing device.
A system equipped with.
前記メールサーバは、
前記属性分類部によって前記所定属性を持つものと分類された電子メールの前記プロモーションの期限に関するデータを収集する収集部と、
前記電子メールを受信した情報端末に前記期限に関する通知を送信する通知部と、
を備える、請求項7に記載のシステム。 The predetermined attribute indicates an e-mail sent for the purpose of promoting a product, service, or business.
The mail server is
A collection unit that collects data regarding the deadline of the promotion of e-mails classified by the attribute classification unit as having the predetermined attribute.
A notification unit that sends a notification regarding the deadline to the information terminal that received the e-mail, and
7. The system according to claim 7.
前記メールサーバは、
前記属性分類部によって前記所定属性を持つものと分類された電子メールのジャンルを分類するジャンル分類部と、
前記ジャンルごと、及びユーザごとに、受信された前記電子メールの総数を、開封された前記電子メールの数で除算することによって得られる開封率を算出する算出部と、
前記ジャンル分類部による分類結果と、前記算出部による算出結果とに基づいて、前記電子メールを受信した情報端末に所定の通知を送信する通知部と、
を更に備える、請求項7に記載のシステム。 The predetermined attribute indicates an e-mail sent for the purpose of promoting a product, service, or business.
The mail server is
A genre classification unit that classifies e-mail genres classified as having the predetermined attributes by the attribute classification unit, and
A calculation unit that calculates the open rate obtained by dividing the total number of received e-mails by the number of opened e-mails for each genre and each user.
A notification unit that sends a predetermined notification to an information terminal that has received the e-mail based on the classification result by the genre classification unit and the calculation result by the calculation unit.
7. The system according to claim 7.
前記複数の項目のデータを入力すると前記メールデータに係る電子メールが所定属性の電子メールであるか否かを示す分類結果を出力する分類器を、前記複数の項目のデータを学習データとし、前記メールデータに係る電子メールが前記所定属性の電子メールであるか否かを示すフラグ情報を教師データとした機械学習によって、生成する生成部と、を備え、
前記分類器は、前記データの複数の項目の各々の内容が入力されると項目ごと特徴量を出力する項目ごと子分類器と、それぞれの前記項目ごと特徴量が入力されると前記分類結果を出力する統合分類器とを含む、
学習装置。 An acquisition unit that acquires email data that includes data for multiple items related to email,
When the data of the plurality of items is input, the classifier that outputs the classification result indicating whether or not the e-mail related to the mail data is an e-mail having a predetermined attribute is used as the learning data of the data of the plurality of items. It is provided with a generation unit generated by machine learning using flag information indicating whether or not the e-mail related to the e-mail data is an e-mail having the predetermined attribute as teacher data.
The classifier outputs a feature amount for each item when the contents of each of the plurality of items of the data are input, and a child classifier for each item, and when the feature amount for each item is input, the classification result is output. Including an integrated classifier to output,
Learning device.
電子メールに関する複数の項目のデータを含むメールデータを取得し、
前記取得した複数の項目のデータを、前記複数の項目のデータを入力すると前記メールデータに係る電子メールが所定属性の電子メールであるか否かを示す分類結果を出力するように学習された分類器に入力することで、前記メールデータに係る電子メールが前記所定属性の電子メールであるか否かを示す分類結果を得、
前記分類器は、前記複数の項目のデータの各々が入力されると項目ごと特徴量を出力する項目ごと子分類器と、それぞれの前記項目ごと特徴量が入力されると前記分類結果を出力する統合分類器とを含む、
情報処理方法。 Information processing equipment
Get email data that contains data for multiple items related to email,
Classification learned to output the classification result indicating whether or not the e-mail related to the e-mail data is an e-mail having a predetermined attribute when the data of the plurality of items acquired is input. By inputting to the device, a classification result indicating whether or not the e-mail related to the mail data is an e-mail having the predetermined attribute is obtained.
The classifier outputs a child classifier for each item when each of the data of the plurality of items is input, and outputs the classification result when the feature amount for each item is input. Including integrated classifier,
Information processing method.
電子メールに関する複数の項目のデータを含むメールデータを取得させ、
前記取得した複数の項目のデータを、前記複数の項目のデータを入力すると前記メールデータに係る電子メールが所定属性の電子メールであるか否かを示す分類結果を出力するように学習された分類器に入力することで、前記メールデータに係る電子メールが前記所定属性の電子メールであるか否かを示す分類結果を得させ、
前記分類器は、前記複数の項目のデータの各々が入力されると項目ごと特徴量を出力する項目ごと子分類器と、それぞれの前記項目ごと特徴量が入力されると前記分類結果を出力する統合分類器とを含む、
プログラム。 On the computer
Get email data that includes data from multiple items related to email,
Classification learned to output the classification result indicating whether or not the e-mail related to the e-mail data is an e-mail having a predetermined attribute when the data of the plurality of items acquired is input. By inputting to the device, a classification result indicating whether or not the e-mail related to the mail data is an e-mail having the predetermined attribute is obtained.
The classifier outputs a child classifier for each item when each of the data of the plurality of items is input, and outputs the classification result when the feature amount for each item is input. Including integrated classifier,
program.
前記コンピュータに、更に、
前記分類器によって前記所定属性を持つものと分類され、かつユーザが開封した電子メールの少なくとも期限を含むデータを取得させ、
前記取得したデータに基づいて、前記ユーザへの通知を送信させる、
請求項12に記載のプログラム。 The predetermined attribute indicates an e-mail sent for the purpose of promoting a product, service, or business.
In addition to the computer
The classifier classifies the e-mail as having the predetermined attribute, and causes the user to acquire data including at least the deadline of the opened e-mail.
To send a notification to the user based on the acquired data.
The program according to claim 12.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020157721A JP7212017B2 (en) | 2020-09-18 | 2020-09-18 | Information processing device, system, learning device, information processing method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020157721A JP7212017B2 (en) | 2020-09-18 | 2020-09-18 | Information processing device, system, learning device, information processing method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022051305A true JP2022051305A (en) | 2022-03-31 |
JP7212017B2 JP7212017B2 (en) | 2023-01-24 |
Family
ID=80855075
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020157721A Active JP7212017B2 (en) | 2020-09-18 | 2020-09-18 | Information processing device, system, learning device, information processing method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7212017B2 (en) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008529105A (en) * | 2004-11-04 | 2008-07-31 | ヴェリセプト コーポレーション | Method, apparatus and system for clustering and classification |
JP2011090442A (en) * | 2009-10-21 | 2011-05-06 | Kddi Corp | Apparatus, method and program for sorting electronic mail |
WO2019053844A1 (en) * | 2017-09-14 | 2019-03-21 | 三菱電機株式会社 | Email inspection device, email inspection method, and email inspection program |
JP2019121352A (en) * | 2018-10-12 | 2019-07-22 | Bhi株式会社 | Name-based product aggregation system |
-
2020
- 2020-09-18 JP JP2020157721A patent/JP7212017B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008529105A (en) * | 2004-11-04 | 2008-07-31 | ヴェリセプト コーポレーション | Method, apparatus and system for clustering and classification |
JP2011090442A (en) * | 2009-10-21 | 2011-05-06 | Kddi Corp | Apparatus, method and program for sorting electronic mail |
WO2019053844A1 (en) * | 2017-09-14 | 2019-03-21 | 三菱電機株式会社 | Email inspection device, email inspection method, and email inspection program |
JP2019121352A (en) * | 2018-10-12 | 2019-07-22 | Bhi株式会社 | Name-based product aggregation system |
Also Published As
Publication number | Publication date |
---|---|
JP7212017B2 (en) | 2023-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Manek et al. | Aspect term extraction for sentiment analysis in large movie reviews using Gini Index feature selection method and SVM classifier | |
CN106062787B (en) | System and method for mail transfer management | |
CN101359995B (en) | Method and apparatus providing on-line service | |
CN101877837B (en) | Method and device for short message filtration | |
Lai | An empirical study of three machine learning methods for spam filtering | |
US20140122405A1 (en) | Information processing apparatus, information processing method, and program | |
CN112231584B (en) | Data pushing method and device based on small sample transfer learning and computer equipment | |
Pérez-Díaz et al. | Rough sets for spam filtering: Selecting appropriate decision rules for boundary e-mail classification | |
CN105320957A (en) | Classifier training method and device | |
CN112348629A (en) | Commodity information pushing method and device | |
CN108897784A (en) | One emergency event dimensional analytic system based on social media | |
Kumaresan et al. | Visual and textual features based email spam classification using S-Cuckoo search and hybrid kernel support vector machine | |
US11695713B2 (en) | Computerized system and method for multi-factor message classification and delivery | |
Su et al. | A neural tree and its application to spam e-mail detection | |
Bhat et al. | Classification of email using BeaKS: Behavior and keyword stemming | |
JP7212017B2 (en) | Information processing device, system, learning device, information processing method, and program | |
CN110427959A (en) | Complain classification method, system and the storage medium of text | |
Nouali et al. | A semantic vector space and features-based approach for automatic information filtering | |
Nugroho et al. | Distributed classifier for SDGs topics in online news using RabbitMQ message broker | |
Chakraborty et al. | Content based email spam classifier as a web application using naïve Bayes classifier | |
CN113298555A (en) | Promotion strategy generation method and device and electronic equipment | |
Jishag et al. | Automated review analyzing system using sentiment analysis | |
JP7043243B2 (en) | Classification device, classification method, and program | |
Rakse et al. | Spam classification using new kernel function in support vector machine | |
Thanh et al. | Personalized email user action prediction based on SpamAssassin |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210316 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20210316 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20210326 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210615 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210805 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20211026 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220121 |
|
C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20220121 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20220202 |
|
C21 | Notice of transfer of a case for reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C21 Effective date: 20220208 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20220428 |
|
C211 | Notice of termination of reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C211 Effective date: 20220510 |
|
C22 | Notice of designation (change) of administrative judge |
Free format text: JAPANESE INTERMEDIATE CODE: C22 Effective date: 20220510 |
|
C22 | Notice of designation (change) of administrative judge |
Free format text: JAPANESE INTERMEDIATE CODE: C22 Effective date: 20220628 |
|
C13 | Notice of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: C13 Effective date: 20220726 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220908 |
|
C23 | Notice of termination of proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C23 Effective date: 20221108 |
|
C03 | Trial/appeal decision taken |
Free format text: JAPANESE INTERMEDIATE CODE: C03 Effective date: 20221213 |
|
C30A | Notification sent |
Free format text: JAPANESE INTERMEDIATE CODE: C3012 Effective date: 20221213 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230112 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7212017 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |