JP2022051305A - Information processing apparatus, system, learning device, information processing method and program - Google Patents

Information processing apparatus, system, learning device, information processing method and program Download PDF

Info

Publication number
JP2022051305A
JP2022051305A JP2020157721A JP2020157721A JP2022051305A JP 2022051305 A JP2022051305 A JP 2022051305A JP 2020157721 A JP2020157721 A JP 2020157721A JP 2020157721 A JP2020157721 A JP 2020157721A JP 2022051305 A JP2022051305 A JP 2022051305A
Authority
JP
Japan
Prior art keywords
mail
data
unit
classifier
items
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020157721A
Other languages
Japanese (ja)
Other versions
JP7212017B2 (en
Inventor
捷人 佐々木
Hayato Sasaki
才 陳
Cai Chen
直人 市原
Naoto Ichihara
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2020157721A priority Critical patent/JP7212017B2/en
Publication of JP2022051305A publication Critical patent/JP2022051305A/en
Application granted granted Critical
Publication of JP7212017B2 publication Critical patent/JP7212017B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

To provide an information processing apparatus, a system, a learning device, an information processing method and a program that can improve accuracy of vector conversion and can suppress consumption of a memory.SOLUTION: An information processing apparatus comprises: an acquisition unit that acquires mail data which includes data of a plurality of items associated with an electronic mail; and an attribute classification unit that acquires a classification result indicating whether the electronic mail associated with the mail data is the electronic mail having a predetermined attribute by inputting data of the acquired plurality of items into a classifier which is learned such that when the data of the plurality of items is input, the classification result indicating whether the electronic mail associated with the mail data is the electronic mail having the predetermined attribute is output. And, the classifier includes: a child classifier for each item that output a feature quantity for each item when each of data of the plurality of items is input; and an integrated classifier that outputs the classification result when the feature quantity is input for each of the items.SELECTED DRAWING: Figure 1

Description

本発明は、情報処理装置、システム、学習装置、情報処理方法、およびプログラムに関する。 The present invention relates to an information processing device, a system, a learning device, an information processing method, and a program.

ユーザが快適に電子メールを閲覧できるように、広告や宣伝などの迷惑メールを特定する技術が知られている。例えば、特許文献1には、電子メールのヘッダ情報に基づいて、当該電子メールを正常メールか迷惑メールかに分類する技術が開示されている。当技術は、電子メールのヘッダ情報から特徴ベクトルを取得し、取得した特徴ベクトルと分類ルールとを比較することで、迷惑メールを特定するものである。 Technology for identifying unsolicited e-mails such as advertisements and promotions is known so that users can comfortably read e-mails. For example, Patent Document 1 discloses a technique for classifying an e-mail into normal e-mail or junk e-mail based on the header information of the e-mail. The present technology acquires a feature vector from the header information of an e-mail and compares the acquired feature vector with a classification rule to identify unsolicited e-mail.

特開2011-90442号公報Japanese Unexamined Patent Publication No. 2011-90442

特許文献1に記載の技術における特徴ベクトルは、アドレス帳における送信者の登録有無など、ヘッダ情報に関するメタ情報を離散値で表現しただけのものであり、ヘッダ情報の内容そのものを表現したものではない。また、ヘッダ情報の内容を特徴ベクトルで表現する際には、テキストの用例を集積したコーパスを用いてヘッダ情報が分散表現に変換されることが考えられる。その場合、ヘッダ情報には複数の項目があるにも関わらず、全ての項目に共通した単一のコーパスを用いて分散表現に変換されてしまう。その結果、変換の精度が低く、また、情報量が少ない項目(例えば、mime_typeなど)も、ワンホットベクトルから特徴ベクトルに変換される際に、ベクトルの次元が必要以上に高くなり、メモリが過剰に消費されるという課題が想定される。このように、従来の技術では、メモリやCPU負荷などのリソース消費が高かったり、分類対象の分類精度が十分でない場合があった。 The feature vector in the technique described in Patent Document 1 merely expresses meta information related to header information such as whether or not a sender is registered in an address book as a discrete value, and does not represent the content of the header information itself. .. Further, when expressing the content of the header information by a feature vector, it is conceivable that the header information is converted into a distributed representation by using a corpus that accumulates text examples. In that case, even though the header information has a plurality of items, it is converted into a distributed representation using a single corpus common to all the items. As a result, even for items with low conversion accuracy and small amount of information (for example, mime_type), when the one-hot vector is converted to the feature vector, the dimension of the vector becomes higher than necessary and the memory becomes excessive. It is assumed that it will be consumed in the future. As described above, in the conventional technique, resource consumption such as memory and CPU load may be high, or the classification accuracy of the classification target may not be sufficient.

本発明は、このような事情を考慮してなされたものであり、リソース消費を抑制しつつ分類精度を高めることができる、情報処理装置、システム、学習装置、情報処理方法、およびプログラムを提供することを目的の一つとする。 The present invention has been made in consideration of such circumstances, and provides an information processing device, a system, a learning device, an information processing method, and a program capable of improving classification accuracy while suppressing resource consumption. That is one of the purposes.

本発明の一態様である情報処理装置は、電子メールに関する複数の項目のデータを含むメールデータを取得する取得部と、前記取得した複数の項目のデータを、前記複数の項目のデータを入力すると前記メールデータに係る電子メールが所定属性の電子メールであるか否かを示す分類結果を出力するように学習された分類器に入力することで、前記メールデータに係る電子メールが前記所定属性の電子メールであるか否かを示す分類結果を得る属性分類部と、を備え、前記分類器は、前記複数の項目のデータの各々が入力されると項目ごと特徴量を出力する項目ごと子分類器と、それぞれの前記項目ごと特徴量が入力されると前記分類結果を出力する統合分類器とを含むものである。 In the information processing apparatus according to one aspect of the present invention, when the acquisition unit that acquires the data of a plurality of items related to e-mail and the data of the acquired plurality of items are input, the data of the plurality of items is input. By inputting to a classifier trained to output a classification result indicating whether or not the e-mail related to the mail data is an e-mail having a predetermined attribute, the e-mail related to the mail data has the predetermined attribute. It is equipped with an attribute classification unit that obtains a classification result indicating whether or not it is an e-mail, and the classifier outputs a feature amount for each item when each of the data of the plurality of items is input. It includes a device and an integrated classifier that outputs the classification result when the feature amount for each item is input.

本発明の一態様によれば、分類器が、複数の項目のデータの各々が入力されると項目ごと特徴量を出力する項目ごと子分類器を含むことにより、リソース消費を抑制しつつ分類精度を高めることができる。 According to one aspect of the present invention, the classifier includes a child classifier for each item that outputs a feature amount for each item when each of the data of a plurality of items is input, so that the classification accuracy is suppressed while suppressing resource consumption. Can be enhanced.

本発明の実施形態に係るシステム1の構成の例を示すブロック図である。It is a block diagram which shows the example of the structure of the system 1 which concerns on embodiment of this invention. 属性分類部130による分類処理について説明するための図である。It is a figure for demonstrating the classification process by the attribute classification unit 130. 分類器生成部150による生成処理について説明するための図である。It is a figure for demonstrating the generation process by a classifier generation unit 150. 端末装置10、メールサーバ50、及び情報処理装置100が行う処理の流れの一例を示すシーケンス図である。It is a sequence diagram which shows an example of the flow of the process performed by the terminal apparatus 10, the mail server 50, and the information processing apparatus 100. 端末装置10による電子メール53Aの振り分けとフィードバック情報の入力の一例を説明するための図である。It is a figure for demonstrating an example of the distribution of the e-mail 53A by the terminal apparatus 10 and the input of feedback information. 第1変形例に係るメールサーバ50Aの構成の例を示すブロック図である。It is a block diagram which shows the example of the structure of the mail server 50A which concerns on the 1st modification. プロモーション通知部55によるプッシュ通知の一例を説明するための図である。It is a figure for demonstrating an example of the push notification by a promotion notification part 55. 第2変形例に係る端末装置10Aの構成の例を示すブロック図である。It is a block diagram which shows the example of the structure of the terminal apparatus 10A which concerns on the 2nd modification.

以下、図面を参照し、本発明の実施形態に係る情報処理装置、システム、学習装置、情報処理方法、およびプログラムについて説明する。 Hereinafter, the information processing device, the system, the learning device, the information processing method, and the program according to the embodiment of the present invention will be described with reference to the drawings.

<実施形態>
[システム構成]
図1は、本発明の実施形態に係るシステム1の構成の例を示すブロック図である。システム1は、例えば、メールサーバ50と、情報処理装置100と、を備える。メールサーバ50は、ネットワークNWを介して端末装置10と通信する。ネットワークNWは、インターネットやLAN(Local Area Network)、WAN(Wide Area Network)、セルラー網などを含む。
<Embodiment>
[System configuration]
FIG. 1 is a block diagram showing an example of the configuration of the system 1 according to the embodiment of the present invention. The system 1 includes, for example, a mail server 50 and an information processing device 100. The mail server 50 communicates with the terminal device 10 via the network NW. The network NW includes the Internet, LAN (Local Area Network), WAN (Wide Area Network), cellular network and the like.

端末装置10は、例えば、パーソナルコンピュータや業務用コンピュータ、スマートフォン、タブレット端末などの通信機能を有するコンピュータ装置である。端末装置10では、メール送受信用のアプリケーションプログラムやブラウザが動作し、メールサーバ50から自身宛ての電子メール53Aをダウンロードしたり、メールサーバ50に電子メール53Aの他のメールサーバへの送信を依頼したりする。 The terminal device 10 is, for example, a computer device having a communication function such as a personal computer, a business computer, a smartphone, or a tablet terminal. The terminal device 10 operates an application program or a browser for sending and receiving e-mails, downloads an e-mail 53A addressed to itself from the mail server 50, or requests the mail server 50 to send the e-mail 53A to another mail server. Or something.

端末装置10は、さらに、電子メール53Aと合わせて、当該電子メール53Aがプロモーションメールであるか否かを示す分類結果をメールサーバ50から受信し、分類結果の内容に応じて、電子メール53Aをメインメールフォルダ30又はプロモーションメールフォルダ40に振り分ける。具体的には、端末装置10は、分類結果がメインメールを示している場合には、電子メール53Aをメインメールフォルダ30に振り分ける一方、分類結果がプロモーションメールを示している場合には、電子メール53Aをプロモーションメールフォルダ40に振り分ける。以下、分類結果をフラグ情報とも称する。 Further, the terminal device 10 receives the classification result indicating whether or not the e-mail 53A is a promotion mail from the mail server 50 together with the e-mail 53A, and receives the e-mail 53A according to the content of the classification result. Allocate to the main mail folder 30 or the promotion mail folder 40. Specifically, the terminal device 10 distributes the e-mail 53A to the main mail folder 30 when the classification result indicates the main mail, while the terminal device 10 distributes the e-mail to the main mail folder 30 when the classification result indicates the promotion mail. Allocate 53A to the promotion mail folder 40. Hereinafter, the classification result is also referred to as flag information.

メールサーバ50は、例えば、端末装置10によって送受信される電子メール53Aの振り分けや転送を行う装置である。メールサーバ50は、例えば、通信部51と、送受信制御部52と、記憶部53とを備える。通信部51は、例えば、NIC等の通信インターフェースを含み、図示しない他のメールサーバ、端末装置10、及び情報処理装置100と通信する。 The mail server 50 is, for example, a device that sorts and forwards e-mails 53A transmitted and received by the terminal device 10. The mail server 50 includes, for example, a communication unit 51, a transmission / reception control unit 52, and a storage unit 53. The communication unit 51 includes, for example, a communication interface such as a NIC, and communicates with another mail server, a terminal device 10, and an information processing device 100 (not shown).

送受信制御部52は、通信部51を用いて、他のメールサーバから受信した電子メール53Aを自身が管轄する端末装置10に送信したり、端末装置10から依頼された宛先に対応するメールサーバに電子メール53Aを送信したりする。送受信制御部52は、送受信される電子メール53Aを記憶部53に格納する。記憶部53は、HDDやフラッシュメモリ、RAM(Random Access Memory)などの記憶装置により実現される。 The transmission / reception control unit 52 uses the communication unit 51 to send the e-mail 53A received from another mail server to the terminal device 10 under its jurisdiction, or to the mail server corresponding to the destination requested by the terminal device 10. Send e-mail 53A. The transmission / reception control unit 52 stores the transmitted / received e-mail 53A in the storage unit 53. The storage unit 53 is realized by a storage device such as an HDD, a flash memory, or a RAM (Random Access Memory).

送受信制御部52は、さらに、他のメールサーバから受信した電子メール53Aに関する複数の項目のデータを含むメールデータ180Aを情報処理装置100に送信し、メールデータ180Aに係る電子メール53Aの分類を依頼する。送受信制御部52は、依頼に応じて返信される、当該電子メール53Aがプロモーションメールであるか否かを示すフラグ情報を情報処理装置100から受信する。送受信制御部52は、電子メール53Aと当該フラグ情報とを合わせて端末装置10に送信する。メールデータ180Aとは、例えば、電子メール53Aの送信者の名前を示す「表示名」、タイトルを示す「件名」、及びファイルの形式を示す「mime_type」などの素性を含むものである(「複数の項目のデータ」の一例である)。メールデータ180Aは、電子メール53Aそのものであってもよい。 The transmission / reception control unit 52 further transmits mail data 180A including data of a plurality of items related to the mail 53A received from another mail server to the information processing apparatus 100, and requests the classification of the mail 53A related to the mail data 180A. do. The transmission / reception control unit 52 receives from the information processing apparatus 100 the flag information indicating whether or not the e-mail 53A is a promotion e-mail, which is returned in response to the request. The transmission / reception control unit 52 combines the e-mail 53A and the flag information and transmits the e-mail to the terminal device 10. The mail data 180A includes, for example, a "display name" indicating the name of the sender of the e-mail 53A, a "subject" indicating the title, and a "mime_type" indicating the file format ("a plurality of items"). This is an example of "data"). The mail data 180A may be the e-mail 53A itself.

情報処理装置100は、例えば、メールサーバ50からの依頼に応じて、ユーザに宛てられた電子メール53Aに係るメールデータ180Aをメールサーバ50から受信し、当該メールデータ180Aに係る電子メール53Aを、例えばメインメール又はプロモーションメール(「所定属性」の一例である)のいずれかに分類し、分類結果を示すフラグ情報をメールサーバ50に送信する。 For example, the information processing apparatus 100 receives the mail data 180A related to the e-mail 53A addressed to the user from the mail server 50 in response to the request from the mail server 50, and receives the e-mail 53A related to the mail data 180A. For example, it is classified into either a main mail or a promotion mail (an example of "predetermined attribute"), and flag information indicating the classification result is transmitted to the mail server 50.

情報処理装置100は、例えば、通信部110と、メールデータ取得部120と、属性分類部130と、フラグ情報送信部140と、分類器生成部150と、フィードバック情報受付部160と、再学習指示部170と、記憶部180と、を備える。 The information processing apparatus 100 includes, for example, a communication unit 110, a mail data acquisition unit 120, an attribute classification unit 130, a flag information transmission unit 140, a classifier generation unit 150, a feedback information reception unit 160, and a re-learning instruction. A unit 170 and a storage unit 180 are provided.

送受信制御部52、メールデータ取得部120、属性分類部130、フラグ情報送信部140、分類器生成部150、フィードバック情報受付部160、及び再学習指示部170のそれぞれは、例えば、CPU(Central Processing Unit)などのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。これらの構成要素のうち一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)などのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めHDD(Hard Disk Drive)やフラッシュメモリなどの記憶装置(非一過性の記憶媒体を備える記憶装置)に格納されていてもよいし、DVDやCD-ROMなどの着脱可能な記憶媒体(非一過性の記憶媒体)に格納されており、記憶媒体がドライブ装置に装着されることでインストールされてもよい。 Each of the transmission / reception control unit 52, the mail data acquisition unit 120, the attribute classification unit 130, the flag information transmission unit 140, the classifier generation unit 150, the feedback information reception unit 160, and the relearning instruction unit 170 are, for example, CPUs (Central Processing Units). It is realized by a hardware processor such as Unit) executing a program (software). Some or all of these components are hardware (circuit parts) such as LSI (Large Scale Integration), ASIC (Application Specific Integrated Circuit), FPGA (Field-Programmable Gate Array), GPU (Graphics Processing Unit). It may be realized by (including circuits), or it may be realized by the cooperation of software and hardware. The program may be stored in advance in a storage device (a storage device including a non-transient storage medium) such as an HDD (Hard Disk Drive) or a flash memory, or a removable storage such as a DVD or a CD-ROM. It is stored in a medium (non-transient storage medium) and may be installed by mounting the storage medium in a drive device.

通信部110は、例えば、NIC等の通信インターフェースを含む。通信部110は、メールサーバ50から、メールデータ180Aを受信する。さらに、通信部110は、後述する属性分類部130が得たフラグ情報をメールサーバ50に送信する。メールサーバ50と情報処理装置100が通信するネットワークは、ネットワークNWの一部であってもよい。 The communication unit 110 includes, for example, a communication interface such as a NIC. The communication unit 110 receives the mail data 180A from the mail server 50. Further, the communication unit 110 transmits the flag information obtained by the attribute classification unit 130, which will be described later, to the mail server 50. The network in which the mail server 50 and the information processing apparatus 100 communicate with each other may be a part of the network NW.

[推論段階]
以下、分類器180Bを用いた推論段階の処理について説明する。メールデータ取得部120は、通信部110が受信したメールデータ180Aを取得し、記憶部180に格納する。記憶部180は、HDDやフラッシュメモリ、RAMなどの記憶装置により実現される。
[Inference stage]
Hereinafter, the processing of the inference stage using the classifier 180B will be described. The mail data acquisition unit 120 acquires the mail data 180A received by the communication unit 110 and stores it in the storage unit 180. The storage unit 180 is realized by a storage device such as an HDD, a flash memory, or a RAM.

属性分類部130は、後述する分類器生成部150によって生成される分類器180Bにメールデータ180Aを入力することで、当該メールデータ180Aに係る電子メール53Aがプロモーションメールであるか否かを示す分類結果、すなわち、フラグ情報を得る。 By inputting the mail data 180A into the classifier 180B generated by the classifier generation unit 150 described later, the attribute classification unit 130 classifies whether or not the e-mail 53A related to the mail data 180A is a promotion mail. The result, i.e., the flag information is obtained.

ここで、属性分類部130による分類器180Bを用いた分類処理の詳細について説明する。図2は、属性分類部130による分類処理について説明するための図である。 Here, the details of the classification process using the classifier 180B by the attribute classification unit 130 will be described. FIG. 2 is a diagram for explaining the classification process by the attribute classification unit 130.

属性分類部130は、メールデータ180Aのうち、表示名、件名、及びmime_typeを分類器180Bに入力する。ここで、表示名、件名、mime_typeのそれぞれは、規定の単語数を規定の長さとして入力される。具体的な一例として、表示名は13単語、件名は44単語、mime_typeは1単語を規定の長さとして入力される。各項目の規定の単語数は、ベクトル変換の精度を低めないように適宜設定されれば良い。例えば、規定の単語数は、教師データとして記憶部180に格納されている複数のメールデータ180Aのうち、所定割合(例えば95%)以上のデータが収まるように設定されれば良く、その場合、設定単語数を超過したデータの単語列は切り捨てても良い。規定の単語数および所定割合として、任意の数値が設定されて良い。 The attribute classification unit 130 inputs the display name, the subject, and mime_type from the mail data 180A to the classifier 180B. Here, each of the display name, the subject, and mime_type is input with the specified number of words as the specified length. As a specific example, 13 words are input as the display name, 44 words are input as the subject, and 1 word is input as the specified length for mime_type. The specified number of words for each item may be appropriately set so as not to lower the accuracy of the vector conversion. For example, the specified number of words may be set so as to accommodate a predetermined ratio (for example, 95%) or more of the plurality of mail data 180A stored in the storage unit 180 as teacher data. The word string of the data exceeding the set number of words may be truncated. Arbitrary numerical values may be set as a predetermined number of words and a predetermined ratio.

属性分類部130は、入力された表示名、件名、及びmime_typeをワンホットベクトルに変換する。ある対象データのワンホットベクトルとは、事前に登録された単語の各々について、当該単語が対象データに含まれる場合には1、含まれない場合には0を成分とするベクトルのことである。なお、表示名および件名は自然言語で表現されていると考えられるため、属性分類部130は、表示名および件名に形態素解析を施して単語に分割した後に、数字などの要素を除外した対象ワードに基づいて、ワンホットベクトルを生成する。 The attribute classification unit 130 converts the input display name, subject, and mime_type into a one-hot vector. The one-hot vector of a certain target data is a vector having 1 as a component when the word is included in the target data and 0 as a component when the word is not included in each of the words registered in advance. Since the display name and subject are considered to be expressed in natural language, the attribute classification unit 130 performs morphological analysis on the display name and subject, divides them into words, and then excludes elements such as numbers. Generates a one-hot vector based on.

属性分類部130は、ワンホットベクトル化によって得られた表示名のワンホットベクトルを表示名用の辞書に入力することで、表示名ベクトルを得る。同様に、属性分類部130は、件名のワンホットベクトルを件名用の辞書に入力することで、件名ベクトルを得る。同様に、属性分類部130は、mime_typeのワンホットベクトルをmime_type用の辞書に入力することで、mime_typeベクトルを得る。表示名用の辞書、件名用の辞書、及びmime_type用の辞書のそれぞれは、項目ごと子分類器の一例である。表示名ベクトル、件名ベクトル、およびmime_typeベクトルのそれぞれは、項目ごと特徴量の一例である。 The attribute classification unit 130 obtains a display name vector by inputting the one-hot vector of the display name obtained by the one-hot vectorization into the dictionary for the display name. Similarly, the attribute classification unit 130 obtains the subject vector by inputting the one-hot vector of the subject into the dictionary for the subject. Similarly, the attribute classification unit 130 obtains the mime_type vector by inputting the one-hot vector of mime_type into the dictionary for mime_type. Each of the display name dictionary, the subject dictionary, and the mime_type dictionary is an example of a child classifier for each item. Each of the display name vector, the subject vector, and the mime_type vector is an example of the feature amount for each item.

ここで、辞書とは、ワンホットベクトルから、ワンホットベクトルよりも低次元で、ベクトル成分が所定範囲内の連続値をとる特徴ベクトルへの変換を定義するルールないしアルゴリズムを意味し、各項目の用例を集積したコーパスから機械学習により生成される。このような特徴ベクトルには、例えば、分散表現ベクトルが含まれる。全ての項目に共通したコーパス及び辞書を用いるのではなく、項目ごとにコーパス及び辞書を用意することで、ベクトル変換時の次元を削減してリソース消費を低減し、更に分類精度を向上させることができる。 Here, the dictionary means a rule or algorithm that defines a conversion from a one-hot vector to a feature vector having a lower dimension than the one-hot vector and having continuous values within a predetermined range, and of each item. It is generated by machine learning from a corpus that collects examples. Such feature vectors include, for example, a distributed representation vector. By preparing a corpus and dictionary for each item instead of using a corpus and dictionary common to all items, it is possible to reduce the dimensions during vector conversion, reduce resource consumption, and further improve classification accuracy. can.

ここで、形態素解析の結果、複数の対象ワードが発生した場合について説明する。この場合、複数のワンホットベクトルが生成され、それに対応する表示名ベクトルまたは件名ベクトル(以下、特徴量ベクトル)が複数生成されることになるが、属性分類部130は、例えば複数の特徴量ベクトルの平均を分類器180Bへの入力データとする。これに代えて、属性分類部130は、複数の対象ワードのそれぞれに対応する要素を1とした一つのワンホットベクトルを生成してもよい。 Here, a case where a plurality of target words are generated as a result of the morphological analysis will be described. In this case, a plurality of one-hot vectors are generated, and a plurality of display name vectors or subject vectors (hereinafter referred to as feature quantity vectors) corresponding thereto are generated. However, the attribute classification unit 130 may generate, for example, a plurality of feature quantity vectors. Is used as the input data to the classifier 180B. Instead of this, the attribute classification unit 130 may generate one one-hot vector in which the element corresponding to each of the plurality of target words is 1.

属性分類部130は、変換によって得られた表示名ベクトル、件名ベクトル、及びmime_typeベクトルを統合するニューラルネットワーク(「統合分類器」の一例である)に入力し、出力として、メールデータ180Aに係る電子メール53Aがプロモーションメールであるか否かを示すフラグ情報を得る。これにより、属性分類部130は、電子メール53Aがプロモーションメールであるか否かを特定することができる。 The attribute classification unit 130 inputs to a neural network (an example of an "integrated classifier") that integrates the display name vector, the subject vector, and the mime_type vector obtained by the conversion, and outputs the electronic data related to the mail data 180A as an output. Obtains flag information indicating whether or not the mail 53A is a promotion mail. Thereby, the attribute classification unit 130 can specify whether or not the e-mail 53A is a promotion mail.

フラグ情報送信部140は、通信部110を用いて、属性分類部130が得たフラグ情報をメールサーバ50に送信する。 The flag information transmission unit 140 uses the communication unit 110 to transmit the flag information obtained by the attribute classification unit 130 to the mail server 50.

[学習段階]
以下、分類器180Bの学習段階の処理について説明する。学習段階の処理に当たって、記憶部180は、メールデータ180Aの一部又は全てについて、当該メールデータ180Aに係る電子メール53Aがプロモーションメールであるか否かを示すフラグ情報をラベルとして記憶しておく。ラベルはフラグ情報と同等の情報であり、例えば人によって電子メール53Aを分類した結果がラベルとして与えられる。
[Learning stage]
Hereinafter, the processing of the learning stage of the classifier 180B will be described. In the process of the learning stage, the storage unit 180 stores a part or all of the mail data 180A as a label with flag information indicating whether or not the e-mail 53A related to the mail data 180A is a promotion mail. The label is information equivalent to the flag information, and for example, the result of classifying the e-mail 53A by a person is given as a label.

図3は、分類器生成部150による生成処理について説明するための図である。図3に示す通り、分類器生成部150は、記憶部180によって事前に記憶されたメールデータ180Aを学習データとし、学習データに付与されたラベルを教師データとして、例えば、誤差逆伝播法を用いて、機械学習を実行し、分類器180Bを生成する。分類器生成部150は、学習モデルに対して学習データを入力した結果が教師データに近づくように、学習モデルのパラメータを調整する。そして、予定された回数のパラメータ調整が終了すると、その時点の学習モデルが学習済みモデル、すなわち分類器180Bとなる。誤差逆伝播法において用いられる損失関数は、例えば、二乗和誤差や交差エントロピーなどの任意の関数である。分類器生成部150は、生成した分類器180Bを記憶部180に格納する。 FIG. 3 is a diagram for explaining the generation process by the classifier generation unit 150. As shown in FIG. 3, the classifier generation unit 150 uses the mail data 180A stored in advance by the storage unit 180 as training data, and the label attached to the training data as training data, for example, using an error back propagation method. Then, machine learning is executed to generate a classifier 180B. The classifier generator 150 adjusts the parameters of the training model so that the result of inputting the training data to the training model approaches the teacher data. Then, when the parameter adjustment of the scheduled number of times is completed, the learning model at that time becomes the trained model, that is, the classifier 180B. The loss function used in the backpropagation method is any function, such as sum-of-squares error or cross entropy. The classifier generation unit 150 stores the generated classifier 180B in the storage unit 180.

なお、本実施形態において、情報処理装置100は分類器生成部150を備え、記憶部180は、分類器生成部150が生成した分類器180Bを格納している。しかし、代替的に、情報処理装置100はこれらの機能部を備えず、分類器生成部150と、分類器生成部150が生成した分類器180Bと、を備える他の装置(学習装置)が存在しても良い。 In the present embodiment, the information processing apparatus 100 includes a classifier generation unit 150, and the storage unit 180 stores the classifier 180B generated by the classifier generation unit 150. However, as an alternative, the information processing apparatus 100 does not have these functional units, and there is another apparatus (learning apparatus) including a classifier generation unit 150 and a classifier 180B generated by the classifier generation unit 150. You may.

フィードバック情報受付部160は、属性分類部130による分類結果が正しかったかどうかを利用者が判断した結果である(正誤を示す)フィードバック情報を、当該分類結果に係る電子メール53Aを受信した端末装置10から受け付ける。フィードバック情報の詳細については、図5を参照して後述する。 The feedback information receiving unit 160 receives feedback information (indicating correctness), which is the result of the user determining whether or not the classification result by the attribute classification unit 130 is correct, and receives the e-mail 53A related to the classification result. Accept from. The details of the feedback information will be described later with reference to FIG.

再学習指示部170は、フィードバック情報受付部160が受け付けたフィードバック情報に基づいて、分類器生成部150に、当該フィードバック情報を用いた再学習または強化学習を実行させる。再学習については、分類器生成部150が分類器180Bを生成する手法(例えば誤差逆伝播法)と同様の手法で行えば良く、強化学習については、任意のアルゴリズムを用いて良い。 The re-learning instruction unit 170 causes the classifier generation unit 150 to execute re-learning or reinforcement learning using the feedback information based on the feedback information received by the feedback information receiving unit 160. The re-learning may be performed by the same method as the method in which the classifier generation unit 150 generates the classifier 180B (for example, the error back-propagation method), and any algorithm may be used for reinforcement learning.

[処理シーケンス]
次に、図4を参照して、端末装置10、メールサーバ50、及び情報処理装置100によって実行される一連の処理について説明する。図4は、端末装置10、メールサーバ50、及び情報処理装置100が行う処理の流れの一例を示すシーケンス図である。なお、本図では、メールサーバ50から情報処理装置100に電子メール53Aの全部が送信されるものとしている。
[Processing sequence]
Next, with reference to FIG. 4, a series of processes executed by the terminal device 10, the mail server 50, and the information processing device 100 will be described. FIG. 4 is a sequence diagram showing an example of the flow of processing performed by the terminal device 10, the mail server 50, and the information processing device 100. In this figure, it is assumed that the entire e-mail 53A is transmitted from the mail server 50 to the information processing apparatus 100.

まず、メールサーバ50は、端末装置10のユーザ宛てに送られた電子メール53Aを他のメールサーバから受信する(S1)。次に、メールサーバ50は、受信した電子メール53Aを情報処理装置100に送信する(S2)。 First, the mail server 50 receives the e-mail 53A sent to the user of the terminal device 10 from another mail server (S1). Next, the mail server 50 transmits the received e-mail 53A to the information processing apparatus 100 (S2).

情報処理装置100は、メールサーバ50から電子メール53Aを受信すると、電子メール53Aからメールデータ180Aを抽出する(S3)。次に、情報処理装置100は、属性分類部130を用いて、メールデータ180Aを分類器180Bに入力することで、メールデータ180Aに係る電子メール53Aがプロモーションメールであるか否かを示すフラグ情報を取得する(S4)。次に、情報処理装置100は、取得したフラグ情報をメールサーバ50に送信する(S5)。 When the information processing apparatus 100 receives the e-mail 53A from the mail server 50, the information processing apparatus 100 extracts the mail data 180A from the e-mail 53A (S3). Next, the information processing apparatus 100 uses the attribute classification unit 130 to input the mail data 180A into the classifier 180B, so that the flag information indicating whether or not the e-mail 53A related to the mail data 180A is a promotion mail. (S4). Next, the information processing apparatus 100 transmits the acquired flag information to the mail server 50 (S5).

メールサーバ50は、フラグ情報を受信すると、電子メール53Aと当該フラグ情報とを合わせて端末装置10に送信する(S6)。本ステップにおける電子メール53Aの送信は、端末装置10からのダウンロード要求、HTTPリクエスト等に応じて行われてもよい。 When the mail server 50 receives the flag information, the mail server 50 together with the e-mail 53A and the flag information is transmitted to the terminal device 10 (S6). The transmission of the e-mail 53A in this step may be performed in response to a download request, an HTTP request, or the like from the terminal device 10.

端末装置10は、電子メール53Aとフラグ情報を受信すると、フラグ情報の内容に応じて、電子メール53Aをメインメールフォルダ30又はプロモーションメールフォルダ40に振り分けて表示する(S7)。次に、端末装置10は、振り分けに対する正誤を示すフィードバック情報の入力をユーザから受け付け、受け付けたフィードバック情報を情報処理装置100に送信する(S8)。 When the terminal device 10 receives the e-mail 53A and the flag information, the terminal device 10 distributes and displays the e-mail 53A to the main mail folder 30 or the promotion mail folder 40 according to the content of the flag information (S7). Next, the terminal device 10 receives an input of feedback information indicating correctness for distribution from the user, and transmits the received feedback information to the information processing device 100 (S8).

情報処理装置100は、フィードバック情報を受け付けると、分類器生成部150に、当該フィードバック情報に基づいた再学習を指示する(S9)。これにより、処理が終了する。 When the information processing apparatus 100 receives the feedback information, the information processing apparatus 100 instructs the classifier generation unit 150 to relearn based on the feedback information (S9). This ends the process.

次に、S7に係る電子メール53Aの振り分けと、S8に係るフィードバック情報の入力について説明する。図5は、端末装置10による電子メール53Aの振り分けとフィードバック情報の入力の一例を説明するための図である。 Next, the distribution of the e-mail 53A according to S7 and the input of the feedback information according to S8 will be described. FIG. 5 is a diagram for explaining an example of distribution of e-mail 53A and input of feedback information by the terminal device 10.

図5に示す通り、端末装置10のメール受信箱は、メインメールフォルダ30とプロモーションメールフォルダ40とを含む。端末装置10は、メールサーバ50から受け付けたフラグ情報がメインメールを示している場合には、電子メール53Aをメインメールフォルダ30に振り分ける。一方、フラグ情報がプロモーションメールを示している場合には、電子メール53Aをプロモーションメールフォルダ40に振り分ける。端末装置10のユーザは、それぞれのフォルダの電子メール53Aを閲覧し、フォルダに応じたフィードバック情報を入力することができる。具体的には、ユーザは、メインメールフォルダ30に格納された電子メール53Aについては、「プロモーション報告」を選択することができる。一方、プロモーションメールフォルダ40に格納された電子メール53Aについては、「プロモーションではないと報告」を選択することができる。ユーザによって入力されたフィードバック情報は、メールサーバ50を介して、情報処理装置100に送信され、分類器生成部150によって、再学習に利用される。 As shown in FIG. 5, the mail inbox of the terminal device 10 includes a main mail folder 30 and a promotion mail folder 40. When the flag information received from the mail server 50 indicates the main mail, the terminal device 10 distributes the e-mail 53A to the main mail folder 30. On the other hand, when the flag information indicates a promotion mail, the e-mail 53A is distributed to the promotion mail folder 40. The user of the terminal device 10 can browse the e-mail 53A of each folder and input feedback information according to the folder. Specifically, the user can select "promotion report" for the e-mail 53A stored in the main mail folder 30. On the other hand, for the e-mail 53A stored in the promotion mail folder 40, "report not promotion" can be selected. The feedback information input by the user is transmitted to the information processing apparatus 100 via the mail server 50, and is used for re-learning by the classifier generator 150.

以上説明した実施形態によれば、情報処理装置100は、複数の項目のデータの各々が入力されると項目ごと特徴量を出力する項目ごと子分類器と、それぞれの項目ごと特徴量が入力されると分類結果を出力する統合分類器とを含む分類器を用いて、電子メール53Aがプロモーションメールであるか否かを示すフラグ情報を取得し、端末装置10は、当該フラグ情報に基づいて、電子メール53Aを振り分ける。その際、項目ごと子分類器は、各項目に共通した辞書ではなく、項目ごとの辞書を用いて、項目ごと特徴量を出力する。これにより、情報処理装置100は、リソース消費を抑制しつつ分類精度を高めることができる。 According to the embodiment described above, in the information processing apparatus 100, when each of the data of a plurality of items is input, the child classifier for each item that outputs the feature amount for each item and the feature amount for each item are input. Then, using a classifier including an integrated classifier that outputs a classification result, flag information indicating whether or not the e-mail 53A is a promotion mail is acquired, and the terminal device 10 obtains flag information based on the flag information. Sort e-mail 53A. At that time, the child classifier for each item outputs the feature amount for each item by using the dictionary for each item instead of the dictionary common to each item. As a result, the information processing apparatus 100 can improve the classification accuracy while suppressing the resource consumption.

<第1変形例>
次に、図6を参照しつつ、第1変形例のメールサーバについて説明する。本変形例は、メインメールとプロモーションメールとの分類を実行しつつ、ユーザに対してプロモーションのリマインド通知を送信することによって、効果的なプロモーションを行うことを目的とする。
<First modification>
Next, the mail server of the first modification will be described with reference to FIG. The purpose of this modification is to perform effective promotion by sending a promotion remind notification to the user while executing the classification of the main mail and the promotion mail.

図6は、第1変形例に係るメールサーバ50Aの構成の例を示すブロック図である。図1に示す構成に加えて、メールサーバ50Aは、プロモーションデータ収集部54と、プロモーション通知部55と、ジャンル分類部56と、開封率算出部57と、を備える。 FIG. 6 is a block diagram showing an example of the configuration of the mail server 50A according to the first modification. In addition to the configuration shown in FIG. 1, the mail server 50A includes a promotion data collection unit 54, a promotion notification unit 55, a genre classification unit 56, and an open rate calculation unit 57.

プロモーションデータ収集部54は、端末装置10に送信されるプロモーションメール、具体的には、プロモーションメールであることを示すフラグ情報が付けられた電子メール53Aの本文を解析し、キャンペーン期限などのプロモーションデータ53Bを収集する。プロモーションデータ収集部54は、収集したデータをプロモーションデータ53Bとして記憶部53に格納する。 The promotion data collecting unit 54 analyzes the text of the promotion mail sent to the terminal device 10, specifically, the e-mail 53A with the flag information indicating that it is a promotion mail, and the promotion data such as the campaign deadline. Collect 53B. The promotion data collecting unit 54 stores the collected data as promotion data 53B in the storage unit 53.

プロモーション通知部55は、記憶部53に格納されるプロモーションデータ53Bを一定間隔(例えば、一日ごと)で参照し、キャンペーン期限が近いプロモーションデータ53Bを特定し、特定したプロモーションデータ53Bに関するプロモーションの期限が近いことを示すリマインド通知を端末装置10に送信する(第1案)。この際、プロモーション通知部55は、キャンペーン期限の一日前など、ユーザがキャンペーンに注目しやすいと考えられる任意のタイミングでリマインド通知を送信して良い。さらに、プロモーション通知部55は、期限が近い全てのプロモーションデータ53Bではなく、後述の開封率算出部57によって計算された、開封率の高いジャンルのプロモーションデータ53Bについてのみ、リマインド通知を送信しても良い(第2案)。プロモーション通知部55は、リマインド通知として、例えば、プッシュ通知を送信しても良いし、メール通知を送信しても良い。図7は、プロモーション通知部55によるプッシュ通知の一例を説明するための図である。図7に示す通り、プロモーション通知部55は、キャンペーン期限が近いプロモーションメールについて、端末装置10にプッシュ通知を送信する。 The promotion notification unit 55 refers to the promotion data 53B stored in the storage unit 53 at regular intervals (for example, every day), identifies the promotion data 53B whose campaign deadline is near, and the promotion deadline for the specified promotion data 53B. A reminder notification indicating that is near is transmitted to the terminal device 10 (first plan). At this time, the promotion notification unit 55 may send a reminder notification at any time when it is considered that the user can easily pay attention to the campaign, such as one day before the campaign deadline. Further, even if the promotion notification unit 55 sends a reminder notification only for the promotion data 53B of a genre having a high opening rate calculated by the opening rate calculation unit 57, which will be described later, instead of all the promotion data 53B whose deadline is near. Good (second plan). The promotion notification unit 55 may, for example, send a push notification or an email notification as a reminder notification. FIG. 7 is a diagram for explaining an example of push notification by the promotion notification unit 55. As shown in FIG. 7, the promotion notification unit 55 sends a push notification to the terminal device 10 for the promotion mail whose campaign deadline is near.

ジャンル分類部56は、端末装置10に送信されるプロモーションメール、具体的には、プロモーションメールであることを示すフラグ情報が付けられた電子メール53Aの本文を解析し、既知のクラスタリングなどの手法を用いてジャンル分類を行う。ジャンル分類部56は、各プロモーションメールについて分類したジャンルをプロモーションデータ53Bの追加情報として記憶部53に格納する。分類するジャンルは、例えば、食品、ファッション、コスメ、旅行、書籍など任意のジャンルであって良い。 The genre classification unit 56 analyzes the text of the promotion mail sent to the terminal device 10, specifically, the e-mail 53A to which the flag information indicating that the mail is a promotion mail is attached, and uses a known clustering method or the like. Use to classify genres. The genre classification unit 56 stores the genre classified for each promotion mail in the storage unit 53 as additional information of the promotion data 53B. The genre to be classified may be any genre such as food, fashion, cosmetics, travel, and books.

開封率算出部57は、ジャンル分類部56によって分類されたジャンルごと、かつユーザごとに、受信された電子メール53Aの総数を、開封された電子メール53Aの数で除算することによって得られる開封率を算出する。開封率算出部57は、算出した開封率をプロモーションデータ53Bの追加情報として記憶部53に格納する。 The open rate calculation unit 57 divides the total number of received e-mails 53A by the number of opened e-mails 53A for each genre classified by the genre classification unit 56 and for each user. Is calculated. The open rate calculation unit 57 stores the calculated open rate in the storage unit 53 as additional information of the promotion data 53B.

以上説明した第1変形例によれば、第1案において、キャンペーン期限が近いプロモーションデータ53Bに関するリマインド通知を送信することによって、メインメールとプロモーションメールとの分類を実行しつつ、効果的なプロモーションを行うことができる。また、第1変形例によれば、第2案において、ジャンル分類部56及び開封率算出部57を用いて、各ユーザの関心が高いジャンルについてのみリマインド通知を送信することによって、パーソナライズされた、より効果的なプロモーションを行うことができる。 According to the first modification described above, in the first plan, by sending a reminder notification regarding the promotion data 53B whose campaign deadline is near, effective promotion is performed while classifying the main mail and the promotion mail. It can be carried out. Further, according to the first modification, in the second proposal, the genre classification unit 56 and the open rate calculation unit 57 are used to send a reminder notification only for the genre that each user is highly interested in, thereby personalizing the method. More effective promotion can be done.

<第2変形例>
以上説明した実施形態または第1変形例では、メインメールとプロモーションメールの分類、及びプロモーションのリマインド通知は、情報処理装置100とメールサーバ50とがサーバ側で実行するものであった。代替的に、これらの機能は、端末装置10がアプリとして実装しても良い。
<Second modification>
In the embodiment or the first modification described above, the classification of the main mail and the promotion mail and the remind notification of the promotion are executed by the information processing apparatus 100 and the mail server 50 on the server side. Alternatively, these functions may be implemented by the terminal device 10 as an application.

図8は、第2変形例に係る端末装置10Aの構成の例を示すブロック図である。図8に示す通り、端末装置10Aは、NIC又は無線通信機等の通信インターフェースを含む通信部12と、ディスプレイ等の表示部14と、タッチパネル、キーボード、マウス等の入力部16と、メールデータ取得部18と、属性分類部20と、プロモーションデータ収集部22と、プロモーション通知部24と、を備える。 FIG. 8 is a block diagram showing an example of the configuration of the terminal device 10A according to the second modification. As shown in FIG. 8, the terminal device 10A includes a communication unit 12 including a communication interface such as a NIC or a wireless communication device, a display unit 14 such as a display, an input unit 16 such as a touch panel, a keyboard, and a mouse, and mail data acquisition. A unit 18, an attribute classification unit 20, a promotion data collection unit 22, and a promotion notification unit 24 are provided.

メールデータ取得部18、属性分類部20、プロモーションデータ収集部22、及びプロモーション通知部24の基本的な機能は、メールデータ取得部120、属性分類部130、プロモーションデータ収集部54、及びプロモーション通知部55の機能とそれぞれ同様である。なお、メールデータ取得部120は、メールサーバ50からメールデータ180Aを受信するのに対して、メールデータ取得部18は、メールサーバ50から電子メール53Aを受信し、当該電子メール53Aからメールデータ180Aを抽出することで取得する。また、プロモーション通知部55によるプロモーションの通知は、メールサーバ50と端末装置10との協調動作によって実現されるが、プロモーション通知部24によるプロモーションの通知は、端末装置10のみの動作によって実現される。 The basic functions of the mail data acquisition unit 18, the attribute classification unit 20, the promotion data collection unit 22, and the promotion notification unit 24 are the mail data acquisition unit 120, the attribute classification unit 130, the promotion data collection unit 54, and the promotion notification unit. It is the same as the function of 55. The mail data acquisition unit 120 receives the mail data 180A from the mail server 50, whereas the mail data acquisition unit 18 receives the e-mail 53A from the mail server 50 and the mail data 180A from the e-mail 53A. Is obtained by extracting. Further, the promotion notification by the promotion notification unit 55 is realized by the cooperative operation of the mail server 50 and the terminal device 10, while the promotion notification by the promotion notification unit 24 is realized by the operation of only the terminal device 10.

以上説明した第2変形例によれば、サーバ側で通知機能を実装する必要なく、端末側で簡易的に通知を実現することができる。 According to the second modification described above, it is not necessary to implement the notification function on the server side, and the notification can be easily realized on the terminal side.

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。 Although the embodiments for carrying out the present invention have been described above using the embodiments, the present invention is not limited to these embodiments, and various modifications and substitutions are made without departing from the gist of the present invention. Can be added.

10、10A 端末装置
12 通信部
14 表示部
16 入力部
18 メールデータ取得部
20 属性分類部
22 プロモーションデータ収集部
24 プロモーション通知部
30 メインメールフォルダ
40 プロモーションメールフォルダ
50、50A メールサーバ
51 通信部
52 送受信制御部
53 記憶部
53A 電子メール
53B プロモーションデータ
54 プロモーションデータ収集部
55 プロモーション通知部
56 ジャンル分類部
57 開封率算出部
100 情報処理装置
110 通信部
120 メールデータ取得部
130 属性分類部
140 フラグ情報送信部
150 分類器生成部
160 フィードバック情報受付部
170 再学習指示部
180 記憶部
180A メールデータ
180B 分類器
10, 10A terminal device 12 communication unit 14 display unit 16 input unit 18 mail data acquisition unit 20 attribute classification unit 22 promotion data collection unit 24 promotion notification unit 30 main mail folder 40 promotion mail folder 50, 50A mail server 51 communication unit 52 transmission / reception Control unit 53 Storage unit 53A E-mail 53B Promotion data 54 Promotion data collection unit 55 Promotion notification unit 56 Genre classification unit 57 Opening rate calculation unit 100 Information processing device 110 Communication unit 120 Mail data acquisition unit 130 Attribute classification unit 140 Flag information transmission unit 150 Classifier generator 160 Feedback information reception unit 170 Re-learning instruction unit 180 Storage unit 180A Mail data 180B Classifier

Claims (13)

電子メールに関する複数の項目のデータを含むメールデータを取得する取得部と、
前記取得した複数の項目のデータを、前記複数の項目のデータを入力すると前記メールデータに係る電子メールが所定属性の電子メールであるか否かを示す分類結果を出力するように学習された分類器に入力することで、前記メールデータに係る電子メールが前記所定属性の電子メールであるか否かを示す分類結果を得る属性分類部と、を備え、
前記分類器は、前記複数の項目のデータの各々が入力されると項目ごと特徴量を出力する項目ごと子分類器と、それぞれの前記項目ごと特徴量が入力されると前記分類結果を出力する統合分類器とを含む、
情報処理装置。
An acquisition unit that acquires email data that includes data for multiple items related to email,
Classification learned to output the classification result indicating whether or not the e-mail related to the e-mail data is an e-mail having a predetermined attribute when the data of the plurality of items acquired is input. It is provided with an attribute classification unit that obtains a classification result indicating whether or not the e-mail related to the e-mail data is an e-mail having the predetermined attribute by inputting to the device.
The classifier outputs a child classifier for each item when each of the data of the plurality of items is input, and outputs the classification result when the feature amount for each item is input. Including integrated classifier,
Information processing equipment.
前記項目ごと子分類器は、前記複数の項目のデータの各々に応じた母集団を学習データとして、前記複数の項目のデータの各々が入力されると前記項目ごと特徴量を出力するように学習されたものである、
請求項1に記載の情報処理装置。
The item-by-item child classifier learns to use the population corresponding to each of the data of the plurality of items as learning data and output the feature amount for each item when each of the data of the plurality of items is input. Was done,
The information processing apparatus according to claim 1.
前記複数の項目のデータは、電子メールの表示名、件名、および電子メールのタイプのうち一部または全部を含む、
請求項1又は2に記載の情報処理装置。
The data of the plurality of items includes a part or all of the display name, subject, and type of e-mail of the e-mail.
The information processing apparatus according to claim 1 or 2.
前記所定属性は、商品、サービス、または事業者のプロモーションを目的として送信された電子メールを示すものである、
請求項1から3のうちいずれか1項に記載の情報処理装置。
The predetermined attribute indicates an e-mail sent for the purpose of promoting a product, service, or business.
The information processing apparatus according to any one of claims 1 to 3.
前記複数の項目のデータを学習データとし、前記メールデータに係る電子メールが前記所定属性の電子メールであるか否かを示すフラグ情報を教師データとした機械学習によって、前記分類器を生成する生成部を更に備える、
請求項1から4のうちいずれか1項に記載の情報処理装置。
Generation to generate the classifier by machine learning using the data of the plurality of items as training data and the flag information indicating whether or not the e-mail related to the mail data is the e-mail of the predetermined attribute as the teacher data. With more parts,
The information processing apparatus according to any one of claims 1 to 4.
前記属性分類部による分類結果に対する正誤を示すフィードバック情報を、前記電子メールを受信したユーザから受け付ける受付部と、
前記生成部に、前記フィードバック情報を用いた再学習または強化学習を実行させる指示部と、
を更に備える、請求項5に記載の情報処理装置。
A reception unit that receives feedback information indicating the correctness of the classification result by the attribute classification unit from the user who received the e-mail, and a reception unit.
An instruction unit that causes the generation unit to execute re-learning or reinforcement learning using the feedback information.
The information processing apparatus according to claim 5, further comprising.
請求項1から6のうちいずれか1項に記載の情報処理装置と、
前記電子メールの送受信を管理し、前記情報処理装置に前記メールデータを提供するメールサーバと、
を備えるシステム。
The information processing apparatus according to any one of claims 1 to 6 and the information processing apparatus.
A mail server that manages the transmission and reception of the e-mail and provides the mail data to the information processing device.
A system equipped with.
前記所定属性は、商品、サービス、または事業者のプロモーションを目的として送信された電子メールを示すものであり、
前記メールサーバは、
前記属性分類部によって前記所定属性を持つものと分類された電子メールの前記プロモーションの期限に関するデータを収集する収集部と、
前記電子メールを受信した情報端末に前記期限に関する通知を送信する通知部と、
を備える、請求項7に記載のシステム。
The predetermined attribute indicates an e-mail sent for the purpose of promoting a product, service, or business.
The mail server is
A collection unit that collects data regarding the deadline of the promotion of e-mails classified by the attribute classification unit as having the predetermined attribute.
A notification unit that sends a notification regarding the deadline to the information terminal that received the e-mail, and
7. The system according to claim 7.
前記所定属性は、商品、サービス、または事業者のプロモーションを目的として送信された電子メールを示すものであり、
前記メールサーバは、
前記属性分類部によって前記所定属性を持つものと分類された電子メールのジャンルを分類するジャンル分類部と、
前記ジャンルごと、及びユーザごとに、受信された前記電子メールの総数を、開封された前記電子メールの数で除算することによって得られる開封率を算出する算出部と、
前記ジャンル分類部による分類結果と、前記算出部による算出結果とに基づいて、前記電子メールを受信した情報端末に所定の通知を送信する通知部と、
を更に備える、請求項7に記載のシステム。
The predetermined attribute indicates an e-mail sent for the purpose of promoting a product, service, or business.
The mail server is
A genre classification unit that classifies e-mail genres classified as having the predetermined attributes by the attribute classification unit, and
A calculation unit that calculates the open rate obtained by dividing the total number of received e-mails by the number of opened e-mails for each genre and each user.
A notification unit that sends a predetermined notification to an information terminal that has received the e-mail based on the classification result by the genre classification unit and the calculation result by the calculation unit.
7. The system according to claim 7.
電子メールに関する複数の項目のデータを含むメールデータを取得する取得部と、
前記複数の項目のデータを入力すると前記メールデータに係る電子メールが所定属性の電子メールであるか否かを示す分類結果を出力する分類器を、前記複数の項目のデータを学習データとし、前記メールデータに係る電子メールが前記所定属性の電子メールであるか否かを示すフラグ情報を教師データとした機械学習によって、生成する生成部と、を備え、
前記分類器は、前記データの複数の項目の各々の内容が入力されると項目ごと特徴量を出力する項目ごと子分類器と、それぞれの前記項目ごと特徴量が入力されると前記分類結果を出力する統合分類器とを含む、
学習装置。
An acquisition unit that acquires email data that includes data for multiple items related to email,
When the data of the plurality of items is input, the classifier that outputs the classification result indicating whether or not the e-mail related to the mail data is an e-mail having a predetermined attribute is used as the learning data of the data of the plurality of items. It is provided with a generation unit generated by machine learning using flag information indicating whether or not the e-mail related to the e-mail data is an e-mail having the predetermined attribute as teacher data.
The classifier outputs a feature amount for each item when the contents of each of the plurality of items of the data are input, and a child classifier for each item, and when the feature amount for each item is input, the classification result is output. Including an integrated classifier to output,
Learning device.
情報処理装置が、
電子メールに関する複数の項目のデータを含むメールデータを取得し、
前記取得した複数の項目のデータを、前記複数の項目のデータを入力すると前記メールデータに係る電子メールが所定属性の電子メールであるか否かを示す分類結果を出力するように学習された分類器に入力することで、前記メールデータに係る電子メールが前記所定属性の電子メールであるか否かを示す分類結果を得、
前記分類器は、前記複数の項目のデータの各々が入力されると項目ごと特徴量を出力する項目ごと子分類器と、それぞれの前記項目ごと特徴量が入力されると前記分類結果を出力する統合分類器とを含む、
情報処理方法。
Information processing equipment
Get email data that contains data for multiple items related to email,
Classification learned to output the classification result indicating whether or not the e-mail related to the e-mail data is an e-mail having a predetermined attribute when the data of the plurality of items acquired is input. By inputting to the device, a classification result indicating whether or not the e-mail related to the mail data is an e-mail having the predetermined attribute is obtained.
The classifier outputs a child classifier for each item when each of the data of the plurality of items is input, and outputs the classification result when the feature amount for each item is input. Including integrated classifier,
Information processing method.
コンピュータに、
電子メールに関する複数の項目のデータを含むメールデータを取得させ、
前記取得した複数の項目のデータを、前記複数の項目のデータを入力すると前記メールデータに係る電子メールが所定属性の電子メールであるか否かを示す分類結果を出力するように学習された分類器に入力することで、前記メールデータに係る電子メールが前記所定属性の電子メールであるか否かを示す分類結果を得させ、
前記分類器は、前記複数の項目のデータの各々が入力されると項目ごと特徴量を出力する項目ごと子分類器と、それぞれの前記項目ごと特徴量が入力されると前記分類結果を出力する統合分類器とを含む、
プログラム。
On the computer
Get email data that includes data from multiple items related to email,
Classification learned to output the classification result indicating whether or not the e-mail related to the e-mail data is an e-mail having a predetermined attribute when the data of the plurality of items acquired is input. By inputting to the device, a classification result indicating whether or not the e-mail related to the mail data is an e-mail having the predetermined attribute is obtained.
The classifier outputs a child classifier for each item when each of the data of the plurality of items is input, and outputs the classification result when the feature amount for each item is input. Including integrated classifier,
program.
前記所定属性は、商品、サービス、または事業者のプロモーションを目的として送信された電子メールを示すものであり、
前記コンピュータに、更に、
前記分類器によって前記所定属性を持つものと分類され、かつユーザが開封した電子メールの少なくとも期限を含むデータを取得させ、
前記取得したデータに基づいて、前記ユーザへの通知を送信させる、
請求項12に記載のプログラム。
The predetermined attribute indicates an e-mail sent for the purpose of promoting a product, service, or business.
In addition to the computer
The classifier classifies the e-mail as having the predetermined attribute, and causes the user to acquire data including at least the deadline of the opened e-mail.
To send a notification to the user based on the acquired data.
The program according to claim 12.
JP2020157721A 2020-09-18 2020-09-18 Information processing device, system, learning device, information processing method, and program Active JP7212017B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020157721A JP7212017B2 (en) 2020-09-18 2020-09-18 Information processing device, system, learning device, information processing method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020157721A JP7212017B2 (en) 2020-09-18 2020-09-18 Information processing device, system, learning device, information processing method, and program

Publications (2)

Publication Number Publication Date
JP2022051305A true JP2022051305A (en) 2022-03-31
JP7212017B2 JP7212017B2 (en) 2023-01-24

Family

ID=80855075

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020157721A Active JP7212017B2 (en) 2020-09-18 2020-09-18 Information processing device, system, learning device, information processing method, and program

Country Status (1)

Country Link
JP (1) JP7212017B2 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008529105A (en) * 2004-11-04 2008-07-31 ヴェリセプト コーポレーション Method, apparatus and system for clustering and classification
JP2011090442A (en) * 2009-10-21 2011-05-06 Kddi Corp Apparatus, method and program for sorting electronic mail
WO2019053844A1 (en) * 2017-09-14 2019-03-21 三菱電機株式会社 Email inspection device, email inspection method, and email inspection program
JP2019121352A (en) * 2018-10-12 2019-07-22 Bhi株式会社 Name-based product aggregation system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008529105A (en) * 2004-11-04 2008-07-31 ヴェリセプト コーポレーション Method, apparatus and system for clustering and classification
JP2011090442A (en) * 2009-10-21 2011-05-06 Kddi Corp Apparatus, method and program for sorting electronic mail
WO2019053844A1 (en) * 2017-09-14 2019-03-21 三菱電機株式会社 Email inspection device, email inspection method, and email inspection program
JP2019121352A (en) * 2018-10-12 2019-07-22 Bhi株式会社 Name-based product aggregation system

Also Published As

Publication number Publication date
JP7212017B2 (en) 2023-01-24

Similar Documents

Publication Publication Date Title
Manek et al. Aspect term extraction for sentiment analysis in large movie reviews using Gini Index feature selection method and SVM classifier
CN106062787B (en) System and method for mail transfer management
CN101359995B (en) Method and apparatus providing on-line service
CN101877837B (en) Method and device for short message filtration
Lai An empirical study of three machine learning methods for spam filtering
US20140122405A1 (en) Information processing apparatus, information processing method, and program
CN112231584B (en) Data pushing method and device based on small sample transfer learning and computer equipment
Pérez-Díaz et al. Rough sets for spam filtering: Selecting appropriate decision rules for boundary e-mail classification
CN105320957A (en) Classifier training method and device
CN112348629A (en) Commodity information pushing method and device
CN108897784A (en) One emergency event dimensional analytic system based on social media
Kumaresan et al. Visual and textual features based email spam classification using S-Cuckoo search and hybrid kernel support vector machine
US11695713B2 (en) Computerized system and method for multi-factor message classification and delivery
Su et al. A neural tree and its application to spam e-mail detection
Bhat et al. Classification of email using BeaKS: Behavior and keyword stemming
JP7212017B2 (en) Information processing device, system, learning device, information processing method, and program
CN110427959A (en) Complain classification method, system and the storage medium of text
Nouali et al. A semantic vector space and features-based approach for automatic information filtering
Nugroho et al. Distributed classifier for SDGs topics in online news using RabbitMQ message broker
Chakraborty et al. Content based email spam classifier as a web application using naïve Bayes classifier
CN113298555A (en) Promotion strategy generation method and device and electronic equipment
Jishag et al. Automated review analyzing system using sentiment analysis
JP7043243B2 (en) Classification device, classification method, and program
Rakse et al. Spam classification using new kernel function in support vector machine
Thanh et al. Personalized email user action prediction based on SpamAssassin

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210316

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20210316

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20210326

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210615

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210805

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20211026

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220121

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20220121

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20220202

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20220208

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20220428

C211 Notice of termination of reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C211

Effective date: 20220510

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20220510

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20220628

C13 Notice of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: C13

Effective date: 20220726

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220908

C23 Notice of termination of proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C23

Effective date: 20221108

C03 Trial/appeal decision taken

Free format text: JAPANESE INTERMEDIATE CODE: C03

Effective date: 20221213

C30A Notification sent

Free format text: JAPANESE INTERMEDIATE CODE: C3012

Effective date: 20221213

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230112

R150 Certificate of patent or registration of utility model

Ref document number: 7212017

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350