CN109983447B - 评价装置、评价方法、评价程序和评价系统 - Google Patents

评价装置、评价方法、评价程序和评价系统 Download PDF

Info

Publication number
CN109983447B
CN109983447B CN201680091111.5A CN201680091111A CN109983447B CN 109983447 B CN109983447 B CN 109983447B CN 201680091111 A CN201680091111 A CN 201680091111A CN 109983447 B CN109983447 B CN 109983447B
Authority
CN
China
Prior art keywords
data
evaluation
columns
rows
mail
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201680091111.5A
Other languages
English (en)
Other versions
CN109983447A (zh
Inventor
小岛美津夫
冈乡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Imatrix Holdings Corp
Original Assignee
Imatrix Holdings Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Imatrix Holdings Corp filed Critical Imatrix Holdings Corp
Publication of CN109983447A publication Critical patent/CN109983447A/zh
Application granted granted Critical
Publication of CN109983447B publication Critical patent/CN109983447B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/107Computer-aided management of electronic mailing [e-mailing]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/02Standardisation; Integration
    • H04L41/0246Exchanging or transporting network management information using the Internet; Embedding network management web servers in network elements; Web-services-based protocols
    • H04L41/026Exchanging or transporting network management information using the Internet; Embedding network management web servers in network elements; Web-services-based protocols using e-messaging for transporting management information, e.g. email, instant messaging or chat
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/212Monitoring or handling of messages using filtering or selective blocking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/42Mailbox-related aspects, e.g. synchronisation of mailboxes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Hardware Design (AREA)
  • Marketing (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

提供邮件处理装置,使用按照每个字符种类对文本数据进行二值化后的数据结构来对所输入的文本数据进行评价。邮件处理装置(1)包含学习系统(2)和评价系统(3),学习系统(2)包含文本输入部(4)、数据转换部(5)和学习部(6),评价系统(3)包含文本输入部(8)、数据转换部(9)和评价部(10)。学习系统(2)从存储有垃圾邮件、正常邮件等文本数据的存储部(11)取得文本数据,构建学习模型(7)。评价系统(3)根据学习模型7对评价对象的邮件(12)进行评价,进行垃圾邮件的检测。

Description

评价装置、评价方法、评价程序和评价系统
技术领域
本发明涉及机械地对各种文本数据进行评价的评价装置,特别涉及对电子邮件等文档数据是否相当于垃圾邮件(spam email)等进行识别的方法。
背景技术
作为排除垃圾邮件的方法,在将电子邮件发布给接收者的邮件服务器侧,预先登记用于判定是否是垃圾邮件的判定信息,例如关键字、发送者的地址、URL等,在接收到的电子邮件中包含判定信息的情况下,将接收到的电子邮件分类为垃圾邮件,舍弃该垃圾邮件,或者停止向用户的发布。此外,在用户侧的终端,根据用户自身设定出的过滤规则,将包含特定的地址或关键字的电子邮件作为垃圾邮件过滤。
例如,在专利文献1中,公开了如下电子邮件处理装置:将除了电子邮件的正文、发送者和发送地址、接收者和接收地址以外的外观信息(例如,电子邮件的行数、附件、电子邮件的形式和电子邮件的语言等)作为表示电子邮件的外观特征的概要(outline)信息提取,根据提取出的概要信息,请求外部的管理中心发送用于检测垃圾邮件的垃圾检测信息,在电子邮件的内容相当于对应的垃圾检测信息时,将该电子邮件判定为垃圾邮件,在判定为电子邮件不是垃圾邮件时,通过向外部的管理中心发送概要信息,请求更新后的垃圾检测信息。
此外,在专利文献2中,公开了减轻用于排除垃圾邮件的处理负荷并且减轻用户的操作负荷的电子邮件分类装置。具体而言,根据电子邮件的头部信息取得表示电子邮件的特征的特征向量,将特征向量作为学习数据,生成对是否是垃圾邮件进行分类的分类规则。
现有技术文献
专利文献
专利文献1:日本特许第5121828号公报
专利文献2:日本特开2011-90442号公报
发明内容
发明要解决的问题
以往,研究了进行垃圾邮件的检测、分类的方法。例如,考虑了对垃圾邮件应用自然语言分析进行文本数据的分析从而判断所输入的文本数据是否是垃圾邮件的方法。
首先,第1,存在如下方法:预先定义评价单词并使用如将是否出现这些评价单词作为数据的“Bag of Words(词袋)”这样的自然语言的数据结构来分析文本数据。在该方法中,由于判断是否出现预先定义的单词,所以存在未定义的单词不被处理并且无法考虑语序等顺序信息的问题。第2,存在如下方法:按照每N个字符对文本数据进行分割,并使用将是否出现这些文本数据作为数据的“N-gram”这样的自然语言的数据结构来分析文本数据。在该方法中,由于通过固定的字符数N进行分割,所以成为未考虑单词的意思的数据结构,并且,与“Bag of Words”同样,存在无法考虑语序等顺序信息的问题。第3,存在如下方法:使用如使用机械学习技术对单词进行向量化的“分布式表示”这样的自然语言的数据结构来分析文本数据。在该方法中,容易分析文本数据的意思,但难以处理未被定义的单词。
通过将这些数据结构用于垃圾邮件的检测,在“Bag of Words”、“分布式表示”中,在垃圾邮件的字符串的自由度高的情况下,分析困难,此外,在“N-gram”中,存在通过使垃圾邮件包含随机的字符串而导致检测的精度降低的问题。例如,在前者的情况下,邮件的头部使用了“dws8m7rf.com”这样的随机的表示域的字符串、“dr*g”这样的改变了正确的单词(drug)的字符串、或者“_NextPart_000_0016_465EED20”这样的将正文与附件等分离的分隔字符串等,这些字符串的随机性、自由度高,几乎不可能预先准备包含这些字符串的词典。
本发明是为了解决这样的现有课题而完成的,其目的在于提供评价装置、评价方法、评价程序和评价系统,使用按照每个字符种类对邮件文档等文本数据进行了二值化的数据结构来对所输入的文本数据进行评价。
用于解决问题的手段
本发明的评价装置具有:取得单元,其取得m行×n列的样本数据;转换单元,其从所述样本数据提取字符种类I,将所述样本数据转换为m行×n列×字符种类I的三维数据;学习单元,其学习由所述转换单元转换后的三维数据的特征;以及评价单元,其根据由所述学习单元所学习的特征,对输入数据进行评价。优选的是,所述输入数据是m行×n列的文本数据。
并且,本发明的评价装置具有:取得单元,其取得用多个字符种类表示的二维数据;转换单元,其通过将取得的所述二维数据分类为多个字符种类的维度,将所述二维数据转换为三维数据;分析单元,其对三维数据的特征进行分析;以及评价单元,其根据由所述分析单元所分析的特征,对用多个字符种类记载的输入数据进行评价。
优选的是,评价装置还包含转换单元,该转换单元通过将评价数据分类为多个字符种类的维度,将所述输入数据转换为三维输入数据,所述评价单元通过对三维输入数据的特征与由所述分析单元所分析的特征进行比较,对输入数据进行评价。优选的是,所述评价单元评价输入数据是否是垃圾邮件。
本发明的评价系统包含:包含:学习部,该学习部学习文本数据的特征;以及评价部,该评价部对文本数据进行评价,所述学习部具有:取得单元,其从数据库取得用多个字符种类表示的二维数据;转换单元,其通过将取得的所述二维数据分类为多个字符种类的维度,将所述二维数据转换为三维数据;以及学习单元,其分析三维数据的特征,并学习该特征,所述评价部具有:转换单元,其通过将评价对象的输入数据分类为多个字符种类的维度,将所述输入数据转换为三维输入数据;以及评价单元,其通过对由所述转换单元转换后的三维输入数据的特征与由所述学习单元所学习的特征进行比较,对输入数据进行评价。优选的是,所述评价部设置于邮件服务器。
发明效果
根据本发明,通过将邮件文档等文本数据转换为具有字符种类的维度的三维数据,并分析和学习三维数据的特征,能够处理以往未能处理的随机性高的字符串,能够还具有结构信息。此外,由于具有与图像相同的结构,所以能够应用多种深度学习、现有的图像处理方法。并且,通过将文本数据转换为该结构,能够确切地区分随机性高的垃圾邮件。
附图说明
图1是示出本发明的实施例的邮件处理装置的功能结构的框图。
图2是说明本发明的实施例的数据转换部进行的文本数据的转换的图。
图3是示出本发明的实施例的三维数据结构的图。
图4是示出本发明的实施例的文本输入部和数据转换部的动作的流程图。
图5是示出字符与维度的对应的图。
图6是示出图4的处理流程的具体例的图。
图7是例示由学习系统确定的特征性数据结构的图。
图8是示出对本发明的实施例的邮件处理装置进行通用化后的文本数据评价装置的图。
具体实施方式
接着,参照附图对本发明的实施方式详细地进行说明。在1个优选方式中,本发明的评价装置作为文本数据评价装置来实施。并且,在进一步优选方式中,作为邮件处理装置来实施。邮件处理装置能够与互联网或者局域网等网络连接,经由网络接收电子邮件,对接收到的电子邮件进行分析,由此,进行是否是垃圾邮件的判定。邮件处理装置至少具有对邮件进行处理的功能即可,还可以具有由硬件或者软件执行的其他功能。邮件处理装置例如可以是服务器、计算机、电子装置、终端装置、邮件发布服务器以及其他电子装置。
实施例
图1是示出本发明的实施例的邮件处理装置的功能结构的框图。邮件处理装置1包含学习系统2和评价系统3,学习系统2包含文本输入部4、数据转换部5和学习部6,评价系统3包含文本输入部8、数据转换部9和评价部10。学习系统2从数据库11取得文本数据,构建学习模型7,该数据库11收集并存储垃圾邮件、正常邮件等文本数据。评价系统3根据学习模型7对评价对象的邮件12进行评价,判别为垃圾邮件13或者正常邮件14。另外,垃圾邮件表示无差别地发送的垃圾邮件等邮件,正常邮件表示熟人彼此进行的邮件的往来、商业中使用的邮件等社会通常往来的邮件。此外,学习系统2和评价系统3可以分别通过物理上分开的计算机、服务器或者主机来实施,也可以通过同一个计算机、服务器或者主机来实施。
此外,邮件处理装置1例如可以由1个或者多个计算机装置或者1个或者多个服务器构成,邮件处理装置1中包含的各功能也可以分别由单独的计算机装置或者服务器构成,在该情况下,计算机装置与服务器之间也可以通过网络连接。例如,输入邮件12的评价系统3配置在邮件服务器内,学习系统2经由网络与评价系统连接,能够提供基于学习模型13的学习结果。
学习系统2从数据库11取得作为样本的文本数据,依照一定的规则进行数据转换,构建学习模型。数据库11中存储有使用蜜罐技术(Honeypot technology)而取得的垃圾邮件、正常邮件以及其他欲使学习系统2学习的文本数据。文本输入部4从数据库11取得文本数据,数据转换部5对由文本输入部4取得的文本数据进行转换。
图2是说明本发明的实施例的数据转换部5的文本数据的转换的图。这里,作为邮件头部的例子,例示了对由9行×62列构成的大小的文本数据进行数据转换的例子。数据转换部5在概念上通过预先确定的字符种类的维度对文本数据进行分类。在1个例子中,字符种类规定为字母a~z的26种、0~9的10种、多种符号33种的合计69种的字符种类。数据转换部5设存在各维度的字符的行·列的位置为数据“1”,将不存在的行·列的位置转换为数据“0”。例如,在附图的例子中,由于在第1行×3列存在“Received”的“c”,所以在“c”的维度的第1行×3列中设置“1”。由于在第1行×4列存在“e”,所以在“e”的维度的第1行×4列中设置“1”。
这样,数据转换部5针对文本数据,按照每种字符种类的维度在各自对应的行列的位置处生成数据“1”。1个文本数据具有m行×n列的大小,如果其中包含的字符种类为I,则如图3所示,数据转换部5将文本数据转换为m行×n列、进深为I的三维数据格式。另外,字符种类的确定方法是任意的,例如,还可以包含汉字、平假名、片假名、俄语、法语等。并且,字符种类也可以区分为大字符和小字符。
并且,数据转换部5也可以对字符种类的维度I进行压缩。例如,可以将上述的33种符号作为1种相同的符号来处理,或者也可以将a~z的26种分离为a~d、e~h、i~l、m~p、q~t、u~x、y~z等的7种,将维度I压缩为7种。压缩不一定使连续的字符种类成为1个组,也可以使离散的字符种类成为1个组,多个组中各自包含的字符种类的数量也可以不同。例如,能够使使用频度少的字符种类成为1个组来进行压缩,或根据预先确定的规则或者重要度等对字符种类I的维度I进行压缩。此外,也可以通过主要成分分析或者自编码器这样的维度压缩方法对维度I进行压缩。
图4是示出本发明的实施例的文本输入部和数据转换部的动作的流程图。学习系统2首先利用文本输入部4输入转换对象的文本数据(包含具有多个文本数据的文本文件)(S100)。数据转换部5在邮件处理装置1的存储区域上确保用于将A[文本的行数][文本的列数][字符种类数]展开的区域(S102)。这里,A[文本的行数][文本的列数][字符种类数]表示利用“文本的行数”、“文本的列数”、“字符种类数”这3个要素确定的数据A,图3所示的三维数据为数据A。“文本的行数”、“文本的列数”用数字表示,此外,如图5所示,“字符种类数”可以使用按照各字符种类的维度而预先分配的数字。在确保数据A的存储区域之后,对数据A进行初始化(S104)。
接着,数据转换部5对m行×n列的文本数据按照例如逐个字符进行扫描的方式进行数据转换。在本实施例中,按照列的顺序取得第m行(m=1、2、3……、文本的行数)的字符,在取得全部n列(n=1、2、3……、文本的列数)的字符之后转移到下一行,进行再次按照列的顺序取得字符的循环处理。
数据转换部5首先取得m行×n列的字符(S106),将所取得的字符转换为计算机可识别的数据或者代码(S108)。接着,依照图5所示的表,取得在S106中取得的字符种类的维度I(S110)。然后,在维度I的m行×n列建立标志“1”(S112)。通过上述的循环处理,反复进行S106至S112的处理。
图6是示出图4的处理流程的具体例的图。在该图中,为了简化,假设文本数据由3行×3列构成,字符种类为a、b、c、d、e这5种,该文本数据由数据转换部5转换。数据转换部5对第1行进行扫描,即,对第1行×第1列的“a”、第1行×第2列的“c”、第1行×第3列的“d”进行转换,接着,对第2行进行扫描,对第2行×第1列的“d”、第2行×第2列的“e”、第2行×第3列的“e”进行转换,最后,对第3行进行扫描,对第3行×第1列的“a”、第3行×第2列的“e”、第3行×第3列的“b”进行转换,由此反复进行S106至S112的处理,最终输出数据A。
学习部6取入由数据转换部5转换后的三维数据并进行学习。这里所指的学习表示一直以来使用的深度学习等机械学习,能够取得若干个由数据转换部5转换的文本数据,提取该文本数据的特征,进行垃圾邮件和正常邮件的分析、分类。图7示出在对邮件头部的文本数据进行转换时获得的特征性数据结构的例子。当学习转换后的数据时,随机的文本数据中提取出特征性部分,例如使用了相同字符串的部分,表现出特征性数据结构。学习部6在每次取得垃圾邮件和正常邮件时,都学习该特征性数据结构。将学习部6学习的特征性数据作为学习模型7提供给评价系统3。
评价系统3输入评价对象的邮件12(文本数据),通过与学习系统2相同的算法对该邮件进行数据转换,使用学习模型评价所输入的邮件是垃圾邮件还是正常邮件。
文本输入部8输入评价对象的邮件12。文本输入部8输入评价对象的邮件的定时未特别限定,例如也可以预先存储评价对象的邮件,在存储了一定数量的邮件的时刻文本输入部8执行输入,也可以按照每日、每周、每月等的定时输入所存储的邮件。此外,还可以在邮件处理装置1的使用者从外部指示的时刻来执行输入。数据转换部9通过与上述的数据转换部5相同的算法对文本数据进行转换。
评价部10根据从学习系统2提供的学习模型,对由数据转换部9转换后的文本数据进行评价。在本实施例中,评价所输入的邮件12是垃圾邮件、还是正常邮件。在学习模型7中,由学习系统2进行了学习的垃圾邮件的特征、与正常邮件的不同等用于判断垃圾邮件的特征被模型化,评价部10对通过与学习系统2相同的算法对评价对象的邮件进行转换后的邮件12的特征与学习模型7提供的特征进行比较,评价两者是否一致或者是否近似,根据该评价结果,将邮件12分类为垃圾邮件或正常邮件14。
在上述实施例中,以邮件头部为例进行了垃圾邮件或者正常邮件的评价,但这只不过是一例,也可以将邮件头部以外的文本数据作为评价对象。并且,本发明还可以应用于数据头部、通信命令、通信分组或者程序自身这样的随机性、自由度高的文本解析。
图8是示出本发明的其他实施例的文本数据评价装置的结构的图。该文本数据评价装置不仅进行上述的邮件的评价,还对全部文本数据或者文档数据进行评价。即,图1所示的邮件处理装置1对垃圾邮件和正常邮件进行学习,评价所输入的邮件是垃圾邮件、还是正常邮件,文本数据评价装置20可以通过相同的方法,基于其他文本数据、文档数据的各种要素和/或者观点进行评价。例如,对存储部11输入特定人写的文本数据(作家写的书等),由数据转换部5进行数据转换,将特定人写的文本的特征构建为学习模型7。如果进行这样的学习,则当将任意的评价文本输入到评价系统3时,能够通过与学习模型7的比较,评价该任意的评价文本是否是特定人写的文本。此外,如果预先对学习系统2输入多个各种各样的人写的文本数据,则能够对评价文本12评价是谁写的文本,还能够对邮件自动地进行分组。
本发明的实施例的邮件处理装置1能够处理通过现有的垃圾邮件去除方法难以处理的随机性高的字符串,即使改变垃圾邮件的一部分并重新发送,也能够确切地去除垃圾邮件。此外,能够将1个文本数据的结构作为如图2、图3所示的结构信息来保持。并且,本发明的实施例的数据结构具有与图像相同的结构,因此,能够与处理图像的深度学习一并使用,能够应用多个现有类型的图像处理方法。
以上,对本发明的优选的实施方式进行了详细叙述,但本发明并不限定于特定的实施方式,能够在权利要求所记载的发明的主旨的范围内进行各种变形、变更。
标号说明
1:邮件处理装置;2:学习系统;3:评价系统;4:文本输入部;5:数据转换部;6:学习部;7:学习模型;8:文本输入部;9:数据转换部;10:评价部;11:存储部;12:邮件;13:垃圾邮件;14:正常邮件;20:文本数据评价装置。

Claims (7)

1.一种评价装置,其具有:
取得单元,其取得m行×n列的样本数据;
转换单元,其将所述样本数据转换为具有m行×n列×进深I的数据格式的三维数据,所述转换单元识别m行×n列的各个位置的样本数据的字符种类,在与识别出的字符种类对应的进深的位置设置识别信息,其中I表示字符种类数;
学习单元,其根据由所述转换单元转换后的多个三维数据而学习三维数据的识别信息所表现出的特征,从而生成特征性数据结构;以及
评价单元,其根据由所述学习单元所学习的特征性数据结构,对输入数据进行评价。
2.根据权利要求1所述的评价装置,其中,
所述输入数据是m行×n列的文本数据,所述评价单元与所述转换单元同样地将m行×n列的文本数据转换为三维数据,将转换后的三维数据与所述特征性数据结构进行比较。
3.根据权利要求1所述的评价装置,其中,
字符种类数I是将多个字符种类分类为多个维度时的数量。
4.权利要求1~3中的任意一项所述的评价装置,其中,
所述评价单元评价输入数据是否是垃圾邮件。
5.一种评价系统,其包含:学习装置,该学习装置学习文本数据的特征;以及评价装置,该评价装置对文本数据进行评价,
所述学习装置具有:
取得单元,其取得m行×n列的样本数据;
转换部,其将所述样本数据转换为具有m行×n列×进深I的数据格式的三维数据,所述转换部识别m行×n列的各个位置的样本数据的字符种类,在与识别出的字符种类对应的进深的位置设置识别信息,其中I表示字符种类数;以及
学习单元,其根据由所述转换部转换后的多个三维数据而学习三维数据的识别信息所表现出的特征,从而生成特征性数据结构,
所述评价装置具有:
转换单元,其将评价对象的m行×n列的输入数据转换为具有m行×n列×进深I的数据格式的三维数据,所述转换单元识别m行×n列的各个位置的样本数据的字符种类,在与识别出的字符种类对应的进深的位置设置识别信息;以及
评价单元,其通过对所述特征性数据结构与转换后的三维的输入数据进行比较,对输入数据进行评价。
6.根据权利要求5所述的评价系统,其中,
所述评价装置设置于邮件服务器。
7.一种评价方法,由计算机执行,该评价方法包含以下步骤:
取得m行×n列的样本数据;
将所述样本数据转换为具有m行×n列×进深I的数据格式的三维数据,识别m行×n列的各个位置的样本数据的字符种类,在与识别出的字符种类对应的进深的位置设置识别信息,其中I表示字符种类数;
根据转换后的多个所述三维数据而学习三维数据的识别信息所表现出的特征,从而生成特征性数据结构;以及
根据所述特征性数据结构,对输入数据进行评价。
CN201680091111.5A 2016-11-28 2016-11-28 评价装置、评价方法、评价程序和评价系统 Active CN109983447B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2016/085144 WO2018096672A1 (ja) 2016-11-28 2016-11-28 評価装置、評価方法、評価プログラムおよび評価システム

Publications (2)

Publication Number Publication Date
CN109983447A CN109983447A (zh) 2019-07-05
CN109983447B true CN109983447B (zh) 2023-07-04

Family

ID=62194832

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680091111.5A Active CN109983447B (zh) 2016-11-28 2016-11-28 评价装置、评价方法、评价程序和评价系统

Country Status (5)

Country Link
US (1) US11282040B2 (zh)
EP (1) EP3547148A4 (zh)
JP (1) JP6784975B2 (zh)
CN (1) CN109983447B (zh)
WO (1) WO2018096672A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020009151A (ja) * 2018-07-09 2020-01-16 富士通株式会社 システム、プログラム、及び方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5121828B2 (zh) 1973-04-11 1976-07-05
US8533270B2 (en) * 2003-06-23 2013-09-10 Microsoft Corporation Advanced spam detection techniques
US8214438B2 (en) * 2004-03-01 2012-07-03 Microsoft Corporation (More) advanced spam detection features
US7555523B1 (en) * 2004-05-06 2009-06-30 Symantec Corporation Spam discrimination by generalized Ngram analysis of small header fields
EP2169560A4 (en) 2007-07-04 2012-05-30 Imatrix Corp ELECTRONIC MAIL PROCESSING APPARATUS, ELECTRONIC MAIL PROCESSING METHOD, ELECTRONIC MAIL PROCESSING PROGRAM, AND ELECTRONIC MAIL PROCESSING SYSTEM
JP5400301B2 (ja) * 2008-01-23 2014-01-29 インターナショナル・ビジネス・マシーンズ・コーポレーション 認証サーバ装置、認証方法、及び認証プログラム
JP2011090442A (ja) 2009-10-21 2011-05-06 Kddi Corp 電子メール分類装置、電子メール分類方法及び電子メール分類プログラム
US8775341B1 (en) * 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US20120249535A1 (en) * 2011-03-01 2012-10-04 Castineiras George A System for transformation and animation of images
US9448636B2 (en) * 2012-04-18 2016-09-20 Arb Labs Inc. Identifying gestures using gesture data compressed by PCA, principal joint variable analysis, and compressed feature matrices
EP3076366A4 (en) * 2014-02-03 2017-05-24 Prosper Creative Co., Ltd. Image inspecting device and image inspecting program

Also Published As

Publication number Publication date
JP6784975B2 (ja) 2020-11-18
CN109983447A (zh) 2019-07-05
WO2018096672A1 (ja) 2018-05-31
US20190378091A1 (en) 2019-12-12
EP3547148A1 (en) 2019-10-02
JPWO2018096672A1 (ja) 2019-10-17
US11282040B2 (en) 2022-03-22
EP3547148A4 (en) 2020-08-26

Similar Documents

Publication Publication Date Title
CN110149266B (zh) 垃圾邮件识别方法及装置
US8112484B1 (en) Apparatus and method for auxiliary classification for generating features for a spam filtering model
CN103441924A (zh) 一种基于短文本的垃圾邮件过滤方法及装置
CN107122342B (zh) 文本编码识别方法和装置
CN112733639B (zh) 文本信息结构化提取方法及装置
CN109039875B (zh) 一种基于链接特征分析的钓鱼邮件检测方法及系统
CN103186845A (zh) 一种垃圾邮件过滤方法
CN111460446A (zh) 基于模型的恶意文件检测方法及装置
CN113408281B (zh) 邮箱账号异常检测方法、装置、电子设备及存储介质
JP2006293573A (ja) 電子メール処理装置および電子メールフィルタリング方法および電子メールフィルタリングプログラム
CN111866004A (zh) 安全评估方法、装置、计算机系统和介质
CN110647895B (zh) 一种基于登录框图像的钓鱼页面识别方法及相关设备
CN109983447B (zh) 评价装置、评价方法、评价程序和评价系统
CN108090044B (zh) 联系方式的识别方法和装置
CN107992508B (zh) 一种基于机器学习的中文邮件签名提取方法及系统
US10163005B2 (en) Document structure analysis device with image processing
CN114330280A (zh) 敏感数据识别方法及装置
CN104933178A (zh) 官方网站确定方法及系统
CN114036264B (zh) 一种基于小样本学习的电子邮件作者身份归属识别方法
CN116127106A (zh) 基于区块链的互联网图像大数据智能存储方法与系统
CN113746814A (zh) 邮件处理方法、装置、电子设备及存储介质
CN115964478A (zh) 网络攻击检测方法、模型训练方法及装置、设备及介质
CN104038391A (zh) 一种垃圾邮件检测的方法和设备
KR102443811B1 (ko) 인공지능 자가학습형 웹방화벽 서비스 제공 시스템 및 방법
Hepzi et al. English cursive hand written character recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant