CN107977399A - 一种基于机器学习的英文邮件签名提取方法及系统 - Google Patents

一种基于机器学习的英文邮件签名提取方法及系统 Download PDF

Info

Publication number
CN107977399A
CN107977399A CN201710928672.2A CN201710928672A CN107977399A CN 107977399 A CN107977399 A CN 107977399A CN 201710928672 A CN201710928672 A CN 201710928672A CN 107977399 A CN107977399 A CN 107977399A
Authority
CN
China
Prior art keywords
row
signature
feature
data
english email
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710928672.2A
Other languages
English (en)
Other versions
CN107977399B (zh
Inventor
宋东旭
罗丁
杨浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Future Information Technology Co Ltd
Original Assignee
Beijing Future Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Future Information Technology Co Ltd filed Critical Beijing Future Information Technology Co Ltd
Priority to CN201710928672.2A priority Critical patent/CN107977399B/zh
Publication of CN107977399A publication Critical patent/CN107977399A/zh
Application granted granted Critical
Publication of CN107977399B publication Critical patent/CN107977399B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/107Computer-aided management of electronic mailing [e-mailing]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供一种基于机器学习的英文邮件签名提取方法,包括以下步骤:通过正则切分方式,对待处理的英文邮件进行签名提取,获取一部分签名数据;提取样本签名数据的行特征,将所述行特征输入SVM进行训练获得训练模型;所述行特征包括sender比对特征;对于通过正则切分方式无法提取获得签名数据的英文邮件数据,通过训练模型,识别英文邮件中的签名行,对签名行进行合并后获得另一部分签名数据。能够从英文邮件数据中准确地提出发件人的个人信息,从而解决了在对邮件数据的数据挖掘中,经常挖掘到邮箱就无法继续深入的难题。且提取结果具有较高的准确率,具有很高的泛用性。同时提供对应该方法的系统。

Description

一种基于机器学习的英文邮件签名提取方法及系统
技术领域
本发明涉及计算机操作软件设计领域,尤其涉及文本挖掘及信息整合系统,具体涉及一种基于机器学习的英文邮件签名提取方法及系统。
背景技术
电子邮件是新的刑诉法规定的电子数据类证据,在涉网案件侦办中的作用越来越重要。而作为侦查办案人员,面对海量的电子邮件,尤其是英文邮件作为证据时,如何快速清理出人物和事件的脉络,查找到重要的涉案数据和嫌疑人员,是一个值得持续研究的问题。
在对英文邮件数据进行处理时,签名在英文邮件数据中,作为少数能够将邮件与现实中的人对应起来的信息,在对英文邮件数据分析中尤为重要。但由于目前绝大部分的英文邮件签名的格式没有固定统一格式,造成目前几乎无法从英文邮件数据中通过某种特定规则来完全将邮件签名提取出来。
目前存在的关于英文邮件的签名提取相关技术大致有两类,以下分别介绍这两类方法的核心思路及缺点。
第一类为传统的英文邮件签名提取方法,往往是基于英文邮件的已有的标准签名格式,通过正则、与已有数据库进行比对等方式进行签名提取。如:形如“————————”的标准签名格式。
该方法具有一定的局限性,往往只能适用于格式比较标准的英文邮件签名提取,而且往往会由于存在格式不对、签名的位置不对等因素,造成最终无法正确提取出签名。
第二类是近年出现的一种通过对英文邮件进行自然语言处理(NLP),来判断该内容是否为签名的方法。这种方法通过对英文邮件全文进行分词,并根据每个词的前后文的特征,通过机器学习的算法来判断当前词是否为签名的一种判断方式,来提取出模型判定为签名的部分内容。
该方法的准确率相对较高,但由于对英文邮件全文进行自然语言处理,对英文邮件全文进行形态素解析、构文解析等自然语言处理的操作,造成计算量非常大,而且对于一些包含不常见词汇的英文邮件,无法达到理想的提取效果。
发明内容
针对现有技术存在的不足,本发明的核心目的在于提供一种基于机器学习的英文邮件签名提取方法及系统。能够从英文邮件数据中准确地提出发件人的个人信息,从而解决了在对邮件数据的数据挖掘中,经常挖掘到邮箱就无法继续深入的难题。且提取结果具有较高的准确率,具有很高的泛用性。
为实现上述目的,本发明采取的技术方案是:
一种基于机器学习的英文邮件签名提取方法,包括以下步骤:
通过正则切分方式,对待处理的英文邮件进行签名提取,获取一部分签名数据;
提取样本签名数据的行特征,将所述行特征输入SVM进行训练获得训练模型;所述行特征包括sender比对特征;
对于通过正则切分方式无法提取获得签名数据的英文邮件数据,通过训练模型,识别英文邮件中的签名行,对签名行进行合并后获得另一部分签名数据。
进一步地,所述待处理的英文邮件的文件格式为.eml,文字编码为UTF-8。
进一步地,所述正则包括以下模式:
模式1:------------------------------------;
模式2:********************。
进一步地,所述一部分签名数据为标准格式邮件的签名信息。
进一步地,以邮件正文中的行为单位,对每行提取行特征,以每次提取针对的行为目标行。
进一步地,所述行特征还包括:目标行的特征、目标行以上的行的特征及目标行以下的行的特征。
进一步地,所述目标行的特征包括:该行是否带有指定关键字,该行是否为最后一行,该行是否为倒数第二行;
所述目标行以上的行的特征包括:该行是否为标点符号开始,该行的内容是否为空;
所述目标行以下的行的特征包括:该行是否为最后一行,该行是否为标点符号开始。
进一步地,所述训练模型选用LibSVM包来对待识别数据进行分类;训练模型的参数选择为线性,训练模型的验证方式选择为5交叉验证。
一种存储计算机程序的可读存储介质,所述计算机程序包括指令,所述指令用以执行上述方法中的各个步骤。
一种基于机器学习的英文邮件签名提取系统,包括:
正则提取模块,用以通过正则切分方式,对待处理的英文邮件进行签名提取,获取一部分签名数据;
样本特征提取模块,用以提取样本签名数据的行特征;所述行特征包括sender比对特征;
SVM训练模块,以行特征作为输入进行训练获得训练模型;对于通过正则切分方式无法提取获得签名数据的英文邮件数据,通过训练模型,识别英文邮件中的签名行,对签名行进行合并后获得另一部分签名数据。
本发明首先以传统的正则切分方式提取待处理邮件中的签名数据,从而高效地筛除大部分可以通过传统方式提取签名的待处理邮件。对于剩余的邮件,则以邮件中的每行为判断对象,判断各行是否为组成签名的签名行;通过对邮件行与行之间的深度思考及试验,总结出了确认有效的判断目标行是否为签名行的有效特征;并根据使用场景,选择了机器学习中的SVM作为建模方法。确保能够准确地从剩余邮件中提取出签名数据。
根据签名数据即可以从邮件数据中准确地提出发件人的个人信息(如姓名、电话、地址、公司、职务等),从而解决了在对邮件数据的数据挖掘中,经常挖掘到邮箱就无法继续深入的难题。经过对网上公开的英文邮件数据的签名提取实验中,提取结果的准确率高达93%以上,并同时具有很高的泛用性。
附图说明
图1为一封电子邮件内容示意图。
图2为本发明是一实施例中基于机器学习的英文邮件签名提取方法的流程示意图。
具体实施方式
相关术语解释:
英文邮件签名:主要指在英文邮件的末尾处的签名,通常有姓名、电话、Email、公司、地址等个人信息。
机器学习:是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。机器学习是对能通过经验自动改进的计算机算法的研究。
支持向量机(英语:Support Vector Machine,常简称为SVM):是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法。
支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。
支持向量机方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最好的推广能力(或称泛化能力)。
工作原理:
通过分析现有技术的不足点,本申请根据对英文邮件签名提取的探索和理解,基于机器学习,通过如下的思路实施技术方案:
首先,传统的正则切分方法,拥有着高效性的优点。本申请延用正则提取方法对标准英文邮件签名格式抽取。而那些通过正则切分无法适用的不规则的签名格式英文邮件,则采用机器学习算法来处理。
其次,机器学习拥有准确性强、泛用性广等特点,本申请的核心构思在于决定选择机器学习算法。本申请选用的是机器学习算法中,被广泛使用在自然语言处理等领域的SVM。可以解决对英文邮件格式的要求,能够提取出大量的非标准签名格式的英文邮件数据。
最后,再采用以行为单位,对行进行各种特征提取,并以此为依据,来训练并判断该行是否为签名行。对相临的,同被判定为签名行的数据进行合并,作为签名提取的最终结果。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述。
如图2所示,在一实施例中,提供的基于机器学习的英文邮件签名提取方法,其流程如下:
步骤1:收集英文邮件数据,以.eml的标准英文邮件格式进行签名提取。
步骤2:通过传统正则切分方式,对该英文邮件进行签名提取。
步骤3:对正则无法提取签名的英文邮件,进行行特征提取和训练。
步骤4:通过使用机器学习算法SVM,以英文邮件正文中的行为单位,进行判断是否为签名。
更具体的实现方式:
(一)收集英文邮件数据
在此步骤,需要先将即将要分析的邮件数据进行收集,并对格式及文字编码进行统一。目前主要用于测试的英文邮件格式为“.eml”文件格式,文字编码主要为”UTF-8”。
(二)英文邮件的正则提取
通过对英文邮件数据签名格式的大量调查和分析,确定将以下几种模式作为提取签名的正则。
模式1:------------------------------------;
模式2:********************。
基于这上述提取签名模式,将邮件进行第一次筛选,并将提取出的签名汇总到签名数据中。
(三)行特征提取
对于无法通过正则提取出签名的不规范邮件,使用机器学习算法,来进行处理。通过分析大量的阅读带有签名的英文邮件,确认英文邮件的签名都是以行为单位,可参考图1中框选的签名部分所是示意的格式。
因此本申请以邮件正文中的“行”为判断的最小单位,对每行进行特征提取,用于之后的签名判别模型的判别依据。
下面介绍比较重要的3个维度提取行的特征。
1)目标行的特征:
例如:该行是否带有指定关键字,该行是否为最后一行,该行是否为倒数第二行等。
2)目标行以上的行的特征:
例如:上一行是否为标点符号开始,上一行的内容是否为空等。
3)目标行以下的行的特征:
例如:目标行的下一行是否为最后一行,目标行的下一行是否为标点符号开始等。
4)sender比对特征:
由于英文邮件签名基本都为英文名字,我们通过与邮件中From的邮箱地址的英文名字进行比对特征,能够更有效的提高模型的预测精度。
(四)机器学习建模(SVM)
本申请采用SVM对行特征进行学习训练,并使用训练后的模型对邮件正文中的每一行进行是否为签名行的判断,如若为签名行,则将每封邮件中的签名行内容进行合并,并输出。
关于SVM建模,本例选用的是python程序中比较常用的的LibSVM包来对当前数据进行分类。SVM的模型参数选择的是线性,训练模型的方式选择5交叉验证的方式。
显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

Claims (10)

1.一种基于机器学习的英文邮件签名提取方法,包括以下步骤:
通过正则切分方式,对待处理的英文邮件进行签名提取,获取一部分签名数据;
提取样本签名数据的行特征,将所述行特征输入SVM进行训练获得训练模型;所述行特征包括sender比对特征;
对于通过正则切分方式无法提取获得签名数据的英文邮件数据,通过训练模型,识别英文邮件中的签名行,对签名行进行合并后获得另一部分签名数据。
2.如权利要求1所述的基于机器学习的英文邮件签名提取方法,其特征在于,所述待处理的英文邮件的文件格式为.eml,文字编码为UTF-8。
3.如权利要求1或2所述的基于机器学习的英文邮件签名提取方法,其特征在于,所述正则包括以下模式:
模式1:由多个-组成的行;
模式2:由多个*组成的行。
4.如权利要求1所述的基于机器学习的英文邮件签名提取方法,其特征在于,所述一部分签名数据为标准格式邮件的签名信息。
5.如权利要求1所述的基于机器学习的英文邮件签名提取方法,其特征在于,以邮件正文中的行为单位,对每行提取行特征,以每次提取针对的行为目标行。
6.如权利要求5所述的基于机器学习的英文邮件签名提取方法,其特征在于,所述行特征还包括:目标行的特征、目标行以上的行的特征及目标行以下的行的特征。
7.如权利要求6所述的基于机器学习的英文邮件签名提取方法,其特征在于,所述目标行的特征包括:该行是否带有指定关键字,该行是否为最后一行,该行是否为倒数第二行;
所述目标行以上的行的特征包括:该行是否为标点符号开始,该行的内容是否为空;
所述目标行以下的行的特征包括:该行是否为最后一行,该行是否为标点符号开始。
8.如权利要求1所述的基于机器学习的英文邮件签名提取方法,其特征在于,所述训练模型选用LibSVM包来对待识别数据进行分类;训练模型的参数选择为线性,训练模型的验证方式选择为5交叉验证。
9.一种存储计算机程序的可读存储介质,所述计算机程序包括指令,所述指令用以执行权利要求1至8任一项所述方法中的各个步骤。
10.一种基于机器学习的英文邮件签名提取系统,其特征在于,包括:
正则提取模块,用以通过正则切分方式,对待处理的英文邮件进行签名提取,获取一部分签名数据;
样本特征提取模块,用以提取样本签名数据的行特征;所述行特征包括sender比对特征;
SVM训练模块,以行特征作为输入进行训练获得训练模型;对于通过正则切分方式无法提取获得签名数据的英文邮件数据,通过训练模型,识别英文邮件中的签名行,对签名行进行合并后获得另一部分签名数据。
CN201710928672.2A 2017-10-09 2017-10-09 一种基于机器学习的英文邮件签名提取方法及系统 Active CN107977399B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710928672.2A CN107977399B (zh) 2017-10-09 2017-10-09 一种基于机器学习的英文邮件签名提取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710928672.2A CN107977399B (zh) 2017-10-09 2017-10-09 一种基于机器学习的英文邮件签名提取方法及系统

Publications (2)

Publication Number Publication Date
CN107977399A true CN107977399A (zh) 2018-05-01
CN107977399B CN107977399B (zh) 2021-11-30

Family

ID=62012359

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710928672.2A Active CN107977399B (zh) 2017-10-09 2017-10-09 一种基于机器学习的英文邮件签名提取方法及系统

Country Status (1)

Country Link
CN (1) CN107977399B (zh)

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070005549A1 (en) * 2005-06-10 2007-01-04 Microsoft Corporation Document information extraction with cascaded hybrid model
US7293063B1 (en) * 2003-06-04 2007-11-06 Symantec Corporation System utilizing updated spam signatures for performing secondary signature-based analysis of a held e-mail to improve spam email detection
CN102404249A (zh) * 2011-11-18 2012-04-04 北京语言大学 一种基于协同训练的垃圾邮件过滤方法和装置
CN103198396A (zh) * 2013-03-28 2013-07-10 南通大学 基于社会网络行为特征的邮件分类方法
CN103853738A (zh) * 2012-11-29 2014-06-11 中国科学院计算机网络信息中心 一种网页信息相关地域的识别方法
CN104881770A (zh) * 2015-06-03 2015-09-02 秦志勇 一种快递单信息识别系统和方法
CN105337842A (zh) * 2014-08-14 2016-02-17 广东外语外贸大学 一种与内容无关的垃圾邮件过滤方法
CN105512285A (zh) * 2015-12-07 2016-04-20 南京大学 基于机器学习的自适应网络爬虫方法
CN105868408A (zh) * 2016-04-21 2016-08-17 深圳爱拼信息科技有限公司 基于机器学习的招聘信息解析系统及其方法
CN106202561A (zh) * 2016-07-29 2016-12-07 北京联创众升科技有限公司 基于文本大数据的数字化应急管理案例库构建方法及装置
CN106649455A (zh) * 2016-09-24 2017-05-10 孙燕群 一种大数据开发的标准化系统归类、命令集系统
CN106650799A (zh) * 2016-12-08 2017-05-10 重庆邮电大学 一种电子证据分类提取方法及系统
CN106681984A (zh) * 2016-12-09 2017-05-17 北京锐安科技有限公司 一种针对文档的签名信息提取方法
CN106776538A (zh) * 2016-11-23 2017-05-31 国网福建省电力有限公司 企业非标准格式文档的信息提取方法
US9727115B1 (en) * 2005-05-30 2017-08-08 Invent.Ly, Llc Smart security device with status communication mode

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7293063B1 (en) * 2003-06-04 2007-11-06 Symantec Corporation System utilizing updated spam signatures for performing secondary signature-based analysis of a held e-mail to improve spam email detection
US9727115B1 (en) * 2005-05-30 2017-08-08 Invent.Ly, Llc Smart security device with status communication mode
US20070005549A1 (en) * 2005-06-10 2007-01-04 Microsoft Corporation Document information extraction with cascaded hybrid model
CN102404249A (zh) * 2011-11-18 2012-04-04 北京语言大学 一种基于协同训练的垃圾邮件过滤方法和装置
CN103853738A (zh) * 2012-11-29 2014-06-11 中国科学院计算机网络信息中心 一种网页信息相关地域的识别方法
CN103198396A (zh) * 2013-03-28 2013-07-10 南通大学 基于社会网络行为特征的邮件分类方法
CN105337842A (zh) * 2014-08-14 2016-02-17 广东外语外贸大学 一种与内容无关的垃圾邮件过滤方法
CN104881770A (zh) * 2015-06-03 2015-09-02 秦志勇 一种快递单信息识别系统和方法
CN105512285A (zh) * 2015-12-07 2016-04-20 南京大学 基于机器学习的自适应网络爬虫方法
CN105868408A (zh) * 2016-04-21 2016-08-17 深圳爱拼信息科技有限公司 基于机器学习的招聘信息解析系统及其方法
CN106202561A (zh) * 2016-07-29 2016-12-07 北京联创众升科技有限公司 基于文本大数据的数字化应急管理案例库构建方法及装置
CN106649455A (zh) * 2016-09-24 2017-05-10 孙燕群 一种大数据开发的标准化系统归类、命令集系统
CN106776538A (zh) * 2016-11-23 2017-05-31 国网福建省电力有限公司 企业非标准格式文档的信息提取方法
CN106650799A (zh) * 2016-12-08 2017-05-10 重庆邮电大学 一种电子证据分类提取方法及系统
CN106681984A (zh) * 2016-12-09 2017-05-17 北京锐安科技有限公司 一种针对文档的签名信息提取方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LUIZ S. OLIVEIRA 等: "Off-line Signature Verification Using Writer-Independent Approach", 《 2007 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS》 *
尹美娟 等: "基于邮件正文的邮箱用户别名抽取", 《计算机科学》 *
常淑惠: "基于写作风格的中文邮件作者身份识别技术研究", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 *

Also Published As

Publication number Publication date
CN107977399B (zh) 2021-11-30

Similar Documents

Publication Publication Date Title
Zheng et al. Global table extractor (gte): A framework for joint table identification and cell structure recognition using visual context
CN110209764B (zh) 语料标注集的生成方法及装置、电子设备、存储介质
CN101887523B (zh) 利用图片文字与局部不变特征检测图像垃圾邮件的方法
CN106776538A (zh) 企业非标准格式文档的信息提取方法
EP2378475A1 (en) Method for calculating semantic similarities between messages and conversations based on enhanced entity extraction
CN106570513A (zh) 大数据网络系统的故障诊断方法和装置
CN106156766A (zh) 文本行分类器的生成方法及装置
Alotaibi et al. Optical character recognition for quranic image similarity matching
CN107992508A (zh) 一种基于机器学习的中文邮件签名提取方法及系统
CN111985896A (zh) 邮件过滤方法及装置
CN110263539A (zh) 一种基于并行集成学习的安卓恶意应用检测方法及系统
CN110543475A (zh) 一种基于机器学习的财务报表数据自动识别和分析方法
CN110019820A (zh) 一种病历中主诉与现病史症状时间一致性检测方法
CN110929520A (zh) 非命名实体对象抽取方法、装置、电子设备及存储介质
CN110728117A (zh) 基于机器学习和自然语言处理的段落自动识别方法及系统
Crawford et al. A clustering method for graphical handwriting components and statistical writership analysis
CN111259951A (zh) 案件检测方法、装置、电子设备及可读存储介质
CN108681532B (zh) 一种面向中文微博的情感分析方法
CN101655911B (zh) 基于免疫抗体网络的模式识别方法
CN109871449A (zh) 一种基于语义描述的端到端的零样本学习方法
CN112035345A (zh) 一种基于代码片段分析的混合深度缺陷预测方法
CN109101487A (zh) 对话角色区分方法、装置、终端设备及存储介质
CN111143840A (zh) 一种主机操作指令异常识别的方法及系统
CN104866606A (zh) 一种MapReduce并行化大数据文本分类方法
Sohn et al. A graph model based author attribution technique for single-class e-mail classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder

Address after: Room 301, Unit 1, 3rd Floor, Building 15, No.1 Courtyard, Gaolizhang Road, Haidian District, Beijing, 100080

Patentee after: BEIJING KNOW FUTURE INFORMATION TECHNOLOGY CO.,LTD.

Address before: 100102 room 112102, unit 1, building 3, yard 1, Futong East Street, Chaoyang District, Beijing

Patentee before: BEIJING KNOW FUTURE INFORMATION TECHNOLOGY CO.,LTD.

CP02 Change in the address of a patent holder