CN110990570A - 一种基于深度学习的邮件落款提取方法 - Google Patents
一种基于深度学习的邮件落款提取方法 Download PDFInfo
- Publication number
- CN110990570A CN110990570A CN201911217802.7A CN201911217802A CN110990570A CN 110990570 A CN110990570 A CN 110990570A CN 201911217802 A CN201911217802 A CN 201911217802A CN 110990570 A CN110990570 A CN 110990570A
- Authority
- CN
- China
- Prior art keywords
- text
- extracting
- telephone
- mobile phone
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/42—Mailbox-related aspects, e.g. synchronisation of mailboxes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种基于深度学习的邮件落款提取方法,包括:收集电子邮件样本,提取所收集电子邮件的正文,对正文进行标记,标签为是否有邮件落款;使用机器学习的方法,训练一个文本分类模型,利用所述文本分类模型判断电子邮件中是否含有落款;筛选出含有落款的邮件正文,使用深度学习的方法,进行序列标注,并训练命名实体识别模型,提取其中的姓名、公司和地址信息;使用模式识别的方法,先提取邮件正文中结构化的手机、电话的模式,然后使用模式识别提取其中的手机、电话信息;对提取的信息进行校验,得到最终的落款。本发明将邮件正文中的落款信息进行结构化,对电子邮件处理时可以通过信息抽取,识别并得到电子邮件发件人的落款信息。
Description
技术领域
本发明公开了一种基于深度学习的邮件落款提取方法,涉及自然语言处理中的信息抽取技术领域。
背景技术
在现有技术中,想通过电子邮件获取发件人的信息,只能通过邮件文件中结构化的头部信息,获取发件人的昵称和邮箱,但这样无法获取发件人的其他信息。
而在通常商业邮件的正文落款里面,会包含发件人的姓名、电话、手机、公司、地址等具体信息。现有技术只能提取发件人的昵称,无法提取其他包含在正文中的发件人姓名、电话、手机、公司、地址等信息,造成了针对电子邮件信息抽取的不完备,使得电子邮件中的信息抽取内容不足,无法有效的提高后续信息甄别或摘选能力。
发明内容
本发明所要解决的技术问题是:针对现有技术的缺陷,提供一种基于深度学习的邮件落款提取方法。
本发明为解决上述技术问题采用以下技术方案:
一种基于深度学习的邮件落款提取方法,所述方法包括如下步骤:
步骤一、收集电子邮件样本,提取所收集电子邮件的正文,对正文进行标记,标签为是否有邮件落款;
步骤二、使用机器学习的方法,训练一个文本分类模型,利用所述文本分类模型判断电子邮件中是否含有落款;
步骤三、经过步骤一和步骤二筛选出含有落款的邮件正文,使用深度学习的方法,进行序列标注,并训练命名实体识别模型,提取其中的姓名、公司和地址信息;
步骤四、使用模式识别的方法,先提取邮件正文中结构化的手机、电话的模式,然后使用模式识别提取其中的手机、电话信息;
步骤五、对经过步骤四提取的信息进行校验,得到最终的落款。
作为本发明的进一步优选方案,所述步骤一中,使用TFIDF方法进行特征抽取,使用SVM算法训练一个文本分类模型,记为落款分类模型。
作为本发明的进一步优选方案,所述步骤二中,抽取电子邮件正文中的每一行,使用BIO格式进行序列标注,标注每一行中的姓名、地址、公司,然后使用tensorflow平台搭建biLSTM+crf模型的神经网络,进行训练,得到命名实体识别模型。
作为本发明的进一步优选方案,所述步骤四中,将电子邮件中key:value结构的手机、电话抽取出来,将value提取成手机、电话的模式。
作为本发明的进一步优选方案,所述步骤三具体包括:
301、对新的电子邮件进行解析,获取正文和发件人;
302、对电子邮件正文进行分割,如果有转发邮件内容,将正文分成多封邮件;
303、使用落款分类模型判断每封邮件是否含有落款;
304、对含有落款的邮件:
1)、使用命名实体识别模型,提取姓名、公司和地址;
2)、使用手机、电话模式抽取正文中的手机、电话;
3)、对抽取的姓名、公司、地址、手机、电话做校验;
305、对每封邮件的落款信息进行去重。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:本发明将邮件正文中的落款信息进行结构化,使得在面对电子邮件时可以通过信息抽取,识别并得到电子邮件发件人的落款等具体信息。
附图说明
图1是本发明的流程示意图。
图2是本发明的一个具体实施例中,使用BIO格式进行序列标注的示意图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
下面结合附图对本发明的技术方案做进一步的详细说明:
本发明的流程示意图如图1所示,本发明首先搜集大量邮件样本,将其正文提取出来,进行标记,标签为是否有邮件落款。然后使用机器学习的方法,训练一个文本分类模型,使用此模型可以判断邮件中是否含有正文。
对于含有落款的邮件正文,使用深度学习的方法,进行序列标注,并训练命名实体识别模型,提取其中的姓名、公司、地址;使用模式识别的方法,先提取邮件正文中结构化的手机、电话的模式,然后使用模式提取其中的手机、电话。
部分邮件正文转发了其他邮件,其他邮件中存在落款信息的,也需要进行判断并提取。
最后,对提取的信息进行校验,得到最终的落款。
下面结合附图及具体实施例,进一步说明本发明的技术方案:
一、模型训练
1、搜集大量邮件样本,将其正文提取出来,进行标记,标签为是否有邮件落款。使用TFIDF方法进行特征抽取,使用SVM算法训练一个文本分类模型,记为落款分类模型。
2、抽取邮件正文中的每一行,使用BIO格式进行序列标注,如图2所示,标注每一行中的姓名、地址、公司,然后使用tensorflow平台搭建biLSTM+crf模型的神经网络,进行训练,得到命名实体识别模型。
3、将邮件中key:value结构的手机、电话抽取出来,将value提取成手机、电话的模式二、提取落款
1、对新邮件进行解析,获取正文和发件人;
2、对正文进行分割,如果有转发邮件内容,将正文分成多封邮件;
3、使用落款分类模型判断每封邮件是否含有落款
4、对含有落款的邮件:
1)、使用命名实体识别模型,提取姓名、公司和地址;
2)、使用手机、电话模式抽取正文中的手机、电话;
3)、对抽取的姓名、公司、地址、手机、电话做校验;
5、对每封邮件的落款信息进行去重。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质,在本发明的精神和原则之内,对以上实施例所作的任何简单的修改、等同替换与改进等,均仍属于本发明技术方案的保护范围之内。
Claims (5)
1.一种基于深度学习的邮件落款提取方法,其特征在于,所述方法包括如下步骤:
步骤一、收集电子邮件样本,提取所收集电子邮件的正文,对正文进行标记,标签为是否有邮件落款;
步骤二、使用机器学习的方法,训练一个文本分类模型,利用所述文本分类模型判断电子邮件中是否含有落款;
步骤三、经过步骤一和步骤二筛选出含有落款的邮件正文,使用深度学习的方法,进行序列标注,并训练命名实体识别模型,提取其中的姓名、公司和地址信息;
步骤四、使用模式识别的方法,先提取邮件正文中结构化的手机、电话的模式,然后使用模式识别提取其中的手机、电话信息;
步骤五、对经过步骤四提取的信息进行校验,得到最终的落款。
2.如权利要求1所述的一种基于深度学习的邮件落款提取方法,其特征在于:所述步骤一中,使用TFIDF方法进行特征抽取,使用SVM算法训练一个文本分类模型,记为落款分类模型。
3.如权利要求1所述的一种基于深度学习的邮件落款提取方法,其特征在于:所述步骤二中,抽取电子邮件正文中的每一行,使用BIO格式进行序列标注,标注每一行中的姓名、地址、公司,然后使用tensorflow平台搭建biLSTM+crf模型的神经网络,进行训练,得到命名实体识别模型。
4.如权利要求1所述的一种基于深度学习的邮件落款提取方法,其特征在于:所述步骤四中,将电子邮件中key:value结构的手机、电话抽取出来,将value提取成手机、电话的模式。
5.如权利要求1所述的一种基于深度学习的邮件落款提取方法,其特征在于,所述步骤三具体包括:
301、对新的电子邮件进行解析,获取正文和发件人;
302、对电子邮件正文进行分割,如果有转发邮件内容,将正文分成多封邮件;
303、使用落款分类模型判断每封邮件是否含有落款;
304、对含有落款的邮件:
1)、使用命名实体识别模型,提取姓名、公司和地址;
2)、使用手机、电话模式抽取正文中的手机、电话;
3)、对抽取的姓名、公司、地址、手机、电话做校验;
305、对每封邮件的落款信息进行去重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911217802.7A CN110990570A (zh) | 2019-12-03 | 2019-12-03 | 一种基于深度学习的邮件落款提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911217802.7A CN110990570A (zh) | 2019-12-03 | 2019-12-03 | 一种基于深度学习的邮件落款提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110990570A true CN110990570A (zh) | 2020-04-10 |
Family
ID=70089347
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911217802.7A Pending CN110990570A (zh) | 2019-12-03 | 2019-12-03 | 一种基于深度学习的邮件落款提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110990570A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113094466A (zh) * | 2021-04-29 | 2021-07-09 | 平安国际智慧城市科技股份有限公司 | 一种提取邮件签名的方法、装置、设备及存储介质 |
US12008830B2 (en) * | 2022-01-07 | 2024-06-11 | Infrrd Inc. | System for template invariant information extraction |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106681984A (zh) * | 2016-12-09 | 2017-05-17 | 北京锐安科技有限公司 | 一种针对文档的签名信息提取方法 |
CN107992508A (zh) * | 2017-10-09 | 2018-05-04 | 北京知道未来信息技术有限公司 | 一种基于机器学习的中文邮件签名提取方法及系统 |
CN109472026A (zh) * | 2018-10-31 | 2019-03-15 | 北京国信云服科技有限公司 | 一种同时针对多个命名实体的精准情感信息提取方法 |
-
2019
- 2019-12-03 CN CN201911217802.7A patent/CN110990570A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106681984A (zh) * | 2016-12-09 | 2017-05-17 | 北京锐安科技有限公司 | 一种针对文档的签名信息提取方法 |
CN107992508A (zh) * | 2017-10-09 | 2018-05-04 | 北京知道未来信息技术有限公司 | 一种基于机器学习的中文邮件签名提取方法及系统 |
CN109472026A (zh) * | 2018-10-31 | 2019-03-15 | 北京国信云服科技有限公司 | 一种同时针对多个命名实体的精准情感信息提取方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113094466A (zh) * | 2021-04-29 | 2021-07-09 | 平安国际智慧城市科技股份有限公司 | 一种提取邮件签名的方法、装置、设备及存储介质 |
US12008830B2 (en) * | 2022-01-07 | 2024-06-11 | Infrrd Inc. | System for template invariant information extraction |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2018032937A1 (zh) | 一种文本信息分类方法及其装置 | |
US8688690B2 (en) | Method for calculating semantic similarities between messages and conversations based on enhanced entity extraction | |
CN104040963B (zh) | 用于使用字符串的频谱进行垃圾邮件检测的系统和方法 | |
CN106776538A (zh) | 企业非标准格式文档的信息提取方法 | |
US20110258193A1 (en) | Method for calculating entity similarities | |
CN107038178A (zh) | 舆情分析方法和装置 | |
CN102404249B (zh) | 一种基于协同训练的垃圾邮件过滤方法和装置 | |
CN107294834A (zh) | 一种识别垃圾邮件的方法和装置 | |
TW201429214A (zh) | 通話內容分析及提取系統及方法 | |
CN104714938A (zh) | 一种信息处理的方法及电子设备 | |
Singh et al. | Email spam classification by support vector machine | |
CN111985896A (zh) | 邮件过滤方法及装置 | |
CN111221970B (zh) | 基于行为结构和语义内容联合分析的邮件分类方法及装置 | |
CN101719924B (zh) | 基于群件理解的不良彩信过滤方法 | |
CN106453062A (zh) | 一种应用通知的管理方法及终端 | |
CN110213152A (zh) | 识别垃圾邮件的方法、装置、服务器及存储介质 | |
CN110990570A (zh) | 一种基于深度学习的邮件落款提取方法 | |
CN107992508B (zh) | 一种基于机器学习的中文邮件签名提取方法及系统 | |
CN106372083B (zh) | 一种有争议性新闻线索自动发现的方法及系统 | |
CN105224603A (zh) | 训练语料获取方法及装置 | |
CN104268214A (zh) | 一种基于微博用户关系的用户性别识别方法及系统 | |
CN110728240A (zh) | 一种对电子卷宗的标题自动识别的方法及装置 | |
CN107066450B (zh) | 一种基于学习的即时通信会话切分方法 | |
CN116501844A (zh) | 语音关键词检索方法及系统 | |
CN105913215A (zh) | 电子邮件处理方法及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |