CN106681984A

CN106681984A - 一种针对文档的签名信息提取方法

Info

Publication number: CN106681984A
Application number: CN201611129134.9A
Authority: CN
Inventors: 陶小龙; 刘中淼
Original assignee: Beijing Ruian Technology Co Ltd
Current assignee: Beijing Ruian Technology Co Ltd
Priority date: 2016-12-09
Filing date: 2016-12-09
Publication date: 2017-05-17

Abstract

本发明提供一种针对文档的签名信息提取方法，步骤包括：1)对文档内容进行分词；2)找出高频和成组出现的词汇作为潜在签名标记；3)根据词汇的文档占有率及语义相关从潜在签名标记中筛选出签名标记，根据签名标记找出含签名信息的文档；4)针对上述含签名信息的文档，根据签名标记查找签名信息，根据签名信息特征库和签名信息提取规则提取签名信息。本方法通过识别文档签名标记，并按签名标记对文档进行分类，筛选出含签名信息的文档，然后基于规则对文档信息进行提取。

Description

一种针对文档的签名信息提取方法

技术领域

本发明属于计算机操作软件设计领域，涉及到文本挖掘，具体涉及一种针对邮件、病例、案件、简历等文档的签名信息提取方法。

背景技术

文本挖掘是一门交叉学科，涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具，它从数据挖掘发展而来，但与传统的数据挖掘又有很多不同。文本挖掘的对象是海量、异构、分布的文档(web)，文档内容是人类所使用的自然语言，缺乏计算机可理解的语义。

在实际工作中存在大量一定模式的、而模式又没有统一的、各种模式又混杂在一起的文档，如：邮件签名档信息、各地上报的档案、邮件附件内容等，这些文档数量巨大，模式种类多样。如何从中提取出规范的结构信息成为一项迫切工作。

目前主要的文档提取方法分为：模板提取法、正则表达式法和基于规则方法。

模板提取法：首先对文档的样例数据进行分析，分析出各类文档的内容构成，生成文档提取规则，根据规则对文档内容提取出所需信息。

正则表达式法：是通过正则标识从文档提取结构化数据。

基于规则方法：通过预先定义的策略对文档信息进行提取。

不足之处在于，上述方法都需要对文档进行研究，确定文档结构后才设定提取规则，然后进行内容提取，而且上述方法很难覆盖到全部文档，也不能跟踪新生文档的状况。

发明内容

为克服上述不足，本发明提出一种针对文档的签名信息提取方法，通过识别文档签名标记，并按签名标记对文档进行分类，筛选出含签名信息的文档，然后基于规则对文档信息进行提取。

为解决上述技术问题，本发明采用如下技术方案：

一种针对文档的签名信息提取方法，步骤包括：

1)对文档内容进行分词；

2)找出高频和成组出现的词汇作为潜在签名标记；

3)根据词汇的文档占有率及语义相关从潜在签名标记中筛选出签名标记，根据签名标记找出含签名信息的文档；

4)针对上述含签名信息的文档，根据签名标记查找签名信息，根据签名信息特征库和签名信息提取规则提取签名信息。

进一步地，步骤1)中，分词方法采用逆向最大匹配算法(RMM)。

进一步地，在进行步骤2)前先通过签名停用词库对步骤1)得到的词汇进行过滤。

进一步地，步骤2)中，通过Apriori算法找出高频和成组出现的词汇作为潜在签名标记，高频是指Apriori算法支持度大于等于5‰，潜在签名标记个数大于等于4。

进一步地，步骤2)中，如果签名标记个数为1至200个，采用枚举法识别。

进一步地，步骤3)中，文档占有率是指某一词被使用的文档数量占总文档数量的比例，该比例大于等于5‰；语义相关是指词汇与签名信息特征库的签名信息特征相关。

进一步地，在进行步骤3)前先根据签名标记库对潜在签名标记进行过滤。

进一步地，签名标记库包括单位、单位地址、手机、邮编等。

进一步地，签名停用词库包括冒号、制表符、回车符、换行符等。

进一步地，签名信息特征库包括姓名、手机、固定电话、邮箱、地址及公司名等含有的信息特征。

进一步地，签名信息提取规则包括：

提取规则1：签名标记+签名停用词+签名信息+签名停用词；

提取规则2(用于姓名)：短词语[2-4个汉字]+签名停用词+下一行含签名标记。

进一步地，根据提取的签名信息更新签名信息特征库和签名信息提取规则。

本发明的有益效果是：本方法根据签名标记的特征，通过识别文档签名标记，对文档进行分类，识别含签名信息的文档，然后根据签名信息特征库以及基于规则对文档信息进行提取。本方法不需要对文档进行研究，具有普适性，可以覆盖到邮件、病例、案件、简历等文档，而且能够跟踪新生文档的状况。

附图说明

图1为实施例中邮件文档的签名信息提取流程图。

具体实施方式

为使本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合所附图作详细说明如下。

本发明提供一种针对文档的签名信息提取方法，以邮件文档为例进行说明，如图1所示。邮件文档的签名档里有大量有价值的信息，内容包括姓名、联系电话、邮箱、地址、职位信息；但是不同公司、不同个人设置的签名档的格式和签名标记不尽相同，不能通过简单的规则或者正则表达式进行提取，而通过本方法可以进行提取。

针对该邮件文档，可通过如下四步骤提取签名档信息：

一、对邮件文档内容进行分词。

分词指的是将一个连续的汉字序列切分成一个一个单独的词，再按照一定的规范重新组合成词序列的过程，可采用逆向最大匹配算法(RMM)对文档内容进行分词处理。

二、通过Apriori算法识别潜在签名标记。

为减少Apriori算法识别的词汇量，避免不必要的计算，提高识别效率，在进行本步骤之前，可先根据签名停用词库对词汇进行过滤，过滤掉签名停用词。签名停用词库包括收录的多个签名停用词，如冒号、制表符、回车符、换行符等。

签名标记是指邮件签名档内容前的标识信息，如：“手机：13811111111”的“手机”为签名标记，具有如下特征：

1.签名标记出现的频率远远高于邮件中的其他词汇；

2.多个签名标记往往成组出现；

3.签名标记数量有限。

前两个特征与关联规则的频繁项集相似，可以采用Apriori算法识别邮件中的高频和成组出现的词汇，该算法的频繁项集只相当于潜在签名标记，而非真正的签名标记。这里的高频词汇可借用Apriori算法支持度概念，参数采用5‰，频繁项集大于等于4(相当于潜在签名标记个数)，具体应用中可根据需要调整这些参数。Apriori算法是一种挖掘关联规则的频繁项集算法，其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。

对于第三个特征，由于签名标记数量有限(为1至200个)，可采用枚举法。

三、从潜在签名标记找出签名标记。

针对上述潜在签名标记，首先通过签名标记库进行过滤，可以去除一批不在签名标记库的词汇，该签名标记库包括单位、单位地址、手机、邮编等词。但留下的词汇并非都是签名标记，比如手机，文档中提到手机时可能是记录了与手机有关的事情，但并非是为了引出手机号码。故为了保证准确率，可对留下的词汇进一步通过文档占有率和语义相关进行判断，最终找出签名标记。

词汇中有的词只在某一个文档里使用，即占有一个文档，有的会反复在多个文档里使用，即占有多个文档，故可通过文档占有率进行量化，文档占有率是指某一词被使用的文档数量占总文档数量的比例，即某一词占有的文档数与总文档数的比值，本发明文档占有率选大于等于5‰，在具体情况中可对该值进行调整。

经过文档占有率进行筛选后，要进一步通过在语义相关上进行判断，语义相关是指潜在签名标记，如姓名、手机号、地址等，与姓名的字符数、手机号位数、具体地点等信息相关，相当于符合下述签名信息特征库的一些特征。可通过人工研判进行判断，也可通过程序实现，可找出签名标记，并更新签名标记库，经过积累可以更加精确识别签名标记。

通过签名标记库和文档占有率去掉的词汇都是出现频繁的词汇，有可能是签名停用词库所没有的潜在签名停用词，比如是“了”“呢”“等”助词，可进行人工研判，作为新的签名停用词输入签名停用词库以进行更新，经过积累可以更加精确识别签名停用词。

根据找到的签名标记对全部邮件文档进行判断，筛选出含邮件签名档的文档。

四、针对上述含有邮件签名档的文档，通过签名标记搜索签名信息，根据签名信息特征库和签名信息提取规则提取签名信息。

签名信息具有如下特征：

1.签名信息通常在签名标记的附近，可在签名标记附近进行搜索发现签名信息，此处的附近是指签名标记同行前后以及上下文的跨一行或多行；

2.签名信息大部分具有严格的数值特征，例如：

姓名：2-4个汉字，姓氏可进行枚举(百家姓)；

手机：11位数字可用正则表达式发现；

邮箱：可枚举后缀与邮件域名，含“@”；

固定电话：数字含“-”“()”、分隔符，长途区号可枚举；

公司名：含“公司”；

地址：含“街”“路”“大厦”等可枚举信息。

另外，签名档与邮件正文往往有空行或者特殊字符作为分割标识。

根据上述签名信息特征生成签名信息特征库，根据数据积累不断分布。

根据上述特征设定签名信息提取规则，如：

提取规则1：签名标记+停用词+签名内容+停用词；

提取规则2：短词语[2-4个汉字]+停用词+下一行含签名标记。(用于姓名)

需指出的是，根据不同的文档可设定不同的提取规则。

先定位到签名标记，再在签名标记附近进行搜索，找到符合规则的签名内容进行提取；如果找不到，就进行下一个签名标记的识别和提取。

以下列举一具体实例：

1.以下为一邮件签名档：

*******************************************

李四海

单位：北京协议医院心内科

单位地址：(东院)北京市东城区帅府园一号

手机：13811111111邮编：100730

*******************************************

2.使用的签名标记库包括：

签名标记包括：单位、手机、邮编、地址；

单位标记：单位、公司……

手机标记：移动电话、mobile、电话……

邮编标记：邮编、邮政编码、zip……

地址标记：地址、单位地址、公司地址

3.使用的签名停用词库包括：

签名停用词包括：“：”、制表符、回车、换行等。

4.识别含签名档邮件：

针对含有3个以上不同类型签名标记，搜索其附近信息。

具体采用如下签名信息提取规则：

提取规则1：签名标记+停用词*+签名内容+停用词

提取规则2(用于姓名)：短词语[2-4个汉字]+停用词+下一行含签名标记

逐行扫描邮件信息，基于规则进行匹配，得到如下结果：

根据根据规则1，可提取出单位、单位地址、手机号、邮编等信息；

根据上述规则2：可识别姓名为李四海。

由以上实施例可知，本方法根据签名标记的特征，通过Apriori算法识别文档签名标记，对文档进行分类，识别含签名信息的文档，然后根据签名信息特征库以及基于规则对文档信息进行提取。本方法不需要对文档进行研究，具有普适性，可以覆盖到邮件、病例、案件、简历等文档，而且能够跟踪新生文档的状况。

Claims

1.一种针对文档的签名信息提取方法，步骤包括：

1)对文档内容进行分词；

2)找出高频和成组出现的词汇作为潜在签名标记；

2.根据权利要求1所述的方法，其特征在于，步骤1)中，分词方法采用逆向最大匹配算法。

3.根据权利要求1所述的方法，其特征在于，在进行步骤2)前先通过签名停用词库对步骤1)得到的词汇进行过滤。

4.根据权利要求1所述的方法，其特征在于，步骤2)中，通过Apriori算法找出高频和成组出现的词汇作为潜在签名标记，高频是指Apriori算法支持度大于等于5‰，潜在签名标记个数大于等于4。

5.根据权利要求1所述的方法，其特征在于，步骤2)中，如果签名标记个数为1至200个，采用枚举法识别。

6.根据权利要求1所述的方法，其特征在于，步骤3)中，文档占有率是指某一词被使用的文档数量占总文档数量的比例，该比例大于等于5‰；语义相关是指词汇与签名信息特征库的签名信息特征相关。

7.根据权利要求1所述的方法，其特征在于，在进行步骤3)前先根据签名标记库对潜在签名标记进行过滤。

8.根据权利要求1所述的方法，其特征在于，

签名标记库包括单位、单位地址、手机、邮编；

签名停用词库包括冒号、制表符、回车符、换行；

签名信息特征库包括姓名、手机、固定电话、邮箱、地址及公司名所含有的信息特征。

9.根据权利要求1所述的方法，其特征在于，签名信息提取规则包括：

提取规则1：签名标记+签名停用词+签名信息+签名停用词；

提取规则2：短词语+签名停用词+下一行含签名标记。

10.根据权利要求1所述的方法，其特征在于，根据提取的签名信息更新签名信息特征库和签名信息提取规则。