CN103744830A

CN103744830A - 基于语义分析的excel文档中身份信息的识别方法

Info

Publication number: CN103744830A
Application number: CN201310751514.6A
Authority: CN
Inventors: 李核
Original assignee: Beijing Ruian Technology Co Ltd
Current assignee: Beijing Ruian Technology Co Ltd
Priority date: 2013-12-31
Filing date: 2013-12-31
Publication date: 2014-04-23

Abstract

本发明涉及一种基于语义分析的EXCEL文档中身份信息的识别方法，其步骤包括：1）构造最大熵模型，采用特征函数表示该最大熵模型的约束条件，并通过在训练集上进行学习得到特征函数的权值；2）创建处理的类对象，将需要处理的Excel文件名传递到类对象中；3）应用所述最大熵模型对需要处理的Excel文件进行信息抽取，将获得的具体内容在类对象中缓存，进而从类对象中输出识别结果。本发明能够节省人工分析特定信息成本，并能减少人工分析的误差，提高身份信息数据的识别和抽取的准确率。

Description

基于语义分析的EXCEL文档中身份信息的识别方法

技术领域

本发明属于信息技术领域，涉及一种基于语义分析的EXCEL文档中身份信息数据的识别方法，可以识别和抽取EXCEL文档中的姓名、地址等身份信息。

背景技术

在企业管理软件或是相关管理软件中，都会涉及到要将EXCEL身份信息数据文件导入到数据库中，而需要导入大量EXCEL身份信息数据文件时，单靠人工一个个点击导入按钮，十分影响工作效率，同时还有可能影响软件其他数据处理的相关性能。

语义自动分析技术可以通过相关规则分析出姓名、性别、身份证号码、电话等个人信息数据。采用语义自动分析技术进行数据文件的批量导入，可以避免从前台界面导入，可以通过后台程序入库，减少WEB的HTTP请求。

虽然当前有很多种批量导入或者分析入库的相关技术，但是能通过语义自动分析识别身份信息并抽取出来的技术比较少，或者相关技术不能完全通过语义分析来完成。

发明内容

本发明的目的就是提供一种基于语义分析的EXCEL文档中姓名、地址等身份信息的识别方法，能够节省人工分析特定信息成本，并能减少人工分析的误差，提高身份信息数据的识别和抽取的准确率。

为实现上述目的，本发明采用的技术方案如下：

一种基于语义分析的EXCEL文档中身份信息的识别方法，其步骤包括：

1）构造最大熵模型，采用特征函数表示该最大熵模型的约束条件，并通过在训练集上进行学习得到特征函数的权值；

2）创建处理的类对象，将需要处理的Excel文件名传递到类对象中；

3）应用所述最大熵模型对需要处理的Excel文件进行信息抽取，将获得的具体内容在类对象中缓存，进而从类对象中输出识别结果。

进一步地，步骤2）将需要处理的Excel文件名传递到所述类对象中以后，测试该Excel文件是否正常，如果正常则进行后续处理，如果异常则跳出分析，清理缓冲信息后退出程序。

进一步地，所述最大熵模型使用的训练方式为IIS（Improved Iterative Scaling）方法。

进一步地，在识别姓名信息时，将姓名本身的信息和上下文中的信息转化为特征，以获得特征函数；对于姓氏用字作为非姓名出现的情况，采用类似二元语法的方式表达特征，以获得特征函数。所述姓名本身的信息是指姓氏用字、名用字和姓名内部成词信息，所述姓名上下文信息是指姓名前后的邻接词（字）。

进一步地，建立名人词典以提高姓名识别的准确率。

进一步地，在识别地址信息时，分别从如下方面选取特征：地址尾字、地址用字及其各字间关联性、地址前词、地址后词、地址前词与地址首字的关联性、地址后词与地址尾字的关联性。

进一步地，选取地址识别的特征时，如果一个地址前词频繁地与正确地址同时出现（类比于TF高），同时，它又在全文中出现的次数较少，即不在正确地址之前而在普通词之前出现的次数较少（类比于IDF低），则选取这个词为特征。

进一步地，在选取地址尾字和地址用字及其各字间前后关联性这两类与篇章上下文无关的特征的时候，不仅应用真实语料作为训练集，同时还使用中国地址词库的地址同时作为训练集。

进一步地，在对地址做识别时，选择地址尾字驱动找到潜在地址。

与现有的相关技术相比，本发明提出的技术方案中建立了智能语义分析信息，能通过相关规则严格分析出姓名、地址等相关信息数据，并能有效的减少误差，提高数据可靠性和价值。

附图说明

图1是实施例中EXCEL文档身份信息数据并结构化的处理流程图。

具体实施方式

下面通过具体实施例和附图，对本发明做进一步说明。

Excel表中的身份信息，包括姓名、性别、年龄、身份证号码、电话等。对于Excel表中关键信息的抽取，本实施例重点说明对于中文姓名以及地址信息的识别和处理，这里采用计算模型和规则结合的方式进行处理。下面具体说明：

1、计算模型——最大熵模型

计算模型的原则是：建模时尽量拟合已知的部分，而对于未知的部分使模型的熵最大。熵是用来描述随机变量不确定性的物理量，熵越大，说明随机变量的不确定性越大。因此在对未知事件建立模型时，应使模型的熵最大。而实际问题中，往往会提供大量的已知的约束条件，对于这些约束条件要尽量地拟合。

通常用特征函数来表示约束条件，特征函数一般情况下是一个二值函数f(a,b)→{0,1}，b是某一个对象，a是对象所属的类别。对于特征函数，它相对于经验概率分布的期望为：

E_{\tilde{p}} f_{i} = \underset{a, b}{Σ} \tilde{p} (a, b) f_{i} (a, b)

特征函数相对于模型的期望为：

E_{p} f_{i} = \underset{a, b}{Σ} \tilde{p} (b) p (a | b) f_{i} (a, b)

我们限制在训练集中，这两个期望值相同，即：

E_{p} f_{i} = E_{\tilde{p}} f_{i}

上式称为约束。显然，可以定义很多这样的特征函数，它们之间可以是互不相关的，甚至描述问题的角度也可以是完全不同的，刻画问题的粒度也可大可小。总之，特征函数很灵活地将许多分散、零碎的知识组合起来完成同一个任务。给定k个特征函数f₁,f₂,…,f_k，我们可以得到所求概率分布的k组约束：

E_{p} f_{i} = E_{\tilde{p}} f_{i},

其中i=1,2,…,k。

现在，分类问题就变成了满足一组约束条件的最优解问题，即

P = {p | E_{p} f_{i} = E_{\tilde{p}} f, i = 1,2, . . ., k}

p^{*} = \underset{p &Element; P}{\arg \max} H (p)

H (p) = - \underset{x}{Σ} p (x) \log_{2} p (x)

求解这个最优解的经典方法是拉格朗日乘子算法，本文直接给出结论。上式要求的p^*具有下面的形式：

p^{*} (a | b) = \frac{1}{π (b)} \exp (Σ_{i = 1}^{k} λ_{i} f_{i} (a, b)) - - - (1)

其中，π(b)是规一化因子，

(b) = \underset{a}{Σ} (Σ_{i = 1}^{k} λ_{i} f_{i} (a, b))

λ_i是参数，可以看成特征函数的权值。如果通过在训练集上进行学习，知道了λ_i的值，就得到了概率分布函数，完成了最大熵模型的构造。使用的训练方式为IIS（Improved IterativeScaling）方法。

2、特征函数选择

特征函数的选择是建立最大熵模型的重要步骤，特征函数对不同类别的区分度直接影响到模型的分类效果，特征函数的数量直接关系到模型计算的效率。

通常在选取特征时，都会选择区分度较高的信息作为特征，但是姓名识别中的特征选取和其它系统是不同的。姓名识别的可利用信息很有限，而且往往是区分度不大的信息，因此在特征选择时应该尽量用上可用的信息，而不是只选择那些区分度较大的信息。如果只选择区分度较大的信息，毫无疑问识别的准确率会很高，但是召回率就不乐观了（召回率是指可用的数据）。相对而言，识别的召回率更为重要，较低的召回率对其它后续处理是不利的。这样做也有问题，就是特征函数的数量较大，但是由于姓名识别本身的特点，姓名转化的特征向量是一个极其稀疏的向量，所以特征函数的数量并不会给训练或者识别带来较大的负担。

中文姓名中的信息包括姓名本身的信息和上下文中的信息。姓名本身的信息是指姓氏用字、名用字和姓名内部成词等信息，姓名上下文信息是指姓名前后的邻接词（字）。把这些信息转化为特征，是一个比较直接的获得特征函数的方法。对于姓氏用字作为非姓名出现的情况，也可以采用类似的特征，如上下边界词之类，但是和姓名不同的是，这时的姓氏用字往往会和前后的字组成词，而且这个词和它前后的词有一定的同现概率，所以用类似二元语法的方式表达特征是值得考虑的一个方法。

基于上述原因，本实施例设计并选取了14种共2855个特征函数，其中6种是姓名类别的特征函数，另外8种是非姓名类别的特征函数，下面列出5种加以说明。

f_{Hword} (w, c) = \{\begin{matrix} 1 & w &Element; Hword & \\ while & w &NotElement; RHword & \\ c = Name \\ 0 & others \end{matrix}

其中，词w表示潜在姓氏之后的词（字），HWord集合表示训练语料中姓名之后邻接的词（字）的集合，这个特征只有一个特征函数，能够令特征函数为1的词（字）是只作为姓名下边界词，在非姓名情况下不出现。集合RHword表示训练语料中集合HWord和集合GramH中词w₂所对应的集合（见后文）的交集。

f_{GramSur} (w_{1}, c) = \{\begin{matrix} 1 & w_{1} &Element; GramSur & \\ while & w_{1} &NotElement; RGramSur & \\ c &NotEqual; Name \\ 0 & others \end{matrix}

其中，w₁表示包含潜在姓氏的词，也可能只是潜在姓氏的单字，集合GramSur表示训练语料中包含潜在姓氏的词的集合。潜在姓氏作为姓出现时，也会有和前后字成词的情况，集合RGramSur表示训练语料中姓和前后字成词的集合与GramSur的交集中，出现次数大于某一个阈值的词的集合。f_GramSur特征只有一个特征函数。

f_{GramH} (w_{1} \cdot w_{2}, c) = \{\begin{matrix} 1 & w_{2} &Element; GramH & \\ w_{1} &Element; GramSur & \\ while \\ w_{2} &NotElement; RGramH & \\ c &NotEqual; Name \\ 0 & others \end{matrix}

其中，w₁是包含潜在姓氏的词，w₂表示w₁后面相邻的词，集合GramH即是训练语料中所有w₂组成的集合。集合RGramH表示训练语料中集合GramH中词w₂的集合和HWord的交集中，出现次数大于某一个阈值的词所对应的GramH中的子集。f_HWord特征表示的是姓名下边界，f_GramH特征表示的是潜在姓氏成词的后一个词，如果潜在姓氏没有和后面的字成词，那么特征f_HWord和f_GramH在位置上和使用的词条都是一致的，但是f_GramH使用的是词对w₁w₂，这是由于集合GramH中的词和集合GramSur中的词有一定的匹配关系，因此采用了类似二元语法的词对作为特征。f_GramH特征也只有一个特征函数。

f_{RGramH}^{i} (w_{1} \cdot w_{2}, c) = \{\begin{matrix} 1 & w_{2} &Element; RGramH & \\ while & w_{1} &Element; GramSur & \\ c &NotEqual; Name \\ 0 & others \end{matrix}

特征

与特征f_GramH类似，但此处词w₂既可能在姓名环境中出现，也可能在非姓名环境中出现，必须对w₂逐个甄别，因此特征有多个特征函数（100个）。

f_{RHword}^{i} (w, c) = \{\begin{matrix} 1 & w &Element; RGramH & \\ while \\ c = Name \\ 0 & others \end{matrix}

特征

是姓名类别的特征，但是与特征很相似，所不同的只是没有使用词对，这主要是考虑到对于姓名来说，边界词本身更为重要，至于和边界词相邻的字词（通常是姓氏）并不重要，所有的姓都可以使用同一个边界词，因此没有使用词对。与特征

类似地，特征

也有多个特征函数（1012个）。

3、细化处理规则和地址信息处理规则

在EXCEL文档身份信息数据中姓名和地址信息抽取准确性是非常难把握的。如：姓名中有‘周杰伦’，有可能误分析为‘周杰’。为了解决这些相关问题，本发明进一步采用了细化处理规则和地址信息处理规则。以下是两种规则的具体说明：

1）姓名细化处理规则

使用最大熵模型虽然能获得较好的召回率，但是准确率偏低，而且特征函数受训练语料所限，无法覆盖所有的姓名情况。如果测试语料中在姓名前后出现了训练语料中没有的边界词，单单使用统计模型就很难正确识别姓名了，因此我们制定了一些词典和规则来改善系统的性能。为了便于描述，将潜在姓氏记做S，潜在姓氏后面第一个字记做S₁，潜在姓氏后面第二个字记做S₂，S₁后面邻接的词记做H₁，S₂后面邻接的词记做H₂。

建立名人词典是提高姓名识别准确率的常用方法，我们的词典只选择三个字的姓名，而不收录两个字的姓名。如果收录了两个字的姓名，且完全以词典为准，那么将出现把“朱德庸”误识别为“朱德”这样的错误。

中文人名分为单字名和双字名两种，判定人名的长度是中文姓名识别的重要内容，当前人名以双字名居多。我们统计了人民日报1998年1月的语料，共有姓名15579个，其中双字人名12602个，单字人名2977个，因此单双名的判定对系统性能有很大影响。我们制定了如下的规则来判定人名的长度。

单双名的判别主要根据潜在姓名的上下文来进行，由于训练语料有限，上下文的词语可能在训练语料中没有出现过，这时潜在姓名所有的特征函数值均为0，可以通过分析潜在姓名与上下文成词的情况来进行判定。如果S与上文成词或者S₁与下文成词，那么排除掉该潜在姓名，如果S₂与下文成词，那么取单字名，如果潜在姓名没有与上下文成词的情况，那么取双字名。若潜在姓名的特征函数和不为0，则通过比较单字名与双字名的特征函数和前后邻接词来判定。具体算法如下：

首先比较单双名的姓名类别特征函数之和，以特征函数之和较大的一方作为结果。如果特征函数之和相等，则比较单双名的下文邻接字词，若一方邻接下文为单字或句尾，另一方邻接下文为2字或多字词，则取前者为结果。如果单双名的下文邻接字词长度相同，则比较潜在姓名作为姓名的概率P*，取概率大的一方为结果。若仍无法分别，则把判定留到姓名冲突步骤中。

如果潜在姓名和地名、机构名词典中的词发生了冲突，那么排除该潜在姓名作为姓名的可能。但是有一种情况例外：如果潜在姓名是双字名，而且该双字名恰好是地名、机构名词典中的词，那么该潜在姓名仍然有可能被判定为姓名，这是为了处理如“盛中国”、“潘长江”这样的姓名。潜在姓名之间的冲突可以分为两种情况，一是潜在姓名属于单字名还是双字名已经确定，对于这种情况，我们设立了判定阈值ξ，如果前后两个潜在姓名的概率P*差大于ξ，那么选择概率较大的一方作为姓名。如果二者的概率差小于ξ，则比较二者的上下文信息，包括潜在姓名前后紧邻词语的数量，以及姓名类别特征函数的和。取紧邻词语数量较多，特征函数之和较大的一方作为姓名。如果通过上下文信息仍无法判定，则选概率大的一方作为姓名。冲突的第二种情况是无法确定当前潜在姓名属于单字名还是双字名，这时需要分别考虑单字名与双字名的情况。如果当前潜在姓名作为单字名时与后面的潜在姓名冲突，比较当前潜在姓名作为双字名时的概率与后面的潜在姓名的概率，取概率较大的一方作为姓名。如果当前潜在姓名作为双字名时与后面的潜在姓名存在冲突，那么判定为单字名。

2）地址信息处理

地址信息采用与姓名处理不同的特征函数，这里选取了6类共1554个特征函数，分别从地址尾字、地址用字及其各字间关联性、地址前词、地址后词、地址前词与地址首字的关联性、地址后词与地址尾字的关联性几个方面选取。

最大熵模型的原则就是承认已知事物（知识），并对未知事物不做任何假设，没有任何偏见。而在符合已知知识的分布中选取熵最大的分布。每当新加入一条知识，即相当于缩小了可能分布的范围，熵也就会随之减小一点。因而，我们应该尽可能的选取对地址识别最有分辨性的特征。类似于贪心原则，特征选取的目标应该是使每一步最大熵的减小量是最多的。如果不能在全局上使得最大熵的减小量最多，也应尽量保证每一步熵的减小量最多。

在文本分类/聚类当中，对文章核心内容分析常用到TF/IDF的方法，也是借鉴了这种思想来选取特征。具体到地址识别的特征选取来说，如果一个地址前词频繁地与正确地址同时出现（类比于TF高），同时，它又在全文中出现的次数较少，即不在正确地址之前而在普通词之前出现的次数较少（类比于IDF低），那么即可认为选取这个词为特征是更有价值的。特征函数的适当选取可以使得在拥有较少的特征函数的情况下，得到较高的正确率和召回率。

最大熵模型的一个很重要的优点就是其特征函数选择的灵活性，因而也就允许设计者充分利用各种信息来提高系统的性能。在中文地址的组成中，地址尾字的确定和地址用字及其各字间前后关联性的考察正是中文地址识别区别于以往未登录词识别的关键点。为了更好地挖掘地址用字本身的信息，本发明在选取地址尾字和地址用字及其各字间前后关联性这两类与篇章上下文无关的特征的时候，不仅应用真实语料作为训练集，同时还使用中国地址词库的地址同时作为训练集。虽然整体上特征函数较多，但由于特征向量极其稀疏，因而对于系统整体性能影响不大。

地址用字及其各字间前后关联性具体例子如下：

最大熵训练中一个适用性好，限制条件少的算法是IIS算法。其算法核心可以归结为以下两步：

（1）以任意值初始化λ_i（1≤i≤k）；

（2）循环直到收敛：

由

\underset{x, y}{Σ} N (x, y) f_{i} (x, y) - \underset{x}{Σ} N (x) \underset{y}{Σ} p_{λ} (y | x) f_{i} (x, y) e^{δ_{i} f (x, y)} = 0

求解δ_i；

更新λ_i←λ_i+δ_i。

其中结果为λ_i=0的特征是无用特征，说明其不能为地址识别提供任何有用信息；结果为λ_i=∞的特征是最佳分类特征，应用此类特征即可确定地指出待判定字串是否是中文地址。

整个系统对地址做识别时先应用地址特征驱动，找到潜在地址，再通过上文所述的最大熵方法识别地址。考虑到地址本身的特点以及实现效率等方面，选择地址尾字驱动。

例文：北京天安门。先通过地址尾字驱动（如“京”字、“门”字）把可能的地址如“北京”、“天安门”、“安门”、“京天安门”、“北京天安门”等都作为潜在地址识别出来，再通过最大熵进行对地址用字（词），及地址前后用字（词）的分析得出最终识别结果。

这样做的好处可以归结为：一、地址尾字驱动不同于分词，因而没有分词错误率；二、系统可以很容易的识别出以同样尾字结尾的多个可能地址，因而在这一步召回率非常的高。三、与分词方法相比，用地址尾字驱动找到潜在地址的系统执行效率略高。

图1是应用上述方法识别和抽取EXCEL文档姓名、地址信息数据并结构化的处理的具体流程图。如该图所示，其步骤包括：

1）创建处理的类对象：

workBook=new ExCelAnalysis(libName);

需要指定库的目录libName。

2）将需要处理的Excel文件名传递到对象中：

workBook.setWBFileName(tfName);

tfName：待处理的Excel文件名。

3）测试该Excel文件是否正常：

workBook.openWorkbook()

如果正常则进行后续处理，如果异常则跳出分析，清理缓冲信息后退出程序；

4）应用最大熵模型对需要处理的Excel文件进行信息抽取，获得的具体内容存放在类对象中缓存：workBook.writeWorkBookInDataBase()；

5）从类对象中输出识别结果；

6）清理缓冲的信息：workBook.closeWorkBook()，结束并退出。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求所述为准。

Claims

1.一种基于语义分析的EXCEL文档中身份信息的识别方法，其步骤包括：

2.如权利要求1所述的方法，其特征在于：步骤2）将需要处理的Excel文件名传递到所述类对象中以后，测试该Excel文件是否正常，如果正常则进行后续处理，如果异常则跳出分析，清理缓冲信息后退出程序。

3.如权利要求1所述的方法，其特征在于：所述最大熵模型使用的训练方式为IIS方法。

4.如权利要求1所述的方法，其特征在于：在识别姓名信息时，将姓名本身的信息和上下文中的信息转化为特征，以获得特征函数；对于姓氏用字作为非姓名出现的情况，采用类似二元语法的方式表达特征，以获得特征函数。

5.如权利要求4所述的方法，其特征在于：所述姓名本身的信息是指姓氏用字、名用字和姓名内部成词信息，所述姓名上下文信息是指姓名前后的邻接词或邻接字。

6.如权利要求4所述的方法，其特征在于：建立名人词典以提高姓名识别的准确率。

7.如权利要求1所述的方法，其特征在于：在识别地址信息时，分别从如下方面选取特征：地址尾字、地址用字及其各字间关联性、地址前词、地址后词、地址前词与地址首字的关联性、地址后词与地址尾字的关联性。

8.如权利要求7所述的方法，其特征在于：选取地址识别的特征时，如果一个地址前词频繁地与正确地址同时出现，同时它又在全文中出现的次数较少，即不在正确地址之前而在普通词之前出现的次数较少，则选取这个词为特征。

9.如权利要求7所述的方法，其特征在于：在选取地址尾字和地址用字及其各字间前后关联性这两类与篇章上下文无关的特征的时候，不仅应用真实语料作为训练集，同时还使用中国地址词库的地址同时作为训练集。

10.如权利要求7所述的方法，其特征在于：在对地址做识别时，选择地址尾字驱动找到潜在地址。