CN104346379B

CN104346379B - 一种基于逻辑和统计技术的数据元识别方法

Info

Publication number: CN104346379B
Application number: CN201310330181.XA
Authority: CN
Inventors: 谭远华; 朱平; 杨雪
Original assignee: KARAMAY HONGYOU SOFTWARE CO Ltd
Current assignee: Red software Limited by Share Ltd
Priority date: 2013-07-31
Filing date: 2013-07-31
Publication date: 2017-06-20
Anticipated expiration: 2033-07-31
Also published as: CN104346379A

Abstract

本发明涉及数据识别技术领域，具体公开了一种基于逻辑和统计技术的数据元识别方法；包括：客户端提交待测试语料的数据处理请求，用计算机统计数据元库中数据的长度特征以及数据元结构的词法规则，根据数据的长度特征对数据进行分类，分别总结不同分类下的数据元结构的词法规则，用词法分析工具对待测试语料中的数据进行分词及词性标注处理，并用长度特征和词法规则从测试语料中抽取出候选数据元；统计候选数据元在测试语料中的分布情况，将候选数据元逐步划分到数据元和非数据元两个类别；分别用过滤子串算法、短语搭配检验并结合词汇活跃度进行过滤，再计算领域相关度，再将短语按领域相关度从大到小排序。本发明解决了数据元识别自动化的问题。

Description

一种基于逻辑和统计技术的数据元识别方法

技术领域

本发明涉及数据识别技术领域，尤其是涉及一种基于逻辑和统计技术的数据元识别方法。

背景技术

数据元(Data Element)：又称数据类型，通过定义、标识、表示以及允许值等一系列属性描述的数据单元。在一定语境下，通常用于构建一个语义正确、独立且无歧义的特定概念语义的信息单元，是用来对行业数据进行统一的名、型、值的规范及分类；目的是建立满足各种类型的行业领域数据库建设和数据库整合，以及数据集成、交换、共享、服务和应用对数据标准化的需要。

6W原则是诺贝尔文学奖获得者英国作家吉卜林提出的思考问题、解决问题的方法，即“Where(什么地方)、When(什么时间)、Who(什么人)、Which(针对什么)、What(做了什么，及如何做)、Why(为什么)”。任何一件事情、一个问题，都无法逃脱这六个“W”，若弄通了这六个“W”，对于这件事情或这个问题，才可以彻底清楚明白。

国家在2005年发布了“数据元标准化的基本原则与方法”科学数据共享工程技术标准(SDS/T 2132-2004)。很多行业依据该标准启动了相关业务领域数据元标准的建设工作。分析目前已发布的数据元标准，多为逻辑层面的数据元，目前数据元标准化只能是人工依据数据结构或业务逻辑通过人工定义的方法进行分析和定义，而数据元标准化的基础就是要先得到数据元，现有技术只能人工进行识别数据元，然后根据人工识别的结果进行人工数据元分类，至今还没有自动化的识别方法。如何有效地利用计算机自动识别获取自由文本中的数据元，目前尚无有效地解决方案。

发明内容

本发明所解决的技术问题是提供一种基于逻辑和统计技术的数据元识别方法，本方法解决了数据元识别自动化的问题，为数据元后期的分类打下了良好的基础。本发明在自由文本数据元提取和数据元提取后的分类处理过程中，采用6W原则对提取的数据元进行时间类、位置类、组织类、对象类、活动类和特征类定义，增强了对自由文本中的数据元抽取、定义和命名的可靠性与适用性。本发明为行业领域建立了适用通用和专用的数据元目录，即数据元字典，为行业数据元标准体系建设提供了依据。

为了解决上述技术问题，本发明提供了一种基于逻辑和统计技术的数据元识别方法；包括：

步骤一：数据元语言规则的获取：客户端提交待测试语料的数据处理请求，依据数据元库中的数据为基础，用计算机统计数据元库中所述数据的长度特征以及数据元结构的词法规则，根据所述统计的结果总结数据的长度特征，根据所述数据的所述长度特征对所述数据进行分类，然后分别总结不同分类下的数据元结构的词法规则，用词法分析工具对所述待测试语料中的所述数据进行分词及词性标注处理，并用所述长度特征和所述词法规则从测试语料中抽取出候选数据元；

步骤二：概念数据元识别：统计所述候选数据元在所述测试语料中的分布情况，根据所述候选数据元的所述分布情况构造样本空间，基于FCM聚类算法的框架下，将所述候选数据元逐步划分到数据元和非数据元两个类别中，完成所述数据元的自动识别；

步骤三：逻辑数据元和应用数据元识别：用过滤子串算法去除抽取的所述候选数据元中结构不完整的数据元候选项，用短语搭配检验，删除所述候选项中搭配不正确的词串，并结合词汇活跃度过滤包含活跃词汇的固定搭配，再计算领域相关度，将过滤后的短语按所述领域相关度从大到小进行排序，排序结果即为逻辑数据元和应用数据元识别的最终结果。

优选的，所述步骤一中，所述数据的长度特征以及数据元结构的词法规则是指不同长度的所述数据的出现频次、不同词性所述数据的出现频次以及不同词性序列所述数据的出现频次。

更加优选的，所述步骤一中，所述分词及词性标注采用词法分析工具ICTCLAS进行分词及词性标注。

更加优选的，所述步骤一中，所述数据元库是指收录了需要进行数据识别的相关领域的数据元的库，所述数据元库中的每条数据都以三元组的形式记录，所述三元组包括数据元库中的一条数据元，所述数据元的长度，即所述数据元中包含的单词数，以及所述数据元的词性组合序列。

更加优选的，所述步骤一中，所述数据元结构的词法规则包括词性序列特征和构词特征。

更加优选的，所述步骤一中，所述数据元结构的词法规则是基于所述数据元的长度特征进行分类的。

更加优选的，所述步骤一中，基于所述数据的所述长度特征对所述数据元结构的词法规则进行分类时，所述分类包括四个部分：单词型的概念数据元，即只包含1个单词的数据元；短词组型的逻辑数据元和应用数据元，即包含2或3个单词的数据元；中词组型逻辑和应用数据元，即包含4～6个单词的数据元；长词组型的逻辑数据元和应用数据元，即包含大于6个单词的数据元。

更加优选的，所述步骤一中，抽取出所述候选数据元时，所述候选数据元包括候选概念数据元、候选逻辑数据元和候选应用数据元。

更加优选的，所述步骤一中，抽取出所述候选数据元时，所述候选概念数据元抽取的候选项包括：n表示名词、v表示动词、a表示形容词、b表示区别词、l表示习用语、d表示副词、m表示数词以及q表示量词。

更加优选的，所述步骤一中，抽取出所述候选数据元时，所述候选逻辑数据元和所述候选应用数据元的抽取规则包括：二词三词的词法模式以及四词五词六词的抽取规则，二词词法模式包括n+n、v+n、n+v、v+v、a+n、b+n、a+v、d+v、m+n、n+a；三词词法模式包括：n+n+n、n+v+n、v+v+n、v+n+n、n+n+v、d+v+n、a+n+n、v+n+v、n+v+v、a+v+n；四词五词六词的抽取规则包括：规则一：4～6个单词的所述数据元候选项中不得包含如下性质的词语：w表示标点、r表示代词、g表示语素、l表示习用语、z表示状态词、x表示非语素词、s表示处所词、o表示拟声词、e表示叹词、y表示语气词以及i表示成语；规则二：4～6个单词的所述数据元候选项中不得以c表示连词、u表示助词以及k表示后接成分作为词首；规则三：4～6个单词的所述数据元候选项中不得以c表示连词、f表示方位词以及h表示前接成分作为词尾；规则四：4～6个单词的所述数据元候选项中至少有一个词属于n表示名词、v表示动词、q表示量词、l表示习用语、j表示简称略语或k表示后接成分。

更加优选的，所述步骤二中，在所述FCM聚类算法采用TFIDF准则度量每个所述候选数据元，分别选择所述TFIDF值中最大的样本作为正例集合的初始类中心点，选择所述TFIDF值中最小的样本作为负例集合的初始类中心；并同时采用向量空间模型作为特征表示方法，将所述向量空间模型和所述TFIDF值相乘得到的结果作为领域相关度的最终评价结果。

更加优选的，所述步骤二中，在所述FCM聚类算法计算之前，先将所述FCM聚类算法优选规则进行设置，预设聚类类别数c、模糊加权指数m以及收敛阈值ε，所述收敛阈值ε的是第k次迭代和第k+1次迭代类中心向量的误差||Vk-Vk-1||≤ε时，则停止迭代计算。

更加优选的，所述步骤二中，所述聚类类别数c设为2，所述模糊加权指数m设为2，所述收敛阈值ε为1e^-3。

更加优选的，所述步骤三中，所述过滤字串算法是指在信息抽取任务中，以词串的独立概率作为衡量指标，当父串和子串同时出现在抽取结果中时，考察子串的结构是否完整，或子串和父串是否重叠，为每个所述子串寻找所述语料中出现的最短父串，根据所述子串与所述父串之间的关系来判断所述子串是否独立存在，进而判断是否该删除所述考察子串，当判断每条候选项的结构不完整时，删除不合格的破碎子串。

更加优选的，所述步骤三中，所述短语搭配是检验短语中词语搭配是否合适，分别给互信息和活跃度加入一个阈值，将所述互信息和所述活跃度加入阈值后求和作为最终判断标准，从短语列表中剔除结构不稳定的候选项，所述结构不稳定的候选项包括短语内部词语之间的搭配不合理以及短语中包含活跃度较高的词汇；所述互信息指词语之间的搭配程度，所述活跃度指词语的活跃度。

更加优选的，所述步骤三中，所述领域相关度是基于词频分布变化基础对候选项与专业领域的相关程度进行对比，通过候选项在每篇文档中出现频次的分布方差反映所述候选项在每篇文档中的变化程度，结合TFIDF方法体现所述候选项在整个语料中的覆盖量，评估出所述候选项与专业领域知识的关联程度。

更加优选的，所述步骤三中，所述领域相关度计算公式为：DR(t)＝tf-idf(t)·σ(t)；其中，所述tf-idf(t)根据TFIDF方法计算，所述σ(t)为方差。

更加优选的，所述步骤三中，所述结构不完整的候选项指不具备独立存在的意义、结构不完整的破碎子串。

更加优选的，在所述步骤二和所述步骤三之后，按照6W原则对识别出的概念数据元、逻辑数据元和应用数据元进行分类分析，并将分析结果输出给所述客户端。

其中，所述数据元包括概念数据元、逻辑数据元和应用数据元，其中：概念数据元属高度抽象的最小概念定义，如：井、时间、原油、产量；逻辑数据元属实例化赋予明确意义的数据元，类似数据库实体属性或数据项，如：井号、生产日期、原油产量；应用数据元是对数据的明确语义表达，如：油井每日原油产量，它可以离开任何数据结构对数据进行精确表达。逻辑数据元和应用数据元都可以通过概念数据元进行表达。在数据建模过程中，首要任务就是确定逻辑数据元，然后从逻辑数据元中分析出纯概念数据元，本案称其为数据元素，并依据分析结果建立数据元素之间的联系，进而得到数据元素之间的语义网状结构，用于对数据元的准确定义，并繁衍出用于数据语义描述的应用数据元。

其中，所述数据元库是指收录了需要进行数据元识别的相关领域的数据元的库，该数据元库中的每个条目都以三元组的形式记录，记为<Ti,Len(Ti),POS(Ti)>，其中Ti表示数据元库中第i条数据元；Len(Ti)表示第i条数据元的长度，即该条数据元中包含的单词数；POS(Ti)表示第i条数据元的词性组合序列。

其中，所述词法分析工具ICTCLAS是中科院计算所研制的，该工具中使用的词性标注集为北大汉语文本词性标注标记集。ICTCLAS可通过网络免费获取，并在其相关文档中附有北大汉语文本词性标注标记集。

其中，所述FCM聚类算法即模糊C均值聚类算法(Fuzzy C-Means，FCM)，该算法是对自变量的一个约束优化处理，通过初始化类中心或者隶属度矩阵、方程迭代，直到使得目标函数最小化。在FCM算法中，各类中心的初始位置和属性是随机选取的，若初始类中心与实际的类中心十分接近，则迭代次数很小，快速收敛于实际类中心。反之，则会消耗大量的聚类时间。

其中，现有的过滤字串算法主要从父串出发，删除与父串具有相同词频或相差K-频次的子串。由于公共破碎子串与父串之间词频差异较大，这些方法在识别由公共子串引起的错误时，效果并不理想。如何在删除普通破碎子串的同时，也能够过滤掉公共破碎子串，目前还没有理想的方法。

其中，现有的检验词语之间的搭配程度可以使用互信息作为度量标准，检验词语活跃度可以使用词语活跃度计算公式现有技术中，只能单独考察这两方面中的一方面对短语搭配的影响。

其中，所述TFIDF(term frequency–inverse document frequency)是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

其中，所述数据元的长度指包含在数据元中的单词数。概念数据元是指最基本的数据元，即为对象、特性、活动中的一个，逻辑数据元是指在基本数据元的基础上加入修饰的特征词，即由对象、特性、活动中的两两构成，而应用数据元是指有完整的场景描述的数据元，即由对象、特性、活动三者共同构成。数据元的最小长度为1，也就是数据元中仅包含1个单词，即概念数据元，概念数据元为单词型的。例如：“油井”仅由1个单词构成，属于概念数据元(单词型)。逻辑和应用数据元包含两个及更多的单词，是词组型的，词组型数据元的长度是大于1的，例如：“油井深度”经分析后可拆分为两个单词“油井”和“深度”，因此长度为2。

其中，所述向量空间模型(VSM：Vector Space Model)把对文本内容的处理简化为向量空间中的向量运算，并且它以空间上的相似度表达语义的相似度，直观易懂。具体步骤包括：①将候选概念数据元作为输入数据；②使用TFIDF准则度量每个候选样本，分别选择TFIDF值最大的样本作为正例集合的初始类中心点，选择值最小的样本作为负例集合的初始类中心，由正例和负例的初始类中心点构成初始化类中心矩阵V(0)；预设误差阂值ε，且ε>0；设迭代次数k＝0；③对根据欧氏距离计算该样本对各类的隶属程度；若dik＝||xi-vk||＝0，则设uik＝1，且令uir＝0(r≠k)；④根据FCM目标函数，更新类中心矩阵，记为V(k+1)；⑤如果||V(k)-V(k+1)||<ε，则停止迭代；否则，令k＝k+1，并跳至步骤2；⑥返回类中心矩阵V(k)。

本发明与现有技术相比，具有如下有益效果：

本方法解决了数据元识别自动化的问题，为数据元后期的分类打下了良好的基础。本发明在自由文本数据元提取和数据元提取后的分类处理过程中，采用6W原则对提取的数据元进行时间类、位置类、组织类、对象类、活动类和特征类定义，增强了对自由文本中的数据元抽取、定义和命名的可靠性与适用性。本发明为行业领域建立了适用通用和专用的数据元目录，即数据元字典，为行业数据元标准体系建设提供了依据。

附图说明

图1示例性地示出了基于逻辑和统计技术的数据元识别方法流程示意图；

图2示例性地示出了概念数据元的识别流程示意图；

图3示例性地示出了逻辑数据元和应用数据元的识别流程示意图。

具体实施方式

为了更好地理解本发明所解决的技术问题、所提供的技术方案，以下结合附图及实施例，对本发明进行进一步详细说明。此处所描述的具体实施例仅用以解释本发明的实施，但并不用于限定本发明。

在优选的实施例中，图1示例性地示出了一种基于逻辑和统计技术的数据元识别方法流程图；包括：

整个数据元识别方法可以划分为三个模块，分别为数据元语言规则获取模块、概念数据元识别模块(单词型)以及逻辑和应用数据元识别模块(词组型)。(1)数据元语言规则获取模块：以数据元库中的数据为基础，用计算机统计数据元库中所述数据的长度特征以及数据元结构的词法规则，根据所述统计的结果总结所述数据的长度特征，根据长度特征对数据元进行分类，然后分别总结不同分类下的数据元结构的词法规则，用词法分析工具对测试预料进行分词及词性标注处理，并用所述长度特征和所述词法规则从测试语料中抽取出候选数据元；(2)概念数据元(单词型)识别模块：统计候选项在语料中的分布数据，利用数据元在语料中分布的局部信息来构造特征空间，在FCM算法的框架下，将候选项逐步划分到数据元和非数据元这两个类别中，实现数据元的自动识别和标注；(3)逻辑和应用数据元(词组型)抽取模块：由于使用的语言规则比较宽松，接纳了更多非名词性的词汇和短语，因此在抽取出的候选项中会存在很多噪声数据。在该模块中，将会使用过滤子串算法去除其中结构不完整的候选项；利用短语搭配结构检验，删除其中搭配不正确的词串，结合词汇活跃度过滤那些包含活跃词汇的固定搭配；最后计算领域相关度，将过滤后的短语按相关度从大到小排序，排序结果即为逻辑数据元和应用数据元识别的最终结果。

最后，综合概念数据元、逻辑和应用数据元的识别结果即为数据元识别的最终结果。

具体的实施例中：

文本分词及词性标注：本方法中凡是涉及到需要对自由文本进行分词及词性标注工作的，都采用中科院计算所的词法分析工具ICTCLAS进行分词并对所有条目进行了词性标注，该工具中使用的词性标注集为北大汉语文本词性标注标记集。ICTCLAS可通过网络http：//ictclas.org免费获取，在其相关文档中附有北大汉语文本词性标注标记集。

语言规则获取模块：数据元库中的每个条目都以三元组的形式记录，记为<Ti,Len(Ti),POS(Ti)>，其中Ti表示数据元库中第i条数据元；Len(Ti)表示第i条数据元的长度，即该条数据元中包含的单词数；POS(Ti)表示第i条数据元的词性组合序列。例如：数据元“压力”、“井口压力”、“测试压力”和“地层测试井口压力”的记录如表1中所示。

表1、数据元库中记录示例

Ti	Len(Ti)	POS(Ti)
			压力	1	压力/n
井口压力”	2	井口/n压力/n
			测试压力	2	测试/v压力/n
地层测试井口压力	4	地层/n测试/v井口/n压力/n

通过该数据元库，主要可以自动学习出该数据元的长度分布特征、词性序列特征、数据元的构词特征等。

长度特征：包含在数据元中的单词数，叫做数据元的长度。三类数据元与对象、特性、活动存在密切的关系，概念数据元是指最基本的数据元，即为对象、特性、活动中的一个，逻辑数据元是指在基本数据元的基础上加入修饰的特征词，即由对象、特性、活动中的两两构成，而应用数据元是指有完整的场景描述的数据元，即由对象、特性、活动三者共同构成。数据元的最小长度为1，也就是数据元中仅包含1个单词，即概念数据元，概念数据元为单词型的。例如：“油井”仅由1个单词构成，属于概念数据元(单词型)。逻辑和应用数据元包含两个及更多的单词，是词组型的，词组型数据元的长度是大于1的，例如：“油井深度”经分析后可拆分为两个单词“油井”和“深度”，因此长度为2。

长度特征的总结主要是要统计分析相关应用领域的数据元库中的数据元的长度分布特征，即数据元的构词长度分布特征，这里以单词为最小结构进行统计分析。这里只给出了一个大致的规律，但是这个规律也会根据不同的领域表现出不同的变化特征，在应用到具体的领域时，要根据实际情况进行分析总结，下面给出一个大致的规律：

1)逻辑和应用数据元(词组型)在数目上要远多于概念数据元(单词型)；

2)绝大部分逻辑和应用数据元(词组型)由2--6个单词构成，包含6个以上单词的数据元极其稀少；

3)在长度为2～6的数据元中，又以包含2,3个单词的数据元条目最多，长度为4、5和6的数据元出现相对较少。

词法规则：这部分对于词法规则总结的描述是基于长度特征总结的，根据总结出的数据元长度分布特征，可以将整个数据元集合划分成四个部分：①概念数据元(单词型)，即只包含1个单词的数据元；②长度为2或3个单词的逻辑和应用数据元(词组型)；③包含4-6个单词的逻辑和应用数据元(词组型)；④长度大于6的逻辑和应用数据元(词组型)。

由于长度大于6的词组型数据元出现的频次极其稀少，所以在下面的章节中，只着重分析前三个划分子集中的数据元，并从不同角度探析这些子集中数据元的词法特征。

(1)概念数据元(单词型)的词性分布特征：从功能的角度来看，汉语中的词汇可以划分为两类：实词和虚词。实词是有实在意义的词，每一个实词都有独立的语义，可以独立充当句子的成分或者单独回答问题。虚词则是没有实在意义的词，除了部分副词外，一般不能单独充当句子成分，不能单独回答问题。虚词主要是用来帮助构建句子的语法结构。

由于语言的基本作用是表达具体的含意，那么就不能缺少这些能够表达实际意义的实词，因此在整个语言系统中，实词的数量要远胜于虚词。在现代汉语中，一般认为实词包含以下六类：名词、动词、形容词、数词、量词和代词。

数据元是一种能够表述具体概念的语言单元，隶属于实词的范畴。在六类实词中，代词是较为特殊的一种。虽然代词指代的内容是明确的，但是其缺乏明确独立的语义，一般代词不能充当领域中的数据元。其他五类实词都属于数据元中常见的词类。

1)名词：是表示人、事物或抽象概念名称的词。例如：数据、信息、参数、脉冲等等。2)动词：是表示人或事物的动作、存在现状及发展趋势的词。例如：复制、追踪、学习、译码等等。3)形容词：表示人或事物的性质、状态的词，与英语不同的是，汉语中的形容词既可以修饰名词，也可以用来修饰动词。例如：模糊、抽象、空、纯等等。4)数词：表示数目的词。例如：批量、多数等等。5)量词：表示人或事物及动作的计量单位的词，一般可以和数词连用构成数量短语。例如：维、块、类等等。

从理论上讲，名词、动词、形容词、数词和量词这五类实词都可以用来担任数据元，但是在语料中的分布却是各不相同的。一般情况下，名词、动词、形容词出现较多，抽取候选项选择为：名词n、动词v、形容词a、区别词b、习用语l、数词m、量词q。

(2)二词、三词数据元的词法特征

在大部分数据元库中，超过70％的数据元都是由2-3个单词或2-6个单字组成的逻辑和应用数据元(词组型)。

①二词数据元的词法模式

二词数据元的词法模式搭配，多达上百种，这里给出了较常见的十种词法模式，见表2：

表2、二词数据元常见十种词法模式

序号	词性序列	示例
			1	N+N	“翻译/n引擎/n”
2	V+N	“测度/v空间/n”
			3	N+V	“机器/n学习/v”
4	V+V	“编译/v优化/v”
			5	A+N	“单调/a函数/n”
6	B+N	“机载/b雷达/n”
			7	A+V	“脏/a读/v”
8	D+V	“随机/d抽样/v”
			9	M+N	“多/m处理器/n”
10	N+A	“数据/n稀疏/a”

②三词数据元的词法模式

三词数据元在数量上要比二词数据元稍少，但是其词法搭配模式却要比二词的丰富很多，高达好几百种，这里同样只给出了最常见的十种作为三词词法模式的示例，见表3：

表3、三词数据元常见十种词法模式

序号	词法模式	示例
			1	N+N+N	“句法/n标注/n语料库/n”
2	N+V+N	“电路/n交换/v网络/n”
			3	V+V+N	“并行/v虚拟/v机/n”
4	V+N+N	“插/v值/n算法/n”
			5	N+N+V	“人脸/n图像/n重建/v”
6	D+V+N	“极/d值/v曲线/n”
			7	A+N+N	“模糊/a神经/n网络/n”
8	V+N+V	“联机/v事务/n处理/v”
			9	N+V+V	“存储器/n存取/v冲突/v”
10	A+V+N	“强/a连通/v图/n”

(3)四词、五词、六词数据元的词法特征

四词、五词、六词数据元的数量比二词、三词数据元又要少很多，但是随着包含单词数的增加，词法搭配模式的种类却快速增加。随着词法模式的逐渐增多，大部分词法模式的覆盖率连1％都达不到。可见，随着数据元长度的增加，3词以上的数据元已经不适合采用词法模式作为识别规则。

①内部词类特征

4～6词数据元中包含更多的词汇，涉及的词类也更丰富。但在这些词类中，标点(/w)、代词(/r)、语素(/g)、习用语(/l)、状态词(/z)、非语素词(/x)、处所词(/s)、拟声词(/o)、叹词(/e)、语气词(/y)出现的次数较少，没有数据元中使用过成语(/i)。由此制定抽取4-6词数据元使用的第一条词法过滤规则。

规则一：4～6词数据元候选项中不得包含如下性质的词语：w,r,g,l,z,x；s,o,e,y,i。

②词首的词类特征

与此同时，再观察数据元首词的词类分布情况，大多都是以名词(/n)、动词(/V)、形容词(/a)和副词(/d)这四种词类开头。而连词(/c)、助词(/U)、状态词(/z)、习用语(/l),处所词(/s)、语素(/g)、后接成分(/k)、拟声词(/o)和非语素词(/x)的出现概率则很低，此外，叹词(/e)、语气词(/y)和成语(/i)没有出现过。

在规则一的基础上，制定4-6词数据元首词的词法过滤规则：

规则二：4-6词数据元不得以连词(/C)、助词(/u)和后接成分(/k)作为词首。

③词尾的词类特征

另外，再看4-6词数据元的词尾，相对于词首而言，4-6词数据元的词尾多以名词和动词担任，由此可以看出汉语中短语中心词位置较为偏后。相对而言，标点符号(/W)、连词(/c)、方位词(/f),语素(/g)、非语素词(/X)、代词(/r)、处所词(/s)和语气词(/y)出现的极少，状态词(/z)、成语(/i)和前接成分(/h)没有出现过。

与规则二相似，制定4～6词数据元词尾的词法过滤规则：

规则三：4～6词数据元不得以连词(/C)、方位词(/f)和前接成分(/h)性质的词语结尾。

④中心语的词类特征

数据元是领域知识的总结，能够独立表述一定的概念内容。不论是构造单词型数据元还是词组型数据元，都需要有实词性质的词语参与。与单词型数据元不同，词组型数据元的结构较为复杂，其中包含的词汇一般可以分为修饰成分和中心语成分，中心语成分是不可或缺的一部分。实词中的形容词、数词一般充当短语中的修饰成分，而中心语成分则多由名词、动词等能够传达领域知识信息的词类担任。

词组型数据元中的词汇总类要比单词型数据元丰富得多，观察这些多词数据元发现，除了名词和动词外，量词(/q)、习用语(/l)、简称略语(/j)和后接成分(/k)也会担任数据元中的中心语成分。根据这一特点制定4-6词数据元的中心语词法过滤规则：

规则四：4-6词数据元中至少有一个词属于名词、动词、量词、习用语、简称略语或后接成分。

语言规则总结：

根据以上的分析，总结出语言规则获取模块需要遵循的规则：

概念数据元(单词型)：抽取候选项选择为：名词n、动词v、形容词a、区别词b、习用语l、数词m、量词q；

逻辑和应用数据元(词组型)：二词、三次：相应的词法模式；四词、五词、六词：四条规则。

根据以上语言规则，从测试语料中抽取数据元候选项，供下面步骤进一步处理。

概念数据元(单词型)识别：

基于模糊聚类算法的概念数据元(单词型)识别方法

(1)初始类中心的选择

在模糊C均值聚类(FCM)算法中，各类中心的初始位置和属性是随机选取的，如果初始类中心与实际的类中心非常接近，则迭代次数很小，快速收敛于实际类中心。反之，则会耗费大量的聚类时间。因此，并不采用随机的方式来选择初始类中心，而是使用TFIDF准则度量每个候选样本，分别选择TFIDF值最大的样本作为正例集合的初始类中心点，选择值最小的样本作为负例集合的初始类中心。

其中,tf(t)表示词t在语料中出现的频率，由于TFIDF只是作为排序参考值，因此本文总都采用词t在语料中出现的频次来代替词频；df(t)表示词t的文档频次；N表示语料库中包含的所有文档数。

TFIDF方法已经被成功嵌套于很多数据元抽取方法中，辅助多数据元抽取工作。如果词t在少量的文本中频繁出现，则极有可能是数据元，相应地也能获得较高的TFIDF值。因此TFIDF值最高的样本很可能就是真正的数据元且具备典型的数据元分布特征，选择该样本作为初始正例类中心；同理，选择TFIDF值最低的样本作为初始负例类中心。相较于随机选择的类中心点，使用TFIDF度量后的设置更加接近实际的类中心，可以减少迭代计算次数，加快聚类速度。

(2)向量表示

为了简化问题，采用向量空间模型(Vector Space Model,VSM)作为特征表示方法，来表示每个词语在语料中的分布特性。设待聚类的词语特征向量为xi(x_i1,x_i2,...,x_ik,...x_iN),N表示特征维数，这里也就是语料中包含的文档数。用词语在每篇文档中出现的比重来衡量词语在文档中的权重，并按权重的大小进行排序。

其中，tf_ik表示词语xi在文档k中出现的次数；tf_i表示词语xi在整个语料中的出现总频次。

(3)距离计算

在聚类过程中，需要不断估算样本点到更新后类中心的距离。采用欧式距离作为度量标准：

其中，M取值的约束条件为：M＝min(k,l)，k和l的取值满足x_ik≠0, v_jl≠0,

算法流程及参数设置

使用FCM算法自动判别概念数据元(单词型)的处理流程如附图2所示。

在聚类之前，需要预设聚类类别数c、模糊加权指数m以及收敛阈值ε等参数。所谓收敛阈值ε的意义就是第k次迭代和第k+1次迭代类中心向量的误差||V^k-V^k-1||≤ε时，则停止迭代计算。具体设置情况如下所示：

聚类类别数(c)：2，

模糊加权指数(m)：2，

收敛阈值(ε)：1e^-3，

逻辑和应用数据元(词组型)抽取模块。

基于多策略融合的逻辑和应用数据元(词组型)识别方法：在整个数据元系统中，词组型数据元占据了极大的比例，构造新的领域数据元时，在经济率的指导下，也更倾向于利用已有的单词来组成新的数据元。词组型数据元的抽取工作一直是数据元抽取研究中的重点内容。

相对于单词型数据元，词组型数据元的识别过程要更加复杂。由于引入了大量非名词性短语，随之产生了更多种的噪声数据，不仅需要判断短语结构是否完整，还要考虑短语内部词汇的搭配合理性、衡量短语中所负载领域信息量等问题。本章将词组型数据元抽取过程中遇到的这三个问题作为切入点，分别使用过滤子串、搭配检验和领域相关度计算技术来解决这三个问题，分析词组型数据元自身的结构特征以及其在语料中的分布特征，完善词组型数据元的抽取任务。

(1)过滤子串

在信息抽取任务中，父串和子串同时出现在抽取结果中时，需要考察子串的结构否完整，或者子串和父串在意义上是否重叠，这时就需要将判断是否该删除该子串。这个过程我们称之为过滤子串。

当子串不具备独立存在的意义时，子串在语料中独立出现的机会非常少，多数情况下是以父串的形式出现，这正是过滤子串算法实施的前提条件。

过滤子串需要解决的任务就是判断每条候选项的结构是否完整，删除不合格的破碎子串。

先介绍如下概念：

词串：中文字符串str，将其进行分词处理后，表示为str＝w1w2…wn,其中wi(1≤i≤n)是经分词处理后划分出的独立词语。例如：字符串“钻井深度”，经分词处理后，可以表示为一个长度为2的词串str＝“钻井”“深度”。

子串/父串：对于一个由n个词语构成的词串str＝w1w2...wn(n≥2)，由str中任意m个(m<n)连续单词构成的有序连续字符串subStr，称为str的子串；同时，称str为subStr的父串。例如：“钻井深度”是“钻井深度测量”的子串，而“地层压力测试”是“地层压力”的父串。

最长子串/最短父串：对于一个由n个词语构成的词串str＝w1w2...wn(n≥2)，在str众多的子串中，有两个包含n-1个单词的子串，分别记为Lsub＝w1w2...wn-1和Rsub＝w2w3...wn，则称Lsub和Rsub为词串str的两个最长子串；而str称为Lsub和Rsub的一个最短父串。例如：“隐马尔可夫模型”的最长子串分别为“马尔可夫模型”和“隐马尔可夫模”；那么“隐马尔可夫模型”就是“马尔可夫模型”的一个最短父串。

过滤子串：如果某词串str＝w1w2...wn和其父串满足设定的某种过滤条件时，则将该词串str过滤掉。

公共子串就是指拥有多个相异父串的字符串，且这些父串之间不存在嵌套关系。首先，公共子串必须拥有2条以上的父串。其次，并不是所有拥有多条父串的字符串都可以称为公共子串，要求其父串之间不存在嵌套关系。

公共破碎子串是指缺乏完整短语结构的公共子串。由于这些字符串在结构上有所缺失，因此不能传达任何有价值的信息，在语料中没有独立存在的意义。

由于分词粒度是产生公共破碎子串的主要原因，相对于公共子串而言，公共破碎子串具有一个特殊语言现象，即：公共破碎子串的最短父串是在子串的基础上，在其同侧扩展所得。例如：“体识别”是一个结构破碎的公共子串，除了拥有“手写体识别”这个父串外，还有“实体识别”、“整体识别’“、“本体识别”这三个父串，这些最短父串都是在“体识别”的左侧进行扩展。又如：“朴素贝叶斯”和“朴素贝页斯”会产生“朴素贝”这样无意义的破碎子串，这两个父串都是从子串的右侧扩展而来。

当多个短语具有公共子串时，如果生成子串结构不完成，没有独立存在的意义，那么该公共破碎子串在语料中独立出现的概率极小，多是以子串的形式出现在其他短语内部。

正是由于缺乏独立性，公共破碎子串在语料中出现的频次和所有同侧最短父串的频次均有关联。利用子串与父串出现频率之间的关系，可以为字符串评估其在语料中独立出现的概率，作为过滤子串的准则。

假设某候选词串str＝w1w2...wn，其最短父串集合MinParSet＝LMinParSetRMinParSet，其中，LMinParSet是词串str左侧最短父串集合，RMinParSet是右侧最短父串集合，则词串str独立出现的概率为：

Idp(str)＝1-dp(MinParStr I str)

其中，dp(MinParstr I str)表示词串str的作为子串在语料中出现的概率。

str对左侧最短父串的依赖度可通过下式计算：

Ldp＝dp(LMinParSet}str)

同理，str对右侧最短父串的依赖度为：

Rdp＝dp(RMinParSet I str)

词串str独立出现的概率可表示如下：

Idp(str)＝1-dp(pstr I str)

＝1-MAX{Ldp(str),Rdp(str)}

词串str在语料中独立出现的概率由其与父串之间的关系决定，分别考察str对左右两侧父串的依赖程度。str对父串的依赖程度越大，表示str在语料中独立出现的概率就越低，str拥有完整结构的可能性就越小。依赖性较大的一侧，说明在该侧结合其他词汇的机会较多，由该侧扩展而成的父串对str结构的影响也就越大。

当词串str在语料中独立出现的概率超过某个阈值时，就认为该词串具备独立存

在的意义；反之，当独立的概率低于这个闽值时，认为该词在语料中多以短语子串的形式出现，充当独立成分的几率很小。

使用独立出现概率来作为过滤子串的条件，不仅可以删除候选集中的同频子串，还能消除由公共破碎子串造成的干扰。

通过以上分析，给出过滤子串算法：

在统计词串独立性的过程中，需要为每个词串寻找最短父串，这个过程是影响子串归并算法时间复杂的主要因素。为了降低复杂度，将需找最短父串的过程修改为为候选集中的每个词串寻找最长子串的过程，大幅减少了查询次数，将时间复杂度控制在O(n)。

具体的算法流程如下所示：

输入：候选词表L，包含候选n条候选词串，独立性阈值ε，测试语料C；

输出：过滤完垃圾子串的候选词表L'；

算法：为候选词表中的每个词串分配一个四元组<str,fre,lpfre,rpfre>,fte表示词串str在测试语料C中的词频，lpfre/rpfre分别记录词串str左侧最短父串和右侧最短父串在测试语料C中出现的频次。

将候选词表中的词串及其词频输入到四元表中，lpfre和rpfre的初始值设为0。

For i＝0to n

Lsub＝str的左侧最长子串；

while(Lsub&&Lsublength≥2)

{Lsub＝str的左侧最长子串；}

ifLsub.rpfre+＝str.fre；

Rsub＝str的右侧最长子串；

while(Rsub&&Rsub.length≥2)

{Rsub＝str的左侧最长子串；}

ifRsub.lpfre+＝str.fre；

Endfor

For i＝0to n

Ldp＝str.lpfrelstr.fre；

Rdp＝str.rpfrelstr.fre；

Idp＝1-MAX{Ldp，Rdp}；

If(Idp>ε)将str添加到L'；

Endfor

在该算法中，包含了两次循环计算，第一次循环是为每个词串str找出候选词表L中存在的最长左子串和最长右子串，假设词串str中包含了k个词语，最多只需要检验2(k-1)个子串即可完成，那么内循环的次数最多不会超过常数2(k-1)次，在这个步骤中，时间复杂度由外层循环次数决定，为O(n)；第二次循环为每个词串计算其在测试语料中独立出现的概率，时间复杂度也为O(n)。因此这个算法整体的时间复杂度依然为O(n)。

(2)短语搭配结构检验

搭配检验的目的是为了检验短语中词语搭配是否合适，从短语列表中剔除那些结构不稳定的候选项。评判一个短语能否成为数据元候选项时，将会从两个方面入手：一是查看短语内部词语之间的搭配是否合理；二是判断短语中是否包含活跃度较高的词汇。

词语搭配的度量采用点式互信息的方法，具体描述如下：

设有短语t＝w₁,w₂...w_n，词w_i和w_i+1，是短语中相邻两个单词。这两个词语搭配在一起的概率用点式互信息方法可以计算为：

Ml(w_i w_i+1)＝

其中，p(w_i w_i+1)表示词w_i和w_i+1共同出现的概率；p(w_i)和p(w_i+1)分别表示词w_i和w_i+1在语料中出现的概率。

为短语统计其内部词语的整体搭配和谐度时，将其划分为两个相互连接的子串，将这两个词串看成两个单词，可将互信息扩展至n个词语：

MI(t)＝max{MI(w₁,...,w_i,w_i+1...w_n)}

在判断短语中是否包含活跃度较高的词汇时，需要查看其内部每个词语的活跃度，以此为短语赋予一个整体活跃度值。设有短语t＝w₁,w₂...w_n，短语t的活跃度(PhraseActive Degree,PAD)可以按下式计算：

PAD(t)＝max_wi∈t{WAD(w,)}

短语的PAD值越高，表示短语内部包含了活跃度较高的词语。

使用词语搭配度量和活跃度检测相结合的方法来制定短语过滤准则(PhraseFiltering Measure,PFM)，在判断短语内部词语搭配合理性的同时，还能检测短语内部包含的词语是否太活跃，影响短语结构的稳定性。

PFM(t)＝MI(t)+

式子中的和是规范化系数，可以调节互信息值和活跃度值的比重。如果待考察列表中的短语以名词短语居多，可以加大互信息的比重；相反，如果列表中包含的短语类型较为繁多、复杂，则可以加大活跃度的比重。

当短语内词语之间的结合能力越强、短语活跃度越低，表明该短语的表达方式也越稳定，是优良的数据元候选项。

(3)领域度检验

过滤子串和短语搭配结构检验这两个统计策率主要是从数据元结构、词语搭配角度来处理候选数据元，过滤掉其中结构不完整、搭配不合理的候选项。但数据元作为一种特殊存在的短语，与普通短语的最主要区别就在于前者负载了更多的领域信息，能够传达丰富的专业知识。

衡量一个词汇是否是数据元，最直接的方法检验该词和专业领域的相关程度，即领域度。与领域知识的相关度越高，该词就越可能是数据元。

从数据元的局部分布特征和整体分布变化来度量数据元的领域度。

数据元的局部分布特征：

1)若文档的主要内容和该数据元关系密切，则该数据元被提及的次数很频繁。在这篇文档中，数据元出现的频次则较多；

2)文档与该数据元属于同一类别内，但并不是直接相关，所以会有所提及，但次数较少。

由于以上两点规律，数据元在不同的文档中，出现的词频才会有较大的变化。可见，词频分布的变化能对鉴别一个候选项是否为数据元做出重要的指示。本文正是基于这种观察，提出了基于词频分布变化的领域相关度计算方法。

数据元的整体分布变化：假设在包含N篇文档的语料中抽取出候选数据元t，t在第i篇文档中出现的频率记为tf，t在整个语料中的出现频次记录为TF＝[tf₁,tf₂,...,tf_N]，选择其中tf_i>0的元素构成新的词频集合TF‘＝[tf₁‘,tf₂‘,...,tf_N‘]，其中L≤N。在TF‘集合上计算数据元t在语料中的分布均值和方法方差，执行方差计算时，只需要统计出两个参数的值：候选数据元在每篇文档中出现的频次，以及出现的文档数。统计这两个参数的时间复杂度只和所用语料的规模有关。

由此总结出数据元领域度的计算方法：数据元的分布方差反映了数据元在每篇文档中的变化程度，而TFIDF方法则能够体现数据元在整个语料中覆盖量。

使用这两种方法，结合数据元分布的局部特征和全局特征，评估候选数据元与领域知识的关联程度，也就是完成领域度的计算：

DR(t)＝tf-idf(t)·(t)

计算出领域度后，根据数值的大小对候选数据元进行排序。与实验语料所属领域紧密相关的候选项会排在较为靠前的位置，而普通的短语则会出现在集合的中后部。使用tf-idf值和方差值相结合的方法，即使是低频数据元也会获得较高的领域相关度。

逻辑和应用数据元(词组型)抽取：

在这个模块中主要包含三个子模块：过滤子串、短语搭配结构检验和领域度检验。这三个子模块采用串行操作，前子模块处理后的输出结果即为后一子模块的输入数据。采用串行方式可以逐步减少需要处理的数据量，达到降低时间复杂度的目的。

三个子模块的执行顺序如附图3中所示。

由于候选数据元不再限定为名词短语，在提高系统召回率的同时，也会引入大量干扰数据。设语言规则抽取出的候选集记为L，在逻辑和应用数据元(词组型)判定过程中，首先需要判断每个候选项是否具有完整的结构，将合格选项纳入列表L1中，完成第一次过滤任务；其次考察L1中的词串内部词语搭配是否合理，是否包含非名词性质的活跃词汇，过滤后构建列表L2；最后为L2中的每个短语衡量与专业领域知识的相关联程度，并在表L’将这些短语按相关度从高到低排序。L‘即为逻辑和应用数据元(词组型)抽取模块输出的最终结果。

数据元6W语义分析：

这部分是对已经确定的数据元进行分类定义，分类原则按照6W原则，对自由文本分析出的单词进行词性进行分析，完成数据元相关领域概念数据元类型定义，包括类型、类别、条件、约束、频度等。

其中类型包括：行业、专业、业务、活动、时间、地点、对象、属性、特性、资料、方法和参与者，类别是对类型的进一步明确，如：“活动”类型的类别可以为“策略(目标、战略、规划)、计划(方案、设计、计划)、实施(作业、生产、研究、管理)、审核(处理、解释、分析、评价)、总结”；“对象”类型的类别可以为“设备、设施、材料和部件”；“参与者”类型的类别可以为“作业者、操作者、执行者和参与者”；“时间”类型的类别可以为“时间、次序、步长和速节”；“特征”或“属性”类型的类别可以为“数字、字符、文本、布尔”；“资料”类型的类别可以为“数据体、报告、图件、报表”；“方法”类型的类别可以为“系统、模板、算法、结构”等。

条件和约束将遵循参与者和对象是活动的条件，活动是特征的条件也是结果资料的条件，对象是属性的条件，时间、地点、方法是活动的约束，也是特征和资料的约束，结果资料是事前准备为条件。条件和约束重要性和影响程度定义遵循宏观到微观，先发生到后发生，事发前到事发后，先父类再子类，先外部再内部，从大方面到小方面等。具体分析方法如下：

本案主要是对已经分析出来的概念数据元(单词型)进行类型和类别分析，对概念数据元进行约束和条件分析，对应用数据元进行值域和频度分析，最终结合领域专家大的知识经验对已分析出来的数据元字典进行标准化完善，形成能够满足本行业数据集成/交换需要。具体的6W语义分析方法不作为本案保护内容。在实际操作中，用户只需要给出需要进行数据元识别的自由文本，然后选择开始识别，该方法即可给出用户最后识别的数据元结果。

以上通过具体的和优选的实施例详细的描述了本发明，但本领域技术人员应该明白，本发明并不局限于以上所述实施例，凡在本发明的基本原理之内，所作的任何修改、组合及等同替换等，均包含在本发明的保护范围之内。

Claims

1.一种基于逻辑和统计技术的数据元识别方法，其特征在于，包括：

步骤一：数据元语言规则的获取：客户端提交待测试语料的数据处理请求，依据数据元库中的数据为基础，用计算机统计数据元库中数据的长度特征以及数据元结构的词法规则，根据所述统计的结果总结所述数据的长度特征，根据所述数据的所述长度特征对所述数据进行分类，然后分别总结不同分类下的数据元结构的词法规则，用词法分析工具对所述待测试语料中的所述数据进行分词及词性标注处理，并用所述长度特征和所述词法规则从测试语料中抽取出候选数据元；

2.根据权利要求1所述的基于逻辑和统计技术的数据元识别方法，其特征在于，所述步骤一中，所述数据的长度特征以及数据元结构的词法规则是指不同长度的所述数据的出现频次、不同词性所述数据的出现频次以及不同词性序列所述数据的出现频次。

3.根据权利要求1所述的基于逻辑和统计技术的数据元识别方法，其特征在于，所述步骤一中，所述分词及词性标注采用词法分析工具ICTCLAS进行分词及词性标注。

4.根据权利要求1所述的基于逻辑和统计技术的数据元识别方法，其特征在于，所述步骤一中，所述数据元库是指收录了需要进行数据识别的相关领域的数据元的库，所述数据元库中的每条数据都以三元组的形式记录，所述三元组包括数据元库中的一条数据元，所述数据元的长度，即所述数据元中包含的单词数，以及所述数据元的词性组合序列。

5.根据权利要求1所述的基于逻辑和统计技术的数据元识别方法，其特征在于，所述步骤一中，所述数据元结构的词法规则是基于所述数据元的长度特征进行分类的。

6.根据权利要求1所述的基于逻辑和统计技术的数据元识别方法，其特征在于，所述步骤一中，基于所述数据的所述长度特征对所述数据元结构的词法规则进行分类时，所述分类包括四个部分：单词型的概念数据元，即只包含1个单词的数据元；短词组型的逻辑数据元和应用数据元，即包含2或3个单词的数据元；中词组型逻辑和应用数据元，即包含4～6个单词的数据元；长词组型的逻辑数据元和应用数据元，即包含大于6个单词的数据元。

7.根据权利要求1所述的基于逻辑和统计技术的数据元识别方法，其特征在于，所述步骤一中，抽取出所述候选数据元时，候选逻辑数据元和候选应用数据元的抽取规则包括：二词三词的词法模式以及四词五词六词的抽取规则，二词词法模式包括n+n、v+n、n+v、v+v、a+n、b+n、a+v、d+v、m+n、n+a；三词词法模式包括：n+n+n、n+v+n、v+v+n、v+n+n、n+n+v、d+v+n、a+n+n、v+n+v、n+v+v、a+v+n；四词五词六词的抽取规则包括：规则一：4～6个单词的所述数据元候选项中不得包含如下性质的词语：w表示标点、r表示代词、g表示语素、l表示习用语、z表示状态词、x表示非语素词、s表示处所词、o表示拟声词、e表示叹词、y表示语气词以及i表示成语；规则二：4～6个单词的所述数据元候选项中不得以c表示连词、u表示助词以及k表示后接成分作为词首；规则三：4～6个单词的所述数据元候选项中不得以c表示连词、f表示方位词以及h表示前接成分作为词尾；规则四：4～6个单词的所述数据元候选项中至少有一个词属于n表示名词、v表示动词、q表示量词、l表示习用语、j表示简称略语或k表示后接成分；

其中，a表示形容词、b表示区别词、d表示副词、m表示数词。

8.根据权利要求7所述的基于逻辑和统计技术的数据元识别方法，其特征在于，所述步骤二中，聚类类别数设为2，模糊加权指数设为2，收敛阈值设为1e^-3。

9.根据权利要求1所述的基于逻辑和统计技术的数据元识别方法，其特征在于，所述步骤三中，所述短语搭配是检验短语中词语搭配是否合适，分别给互信息和活跃度加入一个阈值，将所述互信息和所述活跃度加入阈值后求和作为最终判断标准，从短语列表中剔除结构不稳定的候选项，所述结构不稳定的候选项包括短语内部词语之间的搭配不合理以及短语中包含活跃度较高的词汇；所述互信息指词语之间的搭配程度，所述活跃度指词语的活跃度。

10.根据权利要求1所述的基于逻辑和统计技术的数据元识别方法，其特征在于，所述步骤三中，所述领域相关度是基于词频分布变化基础对候选项与专业领域的相关程度进行对比，通过候选项在每篇文档中出现频次的分布方差反映所述候选项在每篇文档中的变化程度，结合TFIDF方法体现所述候选项在整个语料中的覆盖量，评估出所述候选项与专业领域知识的关联程度。