CN110826326B

CN110826326B - 一种基于文本分类的小样本数据描述规范化预处理方法

Info

Publication number: CN110826326B
Application number: CN201911072954.2A
Authority: CN
Inventors: 肖楚琬; 唐小峰; 刘嘉; 崔世麒; 刘松福; 苏析超; 王鑫
Original assignee: Naval Aeronautical University
Current assignee: Naval Aeronautical University
Priority date: 2019-10-30
Filing date: 2019-11-05
Publication date: 2022-09-30
Anticipated expiration: 2039-11-05
Also published as: CN110826326A

Abstract

本发明公开了一种基于文本分类的小样本数据描述规范化预处理方法，属于数据预处理领域。首先构建标准实体数据表，包括每类实体由具有相关性的m列组成；针对某个待处理的目标数据表，将描述同一个实体概念的列进行组合，构成若干类实体。然后将目标数据表与标准实体数据表中的各列根据属性建立映射关联。依次选择完成映射的某类实体的各个属性列构造成子表T'，将其中各实体案例分别构成目标描述O'，计算各实体案例与标准数据表中对应的每类实体之间的相似度。选择相似度≤1，且非完全一致的各个实体案例标识为非规范描述项，并划分等级；遍历目标数据表中所有实体类，将所有非规范描述按等级给出修改建议。本发明提高了文本相似性匹配的准确性和效率。

Description

一种基于文本分类的小样本数据描述规范化预处理方法

技术领域

本发明属于数据预处理领域，具体是一种基于文本分类的小样本数据描述规范化预处理方法。

背景技术

鉴于某些专业领域的保密要求，需要在独立、封闭的条件下进行文本统计分析。但是，所需数据大多采用手工输入，经常存在数据源描述不规范、漏输或错输等现象，且存在格式混用和一致性差等问题，致使文本处理、统计分析困难，准确度低。

目前文本数据预处理的方法主要有数据清理、数据集成、数据变换以及数据规约等。虽然在处理文本非标准描述可以取得较好的效果，但前提必须要有大量样本支撑。

因此，有必要提供一种创新且富有进步性的文本数据预处理方法，解决小样本条件下数据规范化问题，进而为专业领域的数据统计分析奠定基础。

发明内容

本发明针对小样本条件下的数据规范化问题，提出了一种基于文本分类的小样本数据描述规范化预处理方法；

具体步骤如下：

步骤一、构建标准实体数据表，标准实体数据表中包括若干类实体，每类实体由具有较强相关性的m列组成；

每类实体表示为：

O＝{c₁,c₂,...c_j,...c_m}

其中c_j(1≤j≤m)表示实体的第j个属性。

标准实体数据表的集合表示为：SR＝{O₁,O₂,...O_M}；M表示标准实体的类数，为正整数。

每类实体可关联一个或多个非规范描述样本，称为关联样本；

实体类O_i的关联样本表示为：

步骤二、针对某个待处理的目标数据表，分析该目标数据表的各列属性，将描述同一个实体概念的一列或多列进行组合，构成若干类实体；

目标数据表中各类实体的集合表示为：{T₁,T₂,...T_N}；N表示该目标数据表中包含的实体类数，为正整数。每类实体表示为：T＝{l₁,l₂,...l_i,...l_t}；其中l_i(1≤i≤t)表示实体T的第i个属性。

步骤三、将目标数据表中的每类实体中的每个列属性，与标准实体数据表中对应的各个列属性一一建立映射关联；

则映射表示为：l_i→c_j(1≤i≤t,1≤j≤m)，多个不同的列属性l_i可以映射到同一个标准列c_j，反之不成立。

步骤四、依次选择已完成映射的某类实体，将该类实体的各个属性列构造成子表T'作为检查对象；

子表T'包含若干行，第一行是该实体类的所有属性；从第二行开始，每行数据内容为该类实体的每个实体案例；

步骤五、将子表T'中各实体案例分别构成目标描述O'，通过相似性匹配算法计算各实体案例与标准数据表中对应的每类实体之间的相似度a；

a∈[0,1]，其中0表示完全不同，1表示完全相同；

首先、依次选择子表T'中第一个实体案例构成目标描述O'，同时选择标准数据表中映射对应的实体O，及其相关的关联样本集SP^(O)；

然后，将目标描述O'中的每一属性列分别与标准实体O中映射对应列，以及关联样本集SP^(O)中包含的对应样本依次进行比较，计算各属性列与标准实体映射列，以及关联样本对应列的相似值；并取均值作为该实体案例的相似度。

针对目标描述O'中的属性列c_i'映射到标准实体O中的属性列为c_j，进行比较的过程如下：

步骤501、判断目标描述O'中的属性列c_i'与映射的属性列c_j对应的文本值是否完全相同，如果是，则记ct₁＝0；否则记ct₁＝1，并对上述文本值进行分词处理，得到两个词汇集合W⁽¹⁾和W⁽²⁾；

两个词汇集合分别记为

W⁽¹⁾为目标描述O'中的属性列c_i'进行分词处理得到的词汇集合；

W⁽²⁾为标准数据表中的属性列c_j进行分词处理得到的词汇集合；

步骤502、判断词汇集合W⁽¹⁾和W⁽²⁾中交集元素的数量ct₂是否大于0，如果是，则分别从W⁽¹⁾和W⁽²⁾中删除交集项，进入步骤5023；否则，直接进入步骤5023；

步骤503、对当前集合W⁽¹⁾中剩余的每个词汇w_i，将其分别与集合W⁽²⁾中剩余的每个词汇w_j进行比较，判断词汇w_i是否为词汇w_j的子字符串，如果是，则ct₂＝ct₂+0.5，且从集合W⁽¹⁾中删除词汇w_i；否则，进入步骤5024；

步骤504、判断词汇w_j是否为词汇w_i的子字符串，如果是，令ct₂＝ct₂+0.5，并从集合W⁽²⁾中删除词汇w_j。否则，ct₂不变；进入步骤5025；

步骤505、利用两词汇集合W⁽¹⁾和W⁽²⁾中的剩余元素，计算两个文本值之间的相似度sm；

定义为

ct₃为两词汇集合W⁽¹⁾和W⁽²⁾中的剩余元素数量之和；

步骤506、依次选择各关联样本，判断当前关联样本集是否为空，如果是，结束；否则，属性列c′_i不变，将当前关联样本中对应的属性列设为c_j，重复上述步骤，得到属性列c′_i'与该关联样本的相似度；

步骤507、将属性列c′_i与标准数据表中的映射属性列，以及各个关联样本的相似度组合在一起，得到属性列c′_i的相似度列表；

相似度列表如下：SM＝[sm₀,sm₁,sm₂,...,sm_n3]；

其中sm₀为属性列c′_i相对于标准数据表中的映射属性列的相似度，sm₁为属性列c′_i相对于第一个关联样本对应属性列的相似度；n3为该属性列c′_i对应的关联样本的数量。

步骤508、取sm'＝max(SM)作为属性列c′_i维度上的最终相似度。

步骤509、依次选择该实体案例的下一个属性列，重复上述步骤，得到对应的最终相似度；直到遍历每个属性列，可得该实体案例最终的一组相似度；

其中n₄为该实体案例的所有属性数量。

步骤510、将该实体案例的所有属性列的最终相似度取均值，得到该实体案例相对于标准数据表中映射实体的相似度。

均值公式为：

最后，顺序选择子表T'中第二个实体案例构成目标描述O'，重复计算与标准数据表中映射实体，以及关联样本集的相似度；直至将子表T'中所有实体案例全部遍历完。

步骤六、针对子表T'，选择与标准数据表中相似度小于等于1，且目标描述与标准数据表并非完全一致的各个实体案例，标识为非规范描述项，并根据相似度的数值划分等级；

非规范描述等级包括：一级(a＝1但与标准描述非完全一致)、二级(a∈[0.5,1))、三级(a∈(0,0.5))和四级(a＝0)；

步骤七、遍历目标数据表中所有实体类，将所有非规范描述以不同的外观高亮标注，按等级从高到低给出修改建议。

具体修改建议如下：

若非规范程度为一级，说明该实体案例完全匹配某个标准项或其包含的关联样本，可直接将其替换为标准描述；

若非规范程度为二级，说明该实体案例与某个标准项具有较高的相似度，将其替换为相应的标准描述具有较高的置信度；

若非规范程度为三级，说明该实体案例与某个标准项具有一定的相似度，将其替换为相应的标准描述需谨慎；

若非规范程度为四级，说明当前标准描述参考信息中不存在与实体案例相似的标准项，无法给出修改建议。

本发明的优点在于：

(1)一种基于文本分类的小样本数据描述规范化预处理方法，构建了多属性实体模型，将属于同一概念的多个属性视为整体，提高了文本相似性匹配的准确性和效率；

(2)一种基于文本分类的小样本数据描述规范化预处理方法，构建了小样本条件下的分词模型和相似性匹配算法，提出了相似度判断准则；可在小样本条件下，智能推荐标准化描述。

(3)一种基于文本分类的小样本数据描述规范化预处理方法，建立了完备映射关系集；可用于在独立、封闭条件下进行同专业领域文本预处理。

附图说明

图1为本发明一种基于文本分类的小样本数据描述规范化预处理方法的流程图。

具体实施方式

下面结合实施例和附图，对本发明的实施方式做详细、清楚的描述。

本发明建立了基于文本聚类和相似度匹配的数据规范化预处理模型，提出了基于关系的小样本标准化参考实体构建方法，和基于置信度的分类判别标准，发展了智能推荐匹配及自动匹配技术。这一方法与传统方法基于大样本，分词独立匹配的方法区别明显，克服了其样本依赖性高，匹配准确度低和智能化水平差的缺点。

本发明首先，根据待处理数据的特点，建立规范化处理关系实体模型，依据实体模型构建标准实体集合；其次，以标准实体集合为基准，通过分词和匹配度算法对待处理数据进行匹配度计算；再次，根据分类判别标准处理匹配度结果，智能推荐标准化描述；最后，建立不规范描述与智能推荐结果的映射关系，逐步构建完备映射关系集，实现小样本条件下数据的规范化处理。

包括以下五个步骤：

a)确定目标数据表中的实体类型，综合分析组成目标数据表的列属性，将用于描述同一个实体概念的一个或多个列进行分类组合，构成若干实体类型。

b)构建标准描述参考信息与实体之间的映射。针对要处理的目标实体类型，基于标准描述库建立实体映射关联，将标准项中的属性与相关的实体类别中的属性进行一一对应，其中每一个标准项均为目标实体类型的实例。

c)建立规范化程度评价准则。根据目标实体同领域的历史数据检查结果，自动设定规范化程度评价指标。在检查过程中，依据置信度水平自动优化评价指标体系。

d)数据描述规范化检查。对目标数据表中的每个实体描述，自动将其与标准描述参考信息中的每个标准项进行文本相似性匹配，根据得到的相似性数值评价其规范化程度。

e)规范化处理，对经检查不规范的实体对象描述，按与标准项相似程度从高到低给出修改建议，将不规范项替换为标准项。

如图1所示，具体步骤如下：

每类实体表示为：

O＝{c₁,c₂,...c_j,...c_m} (1-1)

其中c_j(1≤j≤m)表示实体的第j个属性。同属一类实体的属性之间具有较强的相关性，而不同实体类型之间的属性则相对独立。

标准实体数据表是一系列实体类型实例的集合，表示为：

SR＝{O₁,O₂,...O_M} (1-2)

M表示标准实体的类数，为正整数。

实体类O_i的关联样本表示为：

这些样本是从历次数据规范化检查中收集而来，目的是提高文本分类准确性。

所述的实体映射是为了处理不同目标数据表中实体类别属性名可能与标准信息表中不一致，以及同一个目标数据表中可能存在多个实体实际类型相同的情况。

a∈[0,1]，其中0表示完全不同，1表示完全相同；

两个词汇集合分别记为

定义为

ct₃为两词汇集合W⁽¹⁾和W⁽²⁾中的剩余元素数量之和；ct₃＝|W⁽¹⁾|+|W⁽²⁾|。

步骤506、依次选择各关联样本，判断当前关联样本集是否为空，如果是，结束；否则，属性列c′_i不变，将当前关联样本中对应的属性列设为c_j，重复上述步骤，得到属性列c′_i与该关联样本的相似度；

相似度列表如下：

SM＝[sm₀,sm₁,sm₂,...,sm_n3]； (1-7)

步骤508、取sm'＝max(SM)作为属性列c′_i维度上的最终相似度。

其中n₄为该实体案例的所有属性数量。

均值公式为：

所述规范化处理是根据目标描述的不规范程度提供修改建议，其依据是最相似标准项的相似度，具体修改建议如下：

下面以表1所示的部分合同信息为实施例对本发明进行进一步说明，本实施例有助于本领域相关技术人员理解本发明，但本发明保护范围不限于本实施例。

表1

1、确定目标数据表的实体类型

由表1所示数据列可以规划出以下几类实体，即填报单位、合同甲方和合同乙方，其中合同乙方包括合同乙方名称、合同乙方代号和合同乙方性质三个属性，分别对应相应的数据列。

2、构建标准描述参考信息

本实施例中使用的标准描述参考信息如表2所示。

表2

3、建立实体映射

将表1中的具体数据列对应到标准描述参考信息中的属性列。

例如，对于上述合同乙方实体，可得如下映射关系：合同乙方名称→名称，合同乙方代号→代号，合同乙方性质→性质。其他实体的映射方式类似。

4、数据描述规范化检查

以表1中的目标描述“1101厂，C5，上航集团”为例，将其与表2中合同乙方实体相关的标准项及其关联样本进行一一比较。

步骤1：与标准数据表中的描述“国营一一零一厂，C5，上航集团”进行比较时，首先比较第一个属性，即名称。由于“1101厂”与“国营一一零一厂”不同，则ct₁＝1；

步骤2：进行分词处理，分别可得两组词汇：

两组词汇交集为{“厂”}，因此ct₂＝1，并各自将词汇“厂”删除。

步骤3：剩余词汇并不具有相互包含的情况，因此，ct₃＝4。

步骤4：可得两个实体名称属性的相似度为

sm₀＝ct₂/(ct₁+ct₂+ct₃)＝0.2 (1-10)

由于当前标准项包含关联样本，该属性上对应的关联样本(即“1011厂”)相似度为sm₁＝1.0，最后得：

sm′₁＝max{sm₀,sm₁}＝1.0 (1-11)

同理，在其他属性维度(即代号和性质)上的相似度为sm'₂＝1.0和sm'₃＝0.6。最终在所有属性上取均值，得：

sm＝(sm′₁+sm'₂+sm'₃)/3＝0.87 (1-12)

其他目标描述与标准描述参考信息的相似性比较过程同上。

5、规范化处理

仍以上述目标描述“1101厂，C5，上航集团”为例，其与每个相关的标准项的相似度如表3所示(按相似度降序排列)。可见，目标描述不规范程度为一级，并可被自动替换为标准描述“国营一一零一厂，C5，上航集团”。然而，如有必要也可手动替换为其他相似度较低的标准项。

表3

Claims

1.一种基于文本分类的小样本数据描述规范化预处理方法，其特征在于，具体步骤如下：

每类实体表示为：

O＝{c₁,c₂,...c_j,...c_m}

其中c_j(1≤j≤m)表示实体的第j个属性；

标准实体数据表的集合表示为：SR＝{O₁,O₂,...O_M}；M表示标准实体的类数，为正整数；

实体类O_i的关联样本表示为：

目标数据表中各类实体的集合表示为：{T₁,T₂,...T_N}；N表示该目标数据表中包含的实体类数，为正整数；每类实体表示为：T＝{l₁,l₂,...l_i,...l_t}；其中l_i(1≤i≤t)表示实体T的第i个属性；

则映射表示为：l_i→c_j(1≤i≤t,1≤j≤m)，多个不同的列属性l_i可以映射到同一个标准列c_j，反之不成立；

a∈[0,1]，其中0表示完全不同，1表示完全相同；

然后，将目标描述O'中的每一属性列分别与标准实体O中映射对应列，以及关联样本集SP^(O)中包含的对应样本依次进行比较，计算各属性列与标准实体映射列，以及关联样本对应列的相似值；并取均值作为该实体案例的相似度；

最后，顺序选择子表T'中第二个实体案例构成目标描述O'，重复计算与标准数据表中映射实体，以及关联样本集的相似度；直至将子表T'中所有实体案例全部遍历完；

2.如权利要求1所述的一种基于文本分类的小样本数据描述规范化预处理方法，其特征在于，所述的步骤四种的子表T'包含若干行，第一行是该实体类的所有属性；从第二行开始，每行数据内容为该类实体的每个实体案例。

3.如权利要求1所述的一种基于文本分类的小样本数据描述规范化预处理方法，其特征在于，步骤五中所述的目标描述O'的相似度计算过程如下：

两个词汇集合分别记为

步骤504、判断词汇w_j是否为词汇w_i的子字符串，如果是，令ct₂＝ct₂+0.5，并从集合W⁽²⁾中删除词汇w_j；否则，ct₂不变；进入步骤5025；

定义为

ct₃为两词汇集合W⁽¹⁾和W⁽²⁾中的剩余元素数量之和；

相似度列表如下：SM＝[sm₀,sm₁,sm₂,...,sm_n3]；

其中sm₀为属性列c′_i相对于标准数据表中的映射属性列的相似度，sm₁为属性列c′_i相对于第一个关联样本对应属性列的相似度；n3为该属性列c′_i对应的关联样本的数量；

步骤508、取sm'＝max(SM)作为属性列c′_i维度上的最终相似度；

其中n₄为该实体案例的所有属性数量；

步骤510、将该实体案例的所有属性列的最终相似度取均值，得到该实体案例相对于标准数据表中映射实体的相似度；

均值公式为：

4.如权利要求1所述的一种基于文本分类的小样本数据描述规范化预处理方法，其特征在于，步骤七中所述的修改建议如下：