CN112989791A

CN112989791A - 一种基于文本信息抽取结果的去重方法、系统以及介质

Info

Publication number: CN112989791A
Application number: CN202110341478.0A
Authority: CN
Inventors: 贾新; 李善平; 田小亮; 张金坤
Original assignee: Hefei Topnet System Engineering Co ltd; Henan Tupu Computer Network Engineering Co ltd; Beijing Toplink Information Engineering Co ltd
Current assignee: Hefei Topnet System Engineering Co ltd; Henan Tupu Computer Network Engineering Co ltd; Beijing Toplink Information Engineering Co ltd
Priority date: 2021-03-30
Filing date: 2021-03-30
Publication date: 2021-06-18

Abstract

本发明提供一种基于文本信息抽取结果的去重方法、系统以及介质，其中所述去重方法具体包括以下步骤：对公共资源交易信息所在网页进行结构化抽取，将抽取结果以文本数据记录形式存储在数据集中；根据预设多重分类规则对数据集中所有文本数据记录进行细分；基于标题和预设实体字段进行组内判重，当组内存在重复文本数据记录时，基于网站类型和实体字段对重复文本数据记录进行评分，并根据评分进行重复文本数据记录的合并。

Description

一种基于文本信息抽取结果的去重方法、系统以及介质

技术领域

本发明涉及一种数据处理技术，具体的说，涉及了一种基于文本信息抽取结果的去重方法、系统及介质。

背景技术

应国家政策要求，凡符合《招标投标法》和相关部门或行业规定的项目，均要进行招投标公示公告。面对成千上万的招投标公告发布渠道，以及各式各样的数据发布形式(如文本、图片、PDF等)，在互联网上产生了海量的招投标公告数据。这些公告数据规范不统一，主要是一些非结构化、半结构化数据。并且目前全国各级和各地的招投标数据发布渠道不统一，数据格式混乱，导致对相关数据的管理十分困难，更缺乏对相关数据进一步分析的结构化数据支撑。

为了解决以上存在的问题，人们一直在寻求一种理想的技术解决方案。

发明内容

本发明的目的是针对现有技术的不足，从而提供了一种基于文本信息抽取结果的去重方法、系统及介质。

为了实现上述目的，本发明所采用的技术方案是：一种基于文本信息抽取结果的去重方法，具体包括以下步骤：

对公共资源交易信息所在网页进行结构化抽取，将抽取结果以文本数据记录形式存储在数据集中；

根据预设多重分类规则对数据集中所有文本数据记录进行细分；

基于标题和预设实体字段进行组内判重，当组内存在重复文本数据记录时，基于网站类型和实体字段对重复文本数据记录进行评分，并根据评分进行重复文本数据记录的合并。

基于上述，所述结构化抽取的具体步骤如下：

对公共资源交易信息所在网页进行预处理，统一网页的编码和内容格式，并去除网页中的噪音信息；

为公共资源交易信息生成交易类别标签和城市标签；

对公共资源交易信息进行段落划分，并基于拆分后的段落并行进行表格解析、键值对解析、正则抽取和实体识别处理；

根据预设属性权重表分别对表格解析、键值对解析、正则抽取和实体识别的处理结果进行属性加权评分，选取属性加权评分最高的处理结果作为最佳处理结果；

对最佳处理结果进行度量转换，并与交易类别标签、城市标签一起作为结构化抽取结果。

基于上述，根据预设多重分类规则对数据集中所有文本数据记录进行细分的具体步骤如下：

根据交易类别标签对数据集中所有文本数据记录进行细分，每个交易类别标签对应一个类别分组；

针对每个类别分组，再进一步根据发布时间周期、城市标签、采购单元和代理机构进行细分，使得最终获得的每个分组内所有文本数据记录的类别标签、发布时间周期、城市标签、采购单位以及代理机构均一致。

基于上述，基于标题和预设实体字段进行组内判重具体包括以下步骤：

遍历每个分组，比对任意两个文本数据记录的标题是否相同以及比对预设实体字段的字段值是否相同，在标题和预设实体字段的字段值的相同个数大于预设个数时，将相应的文本数据记录作为重复文本数据记录输出。

基于上述，根据评分进行重复文本数据记录的合并具体步骤如下：选取评分最高的重复文本数据记录作为源文本数据记录，将其他重复文本数据记录作为辅助文本数据记录；比对源文本数据记录和辅助文本数据记录，将只存在于辅助文本数据记录的内容添加到源文本数据记录中，并删除辅助文本数据记录。

基于上述，在被判定为重复文本数据记录时，将当前的判断依据添加到重复文本数据记录中。

本发明还提供一种基于文本信息抽取结果的去重系统，包括存储器、处理器、以及存储在所述存储器上的计算机程序，所述计算机程序被所述处理器运行时执行如前述的方法步骤。

本发明还提供一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如前述的方法步骤。

本发明相对现有技术具有突出的实质性特点和显著的进步，具体的说，

1、本发明通过预设多重分类规则有效的进行数据的多维度分组划分，然后在组内筛选重复数据，从而降低数据之间对比的范围，处理时间更快，判重效率更高且成本更低；并且不会造成不同分组间的数据误判。

2、基于抽取的结构化数据进行判重，无需进行相似度计算，并且由于每个字段都可以用来辅助判重，从而通过多维度的交叉验证更加有效的分析招投标数据的重复性，提高最终数据的质量。

3、对最终数据的结果，记录其判断依据，从而便于后期快速回溯整个判断流程，让输出结果更加信服。

附图说明

图1是本发明的流程示意图。

具体实施方式

下面通过具体实施方式，对本发明的技术方案做进一步的详细描述。

通常可以采用网页爬虫技术从相关的数据平台或信息发布网站获招投标交易数据，从相关网站的网页处所获得的一般是带有相应网页标签的文本，即带HTML标签的文本信息。为了应对行业中对招投标交易数据进行数据清洗时需要对其进行去重处理的现实需求，需要引入针对文本信息的结构化抽取技术。

为此，如图1所示，本发明提出了一种基于文本信息抽取结果的去重方法，具体步骤如下：

（1）对公共资源交易信息所在网页进行结构化抽取，将抽取结果以文本数据记录形式存储在数据集中。

其中，所述结构化抽取的具体步骤如下：

为公共资源交易信息生成交易类别标签和城市标签；

需要注意的是：由于交易类别标签会关系到后面的分组，其决定了后面的分组基础，因此交易类别标签的选择应该满足通用条件；本实施例中所述交易类别标签至少包括预告、招标、邀标、询价、竞价、竞谈、变更、成交、合同。

其中预设属性权重表包括字段标签权重表、抽取方式权重表、正面词权重表、负面词权重表、字符长度权重表、数据范围权重表。例如，在抽取方式权重表中，键值对解析设置为1、正则抽取设置为0.7、表格解析设置为0.7、实体识别处理设置为0.3；正面词权值设为1，其余判定为负面词，权值记为0.7，正面词的个数可以根据实际进行增删；字符长度中，字符长度小于3权值记为0.2，大于3小于5记为0.7，大于5小于35记为1，大于35记为0.7。

（2）根据预设多重分类规则对数据集中所有文本数据记录进行细分。

分类规则决定了整个数据集划分的粒度，当数据集内的数据量达到一定规模时，需要通过分组来控制每个分组内的数据记录数目；由于分组内的数据记录数目越小，数据之间比对的范围也越小，因此本申请中基于交易类别标签、发布时间周期、城市标签、采购单位和代理机构这几个维度信息来对文本数据记录进行细分，不在同一组的数据认为不重复，同一组的数据继续进行的组内判重。

具体的，分组步骤如下：

例如针对每个类别分组，可以先根据发布时间周期对每个类别分组进行细分，每个发布时间周期对应一个时间分组；

根据城市标签对每个时间分组进行细分，每个城市标签对应一个城市分组；

根据采购单位对每个城市分组进行细分，每个采购单位对应一个采购单元分组；

根据代理机构对每个采购单元分组进行细分，每个代理机构对应一个代理机构分组。

在具体实施时，根据发布时间周期、城市标签、采购单元和代理机构进行细分的顺序是灵活可调整的，例如也可以先进行城市标签分类，再依次根据发布时间周期、采购单元和代理机构进行细分。

（3）基于标题和预设实体字段进行组内判重基于标题和预设实体字段进行组内判重，当组内存在重复文本数据记录时，基于网站类型和实体字段对重复文本数据记录进行评分，并根据得分进行重复文本数据记录的合并。

其中，对于网站来说，评分规则如下：政府采购>公共资源>官方网站|政府门户>社会公共招标平台|企业招标平台>其他，具体分值可以根据需求进行设定。

优选的，基于标题和预设实体字段进行组内判重具体包括以下步骤：

优选的，所述预设实体字段包括项目编号、项目名称、合同编号、中标单位、开标时间、中标金额、预算中的多个，具体的与所述域名分组对应的交易类别标签有关，例如，如果当前分组属于招标类分组下的细分分组，则所述预设实体字段包括预算、项目编号、项目名称；如果当前分组属于结果类分组下的细分分组，则所述预设实体字段包括中标金额、中标金额、项目名称。

在具体实施时，还可以针对每个分组，分别找出标题相同的文本数据记录、标题不同但含有相同预设关键词的文本数据记录以及标题不同且不含有相同预设关键词的文本数据记录。

对于标题相同的文本数据记录，则先判断文本数据记录中的预设实体字段的字段值是否均相同，若均相同，则将相应的文本数据记录作为重复文本数据记录输出；否则继续判断文本数据记录中的预设实体字段的字段值相同的个数是否大于等于预设个数-1，若满足，则将相应的文本数据记录作为重复文本数据记录输出，剩余的标题相同的文本数据记录作为不重复文本数据记录。

对于标题不同但含有相同预设关键词的文本数据记录，则先判断文本数据记录中的预设实体字段的字段值是否均相同，若均相同，则将相应的文本数据记录作为重复文本数据记录输出；否则继续判断文本数据记录中的预设实体字段的字段值相同的个数是否大于等于预设个数，若满足，则将相应的文本数据记录作为重复文本数据记录输出，剩余的标题不同但含有相同预设关键词的文本数据记录作为不重复文本数据记录。

在含有相同关键词的前提下进一步判断预设实体字段的目的是为了解决不同的项目存在相同的关键词的情况。对于标题不同且不含有相同预设关键词的文本数据记录，则先判断文本数据记录中的预设实体字段的字段值是否均相同，若均相同，则将相应的文本数据记录作为重复文本数据记录输出；否则继续判断文本数据记录中的预设实体字段的字段值相同的个数是否大于等于预设个数，若满足，则将相应的文本数据记录作为重复文本数据记录输出，剩余的标题不同且不含有相同预设关键词的文本数据记录作为不重复文本数据记录。

在不含有相同关键词的前提下进一步判断预设实体字段的目的是为了解决标题中关键词有细微区别，但描述的是同一个项目的情况。

当找出重复文本数据记录时，需要进一步基于网站类型和实体字段对重复文本数据记录进行评分，具体步骤如下：根据预设网站类型评分表获取每个重复文本数据记录的网站评分，根据预设实体字段评分表获取每个重复文本数据记录的每个实体字段的评分，将每个重复文本数据记录的网站评分和实体字段评分相加，得到每个重复文本数据记录的最终评分。

得到每个重复文本数据记录的最终分数后，再进一步根据评分进行重复文本数据记录的合并具体步骤如下：选取评分最高的重复文本数据记录作为源文本数据记录，将其他重复文本数据记录作为辅助文本数据记录；比对源文本数据记录和辅助文本数据记录，将只存在于辅助文本数据记录的内容添加到源文本数据记录中，并删除辅助文本数据记录。

具体的，以两个重复文本数据记录A和B为例，

重复文本数据记录A的信息如下：

网站：政府采购；城市：河南省郑州市；采购单位：郑州市某某建设局；项目名称：某某小区改造项目；项目编号：NXCG-GK-001；预算：100万元；代理机构：招标代理有限公司；项目联系人。

重复文本数据记录B的信息如下：

网站：公共资源；城市：河南省郑州市；采购单位：郑州市某某建设局；项目名称：某某小区改造项目；项目编号：NXCG-GK-001；预算：100万元；代理机构：招标代理有限公司；联系电话：15600001234。

预设实体字段评分表如下：

预设网站类型评分表如下：

则根据上述两个评分表可以得出，对于重复文本数据记录A，则有：

城市：1分；采购单位：2分；项目名称：1分；项目编号：2分；预算：2分；代理机构：1分；项目联系人：1分；政府采购：10分；总计20分。对于重复文本数据记录B，则有：

城市：1分；采购单位：2分；项目名称：1分；项目编号：2分；预算：2分；代理机构：1分；联系电话：1分；网站类型：8分；总计18分。

此时，将重复文本数据记录A作为源文本数据记录，将重复文本数据记录B作为重复文本数据记录，并将只存在于重复文本数据记录的内容---联系电话：15600001234---添加到源文本数据记录中，最终源文本数据记录为：

网站类型：政府采购；城市：河南省郑州市；采购单位：郑州市某某建设局；项目名称：某某小区改造项目；项目编号：NXCG-GK-001；预算：100万元；代理机构：招标代理有限公司；项目联系人：张三；联系电话：15600001234。

需要注意的是：为了便于快速回溯判重过程，在被判定为重复文本数据记录时，将当前的判断依据添加到重复文本数据记录中。

最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制；尽管参照较佳实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换；而不脱离本发明技术方案的精神，其均应涵盖在本发明请求保护的技术方案范围当中。

Claims

1.一种基于文本信息抽取结果的去重方法，其特征在于：

2.根据权利要求1所述的基于文本信息抽取结果的去重方法，其特征在，所述结构化抽取的具体步骤如下：

为公共资源交易信息生成交易类别标签和城市标签；

3.根据权利要求2所述的基于文本信息抽取结果的去重方法，其特征在于，根据预设多重分类规则对数据集中所有文本数据记录进行细分的具体步骤如下：

4.根据权利要求3所述的基于文本信息抽取结果的去重方法，其特征在于，基于标题和预设实体字段进行组内判重具体包括以下步骤：

5.根据权利要求4所述的基于文本信息抽取结果的去重方法，其特征在于：所述交易类别标签至少包括预告、招标、邀标、询价、竞价、竞谈、变更、成交、合同；所述预设实体字段包括项目编号、项目名称、合同编号、中标单位、开标时间、中标金额、预算中的多个。

6.根据权利要求3所述的基于文本信息抽取结果的去重方法，其特征在于：在被判定为重复文本数据记录时，将当前的判断依据添加到重复文本数据记录中。

7.根据权利要求1所述的基于文本信息抽取结果的去重方法，其特征在于，基于网站类型和实体字段对重复文本数据记录进行评分，具体包括：根据预设网站类型评分表获取每个重复文本数据记录的网站评分，根据预设实体字段评分表获取每个重复文本数据记录的每个实体字段的评分，将每个重复文本数据记录的网站评分和实体字段评分相加，得到每个重复文本数据记录的最终评分。

8.根据权利要求7所述的基于文本信息抽取结果的去重方法，其特征在于，根据评分进行重复文本数据记录的合并具体步骤如下：选取评分最高的重复文本数据记录作为源文本数据记录，将其他重复文本数据记录作为辅助文本数据记录；比对源文本数据记录和辅助文本数据记录，将只存在于辅助文本数据记录的内容添加到源文本数据记录中，并删除辅助文本数据记录。

9.一种基于文本信息抽取结果的去重系统，其特征在于：包括存储器、处理器、以及存储在所述存储器上的计算机程序，其特征在于，所述计算机程序被所述处理器运行时执行如权利要求1-8中任一项所述的方法步骤。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-8中任一项所述的方法步骤。