CN112732993B

CN112732993B - 数据处理方法、装置、计算机设备和存储介质

Info

Publication number: CN112732993B
Application number: CN202011617335.XA
Authority: CN
Inventors: 侯京娅; 朱婷
Original assignee: Jingdong Technology Holding Co Ltd
Current assignee: Jingdong Technology Holding Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2024-03-08
Anticipated expiration: 2040-12-31
Also published as: CN112732993A

Abstract

本申请提出一种数据处理方法、装置、计算机设备和存储介质。其中，方法包括：获取待处理的目标信息；根据预设的主体属性和目标属性的对应关系，从目标信息中提取与主体属性对应的主体数据以及与目标属性对应的目标数据，建立主体数据和目标数据之间的对应关系；检验主体数据与目标数据之间的对应关系是否正确，如果正确，则针对目标需求根据主体数据和目标数据之间的对应关系进行对应的数据处理。本申请通过对应关系即可实现数据抽取的功能，通过校验主体数据与目标数据之间的对应关系是否正确，可以有效提高数据准确性和可用性；针对目标需求根据主体数据和目标数据之间的对应关系进行对应的数据处理，可以实现对抽取到的数据进行汇总统计。

Description

数据处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及数据处理技术领域，尤其涉及一种数据处理方法、装置、计算机设备和存储介质。

背景技术

随着电子政务、数字政府和数字中国等大数据、智慧政务战略的深入推进，各级政府部门越来越多将政策法规、新闻报道和标准规范通过网络的形式面向公众宣传和推送，由此产生了大量政府元数据标准体系的公文公告，据不完全统计，近五年在公开网站发布的公文数量就超过10万篇。在这样的背景下，如何针对这些大量的政务元数据文件，抽取相关的字段名和属性值，录入到系统进行自动比对、参照等操作成为了一个巨大的挑战。

发明内容

本申请的目的旨在至少在一定程度上解决上述的技术问题之一。

为此，本申请的第一个目的在于提出一种数据处理方法。该方法通过对应关系即可实现数据抽取的功能，通过校验主体数据与目标数据之间的对应关系是否正确，可以有效提高数据准确性和可用性。

本申请的第二个目的在于提出一种数据处理装置。

本申请的第三个目的在于提出一种计算机设备。

本申请的第四个目的在于提出一种非临时性计算机可读存储介质。

本申请的第五个目的在于提出一种计算机程序产品。

为达上述目的，本申请第一方面实施例提出了一种数据处理方法，包括：

获取待处理的目标信息；

根据预设的主体属性和目标属性的对应关系，从所述目标信息中提取与所述主体属性对应的主体数据以及与所述目标属性对应的目标数据，建立所述主体数据和所述目标数据之间的对应关系；

检验所述主体数据与所述目标数据之间的对应关系是否正确，如果正确，则针对目标需求根据所述主体数据和所述目标数据之间的对应关系进行对应的数据处理。

本申请第二方面实施例提出了一种数据处理装置，包括：

第一获取模块，用于获取待处理的目标信息；

建立模块，用于根据预设的主体属性和目标属性的对应关系，从所述目标信息中提取与所述主体属性对应的主体数据以及与所述目标属性对应的目标数据，建立所述主体数据和所述目标数据之间的对应关系；

检验模块，用于检验所述主体数据与所述目标数据之间的对应关系是否正确；

数据处理模块，用于在所述主体数据与所述目标数据之间的对应关系正确时，针对目标需求根据所述主体数据和所述目标数据之间的对应关系进行对应的数据处理。

本申请第三方面实施例提出了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现本申请第一方面实施例所述的数据处理方法。

为了实现上述目的，本申请第四方面实施例提出了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本申请第一方面实施例所述的数据处理方法。

为了实现上述目的，本申请第五方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令被处理器执行时，执行本申请第一方面实施例所述的数据处理方法。

根据本申请实施例的技术方案，通过预设的主体属性和目标属性的对应关系从待处理的目标信息中提取与主体属性对应的主体数据以及与目标属性对应的目标数据，进而建立主体数据和目标数据之间的对应关系，检验主体数据与目标数据之间的对应关系是否正确，如果正确，则针对目标需求根据主体数据和目标数据之间的对应关系进行对应的数据处理。由此，本申请直接基于预先设定主体属性和目标属性的对应关系从待处理的目标信息中提取相应的主体数据以及目标数据，进而建立主体数据和目标数据之间的对应关系，从而实现了从待处理目标信息中抽取出相关的主体数据和目标数据，即通过预先设定主体属性和目标属性的对应关系即可实现了数据抽取的功能。另外，通过校验主体数据与目标数据之间的对应关系是否正确，可以有效提高数据准确性和可用性；此外，针对目标需求根据主体数据和目标数据之间的对应关系进行对应的数据处理，可以实现对抽取到的数据进行汇总统计。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例所提供的一种数据处理方法的流程示意图；

图2是根据本申请实施例的数据处理方法的流程图；

图3是根据本申请实施例的数据处理方法的流程图；

图4是根据本申请实施例的数据处理方法的流程示例图；

图5是根据本申请实施例的文本解析模型的流程示例图；

图6是根据本申请实施例的命名实体识别模型的流程示例图；

图7是根据本申请一个实施例的数据处理装置的结构框图；

图8是根据本申请另一个实施例的数据处理装置的结构框图；

图9是根据本申请又一个实施例的数据处理装置的结构框图；

图10是根据本申请一个实施例的计算机设备的结构框图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的数据处理方法、装置、计算机设备和存储介质。

图1为本申请实施例所提供的一种数据处理方法的流程示意图。需要说明的是，本申请实施例的数据处理方法可应用于本申请实施例的数据处理装置，该数据处理装置可被配置于计算机设备上。如图1所示，该数据处理方法可以包括如下步骤。

在步骤101中，获取待处理的目标信息。

需要说明的是，本申请实施例中需要处理的数据所属的领域不同，则需要获取的目标信息也会不同。作为一种示例，假设本申请实施例中的数据所属领域为财政领域，则该目标信息可为包含有财政数据的信息。

还需要说明的是，由于需要处理的数据所属的领域不同，则目标信息的来源文件也会不同。作为一种示例，可通过爬取的方式从垂直领域网站上获取网页信息以及相关附件文件，将该爬取到的网页信息以及相关附件文件作为待处理的目标信息。例如，以数据为财政数据为例，可通过爬取财政数据网站的网页信息和附件信息，获取HTML格式、PDF格式、EXCEL格式的数据，并将该HTML格式、PDF格式、EXCEL格式的数据作为待处理的目标信息。也就是说，目标信息的文件格式可为HTML格式、PDF格式、或EXCEL格式等。

为了实现数据的可用性，可选地，该目标信息还可包括网站名称、标题和发布时间等信息。也就是说，在爬取财政数据网站的网页信息和附件信息时，还可爬取对应的网站名称、标题和发布时间等信息。

在步骤102中，根据预设的主体属性和目标属性的对应关系，从目标信息中提取与主体属性对应的主体数据以及与目标属性对应的目标数据，建立主体数据和目标数据之间的对应关系。

需要说明的是，本申请实施例的数据处理方法所应用的领域不同，即本申请实施例的数据所属领域的不同，则主体属性和目标属性之间的对应关系也会不同。在本申请实施例中，在获得待处理的目标信息之后，可基于本申请实施例的数据处理方法所应用的领域，确定符合该应用领域的主体属性和目标属性的对应关系。根据该主体属性和目标属性的对应关系，从目标信息中提取与主体属性对应的主体数据以及与目标属性对应的目标数据，进而根据与主体属性对应的主体数据以及与目标属性对应的目标数据，建立该主体数据和目标数据之间的对应关系。

举例而言，假设本申请实施例的数据处理方法应用于财政数据领域，即假设本申请的数据为财政数据，例如，在获得目标信息为“2019年A城市的税收收入为1亿”的文本内容时，可根据财政数据领域中的主体属性和目标属性的对应关系，从该文本内容中抽取出与主体属性对应的主体数据以及与目标属性对应的目标数据，可以理解，财政数据领域包括的属性元素可为时间、地点、财政指标名称、以及财政指标数据值等，这些属性元素间存在着对应关系，在本申请实施例中，以财政指标数据值作为主体属性，时间、地点、财政指标名称可分别作为目标属性。由于目标属性存在多个，所以主体属于与每个目标属性均存在对应的关系，因此，可基于主体属性分别与每个目标属性的对应关系，从该文本内容中获取对应的主体数据以及与目标数据，从而建立主体数据和目标数据之间的对应关系。

例如，仍以上述目标信息为“2019年A城市的税收收入为1亿”为例，假设预先设定的主体属性与目标属性的对应关系分别有：财政指标数值与时间的对应关系，财政指标数值与地点的对应关系，财政指标数值与财政指标名称的对应关系，基于这些主体属性与目标属性的对应关系，从该目标信息中提取对应的主体数据与对应的目标数据，进而建立主体数据和目标数据之间的对应关系。比如，假设主体数据与目标数据之间的对应关系使用三元组的方式表示，可获得如下数据：{“1亿”，时间，“2019年”}，{“1亿”，地点，“A城市”}，{“1亿”，财政指标名称，“税收收入”}。

还需要说明的是，由于目标信息的内容格式的不同，则从该目标信息中提取主体数据和目标数据的方式也会不同。例如，当目标信息为文本信息时，可采用文本解析的方式从该目标信息中提取主体数据和目标数据；又如，当目标信息为图表信息时，可采用图标解析的方式从该图表信息中提取出主体数据和目标数据。具体实现方式可参见后续实施例的描述。

在步骤103中，检验主体数据与目标数据之间的对应关系是否正确，如果正确，则针对目标需求根据主体数据和目标数据之间的对应关系进行对应的数据处理。

可选地，利用相关联的核验信息来检验主体数据与目标数据之间的对应关系是否满足该核验信息对应的核验条件，若满足，则确定该主体数据与目标数据之间的对应关系正确。在一些实施例中，可获取与主体数据与目标数据之间的对应关系相关联的核验信息，并根据核验信息检验主体数据与目标数据之间的对应关系是否满足与核验信息对应的核验条件；如果主体数据与目标数据之间的对应关系满足核验条件，则确定主体数据与目标数据之间的对应关系正确。由此，通过利用与主体数据与目标数据之间的对应关系相关联的核验信息，来校验该主体数据与目标数据之间的对应关系是否正确，实现了数据自动化校验，从而可以有效提高数据准确性和可用性。

在本步骤中，在校验主体数据与目标数据之间的对应关系正确时，可针对目标需求根据主体数据和目标数据之间的对应关系进行对应的数据处理。例如，可根据主体数据和目标数据之间的对应关系进行数据汇总，统计在不同维度上的数据覆盖率。

根据本申请实施例的数据处理方法，通过预设的主体属性和目标属性的对应关系从待处理的目标信息中提取与主体属性对应的主体数据以及与目标属性对应的目标数据，进而建立主体数据和目标数据之间的对应关系，检验主体数据与目标数据之间的对应关系是否正确，如果正确，则针对目标需求根据主体数据和目标数据之间的对应关系进行对应的数据处理。由此，本申请直接基于预先设定主体属性和目标属性的对应关系从待处理的目标信息中提取相应的主体数据以及目标数据，进而建立主体数据和目标数据之间的对应关系，从而实现了从待处理目标信息中抽取出相关的主体数据和目标数据，即通过预先设定主体属性和目标属性的对应关系即可实现了数据抽取的功能。另外，通过校验主体数据与目标数据之间的对应关系是否正确，可以有效提高数据准确性和可用性；此外，针对目标需求根据主体数据和目标数据之间的对应关系进行对应的数据处理，可以实现对抽取到的数据进行汇总统计。

需要说明的是，由于目标信息的内容格式的不同，则从该目标信息中提取主体数据和目标数据的方式也会不同。例如，当目标信息为文本信息时，可采用文本解析的方式从该目标信息中提取主体数据和目标数据；又如，当目标信息为图表信息时，可采用图表解析的方式从该图表信息中提取出主体数据和目标数据。下面将给出这两种提取方式的实现方式的示例：

示例一：

在目标信息为文本信息时，如图2所示，所述根据预设的主体属性和目标属性的对应关系，从目标信息中提取与主体属性对应的主体数据以及与目标属性对应的目标数据的具体实现过程可包括如下步骤：

步骤201，获取与文本信息对应的句子特征编码序列。

可选地，获取该文本信息中的字向量、词向量和位置向量，并将该字向量、词向量和位置向量进行混合编码，之后，可将该混合编码经过12层的膨胀卷积DGCNN进行卷积操作，以得到与文本信息对应的句子特征编码序列。其中，该膨胀卷积的膨胀系数可为[1,2,5,1,2,5,1,,2,5,1,1,1]，由此，可以从粗粒度和细粒度的感受野更好地学习句子特征编码序列。

步骤202，根据预设算法对句子特征编码序列进行处理，提取与主体属性对应的主体起始位置和主体结束位置。

可选地，可将句子特征编码序列传入自注意力机制self attention，将输出结果与先验特征进行拼接，先验特征为使用标注语料建立的AC自动机的查询结果，将拼接后的结构传入卷积神经网络CNN、全连接神经网络Dense层，用“半指针-半标注”结构，预测主体属性对应的主体起始位置和主体结束位置。

步骤203，根据对应关系从句子特征编码序列获取与主体属性对应的子序列，根据预设算法对子序列和句子特征编码序列进行处理，提取与目标属性对应的目标起始位置和目标结束位置。

可选地，根据对应关系从句子特征编码序列获取与主体属性对应的子序列，然后，将该与主体属性对应的子序列传入到双向长短期记忆人工神经网络LSTM中，得到主体属性的编码向量，然后加上相对位置向量，得到一个与文本信息对应的向量等长的向量序列，将句子特征编码序列传入另一层自注意力机制中，将输出结果和与文本信息对应的向量等长的向量序列、先验特征进行拼接，将拼接后的结果传入CNN、Dense层，对于每一种对应关系，都构建一个“半指针-半标注”结构来预测对应的目标属性的目标起始位置和目标结束位置。

步骤204，根据主体起始位置和主体结束位置从文本信息中提取主体数据，以及根据目标起始位置和目标结束位置从文本信息中提取目标数据。

示例二：

在目标信息为图表信息时，所述根据预设的主体属性和目标属性的对应关系，从目标信息中提取与主体属性对应的主体数据以及与目标属性对应的目标数据的具体实现过程可包括如下步骤：获取图表信息对应的附件类型，根据附件类型解析对应的图表接口获取图标信息中的数据；根据对应关系从图表信息中的数据提取与主体属性对应的主体数据以及与目标属性对应的目标数据。

可以理解，由于图表中的数据通常具有对应的属性，因此，当目标信息为图表信息时，可通过整理分析目标信息中的excel表格、pdf中的图表格式，针对不同的图表可直接使用不同的解析接口，从而获得目标信息中图表的数据。

由此，通过目标信息中数据的格式，采用不同的解析方式从该目标信息中抽取相应的主体数据与目标数据。

为了进一步能够有效地提高数据准确性和可用性，可选地，在从目标信息中提取与主体属性对应的主体数据以及与目标属性对应的目标数据之后，还可检测目标属性对应的目标数据是否满足预设的完整性条件，如果存在不满足完整性条件的缺失目标数据，则获取与目标信息相关的参考信息，并根据参考信息对缺失目标数据进行补齐操作满足完整性条件。

可以理解，由于在文本抽取的语料中，常常存在地名的缺失、缩写、别名、模糊等问题，在本申请实施例中，可通过检测目标数据是否满足预设的完整性条件，若存在不满足完整性条件的缺失目标数据，则获取与所述目标信息相关的参考信息，利用预先建立的命名实体识别模型从该参考信息中对缺失目标数据进行补齐操作满足所述完整性条件。例如，假设目标数据为地址，该地址不满足完整性条件，可以借助命名实体识别模型解析网站名称、标题、上下文获得缺失的地址，对于已存在的模糊地址实现地址的对齐操作，比如，可通过查询知识库，找到该地名的国家、省、市、县级。由此，为达到海量数据的自动化校验，借助了命名实体识别来辅助核验各抽取实体，不仅判断各实体的准确与否，还根据具体任务进一步设计了修正策略，达到不丢弃每一条有效数据的目的。

为了方便后续进行对应的数据处理，可对主体数据和目标数据进行格式统一。可选地，在一些实施例中，如图3所示，该数据处理方法还包括：

步骤301，根据主体数据的数据类型，获取预设的与主体数据的数据类型对应的主体格式。

可以理解，主体数据的数据类型的不同，则对应的数据格式也会不同。因此，在本步骤中，可根据主体数据的数据类型，获取与该数据类型对应的主体格式。例如，以主体数据为财政指标数值为例，该财政指标数值的数据类型为金额，其对应的主体格式为金额格式，该金额格式可包括数值和单位，数值中的有效位数表示，数值的表现形式等。

步骤302，检测主体数据是否与主体格式匹配，如果不匹配，根据主体格式调整主体数据。

例如，以主体格式为金额格式为例，处理的金额包括单位转化、三位逗号分隔、阿拉伯数字和中文说法、有效位数等处理。也就是说，可根据标准的金额格式来调整主体数据。

步骤303，根据目标数据的数据类型，获取预设的与目标数据的数据类型对应的目标格式。

例如，以目标数据为时间数据为例，该数据类型为时间，对应的目标格式为时间格式。

步骤304，检测目标数据是否与目标格式匹配，如果不匹配，根据目标格式调整目标数据。

例如，以目标格式为时间格式为例，处理的时间包括今年、全年、去年、前年、上半年、下半年、第一季度、第二季度、第三季度、第四季度、前二季度、前三季度、前X月以及多种时间范围的表示方法进行统一格式化处理。也就是说，当目标数据中的时间不是具体时间而是一个中间代词时，可通过时间格式来调整该目标数据。举例而言，假设目标数据为“今年第一季度”，而时间格式为“XXXX年XX月-XX月”，则可根据该时间格式将该目标数据进行调整，调整为“2020年01月-03月”。

由此，通过对主体数据和目标数据进行格式统一，可以方便后续进行对应的数据处理，例如，财政数据后期的分类汇总等分析操作。

为了方便本领域技术人员更加清楚地了解本申请，下面将结合图4至图6以数据为财政数据为例进行详细说明。需要说明的是，下面给出的示例仅是为了方便技术人员的理解而给出的示例，并不能够作为对本申请的具体限定。也就是说，本申请实施例的数据处理方法还可应用于对其他领域内的数据进行处理，在此不做具体限定。

举例而言，如图4所示，调研各财政数据网站，统计分析各网站披露数据的完整性和权威性，建立起一套完整的目标网站体系，可通过爬取目标网站的网页信息和附件信息，获取HTML格式、PDF格式、EXCEL格式的数据。为了实现财政数据的可用性，还爬取了对应的网站名称、标题、发布时间等信息。

在爬取到财政数据网站的网页信息和附件信息，获取HTML格式、PDF格式、EXCEL格式的数据，以及对应的网站名称、标题、发布时间等信息时，可将这些信息中的文本信息输入至文本解析模型，利用文本解析模型对文本信息进行解析，以从该文本信息中提取相应的主体数据和目标数据。将HTML格式、PDF格式、EXCEL格式中的图表信息输入至图表解析模型，以从这些信息中提取相应的主体数据和目标数据。基于提取到的目标数据和主体数据，建立目标数据和主体数据之间的对应关系。

在提取到目标数据之后，可利用命名实体识别模型对目标数据之中的缺失部分进行补齐操作，以使得目标数据满足完整性条件。在获得满足完整性条件的目标数据和主体数据之后，还可分别对目标数据和主体数据进行格式化统一，以使得目标数据满足对应的目标格式，主体数据满足对应的主体格式，以方便财政数据后期的分类汇总等分析操作。将满足对应数据格式的主体数据和目标数据进行自动校验，例如，可利用句子之间、上下级之间、财政指标之间的关系进行数据的自动校验。将经过校验后的主体数据和目标数据之间的对应关系进行对应的数据处理，例如，可根据对应关系将主体数据和目标数据进行汇总，统计在地区维度、时间维度、指标维度的数据覆盖率。

在本实施例中，文本解析模型可以是预先建立的。其中，文本解析模型主要用来处理爬取的网页文本、doc文本、pdf文本部分。考虑到财政数据在使用中所需要的属性，从文本中抽取的元素包括时间、地点、财政指标名称、财政指标数值。文本解析模型数据使用三元组SPO的方式(S即subject主体，P即predicate，O即object目标)。在本次抽取任务中，将财政指标数值value设定为subject，其他元素即为object，P包括地名、财政指标名称、时间三种类型。例如：以文本信息为“2019年A城市的税收收入为1亿”为例，主体数据与目标数据之间的对应关系可为：(“1亿”，时间，“2019年”)，(“1亿”，地名，“A城市”)，(“1亿”，财政指标名称，“税收收入”)。

借助条件概率P(s,p,o)＝P(s)P(o|s)P(p|s,o)，简化为先预测出s，再根据s来预测出对应的o和p。这种方法能够解决一个s对应多个o、多个s对应于多个o的问题，具有良好的泛化性。

在本实施例中，如图5所示，该文本解析模型的流程可如下：

(1)输入字id序列，获得字向量、词向量和位置向量的混合编码；

(2)经过12层的膨胀卷积DGCNN，膨胀系数为[1,2,5,1,2,5,1,,2,5,1,1,1]，从粗粒度和细粒度的感受野更好地学习句子特征编码序列H；

(3)将编码后的序列传入自注意力机制self attention，将输出结果与先验特征进行拼接，先验特征为使用标注语料建立的AC自动机的查询结果；

(4)将拼接后的结果传入CNN、Dense层，用“半指针-半标注”结构，预测主体属性s的首(或称为起始)、尾(或称为结束)位置；

(5)随机采样一个标注的s，将句子特征编码序列H对应此s的子序列传入到双向LSTM中，得到s的编码向量，然后加上相对位置向量，得到一个与输入序列等长的向量序列；

(6)将句子特征编码序列H传入另一层自注意力机制中，将输出结果和第五步输出的向量序列、先验特征进行拼接；

(7)将拼接后的结果传入CNN、Dense，对于每一种对应关系p，都构建一个“半指针-半标注”结构来预测对应的目标属性object(如图5中的O)的首、尾位置。

需要说明的是，本申请实施例中的文本抽取模型，通过采用端到端end2end的方式，采用SPO(subject-predicate-object)的形式，将数值(value)定义为主体属性subject，其余属性(指标名称、时间、地点)定义为目标属性object，从属性类型上有效地区分出subject和object，保证近乎百分之百的subject准确性，缓解误差积累，是数据型关系抽取的一个巧思；通过将subject中DGCNN层的输出参数输入到object中，实现共享编码层，建立起subject和object的内部联系；并且，通过采用sigmoid激活函数，使用指针的方式，为每一类object创建一个长度为句子长度的开始索引start_index和终止索引end_index的概率向量，然后通过设定阈值找出该类型可能存在的所有object的起始位置；通过该方式不仅实现了一对多的抽取，还能解决不同类型object之间的重叠问题(即overlap)。

本申请实施例的文本抽取模型，在object的输入层拼接了远程监督的特征向量，充分利用起已有的资源，实现了知识库数据回流模型的功效；并且，根据得到的起始和终止位置向量，针对实际任务场景设计出多策略的解码方式，有效提高解码的准确率；另外，通过使用bilstm对subject进行编码，共享句子编码层，并拼接到object的输入向量中，增加自注意力机制，改善多关系抽取混淆的问题(mismatch)。

在本申请实施例中，图表解析模型通过整理分析附件中excel表格、pdf中的图表格式，针对不同的图表开发不同的解析接口，从而获得附件中图表的数据。

在本申请实施例中，由于在文本抽取的语料中，常常存在地名的缺失、缩写、别名、模糊等问题，故可借助命名实体识别模型解析网站名称、标题、上下文获得缺失的地址，对于已存在的模糊地址实现地址的对齐操作。例如，如图6所示，该命名实体识别模型的流程如下：将大量标注过的数据，使用中文预训练模型Roberta获得字符级的向量embedding作为BiLSTM的输入，然后使用双向LSTM对句子进行编码，双向LSTM的输出进全连接层，得到句子中每个字的预测标签的分数,再将该分数输入条件随机场CRF中学习句子的约束，经过最大似然估计计算损失函数以及维特比viterbi算法，将类别序列中分数最高的类别作为预测的最终结果。当预测的实体中有地名时，则通过查询知识库，找到该地名的国家、省、市、县级。

在本申请实施例中，考虑到财政数据后期的分类汇总等分析操作，将时间、金融的表示格式统一。例如，时间格式化：处理的时间包括今年、全年、去年、前年、上半年、下半年、第一季度、第二季度、第三季度、第四季度、前二季度、前三季度、前X月以及多种时间范围的表示方法进行统一格式化处理。金额格式化：处理的金额包括单位转化、三位逗号分隔、阿拉伯数字和中文说法、有效位数等处理。

由此可见，本申请实施例为达到海量数据的自动化校验，借助了命名实体识别来辅助核验各抽取实体，不仅判断各实体的准确与否，还根据具体任务进一步设计了修正策略，达到不丢弃每一条有效数据的目的；另外，考虑到数据型关系抽取任务下游面临的汇总分析工作，在命名实体识别中嵌入了地名的补全，建立了一个全中国各省市区县的完整命名库，有效地将抽取到的缺省地名进行了补全，也可以称为实体对齐工作。另外，在融合所有抽取到的数据时，实现了数据与数据比对校验，并根据数据在财政意义上的关系，通过建立的省区县命名库设计地域层级之间的校验，能够有效发现抽取有误的数据，提高数据清洗的效率。

综上所述，本申请实施例通过爬取财政数据网站，获取网页信息和附件，通过对其中的文本、图表进行解析，抽取历年地方财政的数据，为构建全国高覆盖率、高准确度的财政数据库建立基础，并实现全自动化抽取流程，以达到时效性要求。可见，本申请旨在提高对财政数据披露的语义解析的正确率和有效性，并实现自动化从存储格式多类型、表述方式多样化的文本及文件中抽取多个财政数据的目标。

图7是根据本申请一个实施例的数据处理装置的结构框图。如图7所示，该数据处理装置700可以包括：第一获取模块701、建立模块702、检验模块703和数据处理模块704。

具体地，第一获取模块701用于获取待处理的目标信息。

建立模块702用于根据预设的主体属性和目标属性的对应关系，从目标信息中提取与主体属性对应的主体数据以及与目标属性对应的目标数据，建立主体数据和目标数据之间的对应关系。

在一些实施例中，如果目标信息为文本信息，建立模块具体用于：获取与文本信息对应的句子特征编码序列；根据预设算法对句子特征编码序列进行处理，提取与主体属性对应的主体起始位置和主体结束位置；根据对应关系从句子特征编码序列获取与主体属性对应的子序列，根据预设算法对子序列和句子特征编码序列进行处理，提取与目标属性对应的目标起始位置和目标结束位置；根据主体起始位置和主体结束位置从文本信息中提取主体数据，以及根据目标起始位置和目标结束位置从文本信息中提取目标数据。

在一些实施例中，如果目标信息为图表信息，建立模块具体用于：获取图表信息对应的附件类型，根据附件类型解析对应的图表接口获取图标信息中的数据；根据对应关系从图表信息中的数据提取与主体属性对应的主体数据以及与目标属性对应的目标数据。

检验模块703用于检验主体数据与目标数据之间的对应关系是否正确。在一些实施例中，检验模块703获取与主体数据与目标数据之间的对应关系相关联的核验信息；根据核验信息检验主体数据与目标数据之间的对应关系是否满足与核验信息对应的核验条件；如果主体数据与目标数据之间的对应关系满足核验条件，则确定主体数据与目标数据之间的对应关系正确。

数据处理模块704用于在主体数据与目标数据之间的对应关系正确时，针对目标需求根据主体数据和目标数据之间的对应关系进行对应的数据处理。

在一些实施例中，如图8所示，该数据处理装置700还可包括：第一检测模块705和补齐操作706。其中，第一检测模块705用于检测目标属性对应的目标数据是否满足预设的完整性条件；补齐操作706用于在存在不满足完整性条件的缺失目标数据时，获取与目标信息相关的参考信息，并根据参考信息对缺失目标数据进行补齐操作满足完整性条件。

在一些实施例中，如图9所示，该数据处理装置700还可包括：第二获取模块707、第二检测模块708、调整模块709和第三获取模块710。其中，第二获取模块707用于根据主体数据的数据类型，获取预设的与主体数据的数据类型对应的主体格式；第二检测模块708用于检测主体数据是否与主体格式匹配；调整模块709用于在主体数据与主体格式不匹配时，根据主体格式调整主体数据；第三获取模块710用于根据目标数据的数据类型，获取预设的与目标数据的数据类型对应的目标格式；第二检测模块708还用于检测目标数据是否与目标格式匹配；调整模块709还用于在目标数据与目标格式不匹配时，根据目标格式调整目标数据。

需要说明的是，前述对数据处理方法实施例的解释说明也适用于该实施例的数据处理装置，此处不再赘述。

根据本申请实施例的数据处理装置，通过预设的主体属性和目标属性的对应关系从待处理的目标信息中提取与主体属性对应的主体数据以及与目标属性对应的目标数据，进而建立主体数据和目标数据之间的对应关系，检验主体数据与目标数据之间的对应关系是否正确，如果正确，则针对目标需求根据主体数据和目标数据之间的对应关系进行对应的数据处理。由此，本申请直接基于预先设定主体属性和目标属性的对应关系从待处理的目标信息中提取相应的主体数据以及目标数据，进而建立主体数据和目标数据之间的对应关系，从而实现了从待处理目标信息中抽取出相关的主体数据和目标数据，即通过预先设定主体属性和目标属性的对应关系即可实现了数据抽取的功能。另外，通过校验主体数据与目标数据之间的对应关系是否正确，可以有效提高数据准确性和可用性；此外，针对目标需求根据主体数据和目标数据之间的对应关系进行对应的数据处理，可以实现对抽取到的数据进行汇总统计。

为了实现上述实施例，本申请还提出一种计算机设备。

图10是根据本申请一个实施例的计算机设备的结构框图。如图10所示，该计算机设备1000可以包括：存储器1001、处理器1002及存储在存储器1001上并可在处理器1002上运行的计算机程序1003，所述处理器1002执行所述程序1003时，实现本申请上述任一实施例所述的数据处理方法。

为了实现上述实施例，本申请还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本申请上述任一实施例所述的数据处理方法。

为了实现上述实施例，本申请还提出一种计算机程序产品，当所述计算机程序产品中的指令被处理器执行时，执行本申请上述任一实施例所述的数据处理方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种数据处理方法，其特征在于，包括：

获取待处理的目标信息；

根据预设的主体属性和目标属性的对应关系，从所述目标信息中提取与所述主体属性

对应的主体数据以及与所述目标属性对应的目标数据，建立所述主体数据和所述目标数据

之间的对应关系；

检验所述主体数据与所述目标数据之间的对应关系是否正确，如果正确，则针对目标

需求根据所述主体数据和所述目标数据之间的对应关系进行对应的数据处理；

根据所述主体数据的数据类型，获取预设的与所述主体数据的数据类型对应的主体格式；

检测所述主体数据是否与所述主体格式匹配，如果不匹配，根据所述主体格式调整所

述主体数据；

根据所述目标数据的数据类型，获取预设的与所述目标数据的数据类型对应的目标格式；

检测所述目标数据是否与所述目标格式匹配，如果不匹配，根据所述目标格式调整所述目标数据。

2.根据权利要求1所述的方法，其特征在于，如果所述目标信息为文本信息，所述根据预设的主体属性和目标属性的对应关系，从所述目标信息中提取与所述主体属性对应的主体数据以及与所述目标属性对应的目标数据，包括：

获取与所述文本信息对应的句子特征编码序列；

根据预设算法对所述句子特征编码序列进行处理，提取与所述主体属性对应的主体起

始位置和主体结束位置；

根据所述对应关系从所述句子特征编码序列获取与所述主体属性对应的子序列，根据

预设算法对所述子序列和所述句子特征编码序列进行处理，提取与所述目标属性对应的目

标起始位置和目标结束位置；

根据所述主体起始位置和主体结束位置从所述文本信息中提取所述主体数据，以及根

据所述目标起始位置和目标结束位置从所述文本信息中提取所述目标数据。

3.根据权利要求1所述的方法，其特征在于，如果所述目标信息为图表信息，所述根据预设的主体属性和目标属性的对应关系，从所述目标信息中提取与所述主体属性对应的主体数据以及与所述目标属性对应的目标数据，包括：

获取所述图表信息对应的附件类型，根据所述附件类型解析对应的图表接口获取所述

图表信息中的数据；

根据所述对应关系从所述图表信息中的数据提取与所述主体属性对应的主体数据以及与所述目标属性对应的目标数据。

4.根据权利要求1所述的方法，其特征在于，在从所述目标信息中提取与所述主体属性对应的主体数据以及与所述目标属性对应的目标数据之后，还包括：

检测所述目标属性对应的目标数据是否满足预设的完整性条件，如果存在不满足所述完整性条件的缺失目标数据，则获取与所述目标信息相关的参考信息；

根据所述参考信息对所述缺失目标数据进行补齐操作满足所述完整性条件。

5.根据权利要求1所述的方法，其特征在于，所述检验所述主体数据与所述目标数据之间的对应关系是否正确，包括：

获取与所述主体数据与所述目标数据之间的对应关系相关联的核验信息；

根据所述核验信息检验所述主体数据与所述目标数据之间的对应关系是否满足与所述核验信息对应的核验条件；

如果所述主体数据与所述目标数据之间的对应关系满足所述核验条件，则确定所述主

体数据与所述目标数据之间的对应关系正确。

6.一种数据处理装置，其特征在于，包括：

第一获取模块，用于获取待处理的目标信息；

数据处理模块，用于在所述主体数据与所述目标数据之间的对应关系正确时，针对目标需求根据所述主体数据和所述目标数据之间的对应关系进行对应的数据处理；

述主体数据；

7.根据权利要求6所述的装置，其特征在于，还包括：

第一检测模块，用于检测所述目标属性对应的目标数据是否满足预设的完整性条件；

补齐操作，用于在存在不满足所述完整性条件的缺失目标数据时，获取与所述目标信

息相关的参考信息，并根据所述参考信息对所述缺失目标数据进行补齐操作满足所述完整性条件。

8.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时，实现如权利要求1至5中任一项所述的数据处理方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至5中任一项所述的数据处理方法。