CN113704562A

CN113704562A - 数据核对方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN113704562A
Application number: CN202110309787.XA
Authority: CN
Inventors: 段乾
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-03-23
Filing date: 2021-03-23
Publication date: 2021-11-26

Abstract

本申请实施例提供了一种数据核对方法、装置、电子设备及计算机可读存储介质，涉及数据处理技术领域。该方法通过获取待核对的不同分层的分层数据以及每个分层数据对应的标签，使不同分层的分层数据可以根据各自的标签映射为对应于不同区域和子产品的成本数据，然后在分层数据分别对应的标签之间进行匹配，形成标签匹配关系，基于标签匹配关系，将相互匹配的至少两个标签分别对应的成本数据之间进行核对，得到核对结果。利用不同分层的分层数据分别对应的标签之间的标签匹配关系，使不同分层的分层数据在数据核对时能够将映射为相同类别的成本数据进行核对，便于核对不同分层的分层数据，达到提升数据核对效率的目的。

Description

数据核对方法、装置、电子设备及计算机可读存储介质

技术领域

本申请涉及数据处理技术领域，具体而言，本申请涉及一种数据核对方法、装置、电子设备及计算机可读存储介质。

背景技术

随着企业的业务扩展，企业可以通过专用型信息系统来管理不同业务的数据，例如可以通过成本管理系统来进行成本核算、成本分析、成本决策等一系列管理操作。

其中，各类信息系统的数据通常需要从各种业务中拉取，比如，成本管理系统的数据需要从各种不同的子业务获得，对数据进行分析和核对时，根据不同需求对数据进行聚合或者拆分。由于不同子产品对应的数据可能对应于不同层级，不同层级之间的成本数据难以直接进行相互核对，在核对过程中，出现未知数据时，可能需要对多个层级的成本数据均进行调整，才能确定校准后的成本数据，导致耗时较长，难以实现高效率核对数据。

发明内容

本申请的目的旨在至少能解决上述的技术缺陷之一，特别是数据核对效率低的技术缺陷。

第一方面，提供了一种数据核对的方法，该方法包括：

获取待核对的不同分层的分层数据，并确定与每个分层数据分别对应的标签；

将分层数据分别对应的标签之间进行匹配，确定出标签之间的标签匹配关系；

获取互相匹配的至少两个标签分别对应的成本数据；

基于标签匹配关系，将互相匹配的至少两个标签分别对应的成本数据之间进行核对，得到核对结果。

在第一方面的可选实施例中，将分层数据分别对应的标签之间进行匹配，确定出标签之间的标签匹配关系，包括：

若分层数据分别对应的标签中存在未识别标签，则确定与未识别标签相匹配的可识别标签；

基于可识别标签与预设的标签关系信息确定标签匹配关系；其中，标签关系信息中包括多个可识别标签之间的关系信息。

在第一方面的可选实施例中，基于所述可识别标签与预设的标签关系信息确定所述标签匹配关系，包括：

将与未识别标签相匹配的可识别标签与其他标签之间的匹配结果，设为未识别标签与其他标签之间的匹配结果；

其中，其他标签为标签中除未识别标签以外的标签；

基于匹配结果与标签关系信息确定标签匹配关系。

在第一方面的可选实施例中，还包括：

基于与未识别标签相匹配的可识别标签更新标签关系信息。

在第一方面的可选实施例中，获取互相匹配的至少两个标签分别对应的成本数据，包括：

确定互相匹配的至少两个标签中每个标签对应的至少一项成本项；

基于所确定的成本项，将互相匹配的至少两个标签中每一标签对应的分层数据基于至少一个成本项进行拆分，得到每个成本项对应的成本数据。

在第一方面的可选实施例中，基于标签匹配关系，将互相匹配的至少两个标签分别对应的成本数据之间进行核对，得到核对结果之后，还包括：

若核对结果提示至少一个成本数据核对错误，则将出现错误的至少一个成本数据、对应的标签以及对应的分层数据发送至校正终端；

接收校正终端发送的校正后的校正标签和校正成本数据。

在第一方面的可选实施例中，接收校正终端发送的校正后校正标签和校正成本数据之后，还包括：

将校正标签设为分层数据的新的标签，将校正成本数据设为与新的标签对应的新的成本数据，执行将分层数据分别对应的标签之间进行匹配，确定出标签之间的标签匹配关系的步骤。

第二方面，提供了一种数据核对装置，该装置包括：

获取模块，用于获取待核对的不同分层的分层数据，并获取与每个分层数据分别对应的标签；

匹配模块，将分层数据分别对应的标签之间进行匹配，确定出标签之间的标签匹配关系；

映射模块，用于获取互相匹配的至少两个标签分别对应的成本数据；

核对模块，用于基于标签匹配关系，将互相匹配的至少两个标签分别对应的成本数据之间进行核对，得到核对结果。

在第二方面的可选实施例中，匹配模块在将分层数据分别对应的标签之间进行匹配，确定出标签之间的标签匹配关系时，具体用于：

在第二方面的可选实施例中，匹配模块在基于所述可识别标签与预设的标签关系信息确定所述标签匹配关系时，具体用于：

其中，其他标签为标签中除未识别标签以外的标签；

基于匹配结果与标签关系信息确定标签匹配关系。

在第二方面的可选实施例中，还包括更新模块，具体用于：

基于与未识别标签相匹配的可识别标签更新标签关系信息。

在第二方面的可选实施例中，映射模块在获取互相匹配的至少两个标签分别对应的成本数据时，具体用于：

在第二方面的可选实施例中，还包括发送模块，具体用于：

接收校正终端发送的校正后的校正标签和校正成本数据。

在第二方面的可选实施例中，还包括校正模块，具体用于：

第三方面，提供了一种电子设备，该电子设备包括：

存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现上述任一实施例的数据核对方法。

第四方面，本发明还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现上述任一实施例的数据核对方法。

上述的数据核对方法，通过获取待核对的不同分层的分层数据以及每个分层数据对应的标签，使不同分层的分层数据可以根据各自的标签映射为对应于不同类别的成本数据，然后在分层数据分别对应的标签之间进行匹配，形成标签匹配关系，基于标签匹配关系，将相互匹配的至少两个标签分别对应的成本数据之间进行核对，得到核对结果。利用不同分层的分层数据分别对应的标签之间的标签匹配关系，使不同分层的数据在数据核对时能够映射为相同类别的成本数据，便于对不同分层的分层数据进行核对，达到提升核对数据效率的目的。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种数据核对方法的流程示意图；

图2为本申请实施例提供的一种数据核对方法中的七层模型示意图；

图3为本申请实施例提供的一种数据核对方法中的字典树示意图；

图4为本申请实施例提供的一种数据核对方法中的确定成本数据的示意图；

图5为本申请实施例提供的一种数据核对方法的流程示意图；

图6为本申请实施例提供的一种数据核对装置的结构示意图；

图7为本申请实施例提供的一种数据核对的电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

信息技术(Information Technology，IT)是主要用于管理和处理信息所采用的各种技术的总称，计算机和互联网普及以来，人们日益普遍地使用计算机来生产、处理、交换和传播各种形式的信息。

在这个“信息爆炸”时代，如何利用信息技术来处理和加工大量数据，日益成为人们关注的问题。各类信息管理系统应运而生，人们通过信息管理系统对数据进行收集、分析和加工。

例如，企业可以通过成本管理系统来进行成本核算、成本分析、成本决策等一系列管理操作，成本管理系统会给企业员工提供查询、修改和审核等功能，从而减少资源浪费，保证决策的科学性，提高企业的效益。

其中，成本管理系统的数据需要从不同的子业务系统获得，之后进行相关数据不同维度的拆分和聚合，根据需求进行展示和核对。目前，在对数据进行拆分时，通常需要人工进行数据核对，且数据拆分的逻辑、数据与用户级、子产品和区域的映射关系等都需要相关产品、运营人员进行规则的定制，当存在未知数据，例如新增的计费项和业务区域时，只能由对应的人员进行二次修改，才能生成最终的校准后的成本数据，极其耗时，效率不够高。

本申请提供的数据核对方法、装置、电子设备和计算机可读存储介质，旨在解决现有技术的如上技术问题。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

本申请实施例中提供的数据核对方法，该方法可以应用于服务器，也可以应用于终端。

本技术领域技术人员可以理解，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

本申请实施例中提供了一种数据核对的方法，如图1所示，该方法包括：

步骤S101，获取待核对的不同分层的分层数据，并确定与每个分层数据分别对应的标签。

在本申请实施例中，待核对的不同分层的分层数据可以由不同方式进行获取。分层数据可以由相关产品、运营人员导入，根据不同层级按照不同的成本项进行处理后获得；分层数据可以由管理系统定时从业务方拉取或者由业务方主动推送相关的成本数据到管理系统；成本数据还可以是由管理系统的上游系统，例如分析型系统进行收集、处理后，推送至管理系统。

其中，不同分层的分层数据可以是指对应于不同OSI(Open SystemInterconnection)七层模型中不同层级的数据。

具体的，如图2所示，七层模型是国际标准化组织(ISO)制定的一个用于计算机或通信系统间互联的标准体系，不仅包括一系列抽象的术语或概念，也包括具体的协议。各个层级以及各个层级的功能在此处进行简要说明：

(1)应用层，OSI参考模型中最靠近用户的一层，是为计算机用户提供应用接口，也为用户直接提供各种网络服务。常见应用层的网络服务协议有：超文本传输协议(HTTP，Hypertext Transfer Protocol)，超文本传输安全协议(HTTPS，Hyper Text TransferProtocol over SecureSocket Layer)，文件传输协议(FTP，File Transfer Protocol)等。

(2)表示层，提供各种用于应用层数据的编码和转换功能，确保一个系统的应用层发送的数据能被另一个系统的应用层识别。该层还可以提供一种标准表示形式，用于将计算机内部的多种数据格式转换成通信中采用的标准表示形式，数据压缩和加密也是表示层可提供的转换功能之一。

(3)会话层，负责建立、管理和终止表示层实体之间的通信会话。该层的通信由不同设备中的应用程序之间的服务请求和响应组成。

(4)传输层，建立了主机端到端的链接，传输层的作用是为上层协议提供端到端的可靠和透明的数据传输服务，包括处理差错控制和流量控制等问题。该层向高层屏蔽了下层数据通信的细节，使高层用户看到的只是在两个传输实体间的一条主机到主机的、可由用户控制和设定的、可靠的数据通路。通常说的，TCP(Transmission Control Protocol，传输控制协议)/UDP(User Datagram Protocol，用户数据报协议)在这一层，端口号即是这里的“端”。

(5)网络层，通过IP(Internet Protocol，网际互连协议)寻址来建立两个节点之间的连接，为源端的运输层送来的分组，选择合适的路由和交换节点，正确无误地按照地址传送给目的端的运输层。就是通常说的IP层。这一层就是我们经常说的IP协议层。IP协议是Internet的基础。

(6)数据链路层，将比特组合成字节，再将字节组合成帧，使用链路层地址来访问介质，并进行差错检测。数据链路层又分为2个子层：逻辑链路控制子层和媒体访问控制子层。

(7)实际最终信号的传输是通过物理层实现的，通过物理介质传输比特流，规定了电平、速度和电缆针脚。常用设备有(各种物理设备)集线器、中继器、调制解调器、网线、双绞线、同轴电缆，这些都是物理层的传输介质。

不同层级由于功能不同，以及数据在本层级的传输形式不同，可以提供不同的服务，对应于不同的业务或者子产品，因此，不同分层的分层数据可以来源于不同层级相应的业务或者子产品，获取的分层数据对应的层级即为关联业务或者子产品对应的层级。

在本申请实施例中，每个分层数据可以有对应的标签。标签是一种用来描述业务实体特征的数据形式，通过标签对业务实体进行刻画，从多角度反映业务实体的特征，比如对用户进行刻画时，包括性别、年龄、地区、兴趣爱好、产品偏好等角度。

其中，标签产生方式可以分为两种：一种是从原始数据经过简单地加工而成，这种标签反映的是客观事实，可以称为客观标签；另一种标签是通过数据挖掘方法得到，预测事情的发生概率，是比较主观的，可以称为主观标签。

在本申请实施例中，可以获取分层数据以及每个分层数据对应的标签进行数据核对，此处标签可以是指客观标签。

客观标签的产生方式可以包括：

(1)标签可以直接来自于状态类数据，对状态类数据进行清洗和标准化后便得到相应的标签，比如性别、城市、设备品牌等等。

(2)标签可以来自于对事件累数据的汇总，汇总的方式大部分是按时间维度汇总，或者在时间维度加上一个或多个其他维度，例如最近一天的登录次数、最近一月的登录次数，这两个标签都是在时间维度上的汇总。如最近一天通过移动设备登录次数，则是在时间维度上增加了登录设备这一维度。这里讲的汇总除了可以是加总的意思，还可以包括其他集合运算(求和、求平均、求最大值、求最小值等)的结果，比如最近一次登录时间、最近三个月的月均登录次数同样可以看作是汇总的结果。

(3)通过以上两种标签进行四则运算衍生的结果，例如，用户身上有两个标签，分别是购买童装的金额和小孩个数，两个标签相除得到平均为每个小孩购买童装的金额，即可以根据两个标签衍生出来新的标签。

标签还可以有不同的生产方法，分层数据与标签之间的匹配关系可以由不同业务或者子产品的工作人员进行人工设置，对于来自长期业务的分层数据，可以只进行一次人工设置，后续数据均按人工设置的标签映射规则进行标签生成；可以在不同业务或者子产品系统中预先设置与数据相关联的属性，当管理系统拉取数据时，基于数据预设的相关联的属性生成标签；可以通过管理系统的上游系统对获取到的分层数据进行自然语言处理(Natural Language Processing,NLP)，并生成每个分层数据对应的标签。

步骤S102，将分层数据分别对应的标签之间进行匹配，确定出标签之间的标签匹配关系。

在本申请实施例中，可以将分层数据对应的标签之间进行匹配，确定出标签之间的标签匹配关系。可以是一个标签和一个标签形成标签匹配关系，也可以是多个标签跟一个标签形成匹配关系，在某个标签相关联的标签匹配关系中，可以是两个不同分层的标签之间存在匹配关系，也可以是多个同一分层的标签与一个不同分层的标签之间存在匹配关系。

其中，分层数据对应的标签的层级与该分层数据的层级可以保持一致，例如，从二层拉取分层数据，该分层数据对应的标签的层级也为二层。

在本申请实施例中，可以将标签看作字符串，则进行标签匹配的方法可以为字符串模糊匹配(fuzzy string matching)，字符串模糊匹配是一种近似地查找与模式匹配的字符串的技术，即字符串模糊匹配是一种搜索，即使用户拼错单词或只输入部分单词进行搜索，也能够找到匹配项，因此，它也被称为字符串近似匹配，在字符串模糊匹配算法中，包括两个概念：主串和模式串，具体的，假如我们要在字符串A中查找子串B，那么A就是主串，B就是模式串。该算法在本申请实施例中应用时，可以将待匹配标签作为模式串，基于其他标签生成主串，通过在主串中查找模式串来确定待匹配标签和其他标签之间的标签匹配关系。

在本申请实施例中，可以使用以下几种字符串模糊匹配的方法来进行标签匹配：

(1)朴素字符串匹配算法，没有预处理阶段，整体模式串总是后移1位，对模式中的字符的比较顺序不限定，可以从前到后，也可以从后到前；当文本长度是为n的数组时，需要2n次的字符比较。

(2)KMP(Knuth-Morris-Pratt)算法，由Donald Knuth、Vaughan Pratt、JamesH.Morris三人于1977年联合发表，故取这3人的姓氏命名此算法；KMP算法需要对字符串做预处理，预处理时需要额外的空间和复杂度；匹配阶段与字符集的大小无关；匹配阶段至多执行2n-1次字符比较；模式中的字符比较顺序是从左到右。

(3)字典树(Trie树)，又称单词查找树或键树，是一种树形结构，是一种哈希树的变种，可以理解为把一系列的模板串(字符串)放到一个树里面，每个节点存模式串中的字符，从根节点开始向下遍历；根节点不包含字符，除根节点以外每个节点只包含一个字符；从根节点到某一个节点，路径上经过的字符连接起来，为该节点对应的字符串；每个节点的所有子节点包含的字符串不相同。如图3所示，字典树的本质，就是利用字符串之间的公共前缀，将重复的前缀合并在一起，比如我们有“hello，her，hi，how，seo，so”这个字符串集合，可以将其构建成如图3所示字典树，通过遍历这棵树来检索是否存在待匹配的字符串。

(4)AC自动机(Aho-Corasick automaton)，在KMP算法和字典树的基础上进行优化，即构造一棵Trie树，构造失败指针和模式匹配过程。

在本申请实施例中，还可以通过自然语言处理方法来进行标签匹配，例如，使用N-Gram(N元模型)来评估两个字符串(标签)之间的差异程度，从而基于不同的差异程度来确定字符串之间的匹配关系。具体的，可以通过利用N-Gram来定义字符串之间的距离，字符串之间的距离越小，两个字符串就越接近；当两个字符串完全相等的时候，它们之间的距离是0。

步骤S103，获取互相匹配的至少两个标签分别对应的成本数据。

在本申请实施例中，每个分层数据可以存在对应的标签，可以对每个分层数据分别对应的标签之间进行匹配，确定出标签之间的标签匹配关系，然后可以获取在标签匹配关系中形成匹配关系的至少两个标签对应的成本数据。

成本数据可以是指每个分层数据根据每个分层数据对应的标签按照不同层级拆分到不同区域和子产品的数据，区域可以是指国内、国外等，子产品可以是指直播、转码、转推、截屏、录制等。

其中，分层数据可以是从单一的子业务或者子产品相关系统中获取，可能只有一个对应的标签，可以拆分为该标签相关联的成本项对应的成本数据；分层数据也可以从复合型业务中获取，复合型业务则可以包括多个子产品，涉及多个区域，此时，分成数据可能对应于多个标签，可以将分层数据拆分为多个标签分别关联的成本项对应的成本数据。

在本申请实施例中，将分层数据基于对应的标签映射为对应的成本数据，可以包括：

(1)可以确定互相匹配的至少两个标签中每个标签对应的至少一项成本项，成本项可以是指不同的区域和子产品，例如：国内、国外、直播、转码、转推、截屏、录制等。其中，标签和成本项之间的对应关系可以由人员进行人工设置，也可以通过自然语言处理方法对标签进行文本特征提取，生成相应的成本项。

(2)基于所确定的成本项，可以将互相匹配的至少两个标签中每一标签对应的分层数据基于每个标签对应的成本项进行拆分，得到每个成本项对应的成本数据。例如，已知标签甲可以映射为对应的成本项A和成本项B，则将标签甲对应的分层数据拆分到成本项A和成本项B中，得到成本项A对应的成本数据A，成本项B对应的成本数据B。

在一个示例中，如图4所示，获取来自第二层数据链路层的分层数据A以及其对应标签A1，和来自第四层网络层的分层数据B以及其对应标签B1和标签B2。其中，标签A1可以映射到成本项“第二层-区域1”和“第二层-子产品1”，标签B1可以映射到成本项“第四层-区域1”、“第四层-区域2”、“第四层-子产品1”和“第四层-子产品2”，则将分层数据A拆分为“第二层-区域1”和“第二层-子产品1”分别对应的成本数据，分层数据B拆分为“第四层-区域1”、“第四层-区域2”、“第四层-子产品1”和“第四层-子产品2”分别对应的成本数据。

步骤S104，基于标签匹配关系，将互相匹配的至少两个标签分别对应的成本数据之间进行核对，得到核对结果。

在本申请实施例中，成本数据可以是指每个分层数据根据每个分层数据对应的标签按照不同层级拆分到不同区域和子产品的数据，区域可以是指国内、国外等，子产品可以是指直播、转码、转推、截屏、录制等。

分层数据对应的标签的层级与该分层数据的层级可以保持一致，例如，从二层拉取分层数据，该分层数据对应的标签的层级也为二层。在标签匹配关系中，可以是两个对应于不同层级的标签互相匹配的至少两个标签分别对应的成本数据可能包括相同的类别，即虽然对应于不同的层级，但分别包括对应于同一区域或者同一子产品成本数据，可以将互相匹配的不同层级的标签对应的同一区域或同一子产品的成本数据之间进行核对，得到核对结果。

具体的，数据核对可以在不同分层的分层数据之间进行。例如，从第二层中拉取的分层数据和从第四层拉取的分层数据之间可以存在对应关系。假设该可以将对应于第二层的分层数据根据相应的区域和子产品拆分，得到对应于上述区域和子产品的成本数据；将对应于第四层的分层数据也根据相应的区域和子产品拆分，得到对应于相同区域和子产品的成本数据，将不同分层的分层数据拆分后得到的对应于相同区域和子产品的成本数据分别进行核对。

数据核对还可以是指将不同分层的分层数据根据不同的区域和子产品分别拆分为与对应于每个区域和子产品对应的成本数据，通过标签匹配关系，对不同级但对应于相同区域或者子产品的成本数据进行计算，然后与预设的数据库内的相关联的数据进行核对。例如可以将不同层级的但对于同一子产品的成本数据进行求和，与数据库内预存的该子产品对应的总成本进行核对。

在本申请实施例中，将分层数据分别对应的标签之间进行匹配，确定出标签之间的标签匹配关系，可以包括如下步骤：

(1)若每个分层数据分别对应的标签中存在未识别标签，则确定与未识别标签相匹配的可识别标签。

在本申请实施例中，标签可以包括可识别标签和未识别标签。其中可识别标签可以是指可以被管理系统识别的标签，管理系统可以识别出标签与不同类别成本数据的映射关系，即管理系统可以根据标签将每个分层数据拆分成不同类别的成本数据。对于可识别标签，管理系统可以通过前文中的字符串模糊匹配方法或者自然语言处理方法来匹配可识别标签，确定出可识别标签之间的标签匹配关系，管理系统内也可以预存有可识别标签之间的映射关系，进行标签匹配时可以通过查表直接确定可识别标签之间的标签匹配关系。

未识别标签可以是指，当分层数据通过上游分析型系统后，生成对应的标签，但该标签无法被管理系统识别，管理系统内没有该标签与其他标签形成标签匹配关系的记录，需要生成未识别标签与其他标签之间的标签匹配关系。未识别标签还可以是指标签与成本数据的类别映射关系也是未知，需要生成各类别成本数据的映射关系。

可以确定与未识别标签中每一个未识别标签匹配的可识别标签，匹配方法可以是通过前文说明中的字符串模糊匹配方法或者自然语言处理方法来匹配可识别标签。

(2)基于可识别标签与预设的标签关系信息确定标签匹配关系；其中，标签关系信息中包括多个可识别标签之间的关系信息。

在本申请实施例中，可以通过确定与未识别标签匹配的可识别标签，获取可识别标签相关联的标签匹配关系，基于该标签匹配关系来确定未识别标签的标签匹配关系。

其中，可识别标签相关联的标签匹配关系可以由管理系统内预设的标签关系信息中得到，标签关系信息中可以包括多个可识别标签之间的关系信息。标签之间的关系信息可以是指每次通过模糊匹配或者自然语言分析方法完成标签匹配形成标签匹配关系后，基于至少两个标签间的标签匹配关系生成关系信息。当不存在未识别标签，对可识别标签进行匹配时，可以通过查找标签关系信息，来获取可识别标签关联的标签匹配关系；当存在未识别标签时，也可以通过先确定与未识别标签匹配的可识别标签，通过查找标签关系信息，获取可识别标签关联的标签匹配关系，基于可识别标签关联的标签匹配关系来生成未识别标签的标签匹配关系。

在本申请实施例中，当未识别标签生成对应的标签匹配关系后，可以将未识别标签对应的标签匹配关系添加进标签关系信息，可以理解为将未识别标签转化为了新的可识别标签。

在本申请实施例中，成本项可以是指不同的区域和子产品，例如：国内、国外、直播、转码、转推、截屏、录制等。其中，标签和成本项之间的对应关系可以由人员进行人工设置，也可以通过自然语言处理方法对标签进行文本特征提取，生成相应的成本项。未识别标签和成本项之间的对应关系也可以基于上述方法获取，还可以基于与未识别标签匹配的可识别标签对应的成本项生成未识别标签对应的成本项。例如，当二层可识别标签对应于“第二层-子产品1”成本项，二层可识别标签和二层未识别标签匹配时，可以将二层未识别标签对应的成本项设为“第二层-子产品1”。也可能出现四层未识别标签与二层可识别标签匹配的情况，则未识别标签可以对应于相应的“第四层-子产品1”成本项。

在本申请实施例中，基于所确定的可识别标签与预设的标签关系信息确定标签匹配关系，可以包括如下步骤：将与未识别标签相匹配的可识别标签与其他标签之间的匹配结果，设为未识别标签与其他标签之间的匹配结果；其中，其他标签为标签中除未识别标签以外的标签；基于匹配结果与标签关系信息确定标签匹配关系。

其中，可以通过查找标签关系信息，获取可识别标签关联的标签匹配关系，确定可识别标签与其他可识别标签之间的匹配结果，可以将该可识别标签与其他可识别标签之间的匹配结果，设为与该可识别标签匹配的未识别标签与其他标签之间的匹配结果。

当已知与未识别标签匹配的可识别标签对应的标签关系信息，以及未识别标签和除未识别标签以外的标签之间的匹配结果，则可以确定未知标签对应的标签匹配关系，可以理解为将未识别标签加入到可识别标签相关联的标签匹配关系中，形成新的标签匹配关系。

具体的，通过将未识别标签与可识别标签进行匹配，确定未识别标签对应的标签匹配关系中，可能出现如下几种情况：

(1)未识别标签与未识别标签匹配的可识别标签对应于不同层级。通过预设的标签关系信息可以获得与该可识别标签匹配的其他标签，其他标签是指除了未识别标签以外的标签，其他标签中可以含有与该可识别标签对应于不同层级的标签。当未识别标签与未识别标签匹配的可识别标签对应于不同层级时，可以直接在未识别标签与可识别标签之间生成标签匹配关系，然后通过标签关系信息可以获得与该可识别标签匹配的其他标签，将未识别标签与该可识别标签匹配的其他标签也形成标签匹配关系，可以理解为将未识别标签加入可识别标签相关联的标签匹配关系中，与其他标签形成多个标签与该可识别标签匹配的标签匹配关系。

(2)未识别标签与未识别标签匹配的可识别标签对应于相同层级。当未识别标签与未识别标签匹配的可识别标签对应于相同层级时，可以通过预设的标签关系信息获得与该可识别标签匹配的其他标签，其他标签是指除了未识别标签以外的标签，其他标签中可以含有与该可识别标签对应于不同层级的标签。可以基于标签关系信息确定出与所述未识别标签相匹配的可识别标签与其他标签之间的匹配结果，可以将可识别标签与其他标签之间的匹配结果设为未识别标签与其他标签之间的匹配结果，形成未识别标签和与其匹配的可识别标签一起跟其他不同层的标签形成标签匹配关系。

在一个示例中，已知二层可识别标签“sp_live_ocrelay”与四层可识别标签“sv_live_ocrelay_bandwidth_monthly”相互匹配，现在有未识别标签“sv_live_ocrelay_bandwidth_daily”。其中，未识别标签“sv_live_ocrelay_bandwidth_daily”对应的分层数据也为四层，所以未识别标签的层级也为四层，与四层可识别标签“sv_live_ocrelay_bandwidth_monthly”的层级相同，经过字符串模糊匹配或者自然语言处理方法，确定与四层未识别标签“sv_live_ocrelay_bandwidth_daily”匹配的可识别标签为四层可识别标签“sv_live_ocrelay_bandwidth_monthly”，可以通过预设的标签关系信息获得与该可识别标签匹配的二层可识别标签“sp_live_ocrelay”，则将四层可识别标签和二层可识别标签的匹配结果设为四层未识别标签与二层可识别标签之间的匹配结果，形成四层未识别标签和四层可识别标签共同匹配二层可识别标签的标签匹配关系，可以将未识别标签对应的标签匹配关系添加进关联的标签关系信息中，提高标签匹配效率。

在本申请实施例中，可以基于标签匹配关系，将互相匹配的至少两个标签分别对应的成本数据之间进行核对，得到核对结果之后，还可以包括：若核对结果提示至少一个成本数据核对错误，则将出现错误的至少一个成本数据、对应的标签以及对应的分层数据发送至校正终端，由该成本数据相关联的工作人员进行人工校正，得到校正标签和校正成本数据。

具体的，可以由管理系统对出现错误的成本数据进行分析，分析是否是将分层数据根据未识别标签对应的不同成本项进行拆分后，得到的成本数据出现错误。

其中，未识别标签与成本项的对应关系，可以通过上游系统生成，还可以基于与未识别标签匹配的可识别标签对应的成本项自动生成未识别标签对应的成本项。例如，当二层可识别标签对应于“第二层-子产品1”成本项，二层可识别标签和二层未识别标签匹配时，可以将二层未识别标签对应的成本项设为“第二层-子产品1”。也可能出现四层未识别标签与二层可识别标签匹配的情况，则未识别标签可以对应于相应的“第四层-子产品1”成本项。

可以由管理系统对出现错误的至少一个成本数据进行分析，若该成本数据与未识别标签相关联，可能是经由系统自动生成的标签或者标签对应的成本项出现错误，导致分层数据基于未识别标签对应的成本项拆分后得到的成本数据核对时出现错误，可以将出现错误的至少一个成本数据、对应的标签以及对应的分层数据发送至校正终端，由该成本数据相关联的工作人员进行人工校正，得到校正标签和校正成本数据。成本数据相关联的工作人员即成本项相关联的工作人员。例如出现错误的成本项为“第四层-子产品1”，则由子产品1相关联的业务、运营人员对标签和成本数据进行校正。

在本申请实施例中，接收校正终端发送的校正后的校正标签和校正成本数据之后，可以将校正标签设为分层数据的新的标签，将校正成本数据设为与新的标签对应的新的成本数据，所述将所述分层数据分别对应的所述标签之间进行匹配，确定出所述标签之间的标签匹配关系的步骤，重新基于标签匹配关系，进行成本数据之间的数据核对。

为了更清楚阐释本申请的数据核对方法，以下将结合具体示例对数据核对方法进行进一步说明。

在一个实施例中，本申请提供数据核对方法，如图5所示，包括如下步骤：

步骤S501，获取待核对的不同分层的分层数据，并确定与每个分层数据分别对应的标签；其中，不同分层的分层数据以及对应标签可以通过上游分析型系统得到，标签可以由至少一个可识别标签组成，也可以由可识别标签和未识别标签组成；

步骤S502，判断分层数据分别对应的标签中是否存在未识别标签，若存在，则进入步骤S503，否则，进入步骤S507；

步骤S503，若分层数据分别对应的标签中存在未识别标签，则确定与未识别标签相匹配的可识别标签；具体的，可以通过字符串模糊匹配方法或者自然语言处理方法进行标签匹配；

步骤S504，将与未识别标签相匹配的可识别标签与其他标签之间的匹配结果，设为未识别标签与其他标签之间的匹配结果；其中，其他标签为所述标签中除未识别标签以外的标签；

步骤S505，基于未识别标签与其他标签之间的匹配结果，以及可识别标签相关联的标签关系信息确定未识别标签关联的标签匹配关系，基于未识别标签关联的标签匹配关系对标签关系信息进行更新；其中，标签关系信息可以包括多个可识别标签之间的关系信息，预存在管理系统内；

步骤S506，若所有未识别标签都生成了与其关联的标签匹配关系，则进入步骤S508，否则，进入步骤S503；

步骤S507，若分层数据分别对应的标签中不存在未识别标签，则将分层数据分别对应的标签之间进行匹配，确定出标签之间的标签匹配关系；其中，标签匹配关系可以通过对标签进行字符串模糊匹配获取，也可以基于管理系统内预设的标签关系信息查询所得；

步骤S508，确定互相匹配的至少两个所述标签中每个标签对应的至少一项成本项；

步骤S509，基于所确定的成本项，将互相匹配的至少两个标签中每一标签对应的分层数据基于至少一个成本项进行拆分，得到每个成本项对应的成本数据；其中，成本项可以是指不同的区域和子产品，例如：国内、国外、直播、转码、转推、截屏、录制等；

步骤S510，基于所述标签匹配关系，将互相匹配的至少两个所述标签分别对应的所述成本数据之间进行核对，得到核对结果；

步骤S511，若所述核对结果提示至少一个成本数据核对错误，则进入步骤S512，否则进入步骤S515；

步骤S512，则将出现错误的所述至少一个成本数据、对应的所述标签以及对应的分层数据发送至校正终端；

步骤S513，接收校正终端发送的校正后的校正标签和校正成本数据；

步骤S514，将校正标签设为分层数据的新的标签，将校正成本数据设为与新的标签对应的新的成本数据，执行将分层数据分别对应的标签之间进行匹配，确定出标签之间的标签匹配关系的步骤，即进入步骤S507；

步骤S515，确定数据核对结果。

在本申请实施例中的数据核对方法，通过获取待核对的不同分层的分层数据以及每个分层数据对应的标签，使不同分层的分层数据可以根据各自的标签映射为对应于不同类别的成本数据，然后在分层数据分别对应的标签之间进行匹配，形成标签匹配关系，基于标签匹配关系，将相互匹配的至少两个标签分别对应的成本数据之间进行核对，得到核对结果。利用不同分层的分层数据分别对应的标签之间的标签匹配关系，使不同分层的数据在数据核对时能够映射为相同类别的成本数据，便于对不同分层的分层数据进行核对，达到提升核对数据效率的目的。

本申请实施例提供了一种数据核对的装置，如图6所示，该数据核对装置600可以包括：获取模块6001、匹配模块6002、映射模块6003以及核对模块6004，其中，

获取模块6001，用于获取待核对的不同分层的分层数据，并获取与每个分层数据分别对应的标签；

匹配模块6002，将分层数据分别对应的标签之间进行匹配，确定出标签之间的标签匹配关系；

映射模块6003，用于获取互相匹配的至少两个标签分别对应的成本数据；

核对模块6004，用于基于标签匹配关系，将互相匹配的至少两个标签分别对应的成本数据之间进行核对，得到核对结果。

上述的数据核对装置，通过获取待核对的不同分层的分层数据以及每个分层数据对应的标签，使不同分层的分层数据可以根据各自的标签映射为对应于不同类别的成本数据，然后在分层数据分别对应的标签之间进行匹配，形成标签匹配关系，基于标签匹配关系，将相互匹配的至少两个标签分别对应的成本数据之间进行核对，得到核对结果。利用不同分层的分层数据分别对应的标签之间的标签匹配关系，使不同分层的数据在数据核对时能够映射为相同类别的成本数据，便于对不同分层的分层数据进行核对，达到提升核对数据效率的目的。

本申请实施例中，匹配模块6002在将分层数据分别对应的标签之间进行匹配，确定出标签之间的标签匹配关系时，具体用于：

本申请实施例中，匹配模块6002在基于所述可识别标签与预设的标签关系信息确定所述标签匹配关系时，具体用于：

其中，其他标签为标签中除未识别标签以外的标签；

基于匹配结果与标签关系信息确定标签匹配关系。

本申请实施例中，还包括更新模块，具体用于：

基于与未识别标签相匹配的可识别标签更新标签关系信息。

本申请实施例中，映射模块6003在获取互相匹配的至少两个标签分别对应的成本数据时，具体用于：

本申请实施例中，还包括发送模块，具体用于：

接收校正终端发送的校正后的校正标签和校正成本数据。

本申请实施例中，还包括校正模块，具体用于：

本申请实施例中提供了一种电子设备，该电子设备包括：存储器和处理器；至少一个程序，存储于存储器中，用于被处理器执行时，与现有技术相比可实现：提升数据核对的效率。

在一个可选实施例中提供了一种电子设备，如图7所示，图7所示的电子设备4000包括：处理器4001和存储器4003。其中，处理器4001和存储器4003相连，如通过总线4002相连。可选地，电子设备4000还可以包括收发器4004，收发器4004可以用于该电子设备与其他电子设备之间的数据交互，如数据的发送和/或数据的接收等。需要说明的是，实际应用中收发器4004不限于一个，该电子设备4000的结构并不构成对本申请实施例的限定。

处理器4001可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线4002可包括一通路，在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器4003用于存储执行本申请方案的应用程序代码(计算机程序)，并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码，以实现前述方法实施例所示的内容。

其中，电子设备包括但不限于诸如移动电话、笔记本电脑、PAD等等移动终端以及诸如数字TV、台式计算机等等固定终端。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种数据核对方法，其特征在于，包括：

获取待核对的不同分层的分层数据，并确定与所述每个分层数据分别对应的标签；

将所述分层数据分别对应的所述标签之间进行匹配，确定出所述标签之间的标签匹配关系；

获取互相匹配的至少两个标签分别对应的成本数据；

基于所述标签匹配关系，将互相匹配的至少两个所述标签分别对应的所述成本数据之间进行核对，得到核对结果。

2.根据权利要求1所述的数据核对方法，其特征在于，所述将所述分层数据分别对应的标签之间进行匹配，确定出所述标签之间的标签匹配关系，包括：

若所述分层数据分别对应的所述标签中存在未识别标签，则确定与所述未识别标签相匹配的可识别标签；

基于所述可识别标签与预设的标签关系信息确定所述标签匹配关系；其中，所述标签关系信息中包括多个可识别标签之间的关系信息。

3.根据权利要求2所述的数据核对方法，其特征在于，所述基于所述可识别标签与预设的标签关系信息确定所述标签匹配关系，包括：

将与所述未识别标签相匹配的可识别标签与其他标签之间的匹配结果，设为所述未识别标签与其他标签之间的匹配结果；

其中，其他标签为所述标签中除所述未识别标签以外的标签；

基于所述匹配结果与所述标签关系信息确定所述标签匹配关系。

4.根据权利要求2所述的数据核对方法，其特征在于，还包括：

基于与所述未识别标签相匹配的可识别标签更新所述标签关系信息。

5.根据权利要求1所述的数据核对方法，其特征在于，所述获取互相匹配的至少两个标签分别对应的成本数据，包括：

确定互相匹配的至少两个所述标签中每个标签对应的至少一项成本项；

基于所确定的所述成本项，将互相匹配的至少两个标签中每一标签对应的所述分层数据基于所述至少一个成本项进行拆分，得到每个所述成本项对应的成本数据。

6.根据权利要求1所述的数据核对方法，其特征在于，所述基于所述标签匹配关系，将互相匹配的至少两个所述标签分别对应的所述成本数据之间进行核对，得到核对结果之后，还包括：

若所述核对结果提示至少一个成本数据核对错误，则将出现错误的所述至少一个成本数据、对应的所述标签以及对应的分层数据发送至校正终端；

接收所述校正终端发送的校正后的校正标签和校正成本数据。

7.根据权利要求6所述的数据核对方法，其特征在于，所述接收所述校正终端发送的校正后校正标签和校正成本数据之后，还包括：

将所述校正标签设为所述分层数据的新的标签，将所述校正成本数据设为与新的标签对应的新的成本数据，执行所述将所述分层数据分别对应的所述标签之间进行匹配，确定出所述标签之间的标签匹配关系的步骤。

8.一种数据核对装置，其特征在于，包括：

获取模块，用于获取待核对的不同分层的分层数据，并获取与所述每个分层数据分别对应的标签；

匹配模块，将所述分层数据分别对应的所述标签之间进行匹配，确定出所述标签之间的标签匹配关系；

核对模块，用于基于所述标签匹配关系，将互相匹配的至少两个所述标签分别对应的所述成本数据之间进行核对，得到核对结果。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-7任一项所述的数据核对方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现权利要求1-7任一项所述的数据核对方法。