CN113496117A

CN113496117A - 交叉检查表格中单元格数字内容的方法和电子设备

Info

Publication number: CN113496117A
Application number: CN202010256685.1A
Authority: CN
Inventors: 林得苗
Original assignee: Pai Tech Co ltd
Current assignee: Pai Tech Co ltd
Priority date: 2020-04-02
Filing date: 2020-04-02
Publication date: 2021-10-12
Anticipated expiration: 2040-04-02
Also published as: CN113496117B

Abstract

本公开的实施例公开了交叉检查表格中单元格数字内容的方法、电子设备和计算机可读介质。该方法的一具体实施方式包括：获取第一表格、第二表格和预先确定的第一单元格的位置、第二单元格的位置，基于第一表格和所述第一单元格的位置，生成第一嵌入特征，基于第二表格和所述第二单元格的位置，生成第二嵌入特征，将第一嵌入特征和第二嵌入特征输入预先训练的第一神经网络，得到第一单元格和第二单元格语义相同的概率。这种方法根据表格和预先确定的单元格位置，无须人工干预，自动判断单元格语义是否相同，有助于校验单元格的一致性，实现语义一致单元格的自动跳转，完善表格的构建，提高用户操作的便利性。

Description

交叉检查表格中单元格数字内容的方法和电子设备

技术领域

本公开实施例涉及文档表格处理领域，具体涉及验证表格中单元格内容的方法、电子设备和计算机可读介质。

背景技术

包含数字内容的单元格的表格形式广泛存在于各类文件中，特别是金融领域的各类文件、报告。在相同或不同的表格中，同一个数字内容的单元格会被多次提及。特别是在金融领域中，公司披露文件是个人投资者会计信息的主要来源。它的真实性对公司的发展和投资者的投资决策都至关重要。然而，由于表格中的单元格数量庞大，编辑过程中更新频繁，单元格中数字内容不一致的问题经常存在。这种问题可能会对工作造成巨大风险，甚至造成经济损失。交叉检查表格中单元格数字内容的方法是指自动对表格中指定的单元格中的数字内容进行一致性验证。

发明内容

本公开实施例提出了一种交叉检查表格中单元格数字内容的方法。

第一方面，本公开实施例提供了一种交叉检查表格中单元格数字内容的方法，该方法包括：获取第一表格、第二表格和预先确定的第一单元格的位置、第二单元格的位置；基于第一表格和第一单元格的位置，生成第一嵌入特征；基于第二表格和第二单元格的位置，生成第二嵌入特征；将第一嵌入特征和第二嵌入特征输入预先训练的第一神经网络，将所述第一嵌入特征和所述第二嵌入特征输入预先训练的第一神经网络，得到第一单元格和第二单元格语义相同的概率。

在一些实施例中，该方法还包括：响应于第一单元格和第二单元格语义相同的概率大于等于预设阈值，将概率发送至支持发出提示信息的设备，控制设备发出提示信息。

在一些实施例中，基于第一表格和第一单元格的位置，生成第一嵌入特征，包括：基于第一表格和第一单元格的位置，确定第一单元格的第一单元格信息，其中，第一单元格信息包括：行标题、列标题、表格标题、章节标题；对于第一单元格信息中的每个标题，基于该标题和预先训练的第二神经网络，生成该标题的特征向量；连接第一单元格信息中每个标题的特征向量，生成第一嵌入特征。

在一些实施例中，基于第二表格和第二单元格的位置，生成第二嵌入特征，包括：基于第二表格和第二单元格的位置，确定第二单元格的第二单元格信息，其中，第二单元格信息包括：行标题、列标题、表格标题、章节标题；对于第二单元格信息中的每个标题，基于该标题和第二神经网络，生成该标题的特征向量；连接第二单元格信息中每个标题的特征向量，生成第二嵌入特征。

在一些实施例中，第二神经网络包括第一特征提取网络、第二特征提取网络；以及对于第一单元格信息中的每个标题，基于该标题和预先训练的第二神经网络，生成该标题的特征向量，包括：将该标题输入第一特征提取网络，得到第一特征向量；将第一特征向量输入第二特征提取网络，得到该标题的特征向量；以及对于第二单元格信息中的每个标题，基于该标题和第二神经网络，生成该标题的特征向量，包括：将该标题输入第一特征提取网络，得到第二特征向量；将第二特征向量输入第二特征提取网络，得到该标题的特征向量。

在一些实施例中，第一神经网络包括第一信息提取层、第二信息提取层和第一分类层；以及将第一嵌入特征和第二嵌入特征输入预先训练的第一神经网络，得到第一单元格和第二单元格语义相同的概率，包括：对于第一嵌入特征中的每个标题的特征向量，将该标题的特征向量和第二嵌入特征输入第一信息提取层，生成第三子特征向量；连接所生成的各个第三子特征向量，生成第三特征张量；对于第二嵌入特征中的每个标题的特征向量，将该标题的特征向量和第一嵌入特征输入第一信息提取层，生成第四子特征向量；连接所生成的各个第四子特征向量，生成第四特征张量；将第三特征张量输入第二信息提取层，生成第五特征向量；将第四特征张量输入第二信息提取层，生成第六特征向量；将第五特征向量和第六特征向量输入分类层，得到第一单元格和第二单元格语义相同的概率。

第二方面，本公开实施例提供了一种终端设备，该终端设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当上述一个或多个程序被上述一个或多个处理器执行时，使得上述一个或多个处理器实现如第一方面中任一实现方式描述的方法。

第三方面，本公开实施例提供了一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如第一方面中任一实现方式描述的方法。

本公开实施例提供一种交叉检查表格中单元格数字内容的方法，获取获取第一表格、第二表格和预先确定的第一单元格的位置、第二单元格的位置，基于第一表格和第一单元格的位置，生成第一嵌入特征，基于第二表格和所述第二单元格的位置，生成第二嵌入特征，将第一嵌入特征和第二嵌入特征输入预先训练的第一神经网络，第一单元格和第二单元格语义相同的概率。

本公开的上述各个实施例中的一个实施例具有如下有益效果：基于第一单元格信息的第一嵌入特征和第二单元格信息的第二嵌入特征预测第一单元格和第二单元格语义相同的概率，无须对单元格信息进行语义分析，直接对单元格信息进行匹配，能够自动检测两个单元格的数值内容是否相同。本公开的实施例根据表格和预先确定的单元格位置，无须人工干预，自动判断单元格语义是否相同，有助于校验单元格的一致性，实现语义一致单元格的自动跳转，完善表格的构建，提高用户操作的便利性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本公开的其它特征、目的和优点将会变得更明显：

图1是本公开的一些实施例可以应用于其中的示例性系统的架构图；

图2是根据本公开的交叉检查表格中单元格数字内容的方法的一些实施例的流程图；

图3是根据本公开的用于训练第一神经网络和第二神经网络的训练步骤的流程图；

图4是根据本公开的一些实施例的交叉检查表格中单元格数字内容的方法的一个应用场景的示意图；

图5是适于用来实现本公开的一些实施例的终端设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例。相反，提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

下面将参考附图并结合实施例来详细说明本公开。

图1示出了可以应用本公开的交叉检查表格中单元格数字内容的方法的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如表格处理应用、数据分析应用、自然语言处理应用等。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是具有显示屏的各种终端设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的终端设备中。其可以实现成多个软件或软件模块(例如用来提供表格输入、文本输入等)，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103输入的表格进行单元格数字内容交叉检查的服务器，或者是对终端设备101、102、103输入的表格进行处理，并输出单元格数字内容交叉检查结果的服务器等。服务器可以对接收到的表格进行单元格数字内容交叉检查等处理，并将处理结果(例如一致性结果)反馈给终端设备。

需要说明的是，本公开实施例所提供的交叉检查表格中单元格数字内容的方法一般由服务器105执行，相应地，用于发出警示信息的装置一般设置于服务器105中。

需要指出的是，服务器105的本地也可以直接存储表格，服务器105可以直接提取本地的表格通过单元格数字内容交叉检查得到一致性预测结果，此时，示例性系统架构100可以不包括终端设备101、102、103和网络104。

还需要指出的是，终端设备101、102、103中也可以安装有单元格数字内容交叉检查类应用，此时，单元格数字内容交叉检查的方法也可以由终端设备101、102、103执行。此时，示例性系统架构100也可以不包括服务器105和网络104。

需要说明的是，服务器105可以是硬件，也可以是软件。当服务器105为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块(例如用来提供单元格数字内容交叉检查服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本公开的交叉检查表格中单元格数字内容的方法的一些实施例的流程200。该交叉检查表格中单元格数字内容的方法，包括以下步骤：

步骤201，获取第一表格、第二表格和预先确定的第一单元格的位置、第二单元格的位置。

在一些实施例中，交叉检查表格中单元格数字内容的方法的执行主体(例如图1所示的终端设备)可以获取第一表格、第二表格和预先确定的第一单元格的位置、第二单元格的位置。其中，表格是一种二维的结构化的数据，表格中的每个单元格的坐标由垂直方向和水平方向两个维度的坐标组成，坐标表示单元格所在的行号和列号，行号和列号最小可以为0。相邻的单元格可以合并为一个单元格，合并单元格的坐标为其左上角的最小单元格坐标。多列单元格合并组成的单元格称为列合并单元格，多行单元格合并组成的单元格称为行合并单元格。单元格中的内容可以是多种类型的，可选的，单元格中的内容可以是数值型。

表格中单元格的位置由单元格的行坐标和列坐标决定。具体的，第一单元格在第一表格中，得到第一单元格的行坐标和列坐标，就能够确定第一单元格在第一表格中的位置。具体的，第二单元格在第二表格中，得到第二单元格的行坐标和列坐标，就能够确定第二单元格在第二表格中的位置。

步骤202，基于第一表格和第一单元格的位置，生成第一嵌入特征。

在一些实施例中，上述执行主体根据第一单元格的位置，得到第一单元格的第一单元格信息。其中，第一单元格信息包括：行标题、列标题、表格标题、章节标题。可选的，行标题和列标题可以包含多个层次，行标题和列标题可以包括多个不同层次的行标题和列标题。可选的，表格标题、章节标题可以只包含一个层次。可选的，第一单元格信息可以是文本格式的信息。

可选的，参见以下表格1。其中，“5.财务报表”是章节标题，章节标题里只有一项内容，表示章节标题只有一个层次。“截至2018年6月30日的合并财务报表权益变动”是表格标题，表格标题里只有一项内容，表示表格标题只有一个层次。可选的，对于单元格(5，2)来说，单元格内容为“1186”，该单元格的行标题为“截至2017年7月1日的余额”，列标题为“归属于B股东，股本，B有限公司”。该单元格对应的行标题只有一个内容，只包含一个层次。该单元格对应的列标题包含三个内容，包含3个层次，其中，第一层次列标题是“归属于B股东”，第二层次列标题是“股本”，第三层次列标题是“B有限公司”。

表格1

在一些实施例的一些可选的实现方式中，第一单元格的行标题定义为Ra＝(r_a1,…r_ak)，其中k表示层次总数，r_a1表示第一单元格第一层次的行标题，r_ak表示第一单元格第k层次的行标题，r表示行标题，a表示第一单元格，r_a表示第一单元格某一层次的行标题，Ra表示第一单元格的行标题。可选的，表格1中，k＝1，只包含一个层次，Ra＝(r_a1)。r_a1＝(w_a1,…w_an)表示第一单元格的行标题可以是文本格式，n表示文本字符的长度，w_a表示第一单元格的行标题的文本字符，w_a1表示第一单元格的行标题的第一个文本字符，w_an表示第一单元格的行标题的第n个文本字符，a表示第一单元格，w表示文本字符。

第一单元格的列标题定义为Ca＝(c_a1,…c_ak)，其中k表示层次总数，c_a1表示第一单元格第一层次的列标题，c_ak表示第一单元格第k层次的列标题，c表示列标题，a表示第一单元格，c_a表示第一单元格某一层次的列标题，Ca表示第一单元格的列标题。可选的，表格1中，k＝3，包含三个层次，Ca＝(c_a1,c_a2,c_a3)。可选的，第一单元格的列标题可以是文本格式的。

第一单元格的表格标题定义为Ta＝(t_a1)，其中1表示表格标题可以只包含一个层次，t_a1表示第一单元格第一层次的表格标题，t表示表格标题，a表示第一单元格，t_a表示第一单元格第一层次的表格标题，Ta表示第一单元格的表格标题。可选的，第一单元格的表格标题可以是文本格式的。

第一单元格的章节标题定义为Sa＝(s_a1,…s_ak)，其中k表示层次总数，s_a1表示第一单元格第一层次的章节标题，s_ak表示第一单元格第k层次的章节标题，s表示章节标题，a表示第一单元格，s_a表示第一单元格某一层次的章节标题，Sa表示第一单元格的章节标题。可选的，第一单元格的章节标题可以是文本格式的。

在一些实施例的一些可选的实现方式中，第一单元格信息可以为(Ra，Ca，Ta，Sa)，其中，Ra表示第一单元格的行标题，Ca表示第一单元格的列标题，Ta表示第一单元格的表格标题，Sa表示第一单元格的章节标题，a表示第一单元格。对于第一单元格信息中的每个标题，将该标题输入预先训练的第二神经网络，预先训练的第二神经网络的输出作为该标题的特征向量。第二神经网络提取标题的特征向量的过程可以包括如下步骤：第一步，将该标题输入第一特征提取网络，得到第一特征向量。第二步，将第一特征向量输入第二特征提取网络，得到该标题的特征向量。连接第一单元格的行标题特征向量、列标题特征向量、表格标题特征向量、章节标题特征向量，生成第一嵌入特征。

可选的，将R_a输入预先训练的第二神经网络，得到第一单元格的行标题的特征向量h_Ra，其中h表示特征向量，R表示行标题，Ra表示第一单元格的行标题，a表示第一单元格。将C_a输入预先训练的第二神经网络，得到第一单元格的列标题的特征向量h_Ca，其中C表示列标题，Ca表示第一单元格的列标题，a表示第一单元格。将T_a输入预先训练的第二神经网络，得到第一单元格的表格标题的特征向量h_Ta，其中T表示表格标题，Ta表示第一单元格的表格标题，a表示第一单元格。将S_a输入预先训练的第二神经网络，得到第一单元格的章节标题的特征向量h_Sa，其中S表示章节标题，Sa表示第一单元格的章节标题，a表示第一单元格。连接h_Ra，h_Ca，h_Ta，h_Sa，生成第一嵌入特征Ha＝(h_Ra，h_Ca，h_Ta，h_Sa)。

步骤203，基于第二表格和第二单元格的位置，生成第二嵌入特征。

在一些实施例中，上述执行主体根据第二单元格的位置，确定第二单元格在第二表格中的行坐标和列坐标，得到第二单元格的第二单元格信息，其中，第二单元格信息包括：行标题、列标题、表格标题、章节标题。可选的，行标题和列标题可以包含多个层次，行标题和列标题可以由多个不同层次的行标题和列标题组成。可选的，表格标题、章节标题可以只包含一个层次。可选的，第二单元格信息可以是文本格式的信息。

在一些实施例的一些可选的实现方式中，第二单元格的行标题定义为Rb＝(r_b1,…r_bk)，其中k表示层次总数，r_b1表示第二单元格第一层次的行标题，r_bk表示第二单元格第k层次的行标题，r表示行标题，b表示第二单元格，r_b表示第二单元格某一层次的行标题，Rb表示第二单元格的行标题。R_b1＝(w_b1,…w_bn)表示第二单元格的行标题可以是文本格式，n表格文本字符的长度，w_b表示第二单元格的行标题的文本字符，w_b1表示第二单元格的行标题的第一个文本字符，w_bn表示第二单元格的行标题的第n个文本字符，b表示第二单元格，w表示文本字符。

第二单元格的列标题定义为Cb＝(c_b1,…c_bk)，其中k表示层次总数，c_b1表示第二单元格第一层次的列标题，c_bk表示第二单元格第k层次的列标题，c表示列标题，b表示第二单元格，c_b表示第二单元格某一层次的列标题，Cb表示第二单元格的列标题。可选的，第二单元格的列标题可以是文本格式的。

第二单元格的表格标题定义为Tb＝(t_b1)，其中1表示表格标题可以只包含一个层次，t_b1表示第二单元格第二层次的表格标题，t表示表格标题，b表示第二单元格，t_b表示第二单元格第一层次的表格标题，Tb表示第二单元格的表格标题。可选的，第二单元格的表格标题可以是文本格式的。

第二单元格的章节标题定义为Sb＝(s_b1,…s_bk)，其中k表示层次总数，s_b1表示第二单元格第一层次的章节标题，s_bk表示第二单元格第k层次的章节标题，s表示章节标题，b表示第二单元格，s_b表示第二单元格某一层次的章节标题，Sb表示第二单元格的章节标题。可选的，第二单元格的章节标题可以是文本格式的。

在一些实施例的一些可选的实现方式中，第二单元格信息可以为(Rb，Cb，Tb，Sb)，其中，Rb表示第二单元格的行标题，Cb表示第二单元格的列标题，Tb表示第二单元格的表格标题，Sb表示第二单元格的章节标题。对于第二单元格信息中的每个标题，将该标题输入预先训练的第二神经网络，预先训练的第二神经网络的输出作为该标题的特征向量。第二神经网络提取标题的特征向量的过程可以包括如下步骤：第一步，将该标题输入第一特征提取网络，得到第一特征向量。第二步，将第一特征向量输入第二特征提取网络，得到该标题的特征向量。连接第二单元格的行标题特征向量、列标题特征向量、表格标题特征向量、章节标题特征向量，生成第二嵌入特征。

可选的，将R_b输入预先训练的第二神经网络，得到第二单元格的行标题的特征向量h_Rb，其中h表示特征向量，R表示行标题，Rb表示第二单元格的行标题，b表示第二单元格。将C_b输入预先训练的第二神经网络，得到第二单元格的列标题的特征向量h_Cb，其中C表示列标题，Cb表示第二单元格的列标题，b表示第二单元格。将T_b输入预先训练的第二神经网络，得到第二单元格的表格标题的特征向量h_Tb，其中T表示表格标题，Tb表示第二一单元格的表格标题，b表示第二单元格。将S_b输入预先训练的第二神经网络，得到第二单元格的章节标题的特征向量h_Sb，其中S表示章节标题，Sb表示第二单元格的章节标题，a表示第二单元格。连接h_Rb，h_Cb，h_Tb，h_Sb，生成第二嵌入特征Hb＝(h_Rb，h_Cb，h_Tb，h_Sb)。

步骤204，将第一嵌入特征和第二嵌入特征输入预先训练的第一神经网络，得到第一单元格和第二单元格语义相同的概率。

在一些实施例中，上述执行主体将第一嵌入特征和第二嵌入特征输入预先训练的第一神经网络，得到第一嵌入特征和第二嵌入特征相同的概率作为上述第一单元格和上述第二单元格语义相同的概率。

在一些实施例的一些可选的实现方式中，将第一嵌入特征和第二嵌入特征输入预先训练的第一神经网络，得到第一嵌入特征和第二嵌入特征相同的概率，可以通过以下步骤实现。

第一步，对于第一嵌入特征中的每个标题的特征向量，将该标题的特征向量和第二嵌入特征输入第一信息提取层，生成第三子特征向量。可选的，对于第一嵌入特征Ha，将第一单元格的行标题的特征向量h_Ra与第二嵌入特征Hb输入第一信息提取层：

h'_Ra＝Attn(h_Ra,Hb)

其中，Attn表示第一信息提取层，Hb表示第二嵌入特征，h_Ra表示第一单元格的行标题的特征向量，h'_Ra表示第三行子特征向量。可选的，对于第一嵌入特征Ha，将第一单元格的列标题的特征向量h_Ca与第二嵌入特征Hb输入第一信息提取层：

h'_Ca＝Attn(h_Ca,Hb)

其中，Attn表示第一信息提取层，Hb表示第二嵌入特征，h_Ca表示第一单元格的列标题的特征向量，h'_Ca表示第三列子特征向量。可选的，对于第一嵌入特征Ha，将第一单元格的表格标题的特征向量h_Ta与第二嵌入特征Hb输入第一信息提取层：

h'_Ta＝Attn(h_Ta,Hb)

其中，Attn表示第一信息提取层，Hb表示第二嵌入特征，h_Ta表示第一单元格的表格标题的特征向量，h'_Ta表示第三表格子特征向量。可选的，对于第一嵌入特征Ha，将第一单元格的章节标题的特征向量h_Sa与第二嵌入特征Hb输入第一信息提取层：

h'_Sa＝Attn(h_Sa,Hb)

其中，Attn表示第一信息提取层，Hb表示第二嵌入特征，h_Sa表示第一单元格的章节标题的特征向量，h'_Sa表示第三章节子特征向量。

第二步，对于第二嵌入特征中的每个标题的特征向量，将该标题的特征向量和第一嵌入特征输入第一信息提取层，生成第四子特征向量。可选的，对于第二嵌入特征Hb，将第二单元格的行标题的特征向量h_Rb与第一嵌入特征Ha输入第一信息提取层：

h'_Rb＝Attn(h_Rb,Ha)

其中，Attn表示第一信息提取层，Ha表示第一嵌入特征，h_Rb表示第二单元格的行标题的特征向量，h'_Rb表示第四行子特征向量。可选的，对于第二嵌入特征Hb，将第二单元格的列标题的特征向量h_Cb与第一嵌入特征Ha输入第一信息提取层：

h'_Cb＝Attn(h_Cb,Ha)

其中，Attn表示第一信息提取层，Ha表示第一嵌入特征，h_Cb表示第二单元格的列标题的特征向量，h'_Cb表示第四列子特征向量。可选的，对于第二嵌入特征Hb，将第二单元格的表格标题的特征向量h_Tb与第一嵌入特征Ha输入第一信息提取层：

h'_Tb＝Attn(h_Tb,Ha)

其中，Attn表示第一信息提取层，Ha表示第一嵌入特征，h_Tb表示第二单元格的表格标题的特征向量，h'_Tb表示第四表格子特征向量。可选的，对于第二嵌入特征Hb，将第二单元格的章节标题的特征向量h_Sb与第一嵌入特征Ha输入第一信息提取层：

h'_Sb＝Attn(h_Sb,Ha)

其中，Attn表示第一信息提取层，Ha表示第一嵌入特征，h_Sb表示第二单元格的章节标题的特征向量，h'_Sb表示第四章节子特征向量。

第三步，连接所生成的各个第三子特征向量，生成第三特征张量，以及，连接所生成的各个第四子特征向量，生成第四特征张量。

可选的，连接h'_Ra，h'_Ca，h'_Ta，h'_Sa，生成第三特征张量H'_a＝(h'_Ra，h'_Ca，h'_Ta，h'_Sa)。可选的，连接h'_Rb，h'_Cb，h'_Tb，h'_Sb，生成第四特征张量H'_b＝(h'_Rb，h'_Cb，h'_Tb，h'_Sb)。其中h为向量，a表示第一单元格，b表示第二单元格，R为行标题，C表示列标题，T表示表格标题，S表示章节标题。

第四步，将第三特征张量输入第二信息提取层，生成第五特征向量。可选的，生成一个学习向量e，其中e的长度与第三特征张量H'_a长度相同，e中每个元素为第二信息提取层学习得到的。将学习向量e和第三特征张量H'_a输入第二信息提取层：

u＝Attn(e,H'_a)

得到的u为第五特征向量。其中，e是学习向量，H'_a是第三特征张量，a表示第一单元格，H为张量，Attn为第二信息提取层。

第五步，将第四特征张量输入第二信息提取层，生成第六特征向量。可选的，生成一个学习向量e，其中e的长度与第四特征张量H'_b长度相同，e中每个元素为第二信息提取层学习得到的。将学习向量e和第四特征张量H'_b输入第二信息提取层：

v＝Attn(e,H'_b)

得到的v为第六特征向量。其中，e是学习向量，H'_b是第四特征张量，b表示第二单元格，H为张量，Attn为第二信息提取层。

第六步，将第五特征向量和第六特征向量输入分类层，得到第一单元格和第二单元格语义相同的概率。可选的，将第五特征向量u和第六特征向量v以正向排序输入分类层的第一部分：

s₁＝FFN([u；υ])

其中，FFN为分类层的第一部分，s1为分类层的第一部分的第一个输出结果。可选的，将第五特征向量u和第六特征向量v以反向排序输入分类层的第一部分：

s₂＝FFN([υ；u])

其中，FFN为分类层的第一部分，s2为分类层的第一部分的第二个输出结果。可选的，将分类层的第一部分的第一个输出结果s1和分类层的第一部分的第二个输出结果s2输入分类层的第二部分：

P＝softmax(max(s₁，s₂))

得到p为第一嵌入特征和第二嵌入特征相同的概率，即第一单元格和第二单元格语义相同的概率，其中，softmax为分类层的第二部分，max为求s₁和s₂中最大值的操作。

可选的，上述执行主体响应于第一单元格和第二单元格语义相同的概率大于等于预设阈值，将输出的该概率发送至支持发出提示信息的设备，控制设备发出提示信息。其中，支持发出提示信息的设备可以是与上述执行主体通信连接的设备，可以根据接收到的概率发出提示信息。例如，当上述执行主体输出的第一单元格和第二单元格语义相同的概率大于等于预设阈值，表示第一单元格的数字内容和第二单元格的数字内容相同，将输出的该概率发送至支持发出提示信息的设备时，该概率激活设备发出提示信息。这种自动提示的方式，提高了表格检查的效率，缩短了表格检查或者表格处理的时间，方便将表格应用于后续的处理任务中，可选的，可以用于表格中单元格数值的校验，单元格的自动跳转，构建或完善关系型数据库等等。提示信息的发出，也有助于提示目标用户两个单元格具有相似的内容，在处理表格的过程中应当确保对该单元格的操作保持一致，从而有利于提高用户操作的准确性和便利性。

图2给出的一个实施例具有如下有益效果：基于第一单元格信息的第一嵌入特征和第二单元格信息的第二嵌入特征，利用第一神经网络预测第一单元格和第二单元格语义相同的概率，无须对单元格信息进行语义分析，直接对单元格信息进行匹配，能够自动检测两个单元格的数字内容是否相同。本公开的实施例根据表格和预先确定的单元格位置，无须人工干预，自动在用户在处理表格的过程中确保对任意单元格的操作保持一致，提高用户操作的便利性。

继续参考图3，示出了根据本公开的预先训练第一神经网络和第二神经网络的训练步骤的一个实施例的流程300。该训练步骤可以包括以下步骤：

步骤301，获取训练样本集合，其中，训练样本包括两个单元格的所有标题和预先得到的这两个单元格语义相同的概率

在本实施例中，该训练步骤的执行主体可以与交叉检查表格中单元格数字内容的方法的执行主体(例如图1所示的终端设备)相同或者不同。如果相同，则该训练步骤的执行主体可以在训练得到第一神经网络和第二神经网络后将训练好的网络结构信息和网络参数的参数值存储在本地。如果不同，则该训练步骤的执行主体可以在训练得到第一神经网络和第二神经网络后将训练好的网络结构信息和网络参数的参数值发送给交叉检查表格中单元格数字内容的方法的执行主体。

在本实施例中，该训练步骤的执行主体可以本地或者远程地从与上述执行主体网络连接的其他终端设备获取训练样本集。其中，训练样本包括两个单元格的所有标题和预先得到的这两个单元格语义相同的概率。

步骤302，确定初始第一神经网络、初始第二神经网络的网络结构以及初始化初始第一神经网络、初始第二神经网络的网络参数。

在本实施例中，该训练步骤的执行主体可以首先确定初始第一神经网络、初始第二神经网络的网络结构。例如，需要确定初始初始第一神经网络、初始第二神经网络包括哪些层，层与层之间的连接顺序关系，以及每层都包括哪些神经元，每个神经元对应的权重(weight)和偏置项(bias)，每层的激活函数等等。

在本实施例的一些可选的实现方式中，第一神经网络可以包括第一信息提取层、第二信息提取层和第一分类层。可选的，第一信息提取层可以是注意力机制模块，以及，注意力机制模块可以包括标度点积层、前向反馈网络层、残差连接和归一化层。可选的，第二信息提取层可以是注意力机制模块，以及，注意力机制模块可以包括标度点积层、前向反馈网络层、残差连接和归一化层。可选的，第一分类层可以是由前向反馈网络层和softmax函数组成的。

在本实施例的一些可选的实现方式中，第二神经网络包括第一特征提取网络和第二特征提取网络。可选的，第一特征提取网络和第二特征提取网络可以是长短期记忆网络(LSTM，Long Short-Term Memory)。可选的，将第i个行标题输入第一特征提取网络公式如下：h_ri＝LSTM₁(r_i)

r_i表示第i个行标题，其中i表示行标题计数，r表示行标题，LSTM₁表示第一特征提取网络，h_ri表示第i个行标题的特征向量，其中，h表示特征向量。将行标题输入第一特征提取网络公式如下：

r_i表示第i个行标题，其中i表示行标题计数，r表示行标题，k表示总行数，r_k表示第k个行标题，

表示第i个行标题的特征向量，

表示第k个行标题的特征向量。LSTM₂表示第二特征提取网络。h_R表示行标题的特征向量。

然后，该训练步骤的执行主体可以初始化初始第一神经网络、初始第二神经网络的网络参数。实践中，可以将初始第一神经网络、初始第二神经网络的各个网络参数(例如，权值参数和偏置参数)用一些不同的小随机数进行初始化。“小随机数”用来保证网络不会因权值过大而进入饱和状态，从而导致训练失败，“不同”用来保证网络可以正常地学习。

步骤303，利用机器学习方法，将训练样本集合中的训练样本包括的两个单元格的所有标题作为输入，将对应的预先得到的这两个单元格语义相同的概率作为期望输出，训练得到第一神经网络、第二神经网络。

在本实施例中，该训练步骤的执行主体可以使用机器学习方法，首先，分别将训练样本集合中的训练样本包括的两个单元格的所有标题输入第二初始神经网络，将分别得到的第二神经网络的两个输出作为第一神经网络的输入，将对应的预先得到的这两个单元格语义相同的概率作为第一神经网络的期望输出，训练得到第一神经网络、第二神经网络。可选的，使用机器学习方法联合训练第一神经网络、第二神经网络。

具体地，可以首先利用预设的损失函数计算所得到的两个单元格语义的特征向量与该训练样本中的两个单元格语义的特征向量之间的差异，例如，可以使用交叉熵损失函数计算所得到的两个单元格语义相同的概率与训练样本中的预先得到的两个单元格语义相同的概率之间的差异，在交叉熵损失函数中使用sigmoid函数在梯度下降时能避免机器学习速率降低的问题。然后，可以基于计算所得的差异，调整初始第一神经网络、初始第二神经网络的网络参数，并在满足预设的训练结束条件的情况下，结束训练。例如，这里预设的训练结束条件可以包括但不限于以下至少一项：训练时间超过预设时长；训练次数超过预设次数；计算所得的差异小于预设差异阈值。

这里，可以采用各种实现方式基于所生成的两个单元格语义的特征向量与该训练样本中的两个单元格语义的特征向量之间的差异调整初始第二神经网络的网络参数。例如，可以采用Adam、BP(Back Propagation，反向传播)算法或者SGD(Stochastic GradientDescent，随机梯度下降)算法来调整初始第二神经网络的网络参数。

在本实施例中，该训练步骤的执行主体将训练得到的初始第一神经网络、初始第二神经网络确定为预先训练的第一神经网络、预先训练的第二神经网络。

图3给出的一个实施例具有如下有益效果：基于第一单元格信息的第一嵌入特征和第二单元格信息的第二嵌入特征，利用第一神经网络预测第一嵌入特征和第二嵌入特征相同的概率，即第一单元格和第二单元格语义相同的概率，无须对单元格信息进行语义分析，直接对单元格信息进行匹配，能够自动检测两个单元格的语义是否相同。采用预训练的第二神经网络模型提取表格中单元格信息的嵌入特征，能够有效利用表格中的上下文信息，提取有效语义信息，提高第二神经网络模型的鲁棒性。

继续参考图4，示出了根据本公开的交叉检查表格中单元格数字内容的方法的一个应用场景的示意图。

如图4所示，终端设备401显示给定的表格。其中，单元格402的内容可以对应两个不同的表格以及单元格位置。响应于两个单元格的内容不一致，终端设备401弹出不一致的提示区域，如区域403。单元格404的内容可以对应两个不同的表格以及单元格位置。响应于两个单元格的内容不一致，终端设备401弹出不一致的提示区域，如区域405。

下面参考图5，其示出了适于用来实现本公开实施例的终端设备的计算机系统500的结构示意图。图5示出的终端设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图5所示，计算机系统500包括中央处理单元(CPU，Central Processing Unit)501，其可以根据存储在只读存储器(ROM，Read Only Memory)502中的程序或者从存储部分508加载到随机访问存储器(RAM，Random Access Memory)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有系统500操作所需的各种程序和数据。CPU 501、ROM502以及RAM 503通过总线504彼此相连。输入/输出(I/O，Input/Output)接口505也连接至总线504。

以下部件连接至I/O接口505：包括硬盘等的存储部分506；以及包括诸如LAN(局域网，Local Area Network)卡、调制解调器等的网络接口卡的通信部分507。通信部分507经由诸如因特网的网络执行通信处理。驱动器508也根据需要连接至I/O接口505。可拆卸介质509，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器508上，以便于从其上读出的计算机程序根据需要被安装入存储部分506。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分507从网络上被下载和安装，和/或从可拆卸介质509被安装。在该计算机程序被中央处理单元(CPU)501执行时，执行本公开的方法中限定的上述功能。需要说明的是，本公开所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种交叉检查表格中单元格数字内容的方法，包括：

获取第一表格、第二表格和预先确定的第一单元格的位置、第二单元格的位置；

基于所述第一表格和所述第一单元格的位置，生成第一嵌入特征；

基于所述第二表格和所述第二单元格的位置，生成第二嵌入特征；

将所述第一嵌入特征和所述第二嵌入特征输入预先训练的第一神经网络，得到所述第一单元格和所述第二单元格语义相同的概率。

2.根据权利要求1所述的方法，其中，所述方法还包括：

响应于所述第一单元格和所述第二单元格语义相同的概率大于等于预设阈值，将所述概率发送至支持发出提示信息的设备，控制所述设备发出提示信息。

3.根据权利要求1所述的方法，其中，所述基于所述第一表格和所述第一单元格的位置，生成第一嵌入特征，包括：

基于所述第一表格和所述第一单元格的位置，确定所述第一单元格的第一单元格信息，其中，所述第一单元格信息包括：行标题、列标题、表格标题、章节标题；

对于所述第一单元格信息中的每个标题，基于该标题和预先训练的第二神经网络，生成该标题的特征向量；

连接所述第一单元格信息中每个标题的特征向量，生成所述第一嵌入特征。

4.根据权利要求3所述的方法，其中，所述基于所述第二表格和所述第二单元格的位置，生成第二嵌入特征，包括：

基于所述第二表格和所述第二单元格的位置，确定所述第二单元格的第二单元格信息，其中，所述第二单元格信息包括：行标题、列标题、表格标题、章节标题；

对于所述第二单元格信息中的每个标题，基于该标题和所述第二神经网络，生成该标题的特征向量；

连接所述第二单元格信息中每个标题的特征向量，生成所述第二嵌入特征。

5.根据权利要求4所述的方法，其中，所述第二神经网络包括第一特征提取网络、第二特征提取网络；以及

所述对于所述第一单元格信息中的每个标题，基于该标题和预先训练的第二神经网络，生成该标题的特征向量，包括：

将该标题输入所述第一特征提取网络，得到第一特征向量；

将所述第一特征向量输入所述第二特征提取网络，得到该标题的特征向量；以及

所述对于所述第二单元格信息中的每个标题，基于该标题和所述第二神经网络，生成该标题的特征向量，包括：

将该标题输入所述第一特征提取网络，得到第二特征向量；

将所述第二特征向量输入所述第二特征提取网络，得到该标题的特征向量。

6.根据权利要求4所述的方法，其中，所述第一神经网络包括第一信息提取层、第二信息提取层和第一分类层；以及

所述将所述第一嵌入特征和所述第二嵌入特征输入预先训练的第一神经网络，得到所述第一单元格和所述第二单元格语义相同的概率，包括：

对于所述第一嵌入特征中的每个标题的特征向量，将该标题的特征向量和第二嵌入特征输入所述第一信息提取层，生成第三子特征向量；

连接所生成的各个第三子特征向量，生成第三特征张量；

对于所述第二嵌入特征中的每个标题的特征向量，将该标题的特征向量和第一嵌入特征输入所述第一信息提取层，生成第四子特征向量；

连接所生成的各个第四子特征向量，生成第四特征张量；

将所述第三特征张量输入所述第二信息提取层，生成第五特征向量；

将所述第四特征张量输入所述第二信息提取层，生成第六特征向量；

将所述第五特征向量和所述第六特征向量输入所述分类层，得到所述第一单元格和所述第二单元格语义相同的概率。

7.一种第一终端设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。

8.一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如权利要求1-6中任一所述的方法。