CN113378789B - 单元格位置的检测方法、装置和电子设备 - Google Patents

单元格位置的检测方法、装置和电子设备 Download PDF

Info

Publication number
CN113378789B
CN113378789B CN202110772902.7A CN202110772902A CN113378789B CN 113378789 B CN113378789 B CN 113378789B CN 202110772902 A CN202110772902 A CN 202110772902A CN 113378789 B CN113378789 B CN 113378789B
Authority
CN
China
Prior art keywords
prediction
cell
obtaining
table image
prediction unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110772902.7A
Other languages
English (en)
Other versions
CN113378789A (zh
Inventor
陶大程
薛文元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingdong Technology Information Technology Co Ltd
Original Assignee
Jingdong Technology Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jingdong Technology Information Technology Co Ltd filed Critical Jingdong Technology Information Technology Co Ltd
Priority to CN202110772902.7A priority Critical patent/CN113378789B/zh
Publication of CN113378789A publication Critical patent/CN113378789A/zh
Priority to PCT/CN2022/092571 priority patent/WO2023279847A1/zh
Application granted granted Critical
Publication of CN113378789B publication Critical patent/CN113378789B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请提出一种单元格位置的检测方法、装置和电子设备,其中,单元格位置的检测方法包括:获取表格图像中预测单元格的第一位置,其中,第一位置用于表征预测单元格占用的区域在表格图像中的位置;根据第一位置,得到表格图像的邻接矩阵,其中,表格图像中的每个预测单元格为一个结点,邻接矩阵用于表示预测单元格之间的位置关系;根据任一预测单元格的第一位置和邻接矩阵,得到任一预测单元格的融合结点特征;根据任一预测单元格的融合结点特征,得到任一预测单元格的第二位置,其中,第二位置用于表征预测单元格的所属行和/或所属列。由此,可根据融合结点特征得到预测单元格的第二位置,可同时获取单元格的第一位置和第二位置。

Description

单元格位置的检测方法、装置和电子设备
技术领域
本申请涉及计算机应用技术领域,尤其涉及一种单元格位置的检测方法、装置、电子设备和存储介质。
背景技术
目前,表格数据具有简洁、直观、易于处理等优点,被广泛应用于人们的办公生活中。随着人工智能技术的发展,对表格数据的自动识别的要求越来越高,比如,自动从表格图像中检测出单元格的位置,以便可根据单元格的位置进行信息抽取等操作。然而,相关技术中的单元格位置的检测方法,检测出的单元格的位置信息不全面、鲁棒性较差。
发明内容
本申请旨在至少在一定程度上解决相关技术中检测出的单元格的位置信息不全面、鲁棒性较差的技术问题之一。
为此,本申请第一方面实施例提出一种单元格位置的检测方法,可将预测单元格作为结点,并基于预测单元格的第一位置得到邻接矩阵,进而根据第一位置和邻接矩阵得到预测单元格的融合结点特征,使得融合结点特征可与预测单元格的第一位置和预测单元格之间的位置关系相匹配,得到的预测单元格的融合结点特征的表示效果更好,并根据融合结点特征得到预测单元格的第二位置,可同时获取单元格的第一位置和第二位置,得到的单元格的位置更加全面,鲁棒性更好。
本申请第二方面实施例提出一种单元格位置的检测装置。
本申请第三方面实施例提出一种电子设备。
本申请第四方面实施例提出一种计算机可读存储介质。
本申请第一方面实施例提出了一种单元格位置的检测方法,包括:获取表格图像中预测单元格的第一位置,其中,所述第一位置用于表征所述预测单元格占用的区域在所述表格图像中的位置;根据所述第一位置,得到所述表格图像的邻接矩阵,其中,所述表格图像中的每个所述预测单元格为一个结点,所述邻接矩阵用于表示所述预测单元格之间的位置关系;根据任一预测单元格的第一位置和所述邻接矩阵,得到所述任一预测单元格的融合结点特征;根据所述任一预测单元格的融合结点特征,得到所述任一预测单元格的第二位置,其中,所述第二位置用于表征所述预测单元格的所属行和/或所属列。
本申请实施例的单元格位置的检测方法,可将预测单元格作为结点,并基于预测单元格的第一位置得到邻接矩阵,进而根据第一位置和邻接矩阵得到预测单元格的融合结点特征,使得融合结点特征可与预测单元格的第一位置和预测单元格之间的位置关系相匹配,得到的预测单元格的融合结点特征的表示效果更好,并根据融合结点特征得到预测单元格的第二位置,可同时获取单元格的第一位置和第二位置,得到的单元格的位置更加全面,鲁棒性更好。
另外,根据本申请上述实施例的单元格位置的检测方法还可以具有如下附加的技术特征:
在本申请的一个实施例中,所述第一位置包括所述预测单元格的中心点的二维坐标、所述预测单元格的宽度、所述预测单元格的高度中的至少一种。
在本申请的一个实施例中,所述根据所述第一位置,得到所述表格图像的邻接矩阵,包括:基于所述第一位置和所述预测单元格的编号,确定所述邻接矩阵中对应元素的取值。
在本申请的一个实施例中,所述基于所述第一位置和所述预测单元格的编号,确定所述邻接矩阵中对应元素的取值,包括:获取所述预测单元格的数量n,并按照编号1至n对每个所述预测单元格进行连续编号,其中,所述n为大于1的整数;从所述第一位置中提取出所述编号为i、j的所述预测单元格的中心点的横坐标和纵坐标,其中,1≤i≤n,1≤j≤n;获取所述表格图像的宽度和高度,以及调整参数;获取所述编号为i、j的所述预测单元格的中心点的横坐标的差值与所述宽度的第一比值,并基于所述第一比值和所述调整参数的乘积确定所述邻接矩阵中第i行第j列的元素的行维度的取值;获取所述编号为i、j的所述预测单元格的中心点的纵坐标的差值与所述高度的第二比值,并基于所述第二比值和所述调整参数的乘积确定所述邻接矩阵中第i行第j列的元素的列维度的取值。
在本申请的一个实施例中,所述根据任一预测单元格的第一位置和所述邻接矩阵,得到所述任一预测单元格的融合结点特征,包括:根据所述任一预测单元格的第一位置,得到所述任一预测单元格的结点特征;将所述结点特征和所述邻接矩阵输入至图卷积网络GCN中,由所述图卷积网络将所述结点特征与所述邻接矩阵进行特征融合,生成所述任一预测单元格的融合结点特征。
在本申请的一个实施例中,所述根据所述任一预测单元格的第一位置,得到所述任一预测单元格的结点特征,包括:对所述任一预测单元格的第一位置进行线性映射,得到所述任一预测单元格的空间特征;基于所述任一预测单元格的第一位置,从所述表格图像中提取出所述任一预测单元格的视觉语义特征;将所述任一预测单元格的所述空间特征和所述视觉语义特征进行拼接,得到所述任一预测单元格的结点特征。
在本申请的一个实施例中,所述基于所述任一预测单元格的第一位置,从所述表格图像中提取出所述任一预测单元格的视觉语义特征,包括:基于所述任一预测单元格的第一位置,从所述表格图像包含的像素点中确定所述任一预测单元格包含的目标像素点;从所述表格图像中提取出所述目标像素点的视觉语义特征,作为所述任一预测单元格的所述视觉语义特征。
在本申请的一个实施例中,所述根据所述任一预测单元格的融合结点特征,得到所述任一预测单元格的第二位置,包括:基于所述任一预测单元格的融合结点特征,得到所述任一预测单元格在每个候选第二位置下的预测概率;从所述任一预测单元格在每个候选第二位置下的预测概率中获取最大预测概率,并将最大预测概率对应的候选第二位置确定为所述任一预测单元格的第二位置。
在本申请的一个实施例中,所述根据所述任一预测单元格的融合结点特征,得到所述任一预测单元格的第二位置,包括:针对所述任一预测单元格,建立目标向量,所述目标向量包括n个维度,所述n为所述任一预测单元格的候选第二位置的数量;基于所述任一预测单元格的融合结点特征,得到所述目标向量的任一向量维度的取值为0或1的预测概率;从所述任一向量维度的取值为0或1的预测概率中获取最大预测概率,并将最大预测概率对应的取值确定为所述任一向量维度的目标取值;基于所述向量维度的目标取值的和值,得到所述任一预测单元格的第二位置。
在本申请的一个实施例中,所述获取表格图像中预测单元格的第一位置,包括:从所述表格图像中提取出每个所述预测单元格的检测框,并基于所述检测框获取所述预测单元格的第一位置。
在本申请的一个实施例中,所述第二位置包括所述预测单元格的起始行的编号、终止行的编号、起始列的编号、终止列的编号中的至少一种。
本申请第二方面实施例提出了一种单元格位置的检测装置,包括:第一获取模块,用于获取表格图像中预测单元格的第一位置,其中,所述第一位置用于表征所述预测单元格占用的区域在所述表格图像中的位置;第二获取模块,用于根据所述第一位置,得到所述表格图像的邻接矩阵,其中,所述表格图像中的每个所述预测单元格为一个结点,所述邻接矩阵用于表示所述预测单元格之间的位置关系;第三获取模块,用于根据任一预测单元格的第一位置和所述邻接矩阵,得到所述任一预测单元格的融合结点特征;第四获取模块,用于根据所述任一预测单元格的融合结点特征,得到所述任一预测单元格的第二位置,其中,所述第二位置用于表征所述预测单元格的所属行和/或所属列。
本申请实施例的单元格位置的检测装置,可将预测单元格作为结点,并基于预测单元格的第一位置得到邻接矩阵,进而根据第一位置和邻接矩阵得到预测单元格的融合结点特征,使得融合结点特征可与预测单元格的第一位置和预测单元格之间的位置关系相匹配,得到的预测单元格的融合结点特征的表示效果更好,并根据融合结点特征得到预测单元格的第二位置,可同时获取单元格的第一位置和第二位置,得到的单元格的位置更加全面,鲁棒性更好。
另外,根据本申请上述实施例的单元格位置的检测装置还可以具有如下附加的技术特征:
在本申请的一个实施例中,所述第一位置包括所述预测单元格的中心点的二维坐标、所述预测单元格的宽度、所述预测单元格的高度中的至少一种。
在本申请的一个实施例中,所述第二获取模块,还用于:基于所述第一位置和所述预测单元格的编号,确定所述邻接矩阵中对应元素的取值。
在本申请的一个实施例中,所述第二获取模块,还用于:获取所述预测单元格的数量n,并按照编号1至n对每个所述预测单元格进行连续编号,其中,所述n为大于1的整数;从所述第一位置中提取出所述编号为i、j的所述预测单元格的中心点的横坐标和纵坐标,其中,1≤i≤n,1≤j≤n;获取所述表格图像的宽度和高度,以及调整参数;获取所述编号为i、j的所述预测单元格的中心点的横坐标的差值与所述宽度的第一比值,并基于所述第一比值和所述调整参数的乘积确定所述邻接矩阵中第i行第j列的元素的行维度的取值;获取所述编号为i、j的所述预测单元格的中心点的纵坐标的差值与所述高度的第二比值,并基于所述第二比值和所述调整参数的乘积确定所述邻接矩阵中第i行第j列的元素的列维度的取值。
在本申请的一个实施例中,所述第三获取模块,包括:获取单元,用于根据所述任一预测单元格的第一位置,得到所述任一预测单元格的结点特征;融合单元,用于将所述结点特征和所述邻接矩阵输入至图卷积网络GCN中,由所述图卷积网络将所述结点特征与所述邻接矩阵进行特征融合,生成所述任一预测单元格的融合结点特征。
在本申请的一个实施例中,所述获取单元,包括:映射子单元,用于对所述任一预测单元格的第一位置进行线性映射,得到所述任一预测单元格的空间特征;提取子单元,用于基于所述任一预测单元格的第一位置,从所述表格图像中提取出所述任一预测单元格的视觉语义特征;拼接子单元,用于将所述任一预测单元格的所述空间特征和所述视觉语义特征进行拼接,得到所述任一预测单元格的结点特征。
在本申请的一个实施例中,所述提取子单元,还用于:基于所述任一预测单元格的第一位置,从所述表格图像包含的像素点中确定所述任一预测单元格包含的目标像素点;从所述表格图像中提取出所述目标像素点的视觉语义特征,作为所述任一预测单元格的所述视觉语义特征。
在本申请的一个实施例中,所述第四获取模块,还用于:基于所述任一预测单元格的融合结点特征,得到所述任一预测单元格在每个候选第二位置下的预测概率;从所述任一预测单元格在每个候选第二位置下的预测概率中获取最大预测概率,并将最大预测概率对应的候选第二位置确定为所述任一预测单元格的第二位置。
在本申请的一个实施例中,所述第四获取模块,还用于:针对所述任一预测单元格,建立目标向量,所述目标向量包括n个维度,所述n为所述任一预测单元格的候选第二位置的数量;基于所述任一预测单元格的融合结点特征,得到所述目标向量的任一向量维度的取值为0或1的预测概率;从所述任一向量维度的取值为0或1的预测概率中获取最大预测概率,并将最大预测概率对应的取值确定为所述任一向量维度的目标取值;基于所述向量维度的目标取值的和值,得到所述任一预测单元格的第二位置。
在本申请的一个实施例中,所述第一获取模块,还用于:从所述表格图像中提取出每个所述预测单元格的检测框,并基于所述检测框获取所述预测单元格的第一位置。
在本申请的一个实施例中,所述第二位置包括所述预测单元格的起始行的编号、终止行的编号、起始列的编号、终止列的编号中的至少一种。
本申请第三方面实施例提出了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如前述第一方面实施例所述的单元格位置的检测方法。
本申请实施例的电子设备,通过处理器执行存储在存储器上的计算机程序,可将预测单元格作为结点,并基于预测单元格的第一位置得到邻接矩阵,进而根据第一位置和邻接矩阵得到预测单元格的融合结点特征,使得融合结点特征可与预测单元格的第一位置和预测单元格之间的位置关系相匹配,得到的预测单元格的融合结点特征的表示效果更好,并根据融合结点特征得到预测单元格的第二位置,可同时获取单元格的第一位置和第二位置,得到的单元格的位置更加全面,鲁棒性更好。
本申请第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时,实现如前述第一方面实施例所述的单元格位置的检测方法。
本申请实施例的计算机可读存储介质,通过存储计算机程序并被处理器执行,可将预测单元格作为结点,并基于预测单元格的第一位置得到邻接矩阵,进而根据第一位置和邻接矩阵得到预测单元格的融合结点特征,使得融合结点特征可与预测单元格的第一位置和预测单元格之间的位置关系相匹配,得到的预测单元格的融合结点特征的表示效果更好,并根据融合结点特征得到预测单元格的第二位置,可同时获取单元格的第一位置和第二位置,得到的单元格的位置更加全面,鲁棒性更好。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本申请一个实施例的单元格位置的检测方法的流程示意图;
图2为根据本申请一个实施例的单元格位置的检测方法中确定邻接矩阵中对应元素的取值的流程示意图;
图3为根据本申请一个实施例的单元格位置的检测方法中得到任一预测单元格的融合结点特征的流程示意图;
图4为根据本申请一个实施例的单元格位置的检测方法中得到任一预测单元格的结点特征的流程示意图;
图5为根据本申请一个实施例的单元格位置的检测方法中得到任一预测单元格的第二位置的流程示意图;
图6为根据本申请另一个实施例的单元格位置的检测方法中得到任一预测单元格的第二位置的流程示意图;
图7为根据本申请一个实施例的单元格位置的检测模型的示意图;
图8为根据本申请一个实施例的单元格位置的检测装置的结构示意图;以及
图9为根据本申请一个实施例的电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参照附图描述本申请实施例的单元格位置的检测方法、装置、电子设备和存储介质。
图1为根据本申请一个实施例的单元格位置的检测方法的流程示意图。
如图1所示,本申请实施例的单元格位置的检测方法,包括:
S101,获取表格图像中预测单元格的第一位置,其中,第一位置用于表征预测单元格占用的区域在表格图像中的位置。
需要说明的是,本申请实施例的单元格位置的检测方法的执行主体可为单元格位置的检测装置,本申请实施例的单元格位置的检测装置可以配置在任意电子设备中,以使该电子设备可以执行本申请实施例的单元格位置的检测方法。其中,电子设备可以为个人电脑(Personal Computer,简称PC)、云端设备、移动设备等,移动设备例如可以为手机、平板电脑、个人数字助理、穿戴式设备、车载设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。
本申请的实施例中,可获取表格图像中预测单元格的第一位置。可以理解的是,一个表格图像中可包含至少一个预测单元格,不同的预测单元格可对应不同的第一位置。
需要说明的是,本申请的实施例中,第一位置用于表征预测单元格占用的区域在表格图像中的位置,即可根据第一位置确定预测单元格占用的区域在表格图像中的位置,即可根据第一位置实现预测单元格的定位。
在一种实施方式中,第一位置包括预测单元格的中心点的二维坐标、预测单元格的宽度、预测单元格的高度中的至少一种,此时预测单元格占用的区域为矩形。
在一种实施方式中,可对表格图像进行单元格识别,以生成预测单元格的检测框,则获取表格图像中预测单元格的第一位置,可包括从表格图像中提取出每个预测单元格的检测框,并基于检测框获取预测单元格的第一位置。
可选的,对表格图像进行单元格识别,以生成预测单元格的检测框,可包括按照单元格识别算法对表格图像进行单元格识别,从而可从表格图像中定位到预测单元格,以生成预测单元格的检测框。其中,单元格识别算法可根据实际情况进行设置,这里不做过多限定。
可选的,基于检测框获取预测单元格的第一位置,可包括获取检测框的中心点的二维坐标、检测框的宽度和高度,将检测框的中心点的二维坐标作为预测单元格的中心点的二维坐标,将检测框的宽度和高度分别作为预测单元格的宽度和高度。
S102,根据第一位置,得到表格图像的邻接矩阵,其中,表格图像中的每个预测单元格为一个结点,邻接矩阵用于表示预测单元格之间的位置关系。
本申请的实施例中,可将表格图像中的每个预测单元格作为一个结点,预测单元格和结点具有一一对应关系,每个结点用于表征对应的预测单元格。相应的,邻接矩阵用于表示预测单元格之间的位置关系。
本申请的实施例中,可根据第一位置得到表格图像的邻接矩阵。可以理解的是,可根据任意两个预测单元格的第一位置,得到任意两个预测单元格之间的位置关系,进而得到邻接矩阵中对应元素的取值。其中,位置关系包括但不限于欧式距离、曼哈顿距离等,这里不做过多限定。
在一种实施方式中,邻接矩阵中的元素可用于表示任意两个预测单元格对应的结点之间的无向边。
S103,根据任一预测单元格的第一位置和邻接矩阵,得到任一预测单元格的融合结点特征。
本申请的实施例中,可根据任一预测单元格的第一位置和邻接矩阵,得到任一预测单元格的融合结点特征。由此,该方法可基于预测单元格的第一位置和邻接矩阵得到融合结点特征,使得融合结点特征可与预测单元格的第一位置和预测单元格之间的位置关系相匹配,得到的预测单元格的融合结点特征的表示效果更好。
例如,假设预测单元格的数量为n个,则获取的预测单元格的第一位置为n个,则可根据n个第一位置和邻接矩阵,得到n个融合结点特征。
S104,根据任一预测单元格的融合结点特征,得到任一预测单元格的第二位置,其中,第二位置用于表征预测单元格的所属行和/或所属列。
本申请的实施例中,可根据任一预测单元格的融合结点特征,得到任一预测单元格的第二位置,即可根据任一预测单元格的融合结点特征,对任一预测单元格的第二位置进行预测,得到任一预测单元格的第二位置。
需要说明的是,本申请的实施例中,第二位置用于表征预测单元格的所属行和/或所属列,即可根据第二位置确定预测单元格在表格中的所属行和/或所属列,即可根据第二位置实现预测单元格的定位。
在一种实施方式中,第二位置包括预测单元格的起始行的编号、终止行的编号、起始列的编号、终止列的编号中的至少一种。可以理解的是,可预先对表格中的行、列分别进行编号。
可选的,可根据预测单元格的起始行的编号、终止行的编号确定预测单元格的所属行。例如,可获取处于起始行的编号和终止行的编号之间的候选编号,将起始行的编号、候选编号、终止行的编号确定为所属行的编号,从而根据确定的所属行的编号确定预测单元格的所属行。需要说明的是,确定预测单元格的所属列的方式可参照上述确定预测单元格的所属行的方式,这里不再赘述。
本申请的实施例中,根据任一预测单元格的融合结点特征,得到任一预测单元格的第二位置,可包括将任一预测单元格的融合结点特征输入至位置预测算法中,由位置预测算法根据融合结点特征进行位置预测,生成任一预测单元格的第二位置。其中,位置预测算法可根据实际情况进行设置,这里不做过多限定。
综上,根据本申请实施例的单元格位置的检测方法,可将预测单元格作为结点,并基于预测单元格的第一位置得到邻接矩阵,进而根据第一位置和邻接矩阵得到预测单元格的融合结点特征,使得融合结点特征可与预测单元格的第一位置和预测单元格之间的位置关系相匹配,得到的预测单元格的融合结点特征的表示效果更好,并根据融合结点特征得到预测单元格的第二位置,可同时获取单元格的第一位置和第二位置,得到的单元格的位置更加全面,鲁棒性更好。
在上述任一实施例的基础上,步骤S102中根据第一位置,得到表格图像的邻接矩阵,可包括基于第一位置和预测单元格的编号,确定邻接矩阵中对应元素的取值。
可以理解的是,可基于任意两个预测单元格的第一位置,得到任意两个预测单元格之间的位置关系,并根据任意两个预测单元格的编号确定邻接矩阵中对应元素的目标编号,进而可根据任意两个预测单元格之间的位置关系确定邻接矩阵中目标编号的元素的取值。
可选的,如图2所示,基于第一位置和预测单元格的编号,确定邻接矩阵中对应元素的取值,包括:
S201,获取预测单元格的数量n,并按照编号1至n对每个预测单元格进行连续编号,其中,n为大于1的整数。
本申请的实施例中,可按照编号1至n对预测单元格进行连续编号,编号1至n可随机分配。例如,若预测单元格的数量为10,则可按照编号1至10对每个预测单元格进行连续编号。
S202,从第一位置中提取出编号为i、j的预测单元格的中心点的横坐标和纵坐标,其中,1≤i≤n,1≤j≤n。
本申请的实施例中,第一位置包括预测单元格的中心点的横坐标和纵坐标,可从第一位置中提取出编号为i、j的预测单元格的中心点的横坐标和纵坐标。
其中,1≤i≤n,1≤j≤n,且i、j均为整数。
可以理解的是,第一位置与预测单元格的编号具有对应关系,则可根据编号i、j查询上述对应关系,得到编号为i、j的预测单元格的中心点的横坐标和纵坐标。
在一种实施方式中,可预先建立第一位置与预测单元格的编号之间的映射关系或者映射表,其中,第一位置包括预测单元格的中心点的横坐标和纵坐标,则可根据预测单元格的编号查询上述映射关系或者映射表,获取预测单元格的中心点的横坐标和纵坐标。应说明的是,上述映射关系或者映射表均可根据实际情况进行设置,这里不做过多限定。
S203,获取表格图像的宽度和高度,以及调整参数。
在一种实施方式中,获取表格图像的宽度和高度,可包括按照图像尺寸识别算法对表格图像进行尺寸识别,得到表格图像的宽度和高度。其中,图像尺寸识别算法可根据实际情况进行设置,这里不做过多限定。
需要说明的是,本申请的实施例中,调整参数可根据实际情况进行设置,这里不做过多限定。在一种实施方式中,调整参数与表格的行数和/或列数正相关。
S204,获取编号为i、j的预测单元格的中心点的横坐标的差值与宽度的第一比值,并基于第一比值和调整参数的乘积确定邻接矩阵中第i行第j列的元素的行维度的取值。
在一种实施方式中,采用如下公式计算邻接矩阵中第i行第j列的元素的行维度的取值:
其中,为邻接矩阵中第i行第j列的元素的行维度的取值,/>为编号为i的预测单元格的中心点的横坐标,/>为编号为j的预测单元格的中心点的横坐标,w为表格图像的宽度,c为调整参数。
可以理解的是,确定邻接矩阵中第i行第j列的元素的行维度的取值还可为其他方式,这里不再赘述。
S205,获取编号为i、j的预测单元格的中心点的纵坐标的差值与高度的第二比值,并基于第二比值和调整参数的乘积确定邻接矩阵中第i行第j列的元素的列维度的取值。
在一种实施方式中,采用如下公式计算邻接矩阵中第i行第j列的元素的列维度的取值:
其中,为邻接矩阵中第i行第j列的元素的列维度的取值,/>为编号为i的预测单元格的中心点的纵坐标,/>为编号为j的预测单元格的中心点的纵坐标,H为表格图像的宽度,c为调整参数。
可以理解的是,确定邻接矩阵中第i行第j列的元素的列维度的取值还可为其他方式,这里不再赘述。
由此,该方法可综合考虑编号为i、j的预测单元格的中心点的横坐标、表格图像的宽度、调整参数对邻接矩阵中第i行第j列的元素的行维度的取值的影响,以及综合考虑编号为i、j的预测单元格的中心点的纵坐标、表格图像的高度、调整参数对邻接矩阵中第i行第j列的元素的列维度的取值的影响。
在上述任一实施例的基础上,如图3所示,步骤S103中根据任一预测单元格的第一位置和邻接矩阵,得到任一预测单元格的融合结点特征,包括:
S301,根据任一预测单元格的第一位置,得到任一预测单元格的结点特征。
本申请的实施例中,可根据任一预测单元格的第一位置,得到任一预测单元格的结点特征,使得结点特征可与预测单元格的第一位置相匹配。
在一种实施方式中,根据任一预测单元格的第一位置,得到任一预测单元格的结点特征,可包括将任一预测单元格的第一位置输入至特征提取算法中,由特征提取算法从第一位置中提取出任一预测单元格的结点特征。其中,特征提取算法可根据实际情况进行设置,这里不做过多限定。
S302,将结点特征和邻接矩阵输入至图卷积网络GCN中,由图卷积网络将结点特征与邻接矩阵进行特征融合,生成任一预测单元格的融合结点特征。
本申请的实施例中,可将结点特征和邻接矩阵输入至图卷积网络(GraphConvolutional Network,GCN)中,由图卷积网络将结点特征与邻接矩阵进行特征融合,生成任一预测单元格的融合结点特征,即可通过图卷积网络利用邻接矩阵重构结点特征,生成融合结点特征。其中,图卷积网络可根据实际情况进行设置,这里不做过多限定。
在一种实施方式中,采用如下公式计算融合结点特征:
X'=ReLU(GCN(X,A))
其中,X'为融合结点特征,X为结点特征,A为邻接矩阵,ReLU(·)为激活函数。
由此,该方法可根据任一预测单元格的第一位置,得到任一预测单元格的结点特征,并将结点特征和邻接矩阵输入至图卷积网络GCN中,由图卷积网络将结点特征与邻接矩阵进行特征融合,生成任一预测单元格的融合结点特征。
在上述任一实施例的基础上,如图4所示,步骤S301中根据任一预测单元格的第一位置,得到任一预测单元格的结点特征,包括:
S401,对任一预测单元格的第一位置进行线性映射,得到任一预测单元格的空间特征。
可以理解的是,第一位置可为一维或者多维向量。例如,第一位置包括预测单元格的中心点的二维坐标、预测单元格的宽度和高度时,第一位置为4维向量,可用来表示,其中,bi为编号为i的预测单元格的第一位置,/>为编号为i的预测单元格的中心点的横坐标,/>为编号为i的预测单元格的中心点的纵坐标,/>为编号为i的预测单元格的宽度,/>为编号为i的预测单元格的高度。
本申请的实施例中,可对任一预测单元格的第一位置进行线性映射,得到任一预测单元格的空间特征。可以理解的是,任一预测单元格的空间特征与第一位置相匹配。
在一种实施方式中,对任一预测单元格的第一位置进行线性映射,得到任一预测单元格的空间特征,可包括将任一预测单元格的第一位置输入至线性映射算法,由线性映射算法对第一位置进行线性映射,得到任一预测单元格的空间特征。其中,线性映射算法可根据实际情况进行设置,这里不做过多限定。
S402,基于任一预测单元格的第一位置,从表格图像中提取出任一预测单元格的视觉语义特征。
本申请的实施例中,可基于任一预测单元格的第一位置,从表格图像中提取出任一预测单元格的视觉语义特征,使得视觉语义特征可与预测单元格的第一位置相匹配。
本申请的实施例中,基于任一预测单元格的第一位置,从表格图像中提取出任一预测单元格的视觉语义特征,可包括基于任一预测单元格的第一位置,确定任一预测单元格在表格图像上占用的区域,并从表格图像中对应的区域中提取出视觉语义特征,作为任一预测单元格的视觉语义特征。
在一种实施方式中,基于任一预测单元格的第一位置,从表格图像中提取出任一预测单元格的视觉语义特征,可包括基于任一预测单元格的第一位置,从表格图像包含的像素点中确定任一预测单元格包含的目标像素点,并从表格图像中提取出目标像素点的视觉语义特征,作为任一预测单元格的视觉语义特征。
可以理解的是,表格图像包含多个像素点,可基于任一预测单元格的第一位置,从表格图像包含的像素点中确定任一预测单元格包含的目标像素点。应说明的是,目标像素点指的是位于预测单元格占用的区域内的像素点。
可选的,从表格图像中提取出目标像素点的视觉语义特征,作为任一预测单元格的视觉语义特征,可包括从表格图像中提取出每个像素点的视觉语义特征,按照预设提取算法从视觉语义特征中提取出目标像素点的视觉语义特征。其中,提取算法可根据实际情况进行设置,这里不做过多限定,例如可为RoIAlign算法。
S403,将任一预测单元格的空间特征和视觉语义特征进行拼接,得到任一预测单元格的结点特征。
在一种实施方式中,可将任一预测单元格的空间特征和视觉语义特征进行横向拼接,得到任一预测单元格的结点特征。例如,任一预测单元格的空间特征、视觉语义特征分别为Xs、Xv,Xs、Xv分别为256维、1024维的向量,则可将Xs、Xv进行横向拼接,得到任一预测单元格的结点特征为1280维的向量。
由此,该方法可分别基于任一预测单元格的第一位置得到空间特征和视觉语义特征,并将空间特征和视觉语义特征进行拼接,得到任一预测单元格的结点特征。
在上述任一实施例的基础上,步骤S104中根据任一预测单元格的融合结点特征,得到任一预测单元格的第二位置,可包括如下两种可能的实施方式:
方式1、如图5所示,步骤S104中根据任一预测单元格的融合结点特征,得到任一预测单元格的第二位置,可包括:
S501,基于任一预测单元格的融合结点特征,得到任一预测单元格在每个候选第二位置下的预测概率。
以第二位置为预测单元格的起始行为例,若表格的行数为T,候选第二位置包括第1、2至T行,则可基于任一预测单元格的融合结点特征,得到任一预测单元格在第1、2至T行下的预测概率。
S502,从任一预测单元格在每个候选第二位置下的预测概率中获取最大预测概率,并将最大预测概率对应的候选第二位置确定为任一预测单元格的第二位置。
本申请的实施例中,任一预测单元格在每个候选第二位置下的预测概率可能不同,预测概率越大表明候选第二位置为第二位置的可能性越大,则可从任一预测单元格在每个候选第二位置下的预测概率中获取最大预测概率,并将最大预测概率对应的候选第二位置确定为任一预测单元格的第二位置。
继续以第二位置为预测单元格的起始行为例,若表格的行数为T,候选第二位置包括第1、2至T行,任一预测单元格在第1、2至T行下的预测概率分别为P1、P2至PT,P1、P2至PT中的最大值为P2,则可将第2行作为预测单元格的起始行。
由此,该方法可基于任一预测单元格的融合结点特征,得到任一预测单元格在每个候选第二位置下的预测概率,并从任一预测单元格在每个候选第二位置下的预测概率中获取最大预测概率,并将最大预测概率对应的候选第二位置确定为任一预测单元格的第二位置。
方式2、如图6所示,步骤S104中根据任一预测单元格的融合结点特征,得到任一预测单元格的第二位置,可包括:
S601,针对任一预测单元格,建立目标向量,目标向量包括n个维度,n为任一预测单元格的候选第二位置的数量。
以第二位置为预测单元格的起始行为例,若表格的行数为T,候选第二位置包括第1、2至T行,则此时目标向量包括T个维度。
S602,基于任一预测单元格的融合结点特征,得到目标向量的任一向量维度的取值为0或1的预测概率。
继续以第二位置为预测单元格的起始行为例,若表格的行数为T,候选第二位置包括第1、2至T行,目标向量包括T个维度,则可基于任一预测单元格的融合结点特征,得到目标向量的第1、2至T向量维度的取值为0或1的预测概率。
S603,从任一向量维度的取值为0或1的预测概率中获取最大预测概率,并将最大预测概率对应的取值确定为任一向量维度的目标取值。
本申请的实施例中,任一向量维度的取值为0或1的预测概率可能不同,取值为0的预测概率较大表明任一向量维度的取值为0的可能性较大,反之,取值为1的预测概率较大表明任一向量维度的取值为1的可能性较大,则可从任一向量维度的取值为0或1的预测概率中获取最大预测概率,并将最大预测概率对应的取值确定为任一向量维度的目标取值。
继续以第二位置为预测单元格的起始行为例,若表格的行数为T,候选第二位置包括第1、2至T行,目标向量包括T个维度,目标向量的第m向量维度的取值为0或1的预测概率分别为中的最大值为/>则目标向量的第m向量维度的目标取值为1。其中,1≤m≤T。
S604,基于向量维度的目标取值的和值,得到任一预测单元格的第二位置。
本申请的实施例中,目标向量的向量维度的目标取值的和值与第二位置具有对应关系,则可基于向量维度的目标取值的和值,查询对应关系,确定对应的第二位置。应说明的是,上述对应关系可根据实际情况进行设置,这里不做过多限定。
在一种实施方式中,针对编号为i的预测单元格,可采用如下公式将每个候选第二位置的编号转换为候选向量:
其中,候选向量包括n个维度,n为候选第二位置的数量,为候选向量的第t向量维度的取值,ri为候选第二位置的编号,0≤ri≤n-1,1≤t≤n。
继续以第二位置为预测单元格的起始行为例,若表格的行数为3,候选第二位置包括第1、2至3行,即候选第二位置的编号为0、1、2,分别对应第1、2、3行,则可按照上述公式将候选第二位置的编号0、1、2转换为候选向量(0,0,0)、(1,0,0)、(1,1,0)。
此时可基于目标向量的所有向量维度的目标取值的和值与1的目标和值确定第二位置的编号。若目标向量的所有向量维度的目标取值的和值为2,则可确定预测单元格的起始行的编号为3,即预测单元格的起始行为第3行。
由此,该方法可针对任一预测单元格,建立目标向量,并基于任一预测单元格的融合结点特征,确定目标向量的任一向量维度的取值,并根据向量维度的目标取值的和值,得到任一预测单元格的第二位置,得到的第二位置的准确性更好。
需要说明的是,本申请实施例中的第二位置的获取方法适用于任一类型的第二位置。在一种实施方式中,本申请实施例中的第二位置的获取方法适用于确定预测单元格的起始行的编号、终止行的编号、起始列的编号、终止列的编号。
在上述任一实施例的基础上,步骤S101中获取表格图像中预测单元格的第一位置,可包括从表格图像中提取出每个像素点的视觉语义特征,基于视觉语义特征得到每个像素点在每个类别下的识别概率,从任一像素点在每个类别下的识别概率中获取最大识别概率,并将最大识别概率对应的类别确定为任一像素点对应的目标类别,识别由目标类别为单元格的像素点构成的连通域,将连通域的最小外接矩形确定为预测单元格的检测框,并基于检测框获取预测单元格的第一位置。
其中,类别包括但不限于背景、单元格、边界线。
其中,基于视觉语义特征得到每个像素点在每个类别下的识别概率,可包括将任一像素点的视觉语义特征输入至分类算法中,由分类算法根据视觉语义特征进行类别预测,生成任一像素点在每个类别下的识别概率。其中,分类算法可根据实际情况进行设置,这里不做过多限定。
需要说明的是,基于检测框获取预测单元格的第一位置的相关内容可参见上述实施例,这里不再赘述。
与上述图1至图6实施例提供的单元格位置的检测方法相对应,本公开还提供一种单元格位置的检测模型,该检测模型的输入为表格图像,输出为表格图像中预测单元格的第一位置和第二位置。
如图7所示,该检测模型包括视觉语义特征提取层、第一分类层、结点特征提取层、图重构网络层、第二分类层。
其中,视觉语义特征提取层用于从表格图像中提取出每个像素点的视觉语义特征。
其中,第一分类层用于基于视觉语义特征得到每个像素点在每个类别下的识别概率,进而根据识别概率确定任一像素点对应的目标类别,并识别由目标类别为单元格的像素点构成的连通域,将连通域的最小外接矩形确定为预测单元格的检测框,并基于检测框获取预测单元格的第一位置。
其中,结点特征提取层用于根据任一预测单元格的第一位置,得到任一预测单元格的结点特征。
其中,图重构网络层用于将结点特征与邻接矩阵进行特征融合,生成任一预测单元格的融合结点特征。
其中,第二分类层用于根据任一预测单元格的融合结点特征,得到任一预测单元格的第二位置。
与上述图1至图6实施例提供的单元格位置的检测方法相对应,本公开还提供一种单元格位置的检测装置,由于本公开实施例提供的单元格位置的检测装置与上述图1至图6实施例提供的单元格位置的检测方法相对应,因此单元格位置的检测方法的实施方式也适用于本公开实施例提供的单元格位置的检测装置,在本公开实施例中不再详细描述。
图8为根据本申请一个实施例的单元格位置的检测装置的结构示意图。
如图8所示,本申请实施例的单元格位置的检测装置100可以包括:第一获取模块110、第二获取模块120、第三获取模块130和第四获取模块140。
第一获取模块110,用于获取表格图像中预测单元格的第一位置,其中,所述第一位置用于表征所述预测单元格占用的区域在所述表格图像中的位置;
第二获取模块120,用于根据所述第一位置,得到所述表格图像的邻接矩阵,其中,所述表格图像中的每个所述预测单元格为一个结点,所述邻接矩阵用于表示所述预测单元格之间的位置关系;
第三获取模块130,用于根据任一预测单元格的第一位置和所述邻接矩阵,得到所述任一预测单元格的融合结点特征;
第四获取模块140,用于根据所述任一预测单元格的融合结点特征,得到所述任一预测单元格的第二位置,其中,所述第二位置用于表征所述预测单元格的所属行和/或所属列。
在本申请的一个实施例中,所述第一位置包括所述预测单元格的中心点的二维坐标、所述预测单元格的宽度、所述预测单元格的高度中的至少一种。
在本申请的一个实施例中,所述第二获取模块120,还用于:基于所述第一位置和所述预测单元格的编号,确定所述邻接矩阵中对应元素的取值。
在本申请的一个实施例中,所述第二获取模块120,还用于:获取所述预测单元格的数量n,并按照编号1至n对每个所述预测单元格进行连续编号,其中,所述n为大于1的整数;从所述第一位置中提取出所述编号为i、j的所述预测单元格的中心点的横坐标和纵坐标,其中,1≤i≤n,1≤j≤n;获取所述表格图像的宽度和高度,以及调整参数;获取所述编号为i、j的所述预测单元格的中心点的横坐标的差值与所述宽度的第一比值,并基于所述第一比值和所述调整参数的乘积确定所述邻接矩阵中第i行第j列的元素的行维度的取值;获取所述编号为i、j的所述预测单元格的中心点的纵坐标的差值与所述高度的第二比值,并基于所述第二比值和所述调整参数的乘积确定所述邻接矩阵中第i行第j列的元素的列维度的取值。
在本申请的一个实施例中,所述第三获取模块130,包括:获取单元,用于根据所述任一预测单元格的第一位置,得到所述任一预测单元格的结点特征;融合单元,用于将所述结点特征和所述邻接矩阵输入至图卷积网络GCN中,由所述图卷积网络将所述结点特征与所述邻接矩阵进行特征融合,生成所述任一预测单元格的融合结点特征。
在本申请的一个实施例中,所述获取单元,包括:映射子单元,用于对所述任一预测单元格的第一位置进行线性映射,得到所述任一预测单元格的空间特征;提取子单元,用于基于所述任一预测单元格的第一位置,从所述表格图像中提取出所述任一预测单元格的视觉语义特征;拼接子单元,用于将所述任一预测单元格的所述空间特征和所述视觉语义特征进行拼接,得到所述任一预测单元格的结点特征。
在本申请的一个实施例中,所述提取子单元,还用于:基于所述任一预测单元格的第一位置,从所述表格图像包含的像素点中确定所述任一预测单元格包含的目标像素点;从所述表格图像中提取出所述目标像素点的视觉语义特征,作为所述任一预测单元格的所述视觉语义特征。
在本申请的一个实施例中,所述第四获取模块140,还用于:基于所述任一预测单元格的融合结点特征,得到所述任一预测单元格在每个候选第二位置下的预测概率;从所述任一预测单元格在每个候选第二位置下的预测概率中获取最大预测概率,并将最大预测概率对应的候选第二位置确定为所述任一预测单元格的第二位置。
在本申请的一个实施例中,所述第四获取模块140,还用于:针对所述任一预测单元格,建立目标向量,所述目标向量包括n个维度,所述n为所述任一预测单元格的候选第二位置的数量;基于所述任一预测单元格的融合结点特征,得到所述目标向量的任一向量维度的取值为0或1的预测概率;从所述任一向量维度的取值为0或1的预测概率中获取最大预测概率,并将最大预测概率对应的取值确定为所述任一向量维度的目标取值;基于所述向量维度的目标取值的和值,得到所述任一预测单元格的第二位置。
在本申请的一个实施例中,所述第一获取模块110,还用于:从所述表格图像中提取出每个所述预测单元格的检测框,并基于所述检测框获取所述预测单元格的第一位置。
在本申请的一个实施例中,所述第二位置包括所述预测单元格的起始行的编号、终止行的编号、起始列的编号、终止列的编号中的至少一种。
本申请实施例的单元格位置的检测装置,可将预测单元格作为结点,并基于预测单元格的第一位置得到邻接矩阵,进而根据第一位置和邻接矩阵得到预测单元格的融合结点特征,使得融合结点特征可与预测单元格的第一位置和预测单元格之间的位置关系相匹配,得到的预测单元格的融合结点特征的表示效果更好,并根据融合结点特征得到预测单元格的第二位置,可同时获取单元格的第一位置和第二位置,得到的单元格的位置更加全面,鲁棒性更好。
为了实现上述实施例,如图9所示,本申请还提出一种电子设备200,包括:存储器210、处理器220及存储在存储器210上并可在处理器220上运行的计算机程序,处理器220执行程序时,实现如本申请前述实施例提出的单元格位置的检测方法。
本申请实施例的电子设备,通过处理器执行存储在存储器上的计算机程序,可将预测单元格作为结点,并基于预测单元格的第一位置得到邻接矩阵,进而根据第一位置和邻接矩阵得到预测单元格的融合结点特征,使得融合结点特征可与预测单元格的第一位置和预测单元格之间的位置关系相匹配,得到的预测单元格的融合结点特征的表示效果更好,并根据融合结点特征得到预测单元格的第二位置,可同时获取单元格的第一位置和第二位置,得到的单元格的位置更加全面,鲁棒性更好。
为了实现上述实施例,本申请还提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时,实现如本申请前述实施例提出的单元格位置的检测方法。
本申请实施例的计算机可读存储介质,通过存储计算机程序并被处理器执行,可将预测单元格作为结点,并基于预测单元格的第一位置得到邻接矩阵,进而根据第一位置和邻接矩阵得到预测单元格的融合结点特征,使得融合结点特征可与预测单元格的第一位置和预测单元格之间的位置关系相匹配,得到的预测单元格的融合结点特征的表示效果更好,并根据融合结点特征得到预测单元格的第二位置,可同时获取单元格的第一位置和第二位置,得到的单元格的位置更加全面,鲁棒性更好。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (13)

1.一种单元格位置的检测方法,其特征在于,包括:
获取表格图像中预测单元格的第一位置,其中,所述第一位置用于表征所述预测单元格占用的区域在所述表格图像中的位置;
根据所述第一位置,得到所述表格图像的邻接矩阵,其中,所述表格图像中的每个所述预测单元格为一个结点,所述邻接矩阵用于表示所述预测单元格之间的位置关系;
根据任一预测单元格的第一位置和所述邻接矩阵,得到所述任一预测单元格的融合结点特征;
根据所述任一预测单元格的融合结点特征,得到所述任一预测单元格的第二位置,其中,所述第二位置用于表征所述预测单元格的所属行和/或所属列;
所述根据所述任一预测单元格的融合结点特征,得到所述任一预测单元格的第二位置,包括:
针对所述任一预测单元格,建立目标向量,所述目标向量包括n个维度,所述n为所述任一预测单元格的候选第二位置的数量;
基于所述任一预测单元格的融合结点特征,得到所述目标向量的任一向量维度的取值为0或1的预测概率;
从所述任一向量维度的取值为0或1的预测概率中获取最大预测概率,并将最大预测概率对应的取值确定为所述任一向量维度的目标取值;
基于所述向量维度的目标取值的和值,得到所述任一预测单元格的第二位置,其中,所述向量维度的目标取值的和值与所述第二位置具有对应关系。
2.根据权利要求1所述的方法,其特征在于,所述第一位置包括所述预测单元格的中心点的二维坐标、所述预测单元格的宽度、所述预测单元格的高度中的至少一种。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一位置,得到所述表格图像的邻接矩阵,包括:
基于所述第一位置和所述预测单元格的编号,确定所述邻接矩阵中对应元素的取值。
4.根据权利要求3所述的方法,其特征在于,所述基于所述第一位置和所述预测单元格的编号,确定所述邻接矩阵中对应元素的取值,包括:
获取所述预测单元格的数量n,并按照编号1至n对每个所述预测单元格进行连续编号,其中,所述n为大于1的整数;
从所述第一位置中提取出所述编号为i、j的所述预测单元格的中心点的横坐标和纵坐标,其中,1≤i≤n,1≤j≤n;
获取所述表格图像的宽度和高度,以及调整参数;
获取所述编号为i、j的所述预测单元格的中心点的横坐标的差值与所述宽度的第一比值,并基于所述第一比值和所述调整参数的乘积确定所述邻接矩阵中第i行第j列的元素的行维度的取值;
获取所述编号为i、j的所述预测单元格的中心点的纵坐标的差值与所述高度的第二比值,并基于所述第二比值和所述调整参数的乘积确定所述邻接矩阵中第i行第j列的元素的列维度的取值。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述根据任一预测单元格的第一位置和所述邻接矩阵,得到所述任一预测单元格的融合结点特征,包括:
根据所述任一预测单元格的第一位置,得到所述任一预测单元格的结点特征;
将所述结点特征和所述邻接矩阵输入至图卷积网络GCN中,由所述图卷积网络将所述结点特征与所述邻接矩阵进行特征融合,生成所述任一预测单元格的融合结点特征。
6.根据权利要求5所述的方法,其特征在于,所述根据所述任一预测单元格的第一位置,得到所述任一预测单元格的结点特征,包括:
对所述任一预测单元格的第一位置进行线性映射,得到所述任一预测单元格的空间特征;
基于所述任一预测单元格的第一位置,从所述表格图像中提取出所述任一预测单元格的视觉语义特征;
将所述任一预测单元格的所述空间特征和所述视觉语义特征进行拼接,得到所述任一预测单元格的结点特征。
7.根据权利要求6所述的方法,其特征在于,所述基于所述任一预测单元格的第一位置,从所述表格图像中提取出所述任一预测单元格的视觉语义特征,包括:
基于所述任一预测单元格的第一位置,从所述表格图像包含的像素点中确定所述任一预测单元格包含的目标像素点;
从所述表格图像中提取出所述目标像素点的视觉语义特征,作为所述任一预测单元格的所述视觉语义特征。
8.根据权利要求1所述的方法,其特征在于,所述根据所述任一预测单元格的融合结点特征,得到所述任一预测单元格的第二位置,还包括:
基于所述任一预测单元格的融合结点特征,得到所述任一预测单元格在每个候选第二位置下的预测概率;
从所述任一预测单元格在每个候选第二位置下的预测概率中获取最大预测概率,并将最大预测概率对应的候选第二位置确定为所述任一预测单元格的第二位置。
9.根据权利要求1所述的方法,其特征在于,所述获取表格图像中预测单元格的第一位置,包括:
从所述表格图像中提取出每个所述预测单元格的检测框,并基于所述检测框获取所述预测单元格的第一位置。
10.根据权利要求1所述的方法,其特征在于,所述第二位置包括所述预测单元格的起始行的编号、终止行的编号、起始列的编号、终止列的编号中的至少一种。
11.一种单元格位置的检测装置,其特征在于,包括:
第一获取模块,用于获取表格图像中预测单元格的第一位置,其中,所述第一位置用于表征所述预测单元格占用的区域在所述表格图像中的位置;
第二获取模块,用于根据所述第一位置,得到所述表格图像的邻接矩阵,其中,所述表格图像中的每个所述预测单元格为一个结点,所述邻接矩阵用于表示所述预测单元格之间的位置关系;
第三获取模块,用于根据任一预测单元格的第一位置和所述邻接矩阵,得到所述任一预测单元格的融合结点特征;
第四获取模块,用于根据所述任一预测单元格的融合结点特征,得到所述任一预测单元格的第二位置,其中,所述第二位置用于表征所述预测单元格的所属行和/或所属列;
所述第四获取模块具体用于:
针对所述任一预测单元格,建立目标向量,所述目标向量包括n个维度,所述n为所述任一预测单元格的候选第二位置的数量;
基于所述任一预测单元格的融合结点特征,得到所述目标向量的任一向量维度的取值为0或1的预测概率;
从所述任一向量维度的取值为0或1的预测概率中获取最大预测概率,并将最大预测概率对应的取值确定为所述任一向量维度的目标取值;
基于所述向量维度的目标取值的和值,得到所述任一预测单元格的第二位置,其中,所述向量维度的目标取值的和值与所述第二位置具有对应关系。
12.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如权利要求1-10中任一项所述的单元格位置的检测方法。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-10中任一项所述的单元格位置的检测方法。
CN202110772902.7A 2021-07-08 2021-07-08 单元格位置的检测方法、装置和电子设备 Active CN113378789B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110772902.7A CN113378789B (zh) 2021-07-08 2021-07-08 单元格位置的检测方法、装置和电子设备
PCT/CN2022/092571 WO2023279847A1 (zh) 2021-07-08 2022-05-12 单元格位置的检测方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110772902.7A CN113378789B (zh) 2021-07-08 2021-07-08 单元格位置的检测方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN113378789A CN113378789A (zh) 2021-09-10
CN113378789B true CN113378789B (zh) 2023-09-26

Family

ID=77581423

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110772902.7A Active CN113378789B (zh) 2021-07-08 2021-07-08 单元格位置的检测方法、装置和电子设备

Country Status (2)

Country Link
CN (1) CN113378789B (zh)
WO (1) WO2023279847A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378789B (zh) * 2021-07-08 2023-09-26 京东科技信息技术有限公司 单元格位置的检测方法、装置和电子设备
CN114639107B (zh) * 2022-04-21 2023-03-24 北京百度网讯科技有限公司 表格图像处理方法、装置和存储介质
CN116071771A (zh) * 2023-03-24 2023-05-05 南京燧坤智能科技有限公司 表格重构方法、装置、非易失性存储介质及电子设备
CN116503888B (zh) * 2023-06-29 2023-09-05 杭州同花顺数据开发有限公司 一种从图像中提取表格的方法、系统和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109934226A (zh) * 2019-03-13 2019-06-25 厦门美图之家科技有限公司 关键区域确定方法、装置及计算机可读存储介质
CN109948507A (zh) * 2019-03-14 2019-06-28 北京百度网讯科技有限公司 用于检测表格的方法和装置
CN110751038A (zh) * 2019-09-17 2020-02-04 北京理工大学 一种基于图注意力机制的pdf表格结构识别方法
WO2020164281A1 (zh) * 2019-02-13 2020-08-20 平安科技(深圳)有限公司 基于文字定位识别的表格解析方法、介质及计算机设备
CN111639637A (zh) * 2020-05-29 2020-09-08 北京百度网讯科技有限公司 表格识别方法、装置、电子设备和存储介质
CN112100426A (zh) * 2020-09-22 2020-12-18 哈尔滨工业大学(深圳) 基于视觉和文本特征的通用表格信息检索的方法与系统
CN112668566A (zh) * 2020-12-23 2021-04-16 深圳壹账通智能科技有限公司 表格处理方法、装置、电子设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5650564B2 (ja) * 2011-03-01 2015-01-07 株式会社ユビキタスエンターテインメント スプレッドシート制御プログラム、スプレッドシート制御装置及びスプレッドシートの制御方法
CN110705213B (zh) * 2019-08-23 2023-11-14 平安科技(深圳)有限公司 Pdf表格提取方法、装置、终端及计算机可读存储介质
CN111492370B (zh) * 2020-03-19 2023-05-26 香港应用科技研究院有限公司 用于识别结构化布局的文本图像的装置和方法
CN112200117B (zh) * 2020-10-22 2023-10-13 长城计算机软件与系统有限公司 表格识别方法及装置
CN113378789B (zh) * 2021-07-08 2023-09-26 京东科技信息技术有限公司 单元格位置的检测方法、装置和电子设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020164281A1 (zh) * 2019-02-13 2020-08-20 平安科技(深圳)有限公司 基于文字定位识别的表格解析方法、介质及计算机设备
CN109934226A (zh) * 2019-03-13 2019-06-25 厦门美图之家科技有限公司 关键区域确定方法、装置及计算机可读存储介质
CN109948507A (zh) * 2019-03-14 2019-06-28 北京百度网讯科技有限公司 用于检测表格的方法和装置
CN110751038A (zh) * 2019-09-17 2020-02-04 北京理工大学 一种基于图注意力机制的pdf表格结构识别方法
CN111639637A (zh) * 2020-05-29 2020-09-08 北京百度网讯科技有限公司 表格识别方法、装置、电子设备和存储介质
CN112100426A (zh) * 2020-09-22 2020-12-18 哈尔滨工业大学(深圳) 基于视觉和文本特征的通用表格信息检索的方法与系统
CN112668566A (zh) * 2020-12-23 2021-04-16 深圳壹账通智能科技有限公司 表格处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN113378789A (zh) 2021-09-10
WO2023279847A1 (zh) 2023-01-12

Similar Documents

Publication Publication Date Title
CN113378789B (zh) 单元格位置的检测方法、装置和电子设备
CN108961303B (zh) 一种图像处理方法、装置、电子设备和计算机可读介质
CN109948590B (zh) 姿态问题检测方法及装置
CN109343920B (zh) 一种图像处理方法及其装置、设备和存储介质
CN111368638A (zh) 电子表格的创建方法、装置、计算机设备和存储介质
CN109697414B (zh) 一种文本定位方法及装置
CN104994283A (zh) 一种局部畸变的校正方法及移动终端
CN113112511B (zh) 试卷批改的方法、装置、存储介质及电子设备
CN108197596B (zh) 一种手势识别方法和装置
CN111666442B (zh) 一种图像检索方法、装置及计算机设备
CN113297986A (zh) 手写字符识别方法、装置、介质及电子设备
CN115908363B (zh) 肿瘤细胞统计方法、装置、设备和存储介质
CN116797590A (zh) 一种基于机器视觉的Mura缺陷检测方法及系统
CN111415364A (zh) 一种计算机视觉中图像分割样本的转换方法、系统及存储介质
CN110827301A (zh) 用于处理图像的方法和装置
US11651604B2 (en) Word recognition method, apparatus and storage medium
CN110738204A (zh) 一种证件区域定位的方法及装置
CN110619597A (zh) 一种半透明水印去除方法、装置、电子设备及存储介质
CN113592881B (zh) 图片指代性分割方法、装置、计算机设备和存储介质
CN114511865A (zh) 一种结构化信息的生成方法、装置和计算机可读存储介质
CN111383207A (zh) 一种肌骨超声图像处理方法、系统、装置及可读存储介质
CN113516697A (zh) 图像配准的方法、装置、电子设备及计算机可读存储介质
CN111027551B (zh) 图像处理方法、设备和介质
CN115797291A (zh) 回路端子的识别方法、装置、计算机设备和存储介质
CN113177885B (zh) 校正图像的方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 601, 6 / F, building 2, No. 18, Kechuang 11th Street, Beijing Economic and Technological Development Zone, Beijing 100176

Applicant after: Jingdong Technology Information Technology Co.,Ltd.

Address before: 601, 6 / F, building 2, No. 18, Kechuang 11th Street, Beijing Economic and Technological Development Zone, Beijing 100176

Applicant before: Jingdong Shuke Haiyi Information Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant