CN112560545B - 一种识别表格方向的方法、装置及电子设备 - Google Patents

一种识别表格方向的方法、装置及电子设备 Download PDF

Info

Publication number
CN112560545B
CN112560545B CN201910854365.3A CN201910854365A CN112560545B CN 112560545 B CN112560545 B CN 112560545B CN 201910854365 A CN201910854365 A CN 201910854365A CN 112560545 B CN112560545 B CN 112560545B
Authority
CN
China
Prior art keywords
identified
area
cell
similarity
columns
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910854365.3A
Other languages
English (en)
Other versions
CN112560545A (zh
Inventor
辛洋
苏奕虹
皮霞林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Office Software Inc
Zhuhai Kingsoft Office Software Co Ltd
Original Assignee
Beijing Kingsoft Office Software Inc
Zhuhai Kingsoft Office Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Office Software Inc, Zhuhai Kingsoft Office Software Co Ltd filed Critical Beijing Kingsoft Office Software Inc
Priority to CN201910854365.3A priority Critical patent/CN112560545B/zh
Publication of CN112560545A publication Critical patent/CN112560545A/zh
Application granted granted Critical
Publication of CN112560545B publication Critical patent/CN112560545B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例提供了一种识别表格方向的方法、装置及电子设备,其中,该方法包括:基于获取的待识别区域中各单元格的单元格内容,生成待识别区域中各单元格的特征信息,计算待识别区域的每相邻两行的相似度,将相似度达到第一预设相似度阈值的相邻两行进行合并,得到待识别表格的相似行表格,计算待识别区域的每相邻两列的相似度,将相似度达到第二预设相似度阈值的相邻两列进行合并,得到待识别表格的相似列表格,将待识别表格的行数和列数、相似行表格的行数以及相似列表格的列数,输入预先训练的机器学习模型,得到待识别表格的表格方向识别结果,采用本发明实施例提供的技术方案,能够更准确的识别待识别表格的表格方向。

Description

一种识别表格方向的方法、装置及电子设备
技术领域
本发明涉及办公软件识别技术领域,特别是涉及一种识别表格方向的方法、装置及电子设备。
背景技术
目前,识别表格方向是识别表格结构的前提,在识别表格结构前,先识别表格方向,可以更精准的识别表格结构,所谓表格方向,是指表格中的数据是为行分布还是列分布。
现有的识别表格方向的方法主要是通过比较待识别表格的行数和列数的大小,判断该待识别表格是为行分布还是列分布。
但是,如果表格的数据量很大,表格内容的组成也很复杂,则可能导致采用现有的识别表格方向的方法,很难准确的识别出表格的方向。
发明内容
本发明实施例的目的在于提供一种识别表格方向的方法、装置及电子设备,以实现准确识别待识别表格的方向的功能。具体技术方案如下:
本发明实施例提供了一种识别表格方向的方法,包括:
针对待识别表格中的待识别区域,获取所述待识别区域中各单元格的单元格内容;
基于所述待识别区域中所述各单元格的单元格内容,生成所述待识别区域中所述各单元格的特征信息,一个单元格的特征信息表示该单元格的单元格内容所属的类型;
根据所述待识别区域的每行单元格的特征信息,计算所述待识别区域的每相邻两行的相似度;
基于所述待识别区域的每相邻两行的相似度,将相似度达到第一预设相似度阈值的相邻两行进行合并,得到所述待识别表格的相似行表格;
根据所述待识别区域的每列单元格的特征信息,计算所述待识别区域的每相邻两列的相似度;
基于所述待识别区域的每相邻两列的相似度,将相似度达到第二预设相似度阈值的相邻两列进行合并,得到所述待识别表格的相似列表格;
将所述待识别表格的行数和列数、所述相似行表格的行数以及所述相似列表格的列数,输入预先训练的机器学习模型,得到所述待识别表格的表格方向识别结果,其中,所述机器学习模型为基于训练样本进行训练得到的,所述训练样本包括多个样本表格的行数和列数,每个样本表格的相似行的行数,每个样本表格的相似列的列数,以及每个样本表格的表格方向。
进一步的,在所述针对待识别表格中的待识别区域,获取所述待识别区域中各单元格的单元格内容之前,还包括:
基于待识别表格的行数和列数,确定所述待识别表格的截取长度;
按照所述截取长度,从所述待识别表格中,截取前所述截取长度的行以及前所述截取长度的列,得到待识别区域。
进一步的,所述基于待识别表格的行数和列数,确定所述待识别表格的截取长度,包括:
从待识别表格的行数和列数以及预设数值中,选取一个最小的数值,作为所述待识别表格的截取长度。
进一步的,所述根据所述待识别区域的每行单元格的特征信息,计算所述待识别区域的每相邻两行的相似度,包括:
当所述待识别区域中包含合并单元格时,将所述合并单元格的特征信息,确定为组成所述合并单元格的各最小单元格的特征信息,其中,所述最小单元格为无法拆分的单元格;
根据所述待识别区域的每行最小单元格的特征信息,计算所述待识别区域的每相邻两行的相似度;
所述根据所述待识别区域的每列单元格的特征信息,计算所述待识别区域的每相邻两列的相似度,包括:
根据所述待识别区域的每列最小单元格的特征信息,计算所述待识别区域的每相邻两列的相似度。
进一步的,所述机器学习模型为随机森林分类器。
本发明实施例还提供了一种识别表格方向的装置,包括:
获取模块,用于针对待识别表格中的待识别区域,获取所述待识别区域中各单元格的单元格内容;
生成模块,用于基于所述待识别区域中所述各单元格的单元格内容,生成所述待识别区域中所述各单元格的特征信息,一个单元格的特征信息表示该单元格的单元格内容所属的类型;
第一计算模块,用于根据所述待识别区域的每行单元格的特征信息,计算所述待识别区域的每相邻两行的相似度;
第一合并模块,用于基于所述待识别区域的每相邻两行的相似度,将相似度达到第一预设相似度阈值的相邻两行进行合并,得到所述待识别表格的相似行表格;
第二计算模块,用于根据所述待识别区域的每列单元格的特征信息,计算所述待识别区域的每相邻两列的相似度;
第二合并模块,用于基于所述待识别区域的每相邻两列的相似度,将相似度达到第二预设相似度阈值的相邻两列进行合并,得到所述待识别表格的相似列表格;
识别模块,用于将所述待识别表格的行数和列数、所述相似行表格的行数以及所述相似列表格的列数,输入预先训练的机器学习模型,得到所述待识别表格的表格方向识别结果,其中,所述机器学习模型为基于训练样本进行训练得到的,所述训练样本包括多个样本表格的行数和列数,每个样本表格的相似行的行数,每个样本表格的相似列的列数,以及每个样本表格的表格方向。
进一步的,所述装置还包括:
确定模块,用于在获取模块针对待识别表格中的待识别区域,获取所述待识别区域中各单元格的单元格内容之前,基于待识别表格的行数和列数,确定所述待识别表格的截取长度;
截取模块,用于按照所述截取长度,从所述待识别表格中,截取前所述截取长度的行以及前所述截取长度的列,得到待识别区域。
进一步的,所述确定模块,具体用于从待识别表格的行数和列数以及预设数值中,选取一个最小的数值,作为所述待识别表格的截取长度。
进一步的,所述第一计算模块,具体用于当所述待识别区域中包含合并单元格时,将所述合并单元格的特征信息,确定为组成所述合并单元格的各最小单元格的特征信息,其中,所述最小单元格为无法拆分的单元格;根据所述待识别区域的每行最小单元格的特征信息,计算所述待识别区域的每相邻两行的相似度;
所述第二计算模块,具体用于根据所述待识别区域的每列最小单元格的特征信息,计算所述待识别区域的每相邻两列的相似度。
进一步的,所述机器学习模型为随机森林分类器。
本发明实施例还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一所述的识别表格方向的方法步骤。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一所述的识别表格方向的方法步骤。
本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的识别表格方向的方法。
本发明实施例有益效果:
本发明实施例提供的一种识别表格方向的方法,可以针对待识别表格中的待识别区域,获取待识别区域中各单元格的单元格内容;然后基于待识别区域中各单元格的单元格内容,生成待识别区域中各单元格的特征信息;再根据待识别区域的每行单元格的特征信息,计算待识别区域的每相邻两行的相似度;基于待识别区域的每相邻两行的相似度,将相似度达到第一预设相似度阈值的相邻两行进行合并,得到该待识别表格的相似行表格;根据待识别区域的每列单元格的特征信息,计算待识别区域的每相邻两列的相似度;基于待识别区域的每相邻两列的相似度,将相似度达到第二预设相似度阈值的相邻两列进行合并,得到待识别表格的相似列表格;将该待识别表格的行数和列数、该相似行表格的行数以及该相似列表格的列数,输入预先训练的机器学习模型,得到该待识别表格的表格方向识别结果。采用本发明实施例所提供的方案,能够更准确的识别待识别表格的表格方向。
当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种识别表格方向的方法的流程图;
图2为本发明实施例提供的另一种识别表格方向的方法的流程图;
图3为本发明实施例提供的一种计算待识别区域的每相邻两行的相似度的流程图;
图4为本发明实施例提供的一种计算待识别区域的每相邻两列的相似度的流程图;
图5为本发明实施例提供的识别表格方向的装置的一种结构图;
图6为本发明实施例提供的电子设备的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种识别表格方向的方法,如图1所示,具体可以包括如下步骤:
步骤101,针对待识别表格中的待识别区域,获取待识别区域中各单元格的单元格内容。
步骤102,基于待识别区域中各单元格的单元格内容,生成待识别区域中各单元格的特征信息,一个单元格的特征信息表示该单元格的单元格内容所属的类型。
步骤103,根据待识别区域的每行单元格的特征信息,计算待识别区域的每相邻两行的相似度。
步骤104,基于待识别区域的每相邻两行的相似度,将相似度达到第一预设相似度阈值的相邻两行进行合并,得到该待识别表格的相似行表格。
步骤105,根据待识别区域的每列单元格的特征信息,计算待识别区域的每相邻两列的相似度。
步骤106,基于待识别区域的每相邻两列的相似度,将相似度达到第二预设相似度阈值的相邻两列进行合并,得到该待识别表格的相似列表格。
步骤107,将该待识别表格的行数和列数、相似行表格的行数以及相似列表格的列数,输入预先训练的机器学习模型,得到该待识别表格的表格方向识别结果,其中,机器学习模型为基于训练样本进行训练得到的,训练样本包括多个样本表格的行数和列数,每个样本表格的相似行的行数,每个样本表格的相似列的列数,以及每个样本表格的表格方向。
上述步骤103-步骤104与步骤105-步骤106之间,没有严格的先后顺序,也可以同时执行。
采用本发明实施例提供的上述识别表格方向的方法,能够更准确的识别待识别表格的表格方向,即可以准确的判断该待识别表格是为行分布还是列分布。
下面对本发明实施例提供的识别表格方向的方法进行详细说明:
本发明实施例还提供一种识别表格方向的方法,如图2所示,具体可以包括如下步骤:
步骤201,基于待识别表格的行数和列数,确定待识别表格的截取长度。
本步骤中,用户可以手动选取待识别表格的全部区域,也可以手动选取包括待识别表格全部区域的表格区域,本申请在此不做限制;当用户可以手动选取包括待识别表格全部区域的表格区域时,需要将选取的表格区域中的位于待识别表格以上和以下的连续空白行删除,并且也要将选取的表格区域中的位于待识别表格的左侧和右侧的连续空白列删除,以便得到待识别表格的完整区域;当然,也可以通过其他方式,获取待识别表格的完整区域,本申请实施例在此不做限制,根据待识别表格的完整区域,可以得知待识别表格的行数和列数。
从待识别表格的行数和列数以及预设数值中,选取一个最小的数值,作为待识别表格的截取长度。
具体的,如果待识别表格的行数和列数小于预设数值,可以将待识别表格的行数和列数中最小的一个数值,确定为待识别表格的截取长度;如果待识别表格的行数和列数中的一个小于预设数值,另一个大于预设数值,则将待识别表格的行数和列数中的小于预设数值的参数,确定为待识别表格的截取长度;如果待识别表格的行数和列数中均大于预设数值,则将预设数值确定为待识别表格的截取长度。
本步骤中,预设数值的大小,可以根据可以实际情况,进行设置。
在一个实施例中,预设数值可以设置成10,使得截取长度的大小最大为10,有利于提高计算速度。
步骤202,按照该截取长度,从待识别表格中,截取前该截取长度的行以及前该截取长度的列,得到待识别区域。
本步骤中,得到的待识别区域的行数和列数均为截取长度,也就是说,待识别区域的行数和列数为待识别表格的行数和列数以及预设数值中的最小一个,并且,待识别区域为待识别表格中的前该截取长度的行与前该截取长度的列组成的表格区域,使得待识别区域具有代表性,有利于识别待识别表格的表格方向,将待识别区域的相似行表格的行数以及相似列表格的列数,作为识别待识别表格方向的参量,能够减少计算的数据量,有利于提高计算速度。
步骤203,针对待识别表格中的待识别区域,获取待识别区域中各单元格的单元格内容。
步骤204,基于待识别区域中各单元格的单元格内容,生成待识别区域中各单元格的特征信息。
在本步骤中,一个单元格的特征信息表示该单元格的单元格内容所属的类型,具体的,可以将待识别区域中各单元格的单元格内容分为中文、英文、数字、日期、时间等类型,作为待识别区域中各单元格的特征信息。
步骤205,根据待识别区域的每行单元格的特征信息,计算待识别区域的每相邻两行的相似度。
具体的,可以根据每行单元格的特征信息,生成该行单元格的特征向量,然后计算每相邻两行的特征向量的距离,得到每相邻两行的相似度;如果相邻两行的特征向量的距离越大,则每相邻两行的相似度越小,相邻两行的特征向量的距离越小,则每相邻两行的相似度越大,当然,本申请实施例也可以通过其它方式计算每相邻两行的相似度,本申请实施例在此不做限制。
上述的距离可以为欧几里得距离,也可以为其他距离,本申请实施例在此不做限制。
步骤206,基于待识别区域的每相邻两行的相似度,将相似度达到第一预设相似度阈值的相邻两行进行合并,得到该待识别表格的相似行表格。
在本步骤中的第一预设相似度阈值的大小可以根据实际情况,进行设置。
示例性的,本发明实施例的第一预设相似度阈值为0.8,待识别区域中的第一行与第二行的相似度为0.9;第二行与第三行的相似度为0.9,第三行与第四行的相似度为0.6,第四行与第五行的相似度为0.9,则将第一行、第二行和第三行合并为一行,将第四行与第五行合并为一行,将合并后的表格作为该待识别表格的相似行表格,其中,第一行、第二行和第三行合并得到的行作为该相似行表格的第一行,将待识别区域中的第一行的各单元格的内容作为该相似行表格的第一行的各单元格的内容,第四行与第五行合并得到的行作为该相似行表格的第二行,将待识别区域中的第四行的各单元格的内容作为该相似行表格的第二行的各单元格的内容。
步骤207,根据待识别区域的每列单元格的特征信息,计算待识别区域的每相邻两列的相似度。
具体的,可以根据每列单元格的特征信息,生成该列单元格的特征向量,然后计算每相邻两列的特征向量的距离,得到每相邻两列的相似度,其中,如果相邻两列的特征向量的距离越大,则每相邻两列的相似度越小,相邻两列的特征向量的距离越小,则每相邻两列的相似度越大。
步骤208,基于待识别区域的每相邻两列的相似度,将相似度达到第二预设相似度阈值的相邻两列进行合并,得到该待识别表格的相似列表格。
在本步骤中的第二预设相似度阈值的大小可以根据实际情况,进行设置。
示例性的,本发明实施例的第二预设相似度阈值为0.8,待识别区域中的第一列与第二列的相似度为0.9;第二列与第三列的相似度为0.9,第三列与第四列的相似度为0.6,第四列与第五列的相似度为0.9,则将第一列、第二列和第三列合并为一列,将第四列与第五列合并为一列,将合并后的表格作为该待识别表格的相似列表格,其中,第一列、第二列和第三列合并得到的列作为该相似列表格的第一列,将待识别区域中的第一列的各单元格的内容作为该相似行表格的第一列的各单元格的内容,第四列与第五列合并得到的列作为该相似列表格的第二列,将待识别区域中的第四列的各单元格的内容作为该相似列表格的第二列的各单元格的内容。
其中,上述的步骤205-步骤206与步骤207-步骤208之间,没有严格的先后顺序,也可以同时执行。
步骤209,将该待识别表格的行数和列数、相似行表格的行数以及相似列表格的列数,输入预先训练的机器学习模型,得到该待识别表格的表格方向识别结果。
具体的,在执行步骤205-步骤206与步骤207-步骤208之后,可以根据相似行表格的行数以及相似列表格的列数,以及该待识别表格的行数和列数,输入预先训练的机器学习模型,得到该待识别表格的表格方向识别结果。
其中,机器学习模型为基于训练样本进行训练得到的,训练样本包括多个样本表格的行数和列数,每个样本表格的相似行的行数,每个样本表格的相似列的列数,以及每个样本表格的表格方向。
在一个实施例中,机器学习模型可以为随机森林分类器,当然,也可以为其他机器学习模型,本申请在此不做限制。
当采用的机器学习模型可以为随机森林分类器时,具体的训练过程如下:
第一步,抽取训练所需的训练样本。
假设训练样本集中的样本表格的数量为P,从该训练样本集中有放回的随机抽取P次,得到训练决策树所需的样本表格。
第二步,确定每棵决策树上分裂节点所选择的特征。
当决策树的每个分裂节点进行分裂时,从样本表格的行数和列数,每个样本表格的相似行的行数以及每个样本表格的相似列的列数中随机选取多个特征,根据预设的策略,比如信息增益策略,从上述选取的多个特征中,确定一个最具代表性的特征作为该分裂节点所选的分裂特征。
第三步,获取决策树。
具体的,决策树上的每一个分裂节点都按照第二步中的分裂方式进行分裂,直到决策树不能够继续分裂或者树的深度达到预设值为止,就可得到一棵决策树。
第四步,生成预设的随机森林分类器。
具体的,第一步到第三步每执行一次,就可以得到一个决策树。可以理解的,执行L次,可以得到L棵决策树,L棵决策树就可以组成预设的随机森林分类器。至此,预设的随机森林分类器就训练好了。
在训练好预设的随机森林分类模型后,首先,将待识别表格的行数和列数、相似行表格的行数以及相似列表格的列数,输入预设的随机森林分类器,预设的随机森林分类器中的每棵决策树均可以得到该待识别表格对应的表格方向识别结果;然后,使用投票机制,根据所有的决策树得到的该待识别表格对应的表格方向识别结果,得到最终的该待识别表格对应的表格方向识别结果。
其中,投票机制可以包括少数服从多数投票制等机制。在少数服从多数投票制中,统计每棵决策树分级结果,表格方向识别结果得票数最多的作为最终表格方向识别结果。
如图3所示,上述的步骤103可以具体包括:
步骤301,判断待识别区域中是否包含合并单元格,如果待识别区域中包含合并单元格,则进入步骤303,如果待识别区域中不包含合并单元格,则进入步骤302。
步骤302,根据待识别区域的每行单元格的特征信息,计算待识别区域的每相邻两行的相似度。
具体的,待识别区域中不包含合并单元格,即待识别区域只包括最小单元格,那么待识别区域中的每一行的单元格的数量相等,可以根据每行单元格的特征信息,得到待识别区域的每行单元格的特征向量,然后计算每相邻两行的特征向量的距离,作为每相邻两行的相似度,如果相邻两行的特征向量的距离越大,则每相邻两行的相似度越小,相邻两行的特征向量的距离越小,则每相邻两行的相似度越大;当然也可以通过其他方式,计算每相邻两行的相似度,本申请在此不做限制;其中,最小单元格为无法拆分的单元格。
步骤303,将合并单元格的特征信息,确定为组成该合并单元格的各最小单元格的特征信息,然后进入步骤304。
本步骤中,将合并单元格的特征信息,确定为组成该合并单元格的各最小单元格的特征信息,可以使得每一行的各最小单元格的特征信息的数量相等,有利于计算每相邻两行的相似度。
步骤304,根据待识别区域的每行最小单元格的特征信息,计算待识别区域的每相邻两行的相似度。
具体的,可以根据每行最小单元格的特征信息,得到待识别区域的每行单元格的特征向量,然后计算每相邻两行的特征向量的距离,作为每相邻两行的相似度,当然也可以通过其他方式,计算每相邻两行的相似度,本申请在此不做限制。
如图4所示,上述的步骤105可以具体包括:
步骤401,判断待识别区域中是否包含合并单元格,如果待识别区域中包含合并单元格,则进入步骤403,如果待识别区域中不包含合并单元格,则进入步骤402。
在一个实施例中,在执行步骤401时,如果步骤301在步骤401之前执行,则直接可以获取步骤301的判断结果,可以不执行步骤401,然后基于步骤301的判断结果,即待识别区域中是否包含合并单元格,如果待识别区域中包含合并单元格,则进入步骤403,如果待识别区域中不包含合并单元格,则进入步骤402;在执行步骤301时,如果步骤401在步骤301之前执行,则在执行步骤301前,可以直接获取步骤401的判断结果,可以不执行步骤301,然后根据步骤401的判断结果,即待识别区域中是否包含合并单元格,如果待识别区域中包含合并单元格,则进入步骤303,如果待识别区域中不包含合并单元格,则进入步骤302。
步骤402,根据待识别区域的每列单元格的特征信息,计算待识别区域的每相邻两列的相似度。
具体的,待识别区域中不包含合并单元格,即待识别区域只包括最小单元格,那么待识别区域中的每一列的单元格的数量相等,可以根据每列单元格的特征信息,得到待识别区域的每列单元格的特征向量,然后计算每相邻两列的特征向量的距离,作为每相邻两列的相似度,如果相邻两列的特征向量的距离越大,则每相邻两列的相似度越小,相邻两列的特征向量的距离越小,则每相邻两列的相似度越大;当然也可以通过其他方式,计算每相邻两列的相似度,本申请在此不做限制。
步骤403,将合并单元格的特征信息,确定为组成该合并单元格的各最小单元格的特征信息,然后进入步骤404。
在一个实施例中,在执行步骤403时,如果步骤303在步骤403之前执行,则直接可以获取步骤303的执行结果,可以不执行步骤403;在执行步骤303时,如果步骤403在步骤303之前执行,则可以直接获取步骤403的执行结果,可以不执行步骤303。
本步骤中,将合并单元格的特征信息,确定为组成该合并单元格的各最小单元格的特征信息,可以使得每一列的各最小单元格的特征信息的数量相等,有利于计算每相邻两列的相似度。
步骤404,根据待识别区域的每列最小单元格的特征信息,计算待识别区域的每相邻两列的相似度。
具体的,可以根据每列最小单元格的特征信息,得到待识别区域的每列单元格的特征向量,然后计算每相邻两列的特征向量的距离,作为每相邻两列的相似度,当然也可以通过其他方式,计算每相邻两列的相似度,本申请在此不做限制。
相应于本发明实施例提供的上述识别表格方向的方法,本发明实施例还提供了一种识别表格方向的装置,如图5所示,图5为本发明实施例提供的一种识别表格方向的装置的结构示意图,具体包括:
获取模块501,用于针对待识别表格中的待识别区域,获取所述待识别区域中各单元格的单元格内容。
生成模块502,用于基于所述待识别区域中所述各单元格的单元格内容,生成所述待识别区域中所述各单元格的特征信息,一个单元格的特征信息表示该单元格的单元格内容所属的类型。
第一计算模块503,用于根据所述待识别区域的每行单元格的特征信息,计算所述待识别区域的每相邻两行的相似度。
第一合并模块504,用于基于所述待识别区域的每相邻两行的相似度,将相似度达到第一预设相似度阈值的相邻两行进行合并,得到所述待识别表格的相似行表格。
第二计算模块505,用于根据所述待识别区域的每列单元格的特征信息,计算所述待识别区域的每相邻两列的相似度。
第二合并模块506,用于基于所述待识别区域的每相邻两列的相似度,将相似度达到第二预设相似度阈值的相邻两列进行合并,得到所述待识别表格的相似列表格。
识别模块507,用于将所述待识别表格的行数和列数、所述相似行表格的行数以及所述相似列表格的列数,输入预先训练的机器学习模型,得到所述待识别表格的表格方向识别结果,其中,所述机器学习模型为基于训练样本进行训练得到的,所述训练样本包括多个样本表格的行数和列数,每个样本表格的相似行的行数,每个样本表格的相似列的列数,以及每个样本表格的表格方向。
进一步的,所述装置还包括:
确定模块,用于在获取模块针对待识别表格中的待识别区域,获取所述待识别区域中各单元格的单元格内容之前,基于待识别表格的行数和列数,确定所述待识别表格的截取长度。
截取模块,用于按照所述截取长度,从所述待识别表格中,截取前所述截取长度的行以及前所述截取长度的列,得到待识别区域。
进一步的,所述确定模块,具体用于从待识别表格的行数和列数以及预设数值中,选取一个最小的数值,作为所述待识别表格的截取长度。
进一步的,所述第一计算模块503,具体用于当所述待识别区域中包含合并单元格时,将所述合并单元格的特征信息,确定为组成所述合并单元格的各最小单元格的特征信息,其中,所述最小单元格为无法拆分的单元格;根据所述待识别区域的每行最小单元格的特征信息,计算所述待识别区域的每相邻两行的相似度。
所述第二计算模块505,具体用于根据所述待识别区域的每列最小单元格的特征信息,计算所述待识别区域的每相邻两列的相似度。
进一步的,所述机器学习模型为随机森林分类器。
本发明实施例还提供了一种电子设备,如图6所示,包括处理器601、通信接口602、存储器603和通信总线604,其中,处理器601,通信接口602,存储器603通过通信总线604完成相互间的通信,
存储器603,用于存放计算机程序;
处理器601,用于执行存储器603上所存放的程序时,实现上述任一识别表格方向的方法的步骤。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一识别表格方向的方法的步骤。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一识别表格方向的方法的步骤。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、计算机可读存储介质以及计算机程序产品而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种识别表格方向的方法,其特征在于,包括:
针对待识别表格中的待识别区域,获取所述待识别区域中各单元格的单元格内容;
基于所述待识别区域中所述各单元格的单元格内容,生成所述待识别区域中所述各单元格的特征信息,一个单元格的特征信息表示该单元格的单元格内容所属的类型;
根据所述待识别区域的每行单元格的特征信息,计算所述待识别区域的每相邻两行的相似度;
基于所述待识别区域的每相邻两行的相似度,将相似度达到第一预设相似度阈值的相邻两行进行合并,得到所述待识别表格的相似行表格;
根据所述待识别区域的每列单元格的特征信息,计算所述待识别区域的每相邻两列的相似度;
基于所述待识别区域的每相邻两列的相似度,将相似度达到第二预设相似度阈值的相邻两列进行合并,得到所述待识别表格的相似列表格;
将所述待识别表格的行数和列数、所述相似行表格的行数以及所述相似列表格的列数,输入预先训练的机器学习模型,得到所述待识别表格的表格方向识别结果,其中,所述机器学习模型为基于训练样本进行训练得到的,所述训练样本包括多个样本表格的行数和列数,每个样本表格的相似行的行数,每个样本表格的相似列的列数,以及每个样本表格的表格方向;
在所述针对待识别表格中的待识别区域,获取所述待识别区域中各单元格的单元格内容之前,还包括:
基于待识别表格的行数和列数,确定所述待识别表格的截取长度;
按照所述截取长度,从所述待识别表格中,截取前所述截取长度的行以及前所述截取长度的列,得到待识别区域。
2.根据权利要求1所述的方法,其特征在于,所述基于待识别表格的行数和列数,确定所述待识别表格的截取长度,包括:
从待识别表格的行数和列数以及预设数值中,选取一个最小的数值,作为所述待识别表格的截取长度。
3.根据权利要求1所述的方法,其特征在于,所述根据所述待识别区域的每行单元格的特征信息,计算所述待识别区域的每相邻两行的相似度,包括:
当所述待识别区域中包含合并单元格时,将所述合并单元格的特征信息,确定为组成所述合并单元格的各最小单元格的特征信息,其中,所述最小单元格为无法拆分的单元格;
根据所述待识别区域的每行最小单元格的特征信息,计算所述待识别区域的每相邻两行的相似度;
所述根据所述待识别区域的每列单元格的特征信息,计算所述待识别区域的每相邻两列的相似度,包括:
根据所述待识别区域的每列最小单元格的特征信息,计算所述待识别区域的每相邻两列的相似度。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述机器学习模型为随机森林分类器。
5.一种识别表格方向的装置,其特征在于,包括:
获取模块,用于针对待识别表格中的待识别区域,获取所述待识别区域中各单元格的单元格内容;
生成模块,用于基于所述待识别区域中所述各单元格的单元格内容,生成所述待识别区域中所述各单元格的特征信息,一个单元格的特征信息表示该单元格的单元格内容所属的类型;
第一计算模块,用于根据所述待识别区域的每行单元格的特征信息,计算所述待识别区域的每相邻两行的相似度;
第一合并模块,用于基于所述待识别区域的每相邻两行的相似度,将相似度达到第一预设相似度阈值的相邻两行进行合并,得到所述待识别表格的相似行表格;
第二计算模块,用于根据所述待识别区域的每列单元格的特征信息,计算所述待识别区域的每相邻两列的相似度;
第二合并模块,用于基于所述待识别区域的每相邻两列的相似度,将相似度达到第二预设相似度阈值的相邻两列进行合并,得到所述待识别表格的相似列表格;
识别模块,用于将所述待识别表格的行数和列数、所述相似行表格的行数以及所述相似列表格的列数,输入预先训练的机器学习模型,得到所述待识别表格的表格方向识别结果,其中,所述机器学习模型为基于训练样本进行训练得到的,所述训练样本包括多个样本表格的行数和列数,每个样本表格的相似行的行数,每个样本表格的相似列的列数,以及每个样本表格的表格方向;
所述装置还包括:
确定模块,用于在获取模块针对待识别表格中的待识别区域,获取所述待识别区域中各单元格的单元格内容之前,基于待识别表格的行数和列数,确定所述待识别表格的截取长度;
截取模块,用于按照所述截取长度,从所述待识别表格中,截取前所述截取长度的行以及前所述截取长度的列,得到待识别区域。
6.根据权利要求5所述的装置,其特征在于,所述确定模块,具体用于从待识别表格的行数和列数以及预设数值中,选取一个最小的数值,作为所述待识别表格的截取长度。
7.根据权利要求5所述的装置,其特征在于,所述第一计算模块,具体用于当所述待识别区域中包含合并单元格时,将所述合并单元格的特征信息,确定为组成所述合并单元格的各最小单元格的特征信息,其中,所述最小单元格为无法拆分的单元格;根据所述待识别区域的每行最小单元格的特征信息,计算所述待识别区域的每相邻两行的相似度;
所述第二计算模块,具体用于根据所述待识别区域的每列最小单元格的特征信息,计算所述待识别区域的每相邻两列的相似度。
8.根据权利要求5-7任一项所述的装置,其特征在于,所述机器学习模型为随机森林分类器。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-4任一所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-4任一所述的方法的步骤。
CN201910854365.3A 2019-09-10 2019-09-10 一种识别表格方向的方法、装置及电子设备 Active CN112560545B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910854365.3A CN112560545B (zh) 2019-09-10 2019-09-10 一种识别表格方向的方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910854365.3A CN112560545B (zh) 2019-09-10 2019-09-10 一种识别表格方向的方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN112560545A CN112560545A (zh) 2021-03-26
CN112560545B true CN112560545B (zh) 2023-09-22

Family

ID=75028896

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910854365.3A Active CN112560545B (zh) 2019-09-10 2019-09-10 一种识别表格方向的方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN112560545B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113688693A (zh) * 2021-07-29 2021-11-23 上海浦东发展银行股份有限公司 相邻表格处理方法、装置、计算机设备和存储介质
CN114254599A (zh) * 2021-10-11 2022-03-29 上海新氦类脑智能科技有限公司 表格合并方法、处理芯片以及电子设备
CN114359938B (zh) * 2022-01-07 2023-09-29 北京有竹居网络技术有限公司 一种表格识别方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635633A (zh) * 2018-10-26 2019-04-16 平安科技(深圳)有限公司 电子装置、票据识别方法及存储介质
CN109948507A (zh) * 2019-03-14 2019-06-28 北京百度网讯科技有限公司 用于检测表格的方法和装置
CN109993112A (zh) * 2019-03-29 2019-07-09 杭州睿琪软件有限公司 一种图片中表格的识别方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8751216B2 (en) * 2010-12-30 2014-06-10 International Business Machines Corporation Table merging with row data reduction

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635633A (zh) * 2018-10-26 2019-04-16 平安科技(深圳)有限公司 电子装置、票据识别方法及存储介质
CN109948507A (zh) * 2019-03-14 2019-06-28 北京百度网讯科技有限公司 用于检测表格的方法和装置
CN109993112A (zh) * 2019-03-29 2019-07-09 杭州睿琪软件有限公司 一种图片中表格的识别方法及装置

Also Published As

Publication number Publication date
CN112560545A (zh) 2021-03-26

Similar Documents

Publication Publication Date Title
CN110210617B (zh) 一种基于特征增强的对抗样本生成方法及生成装置
CN107944020B (zh) 人脸图像查找方法及装置、计算机装置和存储介质
CN112560545B (zh) 一种识别表格方向的方法、装置及电子设备
CN108229156A (zh) Url攻击检测方法、装置以及电子设备
WO2019080661A1 (zh) 用户意图识别方法及装置
CN108491406B (zh) 信息分类方法、装置、计算机设备和存储介质
CN110909784B (zh) 一种图像识别模型的训练方法、装置及电子设备
CN108897754B (zh) 基于大数据的工单类型的识别方法、系统和计算设备
CN111783505A (zh) 伪造人脸的识别方法、装置和计算机可读存储介质
CN108959474B (zh) 实体关系提取方法
CN112528703B (zh) 一种识别表格结构的方法、装置及电子设备
CN113052577A (zh) 一种区块链数字货币虚拟地址的类别推测方法及系统
TWI749349B (zh) 文本還原方法、裝置及電子設備與電腦可讀儲存媒體
WO2017000341A1 (zh) 一种信息处理方法、装置以及终端
CN109783805B (zh) 一种网络社区用户识别方法、装置和可读存储介质
CN111783812A (zh) 违禁图像识别方法、装置和计算机可读存储介质
CN114329022A (zh) 一种色情分类模型的训练、图像检测方法及相关装置
US20170039484A1 (en) Generating negative classifier data based on positive classifier data
CN115713669B (zh) 一种基于类间关系的图像分类方法、装置、存储介质及终端
CN113656575B (zh) 训练数据的生成方法、装置、电子设备及可读介质
CN113988226B (zh) 数据脱敏有效性验证方法、装置、计算机设备及存储介质
CN107665443B (zh) 获取目标用户的方法及装置
CN115019295A (zh) 模型训练方法、文本行确定方法及装置
CN111931229B (zh) 一种数据识别方法、装置和存储介质
CN109308565B (zh) 人群绩效等级识别方法、装置、存储介质及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant