CN113792042B - 一种表格分析数据集的配置方法、系统及介质 - Google Patents
一种表格分析数据集的配置方法、系统及介质 Download PDFInfo
- Publication number
- CN113792042B CN113792042B CN202110913230.7A CN202110913230A CN113792042B CN 113792042 B CN113792042 B CN 113792042B CN 202110913230 A CN202110913230 A CN 202110913230A CN 113792042 B CN113792042 B CN 113792042B
- Authority
- CN
- China
- Prior art keywords
- style
- library
- frequency
- source
- source code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Stored Programmes (AREA)
Abstract
本发明公开了一种表格分析数据集的配置方法、系统及介质,所述方法包括以下步骤:获取源文档,识别源文档的文档类型,基于文档类型获取源文档的源代码数据;设定识别码,基于识别码对源代码数据进行筛选处理操作,得到结构源码,基于结构源码创建逻辑关系库;基于表格样式数据库和源代码数据获取第一样式信息和第二样式信息;基于第一样式信息、第二样式信息、大数据分析程序和基准频率创建高频样式库和低频样式库;基于逻辑关系库、高频样式库、低频样库集和结构树模板构建表格结构树;获取算法模型,基于表格结构树、格式转换程序和算法模型配置分析数据集;本发明能够构建一个质量更高、规模较大且具有较高鲁棒性的表格分析数据集。
Description
技术领域
本发明涉及人工智能数据集配置技术领域,特别是涉及一种表格分析数据集的配置方法、系统及介质。
背景技术
现有技术中所采用的表格分析数据集的鲁棒性较差,其无法对于表格的布局变化和格式变化相应作出正确的检测和准确的分析,因此,需要一种效率高、准确性高、适用性强以及具有鲁棒性的表格分析数据集来配合深度学习算法对表格进行数据分析。
发明内容
本发明主要解决的是现有技术中所采用的表格分析数据集的鲁棒性较差,其无法对于表格的布局变化和格式变化相应作出正确检测和准确分析的问题。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种表格分析数据集的配置方法,包括以下步骤:
获取源代码:
获取源文档,识别所述源文档的文档类型,基于所述文档类型获取所述源文档的源代码数据;
创建表格结构树:
设定识别码,基于所述识别码对所述源代码数据进行筛选处理操作,得到结构源码,基于所述结构源码创建逻辑关系库;
配置表格样式数据库,基于所述表格样式数据库和所述源代码数据获取第一样式信息和第二样式信息;
配置大数据分析程序,设置基准频率,基于所述第一样式信息、所述第二样式信息、所述大数据分析程序和所述基准频率创建高频样式库和低频样式库;
配置结构树模板,基于所述逻辑关系库、所述高频样式库、所述低频样库集和所述结构树模板构建所述表格结构树;
配置分析数据集:
配置格式转换程序,获取算法模型,基于所述表格结构树、所述格式转换程序和所述算法模型配置所述分析数据集。
作为一种改进的方案,所述基于所述文档类型获取所述源文档的源代码数据的步骤进一步包括:
若所述文档类型为编辑类文档,则获取所述源文档的数据层代码,并设定所述数据层代码为所述源代码数据;
若所述文档类型为排版类文档,则获取与所述源文档对应的排版文件,访问预打印数据库中与所述排版文件相匹配的文件源码,并设定所述文件源码为所述源代码数据。
作为一种改进的方案,所述筛选处理操作包括:
调用解压缩算法对所述源代码数据进行解压处理,得到解压文件;
在所述解压文件的数据包中提取与所述识别码相匹配的标识性文件;
识别所述标识性文件的标识源码,并在所述标识源码中提取若干表格格式代码段,整合若干所述表格格式代码段,得到所述结构源码。
作为一种改进的方案,所述基于所述结构源码创建逻辑关系库的步骤进一步包括:
识别所述结构源码中的行源码和列源码,提取所述行源码的第一位置标记参数和所述列源码的第二位置标记参数,基于所述第一位置标记参数和所述第二位置标记参数计算表格位置数据;
判断所述行源码与所述列源码之间是否存在逻辑源码,若存在,则整合所述结构源码、所述表格位置数据和所述逻辑源码,得到所述逻辑关系库。
作为一种改进的方案,所述基于所述表格样式数据库和所述源代码数据获取第一样式信息和第二样式信息的步骤进一步包括:
获取表格版本信息,在所述表格样式数据库中提取与所述表格版本信息相匹配的第一表格模板,提取所述第一表格模板的第一模板源码,并设定所述第一模板源码为所述第一样式信息;
提取所述源代码数据中的第二模板源码,并设定所述第二模板源码为所述第二样式信息。
作为一种改进的方案,所述基于所述第一样式信息、所述第二样式信息、所述大数据分析程序和所述基准频率创建高频样式库和低频样式库的步骤进一步包括:
调用所述大数据分析程序获取与所述第一样式信息所对应表格的第一使用频率、与所述第二样式信息所对应表格的第二使用频率以及与所述第一样式信息和所述第二样式信息的组合信息所对应表格的第三使用频率;
将所述第一使用频率、所述第二使用频率和所述第三使用频率中与所述基准频率相匹配的使用频率所对应的样式信息进行整合,得到所述高频样式库;
将所述第一使用频率、所述第二使用频率和所述第三使用频率中与所述基准频率非匹配的使用频率所对应的样式信息进行整合,得到所述低频样式库。
作为一种改进的方案,所述基于所述逻辑关系库、所述高频样式库、所述低频样库集和所述结构树模板构建所述表格结构树的步骤进一步包括:
将所述逻辑关系库、所述高频样式库和所述低频样库填充至所述结构树模板中,得到所述表格结构树。
作为一种改进的方案,所述基于所述表格结构树、所述格式转换程序和所述算法模型配置所述分析数据集的步骤进一步包括:
识别所述算法模型的模型类别,若所述模型类别为表格格式检测类,则提取所述表格结构树中的逻辑关系库,并调用所述格式转换程序将所述逻辑关系库中的所述结构源码和所述表格位置数据分别转换为结构标识序列和位置标识序列;整合所述结构标识序列与所述位置标识序列,得到所述分析数据集;
若所述模型类别为表格内容识别类,则提取所述表格结构树中的所述逻辑关系库、所述高频样式库和所述低频样式库;调用所述格式转换程序将所述逻辑关系库中的逻辑源码、所述高频样式库中的样式信息和所述低频样库中的样式信息分别转换为逻辑标识序列、第一样式序列和第二样式序列;整合所述逻辑标识序列、所述第一样式序列和所述第二样式序列,得到所述分析数据集。
本发明还提供一种表格分析数据集的配置系统,包括:
源代码获取模块、逻辑库创建模块、样式库创建模块、结构树创建模块和数据集创建模块;
所述源代码获取模块用于获取源文档,并识别所述源文档的文档类型,所述源代码获取模块基于所述文档类型获取所述源文档的源代码数据;
所述逻辑库创建模块用于设定识别码,并基于所述识别码对所述源代码数据进行筛选处理操作,得到结构源码;所述逻辑库创建模块基于所述结构源码创建逻辑关系库;
所述样式库创建模块用于配置表格样式数据库,并基于所述表格样式数据库和所述源代码数据获取第一样式信息和第二样式信息;所述样式库创建模块还用于配置大数据分析程序和设置基准频率,所述样式库创建模块基于所述第一样式信息、所述第二样式信息、所述大数据分析程序和所述基准频率创建高频样式库和低频样式库;
所述结构树创建模块用于配置结构树模板,并基于所述逻辑关系库、所述高频样式库、所述低频样库集和所述结构树模板构建所述表格结构树;
所述数据集创建模块用于配置格式转换程序和获取算法模型,所述数据集创建模块基于所述表格结构树、所述格式转换程序和所述算法模型配置所述分析数据集。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述表格分析数据集的配置方法的步骤。
本发明的有益效果是:
1、本发明所述的表格分析数据集的配置方法,可以实现构建一个质量更高、规模较大、适用性较强且具有较高鲁棒性的表格分析数据集,且该表格分析数据集可以根据表格结构改变配合算法模型进行改进和补充,普适性更强,且可以促进表格分析模型的进化和演变,弥补了现有技术的不足。
2、本发明所述的表格分析数据集的配置系统,可以通过源代码获取模块、逻辑库创建模块、样式库创建模块、结构树创建模块和数据集创建模块的相互配合,进而实现构建一个质量更高、规模较大、适用性较强且具有较高鲁棒性的表格分析数据集,且所构建的表格分析数据集可以根据表格结构改变配合算法模型进行改进和补充,普适性更强,弥补了现有技术的不足。
3、本发明所述的计算机可读存储介质,可以实现引导源代码获取模块、逻辑库创建模块、样式库创建模块、结构树创建模块和数据集创建模块进行配合,进而实现构建一个质量更高、规模较大、适用性较强且具有较高鲁棒性的表格分析数据集,并有效的提高所述表格分析数据集的配置方法的可操作性。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例1所述表格分析数据集的配置方法的流程图;
图2是本发明实施例1所述表格分析数据集的配置方法的具体流程示意图;
图3是本发明实施例2所述表格分析数据集的配置系统的架构图。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
在本发明的描述中,需要说明的是,本发明所描述的实施例是本发明一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“源文档”、“源代码数据”、“识别码”、“筛选处理操作”、“结构源码”、“逻辑关系库”、“表格样式数据库”、“样式信息”、“大数据分析程序”、“基准频率”、“高频样式库”、“低频样式库”、“结构树模板”、“表格结构树”、“格式转换程序”、“分析数据集”、“编辑类文档”、“数据层代码”、“排版类文档”、“排版文件”、“文件源码”、“解压缩算法”、“标识性文件”、“标识源码”、“表格格式代码段”、“行源码”、“列源码”、“位置标记参数”、“表格位置数据”、“逻辑源码”、“表格版本信息”、“表格模板”、“模板源码”、“组合信息”、“表格格式检测类”、“结构标识序列”、“位置标识序列”、“表格内容识别类”、“逻辑标识序列”、“样式序列”、“源代码获取模块”、“逻辑库创建模块”、“样式库创建模块”、“结构树创建模块”、“数据集创建模块”应做广义理解。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
在本发明的描述中,需要说明的是:在进行表格分析时,通常采用深度学习算法与数据集相结合的方式对表格数据进行训练,进而对表格的结构和版面进行分析检测,本发明应用于OCR系统,所构建的表格分析数据集具有较高的鲁棒性。
在本发明的描述中,需要说明的是:OCR(Optical Character Recognition)是文字识别、Excel是试算表编辑程序、Word是文字处理程序、Office是办公端编译类软件、XML是可扩展标记语言、Latex是一种排版引擎系统、PDF是便捷式文档格式、HTML是超文本标记语言。
实施例1
本实施例提供一种表格分析数据集的配置方法,如图1和图2所示,包括以下步骤:
S100、获取源代码:
步骤S100具体包括:
S110、获取源文档,识别所述源文档的文档类型,基于所述文档类型获取所述源文档的源代码数据;
具体的,若所述文档类型为编辑类文档,则获取所述源文档的数据层代码,并设定所述数据层代码为所述源代码数据;若所述文档类型为排版类文档,则获取与所述源文档对应的排版文件,访问预打印数据库中与所述排版文件相匹配的文件源码,并设定所述文件源码为所述源代码数据;在本实施例中,编辑类文档是指Excel或Word文档,该文档仅通过获取或编辑Office的XML代码即可识别其对应的源代码数据,数据层代码即为XML代码;对应的,在获取源文档时,不进行源文档的语言筛选,这样可以进一步提高后期所配置数据集的多样性;在本实施例中,排版类文档是指Latex文档,这种文档是需要在其他资源的协助下才可以转换为PDF文件,进而进行识别,故需要在网上抓取与该Latex文档所对应的“.tex”文件,即排版文件;在本实施例中,预打印数据库为arXiv.org,通过在该预打印数据库中下载与“.tex”文件所对应的Latex源码,即可得到源代码数据,有了源代码数据,即可进行对应的信息提取。
S200、创建表格结构树:
步骤S200具体包括:
S210、设定识别码,基于所述识别码对所述源代码数据进行筛选处理操作,得到结构源码,基于所述结构源码创建逻辑关系库;
具体的,所述筛选处理操作包括:调用解压缩算法对所述源代码数据进行解压处理,得到解压文件;在所述解压文件的数据包中提取与所述识别码相匹配的标识性文件;识别所述标识性文件的标识源码,并在所述标识源码中提取若干表格格式代码段,整合若干所述表格格式代码段,得到所述结构源码;
在本实施例中,每个源代码数据均为压缩的存档数据,故需要对该压缩数据进行解压,解压后,识别其中的“document.xml”文件,该文件为标识性文件,对应的,识别码为“document”,该识别码和标识性文件根据文档类型的不同进行具体设置;在该文件中,包含着与文档内容所对应的结构信息,例如:Word文档中“<w:tbl>”和“</w:tbl>”之间的代码段代表着Word文档的表,而<w:tblBorders>和</w:tblBorders>表示该表的框线,<w:tc>和</w:tc>表示该表的一个单元格;对应的,按照此种方式,将不同类型Exccel表格等等的文档中所有表格格式代码段整合,即可得到表格的结构源码;
具体的,识别所述结构源码中的行源码和列源码,提取所述行源码的第一位置标记参数和所述列源码的第二位置标记参数,基于所述第一位置标记参数和所述第二位置标记参数计算表格位置数据;判断所述行源码与所述列源码之间是否存在逻辑源码,若存在,则整合所述结构源码、所述表格位置数据和所述逻辑源码,得到所述逻辑关系库;在本实施例中,相应的,文档表格中的各行各列之间若存在相应的求和、求差等函数运算或数量关系或两个单元格之间是否存在key-value关系等,即可判断行源码与列源码之间存在逻辑源码;若存在逻辑源码,把相应的逻辑源码提出并进行整合,即把相应的表格之间所存在的关系进行抽取存储;同时考虑到结构方面的源码还包含整个表格的位置参数,故提取行源码的第一位置标记参数和列源码的第二位置标记参数;该标记参数即为表格表头或表尾两端的标记参数,通过位置标记参数进行相应的加减运算,即可得到表格的width参数和height参数,进而确定表格的规格和位置;对应的,若在一开始获取的文档中,其源码中不包含对应的位置标记参数,则针对于office文档,可以在表格中使用标记语言添加对应的标记,通过标记确定文档的位置数据;对于Latex文档,可以使用Tex语法“fcolorbox”中采用边界标记命令,进而得到对应的表格位置标记参数;对应的,把上述得到的信息进行整理和存储,并放置到相应的容器中,得到相应的逻辑关系库;
S220、配置表格样式数据库,基于所述表格样式数据库和所述源代码数据获取第一样式信息和第二样式信息;
具体的,获取表格版本信息,在所述表格样式数据库中提取与所述表格版本信息相匹配的第一表格模板,提取所述第一表格模板的第一模板源码,并设定所述第一模板源码为所述第一样式信息;提取所述源代码数据中的第二模板源码,并设定所述第二模板源码为所述第二样式信息;在本实施例中,通过上述步骤建立了表格的结构信息和表格的内容逻辑信息,相对而言更加重要的是表格的样式信息,样式即为表格的模板,为了提高鲁棒性,在本实施例中获取若干表格版本信息,即对应各个office版本中的表格样式作为基础,进而把获取到的源文档的样式信息继续进行提取,进而得到第一样式信息和第二样式信息;
S230、配置大数据分析程序,设置基准频率,基于所述第一样式信息、所述第二样式信息、所述大数据分析程序和所述基准频率创建高频样式库和低频样式库;
具体的,调用所述大数据分析程序获取与所述第一样式信息所对应表格的第一使用频率、与所述第二样式信息所对应表格的第二使用频率以及与所述第一样式信息和所述第二样式信息的组合信息所对应表格的第三使用频率;将所述第一使用频率、所述第二使用频率和所述第三使用频率中与所述基准频率相匹配的使用频率所对应的样式信息进行整合,得到所述高频样式库;将所述第一使用频率、所述第二使用频率和所述第三使用频率中与所述基准频率非匹配的使用频率所对应的样式信息进行整合,得到所述低频样式库;对应的,在本实施例中,低频样式库和高频样式库为根据各个样式的表格进行了相应的区分,比如,使用频率较高的表格的样式信息存在于高频样式库中,使用频率较低的表格的样式信息存在于低频样式库中,对应的,组合信息即为第一样式信息和第二样式信息的多种组合方式;在本实施例中,不小于基准频率的使用频率为与基准频率相匹配,而小于基准频率的使用频率为与基准频率非匹配;在后期的数据集配置时,可以根据深度学习算法的主要模型类别,来对低频样式库中的信息和高频样式库中的信息进行筛选;假如需要进行训练的表格为冷门表格,则选用低频样式库即可,若需要进行训练的表格为使用热度较高的表格,则选用高频样式库即可;基准频率具体情况具体设置,高频样式库和低频样式库同样属于表格数据的格式库,而上述的逻辑关系库属于表格数据的规则库;通过各个数据库的构建,可以进一步提高表格数据组合的多样性,进而提高所配置数据集的鲁棒性;
S240、配置结构树模板,基于所述逻辑关系库、所述高频样式库、所述低频样库集和所述结构树模板构建所述表格结构树;具体的,将所述逻辑关系库、所述高频样式库和所述低频样库填充至所述结构树模板中,得到所述表格结构树;结构树模板具体情况具体设置,其仅用于逻辑关系库、高频样式库和低频样库之间的数据进行统一展示和布局,可以为多种形式,在此不做限定。
S300、配置分析数据集:
步骤S300具体包括:
S310、配置格式转换程序,获取算法模型,基于所述表格结构树、所述格式转换程序和所述算法模型配置所述分析数据集;
具体的,识别所述算法模型的模型类别;若所述模型类别为表格格式检测类,则提取所述表格结构树中的逻辑关系库,并调用所述格式转换程序将所述逻辑关系库中的所述结构源码和所述表格位置数据分别转换为结构标识序列和位置标识序列;整合所述结构标识序列与所述位置标识序列,得到所述分析数据集;若所述模型类别为表格内容识别类,则提取所述表格结构树中的所述逻辑关系库、所述高频样式库和所述低频样式库;调用所述格式转换程序将所述逻辑关系库中的逻辑源码、所述高频样式库中的样式信息和所述低频样库中的样式信息分别转换为逻辑标识序列、第一样式序列和第二样式序列;整合所述逻辑标识序列、所述第一样式序列和所述第二样式序列,得到所述分析数据集;在本实施例中,序列格式包括但不限于HTML格式,且仅列举两种算法模型的模型类别,算法模型的模型类别包括但不限于这两种,最终的目的为根据算法模型的模型类别去合理利用表格结构树,进而组合多种表格的信息,来增强数据集的规模和鲁棒性;对应的,表格结构树可以根据表格数据、格式、模板、逻辑函数、映射关系的改进和发展进行更新和迭代,进而提高数据集的实用性。
通过本实施例所描述的表格分析数据集的配置方法,构建了一个鲁棒性、适用性、数据规模、准确性均较高的表格分析数据集,弥补了现有技术的不足,是表格分析数据集构建的一种新理念,具有很高的实用价值。
实施例2
本实施例提供一种表格分析数据集的配置系统,如图3所示,包括:源代码获取模块、逻辑库创建模块、样式库创建模块、结构树创建模块和数据集创建模块;
所述表格分析数据集的配置系统中,源代码获取模块用于获取源文档,并识别所述源文档的文档类型,所述源代码获取模块基于所述文档类型获取所述源文档的源代码数据;
具体的,若所述文档类型为编辑类文档,则源代码获取模块获取所述源文档的数据层代码,并设定所述数据层代码为所述源代码数据;若所述文档类型为排版类文档,则源代码获取模块获取与所述源文档对应的排版文件,源代码获取模块访问预打印数据库中与所述排版文件相匹配的文件源码,并设定所述文件源码为所述源代码数据。
所述表格分析数据集的配置系统中,逻辑库创建模块用于设定识别码,并基于所述识别码对所述源代码数据进行筛选处理操作,得到结构源码;所述逻辑库创建模块基于所述结构源码创建逻辑关系库;
具体的,所述筛选处理操作包括:逻辑库创建模块调用解压缩算法对所述源代码数据进行解压处理,得到解压文件;逻辑库创建模块在所述解压文件的数据包中提取与所述识别码相匹配的标识性文件;逻辑库创建模块识别所述标识性文件的标识源码,并在所述标识源码中提取若干表格格式代码段,逻辑库创建模块整合若干所述表格格式代码段,得到所述结构源码;
具体的,逻辑库创建模块识别所述结构源码中的行源码和列源码,并提取所述行源码的第一位置标记参数和所述列源码的第二位置标记参数,逻辑库创建模块基于所述第一位置标记参数和所述第二位置标记参数计算表格位置数据;逻辑库创建模块判断所述行源码与所述列源码之间是否存在逻辑源码,若存在,则逻辑库创建模块整合所述结构源码、所述表格位置数据和所述逻辑源码,得到所述逻辑关系库。
所述表格分析数据集的配置系统中,样式库创建模块用于配置表格样式数据库,并基于所述表格样式数据库和所述源代码数据获取第一样式信息和第二样式信息;所述样式库创建模块还用于配置大数据分析程序和设置基准频率,所述样式库创建模块基于所述第一样式信息、所述第二样式信息、所述大数据分析程序和所述基准频率创建高频样式库和低频样式库;
具体的,样式库创建模块获取表格版本信息,并在所述表格样式数据库中提取与所述表格版本信息相匹配的第一表格模板,样式库创建模块提取所述第一表格模板的第一模板源码,并设定所述第一模板源码为所述第一样式信息;样式库创建模块提取所述源代码数据中的第二模板源码,并设定所述第二模板源码为所述第二样式信息;
具体的,样式库创建模块调用所述大数据分析程序获取与所述第一样式信息所对应表格的第一使用频率、与所述第二样式信息所对应表格的第二使用频率以及与所述第一样式信息和所述第二样式信息的组合信息所对应表格的第三使用频率;样式库创建模块将所述第一使用频率、所述第二使用频率和所述第三使用频率中与所述基准频率相匹配的使用频率所对应的样式信息进行整合,得到所述高频样式库;样式库创建模块将所述第一使用频率、所述第二使用频率和所述第三使用频率中与所述基准频率非匹配的使用频率所对应的样式信息进行整合,得到所述低频样式库。
所述表格分析数据集的配置系统中,结构树创建模块用于配置结构树模板,并基于所述逻辑关系库、所述高频样式库、所述低频样库集和所述结构树模板构建所述表格结构树;
具体的,结构树创建模块将所述逻辑关系库、所述高频样式库和所述低频样库填充至所述结构树模板中,得到所述表格结构树。
所述表格分析数据集的配置系统中,数据集创建模块用于配置格式转换程序和获取算法模型,所述数据集创建模块基于所述表格结构树、所述格式转换程序和所述算法模型配置所述分析数据集;
具体的,数据集创建模块识别所述算法模型的模型类别,若所述模型类别为表格格式检测类,则数据集创建模块提取所述表格结构树中的逻辑关系库,并调用所述格式转换程序将所述逻辑关系库中的所述结构源码和所述表格位置数据分别转换为结构标识序列和位置标识序列;数据集创建模块整合所述结构标识序列与所述位置标识序列,得到所述分析数据集;
若所述模型类别为表格内容识别类,则数据集创建模块提取所述表格结构树中的所述逻辑关系库、所述高频样式库和所述低频样式库;数据集创建模块调用所述格式转换程序将所述逻辑关系库中的逻辑源码、所述高频样式库中的样式信息和所述低频样库中的样式信息分别转换为逻辑标识序列、第一样式序列和第二样式序列;数据集创建模块整合所述逻辑标识序列、所述第一样式序列和所述第二样式序列,得到所述分析数据集。
通过本实施例所描述的表格分析数据集的配置系统,通过源代码获取模块、逻辑库创建模块、样式库创建模块、结构树创建模块和数据集创建模块之间的相互配合,实现了实施例1中的方法,进而构建了一个鲁棒性、适用性、数据规模、准确性均较高的表格分析数据集,弥补了现有技术的不足,是表格分析数据集构建的一种新理念,具有很高的实用价值。
实施例3
本实施例提供一种计算机可读存储介质,包括:
所述存储介质用于储存将上述实施例1所述的表格分析数据集的配置方法实现所用的计算机软件指令,其包含用于执行上述为所述表格分析数据集的配置方法所设置的程序;具体的,该可执行程序可以内置在实施例2所述的表格分析数据集的配置系统中,这样,表格分析数据集的配置系统就可以通过执行内置的可执行程序实现所述实施例1所述的表格分析数据集的配置方法。
此外,本实施例具有的计算机可读存储介质可以采用一个或多个可读存储介质的任意组合,其中,可读存储介质包括电、光、电磁、红外线或半导体的系统、装置或器件,或者以上任意组合。
区别于现有技术,采用本申请一种表格分析数据集的配置方法、系统及介质可以通过本方法构建一个质量更高、规模较大、适用性较强且具有较高鲁棒性的表格分析数据集,且该表格分析数据集可以根据表格结构改变配合算法模型进行改进和补充,普适性更强,通过本系统为本方法提供了有效的技术支撑,弥补了现有技术的不足。
上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (7)
1.一种表格分析数据集的配置方法,其特征在于,包括以下步骤:
获取源代码:
获取源文档,识别所述源文档的文档类型,基于所述文档类型获取所述源文档的源代码数据;
创建表格结构树:
设定识别码,基于所述识别码对所述源代码数据进行筛选处理操作,得到结构源码,基于所述结构源码创建逻辑关系库;
配置表格样式数据库,基于所述表格样式数据库和所述源代码数据获取第一样式信息和第二样式信息;
配置大数据分析程序,设置基准频率,基于所述第一样式信息、所述第二样式信息、所述大数据分析程序和所述基准频率创建高频样式库和低频样式库;
配置结构树模板,基于所述逻辑关系库、所述高频样式库、所述低频样式库和所述结构树模板构建所述表格结构树;
配置分析数据集:
配置格式转换程序,获取算法模型,基于所述表格结构树、所述格式转换程序和所述算法模型配置所述分析数据集;
所述基于所述结构源码创建逻辑关系库的步骤进一步包括:识别所述结构源码中的行源码和列源码,提取所述行源码的第一位置标记参数和所述列源码的第二位置标记参数,基于所述第一位置标记参数和所述第二位置标记参数计算表格位置数据;判断所述行源码与所述列源码之间是否存在逻辑源码,若存在,则整合所述结构源码、所述表格位置数据和所述逻辑源码,得到所述逻辑关系库;
所述基于所述第一样式信息、所述第二样式信息、所述大数据分析程序和所述基准频率创建高频样式库和低频样式库的步骤进一步包括:调用所述大数据分析程序获取与所述第一样式信息所对应表格的第一使用频率、与所述第二样式信息所对应表格的第二使用频率以及与所述第一样式信息和所述第二样式信息的组合信息所对应表格的第三使用频率;将所述第一使用频率、所述第二使用频率和所述第三使用频率中与所述基准频率相匹配的使用频率所对应的样式信息进行整合,得到所述高频样式库;将所述第一使用频率、所述第二使用频率和所述第三使用频率中与所述基准频率非匹配的使用频率所对应的样式信息进行整合,得到所述低频样式库;
所述基于所述表格结构树、所述格式转换程序和所述算法模型配置所述分析数据集的步骤进一步包括:识别所述算法模型的模型类别,若所述模型类别为表格格式检测类,则提取所述表格结构树中的逻辑关系库,并调用所述格式转换程序将所述逻辑关系库中的所述结构源码和所述表格位置数据分别转换为结构标识序列和位置标识序列;整合所述结构标识序列与所述位置标识序列,得到所述分析数据集;若所述模型类别为表格内容识别类,则提取所述表格结构树中的所述逻辑关系库、所述高频样式库和所述低频样式库;调用所述格式转换程序将所述逻辑关系库中的逻辑源码、所述高频样式库中的样式信息和所述低频样式库中的样式信息分别转换为逻辑标识序列、第一样式序列和第二样式序列;整合所述逻辑标识序列、所述第一样式序列和所述第二样式序列,得到所述分析数据集。
2.根据权利要求1所述的表格分析数据集的配置方法,其特征在于,所述基于所述文档类型获取所述源文档的源代码数据的步骤进一步包括:
若所述文档类型为编辑类文档,则获取所述源文档的数据层代码,并设定所述数据层代码为所述源代码数据;
若所述文档类型为排版类文档,则获取与所述源文档对应的排版文件,访问预打印数据库中与所述排版文件相匹配的文件源码,并设定所述文件源码为所述源代码数据。
3.根据权利要求2所述的表格分析数据集的配置方法,其特征在于,所述筛选处理操作包括:
调用解压缩算法对所述源代码数据进行解压处理,得到解压文件;
在所述解压文件的数据包中提取与所述识别码相匹配的标识性文件;
识别所述标识性文件的标识源码,并在所述标识源码中提取若干表格格式代码段,整合若干所述表格格式代码段,得到所述结构源码。
4.根据权利要求3所述的表格分析数据集的配置方法,其特征在于,所述基于所述表格样式数据库和所述源代码数据获取第一样式信息和第二样式信息的步骤进一步包括:
获取表格版本信息,在所述表格样式数据库中提取与所述表格版本信息相匹配的第一表格模板,提取所述第一表格模板的第一模板源码,并设定所述第一模板源码为所述第一样式信息;
提取所述源代码数据中的第二模板源码,并设定所述第二模板源码为所述第二样式信息。
5.根据权利要求4所述的表格分析数据集的配置方法,其特征在于,所述基于所述逻辑关系库、所述高频样式库、所述低频样式库和所述结构树模板构建所述表格结构树的步骤进一步包括:
将所述逻辑关系库、所述高频样式库和所述低频样式库填充至所述结构树模板中,得到所述表格结构树。
6.一种表格分析数据集的配置系统,其特征在于,包括:源代码获取模块、逻辑库创建模块、样式库创建模块、结构树创建模块和数据集创建模块;
所述源代码获取模块用于获取源文档,并识别所述源文档的文档类型,所述源代码获取模块基于所述文档类型获取所述源文档的源代码数据;
所述逻辑库创建模块用于设定识别码,并基于所述识别码对所述源代码数据进行筛选处理操作,得到结构源码;所述逻辑库创建模块基于所述结构源码创建逻辑关系库;
所述样式库创建模块用于配置表格样式数据库,并基于所述表格样式数据库和所述源代码数据获取第一样式信息和第二样式信息;所述样式库创建模块还用于配置大数据分析程序和设置基准频率,所述样式库创建模块基于所述第一样式信息、所述第二样式信息、所述大数据分析程序和所述基准频率创建高频样式库和低频样式库;
所述结构树创建模块用于配置结构树模板,并基于所述逻辑关系库、所述高频样式库、所述低频样式库和所述结构树模板构建所述表格结构树;
所述数据集创建模块用于配置格式转换程序和获取算法模型,所述数据集创建模块基于所述表格结构树、所述格式转换程序和所述算法模型配置所述分析数据集;
所述逻辑库创建模块基于所述结构源码创建逻辑关系库进一步包括:所述逻辑库创建模块识别所述结构源码中的行源码和列源码,并提取所述行源码的第一位置标记参数和所述列源码的第二位置标记参数,逻辑库创建模块基于所述第一位置标记参数和所述第二位置标记参数计算表格位置数据;逻辑库创建模块判断所述行源码与所述列源码之间是否存在逻辑源码,若存在,则逻辑库创建模块整合所述结构源码、所述表格位置数据和所述逻辑源码,得到所述逻辑关系库;
所述样式库创建模块基于所述第一样式信息、所述第二样式信息、所述大数据分析程序和所述基准频率创建高频样式库和低频样式库进一步包括:所述样式库创建模块调用所述大数据分析程序获取与所述第一样式信息所对应表格的第一使用频率、与所述第二样式信息所对应表格的第二使用频率以及与所述第一样式信息和所述第二样式信息的组合信息所对应表格的第三使用频率;样式库创建模块将所述第一使用频率、所述第二使用频率和所述第三使用频率中与所述基准频率相匹配的使用频率所对应的样式信息进行整合,得到所述高频样式库;样式库创建模块将所述第一使用频率、所述第二使用频率和所述第三使用频率中与所述基准频率非匹配的使用频率所对应的样式信息进行整合,得到所述低频样式库;
所述数据集创建模块基于所述表格结构树、所述格式转换程序和所述算法模型配置所述分析数据集进一步包括:所述数据集创建模块识别所述算法模型的模型类别,若所述模型类别为表格格式检测类,则数据集创建模块提取所述表格结构树中的逻辑关系库,并调用所述格式转换程序将所述逻辑关系库中的所述结构源码和所述表格位置数据分别转换为结构标识序列和位置标识序列;数据集创建模块整合所述结构标识序列与所述位置标识序列,得到所述分析数据集;若所述模型类别为表格内容识别类,则数据集创建模块提取所述表格结构树中的所述逻辑关系库、所述高频样式库和所述低频样式库;数据集创建模块调用所述格式转换程序将所述逻辑关系库中的逻辑源码、所述高频样式库中的样式信息和所述低频样式库中的样式信息分别转换为逻辑标识序列、第一样式序列和第二样式序列;数据集创建模块整合所述逻辑标识序列、所述第一样式序列和所述第二样式序列,得到所述分析数据集。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1~5中任一项所述表格分析数据集的配置方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110913230.7A CN113792042B (zh) | 2021-08-10 | 2021-08-10 | 一种表格分析数据集的配置方法、系统及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110913230.7A CN113792042B (zh) | 2021-08-10 | 2021-08-10 | 一种表格分析数据集的配置方法、系统及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113792042A CN113792042A (zh) | 2021-12-14 |
CN113792042B true CN113792042B (zh) | 2023-09-15 |
Family
ID=79181696
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110913230.7A Active CN113792042B (zh) | 2021-08-10 | 2021-08-10 | 一种表格分析数据集的配置方法、系统及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113792042B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101216824A (zh) * | 2007-01-05 | 2008-07-09 | 冯卫国 | 一种将树型结构数据库发布为分布式xml数据库的方法 |
WO2008111314A1 (ja) * | 2007-03-14 | 2008-09-18 | Justsystems Corporation | データ処理装置及びデータ処理方法 |
CN102103587A (zh) * | 2009-12-17 | 2011-06-22 | 北大方正集团有限公司 | 一种表格转换的方法和装置 |
CN107203627A (zh) * | 2017-05-27 | 2017-09-26 | 山东浪潮通软信息科技有限公司 | 一种结构化数据与Word文档之间互相转换的方法 |
CN112667563A (zh) * | 2020-12-04 | 2021-04-16 | 深圳先进技术研究院 | 一种文档管理及操作方法和系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4398988B2 (ja) * | 2007-03-26 | 2010-01-13 | 株式会社東芝 | 構造化文書を管理する装置、方法およびプログラム |
US7979793B2 (en) * | 2007-09-28 | 2011-07-12 | Microsoft Corporation | Graphical creation of a document conversion template |
-
2021
- 2021-08-10 CN CN202110913230.7A patent/CN113792042B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101216824A (zh) * | 2007-01-05 | 2008-07-09 | 冯卫国 | 一种将树型结构数据库发布为分布式xml数据库的方法 |
WO2008111314A1 (ja) * | 2007-03-14 | 2008-09-18 | Justsystems Corporation | データ処理装置及びデータ処理方法 |
CN102103587A (zh) * | 2009-12-17 | 2011-06-22 | 北大方正集团有限公司 | 一种表格转换的方法和装置 |
CN107203627A (zh) * | 2017-05-27 | 2017-09-26 | 山东浪潮通软信息科技有限公司 | 一种结构化数据与Word文档之间互相转换的方法 |
CN112667563A (zh) * | 2020-12-04 | 2021-04-16 | 深圳先进技术研究院 | 一种文档管理及操作方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113792042A (zh) | 2021-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110597735B (zh) | 一种面向开源软件缺陷特征深度学习的软件缺陷预测方法 | |
US20220138240A1 (en) | Source code retrieval | |
CN111597243B (zh) | 基于数据仓库抽象数据加载的方法及系统 | |
JP2007094775A (ja) | 意味解析装置、意味解析方法および意味解析プログラム | |
US8249351B2 (en) | Recording medium for recording logical structure model creation assistance program, logical structure model creation assistance device and logical structure model creation assistance method | |
CN113779272A (zh) | 基于知识图谱的数据处理方法、装置、设备及存储介质 | |
CN110705226A (zh) | 电子表格的创建方法、装置及计算机设备 | |
CN115562656A (zh) | 页面的生成方法、装置、存储介质及计算机设备 | |
US20030159110A1 (en) | Structured document management system, structured document management method, search device and search method | |
CN116721713B (zh) | 一种面向化学结构式识别的数据集构建方法和装置 | |
CN113792042B (zh) | 一种表格分析数据集的配置方法、系统及介质 | |
CN116975068A (zh) | 基于元数据的专利文献数据存储方法、装置及存储介质 | |
JP2018116701A (ja) | 印鑑画像の処理装置、方法及び電子機器 | |
CN110738202A (zh) | 字符识别方法、装置及计算机可读存储介质 | |
CN111241329A (zh) | 基于图像检索的古文字考释方法和装置 | |
CN116257877A (zh) | 一种面向隐私计算的数据分类分级方法 | |
CN112800235B (zh) | 一种可视化知识图谱数据建模方法和系统 | |
US11327994B2 (en) | Arranging converted operation history information | |
CN114090722A (zh) | 查询内容自动补全的方法及装置 | |
Shao et al. | An improved approach to the recovery of traceability links between requirement documents and source codes based on latent semantic indexing | |
CN117852637B (zh) | 一种基于定义的学科概念知识体系自动构建方法与系统 | |
CN112579841B (zh) | 一种多模态数据库建立方法、检索方法及系统 | |
CN112966087B (zh) | 一种灵感素材的智能问答系统及方法 | |
US20230195280A1 (en) | Identification device, identification method, and identification program | |
CN109657115B (zh) | 爬取数据自修复方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |