CN110968990A - 一种表格解析方法及装置 - Google Patents

一种表格解析方法及装置 Download PDF

Info

Publication number
CN110968990A
CN110968990A CN201811162749.0A CN201811162749A CN110968990A CN 110968990 A CN110968990 A CN 110968990A CN 201811162749 A CN201811162749 A CN 201811162749A CN 110968990 A CN110968990 A CN 110968990A
Authority
CN
China
Prior art keywords
text
analyzed
node
paragraph
column
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811162749.0A
Other languages
English (en)
Other versions
CN110968990B (zh
Inventor
李国文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201811162749.0A priority Critical patent/CN110968990B/zh
Publication of CN110968990A publication Critical patent/CN110968990A/zh
Application granted granted Critical
Publication of CN110968990B publication Critical patent/CN110968990B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种表格解析方法及装置,获取待解析文书,将所述待解析文书进行文本编码处理,得到待解析文本,生成与所述待解析文本对应的树型结构,确定所述树型结构中待解析项和待解析项对应的解析值的相对位置关系,基于所述相对位置关系,确定所述待解析项对应的解析值。通过本发明实施例,可以在得到树型结构后,直接输入待解析项,即可以得到解析值,不需要人工解析,减少了人力。

Description

一种表格解析方法及装置
技术领域
本发明涉及数据处理领域,更具体的说,涉及一种表格解析方法及装 置。
背景技术
文书中可以包括自然段落、表格等结构。
在对文书中的表格内容进行解析时是人工进行解析,如想知道表格中 解析项为姓名的解析值,是人工查找到表格中的姓名项,然后确定姓名对 应的解析值,如解析值可以是张三或李四等,这样一来,人工解析表格浪 费人力。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部 分地解决上述问题的一种表格解析方法及装置。
一种表格解析方法,包括:
获取待解析文书;其中,所述待解析文书包括至少一个表格;
将所述待解析文书进行文本编码处理,得到待解析文本;
生成与所述待解析文本对应的树型结构;其中,所述树型结构表征所 述待解析文本的文本结构;
确定所述树型结构中待解析项和待解析项对应的解析值的相对位置关 系;
基于所述相对位置关系,确定所述待解析项对应的解析值。
优选地,将所述待解析文书进行文本编码处理,得到待解析文本,包 括:
对所述待解析文书进行分段操作,得到多个具有先后顺序的段落,并 按照段落的先后顺序,为每个所述段落设置索引号;其中,一个自然段落 或一个表格段落作为一个段落;
将段落中的自然段落以及表格中的每一文本句子分别作为一个文本段 落,得到中间文本;
分别对所述中间文本中的不同的预设位置添加相应的标签;其中,所 述预设位置包括每一文本段落的开始位置和结束位置、拆分成多个文本段 落的每一表征表格的开始位置和结束位置、表征拆分成多个文本段落的每 一表格的每一行的开始位置和结束位置、表征拆分成多个文本段落的每一 表格的每一列的开始位置和结束位置。
优选地,生成与所述待解析文本对应的树型结构,包括:
将所述待解析文本作为根节点;
按照段落之间的先后顺序,将每一段落分别作为所述根节点的一个分 段节点,并依据每个段落对应的索引号设置对应的分段节点的索引号;
将每一表格中的每一行作为相应表格对应的分段节点的行节点,并为 每一行节点设置索引号;
将每一表格中的每一列作为相应行节点的列节点,并为每一列节点设 置索引号;
将每一表格中的列文本作为相应列节点的文本节点。
优选地,确定所述树型结构中待解析项和待解析项对应的解析值的相 对位置关系,包括:
获取关键字组;所述关键字组包括多个预设关键字;
采用正则表达式规则,在所述树型结构中查找每一预设关键字所在的 位置;
根据所述关键字组中的至少一个关键字确定待解析项;
确定所述待解析项所在的待解析表格;
若位于所述待解析表格中的多个预设关键字所在的文本节点对应的行 节点相同,则所述文本相对位置关系为行关系;
若位于所述待解析表格中的多个预设关键字所在的文本节点对应的列 节点相同,则所述文本相对位置关系为列关系。
优选地,基于所述相对位置关系,确定所述待解析项对应的解析值, 包括:
若所述相对位置关系为行关系,将所述树型结构中行节点的索引号、 列节点的索引号加一后对应的文本节点的内容作为所述待解析项对应的解 析值;
若所述相对位置关系为列关系,将所述树型结构中列节点的索引号、 行节点的索引号加一后对应的文本节点的内容作为所述待解析项对应的解 析值。
一种表格解析装置,包括:
文书获取模块,用于获取待解析文书;其中,所述待解析文书包括至 少一个表格;
编码处理模块,用于将所述待解析文书进行文本编码处理,得到待解 析文本;
结构生成模块,用于生成与所述待解析文本对应的树型结构;其中, 所述树型结构表征所述待解析文本的文本结构;
关系确定模块,用于确定所述树型结构中待解析项和待解析项对应的 解析值的相对位置关系;
解析模块,用于基于所述相对位置关系,确定所述待解析项对应的解 析值。
优选地,所述编码处理模块包括:
分段子模块,用于对所述待解析文书进行分段操作,得到多个具有先 后顺序的段落,并按照段落的先后顺序,为每个所述段落设置索引号;其 中,一个自然段落或一个表格段落作为一个段落;
段落确定子模块,用于将段落中的自然段落以及表格中的每一文本句 子分别作为一个文本段落,得到中间文本;
标签添加子模块,用于分别对所述中间文本中的不同的预设位置添加 相应的标签;其中,所述预设位置包括每一文本段落的开始位置和结束位 置、拆分成多个文本段落的每一表征表格的开始位置和结束位置、表征拆 分成多个文本段落的每一表格的每一行的开始位置和结束位置、表征拆分 成多个文本段落的每一表格的每一列的开始位置和结束位置。
优选地,所述结构生成模块包括:
第一节点确定子模块,用于将所述待解析文本作为根节点;
第二节点确定子模块,用于按照段落之间的先后顺序,将每一段落分 别作为所述根节点的一个分段节点,并依据每个段落对应的索引号设置对 应的分段节点的索引号;
第三节点确定子模块,用于将每一表格中的每一行作为相应表格对应 的分段节点的行节点,并为每一行节点设置索引号;
第四节点确定子模块,用于将每一表格中的每一列作为相应行节点的 列节点,并为每一列节点设置索引号;
第五节点确定子模块,用于将每一表格中的列文本作为相应列节点的 文本节点。
一种存储介质,所述存储介质包括存储的程序,其中,所述程序执行 上述的表格解析方法。
一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行 上述的表格解析方法。
借由上述技术方案,本发明提供的一种表格解析方法及装置,获取待 解析文书,将所述待解析文书进行文本编码处理,得到待解析文本,生成 与所述待解析文本对应的树型结构,确定所述树型结构中待解析项和待解 析项对应的解析值的相对位置关系,基于所述相对位置关系,确定所述待 解析项对应的解析值。通过本发明实施例,可以在得到树型结构后,直接 输入待解析项,即可以得到解析值,不需要人工解析,减少了人力。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的 技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和 其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于 本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目 的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符 号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种表格解析方法的方法流程图;
图2示出了本发明实施例提供的另一种表格解析方法的方法流程图;
图3示出了本发明实施例提供的一种待解析文书的场景示意图;
图4示出了本发明实施例提供的一种待解析文本的示意图;
图5示出了本发明实施例提供的又一种表格解析方法的方法流程图;
图6示出了本发明实施例提供的再种表格解析方法的方法流程图;
图7示出了本发明实施例提供的一种表格的场景示意图;
图8示出了本发明实施例提供的另一种表格的场景示意图;
图9示出了本发明实施例提供的一种表格解析装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显 示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开 而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更 透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术 人员。
本发明实施例提供了一种表格解析方法,该方法可以应用于处理器、 笔记本、个人计算机PC等设备,参照图1,表格解析方法可以包括:
S11、获取待解析文书;
其中,所述待解析文书包括至少一个表格,此外,待解析文书还可以 包括文本,即待解析文书可以是表格和文本的集合,或者仅包括表格。
S12、将所述待解析文书进行文本编码处理,得到待解析文本;
具体的,文本编码处理,即是将包括表格的待解析文书转换成纯文本 的待解析文本。
S13、生成与所述待解析文本对应的树型结构;
其中,所述树型结构表征所述待解析文本的文本结构。具体的,树型 结构中展示了待解析文本中的文本段落的结构。
S14、确定所述树型结构中待解析项和待解析项对应的解析值的相对位 置关系;
具体的,从树型结构中确定出解析项和待解析项对应的解析值的相对 位置关系,进而就可以根据该相对位置关系,查找到待解析项对应的解析 值。
S15、基于所述相对位置关系,确定所述待解析项对应的解析值。
本实施例中,获取待解析文书,将所述待解析文书进行文本编码处理, 得到待解析文本,生成与所述待解析文本对应的树型结构,确定所述树型 结构中待解析项和待解析项对应的解析值的相对位置关系,基于所述相对 位置关系,确定所述待解析项对应的解析值。通过本发明实施例,可以在 得到树型结构后,直接输入待解析项,即可以得到解析值,不需要人工解 析,减少了人力。
可选的,在上一实施例的基础上,参照图2,步骤S12可以包括:
S21、对所述待解析文书进行分段操作,得到多个具有先后顺序的段落, 并按照段落的先后顺序,为每个所述段落设置索引号。
其中,一个自然段落或一个表格作为一个段落;
具体的,将待解析文书拆分为多个段落,一个自然段落或者一个表格 均作为一个段落,并且根据段落的先后顺序,为每个段落设置索引号,索 引号可以是1、2、3、4…….。此外,每个段落设置一个标签,纯文本段, 即自然段落设置为section,表格段落设置为table。
S22、将段落中的自然段落以及表格中的每一文本句子分别作为一个文 本段落,得到中间文本;
具体的,参照图3,图3为包括自然段落和表格的一个待解析文书,其 中,将待解析文书中“三、信息披露及备置地点”、“公司选定的信息披露 媒体的名称”、“证券时报”等自然段落或表格中的每一文本句子均作为一 个文本段落。
S23、分别对所述中间文本中的不同的预设位置添加相应的标签;
其中,所述预设位置包括每一文本段落的开始位置和结束位置、表征 拆分成多个文本段落的每一表格的开始位置和结束位置、表征拆分成多个 文本段落的每一表格的每一行的开始位置和结束位置、表征拆分成多个文 本段落的每一表格的每一列的开始位置和结束位置。
具体的,步骤S23可以包括:
1)对于所述中间文本,将每一文本段落的开始位置和结束位置分别添 加第一标签组中的开始标签和结束标签;
每一文本段落的开始位置添加<p>,每一文本段落的结束位置添加 </p>。
具体的,不包含表格的纯文本段落,以<p>开始,以</p>结尾,把每个自 然段进行编码,多个自然段设置多个<p></p>标签。
表格中拆分得到的每一文本段落也按照<p></p>编码。<p></p>为第一 标签组。
2)将表征拆分成多个文本段落的每一表格的开始位置和结束位置分别 添加第二标签组中的开始标签和结束标签;
3)将表征拆分成多个文本段落的每一表格的每一行的开始位置和结束 位置分别添加第三标签组中的开始标签和结束标签;
4)将表征拆分成多个文本段落的每一表格的每一列的开始位置和结束 位置分别添加第四标签组中的开始标签和结束标签,得到所述待解析文本。
具体的,表格部分分四级:第一级以<table>开始,以</table>结尾,将 每一个表格进行分隔,一组<table></table>结构设置为一个表格段,多个表 格则设置多组<table></table>标签;第二级,一组<table></table>表格里的每 一行用<tr></tr>编码;第三级每行中的每一列再用<td></td>编码;第四级每 一列中的文本按照自然段以<p></p>编码。
将图3中的待解析文书进行文本编码后,得到的待解析文本如图4。
本实施例中,由于不能直接对包括表格的待解析文书直接解析,将待 解析文书解析成待解析文本以后,就可以对待解析文本直接解析。
可选的,在上一实施例的基础上,参照图5,步骤S13可以包括:
S51、将所述待解析文本作为根节点;
具体的,将待解析文本转化成树型结构:一个待解析文本为一个树的 结构,先以待解析文本建立一个根节点。
S52、按照段落之间的先后顺序,将每一段落分别作为所述根节点的一 个分段节点,并依据每个段落对应的索引号设置对应的分段节点的索引号;
具体的,每个段落为根节点的子节点,定义为分段节点,其中,纯文 本的分段段落节点不能继续往下扩展,表格段落还可以继续扩展。另外, 依据每个段落对应的索引号设置对应的分段节点的索引号,即段落的索引 号即为对应的分段节点的索引号。
S53、将每一表格中的每一行作为相应表格对应的分段节点的行节点, 并为每一行节点设置索引号;
具体的,表格分段中的每一行为分段节点的子节点,定义为行节点, 并为行节点设置索引号,每一个表格的每一行节点的索引号依次顺序排列, 如1、2、3、4……。
S54、将每一表格中的每一列作为相应行节点的列节点,并为每一列节 点设置索引号;
具体的,每一行中的列为行节点的子节点,定义为列节点,并为列节 点建立索引号。
S55、将每一表格中的列文本作为相应列节点的文本节点。
列中的文本分段,即列文本,如图3中的“证券时报”为列节点的子 节点,定义为文本节点。
本实施例中,给出了构建树型结构的具体实现过程,进而可以依据本 发明实施例构建树型结构,并依据构建的树型结构,查找到待解析项对应 的待解析值。
可选的,在上一实施例的基础上,参照图6,步骤S14可以包括:
S61、获取关键字组;所述关键字组包括多个预设关键字;
具体的,关键字组是预先设定的,关键字组中包括多个预设关键字, 多个预设关键字可以组成关键词,如名称、年龄、地点等。
S62、采用正则表达式规则,在所述树型结构中查找每一预设关键字所 在的位置;
具体的,采用正则规则表达式规则,在树型结构中对预设关键字进行 搜索,得到每一个预设关键字所在的文本节点的位置。
S63、根据所述关键字组中的至少一个关键字确定待解析项;
具体的,先确定需要解析的关键字,然后通过搜索定位到该关键字多 在的关键词语,将该关键词语作为待解析项。待解析项可以为姓名、年龄、 家庭住址、公司名称等。
其中,需要解析的关键字的数量为一个或多个。
S64、确定所述待解析项所在的待解析表格;
具体的,若待解析项所在的文本节点对应的段落为自然段落,则该自 然段落后的表格作为待解析表格。
若待解析项所在的文本节点对应的段落为表格段落,则该表格段落待 解析表格。
需要说明的是,当待解析项所在的文本节点对应的段落为自然段落 时,该自然段落后的表格中的每一需要解析的内容作为待解析项。
S65、若位于所述待解析表格中的多个预设关键字所在的文本节点对应 的行节点相同,则所述文本相对位置关系为行关系;
S66、若位于所述待解析表格中的多个预设关键字所在的文本节点对应 的列节点相同,则所述文本相对位置关系为列关系。
具体的,通过正则表达式规则定位到预设关键字在树型结构中的位置, 预设关键字可以分步在树型结构中的每一文本节点中,然后筛选出位于待 解析表格的文本节点中的预设关键字,分析预设关键字所在的文本节点的 行节点和列节点。
若行节点相同,则所述文本相对位置关系为行关系,行关系表征解析 值在待解析项的右边。参照图8,如待解析项为“公司选定的信息披露媒体 的名称”,解析值为“证券时报”。参照图9,如待解析项为“保荐机构名称”, 解析值为“浙商证券股份有限公司”。
若列节点相同,则所述文本相对位置关系为列关系,行关系表征解析 值在待解析项的下边。
可选的,在本实施例的基础上,步骤S15可以包括:
1)若所述相对位置关系为行关系,将所述树型结构中行节点的索引号、 列节点的索引号加一后对应的文本节点的内容作为所述待解析项对应的解 析值;
2)若所述相对位置关系为列关系,将所述树型结构中列节点的索引号、 行节点的索引号加一后对应的文本节点的内容作为所述待解析项对应的解 析值。
具体的,对于相对位置关系为行关系,查找到待解析项的行节点的索 引值(M)、列节点的索引值(N),定位到文本节点(M,N),则(M,N+1) 就是该待解析项的解析值。
对于相对位置关系为列关系,查找到待解析项的行节点的索引值(M)、 列节点的索引值(N),定位到文本节点(M,N),则(M+1,N)就是该待解 析项的解析值。
本实施例中,可以根据表格的属性,自动解析得到待解析项的解析值, 不需要人工参与,解放了人力。
可选的,在上述表格解析方法的实施例的基础上,本发明的另一实施 例提供了一种表格解析装置,参照图9,可以包括:
文书获取模块101,用于获取待解析文书;其中,所述待解析文书包括 至少一个表格;
编码处理模块102,用于将所述待解析文书进行文本编码处理,得到待 解析文本;
结构生成模块103,用于生成与所述待解析文本对应的树型结构;其中, 所述树型结构表征所述待解析文本的文本结构;
关系确定模块104,用于确定所述树型结构中待解析项和待解析项对应 的解析值的相对位置关系;
解析模块105,用于基于所述相对位置关系,确定所述待解析项对应的 解析值。
本实施例中,获取待解析文书,将所述待解析文书进行文本编码处理, 得到待解析文本,生成与所述待解析文本对应的树型结构,确定所述树型 结构中待解析项和待解析项对应的解析值的相对位置关系,基于所述相对 位置关系,确定所述待解析项对应的解析值。通过本发明实施例,可以在 得到树型结构后,直接输入待解析项,即可以得到解析值,不需要人工解 析,减少了人力。
需要说明的是,本实施例中的各个模块的工作过程,请参照上述实施 例中的相应说明,在此不再赘述。
可选地,在上述表格解析装置的实施例的基础上,所述编码处理模块 包括:
分段子模块,用于对所述待解析文书进行分段操作,得到多个具有先 后顺序的段落,并按照段落的先后顺序,为每个所述段落设置索引号;其 中,一个自然段落或一个表格段落作为一个段落;
段落确定子模块,用于将段落中的自然段落以及表格中的每一文本句 子分别作为一个文本段落,得到中间文本;
标签添加子模块,用于分别对所述中间文本中的不同的预设位置添加 相应的标签;其中,所述预设位置包括每一文本段落的开始位置和结束位 置、拆分成多个文本段落的每一表征表格的开始位置和结束位置、表征拆 分成多个文本段落的每一表格的每一行的开始位置和结束位置、表征拆分 成多个文本段落的每一表格的每一列的开始位置和结束位置。
本实施例中,由于不能直接对包括表格的待解析文书直接解析,将待 解析文书解析成待解析文本以后,就可以对待解析文本直接解析。
需要说明的是,本实施例中的各个模块和子模块的工作过程,请参照 上述实施例中的相应说明,在此不再赘述。
可选的,在上一实施例的基础上,结构生成模块103可以包括:
第一节点确定子模块,用于将所述待解析文本作为根节点;
第二节点确定子模块,用于按照段落之间的先后顺序,将每一段落分 别作为所述根节点的一个分段节点,并依据每个段落对应的索引号设置对 应的分段节点的索引号;
第三节点确定子模块,用于将每一表格中的每一行作为相应表格对应 的分段节点的行节点,并为每一行节点设置索引号;
第四节点确定子模块,用于将每一表格中的每一列作为相应行节点的 列节点,并为每一列节点设置索引号;
第五节点确定子模块,用于将每一表格中的列文本作为相应列节点的 文本节点。
本实施例中,给出了构建树型结构的具体实现过程,进而可以依据本 发明实施例构建树型结构,并依据构建的树型结构,查找到待解析项对应 的待解析值。
需要说明的是,本实施例中的各个模块和子模块的工作过程,请参照 上述实施例中的相应说明,在此不再赘述。
可选的,在上一实施例的基础上,关系确定模块104可以包括:
关键字获取子模块,用于获取关键字组;所述关键字组包括多个预设 关键字;
查找子模块,用于采用正则表达式规则,在所述树型结构中查找每一 预设关键字所在的位置;
解析项确定子模块,用于根据所述关键字组中的至少一个关键字确定 待解析项;
表格确定子模块,用于确定所述待解析项所在的待解析表格;
第一关系确定子模块,用于若位于所述待解析表格中的多个预设关键 字所在的文本节点对应的行节点相同,则所述文本相对位置关系为行关系;
第二关系确定子模块,用于若位于所述待解析表格中的多个预设关键 字所在的文本节点对应的列节点相同,则所述文本相对位置关系为列关系。
进一步,解析模块可以包括:
第一确定子模块,用于若所述相对位置关系为行关系,将所述树型结 构中行节点的索引号、列节点的索引号加一后对应的文本节点的内容作为 所述待解析项对应的解析值;
第二确定子模块,用于若所述相对位置关系为列关系,将所述树型结 构中列节点的索引号、行节点的索引号加一后对应的文本节点的内容作为 所述待解析项对应的解析值。
本实施例中,可以根据表格的属性,自动解析得到待解析项的解析值, 不需要人工参与,解放了人力。
需要说明的是,本实施例中的各个模块、子模块和单元的工作过程, 请参照上述实施例中的相应说明,在此不再赘述。
可选的,本发明的实施例还提供了一种表格解析装置,所述表格解析 装置包括处理器和存储器,上述文书获取模块、编码处理模块、结构生成 模块和解析模块等均作为程序单元存储在存储器中,由处理器执行存储在 存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可 以设置一个或以上,通过调整内核参数来自动对表格进行解析。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储 器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理 器执行时实现所述表格解析方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中, 所述程序运行时执行所述表格解析方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存 储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
一种表格解析方法,包括:
获取待解析文书;其中,所述待解析文书包括至少一个表格;
将所述待解析文书进行文本编码处理,得到待解析文本;
生成与所述待解析文本对应的树型结构;其中,所述树型结构表征所 述待解析文本的文本结构;
确定所述树型结构中待解析项和待解析项对应的解析值的相对位置关 系;
基于所述相对位置关系,确定所述待解析项对应的解析值。
进一步,将所述待解析文书进行文本编码处理,得到待解析文本,包 括:
对所述待解析文书进行分段操作,得到多个具有先后顺序的段落,并 按照段落的先后顺序,为每个所述段落设置索引号;其中,一个自然段落 或一个表格段落作为一个段落;
将段落中的自然段落以及表格中的每一文本句子分别作为一个文本段 落,得到中间文本;
分别对所述中间文本中的不同的预设位置添加相应的标签;其中,所 述预设位置包括每一文本段落的开始位置和结束位置、拆分成多个文本段 落的每一表征表格的开始位置和结束位置、表征拆分成多个文本段落的每 一表格的每一行的开始位置和结束位置、表征拆分成多个文本段落的每一 表格的每一列的开始位置和结束位置。
进一步,生成与所述待解析文本对应的树型结构,包括:
将所述待解析文本作为根节点;
按照段落之间的先后顺序,将每一段落分别作为所述根节点的一个分 段节点,并依据每个段落对应的索引号设置对应的分段节点的索引号;
将每一表格中的每一行作为相应表格对应的分段节点的行节点,并为 每一行节点设置索引号;
将每一表格中的每一列作为相应行节点的列节点,并为每一列节点设 置索引号;
将每一表格中的列文本作为相应列节点的文本节点。
进一步,确定所述树型结构中待解析项和待解析项对应的解析值的相 对位置关系,包括:
获取关键字组;所述关键字组包括多个预设关键字;
采用正则表达式规则,在所述树型结构中查找每一预设关键字所在的 位置;
根据所述关键字组中的至少一个关键字确定待解析项;
确定所述待解析项所在的待解析表格;
若位于所述待解析表格中的多个预设关键字所在的文本节点对应的行 节点相同,则所述文本相对位置关系为行关系;
若位于所述待解析表格中的多个预设关键字所在的文本节点对应的列 节点相同,则所述文本相对位置关系为列关系。
进一步,基于所述相对位置关系,确定所述待解析项对应的解析值, 包括:
若所述相对位置关系为行关系,将所述树型结构中行节点的索引号、 列节点的索引号加一后对应的文本节点的内容作为所述待解析项对应的解 析值;
若所述相对位置关系为列关系,将所述树型结构中列节点的索引号、 行节点的索引号加一后对应的文本节点的内容作为所述待解析项对应的解 析值。
本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时, 适于执行初始化有如下方法步骤的程序:
一种表格解析方法,包括:
获取待解析文书;其中,所述待解析文书包括至少一个表格;
将所述待解析文书进行文本编码处理,得到待解析文本;
生成与所述待解析文本对应的树型结构;其中,所述树型结构表征所 述待解析文本的文本结构;
确定所述树型结构中待解析项和待解析项对应的解析值的相对位置关 系;
基于所述相对位置关系,确定所述待解析项对应的解析值。
进一步,将所述待解析文书进行文本编码处理,得到待解析文本,包 括:
对所述待解析文书进行分段操作,得到多个具有先后顺序的段落,并 按照段落的先后顺序,为每个所述段落设置索引号;其中,一个自然段落 或一个表格段落作为一个段落;
将段落中的自然段落以及表格中的每一文本句子分别作为一个文本段 落,得到中间文本;
分别对所述中间文本中的不同的预设位置添加相应的标签;其中,所 述预设位置包括每一文本段落的开始位置和结束位置、拆分成多个文本段 落的每一表征表格的开始位置和结束位置、表征拆分成多个文本段落的每 一表格的每一行的开始位置和结束位置、表征拆分成多个文本段落的每一 表格的每一列的开始位置和结束位置。
进一步,生成与所述待解析文本对应的树型结构,包括:
将所述待解析文本作为根节点;
按照段落之间的先后顺序,将每一段落分别作为所述根节点的一个分 段节点,并依据每个段落对应的索引号设置对应的分段节点的索引号;
将每一表格中的每一行作为相应表格对应的分段节点的行节点,并为 每一行节点设置索引号;
将每一表格中的每一列作为相应行节点的列节点,并为每一列节点设 置索引号;
将每一表格中的列文本作为相应列节点的文本节点。
进一步,确定所述树型结构中待解析项和待解析项对应的解析值的相 对位置关系,包括:
获取关键字组;所述关键字组包括多个预设关键字;
采用正则表达式规则,在所述树型结构中查找每一预设关键字所在的 位置;
根据所述关键字组中的至少一个关键字确定待解析项;
确定所述待解析项所在的待解析表格;
若位于所述待解析表格中的多个预设关键字所在的文本节点对应的行 节点相同,则所述文本相对位置关系为行关系;
若位于所述待解析表格中的多个预设关键字所在的文本节点对应的列 节点相同,则所述文本相对位置关系为列关系。
进一步,基于所述相对位置关系,确定所述待解析项对应的解析值, 包括:
若所述相对位置关系为行关系,将所述树型结构中行节点的索引号、 列节点的索引号加一后对应的文本节点的内容作为所述待解析项对应的解 析值;
若所述相对位置关系为列关系,将所述树型结构中列节点的索引号、 行节点的索引号加一后对应的文本节点的内容作为所述待解析项对应的解 析值。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、 或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施 例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个 或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不 限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的 形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序 产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流 程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中 的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专 用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个 机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产 生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方 框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理 设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存 储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个 流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备 上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机 实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现 在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的 功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/ 输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储 器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以 由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结 构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相 变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可 擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光 盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁 盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质, 可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读 介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵 盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设 备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包 括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情 况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、 方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算 机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结 合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其 中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘 存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技 术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之 内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范 围之内。

Claims (10)

1.一种表格解析方法,其特征在于,包括:
获取待解析文书;其中,所述待解析文书包括至少一个表格;
将所述待解析文书进行文本编码处理,得到待解析文本;
生成与所述待解析文本对应的树型结构;其中,所述树型结构表征所述待解析文本的文本结构;
确定所述树型结构中待解析项和待解析项对应的解析值的相对位置关系;
基于所述相对位置关系,确定所述待解析项对应的解析值。
2.根据权利要求1所述的表格解析方法,其特征在于,将所述待解析文书进行文本编码处理,得到待解析文本,包括:
对所述待解析文书进行分段操作,得到多个具有先后顺序的段落,并按照段落的先后顺序,为每个所述段落设置索引号;其中,一个自然段落或一个表格段落作为一个段落;
将段落中的自然段落以及表格中的每一文本句子分别作为一个文本段落,得到中间文本;
分别对所述中间文本中的不同的预设位置添加相应的标签;其中,所述预设位置包括每一文本段落的开始位置和结束位置、拆分成多个文本段落的每一表征表格的开始位置和结束位置、表征拆分成多个文本段落的每一表格的每一行的开始位置和结束位置、表征拆分成多个文本段落的每一表格的每一列的开始位置和结束位置。
3.根据权利要求2所述的表格解析方法,其特征在于,生成与所述待解析文本对应的树型结构,包括:
将所述待解析文本作为根节点;
按照段落之间的先后顺序,将每一段落分别作为所述根节点的一个分段节点,并依据每个段落对应的索引号设置对应的分段节点的索引号;
将每一表格中的每一行作为相应表格对应的分段节点的行节点,并为每一行节点设置索引号;
将每一表格中的每一列作为相应行节点的列节点,并为每一列节点设置索引号;
将每一表格中的列文本作为相应列节点的文本节点。
4.根据权利要求3所述的表格解析方法,其特征在于,确定所述树型结构中待解析项和待解析项对应的解析值的相对位置关系,包括:
获取关键字组;所述关键字组包括多个预设关键字;
采用正则表达式规则,在所述树型结构中查找每一预设关键字所在的位置;
根据所述关键字组中的至少一个关键字确定待解析项;
确定所述待解析项所在的待解析表格;
若位于所述待解析表格中的多个预设关键字所在的文本节点对应的行节点相同,则所述文本相对位置关系为行关系;
若位于所述待解析表格中的多个预设关键字所在的文本节点对应的列节点相同,则所述文本相对位置关系为列关系。
5.根据权利要求4所述的表格解析方法,其特征在于,基于所述相对位置关系,确定所述待解析项对应的解析值,包括:
若所述相对位置关系为行关系,将所述树型结构中行节点的索引号、列节点的索引号加一后对应的文本节点的内容作为所述待解析项对应的解析值;
若所述相对位置关系为列关系,将所述树型结构中列节点的索引号、行节点的索引号加一后对应的文本节点的内容作为所述待解析项对应的解析值。
6.一种表格解析装置,其特征在于,包括:
文书获取模块,用于获取待解析文书;其中,所述待解析文书包括至少一个表格;
编码处理模块,用于将所述待解析文书进行文本编码处理,得到待解析文本;
结构生成模块,用于生成与所述待解析文本对应的树型结构;其中,所述树型结构表征所述待解析文本的文本结构;
关系确定模块,用于确定所述树型结构中待解析项和待解析项对应的解析值的相对位置关系;
解析模块,用于基于所述相对位置关系,确定所述待解析项对应的解析值。
7.根据权利要求6所述的表格解析装置,其特征在于,所述编码处理模块包括:
分段子模块,用于对所述待解析文书进行分段操作,得到多个具有先后顺序的段落,并按照段落的先后顺序,为每个所述段落设置索引号;其中,一个自然段落或一个表格段落作为一个段落;
段落确定子模块,用于将段落中的自然段落以及表格中的每一文本句子分别作为一个文本段落,得到中间文本;
标签添加子模块,用于分别对所述中间文本中的不同的预设位置添加相应的标签;其中,所述预设位置包括每一文本段落的开始位置和结束位置、拆分成多个文本段落的每一表征表格的开始位置和结束位置、表征拆分成多个文本段落的每一表格的每一行的开始位置和结束位置、表征拆分成多个文本段落的每一表格的每一列的开始位置和结束位置。
8.根据权利要求7所述的表格解析装置,其特征在于,所述结构生成模块包括:
第一节点确定子模块,用于将所述待解析文本作为根节点;
第二节点确定子模块,用于按照段落之间的先后顺序,将每一段落分别作为所述根节点的一个分段节点,并依据每个段落对应的索引号设置对应的分段节点的索引号;
第三节点确定子模块,用于将每一表格中的每一行作为相应表格对应的分段节点的行节点,并为每一行节点设置索引号;
第四节点确定子模块,用于将每一表格中的每一列作为相应行节点的列节点,并为每一列节点设置索引号;
第五节点确定子模块,用于将每一表格中的列文本作为相应列节点的文本节点。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行权利要求1至5中任意一项所述的表格解析方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至5中任意一项所述的表格解析方法。
CN201811162749.0A 2018-09-30 2018-09-30 一种表格解析方法及装置 Active CN110968990B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811162749.0A CN110968990B (zh) 2018-09-30 2018-09-30 一种表格解析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811162749.0A CN110968990B (zh) 2018-09-30 2018-09-30 一种表格解析方法及装置

Publications (2)

Publication Number Publication Date
CN110968990A true CN110968990A (zh) 2020-04-07
CN110968990B CN110968990B (zh) 2024-02-13

Family

ID=70029377

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811162749.0A Active CN110968990B (zh) 2018-09-30 2018-09-30 一种表格解析方法及装置

Country Status (1)

Country Link
CN (1) CN110968990B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115935947A (zh) * 2022-12-14 2023-04-07 企知道网络技术有限公司 一种配置式Word文档的解析方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104375980A (zh) * 2014-11-18 2015-02-25 小米科技有限责任公司 文本内容选择方法及装置
US20160078102A1 (en) * 2014-09-12 2016-03-17 Nuance Communications, Inc. Text indexing and passage retrieval
CN105528420A (zh) * 2015-12-07 2016-04-27 北京金山安全软件有限公司 文字编码和译码方法、装置及电子设备
CN107947918A (zh) * 2017-10-26 2018-04-20 青岛大学 一种基于字符特征的无载体文本隐写方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160078102A1 (en) * 2014-09-12 2016-03-17 Nuance Communications, Inc. Text indexing and passage retrieval
CN104375980A (zh) * 2014-11-18 2015-02-25 小米科技有限责任公司 文本内容选择方法及装置
CN105528420A (zh) * 2015-12-07 2016-04-27 北京金山安全软件有限公司 文字编码和译码方法、装置及电子设备
CN107947918A (zh) * 2017-10-26 2018-04-20 青岛大学 一种基于字符特征的无载体文本隐写方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115935947A (zh) * 2022-12-14 2023-04-07 企知道网络技术有限公司 一种配置式Word文档的解析方法及装置

Also Published As

Publication number Publication date
CN110968990B (zh) 2024-02-13

Similar Documents

Publication Publication Date Title
CN106649346B (zh) 数据重复性校验方法及装置
CN111885000B (zh) 一种基于图神经网络的网络攻击检测方法、系统及装置
CN109960815B (zh) 一种神经机器翻译nmt模型的创建方法及系统
CN109002443B (zh) 一种文本信息的分类方法及装置
EP2783310A1 (en) Image searching
CN111125086A (zh) 获取数据资源的方法、装置、存储介质及处理器
EP2862104A1 (en) Search method and apparatus
CN112016283A (zh) 表单生成方法及装置
CN112818126B (zh) 网络安全语料库构建模型的训练方法、应用方法及装置
CN111143551A (zh) 文本预处理方法、分类方法、装置及设备
CN109597982B (zh) 摘要文本识别方法及装置
CN108121712B (zh) 一种关键词存储方法及装置
CN110968990B (zh) 一种表格解析方法及装置
CN113505245A (zh) 知识图谱的生成方法、计算机可读存储介质及计算机设备
CN111124525A (zh) 一种网站功能实现方法和装置
CN108108379B (zh) 关键词拓词的方法及装置
CN117492670A (zh) 日志打印序列的确定方法、装置及电子设备
CN110347921B (zh) 一种多模态数据信息的标签抽取方法及装置
CN111125087B (zh) 数据的存储方法及装置
CN110019544B (zh) 数据查询方法及系统
CN115796146A (zh) 一种文件对比方法及装置
CN109710833B (zh) 用于确定内容节点的方法与设备
CN107544980B (zh) 一种查找网页的方法及装置
CN110019771B (zh) 文本处理的方法及装置
CN110019831B (zh) 一种产品属性的分析方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant