CN113642291A - 上市公司报告的逻辑结构树构建方法、系统、存储介质及终端 - Google Patents
上市公司报告的逻辑结构树构建方法、系统、存储介质及终端 Download PDFInfo
- Publication number
- CN113642291A CN113642291A CN202110915112.XA CN202110915112A CN113642291A CN 113642291 A CN113642291 A CN 113642291A CN 202110915112 A CN202110915112 A CN 202110915112A CN 113642291 A CN113642291 A CN 113642291A
- Authority
- CN
- China
- Prior art keywords
- column
- html
- structure tree
- document
- format
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
- G06F40/154—Tree transformation for tree-structured or markup documents, e.g. XSLT, XSL-FO or stylesheets
Abstract
本发明提供一种上市公司报告的逻辑结构树构建方法、系统、存储介质及终端,包括以下步骤:将上市公司报告转换为html格式文档;对所述html格式文档进行预处理,获取html层级结构文档;获取逻辑结构树的预设结构,在所述html层级结构文档中抽取所述预设结构的各级节点;基于所述各级节点,基于文本匹配的方式提取匹配内容以获取所述逻辑结构树。本发明的上市公司报告的逻辑结构树构建方法、系统、存储介质及终端基于上市公司报告的层级结构,提取特定节点信息来构建逻辑结构树,实现了上市公司报告信息的有效处理。
Description
技术领域
本发明涉及数据处理的技术领域,特别是涉及一种上市公司报告的逻辑结构树构建方法、系统、存储介质及终端。
背景技术
上市公司报告是上市公司的董事局定期向其股东或持份者发布的报告书,是关于其前一报告期内活动的综合报告。一般的季报、半年报或年报等(以下统称定报)内容必须按照其上市之交易所指定的规则进行编写。
定报通常以电子文档的形式在互联网上发布。文档内容通常具有固定的目录样式和层级结构。这种层级结构对于人和机器的理解都有很大的研究价值和应用价值。
然而,现有技术中对于定报电子文档层级结构的提取并没有高效且准确的方法,无法将文档内容精准且具有定制化地提取为树状层级结构。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种上市公司报告的逻辑结构树构建方法、系统、存储介质及终端,基于上市公司报告的层级结构,提取特定节点信息来构建逻辑结构树,实现了上市公司报告信息的有效处理。
为实现上述目的及其他相关目的,本发明提供一种上市公司报告的逻辑结构树构建方法,包括以下步骤:将上市公司报告转换为html格式文档;对所述html格式文档进行预处理,获取html层级结构文档;获取逻辑结构树的预设结构,在所述html层级结构文档中抽取所述预设结构的各级节点;基于所述各级节点,基于文本匹配的方式提取匹配内容以获取所述逻辑结构树。
于本发明一实施例中,将上市公司报告转换为html格式文档包括以下步骤:
获取PDF格式的上市公司报告;
将所述PDF格式的上市公司报告转换为html格式文档,所述html格式文档保留所述PDF格式的上市公司报告的所有文本内容及格式信息。
于本发明一实施例中,对所述html格式文档进行预处理,获取html层级结构文档包括以下步骤:
识别所述html格式文档的目录;
基于正则匹配算法删除所述html格式文档中的目录文本信息,获取html层级结构文档。
于本发明一实施例中,获取逻辑结构树的预设结构,在所述html层级结构文档中抽取所述预设结构的各级节点包括以下步骤:
识别所述html层级结构文档的层级结构;
基于所述层级结构,采用由上至下、先外层后内层的策略,递归查找所述预设结构的所有直属子节点;
当所有直属子节点全部查找完毕后,根据所述直属子节点的覆盖范围查找并抽取所有直属孙节点;
依次类推,直至覆盖范围内查找不到下一级节点。
于本发明一实施例中,基于所述各级节点,基于文本匹配的方式提取匹配内容以获取所述逻辑结构树包括以下步骤:
基于所述html格式文档的目录对所述逻辑结构树进行校验;
校验通过后,进行栏目查找;其中,在所述逻辑结构树的子树上匹配对应的栏目对象,所述栏目对象继承自子树对象,直至所述逻辑结构树的栏目查找完毕。
于本发明一实施例中,进行栏目查找时,包括对所述栏目中的表格进行识别;对所述栏目中的表格进行识别包括以下步骤:
抽取所述表格的表头并进行别名标准化;
将别名标准化后的表头按照首字母排序生成一个字符串;
将所述字符串转换为MD5值,基于所述MD5值进行表格识别。
于本发明一实施例中,进行栏目查找时,包括对所述栏目中的表格数据进行纵向校验;
进行纵向校验时,所有的列的披露项目直接加总,若全部列的总数都与合计平衡,则直接通过检验;只要有一列的总数与合计不平衡,则找父子项;若未找到父子项,则通过标准编码查找父子关系,所述标准编码是在行列表头标准化时赋值的;当所有列都满足子项加总与父项平衡时,只取子项参与统计,否则取父项参与统计;确定了父子项哪个需要参与之后,所有的列都满足参与计算的项目的加总值与合计项平衡时,整张表通过纵向校验。
于本发明一实施例中,进行栏目查找时,包括对所述栏目中的表格数据进行横向校验;
进行横向校验时,先将能够确定加减的项目做计算,其他做试算;如果项目试算有符号,用试算的符号判断是本期增加还是本期减少;如果试算无符号,则先用前六位判断本期增加还是本期减少,前六位无法判断时用自身是正数还是负数做判断。
于本发明一实施例中,进行栏目查找时,包括对所述栏目中的表格进行变形;对所述栏目中的表格进行变形包括以下步骤:
根据html标记查找表格;
在文件层面进行跨页表格的合并;
在文件层面进行表格变形;
抽取每个表格的位置、上下文、单位币种的信息;
生成表格对象,其中,在所述栏目下找到的表格分配该栏目ID,在所述栏目以外区块的表格分配默认栏目ID。
本发明提供一种上市公司报告的逻辑结构树构建系统,包括转换模块、预处理模块、抽取模块和提取模块;
所述转换模块用于将上市公司报告转换为html格式文档;
所述预处理模块用于对所述html格式文档进行预处理,获取html层级结构文档;
所述抽取模块用于获取逻辑结构树的预设结构,在所述html层级结构文档中抽取所述预设结构的各级节点;
所述提取模块用于基于所述各级节点,基于文本匹配的方式提取匹配内容以获取所述逻辑结构树。
于本发明一实施例中,所述转换模块将上市公司报告转换为html格式文档包括以下步骤:
获取PDF格式的上市公司报告;
将所述PDF格式的上市公司报告转换为html格式文档,所述html格式文档保留所述PDF格式的上市公司报告的所有文本内容及格式信息。
于本发明一实施例中,所述预处理模块对所述html格式文档进行预处理,获取html层级结构文档包括以下步骤:
识别所述html格式文档的目录;
基于正则匹配算法删除所述html格式文档中的目录文本信息,获取html层级结构文档。
于本发明一实施例中,所述抽取模块获取逻辑结构树的预设结构,在所述html层级结构文档中抽取所述预设结构的各级节点包括以下步骤:
识别所述html层级结构文档的层级结构;
基于所述层级结构,采用由上至下、先外层后内层的策略,递归查找所述预设结构的所有直属子节点;
当所有直属子节点全部查找完毕后,根据所述直属子节点的覆盖范围查找并抽取所有直属孙节点;
依次类推,直至覆盖范围内查找不到下一级节点。
于本发明一实施例中,所述提取模块基于所述各级节点,基于文本匹配的方式提取匹配内容以获取所述逻辑结构树包括以下步骤:
基于所述html格式文档的目录对所述逻辑结构树进行校验;
校验通过后,进行栏目查找;其中,在所述逻辑结构树的子树上匹配对应的栏目对象,所述栏目对象继承自子树对象,直至所述逻辑结构树的栏目查找完毕。
于本发明一实施例中,进行栏目查找时,包括对所述栏目中的表格进行识别;对所述栏目中的表格进行识别包括以下步骤:
抽取所述表格的表头并进行别名标准化;
将别名标准化后的表头按照首字母排序生成一个字符串;
将所述字符串转换为MD5值,基于所述MD5值进行表格识别。
于本发明一实施例中,进行栏目查找时,包括对所述栏目中的表格数据进行纵向校验;
进行纵向校验时,所有的列的披露项目直接加总,若全部列的总数都与合计平衡,则直接通过检验;只要有一列的总数与合计不平衡,则找父子项;若未找到父子项,则通过标准编码查找父子关系,所述标准编码是在行列表头标准化时赋值的;当所有列都满足子项加总与父项平衡时,只取子项参与统计,否则取父项参与统计;确定了父子项哪个需要参与之后,所有的列都满足参与计算的项目的加总值与合计项平衡时,整张表通过纵向校验。
于本发明一实施例中,进行栏目查找时,包括对所述栏目中的表格数据进行横向校验;
进行横向校验时,先将能够确定加减的项目做计算,其他做试算;如果项目试算有符号,用试算的符号判断是本期增加还是本期减少;如果试算无符号,则先用前六位判断本期增加还是本期减少,前六位无法判断时用自身是正数还是负数做判断。
于本发明一实施例中,进行栏目查找时,包括对所述栏目中的表格进行变形;对所述栏目中的表格进行变形包括以下步骤:
根据html标记查找表格;
在文件层面进行跨页表格的合并;
在文件层面进行表格变形;
抽取每个表格的位置、上下文、单位币种的信息;
生成表格对象,其中,在所述栏目下找到的表格分配该栏目ID,在所述栏目以外区块的表格分配默认栏目ID。
本发明提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的上市公司报告的逻辑结构树构建方法。
本发明提供一种上市公司报告的逻辑结构树构建终端,包括:处理器及存储器;
所述存储器用于存储计算机程序;
所述处理器用于执行所述存储器存储的计算机程序,以使所述上市公司报告的逻辑结构树构建终端执行上述的上市公司报告的逻辑结构树构建方法。
如上所述,本发明的上市公司报告的逻辑结构树构建方法、系统、存储介质及终端,具有以下有益效果:
(1)基于上市公司报告的层级结构,提取特定节点信息来构建逻辑结构树;
(2)能够利用自动校验的方式进行信息校验,有效提高了上市公司报告的核对效率;
(3)能够减少业务人员手动规范化上市公司报告的时间,提高标准化上市公司报告结构化的效率;
(4)有助于上市公司报告的信息获取和处理,极具实用性。
附图说明
图1显示为本发明的上市公司报告的逻辑结构树构建方法于一实施例中的流程图;
图2显示为本发明的逻辑结构树的节点抽取于一实施例中的流程图;
图3显示为本发明的表格抽取于一实施例中的流程图;
图4显示为本发明的上市公司报告的逻辑结构树构建系统于一实施例中的结构示意图;
图5显示为本发明的上市公司报告的逻辑结构树构建终端于一实施例中的结构示意图。
元件标号说明
41 转换模块
42 预处理模块
43 抽取模块
44 提取模块
51 处理单元
52 存储器
521 随机存取存储器
522 高速缓存存储器
523 存储系统
524 程序/实用工具
5241 程序模块
53 总线
54 I/O接口
55 网络适配器
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。
需要说明的是,本实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
本发明的上市公司报告的逻辑结构树构建方法、系统、存储介质及终端通过对上市公司报告的层级结构进行分析,依据预设的逻辑结构树的层级架构提取特定节点信息,从而实现了来逻辑结构树的构建,有助于上市公司报告信息的有效处理和应用,极具实用性。
如图1所示,于一实施例中,本发明的上市公司报告的逻辑结构树构建方法包括以下步骤:
步骤S1、将上市公司报告转换为html格式文档。
具体地,首先需要将上市公司报告转换为可识别信息,以便于后续的信息提取。
于本发明一实施例中,将上市公司报告转换为html格式文档包括以下步骤:
11)获取PDF格式的上市公司报告。
其中,上市公司报告通常为PDF格式。所述PDF格式可以将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中,还可以包含超文本链接、声音和动态影像等电子信息,支持特长文件,集成度和安全可靠性都较高,满足上市公司报告的应用需求。
12)将所述PDF格式的上市公司报告转换为html格式文档,所述html格式文档保留所述PDF格式的上市公司报告的所有文本内容及格式信息。
具体地,基于PDF转换功能将所述PDF格式的上市公司报告转换为超文本标记语言(hyper text markup language,html)格式文档。html是一种标记语言,包括一系列标签.通过这些标签可以将文档格式统一,其通过超级链接方法将文本中的文字、图表与其他信息媒体相关联。这种组织信息方式将分布在不同位置的信息资源用随机方式进行连接,为查找、检索信息提供方便。在本发明中,所述html格式文档保留所述PDF格式的上市公司报告的所有文本内容及格式信息,从而便于后续的信息处理。
步骤S2、对所述html格式文档进行预处理,获取html层级结构文档。
具体地,为了便于上市公司报告中的层级结构信息的提取,需要首先剔除其中的目录信息。故于本发明一实施例中,对所述html格式文档进行预处理,获取html层级结构文档包括以下步骤:
21)识别所述html格式文档的目录。
其中,分析所述html格式文档,识别其中的目录内容。
22)基于正则匹配算法删除所述html格式文档中的目录文本信息,获取html层级结构文档。
具体地,采用正则匹配算法将所述html格式文档中的目录文本信息删除,从而得到仅包含层级结构的html层级结构文档。其中,各个层级均通过标记的形式进行记录。
步骤S3、获取逻辑结构树的预设结构,在所述html层级结构文档中抽取所述预设结构的各级节点。
具体地,针对不同的需求,预先设置有所需的上市公司报告的逻辑结构树的预设结构。不同的公告类型、不同的企业类型具有不同的预设结构。其中,所述预设结构的设定基于各类公告的历史披露情况及公开的信息披露标准。设定某个公告类型的预设结构前,需先解析此类公告的历史原始标题(从一级至最小层级),根据文本聚类并结合专家意见、公开披露指引从一级标题开始设定,再基于标准的一级标题设定下属的二级标题,以此循环,直至最小层级设定完成。为保证所述预设结构设定的合理性和有效性,使用覆盖率及复用率(来评价。其中,抽取所述预设结构的各级节点的详细流程如图2所示。
根据所述预设结构,根据所述html层级结构文档的标记,在所述html层级结构文件中查找匹配的各级节点。
于本发明一实施例中,获取逻辑结构树的预设结构,在所述html层级结构文档中抽取所述预设结构的各级节点包括以下步骤:
31)识别所述html层级结构文档的层级结构。
具体地,根据所述html层级结构文档的标记信息,识别其对应的层级结构。其中,层级结构有多种形式。
形式一
第一节
一、
(一)
1、
(1)
1)
形式二
第一节
一、
1、
(1)
32)基于所述层级结构,采用由上至下、先外层后内层的策略,递归查找所述预设结构的所有直属子节点。
具体地,根据所述预设结构,由上至下、由外之内的方式查找直属子节点。
33)当所有直属子节点全部查找完毕后,根据所述直属子节点的覆盖范围查找并抽取所有直属孙节点。
具体地,采用递进的方式,在每个直属子节点的覆盖范围内查找下一级节点,即直属孙节点。
34)依次类推,直至覆盖范围内查找不到下一级节点。
具体地,逐层递进,在最新查找到的节点的覆盖范围内查找不到下一级节点时,表明所述逻辑结构树的节点抽取完毕。
步骤S4、基于所述各级节点,基于文本匹配的方式提取匹配内容以获取所述逻辑结构树。
具体地,当所述逻辑结构树的各级节点抽取完毕后,需要提取各级节点对应的文本内容,以构建所述逻辑结构树。
于本发明一实施例中,基于所述各级节点,基于文本匹配的方式提取匹配内容以获取所述逻辑结构树包括以下步骤:
41)基于所述html格式文档的目录对所述逻辑结构树进行校验。
具体地,首先需要依据所述html格式文档的目录对所述逻辑结构树的节点进行校验。其中,目录中的标题要按照一级树的别名做标准化,要求标准化的一级树存在于标准化的目录中。
42)校验通过后,进行栏目查找;其中,在所述逻辑结构树的子树上匹配对应的栏目对象,所述栏目对象继承自子树对象,直至所述逻辑结构树的栏目查找完毕。
具体地,校验通过,则进行栏目查找;校验失败,则流程结束,逻辑结构树构建失败。其中,所述栏目是指解析目标的范围区块。一个栏目有一个或多个子栏目。在进行栏目查找时,在所述逻辑结构树的子树上匹配对应的栏目对象。所述栏目对象继承自子树对象,其自有的属性包括栏目的起始截止位置、单位、币种等。指定特定栏目后,可提取栏目下的表格、文本和图片等信息。
在栏目查找完毕之后,需在栏目中间查找表格。每个表格生成表格对象,表格对象继承自栏目对象,唯一标识是表格流水号,表格对象自身属性包括表格上下文文字、表格上方文字中的单位、币种、dom对象等。
于本发明一实施例中,表格处理包括以下几种方式:
(1)表格变形
如图3所示,在进行表格变形时,在文件层面对表格进行变形包括对表格进行合并单元格、拆分单元格处理,表头信息合并,表格跨页合并,拼接表格拆分等。对于栏目区块和指标下排除已识别栏目以外的区块,根据html标记查找表格,在文件层面进行跨页表格的合并,在文件层面进行表格变形,抽取每个表格的位置、上下文、单位币种等信息,最后生成表格对象,栏目下找到的表格分配该栏目ID,栏目以外区块的表格分配默认栏目ID。其中,进行合并判定的依据包括;(1)相邻表格之间的文字只有页码;(2)相邻表格的列向数量相同。
(2)表格标准化
在进行表格标准化时,对表格元素列项信息、项目信息进行初步标准化,主要包括将日期(YYYY/MM/DD,YYYY年MM月DD日等)标准化、前后缀清洗(注、注释等)、单位标准化(千元、千元人民币、千等),以及其他一些特定说法的标准化,初步转换功能是为实现表头的标准化和隐藏在表格中字段属性信息的抽取。
(3)表格对象抽取
为了方便转换,将表格的dom对象转化为内存中的二维数组InnerTableItem,便于之后的标准化和数据抽取。InnerTableItem是单元格对象。InnerTableItem其各个属性含义如下:
表1、InnerTableItem的属性含义
(4)表格识别
解析表格不仅仅需要做到抽取表格中的各个元素,还需要对表格中的元素进行标准化(例如对项目标准化、表头标准化等),表格标准化前需要对表格进行识别(不同的目标表格会调用不同的标准配置)。
本发明中的表格识别主要使用的是指纹识别法,将表格的表头抽取并进行别名标准化,将标准化后的表头元素按照首字母排序生成一个字符串,再转为MD5值,这便是表格的指纹。根据表格指纹识别表格类型,采取不同的表格标准化策略。
(5)表格分级列项标准化
如果列项参数有多级,则每一级单独标准化,其中列项标准化引用自行设定的标准参数。
1)标准参数设定
具体地,抽取上市公司实际披露参数名称、参数对应数值等信息;基于上市公司实际披露情况,结合文本聚类、专家建议,创建标准参数;基于数值试算模型、文本相似度,管理标准参数的别名;基于统计模型,从覆盖率及复用率维度评价标准参数可用性,为进一步维护给出指引。
2)公告表格参数标准化
具体地,基于设定好的标准参数的别名及参数父子层级关系,结合参数实际披露数值进行参数标准化。
(6)表格数据自动校验和数据自动补充及修正
具体地,基于数据纵向层级试算和横向公式试算,校验公告数据表披露准确性、程序标准化准确性。
具体地,纵向校验逻辑如下:
(a)所有的列的披露项目直接加总,若全部列的总数都与合计平衡,则直接通过检验;
(b)只要有一列的总数与合计不平衡,则先通过“其中”标识找父子项;
(c)如果通过上述方法没有找到父子项,则通过标准编码查找其中的父子关系,标准编码是在前面行列表头标准化时赋值的。将存在父子关系的项目存储为树结构,遍历所有的一级项目树,如果项目没有子节点,则直接打上参与计算的标志,如果当前项目有子节点,则所有的列父子项都平衡则子节点参与计算,否则父节点参与计算,如果一级项目树的层数大于2级则要从最深的子树开始做剪枝。
(d)当所有列都满足子项加总与父项平衡时,只取子项参与统计,否则取父项参与统计。
(e)确定了父子项哪个需要参与之后,所有的列都满足参与计算的项目的加总值与合计项平衡时,整张表通过纵向校验。
需要说明的是,如果有未知项目,未知项目做试算,即判断未知项目与其他项目加、减或不参与计算,项目加总值是否与合计值平衡。如果经过试算能够平衡,则当前列平衡。如果有未知项目,先看当前列的未知项目的值是否为空;如果为空且当前项目的是否计算标签为空,则不参与计算,否则列入试算列表中。如果试算能够平衡,则当前列平衡,否则不平衡。
横向校验逻辑如下:先将能够确定加减的项目做计算,得出一个值,其他做试算;如果项目试算有符号,用试算的符号判断是放到本期增加还是本期减少;如果试算无符号,则先用前六位判断增加还是减少,前六位无法判断时用自身是正数还是负数做判断。特别地,当横向上除了此四项还有其他项目时,其他项目做试算。
同时,基于设定公式对未知或缺失数据进行自动补充及修正。
如图4所示,于一实施例中,本发明的上市公司报告的逻辑结构树构建系统包括转换模块41、预处理模块42、抽取模块43和提取模块44。
所述转换模块41用于将上市公司报告转换为html格式文档;
具体地,首先需要将上市公司报告转换为可识别信息,以便于后续的信息提取。
于本发明一实施例中,将上市公司报告转换为html格式文档包括以下步骤:
11)获取PDF格式的上市公司报告。
其中,上市公司报告通常为PDF格式。所述PDF格式可以将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中,还可以包含超文本链接、声音和动态影像等电子信息,支持特长文件,集成度和安全可靠性都较高,满足上市公司报告的应用需求。
12)将所述PDF格式的上市公司报告转换为html格式文档,所述html格式文档保留所述PDF格式的上市公司报告的所有文本内容及格式信息。
具体地,基于PDF转换功能将所述PDF格式的上市公司报告转换为超文本标记语言(hyper text markup language,html)格式文档。html是一种标记语言,包括一系列标签.通过这些标签可以将文档格式统一,其通过超级链接方法将文本中的文字、图表与其他信息媒体相关联。这种组织信息方式将分布在不同位置的信息资源用随机方式进行连接,为查找、检索信息提供方便。在本发明中,所述html格式文档保留所述PDF格式的上市公司报告的所有文本内容及格式信息,从而便于后续的信息处理。
所述预处理模块42与所述转换模块41相连,用于对所述html格式文档进行预处理,获取html层级结构文档。
具体地,为了便于上市公司报告中的层级结构信息的提取,需要首先剔除其中的目录信息。故于本发明一实施例中,对所述html格式文档进行预处理,获取html层级结构文档包括以下步骤:
21)识别所述html格式文档的目录。
其中,分析所述html格式文档,识别其中的目录内容。
22)基于正则匹配算法删除所述html格式文档中的目录文本信息,获取html层级结构文档。
具体地,采用正则匹配算法将所述html格式文档中的目录文本信息删除,从而得到仅包含层级结构的html层级结构文档。其中,各个层级均通过标记的形式进行记录。
所述抽取模块43与所述预处理模块42相连,用于获取逻辑结构树的预设结构,在所述html层级结构文档中抽取所述预设结构的各级节点。
具体地,针对不同的需求,预先设置有所需的上市公司报告的逻辑结构树的预设结构。不同的公告类型、不同的企业类型具有不同的预设结构。其中,所述预设结构的设定基于各类公告的历史披露情况及公开的信息披露标准。设定某个公告类型的预设结构前,需先解析此类公告的历史原始标题(从一级至最小层级),根据文本聚类并结合专家意见、公开披露指引从一级标题开始设定,再基于标准的一级标题设定下属的二级标题,以此循环,直至最小层级设定完成。为保证所述预设结构设定的合理性和有效性,使用覆盖率及复用率(来评价。其中,抽取所述预设结构的各级节点的详细流程如图2所示。
根据所述预设结构,根据所述html层级结构文档的标记,在所述html层级结构文件中查找匹配的各级节点。
于本发明一实施例中,获取逻辑结构树的预设结构,在所述html层级结构文档中抽取所述预设结构的各级节点包括以下步骤:
31)识别所述html层级结构文档的层级结构。
具体地,根据所述html层级结构文档的标记信息,识别其对应的层级结构。其中,层级结构有多种形式。
形式一
第一节
一、
(一)
1、
(1)
1)
形式二
第一节
一、
1、
(1)
32)基于所述层级结构,采用由上至下、先外层后内层的策略,递归查找所述预设结构的所有直属子节点。
具体地,根据所述预设结构,由上至下、由外之内的方式查找直属子节点。
33)当所有直属子节点全部查找完毕后,根据所述直属子节点的覆盖范围查找并抽取所有直属孙节点。
具体地,采用递进的方式,在每个直属子节点的覆盖范围内查找下一级节点,即直属孙节点。
34)依次类推,直至覆盖范围内查找不到下一级节点。
具体地,逐层递进,在最新查找到的节点的覆盖范围内查找不到下一级节点时,表明所述逻辑结构树的节点抽取完毕。
所述提取模块44与所述转换模块41和所述抽取模块42相连,用于基于所述各级节点,基于文本匹配的方式提取匹配内容以获取所述逻辑结构树。
具体地,当所述逻辑结构树的各级节点抽取完毕后,需要提取各级节点对应的文本内容,以构建所述逻辑结构树。
于本发明一实施例中,基于所述各级节点,基于文本匹配的方式提取匹配内容以获取所述逻辑结构树包括以下步骤:
41)基于所述html格式文档的目录对所述逻辑结构树进行校验。
具体地,首先需要依据所述html格式文档的目录对所述逻辑结构树的节点进行校验。其中,目录中的标题要按照一级树的别名做标准化,要求标准化的一级树存在于标准化的目录中。
42)校验通过后,进行栏目查找;其中,在所述逻辑结构树的子树上匹配对应的栏目对象,所述栏目对象继承自子树对象,直至所述逻辑结构树的栏目查找完毕。
具体地,校验通过,则进行栏目查找;校验失败,则流程结束,逻辑结构树构建失败。其中,所述栏目是指解析目标的范围区块。一个栏目有一个或多个子栏目。在进行栏目查找时,在所述逻辑结构树的子树上匹配对应的栏目对象。所述栏目对象继承自子树对象,其自有的属性包括栏目的起始截止位置、单位、币种等。指定特定栏目后,可提取栏目下的表格、文本和图片等信息。
在栏目查找完毕之后,需在栏目中间查找表格。每个表格生成表格对象,表格对象继承自栏目对象,唯一标识是表格流水号,表格对象自身属性包括表格上下文文字、表格上方文字中的单位、币种、dom对象等。
于本发明一实施例中,表格处理包括以下几种方式:
(1)表格变形
如图3所示,在进行表格变形时,在文件层面对表格进行变形包括对表格进行合并单元格、拆分单元格处理,表头信息合并,表格跨页合并,拼接表格拆分等。对于栏目区块和指标下排除已识别栏目以外的区块,根据html标记查找表格,在文件层面进行跨页表格的合并,在文件层面进行表格变形,抽取每个表格的位置、上下文、单位币种等信息,最后生成表格对象,栏目下找到的表格分配该栏目ID,栏目以外区块的表格分配默认栏目ID。其中,进行合并判定的依据包括;(1)相邻表格之间的文字只有页码;(2)相邻表格的列向数量相同。
(2)表格标准化
在进行表格标准化时,对表格元素列项信息、项目信息进行初步标准化,主要包括将日期(YYYY/MM/DD,YYYY年MM月DD日等)标准化、前后缀清洗(注、注释等)、单位标准化(千元、千元人民币、千等),以及其他一些特定说法的标准化,初步转换功能是为实现表头的标准化和隐藏在表格中字段属性信息的抽取。
(3)表格对象抽取
为了方便转换,将表格的dom对象转化为内存中的二维数组InnerTableItem,便于之后的标准化和数据抽取。InnerTableItem是单元格对象。
(4)表格识别
解析表格不仅仅需要做到抽取表格中的各个元素,还需要对表格中的元素进行标准化(例如对项目标准化、表头标准化等),表格标准化前需要对表格进行识别(不同的目标表格会调用不同的标准配置)。
本发明中的表格识别主要使用的是指纹识别法,将表格的表头抽取并进行别名标准化,将标准化后的表头元素按照首字母排序生成一个字符串,再转为MD5值,这便是表格的指纹。根据表格指纹识别表格类型,采取不同的表格标准化策略。
(5)表格分级列项标准化
如果列项参数有多级,则每一级单独标准化,其中列项标准化引用自行设定的标准参数。
1)标准参数设定
具体地,抽取上市公司实际披露参数名称、参数对应数值等信息;基于上市公司实际披露情况,结合文本聚类、专家建议,创建标准参数;基于数值试算模型、文本相似度,管理标准参数的别名;基于统计模型,从覆盖率及复用率维度评价标准参数可用性,为进一步维护给出指引。
2)公告表格参数标准化
具体地,基于设定好的标准参数的别名及参数父子层级关系,结合参数实际披露数值进行参数标准化。
(6)表格数据自动校验和数据自动补充及修正
具体地,基于数据纵向层级试算和横向公式试算,校验公告数据表披露准确性、程序标准化准确性。
具体地,纵向校验逻辑如下:
(a)所有的列的披露项目直接加总,若全部列的总数都与合计平衡,则直接通过检验;
(b)只要有一列的总数与合计不平衡,则先通过“其中”标识找父子项;
(c)如果通过上述方法没有找到父子项,则通过标准编码查找其中的父子关系,标准编码是在前面行列表头标准化时赋值的。将存在父子关系的项目存储为树结构,遍历所有的一级项目树,如果项目没有子节点,则直接打上参与计算的标志,如果当前项目有子节点,则所有的列父子项都平衡则子节点参与计算,否则父节点参与计算,如果一级项目树的层数大于2级则要从最深的子树开始做剪枝。
(d)当所有列都满足子项加总与父项平衡时,只取子项参与统计,否则取父项参与统计。
(e)确定了父子项哪个需要参与之后,所有的列都满足参与计算的项目的加总值与合计项平衡时,整张表通过纵向校验。
需要说明的是,如果有未知项目,未知项目做试算,即判断未知项目与其他项目加、减或不参与计算,项目加总值是否与合计值平衡。如果经过试算能够平衡,则当前列平衡。如果有未知项目,先看当前列的未知项目的值是否为空;如果为空且当前项目的是否计算标签为空,则不参与计算,否则列入试算列表中。如果试算能够平衡,则当前列平衡,否则不平衡。
横向校验逻辑如下:先将能够确定加减的项目做计算,得出一个值,其他做试算;如果项目试算有符号,用试算的符号判断是放到本期增加还是本期减少;如果试算无符号,则先用前六位判断增加还是减少,前六位无法判断时用自身是正数还是负数做判断。特别地,当横向上除了此四项还有其他项目时,其他项目做试算。
同时,基于设定公式对未知或缺失数据进行自动补充及修正。
需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,x模块可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上x模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(Digital Singnal Processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
本发明的存储介质上存储有计算机程序,该程序被处理器执行时实现上述的上市公司报告的逻辑结构树构建方法。所述存储介质包括:ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。
可以采用一个或多个存储介质的任意组合。存储介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机盘、硬盘、RAM、ROM、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
下面将参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些计算机程序指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。
也可以把这些计算机程序指令存储在计算机可读介质中,这些指令使得计算机、其它可编程数据处理装置、或其他设备以特定方式工作,从而,存储在计算机可读介质中的指令就产生出包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的指令的制造品(article of manufacture)。
也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其它可编程装置上执行的指令提供实现流程图和/或框图中的一个或多个方框中规定的功能/动作的过程。
可以采用一个或多个存储介质的任意组合。存储介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机盘、硬盘、RAM、ROM、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
下面将参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些计算机程序指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。
也可以把这些计算机程序指令存储在计算机可读介质中,这些指令使得计算机、其它可编程数据处理装置、或其他设备以特定方式工作,从而,存储在计算机可读介质中的指令就产生出包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的指令的制造品(article of manufacture)。
也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其它可编程装置上执行的指令提供实现流程图和/或框图中的一个或多个方框中规定的功能/动作的过程。
于一实施例中,本发明的上市公司报告的逻辑结构树构建终端包括:处理器及存储器。
所述存储器用于存储计算机程序。
所述存储器包括:ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。
所述处理器与所述存储器相连,用于执行所述存储器存储的计算机程序,以使所述上市公司报告的逻辑结构树构建终端执行上述的出行方式提醒方法。
优选地,所述处理器可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
如图5所示,本发明的上市公司报告的逻辑结构树构建终端以通用计算设备的形式表现。上市公司报告的逻辑结构树构建终端的组件可以包括但不限于:一个或者多个处理器或者处理单元51,存储器52,连接不同系统组件(包括存储器52和处理单元51)的总线53。
总线53表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
上市公司报告的逻辑结构树构建终端典型地包括多种计算机系统可读介质。这些介质可以是任何能够被上市公司报告的逻辑结构树构建终端访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器52可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)521和/或高速缓存存储器522。上市公司报告的逻辑结构树构建终端可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统523可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线53相连。存储器52可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块5241的程序/实用工具524,可以存储在例如存储器52中,这样的程序模块5241包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块5241通常执行本发明所描述的实施例中的功能和/或方法。
上市公司报告的逻辑结构树构建终端也可以与一个或多个外部设备(例如键盘、指向设备、显示器等)通信,还可与一个或者多个使得用户能与该上市公司报告的逻辑结构树构建终端交互的设备通信,和/或与使得该上市公司报告的逻辑结构树构建终端能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口54进行。并且,终端4还可以通过网络适配器55与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图5所示,网络适配器55通过总线53与上市公司报告的逻辑结构树构建终端的其它模块通信。应当明白,尽管图中未示出,可以结合上市公司报告的逻辑结构树构建终端使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
综上所述,本发明的上市公司报告的逻辑结构树构建方法、系统、存储介质及终端基于上市公司报告的层级结构,提取特定节点信息来构建逻辑结构树;能够利用自动校验的方式进行信息校验,有效提高了上市公司报告的核对效率;能够减少业务人员手动规范化上市公司报告的时间,提高标准化上市公司报告结构化的效率;有助于上市公司报告的信息获取和处理,极具实用性。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (20)
1.一种上市公司报告的逻辑结构树构建方法,其特征在于:包括以下步骤:
将上市公司报告转换为html格式文档;
对所述html格式文档进行预处理,获取html层级结构文档;
获取逻辑结构树的预设结构,在所述html层级结构文档中抽取所述预设结构的各级节点;
基于所述各级节点,基于文本匹配的方式提取匹配内容以获取所述逻辑结构树。
2.根据权利要求1所述的上市公司报告的逻辑结构树构建方法,其特征在于:将上市公司报告转换为html格式文档包括以下步骤:
获取PDF格式的上市公司报告;
将所述PDF格式的上市公司报告转换为html格式文档,所述html格式文档保留所述PDF格式的上市公司报告的所有文本内容及格式信息。
3.根据权利要求1所述的上市公司报告的逻辑结构树构建方法,其特征在于:对所述html格式文档进行预处理,获取html层级结构文档包括以下步骤:
识别所述html格式文档的目录;
基于正则匹配算法删除所述html格式文档中的目录文本信息,获取html层级结构文档。
4.根据权利要求1所述的上市公司报告的逻辑结构树构建方法,其特征在于:获取逻辑结构树的预设结构,在所述html层级结构文档中抽取所述预设结构的各级节点包括以下步骤:
识别所述html层级结构文档的层级结构;
基于所述层级结构,采用由上至下、先外层后内层的策略,递归查找所述预设结构的所有直属子节点;
当所有直属子节点全部查找完毕后,根据所述直属子节点的覆盖范围查找并抽取所有直属孙节点;
依次类推,直至覆盖范围内查找不到下一级节点。
5.根据权利要求1所述的上市公司报告的逻辑结构树构建方法,其特征在于:基于所述各级节点,基于文本匹配的方式提取匹配内容以获取所述逻辑结构树包括以下步骤:
基于所述html格式文档的目录对所述逻辑结构树进行校验;
校验通过后,进行栏目查找;其中,在所述逻辑结构树的子树上匹配对应的栏目对象,所述栏目对象继承自子树对象,直至所述逻辑结构树的栏目查找完毕。
6.根据权利要求5所述的上市公司报告的逻辑结构树构建方法,其特征在于:进行栏目查找时,包括对所述栏目中的表格进行识别;对所述栏目中的表格进行识别包括以下步骤:
抽取所述表格的表头并进行别名标准化;
将别名标准化后的表头按照首字母排序生成一个字符串;
将所述字符串转换为MD5值,基于所述MD5值进行表格识别。
7.根据权利要求5所述的上市公司报告的逻辑结构树构建方法,其特征在于:进行栏目查找时,包括对所述栏目中的表格数据进行纵向校验;
进行纵向校验时,所有的列的披露项目直接加总,若全部列的总数都与合计平衡,则直接通过检验;只要有一列的总数与合计不平衡,则找父子项;若未找到父子项,则通过标准编码查找父子关系,所述标准编码是在行列表头标准化时赋值的;当所有列都满足子项加总与父项平衡时,只取子项参与统计,否则取父项参与统计;确定了父子项哪个需要参与之后,所有的列都满足参与计算的项目的加总值与合计项平衡时,整张表通过纵向校验。
8.根据权利要求5所述的上市公司报告的逻辑结构树构建方法,其特征在于:进行栏目查找时,包括对所述栏目中的表格数据进行横向校验;
进行横向校验时,先将能够确定加减的项目做计算,其他做试算;如果项目试算有符号,用试算的符号判断是本期增加还是本期减少;如果试算无符号,则先用前六位判断本期增加还是本期减少,前六位无法判断时用自身是正数还是负数做判断。
9.根据权利要求5所述的上市公司报告的逻辑结构树构建方法,其特征在于:进行栏目查找时,包括对所述栏目中的表格进行变形;对所述栏目中的表格进行变形包括以下步骤:
根据html标记查找表格;
在文件层面进行跨页表格的合并;
在文件层面进行表格变形;
抽取每个表格的位置、上下文、单位币种的信息;
生成表格对象,其中,在所述栏目下找到的表格分配该栏目ID,在所述栏目以外区块的表格分配默认栏目ID。
10.一种上市公司报告的逻辑结构树构建系统,其特征在于:包括转换模块、预处理模块、抽取模块和提取模块;
所述转换模块用于将上市公司报告转换为html格式文档;
所述预处理模块用于对所述html格式文档进行预处理,获取html层级结构文档;
所述抽取模块用于获取逻辑结构树的预设结构,在所述html层级结构文档中抽取所述预设结构的各级节点;
所述提取模块用于基于所述各级节点,基于文本匹配的方式提取匹配内容以获取所述逻辑结构树。
11.根据权利要求10所述的上市公司报告的逻辑结构树构建系统,其特征在于:所述转换模块将上市公司报告转换为html格式文档包括以下步骤:
获取PDF格式的上市公司报告;
将所述PDF格式的上市公司报告转换为html格式文档,所述html格式文档保留所述PDF格式的上市公司报告的所有文本内容及格式信息。
12.根据权利要求10所述的上市公司报告的逻辑结构树构建系统,其特征在于:所述预处理模块对所述html格式文档进行预处理,获取html层级结构文档包括以下步骤:
识别所述html格式文档的目录;
基于正则匹配算法删除所述html格式文档中的目录文本信息,获取html层级结构文档。
13.根据权利要求10所述的上市公司报告的逻辑结构树构建系统,其特征在于:所述抽取模块获取逻辑结构树的预设结构,在所述html层级结构文档中抽取所述预设结构的各级节点包括以下步骤:
识别所述html层级结构文档的层级结构;
基于所述层级结构,采用由上至下、先外层后内层的策略,递归查找所述预设结构的所有直属子节点;
当所有直属子节点全部查找完毕后,根据所述直属子节点的覆盖范围查找并抽取所有直属孙节点;
依次类推,直至覆盖范围内查找不到下一级节点。
14.根据权利要求10所述的上市公司报告的逻辑结构树构建系统,其特征在于:所述提取模块基于所述各级节点,基于文本匹配的方式提取匹配内容以获取所述逻辑结构树包括以下步骤:
基于所述html格式文档的目录对所述逻辑结构树进行校验;
校验通过后,进行栏目查找;其中,在所述逻辑结构树的子树上匹配对应的栏目对象,所述栏目对象继承自子树对象,直至所述逻辑结构树的栏目查找完毕。
15.根据权利要求14所述的上市公司报告的逻辑结构树构建系统,其特征在于:进行栏目查找时,包括对所述栏目中的表格进行识别;对所述栏目中的表格进行识别包括以下步骤:
抽取所述表格的表头并进行别名标准化;
将别名标准化后的表头按照首字母排序生成一个字符串;
将所述字符串转换为MD5值,基于所述MD5值进行表格识别。
16.根据权利要求14所述的上市公司报告的逻辑结构树构建系统,其特征在于:进行栏目查找时,包括对所述栏目中的表格数据进行纵向校验;
进行纵向校验时,所有的列的披露项目直接加总,若全部列的总数都与合计平衡,则直接通过检验;只要有一列的总数与合计不平衡,则找父子项;若未找到父子项,则通过标准编码查找父子关系,所述标准编码是在行列表头标准化时赋值的;当所有列都满足子项加总与父项平衡时,只取子项参与统计,否则取父项参与统计;确定了父子项哪个需要参与之后,所有的列都满足参与计算的项目的加总值与合计项平衡时,整张表通过纵向校验。
17.根据权利要求14所述的上市公司报告的逻辑结构树构建系统,其特征在于:进行栏目查找时,包括对所述栏目中的表格数据进行横向校验;
进行横向校验时,先将能够确定加减的项目做计算,其他做试算;如果项目试算有符号,用试算的符号判断是本期增加还是本期减少;如果试算无符号,则先用前六位判断本期增加还是本期减少,前六位无法判断时用自身是正数还是负数做判断。
18.根据权利要求14所述的上市公司报告的逻辑结构树构建系统,其特征在于:进行栏目查找时,包括对所述栏目中的表格进行变形;对所述栏目中的表格进行变形包括以下步骤:
根据html标记查找表格;
在文件层面进行跨页表格的合并;
在文件层面进行表格变形;
抽取每个表格的位置、上下文、单位币种的信息;
生成表格对象,其中,在所述栏目下找到的表格分配该栏目ID,在所述栏目以外区块的表格分配默认栏目ID。
19.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至9中任一项所述的上市公司报告的逻辑结构树构建方法。
20.一种上市公司报告的逻辑结构树构建终端,其特征在于,包括:处理器及存储器;
所述存储器用于存储计算机程序;
所述处理器用于执行所述存储器存储的计算机程序,以使所述上市公司报告的逻辑结构树构建终端执行权利要求1至9中任一项所述的上市公司报告的逻辑结构树构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110915112.XA CN113642291B (zh) | 2021-08-10 | 2021-08-10 | 上市公司报告的逻辑结构树构建方法、系统、存储介质及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110915112.XA CN113642291B (zh) | 2021-08-10 | 2021-08-10 | 上市公司报告的逻辑结构树构建方法、系统、存储介质及终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113642291A true CN113642291A (zh) | 2021-11-12 |
CN113642291B CN113642291B (zh) | 2022-10-18 |
Family
ID=78420593
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110915112.XA Active CN113642291B (zh) | 2021-08-10 | 2021-08-10 | 上市公司报告的逻辑结构树构建方法、系统、存储介质及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113642291B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115146592A (zh) * | 2022-07-14 | 2022-10-04 | 中国银行股份有限公司 | 一种文档标记方法及装置、电子设备、存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060248070A1 (en) * | 2005-04-27 | 2006-11-02 | Xerox Corporation | Structuring document based on table of contents |
CN104199975A (zh) * | 2014-09-23 | 2014-12-10 | 中国南方电网有限责任公司 | 一种基于可配置的word文档结构化提取方法 |
CN107908602A (zh) * | 2017-12-15 | 2018-04-13 | 北京文因互联科技有限公司 | 一种文件检测方法及其装置 |
US20180121720A1 (en) * | 2016-10-28 | 2018-05-03 | Intuit Inc. | Identifying document forms using digital fingerprints |
CN110377884A (zh) * | 2019-06-13 | 2019-10-25 | 北京百度网讯科技有限公司 | 文档解析方法、装置、计算机设备及存储介质 |
CN111506552A (zh) * | 2019-01-30 | 2020-08-07 | 宁波创元信息科技有限公司 | 一种树状结构的动态数据库设计方法及系统 |
CN112115211A (zh) * | 2020-09-19 | 2020-12-22 | 东方蓝天钛金科技有限公司 | 一种检测报告查询系统及其查询方法 |
-
2021
- 2021-08-10 CN CN202110915112.XA patent/CN113642291B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060248070A1 (en) * | 2005-04-27 | 2006-11-02 | Xerox Corporation | Structuring document based on table of contents |
CN104199975A (zh) * | 2014-09-23 | 2014-12-10 | 中国南方电网有限责任公司 | 一种基于可配置的word文档结构化提取方法 |
US20180121720A1 (en) * | 2016-10-28 | 2018-05-03 | Intuit Inc. | Identifying document forms using digital fingerprints |
CN107908602A (zh) * | 2017-12-15 | 2018-04-13 | 北京文因互联科技有限公司 | 一种文件检测方法及其装置 |
CN111506552A (zh) * | 2019-01-30 | 2020-08-07 | 宁波创元信息科技有限公司 | 一种树状结构的动态数据库设计方法及系统 |
CN110377884A (zh) * | 2019-06-13 | 2019-10-25 | 北京百度网讯科技有限公司 | 文档解析方法、装置、计算机设备及存储介质 |
CN112115211A (zh) * | 2020-09-19 | 2020-12-22 | 东方蓝天钛金科技有限公司 | 一种检测报告查询系统及其查询方法 |
Non-Patent Citations (2)
Title |
---|
崔振龙 等: "《全面深化改革背景下的审计策略研究》", 31 December 2014, 中国时代经济出版社 * |
杨文良: "《图解会计8日通》", 30 May 2014, 立信会计出版社 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115146592A (zh) * | 2022-07-14 | 2022-10-04 | 中国银行股份有限公司 | 一种文档标记方法及装置、电子设备、存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113642291B (zh) | 2022-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Park et al. | CORD: a consolidated receipt dataset for post-OCR parsing | |
US11341319B2 (en) | Visual data mapping | |
CN112528616B (zh) | 业务表单生成方法、装置、电子设备及计算机存储介质 | |
US10699112B1 (en) | Identification of key segments in document images | |
CN113626607B (zh) | 异常工单识别方法、装置、电子设备及可读存储介质 | |
CN115547466B (zh) | 基于大数据的医疗机构登记评审系统及其方法 | |
CN111553137B (zh) | 报告生成方法、装置、存储介质及计算机设备 | |
CN112395418B (zh) | 网页中的目标对象提取方法、装置、电子设备 | |
CN113642291B (zh) | 上市公司报告的逻辑结构树构建方法、系统、存储介质及终端 | |
CN115827862A (zh) | 一种多元费用凭证数据关联采集方法 | |
CN115018588A (zh) | 产品推荐方法、装置、电子设备及可读存储介质 | |
CN113434542B (zh) | 数据关系识别方法、装置、电子设备及存储介质 | |
CN114444465A (zh) | 信息抽取方法、装置、设备及存储介质 | |
CN113658002A (zh) | 基于决策树的交易结果生成方法、装置、电子设备及介质 | |
CN116340387A (zh) | 一种用于数据表的个人信息披露情况统计分析方法及系统 | |
CN111444368A (zh) | 构建用户画像的方法、装置、计算机设备及存储介质 | |
CN116701506A (zh) | 融合非结构化数据的需求计划合规性检验方法 | |
CN115310772A (zh) | 一种药械质量监管结果数据监测方法、药械交易平台及系统 | |
CN115482075A (zh) | 财务数据的异常分析方法、装置、电子设备及存储介质 | |
CN114943219A (zh) | 物料清单测试数据的生成方法、装置、设备及存储介质 | |
CN115309705A (zh) | 一种自动识别城市信息模型平台基础数据元素的数据集成分类系统及其分类方法 | |
TWI793432B (zh) | 工程專案文件管理方法與系統 | |
CN115063784A (zh) | 票据图像的信息提取方法和装置、存储介质及电子设备 | |
US8719693B2 (en) | Method for storing localized XML document values | |
CN113806492A (zh) | 基于语义识别的记录生成方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |