CN114359924A - 数据处理方法、装置、设备及存储介质 - Google Patents

数据处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114359924A
CN114359924A CN202111462781.2A CN202111462781A CN114359924A CN 114359924 A CN114359924 A CN 114359924A CN 202111462781 A CN202111462781 A CN 202111462781A CN 114359924 A CN114359924 A CN 114359924A
Authority
CN
China
Prior art keywords
chart
target
area
information
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111462781.2A
Other languages
English (en)
Inventor
许鑫
邵溪濛
何立汉
任桂军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taikang Asset Management Co ltd
Taikang Insurance Group Co Ltd
Original Assignee
Taikang Asset Management Co ltd
Taikang Insurance Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taikang Asset Management Co ltd, Taikang Insurance Group Co Ltd filed Critical Taikang Asset Management Co ltd
Priority to CN202111462781.2A priority Critical patent/CN114359924A/zh
Publication of CN114359924A publication Critical patent/CN114359924A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本公开提供一种数据处理方法、装置、设备及存储介质,涉及计算机技术领域。该方法包括:获取待处理可携带文档格式PDF文件的待处理图像格式页,待处理图像格式页通过将待处理PDF文件中的待处理页格式转换为图像获得;利用图表检测模型对待处理图像格式页进行图表检测,获得待处理图像格式页的目标图表区域的信息;利用图表分类模型对目标图表区域进行分类,获得目标图表区域的图表类别标签,图表类别标签包括数据图类、非数据图类和表格类;根据目标图表区域的图表类别标签,获得待处理PDF文件的待处理图像格式页的目标图表区域的相关内容。该方法提高了提取PDF文件中的图表信息的准确性。

Description

数据处理方法、装置、设备及存储介质
技术领域
本公开涉及计算机技术领域,具体而言,涉及一种数据处理方法、装置、设备及可读存储介质。
背景技术
可携带文档格式(Portable Document Format,PDF)是一种用于与应用程序、操作系统、硬件等无关的方式进行文件交换的文件格式。用于专用领域研究的研究报告通常为PDF文件,而研究报告中的图表通常包含研究人员需要的重要信息。相关技术中采用基于图片或表格的图形特征来提取PDF文件中的图表,缺乏针对性,获得的图表信息的准确性较低。
如上所述,如何提高提取PDF文件中的图表信息的准确性成为亟待解决的问题。
在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种数据处理方法、装置、设备及可读存储介质,可一定程度上提高提取PDF文件中的图表信息的准确性。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的一方面,提供一种数据处理方法,包括:获取待处理可携带文档格式PDF文件的待处理图像格式页,所述待处理图像格式页通过将所述待处理PDF文件中的待处理页格式转换为图像获得;利用图表检测模型对所述待处理图像格式页进行图表检测,获得所述待处理图像格式页的目标图表区域的信息;利用图表分类模型对所述目标图表区域进行分类,获得所述目标图表区域的图表类别标签,所述图表类别标签包括数据图类、非数据图类和表格类;根据所述目标图表区域的图表类别标签,获得所述待处理PDF文件的待处理图像格式页的目标图表区域的相关内容。
根据本公开的一实施例,根据所述目标图表区域的图表类别标签,获得所述待处理PDF文件的待处理图像格式页的目标图表区域的相关内容,包括:在所述目标图表区域的图表类别标签为数据图类的情况下,利用文本检测模型对所述目标图表区域进行文本检测,获得所述目标图表区域中的目标文本区域;通过光学字符识别方法对所述目标文本区域进行字符识别,获得光学字符识别结果;基于对所述待处理PDF文件进行底层解析获得的图表基本信息,对所述光学字符识别结果进行修正,获得所述目标文本区域中的文本信息。
根据本公开的一实施例,基于对所述待处理PDF文件进行底层解析获得的图表基本信息,对所述光学字符识别结果进行修正,包括:获得所述光学字符识别结果中的第一字符串与所述图表基本信息中的第二字符串的相似度;在所述第一字符串与所述第二字符串的相似度大于预设相似度阈值的情况下,将所述光学字符识别结果中的第一字符串修改为所述第二字符串。
根据本公开的一实施例,所述目标图表区域的信息包括所述目标图表区域的尺寸信息;所述方法还包括:根据所述目标图表区域的尺寸信息判断所述目标图表区域是否尺寸正常;利用图表分类模型对所述目标图表区域进行分类,获得所述目标图表区域的图表类别标签,包括:在判定所述目标图表区域尺寸正常的情况下,利用图表分类模型对所述目标图表区域进行分类,获得所述目标图表区域的图表类别标签。
根据本公开的一实施例,所述目标图表区域的信息包括所述目标图表区域的位置信息;所述方法还包括:根据所述目标图表区域的位置信息,获得所述待处理图像格式页中所述目标图表区域上方和/或下方预设距离内的目标文本行;利用图表标题模型获得所述目标文本行是所述目标图表区域中的目标图表的标题的概率;在所述目标文本行是所述目标图表的标题的概率大于预设概率阈值时,获得所述目标图表的标题为所述目标文本行。
根据本公开的一实施例,利用图表检测模型对所述待处理图像格式页进行图表检测,获得所述待处理图像格式页的目标图表区域的信息,包括:利用所述图表检测模型对所述待处理图像格式页进行图表检测,获得预测图表区域的信息,所述预测图表区域的信息包括至少一个预测图表区域的位置信息、尺寸信息和页码信息;在根据预测图表区域的位置信息确定两个预测图表区域的位置有重叠的情况下,根据所述两个预测图表区域的位置信息和尺寸信息,确定将所述两个预测图表区域合并为一个目标图表区域,或调整所述两个预测图表区域以获得两个位置没有重叠的目标图表区域;和/或在根据所述预测图表区域的位置信息和页码信息判定存在跨页表格的情况下,将所述跨页表格对应的两个预测图表区域进行合并,获得所述跨页表格对应的目标图表区域。
根据本公开的一实施例,利用图表检测模型对所述待处理图像格式页进行图表检测,获得所述待处理图像格式页的目标图表区域的信息,包括:
利用所述图表检测模型对所述待处理图像格式页进行图表检测,获得预测图表区域的信息,所述预测图表区域的信息包括至少一个预测图表区域的位置信息、尺寸信息和页码信息;根据预测图表区域的页码信息,从对所述待处理PDF文件进行底层解析获得的图表基本信息中,获得所述待处理图像格式页中的解析图表区域的位置信息和尺寸信息;根据所述预测图表区域的位置信息和尺寸信息、以及所述解析图表区域的位置信息和尺寸信息,在判定存在与所述预测图表区域对应的解析图表区域的情况下,将所述预测图表区域作为所述目标图表区域,获得所述目标图表区域的信息;和/或根据所述解析图表区域的位置信息和尺寸信息,在判定所述预测图表区域中是否包含多个图表的情况下,将所述预测图表区域进行拆分,获得所述目标图表区域的信息;和/或根据所述解析图表区域的位置信息和尺寸信息,在判定两个相邻的预测图表区域属于同一个图表的情况下,将所述两个相邻的预测图表区域进行合并,获得所述目标图表区域的信息。
根据本公开的一实施例,所述目标图表区域的信息包括所述目标图表区域的位置信息和尺寸信息;利用图表检测模型对所述待处理图像格式页进行图表检测,获得所述待处理图像格式页的目标图表区域的信息,包括:利用所述图表检测模型对所述待处理图像格式页进行图表检测,获得预测图表区域的信息,所述预测图表区域的信息包括预测图表区域的位置信息、尺寸信息和页码信息;根据预测图表区域的页码信息,从对所述待处理PDF文件进行底层解析获得的图表基本信息中,获得所述待处理图像格式页中与所述预测图表区域对应的解析图表区域的位置信息和尺寸信息;根据所述解析图表区域的位置信息和尺寸信息,对所述预测图表区域的位置和尺寸进行调整,获得所述目标图表区域的位置信息和尺寸信息。
根据本公开的一实施例,根据所述目标图表区域的图表类别标签,获得所述待处理PDF文件的待处理图像格式页的目标图表区域的相关内容,包括:在所述目标图表区域的图表类别标签为表格类的情况下,从对所述待处理PDF文件进行底层解析获得的图表基本信息中,获得所述待处理图像格式页中与所述目标图表区域对应的文本内容。
根据本公开的一实施例,根据所述目标图表区域的图表类别标签,获得所述待处理PDF文件的待处理图像格式页的目标图表区域的相关内容,包括:在所述目标图表区域的图表类别标签为非数据图类的情况下,从待处理图像格式页的目标图表区域获取图像格式的目标非数据图。
根据本公开的一实施例,所述待处理PDF文件包括第一研究报告;获得所述待处理PDF文件的待处理图像格式页的目标图表区域的相关内容,包括:获得所述第一研究报告的目标图表区域的相关内容,所述第一研究报告的目标图表区域的相关内容包括所述第一研究报告的目标图表区域中的文本信息和目标图表的标题中的至少一种;所述方法还包括:获取输入的检索词;将所述检索词与所述第一研究报告的目标图表区域的相关内容进行匹配;在所述检索词与所述第一研究报告的目标图表区域的相关内容匹配成功的情况下,输出第一检索结果,以响应输入所述检索词的操作,所述第一检索结果用于表示检索到所述第一研究报告。
根据本公开的一实施例,所述待处理PDF文件还包括第二研究报告;所述方法还包括:获得所述第二研究报告的文本内容;将所述检索词与所述第二研究报告的文本内容进行匹配;在所述检索词与所述第一研究报告的目标图表区域的相关内容匹配成功的情况下,输出第一检索结果,包括:在所述检索词与所述第一研究报告的目标图表区域的相关内容匹配成功,并且所述检索词与所述第二研究报告的文本内容匹配成功的情况下,输出所述第一检索结果,所述第一检索结果还用于表示检索到所述第二研究报告、以及所述第一研究报告的优先级高于所述第二研究报告。
根据本公开的再一方面,提供一种数据处理装置,包括:待处理图像获得模块,用于获取待处理可携带文档格式PDF文件的待处理图像格式页,所述待处理图像格式页通过将所述待处理PDF文件中的待处理页格式转换为图像获得;图表区域信息获得模块,用于利用图表检测模型对所述待处理图像格式页进行图表检测,获得所述待处理图像格式页的目标图表区域的信息;图表区域分类模块,用于利用图表分类模型对所述目标图表区域进行分类,获得所述目标图表区域的图表类别标签,所述图表类别标签包括数据图类、非数据图类和表格类;图表内容获得模块,用于根据所述目标图表区域的图表类别标签,获得所述待处理PDF文件的待处理图像格式页的目标图表区域的相关内容。
根据本公开的一实施例,所述图表内容获得模块,还用于:在所述目标图表区域的图表类别标签为数据图类的情况下,利用文本检测模型对所述目标图表区域进行文本检测,获得所述目标图表区域中的目标文本区域;通过光学字符识别方法对所述目标文本区域进行字符识别,获得光学字符识别结果;基于对所述待处理PDF文件进行底层解析获得的图表基本信息,对所述光学字符识别结果进行修正,获得所述目标文本区域中的文本信息。
根据本公开的一实施例,所述图表内容获得模块,还用于:获得所述光学字符识别结果中的第一字符串与所述图表基本信息中的第二字符串的相似度;在所述第一字符串与所述第二字符串的相似度大于预设相似度阈值的情况下,将所述光学字符识别结果中的第一字符串修改为所述第二字符串。
根据本公开的一实施例,所述目标图表区域的信息包括所述目标图表区域的尺寸信息;所述图表区域分类模块还用于根据所述目标图表区域的尺寸信息判断所述目标图表区域是否尺寸正常;在判定所述目标图表区域尺寸正常的情况下,利用图表分类模型对所述目标图表区域进行分类,获得所述目标图表区域的图表类别标签。
根据本公开的一实施例,所述目标图表区域的信息包括所述目标图表区域的位置信息;所述图表内容获得模块还用于根据所述目标图表区域的位置信息,获得所述待处理图像格式页中所述目标图表区域上方和/或下方预设距离内的目标文本行;利用图表标题模型获得所述目标文本行是所述目标图表区域中的目标图表的标题的概率;在所述目标文本行是所述目标图表的标题的概率大于预设概率阈值时,获得所述目标图表的标题为所述目标文本行。
根据本公开的一实施例,所述图表区域信息获得模块,还用于利用所述图表检测模型对所述待处理图像格式页进行图表检测,获得预测图表区域的信息,所述预测图表区域的信息包括至少一个预测图表区域的位置信息、尺寸信息和页码信息;在根据预测图表区域的位置信息确定两个预测图表区域的位置有重叠的情况下,根据所述两个预测图表区域的位置信息和尺寸信息,确定将所述两个预测图表区域合并为一个目标图表区域,或调整所述两个预测图表区域以获得两个位置没有重叠的目标图表区域;和/或在根据所述预测图表区域的位置信息和页码信息判定存在跨页表格的情况下,将所述跨页表格对应的两个预测图表区域进行合并,获得所述跨页表格对应的目标图表区域。
根据本公开的一实施例,所述图表区域信息获得模块,还用于利用所述图表检测模型对所述待处理图像格式页进行图表检测,获得预测图表区域的信息,所述预测图表区域的信息包括至少一个预测图表区域的位置信息、尺寸信息和页码信息;根据预测图表区域的页码信息,从对所述待处理PDF文件进行底层解析获得的图表基本信息中,获得所述待处理图像格式页中的解析图表区域的位置信息和尺寸信息;根据所述预测图表区域的位置信息和尺寸信息、以及所述解析图表区域的位置信息和尺寸信息,在判定存在与所述预测图表区域对应的解析图表区域的情况下,将所述预测图表区域作为所述目标图表区域,获得所述目标图表区域的信息;和/或根据所述解析图表区域的位置信息和尺寸信息,在判定所述预测图表区域中是否包含多个图表的情况下,将所述预测图表区域进行拆分,获得所述目标图表区域的信息;和/或根据所述解析图表区域的位置信息和尺寸信息,在判定两个相邻的预测图表区域属于同一个图表的情况下,将所述两个相邻的预测图表区域进行合并,获得所述目标图表区域的信息。
根据本公开的一实施例,所述目标图表区域的信息包括所述目标图表区域的位置信息和尺寸信息;所述图表区域信息获得模块,还用于利用所述图表检测模型对所述待处理图像格式页进行图表检测,获得预测图表区域的信息,所述预测图表区域的信息包括预测图表区域的位置信息、尺寸信息和页码信息;根据预测图表区域的页码信息,从对所述待处理PDF文件进行底层解析获得的图表基本信息中,获得所述待处理图像格式页中与所述预测图表区域对应的解析图表区域的位置信息和尺寸信息;根据所述解析图表区域的位置信息和尺寸信息,对所述预测图表区域的位置和尺寸进行调整,获得所述目标图表区域的位置信息和尺寸信息。
根据本公开的一实施例,所述图表内容获得模块,还用于在所述目标图表区域的图表类别标签为表格类的情况下,从对所述待处理PDF文件进行底层解析获得的图表基本信息中,获得所述待处理图像格式页中与所述目标图表区域对应的文本内容。
根据本公开的一实施例,所述图表内容获得模块,还用于在所述目标图表区域的图表类别标签为非数据图类的情况下,从待处理图像格式页的目标图表区域获取图像格式的目标非数据图。
根据本公开的一实施例,所述待处理PDF文件包括第一研究报告;所述图表内容获得模块,还用于:获得所述第一研究报告的目标图表区域的相关内容,所述第一研究报告的目标图表区域的相关内容包括所述第一研究报告的目标图表区域中的文本信息和目标图表的标题中的至少一种;所述装置还包括:检索词获取模块,用于获取输入的检索词;检索词匹配模块,用于将所述检索词与所述第一研究报告的目标图表区域的相关内容进行匹配;检索结果输出模块,用于在所述检索词与所述第一研究报告的目标图表区域的相关内容匹配成功的情况下,输出第一检索结果,以响应输入所述检索词的操作,所述第一检索结果用于表示检索到所述第一研究报告。
根据本公开的一实施例,所述待处理PDF文件还包括第二研究报告;所述图表内容获得模块,还用于:获得所述第二研究报告的文本内容;所述检索词匹配模块,还用于将所述检索词与所述第二研究报告的文本内容进行匹配;所述检索结果输出模块,还用于在所述检索词与所述第一研究报告的目标图表区域的相关内容匹配成功,并且所述检索词与所述第二研究报告的文本内容匹配成功的情况下,输出所述第一检索结果,所述第一检索结果还用于表示检索到所述第二研究报告、以及所述第一研究报告的优先级高于所述第二研究报告。
根据本公开的再一方面,提供一种设备,包括:存储器、处理器及存储在所述存储器中并可在所述处理器中运行的可执行指令,所述处理器执行所述可执行指令时实现如上述任一种方法。
根据本公开的再一方面,提供一种计算机可读存储介质,其上存储有计算机可执行指令,所述可执行指令被处理器执行时实现如上述任一种方法。
本公开的实施例提供的数据处理方法,获取通过将待处理PDF文件中的待处理页格式转换为图像获得的待处理图像格式页,利用图表检测模型对待处理图像格式页进行图表检测,获得待处理图像格式页的目标图表区域的信息,利用图表分类模型对目标图表区域进行分类,获得目标图表区域的包括数据图类、非数据图类和表格类的图表类别标签,然后根据目标图表区域的图表类别标签,获得待处理PDF文件的待处理图像格式页的目标图表区域的相关内容,通过在检测到目标图表区域后,对目标图表区域后进行数据图类、非数据图类和表格类的分类,可更有针对性按照图表类别标签获得图表区域的相关内容,从而可实现提高提取PDF文件中的图表信息的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
通过参照附图详细描述其示例实施例,本公开的上述和其它目标、特征及优点将变得更加显而易见。
图1示出本公开实施例中一种系统结构的示意图。
图2示出本公开实施例中一种数据处理方法的流程图。
图3示出了图2中所示的步骤S204在一实施例中的处理过程示意图。
图4示出了图2中所示的步骤S204在另一实施例中的处理过程示意图。
图5示出了图2中所示的步骤S204在再一实施例中的处理过程示意图。
图6为根据图2至图5示出的一种文档版面解析流程的示意图。
图7示出了图2中所示的步骤S206在一实施例中的处理过程示意图。
图8是根据图2示出的一种图表标题获得方法的流程示意图。
图9示出了图2中所示的步骤S208在一实施例中的处理过程示意图。
图10示出了图9中所示的步骤S906在一实施例中的处理过程示意图。
图11为根据图9和图10示出的一种数据图内容获取流程的示意图。
图12根据图2至图11示出了一种对研报PDF文档进行图表解析的流程图。
图13示出了一种应用场景中的待处理PDF文档页的图像格式。
图14是根据图13示出了一种图表检测结果示意图。
图15是根据图14示出了一种图表区域的合并示例图。
图16是根据图15示出了一种图表区域调整的示例图。
图17是根据图16示出了一种异常区域去除的示例图。
图18是根据图17示出了一种图表分类结果的示例图。
图19是根据图18示出了一种图表上下文本获取的示例图。
图20是根据图19示出了一种图表标题匹配的示例图。
图21是根据图18和图20示出了一种图表标题匹配的示例图。
图22是根据图2至图11示出的一种智能投研平台的架构示例图。
图23是根据一示例性实施例示出的一种研报搜索方法的流程图。
图24是根据一示例性实施例示出的另一种研报搜索方法的流程图。
图25示出本公开实施例中一种数据处理装置的框图。
图26是根据一示例性实施例示出的另一种数据处理装置的框图。
图27示出本公开实施例中一种电子设备的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施例使得本公开将更加全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、装置、步骤等。在其它情况下,不详细示出或描述公知结构、方法、装置、实现或者操作以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本公开的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。符号“/”一般表示前后关联对象是一种“或”的关系。
在本公开中,除非另有明确的规定和限定,“连接”等术语应做广义理解,例如,可以是电连接或可以互相通讯;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本公开中的具体含义。
在一些专用领域研究中,研究人员通常需要查找、阅读、分析用于专用领域研究的研究报告。例如,进行投资研究的过程中,研究员需要阅读大量公司购买或者市场上公开的研报。研报的内容解析是很多平台功能应用的基础,图表内容提取是常规的文本内容提取之外,对研报解析结果的重要补充。例如在研报结构化解析功能中,如果只呈现基于文本解析提取的重点部分,容易偏向于总结性的内容,缺少基于数据展示和数据分析的论据支持。在快速浏览大量文字的过程中,读者容易遗漏信息,而图表内容核心突出不易遗漏,能够提供研报在指标和论据层面的很好总结。另外,单纯基于文本内容的搜索和推荐容易混入相关性较低的内容,很常见的情况是研报中零星提到某个关键词,而单纯基于文本很难判断研报内容和关键词的相关性。而如果研报的图表中有相关内容,则研报和该关键词有高相关性的概率就会很高。
用于专用领域研究的研究报告通常为PDF文件。对于PDF文档中单独的图片或者表格的定位和提取,相关技术的局限性主要表现在:1)对于版面分析类的技术,虽然能够提供图片和表格的定位,但都基于图片或表格的图形特征,而不是基于深度学习的目标检测方式,因而泛化能力不强;2)对于图表解析类的技术,通常都关注于指定类型目标的处理,即只处理图或者只处理表。待处理目标在输入时就已给定了类别,不涉及图表的区分问题;3)因为缺乏具体的应用场景,技术方案设计基本只到提取出图表为止,没有对表格和图片内容进行进一步的处理,例如分析图表的类型、包含的指标等。整体来说,相关技术都专注于解决技术性的问题,缺乏和业务场景的联系,不能提供符合实际业务需求的PDF文档图表提取的解决方案,因此在实际业务场景中从PDF文档提取的图表信息的准确率较低。
因此,本公开提供了一种数据处理方法,通过利用深度学习模型对文档进行版面分析,识别出包含图表的区域,再利用分类模型判断图表区域的对象是表格、数据图还是非数据图,实现了图表的统一化处理,可更有针对性按照图表类别标签获得图表区域的相关内容,从而可实现提高提取PDF文件中的图表信息的准确性。
图1示出了可以应用本公开的数据处理方法或数据处理装置的示例性系统架构10。
如图1所示,系统架构10可以包括终端设备102、网络104和服务器106。终端设备102可以是具有显示屏并且支持输入、输出的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机、可穿戴设备、虚拟现实设备、智能家居、车载终端等等。网络104用以在终端设备102和服务器106之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。服务器106可以是提供各种服务的服务器或服务器集群等,例如网络服务器、后台处理服务器、数据库服务器等等。
用户可以使用终端设备102通过网络104与服务器106交互,以接收或发送数据等。例如用户通过网络104从服务器106上将待处理PDF文件下载到终端设备102上,然后通过终端设备102上的PDF处理软件转换为多页待处理图像格式页。又例如用户在终端设备102上进行操作,通过网络104利用服务器106上的图表检测模型对待处理图像格式页进行图表检测。再例如用户可在终端设备102上进行操作,通过网络104将获得的目标图表区域的相关内容发送到服务器106进行存储。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2是根据一示例性实施例示出的一种数据处理方法的流程图。如图2所示的方法例如可以应用于上述系统的服务器端,也可以应用于上述系统的终端设备。
参考图2,本公开实施例提供的方法20可以包括以下步骤。
在步骤S202中,获取待处理PDF文件的待处理图像格式页,待处理图像格式页通过将待处理PDF文件中的待处理页格式转换为图像获得。
在一些实施例中,待处理PDF文件为可能包含未知图表的整个PDF文档,该PDF文档中通常含有丰富的文本信息,以及可能含有未知数量、未知类型、未知大小和位置的图片和/或表格。
在一些实施例中,例如,根据图表的表现形式,这些图表可以分为几类:(1)数据图,包括各种折线图、饼图、柱状图,或者其他表示数量或数量统计特征的图片;(2)非数据图,包括各种概念说明、流程说明、照片等图片;(3)表格,包括以数字展示为主的表格、以文字说明为主的表格,以及数字和文字混合的表格,这些表格有些有清晰的边框,有些没有边框,或者有部分边框。待处理PDF文件中的图片可以是整张图片形式嵌入(图中的文字也以图像形式体现),也可以是图片和图片中相关文本(比如图例、坐标轴说明,数量大小的)的混合嵌入;而表格可以为文字或数字的嵌入形式。
在一些实施例中,可以先将待处理PDF文件的每一页都转换为图像格式,根据实际情况获得其中一页或多页作为待处理图像格式页,作为下一步图表检测模型的输入。例如将每一页PDF转换为RGB(红绿蓝)三通道图像格式,作为基于深度学习模型的图表检测及定位算法的基础。
在步骤S204中,利用图表检测模型对待处理图像格式页进行图表检测,获得待处理图像格式页的目标图表区域的信息。
在一些实施例中,图表检测模型例如可以是Faster-RCNN算法模型,通过Faster-RCNN算法模型检测文档版面每一页中可能出现的图/表的位置及大小,以图/表区域的左上角坐标加上长宽数值的形式输出。算法所需的模型参数通过在有标注的文档图像训练集上训练得到。采用Faster-RCNN算法模型进行图表检测的过程可以包括以下步骤:输入的三通道图像首先经过卷积神经网络(Convolutional Neural Networks,CNN),转化为特征图;然后在特征图的基础上,通过区域推荐网络(Region Proposal Network,RPN)生成候选区域集;再综合特征图和候选区域集信息,通过感兴趣区域(Region Of Interest,ROI)池化得到候选区域的特征图;最后通过分类层判定候选区域是否为图表,通过回归层精细调整判定为图表的候选区域的位置和大小。
在另一些实施例中,也可采用Fast-RCNN算法模型等作为图表检测模型,也可对Fast-RCNN、Faster-RCNN等算法模型中的网络层数按照实际实验结果进行优化设计,本公开对具体的网络结构不作限制。
在一些实施例中,在图表检测模型得到预测的图表区域后,可对预测图表区域进行合并、拆分、定位调整等处理,具体实施方式可参照图3至图6。
在步骤S206中,利用图表分类模型对目标图表区域进行分类,获得目标图表区域的图表类别标签,图表类别标签包括数据图类、非数据图类和表格类。
在一些实施例中,例如,可先筛除所有目标图表区域中大小异常的部分,然后在剩余的大小正常的目标图表区域中,采用图表分类模型对其包含的内容进行分类,图表类别包括数据图、非数据图和表格,分类的预测标签还可以包括非图表类,进行大小筛除的具体实施方式可参照图7。
在一些实施例中,图表分类模型可以是一个基于深度学习算法的分类模型,模型输入为图表区域的图像信息,算法基于其图像内部的线条分布、颜色填充分布、颜色轮廓分布等特征,输出该区域内容为数据图、非数据图、表格的概率,取概率值最高的类别作为分类结果。例如,采用基于卷积神经网络算法的GoogLeNet模型,训练集采用网络上收集的图片、研报图表转化成的图片和收集的部分样本标注后组成。
在步骤S208中,根据目标图表区域的图表类别标签,获得待处理PDF文件的待处理图像格式页的目标图表区域的相关内容。
在一些实施例中,例如,可利用图表标题模型提取目标图表区域的标题文本,具体实施方式可参照图8。
在一些实施例中,在目标图表区域的图表类别标签为数据图类的情况下,可聚焦在提取其内部的文本类内容上,提取结果作为输出,例如具体实施方式可参照图9至图11。
在一些实施例中,在目标图表区域的图表类别标签为表格类的情况下,可从对待处理PDF文件进行底层解析获得的图表基本信息中,获得待处理图像格式页中与目标图表区域对应的文本内容,将其作为表格内容存入数据库,供相关后续应用使用。
在一些实施例中,在目标图表区域的图表类别标签为非数据图类的情况下,从待处理图像格式页的目标图表区域获取图像格式的目标非数据图。对于非数据图,可选择正确的图片位置和大小,截取图片直接存入数据库。
根据本公开实施例提供的数据处理方法,获取通过将待处理PDF文件中的待处理页格式转换为图像获得的待处理图像格式页,利用图表检测模型对待处理图像格式页进行图表检测,获得待处理图像格式页的目标图表区域的信息,利用图表分类模型对目标图表区域进行分类,获得目标图表区域的包括数据图类、非数据图类和表格类的图表类别标签,然后根据目标图表区域的图表类别标签,获得待处理PDF文件的待处理图像格式页的目标图表区域的相关内容,通过在检测到目标图表区域后,对目标图表区域后进行数据图类、非数据图类和表格类的分类,可更有针对性按照图表类别标签获得图表区域的相关内容,从而可实现提高提取PDF文件中的图表信息的准确性。
采用本公开实施例提供的数据处理方法获取的研报PDF文档中的图片和表格信息作为文本精炼内容的重要补充,可以让研究员快速了解研报采用的核心指标和论据;结合研报篇章结构和核心观点的提取,赋能研报解析、展示和结构化沉淀。研报中提取的图表信息还可以用于搜索和推荐,帮助研究员查找具有相关指标的研报,丰富搜索维度,提升搜索效率。此外,图表内容还是研报生成功能主要的素材来源,帮助研究员编写和充实研报。
图3示出了图2中所示的步骤S204在一实施例中的处理过程示意图。如图3所示,本公开实施例中,上述步骤S204可以进一步包括以下步骤。
步骤S302,利用图表检测模型对待处理图像格式页进行图表检测,获得预测图表区域的信息,预测图表区域的信息包括至少一个预测图表区域的位置信息、尺寸信息和页码信息。
在一些实施例中,利用图表检测模型对待处理图像格式页进行图表检测的具体实施方式可参照步骤S204。
步骤S3042,在根据预测图表区域的位置信息确定两个预测图表区域的位置有重叠的情况下,根据两个预测图表区域的位置信息和尺寸信息,确定将两个预测图表区域合并为一个目标图表区域,或调整两个预测图表区域以获得两个位置没有重叠的目标图表区域。
在一些实施例中,例如,如果有两个图表候选区域位置有部分重叠,且其重叠面积占比大于两个预测图表区域中面积较小(或较大、或两预测图表区域总和)的a%的比例,将两个图表候选区域合并为一个。参数a可通过在有标注的文档图像训练集上训练得到。
在一些实施例中,例如,如果有两个图表候选区域位置有部分重叠,且其重叠面积占比小于(或等于)两个预测图表区域中面积较小(或较大、或两个预测图表区域总和)的a%的比例,调整两个预测图表区域位置和大小,使得他们没有重叠。参数a通过在有标注的文档图像训练集上训练得到。
步骤S3044,在根据预测图表区域的位置信息和页码信息判定存在跨页表格的情况下,将跨页表格对应的两个预测图表区域进行合并,获得跨页表格对应的目标图表区域。
在一些实施例中,例如,根据相邻的预测图表区域的位置、大小和所在页码,结合图表基本信息,及可能的其他预设规则算法(例如存在相关联内容,和/或前一个预测图表区域在前一页底端、后一个预测图表区域在后一页顶端等等),判断是否存在跨页表格。如果存在,对跨页表格进行位置、大小、页码标记和合并,以便后续表格内容提取时使用。
图4示出了图2中所示的步骤S204在另一实施例中的处理过程示意图。如图4所示,本公开实施例中,上述步骤S204可以进一步包括以下步骤。
步骤S402,利用图表检测模型对待处理图像格式页进行图表检测,获得预测图表区域的信息,预测图表区域的信息包括至少一个预测图表区域的位置信息、尺寸信息和页码信息。
在一些实施例中,利用图表检测模型对待处理图像格式页进行图表检测的具体实施方式可参照步骤S204。
步骤S404,根据预测图表区域的页码信息,从对待处理PDF文件进行底层解析获得的图表基本信息中,获得待处理图像格式页中的解析图表区域的位置信息和尺寸信息。
在一些实施例中,在输入待处理PDF文件后,可基于PDF文档的底层数据解析方法,提取待处理PDF文件的图表基本信息,其中可以包括中文本和图表的各种信息,例如坐标、旋转、大小、内容等,可用于后续图表定位和内容提取的辅助信息。
步骤S4062,根据预测图表区域的位置信息和尺寸信息、以及解析图表区域的位置信息和尺寸信息,在判定存在与预测图表区域对应的解析图表区域的情况下,将预测图表区域作为目标图表区域,获得目标图表区域的信息。
在一些实施例中,可根据图表基本信息,删除图表基本信息中不存在的预测图表区域。
步骤S4064,根据解析图表区域的位置信息和尺寸信息,在判定预测图表区域中是否包含多个图表的情况下,将预测图表区域进行拆分,获得目标图表区域的信息。
在一些实施例中,可根据图表基本信息中的位置和尺寸信息,结合预设规则算法(例如在图表基本信息中两个不重叠的图表位置在一个预测图表区域内,并且图表基本信息中的两个图表位置也不相连),判断一个预测图表区域中是否只含有一个图表。如果判断为否,对预测图表区域进行拆分,确保一个预测图表区域只包含一个图表。
步骤S4066,根据解析图表区域的位置信息和尺寸信息,在判定两个相邻的预测图表区域属于同一个图表的情况下,将两个相邻的预测图表区域进行合并,获得目标图表区域的信息。
在一些实施例中,可根据图表基本信息中的位置和尺寸信息,结合预设规则算法(例如两个不重叠的预测图表区域位置在一个图表基本信息中的图表位置区域内,并且两个预测图表区域位置相邻),判断相邻两个预测图表区域是否指向同一个图表,如果判断为是,对相邻预测图表区域进行合并。
如图3和图4所示的方法可由一个图表合并拆分模型实现,图表合并拆分模型的输入为图表检测模型输出的预测图表区域的位置、大小、图表所在的页码等,以及底层解析得到的图表基本信息,输出为目标图表区域的位置、大小等相关信息;步骤S3042、步骤S3044中任一个可单独进行,也可按照任意顺序依次进行,步骤S4062、步骤S4064、步骤S4066中的任一个可单独进行,也可其中的任两个或三个按照任意顺序依次进行,本公开不作限制。
图5示出了图2中所示的步骤S204在再一实施例中的处理过程示意图。如图5所示,本公开实施例中,上述步骤S204可以进一步包括以下步骤,对预测图表区域进行定位调整。
步骤S502,利用图表检测模型对待处理图像格式页进行图表检测,获得预测图表区域的信息,预测图表区域的信息包括预测图表区域的位置信息、尺寸信息和页码信息。
在一些实施例中,利用图表检测模型对待处理图像格式页进行图表检测的具体实施方式可参照步骤S204。
步骤S504,根据预测图表区域的页码信息,从对待处理PDF文件进行底层解析获得的图表基本信息中,获得待处理图像格式页中与预测图表区域对应的解析图表区域的位置信息和尺寸信息。
步骤S506,根据解析图表区域的位置信息和尺寸信息,对预测图表区域的位置和尺寸进行调整,获得目标图表区域的位置信息和尺寸信息。
在一些实施例中,可根据图表基本信息,检查并调整预测图表区域的位置和大小,确保预测图表区域包含了图表基本信息中对应的图表的范围。
在一些实施例中,可去除预测图表区域中图表基本信息中对应的图表没有的、多余的空白边界部分。
图6为根据图2至图5示出的一种文档版面解析流程的示意图。如图6所示,首先将待处理PDF文件(PDF文档)6002的每一页都转换为图像格式(S602),作为下一步图表检测的算法输入。然后在图表检测步骤(S604),对每一页的图像格式,采用基于深度学习模型的图表检测算法,检测可能的图表目标,包括数据图、非数据图和表格,具体参照步骤S204。接着参考底层解析输出的图表基本信息,决定是否需要将一个检测到的预测图表区域拆分为多个图表区域,或者将多个检测到的预测图表区域合并为一个图表区域(S606),具体参照图3和图4。参考底层解析输出的图表基本信息,对预测图表区域的位置和尺寸按照预设规则进行调整,得到最终目标图表区域输出,具体参照图5。对预测图表区域进行定位调整后的输出,即为文档版面解析后输出的目标图表区域。
根据本公开实施例提供的文档版面解析方法,获得文档中图或表所在的区域,使得每个最终确定的图或表所在目标图表区域中只包含一个图或者表,同时每个图或者表只包含在一个最终确定的目标图表区域中。
图7示出了图2中所示的步骤S206在一实施例中的处理过程示意图。如图7所示,本公开实施例中,上述步骤S206可以进一步包括以下步骤,对大小异常目标图表区域进行筛除。
步骤S702,根据目标图表区域的尺寸信息判断目标图表区域是否尺寸正常。
步骤S704,在判定目标图表区域尺寸正常的情况下,利用图表分类模型对目标图表区域进行分类,获得目标图表区域的图表类别标签。
在一些实施例中,例如,可定义目标图表区域的尺寸异常为宽度小于页面宽度b%的目标图表区域(例如可设置为b%=10%、或b%=15%、或b%=20%等等),参数b可通过在有标注的文档图像训练集上训练得到。这些图表可以是研究报告作者(如券商)的logo等与文档本身内容关联不大的图像内容。
图8是根据图2示出的一种图表标题获得方法的流程示意图。如图8所示,本公开实施例中,数据处理方法20可以进一步包括以下步骤,用于获得目标图表区域的文本标题。
步骤S802,根据目标图表区域的位置信息,获得待处理图像格式页中目标图表区域上方和/或下方预设距离内的目标文本行。
在一些实施例中,可以根据目标图表区域的位置,提取其上方和下方距离图表区域最近的文本行。
步骤S804,利用图表标题模型获得目标文本行是目标图表区域中的目标图表的标题的概率。
在一些实施例中,例如,图表标题模型可以采用FastText算法。FastText是一个基于词向量算法的文本分类模型,将词向量模型和分类模型结合在一起。模型输入为可能的备选图表标题,输出为该文本是图表标题的概率,概率高于预设概率阈值则判定为目标图表的标题。训练模型使用的训练集是由研报中的图表标题、网络上收集到的图表相关语料、以及研报中的其他非标题文本,经标注后汇总形成。
步骤S806,在目标文本行是目标图表的标题的概率大于预设概率阈值时,获得目标图表的标题为目标文本行。
在一些实施例中,如果有多个可能的备选标题,利用图表标题模型判断这些文本行是图/表标题的概率,取概率最高的结果作为对应图/表的标题。
在一些实施例中,如针对多个图/表上下紧邻的情况,对于中间的图表,很可能上下紧邻的文本内容都是图表标题,此时要根据最上方和最下方图/表的标题位置识别结果,采用规则模型确定中间图表的标题位置。
根据本公开实施例提供的目标图表区域的文本标题获得方法,通过分析图表区域上下紧邻的文本,通过概率模型来判断哪些是对应图/表的标题。在PDF文档中,图表的标题可能在图表的上方或下方,或者同一行并列放置两个或多个图表,此时图表对应的标题可能发生混叠,本公开实施例的方法将图表和PDF文档中对应的标题相互匹配,提高文本标题提取的准确率。
图9示出了图2中所示的步骤S208在一实施例中的处理过程示意图。如图9所示,本公开实施例中,上述步骤S208可以进一步包括以下步骤,对数据图类的目标图表区域中的文本内容进行提取。
步骤S902,利用文本检测模型对数据图类的目标图表区域进行文本检测,获得目标图表区域中的目标文本区域。
在一些实施例中,例如,可采用文本检测模型CTPN(Connectionist TextProposal Network,连接文本推荐网络)检测数据图中可能存在的文本并确定文本的位置,这些文本可以包括坐标轴说明、图例以及图中其他相关的文本说明。
步骤S904,通过光学字符识别(Optical Character Recognition,OCR)方法对目标文本区域进行字符识别,获得光学字符识别结果。
在一些实施例中,可采用OCR技术,对数据图中的目标文本区域的图像进行文字识别,输出目标文本区域的图像中的文本信息。
步骤S906,基于对待处理PDF文件进行底层解析获得的图表基本信息,对光学字符识别结果进行修正,获得目标文本区域中的文本信息。
在一些实施例中,可将光学字符识别结果与PDF底层数据解析的图表基本信息做对比,修正OCR文字识别结果,具体实施方式可参照图10。
图10示出了图9中所示的步骤S906在一实施例中的处理过程示意图。如图10所示,本公开实施例中,上述步骤S906可以进一步包括以下步骤,对数据图类的目标图表区域中的文本内容进行提取。
步骤S1002,获得光学字符识别结果中的第一字符串与图表基本信息中的第二字符串的相似度。
在一些实施例中,例如,可采用文本相似度模型,判断图表基本信息中是否包含OCR文字识别的内容。文本相似度模型可通过计算给定OCR文字识别的字符串与对应的图表基本信息中的每个字符串的相似度,判断图表基本信息中是否包含OCR文字识别的内容。文本相似度模型可以采用基于字面匹配的传统模型,比较给定OCR文字识别的字符串与图表基本信息的字符串的字符重叠占比(重叠字符数/图表基本信息中对比字符串字符数),该占比值作为模型输出的文本相似度。
步骤S1004,在第一字符串与第二字符串的相似度大于预设相似度阈值的情况下,将光学字符识别结果中的第一字符串修改为第二字符串。
在一些实施例中,当第一字符串与第二字符串的相似度大于预设相似度阈值c%,认为图表基本信息包含OCR文字识别内容。参数c可通过在有标注的训练集上训练得到。
在一些实施例中,若第一字符串与第二字符串的相似度不大于预设相似度阈值c%,则认为图表基本信息中不包含OCR文字识别的内容,不需对OCR识别结果进行修正。
在另一些实施例中,若图表基本信息中不包含第二字符串,即不包含文字的内容,则说明该数据图为整个图片嵌入,图中的文字无单独嵌入,也不需对OCR识别结果进行修正。
在另一些实施例中,若图表基本信息中包含OCR文字识别的内容,以图片基本信息为准,修正OCR文字识别结果中的相关内容。
图11为根据图9和图10示出的一种数据图内容获取流程的示意图。如图11所示,首先采用文本检测模型CTPN对数据图进行文本检测(S1102),获得目标图表区域中的目标文本区域,具体可参照步骤S902;然后基于OCR技术对目标文本区域进行文本识别(S1104),具体可参照步骤S904;最后基于图表基本信息修正文字识别的结果(S1106),具体可参照步骤S906及图10。
根据本公开实施例提供的方法,对于数据图类的目标图表区域,可在将数据图以图片格式存入数据库的同时,采用数据图的文本检测模型提取数据图中的文本信息后进行OCR识别,并根据图表基本信息进行修正,用于搜索推荐等应用的支持。
下面结合一个实际业务场景对图2至图11中的方法进行描述。图12根据图2至图11示出了一种对研报PDF文档进行图表解析的流程,业务场景运行流程步骤如下:
1.在每个自然日日初,用于实施本公开实施例提供的方法的系统(以下简称“系统”)获取当日新增研报,可以包括公司新购买的和市场上公开的研报,并和元数据一起存入数据库。
2.在每日指定的时间点开始执行研报解析功能:从数据库调取新入库的研报(S1202),并基于PDF文件的底层数据解析方法,提取待处理研报PDF文档中文本和图表的各种信息,包括坐标、旋转、大小、内容等。相关提取结果作为“图表基本信息”,用于后续图表定位和内容提取的辅助信息。
3.系统中的文档版面解析模块开始对每一份新增研报进行处理,以获得切分好的图表区域(S1204)。文档版面解析可以包含以下四个处理流程步骤:
(1)首先将PDF文档的每一页都转换为图像格式,作为下一步图表检测的算法输入。图13示出了一种应用场景中的待处理PDF文档页的图像格式。
(2)在图表检测步骤,对每一页的图像格式,采用基于深度学习算法的图表检测模型,检测包括数据图、非数据图和表格的图表区域(具体实施方式参照图2)。图14是根据图13示出了一种图表检测结果示意图。如图14所示,图13中的“中信证券”logo、“图3”、“图4”和“表2”被检测出来,由方框框出,并且其中“图4”的纵轴数据和其余部分被检测为两个图表区域。
(3)参考流程步骤2提取的图表基本信息,决定是否需要将一个检测到的目标拆分为多个图表区域,或者将多个检测到的目标合并为一个图表区域(具体实施方式参照图3和图4)。图15是根据图14示出了一种图表区域的合并示例图。如图15所示,将图14中的“图4”的纵轴数据和其余部分合并为一个图表区域。
(4)参考流程步骤2提取的图表基本信息,对图表区域的位置和大小进行必要的调整,得到最终图表区域输出(具体实施方式参照图5)。图16是根据图15示出了一种图表区域调整的示例图。如图16所示,将图15中的“图3”的左、右的多余空白部分裁掉。
4.对划定的图表区域进行分类(S1206),得到图表的类别标签,并作为后续不同处理过程应用的依据。分类的具体步骤包括:
(1)去除大小异常区域(具体实施方式参照图7)。图17是根据图16示出了一种异常区域去除的示例图。如图17所示,将图16中的“中信证券”logo的框去掉了,不再作为目标图表区域。
(2)利用图表分类模型进行分类,具体实施方式参照图2。图18是根据图17示出了一种图表分类结果的示例图。如图18所示,将图17中的“图3”、“图4”和“表2”分别被分类为“非数据图”、“数据图”和“表格”。
5.根据图表位置信息,提取所有上下紧邻的文本内容,并利用图表标题分类模型进行是否为图表标题的判断。结合判定结果和图表位置,为图表匹配相应的图表标题(S1208)(具体实施方式参照图8)。
图19是根据图18示出了一种图表上下文本获取的示例图。如图19所示,首先获得图18中的“图3”、“图4”和“表2”的上下紧邻文本,图18中的“图3”的上紧邻文本为“图3:公司地处中国能源化工金三角核心区”,下紧邻文本为“资料来源:公司公告”;图18中的“图3”的上紧邻文本为“图4:国内各地区动力煤平均价对比(2020年)”,下紧邻文本为“资料来源:Wind,中信证券研究部”;图18中的“表2”的上紧邻文本为“表2:公司煤炭采购价格与可比公司对比情况(元/吨)”,下紧邻文本为“资料来源:公司招股说明书,中信证券研究部”。
图20是根据图19示出了一种图表标题匹配的示例图。如图20所示,然后利用图表标题分类模型进行是否为图表标题的判断,并与对应的图表区域进行匹配,获得图18中的“图3”、“图4”和“表2”的标题分别为“图3:公司地处中国能源化工金三角核心区”、“图4:国内各地区动力煤平均价对比(2020年)”、“表2:公司煤炭采购价格与可比公司对比情况(元/吨)”。
6.对于不同类型的图表,提取不同的图表内容(S1208),为搜索等后续任务提供数据支持。对于非数据图,直接将原始图片内容和流程步骤5匹配到的标题存入数据库。对于数据图,除了图片内容和标题内容之外,采用数据图文本提取模型提取其中包含的文本信息,作为数据图的文本内容一起存入数据库(具体实施方式参照图9至图11)。类似地,对于表格,基于PDF文档的底层数据解析结果,提取在表格区域内的所有文本内容,作为表格内容存入数据库,作为图像信息的补充,供相关后续应用使用。图21是根据图18和图20示出了一种图表标题匹配的示例图。如图21所示,将图18中的非数据图“图3”进行了标题文本提取,将图18中的数据图“图4”进行了标题文本提取和图中文本内容提取,将表格“表2”的标题文本和表格中单元格的文本内容进行了提取。
图22是根据图2至图11示出的一种智能投研平台的架构示例图。如图22所示,在数据层2202可以获取公司购买或者市场上公开的券商研报、调研报告、内部研报等;模型层2204可以提供丰富的投研数据和智能化的模型算法,例如包括图表分类模型、OCR模型等的图表解析模型22042和包括版面分析模型、文本分类模型等文本解析模型22044。在应用层2206建立的智能投研平台22062提供搜索推荐、研报精简和研报生成等功能,相关功能均采用了文本和图表两类数据,提供全面的数据支持并丰富用户体验。例如用户可以搜索正文包含某个关键词的研报,也可以搜索图表标题/图表内容中包含该关键词的研报;阅读研报时可以查看各小节的文本摘要,也可以查看对应小节中包含的图表。可见,图表的应用在投研平台各个功能中的重要性不容忽视。
研究员登录智能投研平台22062后,可在搜索框输入感兴趣的题目或者指标,此时搜索引擎按照文本内容和图表标题/图表内容在数据库中进行检索,对两种方式得到的结果进行综合呈现。如果研究员有偏好,可以通过搜索设置来选择只进行文本搜索或只进行图表搜索。图表搜索的好处是可以确保搜到的研报相关性较高,避免纯文本搜索中大量结果只是提到了某个特定词,并没有展开相关内容的情况。
研究员打开某篇研报后,系统会在展示研报正文的同时展示研报的篇章结构、主要指标、文本摘要,以及研报中所含包含的图表等内容,方便研究员快速了解各个章节的主要观点,并通过图表对主要的数据论据有直观的认识。如果发现有自己感兴趣的部分,即可以快速跳转到相关章节,提高研报阅读效率。
本公开实施例提供的智能投研平台,可以帮助研究员进行研报的查找、阅读、分析,并提高编写研报的效率,沉淀投研知识,最终帮助提升公司整体的投研效率和水平。
图23是根据一示例性实施例示出的一种研报搜索方法的流程图。在图23中,第一研究报告可以对应上述实施例中的待处理PDF文件。如图23所示,本公开实施例提供的方法230可以包括以下步骤。
步骤S2302,获取输入的检索词。
在一些实施例中,参照图22,用户可以在智能投研平台22062的搜索界面输入检索词,检索词例如可以是关键词、感兴趣的题目或者指标等等。
步骤S2304,将检索词与第一研究报告的目标图表区域的相关内容进行匹配。
在一些实施例中,参照图2、图8-图10,可获得第一研究报告的目标图表区域的相关内容,第一研究报告的目标图表区域的相关内容可以包括第一研究报告的目标图表区域中的文本信息和目标图表的标题中的至少一种。
步骤S2306,在检索词与第一研究报告的目标图表区域的相关内容匹配成功的情况下,输出第一检索结果,以响应输入检索词的操作,第一检索结果用于表示检索到第一研究报告。
在一些实施例中,智能投研平台22062可以在搜索结果显示界面显示匹配成功的第一研究报告,并且可以显示第一研究报告的各小节的文本摘要。参照图21,根据提取的图表内容,用户也可以查看第一研究报告对应小节中包含的图表。
图24是根据一示例性实施例示出的另一种研报搜索方法的流程图。在图24中,第一研究报告和第二研究报告均可以对应上述实施例中的待处理PDF文件。如图24所示,本公开实施例提供的方法240可以包括以下步骤。
步骤S2402,获取输入的检索词。
步骤S2404,将检索词与第一研究报告的目标图表区域的相关内容进行匹配。
在一些实施例中,步骤S2402和步骤S2404的具体实施方式可参照步骤S2302和步骤S2304。
步骤S2406,将检索词与第二研究报告的文本内容进行匹配。
在一些实施例中,可以获得第二研究报告的文本内容,例如可以采用OCR技术等等识别第二研究报告的文本。
步骤S2408,在检索词与第一研究报告的目标图表区域的相关内容匹配成功,并且检索词与第二研究报告的文本内容匹配成功的情况下,输出第一检索结果,第一检索结果还用于表示检索到第二研究报告、以及第一研究报告的优先级高于第二研究报告。
在一些实施例中,智能投研平台22062中的搜索引擎可以按照文本内容和图表标题/图表内容在数据库中进行检索,对两种方式得到的结果进行综合呈现,例如在第一检索结果中,将图表内容的匹配结果第一研究报告排在文本内容的匹配结果第二研究报告的前面,以表示第一研究报告的优先级高于第二研究报告。
在一些实施例中,如果研究人员有偏好,可以通过智能投研平台22062中的搜索设置来选择只进行文本搜索或只进行图表搜索。
根据本公开实施例提供的研报搜索方法,将检索词与图表内容进行匹配,可以将按照文本内容和图表标题/图表内容在数据库中的检索结果进行综合呈现,可以确保搜到的研报相关性较高,避免纯文本搜索中大量结果只是提到了某个特定词,并没有展开相关内容的情况,提高了检索结果的准确率。图25是根据一示例性实施例示出的一种数据处理装置的框图。如图25所示的装置例如可以应用于上述系统的服务器端,也可以应用于上述系统的终端设备。
参考图25,本公开实施例提供的装置250可以包括待处理图像获得模块2502、图表区域信息获得模块2504、图表区域分类模块2506和图表内容获得模块2508。
待处理图像获得模块2502可用于获取待处理可携带文档格式PDF文件的待处理图像格式页,待处理图像格式页通过将待处理PDF文件中的待处理页格式转换为图像获得。
图表区域信息获得模块2504可用于利用图表检测模型对待处理图像格式页进行图表检测,获得待处理图像格式页的目标图表区域的信息。
图表区域信息获得模块2504还可用于利用图表检测模型对待处理图像格式页进行图表检测,获得预测图表区域的信息,预测图表区域的信息包括至少一个预测图表区域的位置信息、尺寸信息和页码信息;在根据预测图表区域的位置信息确定两个预测图表区域的位置有重叠的情况下,根据两个预测图表区域的位置信息和尺寸信息,确定将两个预测图表区域合并为一个目标图表区域,或调整两个预测图表区域以获得两个位置没有重叠的目标图表区域;和/或在根据预测图表区域的位置信息和页码信息判定存在跨页表格的情况下,将跨页表格对应的两个预测图表区域进行合并,获得跨页表格对应的目标图表区域。
图表区域信息获得模块2504还可用于利用图表检测模型对待处理图像格式页进行图表检测,获得预测图表区域的信息,预测图表区域的信息包括至少一个预测图表区域的位置信息、尺寸信息和页码信息;根据预测图表区域的页码信息,从对待处理PDF文件进行底层解析获得的图表基本信息中,获得待处理图像格式页中的解析图表区域的位置信息和尺寸信息;根据预测图表区域的位置信息和尺寸信息、以及解析图表区域的位置信息和尺寸信息,在判定存在与预测图表区域对应的解析图表区域的情况下,将预测图表区域作为目标图表区域,获得目标图表区域的信息;和/或根据解析图表区域的位置信息和尺寸信息,在判定预测图表区域中是否包含多个图表的情况下,将预测图表区域进行拆分,获得目标图表区域的信息;和/或根据解析图表区域的位置信息和尺寸信息,在判定两个相邻的预测图表区域属于同一个图表的情况下,将两个相邻的预测图表区域进行合并,获得目标图表区域的信息。
目标图表区域的信息包括目标图表区域的位置信息和尺寸信息。
图表区域信息获得模块2504还可用于利用图表检测模型对待处理图像格式页进行图表检测,获得预测图表区域的信息,预测图表区域的信息包括预测图表区域的位置信息、尺寸信息和页码信息;根据预测图表区域的页码信息,从对待处理PDF文件进行底层解析获得的图表基本信息中,获得待处理图像格式页中与预测图表区域对应的解析图表区域的位置信息和尺寸信息;根据解析图表区域的位置信息和尺寸信息,对预测图表区域的位置和尺寸进行调整,获得目标图表区域的位置信息和尺寸信息。
图表区域分类模块2506可用于利用图表分类模型对目标图表区域进行分类,获得目标图表区域的图表类别标签,图表类别标签包括数据图类、非数据图类和表格类。
目标图表区域的信息包括目标图表区域的尺寸信息。
图表区域分类模块2506还可用于根据目标图表区域的尺寸信息判断目标图表区域是否尺寸正常;在判定目标图表区域尺寸正常的情况下,利用图表分类模型对目标图表区域进行分类,获得目标图表区域的图表类别标签。
图表内容获得模块2508可用于根据目标图表区域的图表类别标签,获得待处理PDF文件的待处理图像格式页的目标图表区域的相关内容。
图表内容获得模块2508还可用于根据目标图表区域的位置信息,获得待处理图像格式页中目标图表区域上方和/或下方预设距离内的目标文本行;利用图表标题模型获得目标文本行是目标图表区域中的目标图表的标题的概率;在目标文本行是目标图表的标题的概率大于预设概率阈值时,获得目标图表的标题为目标文本行。
图表内容获得模块2508还可用于:在目标图表区域的图表类别标签为数据图类的情况下,利用文本检测模型对目标图表区域进行文本检测,获得目标图表区域中的目标文本区域;通过光学字符识别方法对目标文本区域进行字符识别,获得光学字符识别结果;基于对待处理PDF文件进行底层解析获得的图表基本信息,对光学字符识别结果进行修正,获得目标文本区域中的文本信息。
图表内容获得模块2508还可用于:获得光学字符识别结果中的第一字符串与图表基本信息中的第二字符串的相似度;在第一字符串与第二字符串的相似度大于预设相似度阈值的情况下,将光学字符识别结果中的第一字符串修改为第二字符串。
目标图表区域的信息包括目标图表区域的位置信息。
图表内容获得模块2508还可用于在目标图表区域的图表类别标签为表格类的情况下,从对待处理PDF文件进行底层解析获得的图表基本信息中,获得待处理图像格式页中与目标图表区域对应的文本内容。
图表内容获得模块2508还可用于在目标图表区域的图表类别标签为非数据图类的情况下,从待处理图像格式页的目标图表区域获取图像格式的目标非数据图。
图26是根据一示例性实施例示出的另一种数据处理装置的框图。如图26所示的装置例如可以应用于上述系统的服务器端,也可以应用于上述系统的终端设备。如图26所示的装置例如可以集成在图25所示的装置中,也可以与其分开设置,在需要时进行信息交互。
参考图26,本公开实施例提供的装置260可以包括检索词获取模块2602、检索词匹配模块2604和检索结果输出模块2606。
检索词获取模块2602可用于获取输入的检索词。
检索词匹配模块2604可用于将检索词与第一研究报告的目标图表区域的相关内容进行匹配。
检索词匹配模块2604还可用于将检索词与第二研究报告的文本内容进行匹配。
检索结果输出模块2606可用于在检索词与第一研究报告的目标图表区域的相关内容匹配成功的情况下,输出第一检索结果,以响应输入检索词的操作,第一检索结果用于表示检索到第一研究报告。
检索结果输出模块2606还可用于在检索词与第一研究报告的目标图表区域的相关内容匹配成功,并且检索词与第二研究报告的文本内容匹配成功的情况下,输出第一检索结果,第一检索结果还用于表示检索到第二研究报告、以及第一研究报告的优先级高于第二研究报告。
本公开实施例提供的装置中的各个模块的具体实现可以参照上述方法中的内容,此处不再赘述。
图27示出本公开实施例中一种电子设备的结构示意图。需要说明的是,图27示出的设备仅以计算机系统为示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图27所示,设备2700包括中央处理单元(CPU)2701,其可以根据存储在只读存储器(ROM)2702中的程序或者从存储部分2708加载到随机访问存储器(RAM)2703中的程序而执行各种适当的动作和处理。在RAM 2703中,还存储有设备2700操作所需的各种程序和数据。CPU2701、ROM 2702以及RAM 2703通过总线2704彼此相连。输入/输出(I/O)接口2705也连接至总线2704。
以下部件连接至I/O接口2705:包括键盘、鼠标等的输入部分2706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分2707;包括硬盘等的存储部分2708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分2709。通信部分2709经由诸如因特网的网络执行通信处理。驱动器2710也根据需要连接至I/O接口2705。可拆卸介质2711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器2710上,以便于从其上读出的计算机程序根据需要被安装入存储部分2708。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分2709从网络上被下载和安装,和/或从可拆卸介质2711被安装。在该计算机程序被中央处理单元(CPU)2701执行时,执行本公开的系统中限定的上述功能。
需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括待处理图像获得模块、图表区域信息获得模块、图表区域分类模块和图表内容获得模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,待处理图像获得模块还可以被描述为“将待处理PDF文件转换为待处理图像格式的模块”。
作为另一方面,本公开还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:
获取待处理可携带文档格式PDF文件的待处理图像格式页,待处理图像格式页通过将待处理PDF文件中的待处理页格式转换为图像获得;利用图表检测模型对待处理图像格式页进行图表检测,获得待处理图像格式页的目标图表区域的信息;利用图表分类模型对目标图表区域进行分类,获得目标图表区域的图表类别标签,图表类别标签包括数据图类、非数据图类和表格类;根据目标图表区域的图表类别标签,获得待处理PDF文件的待处理图像格式页的目标图表区域的相关内容。
以上具体地示出和描述了本公开的示例性实施例。应可理解的是,本公开不限于这里描述的详细结构、设置方式或实现方法;相反,本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

Claims (15)

1.一种数据处理方法,其特征在于,包括:
获取待处理可携带文档格式PDF文件的待处理图像格式页,所述待处理图像格式页通过将所述待处理PDF文件中的待处理页格式转换为图像获得;
利用图表检测模型对所述待处理图像格式页进行图表检测,获得所述待处理图像格式页的目标图表区域的信息;
利用图表分类模型对所述目标图表区域进行分类,获得所述目标图表区域的图表类别标签,所述图表类别标签包括数据图类、非数据图类和表格类;
根据所述目标图表区域的图表类别标签,获得所述待处理PDF文件的待处理图像格式页的目标图表区域的相关内容。
2.根据权利要求1所述的方法,其特征在于,根据所述目标图表区域的图表类别标签,获得所述待处理PDF文件的待处理图像格式页的目标图表区域的相关内容,包括:
在所述目标图表区域的图表类别标签为数据图类的情况下,利用文本检测模型对所述目标图表区域进行文本检测,获得所述目标图表区域中的目标文本区域;
通过光学字符识别方法对所述目标文本区域进行字符识别,获得光学字符识别结果;
基于对所述待处理PDF文件进行底层解析获得的图表基本信息,对所述光学字符识别结果进行修正,获得所述目标文本区域中的文本信息。
3.根据权利要求2所述的方法,其特征在于,基于对所述待处理PDF文件进行底层解析获得的图表基本信息,对所述光学字符识别结果进行修正,包括:
获得所述光学字符识别结果中的第一字符串与所述图表基本信息中的第二字符串的相似度;
在所述第一字符串与所述第二字符串的相似度大于预设相似度阈值的情况下,将所述光学字符识别结果中的第一字符串修改为所述第二字符串。
4.根据权利要求1所述的方法,其特征在于,所述目标图表区域的信息包括所述目标图表区域的尺寸信息;
所述方法还包括:
根据所述目标图表区域的尺寸信息判断所述目标图表区域是否尺寸正常;
利用图表分类模型对所述目标图表区域进行分类,获得所述目标图表区域的图表类别标签,包括:
在判定所述目标图表区域尺寸正常的情况下,利用图表分类模型对所述目标图表区域进行分类,获得所述目标图表区域的图表类别标签。
5.根据权利要求1所述的方法,其特征在于,所述目标图表区域的信息包括所述目标图表区域的位置信息;
所述方法还包括:
根据所述目标图表区域的位置信息,获得所述待处理图像格式页中所述目标图表区域上方和/或下方预设距离内的目标文本行;
利用图表标题模型获得所述目标文本行是所述目标图表区域中的目标图表的标题的概率;
在所述目标文本行是所述目标图表的标题的概率大于预设概率阈值时,获得所述目标图表的标题为所述目标文本行。
6.根据权利要求1所述的方法,其特征在于,利用图表检测模型对所述待处理图像格式页进行图表检测,获得所述待处理图像格式页的目标图表区域的信息,包括:
利用所述图表检测模型对所述待处理图像格式页进行图表检测,获得预测图表区域的信息,所述预测图表区域的信息包括至少一个预测图表区域的位置信息、尺寸信息和页码信息;
在根据预测图表区域的位置信息确定两个预测图表区域的位置有重叠的情况下,根据所述两个预测图表区域的位置信息和尺寸信息,确定将所述两个预测图表区域合并为一个目标图表区域,或调整所述两个预测图表区域以获得两个位置没有重叠的目标图表区域;和/或
在根据所述预测图表区域的位置信息和页码信息判定存在跨页表格的情况下,将所述跨页表格对应的两个预测图表区域进行合并,获得所述跨页表格对应的目标图表区域。
7.根据权利要求1所述的方法,其特征在于,利用图表检测模型对所述待处理图像格式页进行图表检测,获得所述待处理图像格式页的目标图表区域的信息,包括:
利用所述图表检测模型对所述待处理图像格式页进行图表检测,获得预测图表区域的信息,所述预测图表区域的信息包括至少一个预测图表区域的位置信息、尺寸信息和页码信息;
根据预测图表区域的页码信息,从对所述待处理PDF文件进行底层解析获得的图表基本信息中,获得所述待处理图像格式页中的解析图表区域的位置信息和尺寸信息;
根据所述预测图表区域的位置信息和尺寸信息、以及所述解析图表区域的位置信息和尺寸信息,在判定存在与所述预测图表区域对应的解析图表区域的情况下,将所述预测图表区域作为所述目标图表区域,获得所述目标图表区域的信息;和/或
根据所述解析图表区域的位置信息和尺寸信息,在判定所述预测图表区域中是否包含多个图表的情况下,将所述预测图表区域进行拆分,获得所述目标图表区域的信息;和/或
根据所述解析图表区域的位置信息和尺寸信息,在判定两个相邻的预测图表区域属于同一个图表的情况下,将所述两个相邻的预测图表区域进行合并,获得所述目标图表区域的信息。
8.根据权利要求1所述的方法,其特征在于,所述目标图表区域的信息包括所述目标图表区域的位置信息和尺寸信息;
利用图表检测模型对所述待处理图像格式页进行图表检测,获得所述待处理图像格式页的目标图表区域的信息,包括:
利用所述图表检测模型对所述待处理图像格式页进行图表检测,获得预测图表区域的信息,所述预测图表区域的信息包括预测图表区域的位置信息、尺寸信息和页码信息;
根据预测图表区域的页码信息,从对所述待处理PDF文件进行底层解析获得的图表基本信息中,获得所述待处理图像格式页中与所述预测图表区域对应的解析图表区域的位置信息和尺寸信息;
根据所述解析图表区域的位置信息和尺寸信息,对所述预测图表区域的位置和尺寸进行调整,获得所述目标图表区域的位置信息和尺寸信息。
9.根据权利要求1所述的方法,其特征在于,根据所述目标图表区域的图表类别标签,获得所述待处理PDF文件的待处理图像格式页的目标图表区域的相关内容,包括:
在所述目标图表区域的图表类别标签为表格类的情况下,从对所述待处理PDF文件进行底层解析获得的图表基本信息中,获得所述待处理图像格式页中与所述目标图表区域对应的文本内容。
10.根据权利要求1所述的方法,其特征在于,根据所述目标图表区域的图表类别标签,获得所述待处理PDF文件的待处理图像格式页的目标图表区域的相关内容,包括:
在所述目标图表区域的图表类别标签为非数据图类的情况下,从待处理图像格式页的目标图表区域获取图像格式的目标非数据图。
11.根据权利要求1所述的方法,其特征在于,所述待处理PDF文件包括第一研究报告;
获得所述待处理PDF文件的待处理图像格式页的目标图表区域的相关内容,包括:
获得所述第一研究报告的目标图表区域的相关内容,所述第一研究报告的目标图表区域的相关内容包括所述第一研究报告的目标图表区域中的文本信息和目标图表的标题中的至少一种;
所述方法还包括:
获取输入的检索词;
将所述检索词与所述第一研究报告的目标图表区域的相关内容进行匹配;
在所述检索词与所述第一研究报告的目标图表区域的相关内容匹配成功的情况下,输出第一检索结果,以响应输入所述检索词的操作,所述第一检索结果用于表示检索到所述第一研究报告。
12.根据权利要求11所述的方法,其特征在于,所述待处理PDF文件还包括第二研究报告;
所述方法还包括:
获得所述第二研究报告的文本内容;
将所述检索词与所述第二研究报告的文本内容进行匹配;
在所述检索词与所述第一研究报告的目标图表区域的相关内容匹配成功的情况下,输出第一检索结果,包括:
在所述检索词与所述第一研究报告的目标图表区域的相关内容匹配成功,并且所述检索词与所述第二研究报告的文本内容匹配成功的情况下,输出所述第一检索结果,所述第一检索结果还用于表示检索到所述第二研究报告、以及所述第一研究报告的优先级高于所述第二研究报告。
13.一种数据处理装置,其特征在于,包括:
待处理图像获得模块,用于获取待处理可携带文档格式PDF文件的待处理图像格式页,所述待处理图像格式页通过将所述待处理PDF文件中的待处理页格式转换为图像获得;
图表区域信息获得模块,用于利用图表检测模型对所述待处理图像格式页进行图表检测,获得所述待处理图像格式页的目标图表区域的信息;
图表区域分类模块,用于利用图表分类模型对所述目标图表区域进行分类,获得所述目标图表区域的图表类别标签,所述图表类别标签包括数据图类、非数据图类和表格类;
图表内容获得模块,用于根据所述目标图表区域的图表类别标签,获得所述待处理PDF文件的待处理图像格式页的目标图表区域的相关内容。
14.一种设备,包括:存储器、处理器及存储在所述存储器中并可在所述处理器中运行的可执行指令,其特征在于,所述处理器执行所述可执行指令时实现如权利要求1-12任一项所述的方法。
15.一种计算机可读存储介质,其上存储有计算机可执行指令,其特征在于,所述可执行指令被处理器执行时实现如权利要求1-12任一项所述的方法。
CN202111462781.2A 2021-11-30 2021-11-30 数据处理方法、装置、设备及存储介质 Pending CN114359924A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111462781.2A CN114359924A (zh) 2021-11-30 2021-11-30 数据处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111462781.2A CN114359924A (zh) 2021-11-30 2021-11-30 数据处理方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114359924A true CN114359924A (zh) 2022-04-15

Family

ID=81097957

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111462781.2A Pending CN114359924A (zh) 2021-11-30 2021-11-30 数据处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114359924A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116110051A (zh) * 2023-04-13 2023-05-12 合肥机数量子科技有限公司 一种文件信息处理方法、装置、计算机设备及存储介质
CN116127047A (zh) * 2023-04-04 2023-05-16 北京大学深圳研究生院 企业信息库的建立方法与装置
CN117473980A (zh) * 2023-11-10 2024-01-30 中国医学科学院医学信息研究所 一种便携式文档格式文件的结构化解析方法及相关产品

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116127047A (zh) * 2023-04-04 2023-05-16 北京大学深圳研究生院 企业信息库的建立方法与装置
CN116110051A (zh) * 2023-04-13 2023-05-12 合肥机数量子科技有限公司 一种文件信息处理方法、装置、计算机设备及存储介质
CN117473980A (zh) * 2023-11-10 2024-01-30 中国医学科学院医学信息研究所 一种便携式文档格式文件的结构化解析方法及相关产品

Similar Documents

Publication Publication Date Title
US11244208B2 (en) Two-dimensional document processing
CN114359924A (zh) 数据处理方法、装置、设备及存储介质
CN110334346B (zh) 一种pdf文件的信息抽取方法和装置
AU2007317938B2 (en) Media material analysis of continuing article portions
US8849725B2 (en) Automatic classification of segmented portions of web pages
CN109635120B (zh) 知识图谱的构建方法、装置和存储介质
US20200082218A1 (en) Optical character recognition using end-to-end deep learning
KR101769918B1 (ko) 이미지로부터 텍스트 추출을 위한 딥러닝 기반 인식장치
US8208737B1 (en) Methods and systems for identifying captions in media material
US20120005686A1 (en) Annotating HTML Segments With Functional Labels
CN112800848A (zh) 票据识别后信息结构化提取方法、装置和设备
US8804139B1 (en) Method and system for repurposing a presentation document to save paper and ink
CN111274239A (zh) 试卷结构化处理方法、装置和设备
US20210279411A1 (en) Visual data mapping
CA3119249C (en) Querying semantic data from unstructured documents
US20220121668A1 (en) Method for recommending document, electronic device and storage medium
EP4165554A1 (en) Semantic representation of text in document
Tomovic et al. Aligning document layouts extracted with different OCR engines with clustering approach
US20220301285A1 (en) Processing picture-text data
JP2016110256A (ja) 情報処理装置及び情報処理プログラム
He et al. Bar charts detection and analysis in biomedical literature of PubMed Central
CN113486171B (zh) 一种图像处理方法及装置、电子设备
CN115186240A (zh) 基于关联性信息的社交网络用户对齐方法、装置、介质
CN113486148A (zh) Pdf文件的转换方法、装置、电子设备以及计算机可读介质
CN113806472A (zh) 一种对文字图片和图像型扫描件实现全文检索的方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination