CN113673294A - 文献关键信息的提取方法、装置、计算机设备和存储介质 - Google Patents

文献关键信息的提取方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN113673294A
CN113673294A CN202110509831.1A CN202110509831A CN113673294A CN 113673294 A CN113673294 A CN 113673294A CN 202110509831 A CN202110509831 A CN 202110509831A CN 113673294 A CN113673294 A CN 113673294A
Authority
CN
China
Prior art keywords
text
document image
regions
image data
areas
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110509831.1A
Other languages
English (en)
Inventor
张飞
孙腾腾
穆玉芝
项茂清
康健
梁波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Chaoyun Life Intelligence Industry Research Institute Co ltd
Original Assignee
Suzhou Chaoyun Life Intelligence Industry Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Chaoyun Life Intelligence Industry Research Institute Co ltd filed Critical Suzhou Chaoyun Life Intelligence Industry Research Institute Co ltd
Priority to CN202110509831.1A priority Critical patent/CN113673294A/zh
Publication of CN113673294A publication Critical patent/CN113673294A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Character Input (AREA)

Abstract

本申请涉及一种文献关键信息的提取方法、装置、计算机设备和存储介质。其方法通过获取待检测的文献图像数据,对文献图像数据进行区域检测,并基于得到的若干个区域对应的区域类别和坐标信息确定若干个区域的逻辑顺序,通过识别若干个区域中的文本内容,基于若干个区域的逻辑顺序对应获取与文本内容对应的文本块,若相邻的两个文本块分别对应的文本内容为同一段落,则合并相邻的两个文本块对应的文本内容,得到合并后的文本块,并根据文本块对应的文本内容确定每一个文本块对应的文本类型,从而可以基于目标文本类型从文献图像数据中提取关键信息。由于其整个过程无需人为参与,因此,极大地提高了从文献图像数据中提取关键信息的效率。

Description

文献关键信息的提取方法、装置、计算机设备和存储介质
技术领域
本申请涉及文本识别技术领域,特别是涉及一种文献关键信息的提取方法、装置、计算机设备和存储介质。
背景技术
随着文本识别技术的发展,基于深度学习的文本检测及文本识别技术得到较为快速的发展。
传统技术中,对于提取PDF中的文献内容,通常是通过应用PDF解析算法和Office文件重构算法将该PDF文献转换为对应的可编辑文档。而对于通过扫描图像合成的PDF文献,则难以实现能够保留原有逻辑结构的文献内容的提取。且目前对于文献中正文关键信息的提取,多是通过人眼观察然后进行拷贝实现。
然而,通过解析PDF算法提取文献内容的应用范围较窄,而人工拷贝文献正文关键信息的方式则耗时耗力,导致关键信息的提取效率低。
发明内容
基于此,有必要针对上述通过人工拷贝的方式从文献图像数据中提取关键信息效率低的问题,提供一种文献关键信息的提取方法、装置、计算机设备和存储介质。
一种文献关键信息的提取方法,所述方法包括:
获取待检测的文献图像数据,对所述文献图像数据进行区域检测,得到所述文献图像中的若干个区域以及所述区域对应的区域类别和坐标信息;
基于若干个区域对应的区域类别和坐标信息确定所述若干个区域的逻辑顺序;
识别所述若干个区域中的文本内容,基于所述若干个区域的逻辑顺序对应获取与所述文本内容对应的文本块;
若相邻的两个文本块分别对应的文本内容为同一段落,则合并相邻的两个文本块对应的文本内容,得到合并后的文本块;
根据所述文本块对应的文本内容确定每一个文本块对应的文本类型,基于目标文本类型提取对应的文本内容作为所述文献图像数据的关键信息。
在其中一个实施例中,所述识别所述若干个区域中的文本内容之后,所述方法还包括:对每一个区域中的文本内容进行纠错处理,得到对每一个区域进行纠错处理后的文本内容。
在其中一个实施例中,所述对每一个区域中的文本内容进行纠错处理,包括:识别所述区域对应的文本内容中的异常字符;若预先设置的纠错字典中不存在所述异常字符,则生成所述文本内容的纠错候选集,所述纠错候选集中包括多个候选文本;根据预先设置的语言模型获取每个候选文本的困惑度,基于所述困惑度最小的候选文本纠正所述区域中的文本内容。
在其中一个实施例中,所述基于所述困惑度最小的候选文本纠正所述区域中的文本内容,包括:获取所述困惑度最小的候选文本与所述区域对应的文本内容之间的似度;若所述相似度达到设定阈值,则将所述困惑度最小的候选文本作为所述区域纠错处理后的文本内容。
在其中一个实施例中,所述基于若干个区域对应的区域类别和坐标信息确定所述若干个区域的逻辑顺序,包括:基于若干个区域对应的区域类别和坐标信息,采用树形结构分析算法进行分析处理,得到若干个区域的逻辑顺序。
在其中一个实施例中,所述识别所述若干个区域中的文本内容,基于所述若干个区域的逻辑顺序对应获取与所述文本内容对应的文本块,包括:采用文本检测模型对所述文献图像数据进行文本检测,得到若干个文本检测框以及对应的坐标信息;根据所述文献图像中的若干个区域与若干个文本检测框之间的位置关系,确定每一个文本检测框对应的区域;通过对每个区域中的各个文本检测框进行文字识别,得到与各个区域对应的文本块,所述文本块中包括识别得到的文本内容;基于所述若干个区域的逻辑顺序对相应的文本块进行排序。
在其中一个实施例中,所述根据所述文本块对应的文本内容确定每一个文本块对应的文本类型,包括:对所述文本块对应的文本内容进行类型检测,得到所述文本块对应的文本类型。
一种文献关键信息的提取装置,所述装置包括:
数据获取模块,用于获取待检测的文献图像数据,对所述文献图像数据进行区域检测,得到所述文献图像中的若干个区域以及所述区域对应的区域类别和坐标信息;
顺序确定模块,用于基于若干个区域对应的区域类别和坐标信息确定所述若干个区域的逻辑顺序;
文本识别模块,用于识别所述若干个区域中的文本内容,基于所述若干个区域的逻辑顺序对应获取与所述文本内容对应的文本块;
文本块处理模块,用于若相邻的两个文本块分别对应的文本内容为同一段落,则合并相邻的两个文本块对应的文本内容,得到合并后的文本块;
关键信息提取模块,用于根据所述文本块对应的文本内容确定每一个文本块对应的文本类型,基于目标文本类型提取对应的文本内容作为所述文献图像数据的关键信息。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上方法所示的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上方法所示的步骤。
上述文献关键信息的提取方法、装置、计算机设备和存储介质,通过获取待检测的文献图像数据,对文献图像数据进行区域检测,得到文献图像中的若干个区域以及区域对应的区域类别和坐标信息,基于若干个区域对应的区域类别和坐标信息确定若干个区域的逻辑顺序,并识别若干个区域中的文本内容,基于若干个区域的逻辑顺序对应获取与文本内容对应的文本块,若相邻的两个文本块分别对应的文本内容为同一段落,则合并相邻的两个文本块对应的文本内容,得到合并后的文本块,并根据文本块对应的文本内容确定每一个文本块对应的文本类型,从而可以基于目标文本类型从文献图像数据中提取关键信息。由于其整个过程无需人为参与,因此,极大地提高了从文献图像数据中提取关键信息的效率。
附图说明
图1为一个实施例中文献关键信息的提取方法的流程示意图;
图2为一个实施例中文献图像数据排版结构的效果示意图;
图3为另一个实施例中文献关键信息的提取方法的流程示意图;
图4为一个实施例中区域检测的效果示意图;
图5为一个实施例中确定区域的逻辑顺序的效果示意图;
图6为另一个实施例中确定区域的逻辑顺序的效果示意图;
图7为一个实施例中识别文本内容的效果示意图;
图8为一个实施例中文本块合并判别的效果示意图;
图9为一个实施例中文献关键信息的提取装置的结构框图;
图10为一个实施例中计算机设备的内部结构图;
图11为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种文献关键信息的提取方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。在本实施例中,该方法可以包括以下步骤:
步骤102,获取待检测的文献图像数据,对文献图像数据进行区域检测。
其中,文献图像数据可以是通过扫描文献得到的图像数据,或是对扫描文献得到的图像数据进行合成的PDF数据。具体地,文献可以是具有历史意义或研究价值的图书、期刊、典章或论文等。一篇文献通常包括标题、作者、作者信息、正文、图表信息、致谢、参考文献以及版本号等部分。一方面,文献的正文部分是文献挖掘等技术所需要的关键数据;另一方面,文献的作者、作者信息以及参考文献等内容对于构建基于文献的知识图谱具有极大的辅助作用。因此,本申请基于此种场景提出了一种对文献图像数据中的文献关键信息进行提取的方法。
在本实施例中,待检测的文献图像数据则是待要进行文献关键信息提取的文献图像数据。区域检测则是基于实例分割对文献图像数据进行文档版面识别的过程。具体地,文献图像数据中可以包括多个文献图像,通过获取待检测的文献图像数据,并对文献图像数据进行区域检测,从而得到每一个文献图像中的若干个区域以及与每个区域对应的区域类别和坐标信息。在本实施例中,对于文献图像数据中的文档段落也需要进行实例化提取,即对于文献图像中的每一个文档段落提取为一个对应的区域。其中,区域是指通过实例分割对文献图像数据进行文档版面识别后得到的各个感兴趣区域。区域类别则是指区域对应类别,例如,区域类别可以包括标题、图像、表格、正文以及列表等。坐标信息则是指区域对应的连通域外接框的顶点坐标,可以反应该区域在对应文献图像数据中的位置。
步骤104,基于若干个区域对应的区域类别和坐标信息确定若干个区域的逻辑顺序。
其中,逻辑顺序是基于文献图像数据的原有排版,对若干个区域的结构顺序进行梳理后得到的各个区域之间的排列顺序。在本实施例,基于若干个区域对应的区域类别和坐标信息确定若干个区域的逻辑顺序。具体地,如果文献图像数据的原有排版结构仅是单栏(如图2中左起第一副图片的排版格式),则可根据每个区域的坐标信息的高低顺序确定各个区域的排列顺序。如果文献图像数据的原有排版结构为2栏(如图2中左起第二副图片的排版格式)或3栏(如图2中左起第三副图片的排版格式),则需要结合各个区域对应的区域类别和坐标信息进行层次嵌套分析,进而确定各个区域的排列顺序。
步骤106,识别若干个区域中的文本内容,基于若干个区域的逻辑顺序对应获取与文本内容对应的文本块。
其中,文本内容是指对区域进行文本检测后得到区域中的文字内容。文本块则是对区域进行文本检测后得到的对应文本内容的块。在本实施例中,基于若干区域的逻辑顺序,对若干个区域进行文本检测,从而得到与每个区域对应的文本内容的文本块。
步骤108,若相邻的两个文本块分别对应的文本内容为同一段落,则合并相邻的两个文本块对应的文本内容,得到合并后的文本块。
具体地,对于文献图像中排版的句子或段落因分栏、分页被切分开时,使得原本一个完整的段落被划分为多个段落片段,导致上述得到的文本块中的文本内容具有不完整性。因此,在本实施例中,基于语句识别技术对相邻两个文本块分别对应的文本内容进行识别,以判断前后是否有逻辑关系,即判断两个文本块分别对应的文本内容是否能组成一个通顺的句子。若两个文本块分别对应的文本内容能够组成一个通顺的句子,则表示该相邻两个文本块分别对应的文本内容为同一段落,因此,合并该相邻两个文本块对应的文本内容,从而得到合并后的文本块。可以理解的是,若两个文本块分别对应的文本内容不能组成一个通顺的句子,则表示该相邻两个文本块分别对应的文本内容为独立的段落,则不对文本块进行合并。
步骤110,根据文本块对应的文本内容确定每一个文本块对应的文本类型,基于目标文本类型提取对应的文本内容作为文献图像数据的关键信息。
其中,文本类型是基于文献的各个组成部分对文本内容进行分类后得到的对应类别。具体地,文献的各个组成部分包括但不限于标题、作者、作者信息、正文、图表信息、致谢、参考文献以及版本号等。目标文本类型则是指要从文献图像数据中抽取内容的类型。关键信息则是从文献图像数据中抽取的内容。在本实施例中,通过对每一个文本块对应的文本内容进行类型检测,从而得到该文本块对应的文本类型,进而可以基于目标文本类型提取对应的文本内容作为文献图像数据的关键信息。
上述文献关键信息的提取方法中,通过获取待检测的文献图像数据,对文献图像数据进行区域检测,得到文献图像中的若干个区域以及区域对应的区域类别和坐标信息,基于若干个区域对应的区域类别和坐标信息确定若干个区域的逻辑顺序,并识别若干个区域中的文本内容,基于若干个区域的逻辑顺序对应获取与文本内容对应的文本块,若相邻的两个文本块分别对应的文本内容为同一段落,则合并相邻的两个文本块对应的文本内容,得到合并后的文本块,并根据文本块对应的文本内容确定每一个文本块对应的文本类型,从而可以基于目标文本类型从文献图像数据中提取关键信息。由于其整个过程无需人为参与,因此,极大地提高了从文献图像数据中提取关键信息的效率。
在一个实施例中,如图3所示,在识别若干个区域中的文本内容之后,上述方法还包括:步骤107,对每一个区域对应的文本内容进行纠错处理,得到对每一个区域进行纠错处理后的文本内容。
其中,纠错处理是指对文本内容中出现的错误进行纠正。由于文献图像数据是通过扫描文献得到的图像数据,而图像数据的质量又受到光线、扫描设备等的影响。当图像数据的质量较差时,又会影响识别到的文本内容的准确度。因此,在本实施例中,在识别到若干个区域中的文本内容之后,还需要对区域中的文本内容进行正确性检测,并在检测到文本内容存在错误时,对其进行纠正处理,从而得到正确的文本内容。
具体地,本实施例中可以采用预设的纠错字典和语言模型相结合的方式对因光线、扫描等原因造成的图片模糊,并导致文本识别的错误进行纠正。其中,语言模型是利用大量符合拼写规则、语义和语法的句子,并通过统计模型或者神经网络模型训练出来的数学模型,用以判断上述识别的文本内容是否合理。纠错字典则是为防止对特殊字符进行过度纠正而预先设置的特殊字符的集合,其中,特殊字符可以是基因、术语等的缩略语或简称等。在本实施例中,通过识别区域对应的文本内容中的异常字符,若纠错字典中不存在该异常字符,则进一步判断文本内容中的句子是否合理。具体可以利用PubMed提供的摘要数据集以及收集的网页数据并通过kenlm工具来训练kenlm模型以判断文本内容的合理性。而对于英文单词的纠正,一般是相似字母的错误,可以利用插入、删除、替换等操作,可以构建出一个与当前文本内容相似的候选文本。因此,对于判断为不合理的文本内容,可以生成该文本内容的纠错候选集,其中,纠错候选集中包括多个候选文本。
进而利用语言模型评估纠错候选集中各候选文本的困惑度,其中,困惑度是用来度量一个概率分布或者概率模型预测样本的好坏程度,一般来说,困惑度越小,则效果越好。因此,在本实施例中,可以基于困惑度最小的候选文本纠正对应区域中的文本内容。即取困惑度最小的候选文本作为该区域最终纠正后的文本内容,以提高区域中文本内容的准确度。
进一步地,为了防止模型的过度纠正,还可以进一步计算区域对应的文本内容与对应困惑度最小的候选文本之间的相似度,只有当两者的相似度达到设定阈值时,才将该困惑度最小的候选文本作为对应区域纠错处理后的文本内容,以进一步提高区域中文本内容的准确度。
在一个实施例中,可以采用训练完成的文档版面分析模型对文献图像数据进行区域检测。具体地,文档版面分析模型应用了实例分割算法,不仅可以实现各感兴趣区域的检测,还能实现感兴趣区域的实例划分。具体地,本实施例中感兴趣区域包括但不限于标题(title)、图像(figure)、表格(table)、正文(text)、列表(list)等不同类别的区域。如图4左边的图像为某一待检测的文献图像数据,该图像数据中包含多个段落,并含有图像、标题以及正文等。文档版面分析模型在对该图像数据进行区域检测时,可以基于从图像数据中提取的特征信息进行区域划分和类别划分,从而输出图像数据中的各个区域以及与各区域对应的区域类别和坐标信息。如图4右边的图像则为对图4左边的图像进行区域检测后得到检测结果的效果展示图,图4右边的图像中各颜色区域块代表检测到的一个区域,且标注了各区域对应的区域类别。
在一个实施例中,上述基于若干个区域对应的区域类别和坐标信息确定若干个区域的逻辑顺序,具体包括:基于若干个区域对应的区域类别和坐标信息,采用树形结构分析算法进行分析处理,得到若干个区域的逻辑顺序。
具体地,在对文献图像数据进行区域检测后,则根据区域对应的区域类别和坐标信息进一步对各区域的结构顺序进行梳理,依次实现各级别的划分,并确定下级所对应的上级,实现各区域的逻辑化树状结构输出。
举例来说,如果文献图像数据中的排版结构仅是单栏(如图2中左起第一副图片的效果),便可根据区域的坐标信息的高地顺序进行区域输出。但是由于常见的文献排版多为2栏或3栏(如图2中左起第三和第三副图片的效果),因此,不可仅仅根据区域坐标信息的高低顺序进行段落输出。则基于区域的坐标信息确定区域是否居中,以及确定该区域的左右两侧是否存在其他区域,从而判断该区域是否为一级区域,如图5左侧图片所示为一级区域位置效果图。通常一级区域包括表格、图像、标题等。然后,依据一级区域的坐标信息及其他区域的坐标信息对除一级区域的其他区域进行划分,设定当前一级区域与下一个一级区域中间的区域为当前一级区域的子区域,图5右侧图片所示则为一级区域及其所属子区域的区域框标识。最后,确定一级区域的子区域是否还存在子区域,如若有子区域,将划分三级区域。完成区域级别划分后,不同级另的区域按所属关系先一级然后二级最后三级进行排列,同一级区域先进行关系判断,有分栏情况,先左后右;无分栏情况,先上后下,从而实现各区域的逻辑化树状结构输出。图6为对图5右侧图片中各区域的排序效果图。
在一个实施例中,上述识别若干个区域中的文本内容,基于若干个区域的逻辑顺序对应获取与文本内容对应的文本块,具体包括:采用文本检测模型对文献图像数据进行文本检测,得到若干个文本检测框以及对应的坐标信息;根据文献图像中的若干个区域与若干个文本检测框之间的位置关系,确定每一个文本检测框对应的区域;通过对每个区域中的各个文本检测框进行文字识别,得到与各个区域对应的文本块,文本块中包括识别得到的文本内容;基于若干个区域的逻辑顺序对相应的文本块进行排序。
具体地,对上述完成排序的图像数据的各个区域需要提取对应的文本内容,进而可以实现关键信息的提取。在本实施例中,首先应用已训练完成的文本检测模型对文献图像数据进行文本检测,得到若干个文本检测框以及对应的坐标信息;然后结合图像中的若干个区域与文本检测框之间的位置关系确定各文本检测框对应的区域;进而将各区域中的文本检测框传入已训练完成的文字识别模型中进行文字识别;最后结合各区域中文本检测框之间的位置关系进行排序,按序输出各文本检测框对应的文本,以实现区域中文本信息的输出,即得到各区域对应的文本内容。图7左起第一副图片为基于训练完成的文本检测模型所预测的文本检测框效果图,图7左起第二副图片为单个区域中的文本检测框效果图,图7左起第三副图片为第二副图片中所示对应区域中文本检测框基于训练完成的文字识别模型预测的文本信息。
在一个实施例中,由于版面排版及分页展示的文献内容表现形式使得原本完整段落被划分为多个段落片段,导致上述部分文本块内容具有不完整性,因此需要对相邻的文本块进行前后句子的预测,判断文本块之间是否相关。具体地,可以采用预训练语言模型与判别模型相结合的方式,首先基于语言模型对相邻的两个文本块内容进行特征提取,然后基于判别模型对提取的特征信息进行判别,判断前后是否存在逻辑关系,即判断两个文本块分别对应的文本内容是否能组成一个通顺的句子。因此输入判别模型的是两个文本块分别对应的文本内容,中间通过特殊标识符进行分隔,判别模型相对应的输出为概率值。图8中的左侧部分标识的文本块1和文本块2为具有逻辑顺序的相邻的两个文本块,从图中可以看出,该两个文本块对应的文本内容原本为同一段落信息。图8中的右侧部分为经过语句判别模型对两个文本块内容进行判别的结果,其中scales为预测为同一段的分值,也即概率值。
在一个实施例中,上述根据文本块对应的文本内容确定每一个文本块对应的文本类型,包括:对文本块对应的文本内容进行类型检测,得到文本块对应的文本类型。
具体地,文本类型是基于文献的各个组成部分对文本内容进行分类后得到的对应类别,包括但不限于标题、作者、作者信息、正文、图表信息、致谢、参考文献以及版本号等。虽然基于区域对各个段落进行文本信息检测识别,能够提取出各段落的文本信息,但是,却难以确定关键信及非关键信息,从而无法满足业务场景下的需求。因此,在本实施例中,可以利用RoBerta预训练模型对上述每一个文本块对应的文本内容进行语义识别;然后通过BLSTM网络层,注意力层和全连接层,对识别到的特征信息进一步加工处理,以确定文本的正确分类。进而可以基于目标文本类型提取对应的文本内容作为文献图像数据的关键信息,以实现文献关键信息的提取。
应该理解的是,虽然图1-图8的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-图8中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图9所示,提供了一种文献关键信息的提取装置,包括:数据获取模块902、顺序确定模块904、文本识别模块906、文本块处理模块908和关键信息提取模块910,其中:
数据获取模块902,用于获取待检测的文献图像数据,对所述文献图像数据进行区域检测,得到所述文献图像中的若干个区域以及所述区域对应的区域类别和坐标信息;
顺序确定模块904,用于基于若干个区域对应的区域类别和坐标信息确定所述若干个区域的逻辑顺序;
文本识别模块906,用于识别所述若干个区域中的文本内容,基于所述若干个区域的逻辑顺序对应获取与所述文本内容对应的文本块;
文本块处理模块908,用于若相邻的两个文本块分别对应的文本内容为同一段落,则合并相邻的两个文本块对应的文本内容,得到合并后的文本块;
关键信息提取模块910,用于根据所述文本块对应的文本内容确定每一个文本块对应的文本类型,基于目标文本类型提取对应的文本内容作为所述文献图像数据的关键信息。
在一个实施例中,所述装置还包括纠错处理模块,用于对每一个区域中的文本内容进行纠错处理,得到对每一个区域进行纠错处理后的文本内容。
在一个实施例中,纠错处理模块具体用于:识别所述区域对应的文本内容中的异常字符;若预先设置的纠错字典中不存在所述异常字符,则生成所述文本内容的纠错候选集,所述纠错候选集中包括多个候选文本;根据预先设置的语言模型获取每个候选文本的困惑度,基于所述困惑度最小的候选文本纠正所述区域中的文本内容。
在一个实施例中,纠错处理模块具体还用于:获取所述困惑度最小的候选文本与所述区域对应的文本内容之间的似度;若所述相似度达到设定阈值,则将所述困惑度最小的候选文本作为所述区域纠错处理后的文本内容。
在一个实施例中,顺序确定模块具体用于:基于若干个区域对应的区域类别和坐标信息,采用树形结构分析算法进行分析处理,得到若干个区域的逻辑顺序。
在一个实施例中,文本识别模块具体用于:采用文本检测模型对所述文献图像数据进行文本检测,得到若干个文本检测框以及对应的坐标信息;根据所述文献图像中的若干个区域与若干个文本检测框之间的位置关系,确定每一个文本检测框对应的区域;通过对每个区域中的各个文本检测框进行文字识别,得到与各个区域对应的文本块,所述文本块中包括识别得到的文本内容;基于所述若干个区域的逻辑顺序对相应的文本块进行排序。
在一个实施例中,关键信息提取模块具体用于:对所述文本块对应的文本内容进行类型检测,得到所述文本块对应的文本类型。
关于文献关键信息的提取装置的具体限定可以参见上文中对于文献关键信息的提取方法的限定,在此不再赘述。上述文献关键信息的提取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储文献图像数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文献关键信息的提取方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种文献关键信息的提取方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图10、图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取待检测的文献图像数据,对所述文献图像数据进行区域检测,得到所述文献图像中的若干个区域以及所述区域对应的区域类别和坐标信息;
基于若干个区域对应的区域类别和坐标信息确定所述若干个区域的逻辑顺序;
识别所述若干个区域中的文本内容,基于所述若干个区域的逻辑顺序对应获取与所述文本内容对应的文本块;
若相邻的两个文本块分别对应的文本内容为同一段落,则合并相邻的两个文本块对应的文本内容,得到合并后的文本块;
根据所述文本块对应的文本内容确定每一个文本块对应的文本类型,基于目标文本类型提取对应的文本内容作为所述文献图像数据的关键信息。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:对每一个区域中的文本内容进行纠错处理,得到对每一个区域进行纠错处理后的文本内容。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:识别所述区域对应的文本内容中的异常字符;若预先设置的纠错字典中不存在所述异常字符,则生成所述文本内容的纠错候选集,所述纠错候选集中包括多个候选文本;根据预先设置的语言模型获取每个候选文本的困惑度,基于所述困惑度最小的候选文本纠正所述区域中的文本内容。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取所述困惑度最小的候选文本与所述区域对应的文本内容之间的似度;若所述相似度达到设定阈值,则将所述困惑度最小的候选文本作为所述区域纠错处理后的文本内容。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:基于若干个区域对应的区域类别和坐标信息,采用树形结构分析算法进行分析处理,得到若干个区域的逻辑顺序。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:采用文本检测模型对所述文献图像数据进行文本检测,得到若干个文本检测框以及对应的坐标信息;根据所述文献图像中的若干个区域与若干个文本检测框之间的位置关系,确定每一个文本检测框对应的区域;通过对每个区域中的各个文本检测框进行文字识别,得到与各个区域对应的文本块,所述文本块中包括识别得到的文本内容;基于所述若干个区域的逻辑顺序对相应的文本块进行排序。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:对所述文本块对应的文本内容进行类型检测,得到所述文本块对应的文本类型。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取待检测的文献图像数据,对所述文献图像数据进行区域检测,得到所述文献图像中的若干个区域以及所述区域对应的区域类别和坐标信息;
基于若干个区域对应的区域类别和坐标信息确定所述若干个区域的逻辑顺序;
识别所述若干个区域中的文本内容,基于所述若干个区域的逻辑顺序对应获取与所述文本内容对应的文本块;
若相邻的两个文本块分别对应的文本内容为同一段落,则合并相邻的两个文本块对应的文本内容,得到合并后的文本块;
根据所述文本块对应的文本内容确定每一个文本块对应的文本类型,基于目标文本类型提取对应的文本内容作为所述文献图像数据的关键信息。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:对每一个区域中的文本内容进行纠错处理,得到对每一个区域进行纠错处理后的文本内容。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:识别所述区域对应的文本内容中的异常字符;若预先设置的纠错字典中不存在所述异常字符,则生成所述文本内容的纠错候选集,所述纠错候选集中包括多个候选文本;根据预先设置的语言模型获取每个候选文本的困惑度,基于所述困惑度最小的候选文本纠正所述区域中的文本内容。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取所述困惑度最小的候选文本与所述区域对应的文本内容之间的似度;若所述相似度达到设定阈值,则将所述困惑度最小的候选文本作为所述区域纠错处理后的文本内容。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:基于若干个区域对应的区域类别和坐标信息,采用树形结构分析算法进行分析处理,得到若干个区域的逻辑顺序。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:采用文本检测模型对所述文献图像数据进行文本检测,得到若干个文本检测框以及对应的坐标信息;根据所述文献图像中的若干个区域与若干个文本检测框之间的位置关系,确定每一个文本检测框对应的区域;通过对每个区域中的各个文本检测框进行文字识别,得到与各个区域对应的文本块,所述文本块中包括识别得到的文本内容;基于所述若干个区域的逻辑顺序对相应的文本块进行排序。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:对所述文本块对应的文本内容进行类型检测,得到所述文本块对应的文本类型。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种文献关键信息的提取方法,其特征在于,所述方法包括:
获取待检测的文献图像数据,对所述文献图像数据进行区域检测,得到所述文献图像中的若干个区域以及所述区域对应的区域类别和坐标信息;
基于若干个区域对应的区域类别和坐标信息确定所述若干个区域的逻辑顺序;
识别所述若干个区域中的文本内容,基于所述若干个区域的逻辑顺序对应获取与所述文本内容对应的文本块;
若相邻的两个文本块分别对应的文本内容为同一段落,则合并相邻的两个文本块对应的文本内容,得到合并后的文本块;
根据所述文本块对应的文本内容确定每一个文本块对应的文本类型,基于目标文本类型提取对应的文本内容作为所述文献图像数据的关键信息。
2.根据权利要求1所述的方法,其特征在于,所述识别所述若干个区域中的文本内容之后,所述方法还包括:
对每一个区域中的文本内容进行纠错处理,得到对每一个区域进行纠错处理后的文本内容。
3.根据权利要求2所述的方法,其特征在于,所述对每一个区域中的文本内容进行纠错处理,包括:
识别所述区域对应的文本内容中的异常字符;
若预先设置的纠错字典中不存在所述异常字符,则生成所述文本内容的纠错候选集,所述纠错候选集中包括多个候选文本;
根据预先设置的语言模型获取每个候选文本的困惑度,基于所述困惑度最小的候选文本纠正所述区域中的文本内容。
4.根据权利要求3所述的方法,其特征在于,所述基于所述困惑度最小的候选文本纠正所述区域中的文本内容,包括:
获取所述困惑度最小的候选文本与所述区域对应的文本内容之间的似度;
若所述相似度达到设定阈值,则将所述困惑度最小的候选文本作为所述区域纠错处理后的文本内容。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述基于若干个区域对应的区域类别和坐标信息确定所述若干个区域的逻辑顺序,包括:
基于若干个区域对应的区域类别和坐标信息,采用树形结构分析算法进行分析处理,得到若干个区域的逻辑顺序。
6.根据权利要求1至4任一项所述的方法,其特征在于,所述识别所述若干个区域中的文本内容,基于所述若干个区域的逻辑顺序对应获取与所述文本内容对应的文本块,包括:
采用文本检测模型对所述文献图像数据进行文本检测,得到若干个文本检测框以及对应的坐标信息;
根据所述文献图像中的若干个区域与若干个文本检测框之间的位置关系,确定每一个文本检测框对应的区域;
通过对每个区域中的各个文本检测框进行文字识别,得到与各个区域对应的文本块,所述文本块中包括识别得到的文本内容;
基于所述若干个区域的逻辑顺序对相应的文本块进行排序。
7.根据权利要求1至4任一项所述的方法,其特征在于,所述根据所述文本块对应的文本内容确定每一个文本块对应的文本类型,包括:
对所述文本块对应的文本内容进行类型检测,得到所述文本块对应的文本类型。
8.一种文献关键信息的提取装置,其特征在于,所述装置包括:
数据获取模块,用于获取待检测的文献图像数据,对所述文献图像数据进行区域检测,得到所述文献图像中的若干个区域以及所述区域对应的区域类别和坐标信息;
顺序确定模块,用于基于若干个区域对应的区域类别和坐标信息确定所述若干个区域的逻辑顺序;
文本识别模块,用于识别所述若干个区域中的文本内容,基于所述若干个区域的逻辑顺序对应获取与所述文本内容对应的文本块;
文本块处理模块,用于若相邻的两个文本块分别对应的文本内容为同一段落,则合并相邻的两个文本块对应的文本内容,得到合并后的文本块;
关键信息提取模块,用于根据所述文本块对应的文本内容确定每一个文本块对应的文本类型,基于目标文本类型提取对应的文本内容作为所述文献图像数据的关键信息。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202110509831.1A 2021-05-11 2021-05-11 文献关键信息的提取方法、装置、计算机设备和存储介质 Pending CN113673294A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110509831.1A CN113673294A (zh) 2021-05-11 2021-05-11 文献关键信息的提取方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110509831.1A CN113673294A (zh) 2021-05-11 2021-05-11 文献关键信息的提取方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN113673294A true CN113673294A (zh) 2021-11-19

Family

ID=78538104

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110509831.1A Pending CN113673294A (zh) 2021-05-11 2021-05-11 文献关键信息的提取方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN113673294A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114170423A (zh) * 2022-02-14 2022-03-11 成都数之联科技股份有限公司 一种图像文档版面识别方法、装置及其系统
CN114495147A (zh) * 2022-01-25 2022-05-13 北京百度网讯科技有限公司 识别方法、装置、设备以及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102479173A (zh) * 2010-11-25 2012-05-30 北京大学 识别版面阅读顺序的方法及装置
CN102567300A (zh) * 2011-12-29 2012-07-11 方正国际软件有限公司 图片文档的处理方法及装置
CN105260727A (zh) * 2015-11-12 2016-01-20 武汉大学 基于图像处理与序列标注的学术文献语义再结构化方法
CN107358208A (zh) * 2017-07-14 2017-11-17 北京神州泰岳软件股份有限公司 一种pdf文档结构化信息提取方法及装置
CN110457688A (zh) * 2019-07-23 2019-11-15 广州视源电子科技股份有限公司 纠错处理方法及装置、存储介质和处理器
CN110705503A (zh) * 2019-10-14 2020-01-17 北京信息科技大学 生成目录结构化信息的方法和装置
CN111859921A (zh) * 2020-07-08 2020-10-30 金蝶软件(中国)有限公司 文本纠错方法、装置、计算机设备和存储介质
CN111985306A (zh) * 2020-07-06 2020-11-24 北京欧应信息技术有限公司 一种应用于医疗领域文档的ocr和信息抽取方法
US10970458B1 (en) * 2020-06-25 2021-04-06 Adobe Inc. Logical grouping of exported text blocks
CN112632968A (zh) * 2020-12-18 2021-04-09 万兴科技(湖南)有限公司 Pdf目录识别方法及电子设备、计算机可读存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102479173A (zh) * 2010-11-25 2012-05-30 北京大学 识别版面阅读顺序的方法及装置
CN102567300A (zh) * 2011-12-29 2012-07-11 方正国际软件有限公司 图片文档的处理方法及装置
CN105260727A (zh) * 2015-11-12 2016-01-20 武汉大学 基于图像处理与序列标注的学术文献语义再结构化方法
CN107358208A (zh) * 2017-07-14 2017-11-17 北京神州泰岳软件股份有限公司 一种pdf文档结构化信息提取方法及装置
CN110457688A (zh) * 2019-07-23 2019-11-15 广州视源电子科技股份有限公司 纠错处理方法及装置、存储介质和处理器
CN110705503A (zh) * 2019-10-14 2020-01-17 北京信息科技大学 生成目录结构化信息的方法和装置
US10970458B1 (en) * 2020-06-25 2021-04-06 Adobe Inc. Logical grouping of exported text blocks
CN111985306A (zh) * 2020-07-06 2020-11-24 北京欧应信息技术有限公司 一种应用于医疗领域文档的ocr和信息抽取方法
CN111859921A (zh) * 2020-07-08 2020-10-30 金蝶软件(中国)有限公司 文本纠错方法、装置、计算机设备和存储介质
CN112632968A (zh) * 2020-12-18 2021-04-09 万兴科技(湖南)有限公司 Pdf目录识别方法及电子设备、计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JON CRUMP: "Generating an Ordered Data Set from an OCR Text File", Retrieved from the Internet <URL:http://programminghistorian.org/en/lessons/generating-an-ordered-data-set-from-an-OCR-text-file> *
旷视科技: "旷视研究院提出TextScanner:确保字符阅读顺序,实现文字识别新突破", Retrieved from the Internet <URL:https://zhuanlan.zhihu.com/p/100683420> *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114495147A (zh) * 2022-01-25 2022-05-13 北京百度网讯科技有限公司 识别方法、装置、设备以及存储介质
CN114170423A (zh) * 2022-02-14 2022-03-11 成都数之联科技股份有限公司 一种图像文档版面识别方法、装置及其系统

Similar Documents

Publication Publication Date Title
US11922318B2 (en) System and method of character recognition using fully convolutional neural networks with attention
US10846553B2 (en) Recognizing typewritten and handwritten characters using end-to-end deep learning
US10853638B2 (en) System and method for extracting structured information from image documents
CN111046784A (zh) 文档版面分析识别方法、装置、电子设备和存储介质
US11900644B2 (en) Document image analysis apparatus, document image analysis method and program thereof
CN110178139B (zh) 使用具有注意力机制的全卷积神经网络的字符识别的系统和方法
EA001689B1 (ru) Система автоматической идентификации языка для многоязычного оптического распознавания символов
JP2010509656A (ja) 連続する記事部分の媒体資料解析
CN112434691A (zh) 基于智能解析识别的hs编码匹配、展示方法、系统及存储介质
JP7038988B2 (ja) 画像処理方法及び画像処理システム
CN113158808A (zh) 中文古籍字符识别、组段与版面重建方法、介质和设备
CN112949476B (zh) 基于图卷积神经网络的文本关系检测方法、装置及存储介质
CN113673294A (zh) 文献关键信息的提取方法、装置、计算机设备和存储介质
KR20210105764A (ko) 전자문서 내의 텍스트 추출 방법 및 관련 장치
CN112241730A (zh) 一种基于机器学习的表格提取方法和系统
Elanwar et al. Extracting text from scanned Arabic books: a large-scale benchmark dataset and a fine-tuned Faster-R-CNN model
JP4787955B2 (ja) 対象文書からキーワードを抽出する方法、システムおよびプログラム
US20120281919A1 (en) Method and system for text segmentation
CN112836709A (zh) 一种基于空间注意力增强机制的自动图像描述方法
CN116822634A (zh) 一种基于布局感知提示的文档视觉语言推理方法
CN115410216B (zh) 古籍文本信息化处理方法、系统、电子设备及存储介质
CN116860747A (zh) 训练样本的生成方法、装置、电子设备及存储介质
Rayar et al. Comic text detection using neural network approach
Lin et al. Multilingual corpus construction based on printed and handwritten character separation
CN112560849B (zh) 基于神经网络算法的文理分割方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination