CN112712085A - 一种提取多语言pdf文档中日期的方法 - Google Patents

一种提取多语言pdf文档中日期的方法 Download PDF

Info

Publication number
CN112712085A
CN112712085A CN202011584156.0A CN202011584156A CN112712085A CN 112712085 A CN112712085 A CN 112712085A CN 202011584156 A CN202011584156 A CN 202011584156A CN 112712085 A CN112712085 A CN 112712085A
Authority
CN
China
Prior art keywords
information
pdf
text
pdf document
date information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011584156.0A
Other languages
English (en)
Inventor
倪旻恒
张宏磊
李永立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202011584156.0A priority Critical patent/CN112712085A/zh
Publication of CN112712085A publication Critical patent/CN112712085A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种提取多语言PDF文档中日期的方法,具体实施步骤包括:基于反二进制化格式解码技术获取PDF文档的结构化信息;利用PDF特征分析技术将此部分信息中的文本编码分析并解析成可辨认文本串。然后,训练基于深度学习的命名实体识别模型,利用命名实体识别模型和正则表达式匹配技术获取多语言环境下日期信息序列。最后,获取待处理PDF文档进行处理与标注获得的PDF文档中时间信息与时间序列的对应关系的特征数据库,获取所需日期信息。该技术与现有技术相比能处理无固定格式文档或格式复杂多变文档、较低图片式文档,和含有多种语言的PDF文档。

Description

一种提取多语言PDF文档中日期的方法
技术领域
本发明涉及信息处理领域,尤其涉及一种提取多语言PDF文档中日期信息的方法。
技术背景
信息化与全球化的背景下,格式确定性高的便携式文档格式(PDF)是应用最广泛的文档存储格式之一。PDF格式的特点是基于页面的每一元素位置进行描述,这导致在信息处理领域,使用计算机准确提取PDF文档中有效信息的难度远高于DOC、DOCX、TXT等格式。
在信息处理领域,使用人工智能技术进行自动化信息分析与处理的过程中,信息的时效性往往是分析师最关心的问题,所以准确提取出PDF文档中的日期是信息分析的重要环节。目前现有人工智能技术已经可以实现格式化PDF文档中的文字的识别与提取能力。但是在实现本发明的过程中,发明人发现现有技术有以下局限性:
现有技术下,PDF文档信息抽取需要确定的格式,对无固定格式文档或格式复杂多变文档(如包含大量表格)没有可靠的解决方案;PDF文档信息抽取有高文档质量的要求,对无可提取文本的图片式文档没有可靠的解决方案;PDF文档信息抽取基于汉语或英语等单一语言,对于不同语言乃至混合语言的文档无法进行有效日期信息提取。
发明内容
本发明的目的在于提供一种提取多语言PDF文档中日期信息的方法;该方法通过将原始PDF文档解码,使用基于深度学习的跨语言命名实体识别技术进行精确日期提取;该方法能够解决提取质量较低、格式复杂的多语言文档中日期信息的问题。
为了实现上述发明目的,本发明提供了一种提取多语言PDF文档中日期信息的方法,所述方法包括以下步骤:
步骤1:利用包含二进制信息的原始PDF文档反二进制化格式解码,获得各种存储质量的PDF文档的原始内容的结构化信息;并利用PDF特征分析技术将此部分信息中的文本编码分析并解析成可辨认文本串。
其中,利用包含二进制信息的原始PDF文档反二进制化格式解码技术处理各种存储质量的PDF文档(尤其是低质量文档),获取原始内容的结构化信息,还包含以下步骤:
首先,将内容流中的二进制图像信息转化为图像,并使用OCR识别技术获取其中的文本串;
然后,将从PDF中提取出的文本串,基于特征文本串的段落粗划分,以n(n>=2)个连续空串为间隔,将间隔间的文本串合并为一个段落,将文本串恢复成较为连贯的句子;
然后,首先判断每段较为连贯的内容是否存在足够的英文和中文
然后,再判断有没有“-”、“/”、“\”符号;然后,判断数字长度够不够。
然后,将上述分析中存在足够长字符、存在“-”、“/”、“\”,以及存在足够长数字的句子提取出来,认定为含有日期信息的段落。
最后,将含有日期信息的较为连贯的句子利用标点符号合并;其中若下段存在句子的标点(“!”、“?”、“。”、“,”、“;”),且本段也存在这种标点(“!”、“?”、“。”、“,”、“;”),且本段不以这些符号结尾(“。”、“?”、“!”、“》”、“,”),则将本段与下一段合并,形成含有日期信息的段落。
其中,PDF特征分析技术还包括步骤:
首先,利用PDF文档的原始内容的结构化信息将PDF页面树节点、页面对象、内容流定位,获得描述PDF文档内元素关系与元素内容描述的位置;
然后,进一步的利用位置定位页面树节点、页面对象、内容流,并将此部分信息中的文本编码分析并解析成可辨认文本串。
步骤2:训练基于深度学习的命名实体识别模型;使用命名实体识别模型,提取步骤1获得的可辨认文本串(可能含有多种语言)中的非固定格式的日期信息序列;使用正则表达式匹配方法提取步骤1获得的可辨认文本串(可能含有多种语言)中的固定格式的日期信息序列
其中,训练基于深度学习的命名实体识别模型包含以下步骤:
首先,获取不同语言的文本并对不同语言的文本的每个符号标注正确的分词标记与语义类型。
然后,将每个符号的向量形式依次输入双向GRU网络模型并获得对应表示并通过线性层网络获得其输出表示
然后,将每个输出表示利用Softmax函数变换为分词标记与语义类型的联合概率分布。并将每个联合概率分布通过交叉熵损失函数计算与正确的分词标记与语义类型的差异。
最后,对模型的每个参数对差异的导数,使用随机梯度下降算法优化。
其中,使用训练完成的命名实体识别模型标注并提取步骤1中可辨认文本串中的时间序列,还包含以下步骤:
首先,将合并完成的段落按符号分割,并且将每个符号通过词嵌入转化为向量形式。
然后,将每个符号的向量形式依次输入双向GRU网络模型并获得对应表示,并且将每个对应表示通过线性层网络获得其输出表示。
然后,将每个输出表示利用Softmax函数变换为分词标记与语义类型的联合概率分布。
然后,将概率最大的分词标记与语义类型作为正确结果将文本串分词并标注语义类型,并且利用每个符号的分词与否信息与语义类型信息将文本分割为词的序列与对应的语义类型。
最后,将连续出现的语义类型标注为TIME的词的序列合并,获得非固定格式的日期信息序列。
其中,使用正则表达式匹配的方法提取步骤1中可辨认文本串中的时间序列,还包含以下步骤:
首先,利用日期特定格式(如YYYY-MM-DD)对合并完成的段落进行正则表达式匹配,寻找固定格式的日期信息序列。
然后,确定固定格式的日期信息与非固定格式的日期信息的相对位置,将固定格式的日期信息与非固定格式的日期信息按出现先后进行序号排列
步骤3,在数据库中获取PDF文档的特征信息,获得当前PDF文档中需要提取的日期信息序列的序号。利用序号将非固定格式与固定格式的日期信息序列的特定序号的日期信息提取。
其中,数据库是对待处理PDF文档进行处理与标注获得的PDF文档中时间信息与时间序列的对应关系,在获得时间序列中选择所需时间后需要进行系列文本核对校准。
附图说明
图1是根据本发明绘制的提取多语言PDF文档中日期信息的步骤流程图
具体实施方式
以下结合附图对本发明的示范性实施例作出说明,描述用于揭露本发明以使本领域技术人员能够实现本发明。以下描述中优选实施例只作为举例,本领域技术人员可以想到其他显而易见的变型,应当认为这些范例只是示范性的。在以下描述中界定的本发明的基本原理可以应用于其他实施方案、变形方案、改进方案、等同方案以及没有背离本发明的精神和范围的其他技术。
图1是根据本发明实施例的提取多语言PDF文档中日期的方法的主要步骤示意图,如图1所示,本发明实施例的提取多语言PDF文档中日期的方法主要包括如下步骤:
步骤1,利用包含二进制信息的原始PDF文档反二进制化格式解码,获得各种存储质量的PDF文档的原始内容的结构化信息;并利用PDF特征分析技术将此部分信息中的文本编码分析并解析成可辨认文本串。
所述反二进制化格式解码并获得各种存储质量的PDF文档的原始内容的结构化信息包括以下步骤:读取文档数据,并通过非二进制的固定格式确定的标记,确定文档不同的模块。将不同模块间的二进制数据存储为模块结构。
所述利用PDF特征分析技术将此部分信息中的文本编码分析并解析成可辨认文本串,还包含以下步骤:读取PDF文档特定区域描述的文本计算机编码。利用描述的文本计算机编码将特定区域的二进制数据解码成可辨认文本
其中,处理各种存储质量的PDF文档(尤其是低质量文档),因为其不存在准确编码的文本,所有文本信息暗藏在图片中,需要识别出,还包含以下步骤:首先,将内容流中的二进制图像信息转化为图像,并使用OCR识别技术获取其中的文本串;然后,将从PDF中提取出的文本串,组成列表。然后,以n(n>=2)个连续空串为间隔,将间隔间的列表中的文本串依次串接形成一个更完整的文本段。如“A、B、空、空、C、D”则组成“AB、CD”两个更完整的文本段。然后,首先判断每段较为连贯的内容中英文和中文等非特殊符号的数量占文本段总长度是否超过一个阈值,超过阈值的标记为有效文本段。然后,再判断有没有“-”、“/”、“\”符号,没有的标记为无效文本段,如“112342122.23”就被认定无效。然后,判断数字长度够不够是否超过一个阈值,没有的标记为无效文本段。如“12-23”就被认定无效。然后,剩余的标记为有效文本段。然后,将上述分析中效文本段,认定为可能含有日期信息的段落。最后,将含有日期信息的较为连贯的句子利用标点符号合并。
所述将含有日期信息的较为连贯的句子利用标点符号合并包括以下步骤:
其中若下段不存在句子的标点(“!”、“?”、“。”、“,”、“;”),不合并。否则,若本段不存在这种标点(“!”、“?”、“。”、“,”、“;”)或本段以这些暗示结束的符号结尾(“。”、“?”、“!”、“》”),不合并。否则,则将本段与下一段串联,形成含有日期信息的段落。如果前一段以暗示结束的符号结尾,则大概率其已经完成叙述,无需和下一段合并。如果下一段不包含标点或前一段不包含标点,则其大概率并非正常的段落,则也无需合并。
其中,PDF特征分析技术还包括步骤:
首先,利用PDF文档的原始内容的结构化信息将PDF页面树节点、页面对象、内容流定位,获得描述PDF文档内元素关系与元素内容描述的位置;然后,进一步的利用位置定位页面树节点、页面对象、内容流,并将此部分信息中的文本编码分析并解析成可辨认文本串。
步骤2:训练基于深度学习的命名实体识别模型;使用命名实体识别模型,提取步骤1获得的可辨认文本串(可能含有多种语言)中的非固定格式的日期信息序列;使用正则表达式匹配方法提取步骤1获得的可辨认文本串(可能含有多种语言)中的固定格式的日期信息序列。
所述训练基于深度学习的命名实体识别模型包含以下步骤:首先,通过维基百科等大型网站摘取不同语言的文本然后,对不同语言的文本的每个符号人工标注正确的分词标记与语义类型。然后,将每个符号的向量形式依次输入双向GRU网络模型获得每个符号对应向量表示。然后,通过线性层网络获得其输出向量表示然后,将每个输出表示利用Softmax函数变换为分词标记与语义类型的联合概率分布。然后,将每个联合概率分布通过交叉熵损失函数计算与正确的分词标记与语义类型的差异。然后,对模型的每个参数对差异的导数最后,使用随机梯度下降算法利用每个参数对差异的导数优化模型。
其中,使用训练完成的命名实体识别模型标注并提取步骤1中可辨认文本串中的时间序列,还包含以下步骤:首先,将合并完成的段落按符号分割然后,将每个符号通过词嵌入转化为向量形式。然后,将每个符号的向量形式依次输入双向GRU网络模型并获得对应表示,并且将每个对应表示通过线性层网络获得其输出表示。然后,将每个输出表示利用Softmax函数变换为分词标记与语义类型的联合概率分布。然后,将概率最大的分词标记与语义类型作为正确结果将文本串分词并标注语义类型。比如“张华于2000年4月考上北京大学”,对应的分词序列为“张华、于、2000年4月、考上、北京大学”和对应的语义类型为“人物、介词、时间、动词、组织”。然后,利用联合概率计算出每个符号的分词与否与语义类型。然后,利用符号的分词与否与语义类型将文本分割为词的序列并标注对应的语义类型。最后,将连续出现的语义类型标注为“时间”的词的序列合并,获得非固定格式的日期信息序列。
所述使用正则表达式匹配的方法提取步骤1中可辨认文本串中的时间序列,还包含以下步骤:首先,利用日期特定格式(如YYYY-MM-DD)对合并完成的段落进行正则表达式匹配,寻找固定格式的日期信息序列。如“发布日期:1999-12-13”中,可以靠“\d\d\d\d-\d?\d-\d?\d”识别提取出“1999-12-13”。然后,确定固定格式的日期信息与非固定格式的日期信息的相对位置,将固定格式的日期信息与非固定格式的日期信息按出现先后进行序号排列。
步骤3,在数据库中录入并获取PDF文档的特征信息,获得当前PDF文档中需要提取的日期信息序列的序号。利用序号将非固定格式与固定格式的日期信息序列的特定序号的日期信息抽取。
所述数据库是对待处理PDF文档进行处理与标注获得的PDF文档中时间信息与时间序列的对应关系。
其中,在数据库中录入PDF文档的日期信息序列的序号包括以下步骤:人工选取PDF的部分易于获取的特征(如文件名格式)作为标识。将此标识作为数据库中对应特征信息的检索基准,录入日期信息序列的序号。
其中,在数据库中获取PDF文档的日期信息序列的序号包括以下步骤:将待处理PDF文档中的部分易于获取的特征抽取作为标识。此标识作为数据库中对应特征信息的检索基准,检索日期信息序列的序号。
本领域技术人员应理解,上述描述及附图中所示的本发明的实施例只作为举例而不是限制本发明的应用范围。本发明的目的已经完整并有效地实现。本发明地功能及结构原理已在实施例中展示说明,在没有背离该原理下,本发明地实施方式可以有各种形式修改。

Claims (7)

1.一种提取多语言PDF文档中日期的方法,其特征在于:所述方法包括以下步骤:
PDF文档中含有日期信息的可辨认字符串的获取步骤;基于深度学习的多语言环境下日期序列的获取步骤;基于文档特征的日期信息检索步骤;
其中,所述PDF文档中含有日期信息的可辨认字符串的获取步骤,包括以下步骤:基于反二进制化格式解码技术获取PDF文档的结构化信息;利用PDF特征分析技术将此部分信息中的文本编码分析并解析成可辨认文本串;
其中,所述基于深度学习进行的多语言环境下日期序列的获取步骤,包括以下步骤:训练基于深度学习的命名实体识别模型;利用命名实体识别模型和正则表达式匹配技术获取日期信息序列。
2.根据权利要求1所述的提取多语言PDF文档中日期的方法,其中所述基于反二进制化格式解码技术获取PDF文档的结构化信息,还包括以下步骤:
将内容中的二进制图像信息转化为图像,并使用OCR识别技术获取其中的文本串;
将从PDF中提取出的文本串,基于特征文本串的段落粗划分,以n(n>=2)个连续空串为间隔,将间隔之间的文本串合并为一个段落,将文本串恢复成较为连贯的句子;
将存在足够长的英文和中文字符、存在“-”、“/”、“\”符号,以及存在足够长数字的句子提取出来,认定为含有日期信息的段落;
最后,将含有日期信息的较为连贯的句子利用标点符号合并;其中若下段存在句子的标点(“!”、“?”、“。”、“,”、“;”),且本段也存在这种标点(“!”、“?”、“。”、“,”、“;”),且本段不以这些符号结尾(“。”、“?”、“!”、“》”、“,”),则将本段与下一段合并,形成含有日期信息的段落。
3.根据权利要求1所述的提取多语言PDF文档中日期的方法,其中所述利用PDF特征分析技术将此部分信息中的文本编码分析并解析成可辨认文本串,还包括以下步骤:
利用PDF文档的原始内容的结构化信息将PDF页面树节点、页面对象、内容流定位,获得描述PDF文档内元素关系与元素内容描述的位置;
进一步的利用位置定位页面树节点、页面对象、内容流,并将此部分信息中的文本编码分析并解析成可辨认文本串。
4.根据权利要求1所述的提取多语言PDF文档中日期的方法,其中基于深度学习进行的多语言语义识别的文档时间获取步骤,还包括以下步骤:
训练基于深度学习的命名实体识别模型;
使用命名实体识别模型,提取非固定格式的日期信息序列;
使用正则表达式匹配方法,提取固定格式的日期信息序列。
5.根据权利要求4所述的提取多语言PDF文档中日期的方法中训练基于深度学习的命名实体识别模型,还包括以下步骤:
获取不同语言的文本并对不同语言的文本的每个符号标注正确的分词标记与语义类型;
将每个符号的向量形式依次输入双向GRU网络模型并获得对应表示并通过线性层网络获得其输出表示;
将每个输出表示利用Softmax函数变换为分词标记与语义类型的联合概率分布。并将每个联合概率分布通过交叉熵损失函数计算与正确的分词标记与语义类型的差异;
对模型的每个参数对差异的导数,使用随机梯度下降算法优化。
6.根据权利要求4所述的提取多语言PDF文档中日期的方法中使用命名实体识别模型,提取非固定格式的日期信息序列,还包括以下步骤:
将合并完成的段落按符号分割,并且将每个符号通过词嵌入转化为向量形式;
将每个符号的向量形式依次输入双向GRU网络模型并获得对应表示,并且将每个对应表示通过线性层网络获得其输出;
将每个输出表示利用Softmax函数变换为分词标记与语义类型的联合概率分布;
将概率最大的分词标记与语义类型作为正确结果将文本串分词并标注语义类型,并且利用每个符号的分词与否信息与语义类型信息将文本分割为词的序列与对应的语义类型;
将连续出现的语义类型标注为TIME的词的序列合并,获得非固定格式的日期信息序列。
7.根据权利要求1所述的提取多语言PDF文档中日期的方法,其中所述基于文档特征的特定时间检索步骤,还包括以下步骤:
获取待处理PDF文档进行处理与标注获得的PDF文档中时间信息与时间序列的对应关系的特征数据库;
在获得时间序列中选择所需时间进行系列文本核对校准。
CN202011584156.0A 2020-12-28 2020-12-28 一种提取多语言pdf文档中日期的方法 Pending CN112712085A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011584156.0A CN112712085A (zh) 2020-12-28 2020-12-28 一种提取多语言pdf文档中日期的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011584156.0A CN112712085A (zh) 2020-12-28 2020-12-28 一种提取多语言pdf文档中日期的方法

Publications (1)

Publication Number Publication Date
CN112712085A true CN112712085A (zh) 2021-04-27

Family

ID=75545941

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011584156.0A Pending CN112712085A (zh) 2020-12-28 2020-12-28 一种提取多语言pdf文档中日期的方法

Country Status (1)

Country Link
CN (1) CN112712085A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114022883A (zh) * 2021-11-05 2022-02-08 深圳前海环融联易信息科技服务有限公司 基于模型的金融领域交易文件表格日期提取方法
WO2023035332A1 (zh) * 2021-09-08 2023-03-16 深圳前海环融联易信息科技服务有限公司 一种日期提取方法、装置、计算机设备及存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070234197A1 (en) * 2006-04-03 2007-10-04 Frederick Njuki Universal form filler software
US20100082331A1 (en) * 2008-09-30 2010-04-01 Xerox Corporation Semantically-driven extraction of relations between named entities
US20140039877A1 (en) * 2012-08-02 2014-02-06 American Express Travel Related Services Company, Inc. Systems and Methods for Semantic Information Retrieval
CN107358208A (zh) * 2017-07-14 2017-11-17 北京神州泰岳软件股份有限公司 一种pdf文档结构化信息提取方法及装置
CN109325493A (zh) * 2018-08-23 2019-02-12 厦门理工学院 一种基于人形机器人的文字识别方法及人形机器人
CN109885698A (zh) * 2019-02-13 2019-06-14 北京航空航天大学 一种知识图谱构建方法及装置、电子设备
CN110598191A (zh) * 2019-11-18 2019-12-20 江苏联著实业股份有限公司 一种基于神经网络的复杂pdf结构解析方法及装置
CN111079397A (zh) * 2019-12-25 2020-04-28 中国建设银行股份有限公司 基于图像识别的任务文件生成方法及装置
CN111144355A (zh) * 2019-12-31 2020-05-12 北京师范大学 数据采集方法、装置、设备及计算机可读存储介质
CN111737969A (zh) * 2020-07-27 2020-10-02 北森云计算有限公司 一种基于深度学习的简历解析方法和系统
US20200334416A1 (en) * 2019-04-16 2020-10-22 Covera Health Computer-implemented natural language understanding of medical reports
CN112001177A (zh) * 2020-08-24 2020-11-27 浪潮云信息技术股份公司 融合深度学习与规则的电子病历命名实体识别方法及系统
CN112100426A (zh) * 2020-09-22 2020-12-18 哈尔滨工业大学(深圳) 基于视觉和文本特征的通用表格信息检索的方法与系统

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070234197A1 (en) * 2006-04-03 2007-10-04 Frederick Njuki Universal form filler software
US20100082331A1 (en) * 2008-09-30 2010-04-01 Xerox Corporation Semantically-driven extraction of relations between named entities
US20140039877A1 (en) * 2012-08-02 2014-02-06 American Express Travel Related Services Company, Inc. Systems and Methods for Semantic Information Retrieval
CN107358208A (zh) * 2017-07-14 2017-11-17 北京神州泰岳软件股份有限公司 一种pdf文档结构化信息提取方法及装置
CN109325493A (zh) * 2018-08-23 2019-02-12 厦门理工学院 一种基于人形机器人的文字识别方法及人形机器人
CN109885698A (zh) * 2019-02-13 2019-06-14 北京航空航天大学 一种知识图谱构建方法及装置、电子设备
US20200334416A1 (en) * 2019-04-16 2020-10-22 Covera Health Computer-implemented natural language understanding of medical reports
CN110598191A (zh) * 2019-11-18 2019-12-20 江苏联著实业股份有限公司 一种基于神经网络的复杂pdf结构解析方法及装置
CN111079397A (zh) * 2019-12-25 2020-04-28 中国建设银行股份有限公司 基于图像识别的任务文件生成方法及装置
CN111144355A (zh) * 2019-12-31 2020-05-12 北京师范大学 数据采集方法、装置、设备及计算机可读存储介质
CN111737969A (zh) * 2020-07-27 2020-10-02 北森云计算有限公司 一种基于深度学习的简历解析方法和系统
CN112001177A (zh) * 2020-08-24 2020-11-27 浪潮云信息技术股份公司 融合深度学习与规则的电子病历命名实体识别方法及系统
CN112100426A (zh) * 2020-09-22 2020-12-18 哈尔滨工业大学(深圳) 基于视觉和文本特征的通用表格信息检索的方法与系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LIBO QIN 等: "Multi-domain spoken language understanding using domain- and task-aware parameterization", 《ARXIV》 *
N. S. AZZAHRA 等: "Developing Name Entity Recognition for Structured and Unstructured Text Formatting Dataset", 《2020 FIFTH INTERNATIONAL CONFERENCE ON INFORMATICS AND COMPUTING》 *
郑宏: "汉英双向时间数字和数量词的识别与翻译技术", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023035332A1 (zh) * 2021-09-08 2023-03-16 深圳前海环融联易信息科技服务有限公司 一种日期提取方法、装置、计算机设备及存储介质
CN114022883A (zh) * 2021-11-05 2022-02-08 深圳前海环融联易信息科技服务有限公司 基于模型的金融领域交易文件表格日期提取方法

Similar Documents

Publication Publication Date Title
Singh et al. Full page handwriting recognition via image to sequence extraction
CN101002198B (zh) 用于非罗马字符和字的拼写校正系统和方法
US5669007A (en) Method and system for analyzing the logical structure of a document
US20100023318A1 (en) Method and device for retrieving data and transforming same into qualitative data of a text-based document
CN109145260B (zh) 一种文本信息自动提取方法
CN110175334B (zh) 基于自定义的知识槽结构的文本知识抽取系统和方法
CN112712085A (zh) 一种提取多语言pdf文档中日期的方法
CN114282527A (zh) 多语言文本检测与纠错方法、系统、电子设备及存储介质
CN112926345A (zh) 基于数据增强训练的多特征融合神经机器翻译检错方法
CN112380864A (zh) 一种基于回译的文本三元组标注样本增强方法
CN107797986B (zh) 一种基于lstm-cnn的混合语料分词方法
Widiarti et al. A method for solving scriptio continua in Javanese manuscript transliteration
CN113268576A (zh) 一种基于深度学习的部门语义信息抽取的方法及装置
Cing et al. Improving accuracy of part-of-speech (POS) tagging using hidden markov model and morphological analysis for Myanmar Language
Al-Barhamtoshy et al. Arabic documents information retrieval for printed, handwritten, and calligraphy image
Meelen et al. Optimisation of the largest annotated Tibetan corpus combining rule-based, memory-based, and deep-learning methods
CN115098673A (zh) 基于变体注意力及层次结构的业务文书信息抽取方法
Choudhury et al. Automatic metadata extraction incorporating visual features from scanned electronic theses and dissertations
Slavin et al. Analyzing the content of business documents recognized with a large number of errors using modified Levenshtein distance
CN111553155B (zh) 基于语义结构的口令分词系统及方法
CN105573981A (zh) 一种提取中文人名地名的方法及装置
Kumar et al. Lipi Gnani: a versatile OCR for documents in any language printed in Kannada script
Tateisi et al. Using stochastic syntactic analysis for extracting a logical structure from a document image
CN115115432B (zh) 基于人工智能的产品信息推荐方法及装置
CN109960720B (zh) 针对半结构化文本的信息抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210427

WD01 Invention patent application deemed withdrawn after publication