CN109685056A - 获取文档信息的方法及装置 - Google Patents
获取文档信息的方法及装置 Download PDFInfo
- Publication number
- CN109685056A CN109685056A CN201910006489.6A CN201910006489A CN109685056A CN 109685056 A CN109685056 A CN 109685056A CN 201910006489 A CN201910006489 A CN 201910006489A CN 109685056 A CN109685056 A CN 109685056A
- Authority
- CN
- China
- Prior art keywords
- document
- information
- algorithm model
- sequence labelling
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 66
- 238000002372 labelling Methods 0.000 claims abstract description 51
- 238000012549 training Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000013136 deep learning model Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 abstract description 15
- 238000005516 engineering process Methods 0.000 abstract description 7
- 238000012545 processing Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 230000006978 adaptation Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 238000012550 audit Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000005086 pumping Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
- G06V10/225—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及一种基于序列标注以及学习模型的文档信息抽取方法及装置。该方法包括:对至少一种序列标注算法模型进行训练,以获取至少一种离线序列标注算法模型;确定离线序列标注算法模型中的每一种中的标注信息的准确率,将待处理的文档转换成文本文档;从所述待处理的文档中获取文档结构格式性质信息;将所述文本文档和结构格式性质信息输入至所述离线序列标注算法模型中,以获取该文档中的文档信息所对应的标注信息。本申请通过使用序列标注技术,可以对文档进行关键信息抽取。并且通过使用多模型融合技术,可以对文档中不同关键信息使用最优模型进行抽取。此外,本申请对字面抽取结果进行业务规则推理及计算,适用面更广。
Description
技术领域
本申请涉及数据处理领域,具体的,涉及一种获取文档信息的方法及装置。
背景技术
自然语言处理(Natural Language Processing)简单来讲,就是让计算机能够理解人类语言的一种技术。自然语言处理的应用方向很多,包括文本分类、文本聚类、摘要抽取、情感分析、文本审核等应用,机器能够在一定程度上辅助甚至代替人来做某些文字相关工作。
在日常工作中,文档的编写、审核、评阅、修改比较常见,例如合同文书的订制编写修改,招投标书的编写审核,保险条款的抽取,证券公告的信息提取分析等。目前,在文字撰写工作上,NLP技术还有所欠缺,很多场景效果不是很好,例如,在一份文档中的不同位置包含很多关键信息,很多业务场景的第一步就是找到这些关键信息。有些文档较短、关键信息较为集中、文档格式内容比较单一时,关键信息相对容易查找。而对于文本内容较长、格式内容多样的文本,查找关键信息较为费时费力。例如债券募集书,通常都有几百页,内容多文档结构复杂,关键信息往往散落在文中不同位置,查找这些关键信息比较费时费力。
已有的一些方法能够进行一定程度的信息抽取,但已有的方法大多基于关键字查找、文本匹配、正则表达式等传统技术,效果不能够保证,往往由于实际业务预测样本文本表述丰富等原因,导致信息抽取功能效果较差,直接影响后续各个环节。
公开于本申请背景技术部分的信息仅仅旨在加深对本申请的一般背景技术的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。
发明内容
本申请的主要目的在于提供一种基于序列标注以及学习模型的文档信息抽取方法及装置。
为了解决上述问题,本申请涉及一种获取文档信息的方法,包括:
对至少一种序列标注算法模型进行训练,以获取至少一种离线序列标注算法模型;
确定离线序列标注算法模型中的每一种中的标注信息的准确率;并且,
所述方法还包括:
将待处理的文档转换成文本文档;
从所述待处理的文档中获取结构格式性质信息;
将所述文本文档和结构格式性质信息输入至所述离线序列标注算法模型中,以获取该文档中的文档信息所对应的标注信息。
进一步的,在获取该文档中的文档信息所对应的标注信息之后,所述方法还可以包括:针对每一种标注信息,依据标注信息的准确率选择离线序列标注算法模型所对应的标注信息。
进一步的,所述对至少一种序列标注算法模型进行训练,可以包括:将待训练的文档转换成文本文档,其中所述待训练的文档包括:word格式文档、PDF格式文档和/或图像格式文档;从待训练的文档中获取结构格式性质信息,其中,所述结构格式性质信息包括:位置信息、段落信息和表格信息;将所述文本文档和结构格式性质信息输入至所述序列标注算法模型中,以获取经过训练的至少一种离线序列标注算法模型。
进一步的,所述序列标注算法模型可以包括:HMM模型、CRF模型和Deep Learning模型。
进一步的,所述结构格式性质信息可以包括:位置信息、段落信息和表格信息。
进一步的,所述依据标注信息的准确率选择离线序列标注算法模型所对应的标注信息,包括,选择离线序列标注算法模型所对应的标注信息的准确率高的标注信息。
进一步的,如果所述待处理的文档为图像格式的文档,则将该文档进行OCR识别,以将识别后的文档转换成文本文档。
本申请还涉及一种获取文档信息的装置,包括:离线训练模块,用于对至少一种序列标注算法模型进行训练,以获取至少一种离线序列标注算法模型;还用于确定离线序列标注算法模型中的每一种中的标注信息的准确率; 文档转换模块,用于将待处理的文档转换成文本文档;从所述待处理的文档中获取结构格式性质信息;文档信息获取模块,用于将所述文本文档和结构格式性质信息输入至所述离线序列标注算法模型中,以获取该文档中的文档信息所对应的标注信息。
进一步的,所述文档信息获取模块还可以用于,针对每一种标注信息,依据标注信息的准确率选择离线序列标注算法模型所对应的标注信息。
此外,本申请还涉及一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上面所描述的获取文档信息的方法中的步骤。
本申请的有益效果是:本申请通过使用序列标注技术,可以对文档进行关键信息抽取。并且通过使用多模型融合技术,可以对文档中不同关键信息使用最优模型进行抽取。此外,本申请对字面抽取结果进行业务规则推理及计算,适用面更广。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的获取文档信息的方法的流程图;
图2是根据本申请实施例的文档转换过程的流程图;以及
图3是根据本申请实施例的获取文档信息的装置的方框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
此外,术语“安装”、“设置”、“设有”、“连接”、“配置为”应做广义理解。例如,可以是固定连接,可拆卸连接,或整体式构造;可以是机械连接,或电连接;可以是直接相连,或者是通过中间媒介间接相连,又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。其中,图1是根据本申请实施例的获取文档信息的方法的流程图,图2是根据本申请实施例的文档转换过程的流程图,图3是根据本申请实施例的获取文档信息的装置的方框图。
如图1所示,本申请涉及一种获取文档信息的方法,该方法包括以下步骤S1至步骤S8:
首先,在步骤S1,本申请对至少一种序列标注算法模型进行训练,以获取至少一种离线序列标注算法模型,使用机器学习序列标注模型及专家知识系统,将文档中的关键信息进行抽取。
本申请所涉及的序列标注模型算法包括但不限于:HMM(隐马尔可夫模型)、CRF(条件随机场)、Deep Learning(深度学习)模型等,此外,本申请可以集成上述的一种或多种算法模型。
具体的模型训练步骤图2所示,在步骤S11,首先,本申请将待训练的文档转换成文本文档,其中所述待训练的文档包括但不限于:word格式文档、PDF格式文档和/或图像格式文档。在步骤S12,本申请从待训练的文档中获取结构格式性质信息,其中,所述结构格式性质信息包括:位置信息、段落信息和表格信息。最后在步骤S13,本申请将所述文本文档和结构格式性质信息输入至所述离线序列标注算法模型中,以获取该文档中的文档信息所对应的标注信息
也就是说,本申请根据文档标注模块提供的标注信息数据,以及文档处理系统提供的文档信息,将两者结合生成机器学习算法所需要的训练数据。不同机器学习算法进行模型训练所需要的格式不同,抽取系统离线处理模块提供统一的处理框架和流程,不同的算法基于此框架和流程,在算法内部进行数据适配及模型训练,其中,不同算法的训练参数可以配置。
继续如图1所示,在上述步骤S1之后,本申请继续执行步骤S2,将对训练好的每一种离线序列标注算法模型中的标注信息计算准确率,也就是说为每一种离线序列标注算法模型中的标注信息赋予相应的权重值。例如,如果HMM类型的算法模型中的人名或者组织机构类的标注信息识别准确率高,则赋予HMM类型的算法模型中的人名或者组织机构类的标注信息的权重值相较于其他算法模型中的相同标注信息类型的权重值高。再例如,如果CRF类型的算法模型中的金额类的标注信息识别准确率高,则赋予CRF类型的算法模型中的金额类的标注信息的权重值相较于其他算法模型中的相同标注信息类型的权重值高。
也就是说,本申请对于每种算法模型,首先根据输入数据进行模型内部数据适配,适配后使用每个模型特有的特征提取方式进行特征提取,再将提取后的特征输入模型进行模型训练最终给出每个算法模型的文件及模型指标。模型指标指的是模型在训练迭代过程中内部测试得到准确率、召回率指标。
在训练完算法模型以及对不同的算法模型中的标注信息赋予权重值之后,本申请继续执行步骤S3,将待处理的文档转换成文本文档,这里的转换方式类似于上面的步骤S21,本申请将待训练的文档转换成文本文档,其中,所述待训练的文档包括但不限于:word格式文档、PDF格式文档和/或图像格式文档。
具体的,本申请所涉及的文档类型可以多种多样,包括Word、PDF、PowerPoint、Excel、纯文本等格式。针对不同格式的文档,首先需要将文档最终解析成纯文本等结构化信息,才能够进一步进行文档处理。文档格式解析系统针对不同类型的文档进行处理,本申请将文档转换成不同的格式,生成下游系统所需要的相关数据。
此外,如果是图片形式的文档,需要将图片经过OCR处理,提取图像中的文字。
PDF格式文档目前使用的较多,具有最好的兼容性,并且Word等文档都可以转换成PDF格式,因此为了后续流程统一,本申请将各种格式的文档统一转成PDF格式。
在对待处理的文档进行格式转换之后,本申请继续执行步骤S4,从所述待处理的文档中获取结构格式性质信息,由于PDF格式的特殊性,需要对PDF格式进行深入的分析,包括段落分析、版面还原、表格识别等功能和操作,将一份PDF文档转换成除纯文本信息外,包含位置、段落、表格等信息的结构化信息,下游系统根据需求,使用拿到的结构化信息中各种不同类型的数据进行相关的任务处理。
在步骤S5,将所述文本文档和结构格式性质信息输入至所述离线序列标注算法模型中,以获取该文档中的文档信息所对应的标注信息。对于每一种上面所描述的算法模型,本申请首先根据输入数据进行模型内部数据适配,适配后使用每个模型特有的特征提取方式进行特征提取,再将提取后的特征输入模型进行模型预测给出模型预测结果。所述预测结果就是对待识别中形成结构化的信息,也就是说,对识别的文档中的特征进行标注,以进行后续的处理操作。
此外,在获取了文档中的文档信息所对应的标注信息之后,本申请继续执行步骤S6,针对每一种标注信息,依据标注信息的准确率选择离线序列标注算法模型所对应的标注信息。也就是说,本申请选择离线序列标注算法模型所对应的标注信息的准确率高的标注信息。具体的,不同的模型输出结果不同,根据模型结果及置信度,以及模型离线训练流程给出的不同模型效果参数进行结果选择,给出文档中每个关键信息的最优模型结果。例如,文档中抽取出来多年的总收入,可以计算出来每年的利润增长额及增长率,并将增长额和增长率加入到最终的处理结果中。
如图3所示,本申请还涉及一种获取文档信息的装置,包括:离线训练模块1,用于对至少一种序列标注算法模型进行训练,以获取至少一种离线序列标注算法模型;还用于确定离线序列标注算法模型中的每一种中的标注信息的准确率。文档转换模块1,用于将待处理的文档转换成文本文档;从所述待处理的文档中获取结构格式性质信息,以及文档信息获取模块3,用于将所述文本文档和结构格式性质信息输入至所述离线序列标注算法模型中,以获取该文档中的文档信息所对应的标注信息。
此外,所述文档信息获取模块3还用于,针对每一种标注信息,依据标注信息的准确率选择离线序列标注算法模型所对应的标注信息。
另外,本申请还涉及一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上面所描述的获取文档信息的方法中的步骤。
另外,本申请还涉及一种计算机可读存储介质,所述计算机可读存储介质存储有执行上面所描述的显示搜索推荐列表中的字符的方法的计算机程序。
本申请所涉及的计算机程序可以存储于计算机可读存储介质中,所述计算机可读存储介质可以包括:能够携带计算机程序代码的任何实体装置、虚拟装置、优盘、移动硬盘、磁碟、光盘、计算机存储器、只读计算机存储器(Read-Only Memory,ROM)、随机存取计算机存储器(Random Access Memory,RAM)、电载波信号、电信信号以及其他软件分发介质等。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均包含在本申请的保护范围之内。
Claims (10)
1.一种获取文档信息的方法,其特征在于,包括:
对至少一种序列标注算法模型进行训练,以获取至少一种离线序列标注算法模型;
确定离线序列标注算法模型中的每一种中的标注信息的准确率;并且,
所述方法还包括:
将待处理的文档转换成文本文档;
从所述待处理的文档中获取结构格式性质信息;
将所述文本文档和结构格式性质信息输入至所述离线序列标注算法模型中,以获取该文档中的文档信息所对应的标注信息。
2.根据权利要求1所述的获取文档信息的方法,其特征在于,在获取该文档中的文档信息所对应的标注信息之后,所述方法还包括:
针对每一种标注信息,依据标注信息的准确率选择离线序列标注算法模型所对应的标注信息。
3.根据权利要求1所述的获取文档信息的方法,其特征在于,所述对至少一种序列标注算法模型进行训练,包括:
将待训练的文档转换成文本文档,其中所述待训练的文档包括:word格式文档、PDF格式文档和/或图像格式文档;
从待训练的文档中获取结构格式性质信息,其中,所述结构格式性质信息包括:位置信息、段落信息和表格信息;
将所述文本文档和结构格式性质信息输入至所述序列标注算法模型中,以获取经过训练的至少一种离线序列标注算法模型。
4. 根据权利要求2所述的获取文档信息的方法,其特征在于,所述序列标注算法模型包括:HMM模型、CRF模型和Deep Learning模型。
5.根据权利要求1所述的获取文档信息的方法,其特征在于,所述结构格式性质信息包括:位置信息、段落信息和表格信息。
6.根据权利要求2所述的获取文档信息的方法,其特征在于,所述依据标注信息的准确率选择离线序列标注算法模型所对应的标注信息,包括,选择离线序列标注算法模型所对应的标注信息的准确率高的标注信息。
7.根据权利要求1所述的获取文档信息的方法,其特征在于,如果所述待处理的文档为图像格式的文档,则将该文档进行OCR识别,以将识别后的文档转换成文本文档。
8.一种获取文档信息的装置,其特征在于,包括:
离线训练模块,用于对至少一种序列标注算法模型进行训练,以获取至少一种离线序列标注算法模型;还用于确定离线序列标注算法模型中的每一种中的标注信息的准确率;
文档转换模块,用于将待处理的文档转换成文本文档;从所述待处理的文档中获取结构格式性质信息;
文档信息获取模块,用于将所述文本文档和结构格式性质信息输入至所述离线序列标注算法模型中,以获取该文档中的文档信息所对应的标注信息。
9.根据权利要求8所述的获取文档信息的装置,其特征在于,所述文档信息获取模块还用于,针对每一种标注信息,依据标注信息的准确率选择离线序列标注算法模型所对应的标注信息。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上面所描述的获取文档信息的方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910006489.6A CN109685056B (zh) | 2019-01-04 | 2019-01-04 | 获取文档信息的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910006489.6A CN109685056B (zh) | 2019-01-04 | 2019-01-04 | 获取文档信息的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109685056A true CN109685056A (zh) | 2019-04-26 |
CN109685056B CN109685056B (zh) | 2023-04-04 |
Family
ID=66191998
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910006489.6A Active CN109685056B (zh) | 2019-01-04 | 2019-01-04 | 获取文档信息的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109685056B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110298032A (zh) * | 2019-05-29 | 2019-10-01 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 文本分类语料标注训练系统 |
CN110377910A (zh) * | 2019-07-22 | 2019-10-25 | 北京大学 | 一种表格描述的处理方法、装置、设备及存储介质 |
CN110390269A (zh) * | 2019-06-26 | 2019-10-29 | 平安科技(深圳)有限公司 | Pdf文档表格提取方法、装置、设备及计算机可读存储介质 |
CN110414000A (zh) * | 2019-07-18 | 2019-11-05 | 达而观信息科技(上海)有限公司 | 一种基于模板文档对比的关键词提取方法及系统 |
CN110457659A (zh) * | 2019-07-05 | 2019-11-15 | 中国平安人寿保险股份有限公司 | 条款文档生成方法及终端设备 |
CN110532346A (zh) * | 2019-07-18 | 2019-12-03 | 达而观信息科技(上海)有限公司 | 一种抽取文档中要素的方法和装置 |
CN110852065A (zh) * | 2019-11-07 | 2020-02-28 | 达而观信息科技(上海)有限公司 | 一种文档审核方法、装置、系统、设备及存储介质 |
CN111209729A (zh) * | 2019-12-31 | 2020-05-29 | 上海犀语科技有限公司 | 一种基于序列标注的财务科目计算关系识别方法及装置 |
CN111368526A (zh) * | 2020-03-03 | 2020-07-03 | 支付宝(杭州)信息技术有限公司 | 一种序列标注方法和系统 |
CN112035994A (zh) * | 2019-06-03 | 2020-12-04 | 阿里巴巴集团控股有限公司 | 智能辅助设计的方法、装置及电子设备 |
CN112612869A (zh) * | 2020-11-24 | 2021-04-06 | 中国传媒大学 | 基于指数概率模型的文档结构学习与生成方法及装置 |
CN113221563A (zh) * | 2021-04-20 | 2021-08-06 | 支付宝(杭州)信息技术有限公司 | 一种pdf文档的标注方法、装置以及设备 |
CN113779934A (zh) * | 2021-08-13 | 2021-12-10 | 远光软件股份有限公司 | 多模态信息提取方法、装置、设备及计算机可读存储介质 |
CN113961685A (zh) * | 2021-07-13 | 2022-01-21 | 北京金山数字娱乐科技有限公司 | 信息抽取方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100274770A1 (en) * | 2009-04-24 | 2010-10-28 | Yahoo! Inc. | Transductive approach to category-specific record attribute extraction |
CN108536679A (zh) * | 2018-04-13 | 2018-09-14 | 腾讯科技(成都)有限公司 | 命名实体识别方法、装置、设备及计算机可读存储介质 |
CN108920656A (zh) * | 2018-07-03 | 2018-11-30 | 龙马智芯(珠海横琴)科技有限公司 | 文档属性描述内容提取方法和装置 |
-
2019
- 2019-01-04 CN CN201910006489.6A patent/CN109685056B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100274770A1 (en) * | 2009-04-24 | 2010-10-28 | Yahoo! Inc. | Transductive approach to category-specific record attribute extraction |
CN108536679A (zh) * | 2018-04-13 | 2018-09-14 | 腾讯科技(成都)有限公司 | 命名实体识别方法、装置、设备及计算机可读存储介质 |
CN108920656A (zh) * | 2018-07-03 | 2018-11-30 | 龙马智芯(珠海横琴)科技有限公司 | 文档属性描述内容提取方法和装置 |
Non-Patent Citations (1)
Title |
---|
梁小波等: "N-Reader:基于双层Self-attention的机器阅读理解模型", 《中文信息学报》 * |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110298032A (zh) * | 2019-05-29 | 2019-10-01 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 文本分类语料标注训练系统 |
CN110298032B (zh) * | 2019-05-29 | 2022-06-14 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 文本分类语料标注训练系统 |
CN112035994A (zh) * | 2019-06-03 | 2020-12-04 | 阿里巴巴集团控股有限公司 | 智能辅助设计的方法、装置及电子设备 |
CN110390269A (zh) * | 2019-06-26 | 2019-10-29 | 平安科技(深圳)有限公司 | Pdf文档表格提取方法、装置、设备及计算机可读存储介质 |
CN110390269B (zh) * | 2019-06-26 | 2023-08-01 | 平安科技(深圳)有限公司 | Pdf文档表格提取方法、装置、设备及计算机可读存储介质 |
CN110457659A (zh) * | 2019-07-05 | 2019-11-15 | 中国平安人寿保险股份有限公司 | 条款文档生成方法及终端设备 |
CN110457659B (zh) * | 2019-07-05 | 2023-07-25 | 中国平安人寿保险股份有限公司 | 条款文档生成方法及终端设备 |
CN110414000A (zh) * | 2019-07-18 | 2019-11-05 | 达而观信息科技(上海)有限公司 | 一种基于模板文档对比的关键词提取方法及系统 |
CN110532346A (zh) * | 2019-07-18 | 2019-12-03 | 达而观信息科技(上海)有限公司 | 一种抽取文档中要素的方法和装置 |
CN110532346B (zh) * | 2019-07-18 | 2023-04-28 | 达而观信息科技(上海)有限公司 | 一种抽取文档中要素的方法和装置 |
CN110414000B (zh) * | 2019-07-18 | 2022-12-20 | 达而观信息科技(上海)有限公司 | 一种基于模板文档对比的关键词提取方法及系统 |
CN110377910B (zh) * | 2019-07-22 | 2024-03-05 | 北京大学 | 一种表格描述的处理方法、装置、设备及存储介质 |
CN110377910A (zh) * | 2019-07-22 | 2019-10-25 | 北京大学 | 一种表格描述的处理方法、装置、设备及存储介质 |
CN110852065A (zh) * | 2019-11-07 | 2020-02-28 | 达而观信息科技(上海)有限公司 | 一种文档审核方法、装置、系统、设备及存储介质 |
CN110852065B (zh) * | 2019-11-07 | 2024-04-05 | 达观数据有限公司 | 一种文档审核方法、装置、系统、设备及存储介质 |
CN111209729A (zh) * | 2019-12-31 | 2020-05-29 | 上海犀语科技有限公司 | 一种基于序列标注的财务科目计算关系识别方法及装置 |
CN111368526B (zh) * | 2020-03-03 | 2023-04-25 | 支付宝(杭州)信息技术有限公司 | 一种序列标注方法和系统 |
CN111368526A (zh) * | 2020-03-03 | 2020-07-03 | 支付宝(杭州)信息技术有限公司 | 一种序列标注方法和系统 |
CN112612869A (zh) * | 2020-11-24 | 2021-04-06 | 中国传媒大学 | 基于指数概率模型的文档结构学习与生成方法及装置 |
CN113221563A (zh) * | 2021-04-20 | 2021-08-06 | 支付宝(杭州)信息技术有限公司 | 一种pdf文档的标注方法、装置以及设备 |
CN113221563B (zh) * | 2021-04-20 | 2024-04-16 | 支付宝(杭州)信息技术有限公司 | 一种pdf文档的标注方法、装置以及设备 |
CN113961685A (zh) * | 2021-07-13 | 2022-01-21 | 北京金山数字娱乐科技有限公司 | 信息抽取方法及装置 |
CN113779934A (zh) * | 2021-08-13 | 2021-12-10 | 远光软件股份有限公司 | 多模态信息提取方法、装置、设备及计算机可读存储介质 |
CN113779934B (zh) * | 2021-08-13 | 2024-04-26 | 远光软件股份有限公司 | 多模态信息提取方法、装置、设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109685056B (zh) | 2023-04-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109685056A (zh) | 获取文档信息的方法及装置 | |
CN104899304B (zh) | 命名实体识别方法及装置 | |
CN107766371B (zh) | 一种文本信息分类方法及其装置 | |
CN110427623A (zh) | 半结构化文档知识抽取方法、装置、电子设备及存储介质 | |
CN110781663B (zh) | 文本分析模型的训练方法及装置、文本分析方法及装置 | |
WO2021248492A1 (en) | Semantic representation of text in document | |
CN113449528B (zh) | 一种地址要素提取方法、装置、计算机设备和存储介质 | |
CN114580424B (zh) | 一种用于法律文书的命名实体识别的标注方法和装置 | |
WO2023071745A1 (zh) | 信息标注方法、模型训练方法、电子设备及存储介质 | |
CN113360699A (zh) | 模型训练方法和装置、图像问答方法和装置 | |
Zhao et al. | Sentiment analysis on the online reviews based on hidden Markov model | |
CN111666766A (zh) | 数据处理方法、装置和设备 | |
CN112800239A (zh) | 意图识别模型训练方法、意图识别方法及装置 | |
CN115952791A (zh) | 基于机器阅读理解的篇章级事件抽取方法、装置、设备及存储介质 | |
CN116245097A (zh) | 训练实体识别模型的方法、实体识别方法及对应装置 | |
CN112560504A (zh) | 抽取表单文档中信息的方法、电子设备和计算机可读介质 | |
CN118170907A (zh) | 一种基于深度神经网络的公文智能标签系统及其实现方法 | |
CN113255369A (zh) | 文本相似度分析的方法、装置及存储介质 | |
CN116415562B (zh) | 用于解析金融数据的方法、设备和介质 | |
CN115130437B (zh) | 一种文档智能填写方法、装置及存储介质 | |
CN117034948A (zh) | 基于多特征自适应融合的段落识别方法、系统及存储介质 | |
Kuncham et al. | Statistical sandhi splitter for agglutinative languages | |
CN114842982B (zh) | 一种面向医疗信息系统的知识表达方法、装置及系统 | |
CN116306506A (zh) | 一种基于内容识别的智能邮件模板方法 | |
CN114359928A (zh) | 一种电子发票识别方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address | ||
CP03 | Change of name, title or address |
Address after: Room 501, 502, 503, No. 66 Boxia Road, China (Shanghai) Pilot Free Trade Zone, Pudong New Area, Shanghai, March 2012 Patentee after: Daguan Data Co.,Ltd. Address before: Room 310, Building Y1, No. 112, Liangxiu Road, Pudong New Area, Shanghai, March 2012 Patentee before: DATAGRAND INFORMATION TECHNOLOGY (SHANGHAI) Co.,Ltd. |