CN117332761B - 一种pdf文档智能识别标注系统 - Google Patents
一种pdf文档智能识别标注系统 Download PDFInfo
- Publication number
- CN117332761B CN117332761B CN202311618132.6A CN202311618132A CN117332761B CN 117332761 B CN117332761 B CN 117332761B CN 202311618132 A CN202311618132 A CN 202311618132A CN 117332761 B CN117332761 B CN 117332761B
- Authority
- CN
- China
- Prior art keywords
- unit
- labeling
- text
- module
- task
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000002372 labelling Methods 0.000 claims abstract description 103
- 230000006870 function Effects 0.000 claims abstract description 29
- 238000012545 processing Methods 0.000 claims abstract description 23
- 238000005516 engineering process Methods 0.000 claims abstract description 17
- 238000012015 optical character recognition Methods 0.000 claims description 22
- 238000007726 management method Methods 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 20
- 238000000034 method Methods 0.000 claims description 17
- 238000003058 natural language processing Methods 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 239000003795 chemical substances by application Substances 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 238000013461 design Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000008451 emotion Effects 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 230000003993 interaction Effects 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 2
- 238000004148 unit process Methods 0.000 claims description 2
- 230000000877 morphologic effect Effects 0.000 claims 2
- 238000012795 verification Methods 0.000 abstract description 3
- 238000000547 structure data Methods 0.000 abstract description 2
- 230000003287 optical effect Effects 0.000 abstract 1
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明涉及PDF文档处理领域,提供一种PDF文档智能识别标注系统,包括管理员模块、单位管理模块、标注员模块、PDF标注模块、光学字符识别模块和数据结构化模块;通过OCR识别和自然语言识别技术自动处理标注内容及图片并生成结构化数据,使标注后的定量结构数据可直接用于业务后续场景,无须人工处理标注内容;提供灵活的指标选择功能,可以满足不同场景下的标注需求;通过解析标注内容中的数值和单位,按照业务模型,自动形成结构化的数据,包括数值和单位,年份等所有需求方自定义的结构化字段;制定多重校验逻辑,对用户标注所形成的结构化数据进行校验,降低人工标注可能带来的误差。
Description
技术领域
本发明涉及的技术领域主要包括电子数据处理、图像识别、人工智能以及PDF文档处理,这些技术领域涵盖了从PDF文档中提取特定指标、自动识别截图内容、生成结构化数据以及数据处理等方面的技术,具体地说是一种PDF文档智能识别标注系统。
背景技术
PDF文档智能识别标注是指通过计算机视觉和自然语言处理技术,自动识别PDF文档中的内容,并根据内容的类型、语义和结构添加标注、注释或元数据信息的过程;PDF文档智能识别标注可以帮助用户更轻松地理解和管理PDF文档,提高文档的可用性和可搜索性。
现有技术在对PDF文件进行标注时,有以下几个缺点:
1.无法选择指标:现有的PDF标注软件,不支持选择指标,只能用户自己整理标注内容,这种方法的效率低下,尤其是在处理大量数据时,会浪费大量时间和精力。
2.出错率高:手动标注容易引入误差,尤其是在需要精确标注数值和单位时,这种误差可能来自于手动添加、手动识别等环节。
3.无法自动识别截图内容:现有技术无法准确地自动识别用户截取的图片内容,这限制了PDF文档标注的准确性和效率。
4.缺乏智能生成结构化数据的功能:现有技术无法自动将用户截取的图片内容转化为结构化数据,包括数值和单位,这使得数据处理和整理的效率低下。
其中中国专利公告号为:CN116070602A,公开了一种PDF文档智能标注与抽取方法,其步骤包括:1)利用文本抽取模块抽取PDF文档中的文字信息和文字位置坐标;2)利用智能标注模型对抽取出的所述文字信息进行标注;3)利用标注回显模块将实体信息和实体关系信息使用统一的格式放入数据库中并在PDF文档上回显,并根据预先定义的知识本体进行标注筛选;31)定义知识本体和关系;32)对定义的实体名和关系名进行向量化,基于向量的余弦相似度计算每一个名称对应的智能标注模型中标出的实体和关系;33)根据从PDF文档抽取的文字和文字坐标信息,将筛选出的实体和关系定位到在PDF上;34)在原始PDF上建立一个智能标注层,标注出实体类别和关系类别;上述发明能直接从PDF文档中抽取信息,训练模型,且使用主动学习的思想对不同科研领域进行领域模型训练并在原始PDF格式上进行结果回显;但上述发明仍然不具备智能生成结构化数据的功能,数据处理和整理的效率较低。
综上,因此本发明提供了一种PDF文档智能识别标注系统,以解决上述问题。
发明内容
本发明提供了一种PDF文档智能识别标注系统,通过结合图像识别和人工智能技术,开发了一种能够选择指标对PDF文档标注和截图,自动使用OCR技术在线识别截图内容,并使用自然语言识别技术智能生成结构化数据的标注系统,以解决现有技术中缺少智能生成结构化数据的功能等问题。
本发明的具体技术方案如下:
一种PDF文档智能识别标注系统,包括:
管理员模块,所述管理员模块用于进行标注任务的分配和管理,管理员可使用该模块进行标注任务的分配和管理,包括筛选任务、指定标注员、设置截止日期等;
单位管理模块,所述单位管理模块用于对PDF文档中的数值进行单位换算,管理员可使用该模块对PDF文档中的数值进行单位换算,可以将标注员标注时所产生的不同单位通过定义转换系数进行定量数据的转换,比如千港元、美元、港元分别定义837.33、6.5412、0.83733系数,转换成元;
标注员模块,所述标注员模块用于显示标注任务,标注员可在该模块中查看管理员分配给自己的标注任务及任务状态,任务数量,已标注的指标数量等;
PDF标注模块,所述PDF标注模块用于进行内容标注和截取PDF图片,标注员根据指标列表选择相应的指标在PDF文档进行内容标注或截图操作选取PDF文档中的内容;
光学字符识别模块,所述光学字符识别模块用于识别图片中的文字,并将识别的文字提取成文本内容,该模块通过光学字符识别(OCR)技术自动识别操作员截取的PDF区域的图片,并把图片中的内容提取成文本内容;
数据结构化模块,所述数据结构化模块用于智能生成结构化数据,该模块对PDF标注的文本内容或经过OCR识别提取的文本内容利用自然语言处理(NLP)技术,包括分词、实体识别、规则标记、关键字提取等技术,智能分析与处理文本,生成结构化数据,特别对于定量数据可以结构化,包括数值和单位等信息。
邮件模块,所述邮件模块用于生成和发送含有标注任务数量的邮件;
用户界面模块,所述用户界面模块用于生成用户操作界面,包括导航栏和分类选项,所述导航栏包括“报告列表”、“我的报告”和“单位管理”,所述分类选项包括“公司状态”、“报告时间”和“报告状态”;
所述PDF文档智能识别标注系统模块之间的功能交互关系如下:
所述管理员模块向标注员模块发送标注任务信息,所述标注员模块选择目标任务后进入PDF标注模块进行具体的标注操作,所述PDF标注模块将截取的图片发送给光学字符识别模块进行自动识别,所述光学字符识别模块将自动识别的文本内容发送给数据结构化模块,所述邮件模块发送的邮件在标注员模块中显示,所述用户界面模块将其他模块的内容可视化。
优选的一种技术方案,所述PDF文档智能识别标注系统还包括权限管理模块,所述权限管理模块用于管理用户的访问和操作权限,管理员可以管理用户和工作组的权限,以确保只有授权人员可以访问和管理标注任务信息。
优选的一种技术方案,所述管理员模块包括:
任务创建单元,所述任务创建单元用于创建标注任务,管理员可以创建新的标注任务,指定任务的类型、优先级、截止日期和相关信息,标注任务可以分配给系统的用户或特定的工作组;
任务监督单元,所述任务监督单元用于监督标注任务执行情况,管理员可以实时监督任务的执行情况,以便管理员随时了解任务的状态;
任务优先级管理单元,所述任务优先级管理单元用于对不同的标注任务设置不同的优先级,管理员可以为不同任务设置不同的优先级,以确保重要任务得到及时处理;
任务分配单元,所述任务分配单元用于分配标注任务,管理员可以根据需要将任务分配给不同的用户或工作组,或者重新分配任务以适应工作负荷和时间表;
任务报告单元,所述任务报告单元用于生成和分析标注任务报告,管理员可以查看任务完成情况的详细报告,以便进行绩效评估和决策制定;
历史记录单元,所述历史记录单元用于记录标注任务的历史信息,包括任务创建、分配、完成和修改记录,以便审计和追溯;
任务搜索和过滤单元,所述任务搜索和过滤单元用于查找和筛选特定类型的标注任务,管理员可以使用搜索和过滤功能来查找特定类型的任务或根据不同的标准进行任务筛选;
管理员模块的设计旨在提高任务管理的效率和透明度,以确保任务能够按时完成,为用户提供了更好的工作体验和管理工具。
优选的一种技术方案,所述标注员模块包括:
信息管理单元,所述信息管理单元用于登记和管理标注员的个人信息,包括姓名、联系信息、工作时间表等;
任务列表单元,所述任务列表单元用于显示标注员当前分配的标注任务列表,包括任务的状态、进度和截止日期;
任务状态追踪单元,所述任务状态追踪单元用于更新标注任务的状态,例如标注完成、待审核、已审核等;
标注记录单元,所述标注记录单元用于记录标注员的标注历史,包括完成的任务、用时、质量评分等信息;
邮件接收单元,所述邮件接收单元用于接收和显示邮件,并生成提示界面。
优选的一种技术方案,所述PDF标注模块包括:
导入单元,所述导入单元用于导入和加载PDF文档;
文本识别单元,所述文本识别单元用于识别PDF文档中的文本和选取目标文本;
图片截取单元,所述图片截取单元用于截取PDF文档中的图片;
标注工具单元,所述标注工具单元用于生成标注工具;
标注管理单元,所述标注管理单元用于管理和编辑已添加的标注;
导出单元,所述导出单元用于导出截取的图片和带有标注的PDF文档。
优选的一种技术方案,所述光学字符识别模块包括:
图片处理单元,所述图片处理单元用于优化图片质量,从而提高文字识别的准确性;
自动识别单元,所述自动识别单元用于自动识别图片中的文本内容,能够准确识别文本中的文字内容,包括不同字体、大小和语言的文字;
布局保留单元,所述布局保留单元用于识别和保留原始文本的布局和格式,以便将识别后的文本正确放置在文档中的相应位置;
编辑校对单元,所述编辑校对单元用于编辑和校对识别后的文本内容,以确保识别的准确性;
输出单元,所述输出单元用于输出识别的文本,支持将识别后的文本保存为常见的文本格式,以便进一步编辑或分享;
通过集成强大的光学字符识别模块,PDF文档智能识别标注系统可以使用户轻松地将PDF文档中的图像和文字内容转化为可编辑的文本,为后续的标注、搜索和编辑提供了便利。
优选的一种技术方案,所述数据结构化模块包括:
文本提取单元,所述文本提取单元用于提取文本内容,包括标题、段落、表格、列表等;
文本预处理单元,所述文本预处理单元用于对文本进行预处理,包括分词、去除停用词等,以便后续的分析和理解;
信息提取单元,所述信息提取单元用于提取文本中的关键信息,通过命名实体识别(NER)技术来识别文本中的实体,例如人名、地名、日期等,有助于识别关键信息;
句法分析单元,所述句法分析单元用于进行文本句法分析,以理解句子的结构和语法,识别主谓宾等关键信息;
情感分析单元,所述情感分析单元用于进行文本情感分析,识别文本中的情感极性,例如正面、负面或中性;
指标设计单元,所述指标设计单元用于生成定量指标单位库和定性指标标注库;其中创建一个定量指标单位库可以遵循以下公式:
式中,数值是指标的具体数值,量纲是指标的单位;通过将指标的数值除以指标的量纲,可以得到一个以单位为标准的指标库,用于比较不同指标之间的差异,将不同量纲的指标转化为统一的标准单位,并使它们之间具有可比性;在创建指标单位库时,确保每个指标都有明确的数值和单位,并且采用统一的计量体系和单位转换方法。
模型处理单元,所述模型处理单元利用自然语言处理技术训练的模型对标注内容进行处理,并输出结构化结构;在自然语言处理中,训练模型的公式分为两个阶段:前向传播和反向传播;
前向传播阶段:
在前向传播阶段,利用已知的训练数据(包括输入特征和对应的标签)来计算模型的输出;具体来说,对于一个输入样本X,首先利用模型中的参数和激活函数对输入进行一系列线性和非线性的运算,得到预测结果Y_hat;
反向传播阶段:
在反向传播阶段,将预测结果与真实标签进行比较,并利用损失函数来度量它们之间的差异;损失函数可以使用不同的形式,例如交叉熵损失函数、平方损失函数等;然后通过求导的方式计算损失函数对模型参数的梯度;梯度表示了损失函数在参数空间中的变化率,提示如何更新模型参数以最小化损失函数;
在训练模型的过程中,我们通常会使用梯度下降算法或其变种来更新模型参数。更新时,模型参数根据梯度与学习率的乘积进行调整,以逐步接近最优解;
前向传播的公式可以表示为:
;
式中,X是输入样本的特征矩阵,W是模型的权重矩阵,b是偏置向量,f是激活函数;
计算损失函数:
;
式中,Y_hat是模型的预测结果,Y是真实的标签;
反向传播:
;
式中,表示损失函数对预测结果的导数,f’表示激活函数的导数,表示特征矩阵X的转置;
更新参数:
;
式中,α表示学习率,控制着参数更新的步长;
通过反复执行前向传播和反向传播步骤,不断更新模型参数,直到达到预定义的停止条件(如迭代次数或收敛阈值),使模型学习到输入和输出之间的关系,并且可以对新的输入做出预测。
数据结构化模块可以极大地提高PDF文档的理解和利用能力,使用户能够更轻松地从文档中获取有价值的信息。
优选的一种技术方案,所述文本预处理单元包括:
分词子单元,所述分词子单元用于将文本分割成单词和标记,使文本分割为单个单位;
去除停用词子单元,所述去除停用词子单元用于去除停用词,如“the”、“and”、“in”等,停用词在文本中频繁出现但通常不携带重要信息;
词形还原子单元,所述词形还原子单元用于对单词进行词形还原,将单词还原为其基本形式,以减少词汇变体的影响,例如将“running”还原为“run”;
去除多余空白子单元,所述去除多余空白子单元用于去除文本中多余的空格和换行符,以保持文本的一致性;
文本预处理单元的目标是将原始文本转化为干净、结构化、可用于进一步分析的文本数据,这有助于提高自然语言处理技术的性能和可靠性。
优选的一种技术方案,所述信息提取单元包括命名实体识别子单元、关键词提取子单元、事件和日期提取子单元、文本摘要子单元、关系抽取子单元和实体链接子单元;
命名实体识别子单元,所述命名实体识别子单元用于识别文本中的命名实体,使用自然语言处理技术来识别文本中的命名实体,例如人名、地名、组织机构、日期、货币、百分比等,有助于识别文档中的关键信息;
关键词提取子单元,所述关键词提取子单元用于识别文本中的关键词和短语,关键词代表文档的主题或重要内容,关键词可以用于标注、索引或概述文档;
事件和日期提取子单元,所述事件和日期提取子单元用于识别文本中描述的事件、日期和时间信息,有利于生成时间线或日期相关的注释;
文本摘要子单元,所述文本摘要子单元用于生成文本摘要,将文档中的主要观点和信息提炼成简短的摘要段落;
关系抽取子单元,所述关系抽取子单元用于分析和识别实体之间的关系,例如人物之间的合作关系、产品与公司之间的关联等;
实体链接子单元,所述实体链接子单元用于将文本中的命名实体链接到外部知识库,以丰富实体的相关信息,例如百科页面或公司概要;
信息提取单元的目标是从文档中捕获并结构化重要信息,以便系统可以更好地理解文本内容并支持注释、搜索、总结和自动化决策等功能,信息提取对于处理大量文本数据和实现文档智能化非常关键。
与现有技术相比,本发明具有如下有益效果:
1.本发明通过OCR识别和自然语言识别技术自动处理标注内容及图片并生成结构化数据,使标注后的定量结构数据可直接用于业务后续场景,无须人工处理标注内容。
2.本发明提供灵活的指标选择功能,可以满足不同场景下的标注需求,具有极高的适用性。
3.本发明通过解析标注内容中的数值和单位,按照业务模型,自动形成结构化的数据,包括数值和单位,年份等所有需求方自定义的结构化字段。
4.本发明制定多重校验逻辑,对用户标注所形成的结构化数据进行校验,如数值,单位,指标名称等,降低人工标注可能带来的误差。
附图说明
图1是本发明整体结构示意图。
图2是本发明实施例流程示意图。
具体实施方式
下面结合附图和实施例对本发明的实施方式作进一步详细描述。以下实施例用于说明本发明,但不能用来限制本发明的范围。
如图1-2所示,本发明提供一种PDF文档智能识别标注系统,包括:
管理员模块,所述管理员模块用于进行标注任务的分配和管理,管理员可使用该模块进行标注任务的分配和管理,包括筛选任务、指定标注员、设置截止日期等;
单位管理模块,所述单位管理模块用于对PDF文档中的数值进行单位换算,管理员可使用该模块对PDF文档中的数值进行单位换算,可以将标注员标注时所产生的不同单位通过定义转换系数进行定量数据的转换,比如千港元、美元、港元分别定义837.33、6.5412、0.83733系数,转换成元;
标注员模块,所述标注员模块用于显示标注任务,标注员可在该模块中查看管理员分配给自己的标注任务及任务状态,任务数量,已标注的指标数量等;
PDF标注模块,所述PDF标注模块用于进行内容标注和截取PDF图片,标注员根据指标列表选择相应的指标在PDF文档进行内容标注或截图操作选取PDF文档中的内容;
光学字符识别模块,所述光学字符识别模块用于识别图片中的文字,并将识别的文字提取成文本内容,该模块通过光学字符识别(OCR)技术自动识别操作员截取的PDF区域的图片,并把图片中的内容提取成文本内容;
数据结构化模块,所述数据结构化模块用于智能生成结构化数据,该模块对PDF标注的文本内容或经过OCR识别提取的文本内容利用自然语言处理(NLP)技术,包括分词、实体识别、规则标记、关键字提取等技术,智能分析与处理文本,生成结构化数据,特别对于定量数据可以结构化,包括数值和单位等信息。
邮件模块,所述邮件模块用于生成和发送含有标注任务数量的邮件;
用户界面模块,所述用户界面模块用于生成用户操作界面,包括导航栏和分类选项,所述导航栏包括“报告列表”、“我的报告”和“单位管理”,所述分类选项包括“公司状态”、“报告时间”和“报告状态”;
所述PDF文档智能识别标注系统模块之间的功能交互关系如下:
所述管理员模块向标注员模块发送标注任务信息,所述标注员模块选择目标任务后进入PDF标注模块进行具体的标注操作,所述PDF标注模块将截取的图片发送给光学字符识别模块进行自动识别,所述光学字符识别模块将自动识别的文本内容发送给数据结构化模块,所述邮件模块发送的邮件在标注员模块中显示,所述用户界面模块将其他模块的内容可视化。
实施例
本实施例以本年度上市公司年报ESG报告采集的PDF文档为例,首先管理员通过管理员模块中的任务创建单元创建标注任务,随后通过管理员模块中的任务分配单元将标注任务分配给某个标注员;随后标注员通过标注员模块中的任务列表单元查看到该标注任务,随后标注员通过PDF标注模块中的导入单元导入本年度上市公司年报ESG报告采集的PDF文档;随后标注员选择该PDF文档的智能识别标注指标,指标主要包括文本识别和标注功能的准确性、处理速度和效率等;随后标注员再利用PDF标注模块中的文本识别单元、图片截取单元、标注工具单元和标注管理单元对该PDF文档进行标注。
本年度上市公司年报ESG报告采集的PDF文档中,图片、图表或其他非文本内容被PDF标注模块中的图片截取单元截取为图片,并通过PDF标注模块中的导出单元发送给光学字符识别模块,再通过光学字符识别模块中的图片处理单元、自动识别单元、布局保留单元和编辑校对单元将PDF文档中的图像和文字内容转化为可编辑的文本。
最后通过数据结构化模块智能识别文本形成结构化数据,再由标注员对数据进行审查,利用PDF标注模块中的标注管理单元修改、删除或移动标注,从而修正错误的标注,最后将标注结果上传,再由质检部门进行人工验证,通过验证后即可完成该PDF文档的标注任务。
数据结构化模块中标注系统结构化数据过程,是指用户提交标注的内容传输到利用自然语言处理技术训练的模型,该模型会输出相应的结构化结果;此模型利用自然语言技术,对标注的内容进行实体识别出文本包含的对应指标。
指标设计单元中,对于定量指标,标注系统包含有定量指标的对应单位库,比如千克、吨、元、升等词库,对指标实体识别后,再传输到正则表达式的规则引擎中,提取对应指标的具体数字,再对单位处理后形成了指标、量化数字、单位的结构化数据;对于定性指标,利用前期对定性指标标注形成的标注库,判断用户标注的内容与库中内容文本的相识度,提取定性指标的文本描述,如果大于系统设定的相识度阈值,则定性指标取“是”,否则去“否,同时会存成相应的标准内容,形成定性指标的结构化数据。
本发明的实施方式是为了示例和描述起见而给出的,尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (9)
1.一种PDF文档智能识别标注系统,其特征在于,包括:
管理员模块,所述管理员模块用于标注任务的创建、分配和管理;
单位管理模块,所述单位管理模块用于对数值进行单位换算;
标注员模块,所述标注员模块用于查看标注任务和记录标注历史;
PDF标注模块,所述PDF标注模块用于生成标注工具和截取图片;
光学字符识别模块,所述光学字符识别模块用于识别PDF标注模块中截取的图片中的文字,并将识别的文字提取成文本内容;
数据结构化模块,所述数据结构化模块用于生成结构化数据,整理标注内容;
邮件模块,所述邮件模块用于生成和发送含有标注任务数量的邮件;
用户界面模块,所述用户界面模块用于生成用户操作界面,包括导航栏和分类选项,所述导航栏包括“报告列表”、“我的报告”和“单位管理”,所述分类选项包括“公司状态”、“报告时间”和“报告状态”;
所述PDF文档智能识别标注系统模块之间的功能交互关系如下:
所述管理员模块向标注员模块发送标注任务信息,所述标注员模块选择目标任务后进入PDF标注模块进行具体的标注操作,所述PDF标注模块将截取的图片发送给光学字符识别模块进行自动识别,所述光学字符识别模块将自动识别的文本内容发送给数据结构化模块,所述邮件模块发送的邮件在标注员模块中显示,所述用户界面模块将其他模块的内容可视化;
所述数据结构化模块包括:
指标设计单元,所述指标设计单元用于生成定量指标单位库和定性指标标注库,所述定量指标单位库由定量指标的对应单位构建,所述指标设计单元对指标实体识别后,传输到正则表达式的规则引擎中,提取对应指标的具体数字,再对单位处理后形成了指标、量化数字、单位的结构化数据;所述定性指标标注库由定性指标标注的历史记录构建,所述指标设计单元基于定性指标标注库,判断用户标注的内容与库中内容文本的相识度,提取定性指标的文本描述,与预设的相识度阈值对比,形成定性指标的结构化数据;
其中创建一个定量指标单位库遵循以下公式:
;
式中,数值是指标的具体数值,量纲是指标的单位;将指标的数值除以指标的量纲,得到一个以单位为标准的指标库,将不同量纲的指标转化为统一的标准单位;在创建指标单位库时,每个指标都有明确的数值和单位,并且采用统一的计量体系和单位转换方法;
模型处理单元,所述模型处理单元利用自然语言处理技术训练的模型对标注内容进行处理;在自然语言处理中,训练模型的公式分为两个阶段:前向传播和反向传播;
在前向传播阶段,所述模型处理单元利用已知的训练数据来计算模型的输出;对于一个输入样本X,首先利用模型中的参数和激活函数对输入进行线性和非线性的运算,得到预测结果;
在反向传播阶段,所述模型处理单元将预测结果与真实标签进行比较,并利用损失函数来度量差异;损失函数包括交叉熵损失函数、平方损失函数;然后所述模型处理单元求导计算损失函数对模型参数的梯度;梯度表示了损失函数在参数空间中的变化率,提示更新模型参数以最小化损失函数;
所述模型处理单元使用梯度下降算法来更新模型参数;所述模型参数根据梯度与学习率的乘积进行调整;
前向传播的公式表示为:
;
式中,X是输入样本的特征矩阵,W是模型的权重矩阵,b是偏置向量,f是激活函数;
反向传播的公式表示为:
;
式中,表示损失函数对预测结果的导数,/>表示激活函数的导数,/>表示特征矩阵X的转置;
更新参数:
;
式中,α表示学习率,控制着参数更新的步长;
所述模型处理单元反复执行前向传播和反向传播,不断更新模型参数,使模型学习到输入和输出之间的关系,并且对新的输入做出预测。
2.如权利要求1所述一种PDF文档智能识别标注系统,其特征在于,所述PDF文档智能识别标注系统还包括权限管理模块,所述权限管理模块用于管理用户的访问和操作权限。
3.如权利要求1所述一种PDF文档智能识别标注系统,其特征在于,所述管理员模块包括:
任务创建单元,所述任务创建单元用于创建标注任务;
任务监督单元,所述任务监督单元用于监督标注任务执行情况;
任务优先级管理单元,所述任务优先级管理单元用于对不同的标注任务设置不同的优先级;
任务分配单元,所述任务分配单元用于分配标注任务;
任务报告单元,所述任务报告单元用于生成和分析标注任务报告;
历史记录单元,所述历史记录单元用于记录标注任务的历史信息;
任务搜索和过滤单元,所述任务搜索和过滤单元用于查找和筛选特定类型的标注任务。
4.如权利要求1所述一种PDF文档智能识别标注系统,其特征在于,所述标注员模块包括:
信息管理单元,所述信息管理单元用于登记和管理标注员的个人信息;
任务列表单元,所述任务列表单元用于显示标注员当前分配的标注任务列表;
任务状态追踪单元,所述任务状态追踪单元用于更新标注任务的状态;
标注记录单元,所述标注记录单元用于记录标注员的标注历史;
邮件接收单元,所述邮件接收单元用于接收和显示邮件,并生成提示界面。
5.如权利要求1所述一种PDF文档智能识别标注系统,其特征在于,所述PDF标注模块包括:
导入单元,所述导入单元用于导入和加载PDF文档;
文本识别单元,所述文本识别单元用于识别PDF文档中的文本和选取目标文本;
图片截取单元,所述图片截取单元用于截取PDF文档中的图片;
标注工具单元,所述标注工具单元用于生成标注工具;
标注管理单元,所述标注管理单元用于管理和编辑已添加的标注;
导出单元,所述导出单元用于导出截取的图片和带有标注的PDF文档。
6.如权利要求1所述一种PDF文档智能识别标注系统,其特征在于,所述光学字符识别模块包括:
图片处理单元,所述图片处理单元用于优化图片质量;
自动识别单元,所述自动识别单元用于自动识别图片中的文本内容;
布局保留单元,所述布局保留单元用于识别和保留原始文本的布局和格式;
编辑校对单元,所述编辑校对单元用于编辑和校对识别后的文本内容;
输出单元,所述输出单元用于输出识别的文本。
7.如权利要求1所述一种PDF文档智能识别标注系统,其特征在于,所述数据结构化模块包括:
文本提取单元,所述文本提取单元用于提取文本内容;
文本预处理单元,所述文本预处理单元用于对文本进行预处理;
信息提取单元,所述信息提取单元用于提取文本中的关键信息;
句法分析单元,所述句法分析单元用于进行文本句法分析;
情感分析单元,所述情感分析单元用于进行文本情感分析。
8.如权利要求7所述一种PDF文档智能识别标注系统,其特征在于,所述文本预处理单元包括:
分词子单元,所述分词子单元用于将文本分割成单词和标记;
去除停用词子单元,所述去除停用词子单元用于去除停用词;
词形还原子单元,所述词形还原子单元用于对单词进行词形还原;
去除多余空白子单元,所述去除多余空白子单元用于去除文本中多余的空格和换行符。
9.如权利要求7所述一种PDF文档智能识别标注系统,其特征在于,所述信息提取单元包括:
命名实体识别子单元,所述命名实体识别子单元用于识别文本中的命名实体;
关键词提取子单元,所述关键词提取子单元用于识别文本中的关键词和短语;
事件和日期提取子单元,所述事件和日期提取子单元用于识别文本中描述的事件、日期和时间信息;
文本摘要子单元,所述文本摘要子单元用于生成文本摘要;
关系抽取子单元,所述关系抽取子单元用于分析和识别实体之间的关系;
实体链接子单元,所述实体链接子单元用于将文本中的命名实体链接到外部知识库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311618132.6A CN117332761B (zh) | 2023-11-30 | 2023-11-30 | 一种pdf文档智能识别标注系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311618132.6A CN117332761B (zh) | 2023-11-30 | 2023-11-30 | 一种pdf文档智能识别标注系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117332761A CN117332761A (zh) | 2024-01-02 |
CN117332761B true CN117332761B (zh) | 2024-02-09 |
Family
ID=89277669
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311618132.6A Active CN117332761B (zh) | 2023-11-30 | 2023-11-30 | 一种pdf文档智能识别标注系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117332761B (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109446513A (zh) * | 2018-09-18 | 2019-03-08 | 中国电子科技集团公司第二十八研究所 | 一种基于自然语言理解的文本中事件的抽取方法 |
CN110390269A (zh) * | 2019-06-26 | 2019-10-29 | 平安科技(深圳)有限公司 | Pdf文档表格提取方法、装置、设备及计算机可读存储介质 |
CN110597998A (zh) * | 2019-07-19 | 2019-12-20 | 中国人民解放军国防科技大学 | 一种结合句法分析的军事想定实体关系抽取方法及装置 |
CN111026799A (zh) * | 2019-12-06 | 2020-04-17 | 安翰科技(武汉)股份有限公司 | 胶囊内窥镜检查报告文本结构化方法、设备及介质 |
CN111310693A (zh) * | 2020-02-26 | 2020-06-19 | 腾讯科技(深圳)有限公司 | 图像中文本的智能标注方法、装置及存储介质 |
CN111475641A (zh) * | 2019-08-26 | 2020-07-31 | 北京国双科技有限公司 | 一种数据抽取方法、装置、存储介质及设备 |
CN111723225A (zh) * | 2020-05-09 | 2020-09-29 | 江苏丰华联合科技有限公司 | 一种图像数据标注方法 |
CN112541490A (zh) * | 2020-12-03 | 2021-03-23 | 广州城市规划技术开发服务部有限公司 | 一种基于深度学习的档案影像信息结构化构建方法及装置 |
CN113051401A (zh) * | 2021-04-06 | 2021-06-29 | 明品云(北京)数据科技有限公司 | 一种文本结构化标注方法、系统、设备和介质 |
CN114065758A (zh) * | 2021-11-22 | 2022-02-18 | 杭州师范大学 | 一种基于超图随机游走的文档关键词抽取方法 |
CN115240203A (zh) * | 2022-06-20 | 2022-10-25 | 平安科技(深圳)有限公司 | 业务数据处理方法、装置、设备及存储介质 |
CN115344712A (zh) * | 2022-08-17 | 2022-11-15 | 河北工业大学 | 一种基于融合文本的碳标准知识图谱构建方法 |
CN116070602A (zh) * | 2023-01-05 | 2023-05-05 | 中国科学院计算机网络信息中心 | 一种pdf文档智能标注与抽取方法 |
CN116934285A (zh) * | 2023-09-15 | 2023-10-24 | 济南泰格电子技术有限公司 | 一种实现数字化与实体档案管理的视觉智能系统及设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040194009A1 (en) * | 2003-03-27 | 2004-09-30 | Lacomb Christina | Automated understanding, extraction and structured reformatting of information in electronic files |
US8768062B2 (en) * | 2010-11-09 | 2014-07-01 | Tata Consulting Services Limited | Online script independent recognition of handwritten sub-word units and words |
-
2023
- 2023-11-30 CN CN202311618132.6A patent/CN117332761B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109446513A (zh) * | 2018-09-18 | 2019-03-08 | 中国电子科技集团公司第二十八研究所 | 一种基于自然语言理解的文本中事件的抽取方法 |
CN110390269A (zh) * | 2019-06-26 | 2019-10-29 | 平安科技(深圳)有限公司 | Pdf文档表格提取方法、装置、设备及计算机可读存储介质 |
CN110597998A (zh) * | 2019-07-19 | 2019-12-20 | 中国人民解放军国防科技大学 | 一种结合句法分析的军事想定实体关系抽取方法及装置 |
CN111475641A (zh) * | 2019-08-26 | 2020-07-31 | 北京国双科技有限公司 | 一种数据抽取方法、装置、存储介质及设备 |
CN111026799A (zh) * | 2019-12-06 | 2020-04-17 | 安翰科技(武汉)股份有限公司 | 胶囊内窥镜检查报告文本结构化方法、设备及介质 |
CN111310693A (zh) * | 2020-02-26 | 2020-06-19 | 腾讯科技(深圳)有限公司 | 图像中文本的智能标注方法、装置及存储介质 |
CN111723225A (zh) * | 2020-05-09 | 2020-09-29 | 江苏丰华联合科技有限公司 | 一种图像数据标注方法 |
CN112541490A (zh) * | 2020-12-03 | 2021-03-23 | 广州城市规划技术开发服务部有限公司 | 一种基于深度学习的档案影像信息结构化构建方法及装置 |
CN113051401A (zh) * | 2021-04-06 | 2021-06-29 | 明品云(北京)数据科技有限公司 | 一种文本结构化标注方法、系统、设备和介质 |
CN114065758A (zh) * | 2021-11-22 | 2022-02-18 | 杭州师范大学 | 一种基于超图随机游走的文档关键词抽取方法 |
CN115240203A (zh) * | 2022-06-20 | 2022-10-25 | 平安科技(深圳)有限公司 | 业务数据处理方法、装置、设备及存储介质 |
CN115344712A (zh) * | 2022-08-17 | 2022-11-15 | 河北工业大学 | 一种基于融合文本的碳标准知识图谱构建方法 |
CN116070602A (zh) * | 2023-01-05 | 2023-05-05 | 中国科学院计算机网络信息中心 | 一种pdf文档智能标注与抽取方法 |
CN116934285A (zh) * | 2023-09-15 | 2023-10-24 | 济南泰格电子技术有限公司 | 一种实现数字化与实体档案管理的视觉智能系统及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN117332761A (zh) | 2024-01-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114616572A (zh) | 跨文档智能写作和处理助手 | |
CN108153729B (zh) | 一种面向金融领域的知识抽取方法 | |
CN109933783A (zh) | 一种不良资产经营领域的合同要素化方法 | |
CN115983571A (zh) | 一种基于人工智能的建筑业施工方案审核方法及其系统 | |
CN111462752A (zh) | 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法 | |
CN113919336A (zh) | 基于深度学习的文章生成方法、装置及相关设备 | |
CN114491034B (zh) | 一种文本分类方法及智能设备 | |
CN113220885B (zh) | 一种文本处理方法和系统 | |
CN114356924A (zh) | 用于从结构化文档提取数据的方法和设备 | |
CN113362072A (zh) | 风控数据处理方法、装置、电子设备及存储介质 | |
Klein et al. | smartFIX: An adaptive system for document analysis and understanding | |
CN111737498A (zh) | 一种应用于离散制造业生产过程的领域知识库建立方法 | |
CN117332761B (zh) | 一种pdf文档智能识别标注系统 | |
CN115952282A (zh) | 基于nlp技术的银行客户投诉智能分流处置方法和系统 | |
CN115759078A (zh) | 文本信息的处理方法、系统、设备及存储介质 | |
CN114861646A (zh) | 一种面向医学垂直领域的数据标注平台 | |
CN114996400A (zh) | 裁判文书处理方法、装置、电子设备及存储介质 | |
CN114239576A (zh) | 基于主题模型和卷积神经网络的issue标签分类方法 | |
Panthum et al. | Generating functional requirements based on classification of mobile application user reviews | |
Chen et al. | Converting natural language policy article into MBSE model | |
Kavitha et al. | Screening and Ranking resume’s using Stacked Model | |
Rauth et al. | Design and evaluation of Text Pre-Processor: A tool for text pre-processing | |
Vasiliev et al. | Application of text mining technology to solve project management problems | |
US20240054281A1 (en) | Document processing | |
Susanin et al. | Aircraft Intellectual Records Management System |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |