CN115934926A - 信息提取方法、装置、计算机设备、存储介质 - Google Patents
信息提取方法、装置、计算机设备、存储介质 Download PDFInfo
- Publication number
- CN115934926A CN115934926A CN202211404727.7A CN202211404727A CN115934926A CN 115934926 A CN115934926 A CN 115934926A CN 202211404727 A CN202211404727 A CN 202211404727A CN 115934926 A CN115934926 A CN 115934926A
- Authority
- CN
- China
- Prior art keywords
- information
- document
- analyzed
- text
- word segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
本公开涉及一种信息提取方法、装置、计算机设备、存储介质。所述方法包括:接收待解析文档;对所述待解析文档进行解析,获取所述待解析文档中文本数据信息;对所述文本数据信息进行分词处理,得到分词文本信息;利用预先设置的关键字段和关键词逻辑表达式对所述分词文本信息进行关键词抽取,输出所述待解析文档的关键词信息,将每个所述待解析文档的关键信息与预设的关键信息进行比较,确定每个所述待解析文档的关键信息匹配度,响应于所述关键信息匹配度小于预设的匹配度阈值,将对应的所述待解析文档进行过滤。采用本方法能够能够快速的在大量文档中快速的找到匹配度较高的需求文档或者需求文档中的关键结果。
Description
技术领域
本公开涉及数据处理技术领域,特别是涉及一种信息提取方法、装置、计算设备、存储介质。
背景技术
随着信息技术的发展,人们越来越注重信息的交互。通常使用计算机或者各种终端设备来对文本信息进行存储以及阅读。当用户需要在某类文档或者文件中查询关键信息时,需要依靠人工对该类文档进行阅读,进而提取中其中需要获取的关键信息。
然而,该种方式在需要阅读大量的文档时,通过人工阅读的方式不仅费时费力、效率低下、同时,还会由于时间紧迫性可能会遗漏文档中的关键信息或者提取错误的关键信息。因此,通过这种方法很难在有限的时间内以及大量的文档中快速的找到匹配度较高的需求文档或者需求文档中的关键结果,会对后续业务结果产生不利的影响。
发明内容
基于此,有必要针对上述技术问题,提供一种能够快速的在大量文档中快速的找到匹配度较高的需求文档或者需求文档中的关键结果的信息提取方法、装置、计算设备、存储介质。
第一方面,本公开提供了一种信息提取方法。所述方法包括:
接收至少一个待解析文档;
对每个所述待解析文档进行解析,获取每个所述待解析文档中文本数据信息;
对所述文本数据信息进行分词处理,得到分词文本信息;
利用预先设置的关键字段和关键词逻辑表达式对所述分词文本信息进行关键词抽取,输出每个所述待解析文档的关键词信息。
在其中一个实施例中,所述对所述文本数据信息进行分词处理,得到分词文本信息,包括:
利用文本分类算法对所述文本数据信息进行文本分类,确定所述文本数据信息的分类结果,所述文本分类算法包括:Fast Text模型;
利用自然语言处理对所述文本数据信息进行分词、词性标记、命名实体识别,得到分词文本信息。
在其中一个实施例中,所述待解析文档的格式至少包括:PPTX格式、DOCX格式、DOC格式和XLXS格式,所述对所述带解析文档进行解析,包括:将所述待解析文档的格式转换为可携带文档格式,对所述可携带文档格式进行解析。
在其中一个实施例中,所述对所述可携带文档格式进行解析,包括:
对转换为可携带文档格式的待解析文档进行解析,获取所述待解析文档中文本数据信息,所述文本数据信息至少包括:字符信息、矩阵信息和行列信息。
在其中一个实施例中,所述方法还包括:对所述字符信息、矩阵信息和行列信息进行预处理,所述预处理包括:分句、大小写转换和统一字符和符号。
在其中一个实施例中,所述方法还包括:将每个所述待解析文档的关键信息与预设的关键信息进行比较,确定每个所述待解析文档的关键信息匹配度,响应于所述关键信息匹配度小于预设的匹配度阈值,将对应的所述待解析文档进行过滤。
第二方面,本公开还提供了一种信息提取装置。所述装置包括:
信息接收模块,用于接收至少一个待解析文档并存储;
信息解析模块,用于获取所述待解析文档,对每个所述待解析文档进行解析,获取每个所述待解析文档中文本数据信息;
信息抽取模块,用于获取所述文本数据信息,对所述文本数据信息进行分词处理,得到分词文本信息,并利用预先设置的关键字段和关键词逻辑表达式对所述分词文本信息进行关键词抽取,输出每个所述待解析文档的关键词信息至所述信息接收模块;
验证筛选模块,用于将每个所述待解析文档的关键信息与预设的关键信息进行比较,确定每个所述待解析文档的关键信息匹配度,响应于所述关键信息匹配度小于预设的匹配度阈值,将对应的所述待解析文档进行过滤。
在其中一个实施例中,所述信息抽取模块,包括:
文本分类模块,用于利用文本分类算法对所述文本数据信息进行文本分类,确定所述文本数据信息的分类结果,所述文本分类算法包括:Fast Text模型;
自然语言处理模块,用于利用自然语言处理对所述文本数据信息进行分词、词性标记、命名实体识别,得到分词文本信息。
第三方面,本公开还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一方法实施例的步骤。
第四方面,本公开还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一方法实施例的步骤。
第五方面,本公开还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述任一方法实施例的步骤。
上述各实施例中,通过对待解析文档进行解析,能够获取待解析文档中的文本数据信息。而待解析文档可以有多种格式,因此能够支持多种类型的文档。在对文本信息进行分词处理后,可以得到待解析文档中的分词文本信息,进而得到每个不同的分词。然后根据预先设置的关键字段和关键词逻辑表达式进行组合,得到不同的组合提取表达式,根据不同的提取表达式能够全方面的从分词文本信息中获取关键信息。并且逻辑表达式和关键字段可以根据不同的情况进行调整,能够快速的找到匹配度较高的关键结果。并且通过逻辑表达式和关键字段进行组合的方式能够在有限的时间内,并且在大量的数据中快速的得到待解析文档的关键词信息,并且通过预先设置的匹配度阈值能够在大量的文档中快速将不符合的待解析文档进行过滤,得到符合要求的待解析文档,提升后续利用待解析文档处理业务的效率。
附图说明
为了更清楚地说明本公开具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为一个实施例中信息提取方法的应用环境示意图;
图2为一个实施例中信息提取方法的流程示意图;
图3为一个实施例中S206步骤的流程示意图;
图4为一个实施例中信息提取装置的结构示意框图;
图5为一个实施例中计算机设备的内部结构图;
图6为一个实施例中信息提取系统的结构示意图;
图7为一个实施例中信息提取系统的逻辑结构示意图;
图8为另一个实施例中信息提取系统的结构示意图;
图9为一个实施例中信息提取方法的时序示意图。
具体实施方式
为了使本公开的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本公开进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本公开,并不用于限定本公开。
需要说明的是,本文的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本文的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中,术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系。例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
本公开实施例提供了一种信息提取方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。服务器104接收终端102上传的待解析文档。服务器104对所述待解析文档进行解析,获取所述待解析文档中文本数据信息。服务器104对所述文本数据信息进行分词处理,得到分词文本信息。服务器104利用预先设置的关键字段和关键词逻辑表达式对所述分析文本信息进行关键词抽取,输出所述待解析文档的关键词信息给终端102。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种信息提取方法,以该方法应用于图1中的服务器104为例进行说明,包括以下步骤:
S202,接收至少一个待解析文档。
其中,待解析文档通常可以是需要获取其中的关键信息的文档,例如在商业中待解析文档可以为商业策划书文档、贷款信息文档、公司账款金额文档等等。在生产生活中待解析文档可以为产品信息文档、产品出库入库文档等等。根据不同的场景,待解析文档其对应的类型也不相同。并且待解析文档可以为多种格式,例如图片格式,文档格式,表格格式等。
具体地,当用户需要获取待解析文档中的关键信息时,通常可以利用终端设备将待解析文档上传至服务器104。服务器104接收待解析文档。
S204,对每个所述待解析文档进行解析,获取所述待解析文档中文本数据信息。
其中,解析通常可以是利用编程语言,例如Python、java等对待解析文档进行处理方式。文本数据信息通常可以包括文本信息,如中文文字、英文文字等,也可以包括字符信息,如阿拉伯数字或者编码等等。
具体地,可以利用编程语言对每个待解析文档进行解析,获取待解析文档中特定格式的信息(可以包括符号信息、字符信息、图片信息和文本信息等),根据特定格式的信息获取文档中文本信息数据。例如,当待解析文档为图片格式时,获取到图片信息时,可以根据图片提取算法,例如OCR算法,获取图片中的文本信息。当获取到符号信息时(例如:空格、/、%等等),其可能会对提取关键信息时产生影响,因此可以对其进行过滤,以避免其对后续提取关键词信息时产生的影响。
S206,对所述文本数据信息进行分词处理,得到分词文本信息。
其中,分词是自然语言处理的基础,分词准确度直接决定了后面的词性标注、句法分析、词向量以及文本分析的质量。英文语句使用空格将单词进行分隔,除了某些特定词,如how many,New York等外,大部分情况下不需要考虑分词问题。然而,中文不同,天然缺少分隔符,需要自行分词和断句。因此在做中文自然语言处理时,我们需要先进行分词。
具体地,可以利用基于词典的规则匹配方法或者基于统计的机器学习方法来对文本数据信息进行分词处理。基于词典的规则匹配方法可以包括:正向最大匹配法,逆向最大匹配法,双向匹配分词,全切分路径选择等。基于统计的机器学习方法可以包括:HMM,CRF,SVM,以及深度学习等。本领域技术人员可以根据实际应用场景来选择对应的方式对文本数据信息进行分词处理,得到分词文本信息。
S208,利用预先设置的关键字段和关键词逻辑表达式对所述分词文本信息进行关键词抽取,输出每个所述待解析文档的关键词信息。
其中,关键字段可以根据待解析文档的类型进行确定,例如待解析文档为商业策划书信息,则关键字段可以为目标分析、预测、优势、优点等等。关键词逻辑表达式可以是将关键字段进行连接起来的逻辑表达式,例如AND、OR、NOT等等。
具体地,当得到分词文本信息后,可以将预先设置的关键字段和关键词逻辑表达式进行组合,进而在分词文本信息中进行查找进行关键词抽取,将分词文本信息中的关键词进行提取,进而得到待解析文档的关键词信息,然后将待解析文档的关键词信息输出至终端设备。
在一些示例性的实施例中,以关键字段为S1、S11、S2、S21、S3进行举例,其中S1和S11为同义或者近义词。S2和S21为同义或者近义词。则通过逻辑表达式可以将关键字段进行组合,得到[(S1)OR(S11)]AND[(S2)OR(S21)]AND(S3)。可以理解的是,根据不同的情况,本领域技术人员可以选择多种关键字段和逻辑表达式,以调高关键词抽取的准确度。
在一些示例性的实施例中,可以采用B/S架构即浏览器和服务器架构模式来实现本公开的一些实施例中提及的信息提取方法。用户工作主要通过浏览网页页面来实现(即将待解析文档上传),主要事务逻辑在服务器实现,将功能实现的核心部分集中到服务器。终端设备需要安装浏览器如Chrome或Firefox,服务器安装数据库及各服务运行服务中间件等基础服务。该模式将应用逻辑集中在服务器和中间件上,可以提高数据处理性能,对应用环境的依赖性较小,可以减少开发和维护的成本。
更进一步的,终端设备和浏览器网页页面可以通过Nginx代理访问浏览器网页页面,同时所产生的数据请求交互通过Nginx反向代理指示服务器对存储于MySQL、Redis、MinIO等永久化数据进行交互。服务器中主要通过编程语言进行处理,进而实现本公开一些实施例中提及的信息提取方法。
本系统采用前后端分离的应用模式,前端的终端设备中的浏览器网页部分主要使用VUE+ELEMENTUI框架实现系统的页面展现,后端的服务器部分主要使用Spring Boot框架实现系统的业务逻辑部分。
上述信息提取方法中,通过对待解析文档进行解析,能够获取待解析文档中的文本数据信息。而待解析文档可以有多种格式,因此能够支持多种类型的文档。在对文本信息进行分词处理后,可以得到待解析文档中的分词文本信息,进而得到每个不同的分词。然后根据预先设置的关键字段和关键词逻辑表达式进行组合,得到不同的组合提取表达式,根据不同的提取表达式能够全方面的从分词文本信息中获取关键信息。并且逻辑表达式和关键字段可以根据不同的情况进行调整,能够快速的找到匹配度较高的关键结果。并且通过逻辑表达式和关键字段进行组合的方式能够在有限的时间内,并且在大量的数据中快速的得到待解析文档的关键词信息。
在一个实施例中,如图3所示,所述对所述文本数据信息进行分词处理,得到分词文本信息,包括:
S302,利用文本分类算法对所述文本数据信息进行文本分类,确定所述文本数据信息的分类结果,
其中,所述文本分类算法包括:Fast Text模型。Fast text是词向量与文本分类工具,和其他的深度学习神经网络模型相比较,本案中使用Fast Text模型,在分类精度等指标毫不逊色其他的深度学习神经网络模型的情况下,把训练和推断速度降低了几个数量级。文本分类可以是用计算机对文本(或其他实体)按照一定的分类体系或标准进行自动分类标记的方式。
具体地,可以使用Fast Text模型来对文本数据信息进行文本分类,进而确定文本数据信息所属的分类结果。
在一些示例性的实施例中,分类结果可以包括:金融类,商业类,产品类等等。
S304,利用自然语言处理对所述文本数据信息进行分词、词性标记、命名实体识别,得到分词文本信息。
其中,词性标记通常可以是在给定的句子或词语中判定每个词最合适的词性并进行标记的方式。词性可以包括:名词、动词、介词、后缀词、量词、副词、语气词、拟声词、形容词、方位词、助词、叹词等等。
具体地,可以使用自然语言处理中的N元模型、隐马尔科夫模型、最大熵模型、基于决策树的模型等来对确定分类结果后的文本数据信息进行分词、词性标记、命名实体识别,得到分词文本信息。通常情况下,确定文本数据信息的分类结果后,能够根据分类结果更好的对文本数据信息进行分词、词性标记和命名实体识别。例如,确定分类结果为金融结果,则可以根据金融领域的一些常用词或者词性来进行分词、词性标记、命名实体识别,得到符合金融领域的分词文本信息。
在一些示例性的实施例中,可以使用通过BERT-LSTM-CRF多任务自然语义处理基础模型对句子进行分词、词性标记、命名实体识别。
本实施例中,通过使用Fast Text模型,其实现文本分类的方式复杂度低,并且能够保证一定的效果。其使用C++进行实现,进一步提升了计算效率。当需要分类的类别过多时,Fast Text模型支持采用hierarchical softmax进行分类,能够进一步的提升效率。
在一个实施例中,所述待解析文档的格式至少包括:PPTX格式、DOCX格式、DOC格式和XLXS格式,所述对所述带解析文档进行解析,包括:将所述待解析文档的格式转换为可携带文档格式,对所述可携带文档格式进行解析。
其中,可携带文档格式通常可以是PDF(Portable Document Format)与应用程序、操作系统、硬件无关的方式进行文件交换所发展出的文件格式。另外,PDF文档具有较强稳定性和兼容性,不因设备、操作系统等因素影响排版效果。且通过水印、权限密码、数字签名等手段可以去限制、保护文档里的内容。
具体地,可以通过编程语言,将不同格式类型的待解析文档转换为PDF格式,然后对PDF格式的文档进行解析。
更进一步的,所述对所述可携带文档格式进行解析,包括:
对转换为可携带文档格式的待解析文档进行解析,获取所述待解析文档中文本数据信息,所述文本数据信息至少包括:字符信息、矩阵信息和行列信息。
具体地,可以通过PDF Plumber,也可以使用其他的PDF解析算法对转换为PDF格式的待解析文档进行解析,获取其中的字符信息、矩阵信息和行列信息,进而组成文本数据信息。其中,PDF Plumber通常是由python开发的pdf文档解析库,不仅可以获取每个字符、矩形框、线等对象的具体信息,而且还可以抽取文本和表格等。矩阵信息通常可以是所有文本数据构成的信息。行列信息通常可以每行的文本数据构成的信息和每列文本数据构成的信息。
在本实施例中,通过将待解析文档转换为PDF格式能够有较强的兼容性,并且不因设备、操作系统等因素影响,进而能够较为准确的识别到待解析文档中的信息,提升后续进行关键词抽取的准确性。
在一个实施例中,所述方法还包括:对所述字符信息、矩阵信息和行列信息进行预处理,所述预处理包括:分句、大小写转换和统一字符和符号。
具体地,通常情况下,由于待解析文档的格式不同。获取待解析文档中的文本信息后,由于解析得到的字符信息、矩阵信息和行列信息中的数据可能存在不一致的情况,若不相同,则可能会导致后续进行关键词抽取时影响最终的效果。另外,在进行分词后,由于待解析文档中通常信息都是为正常的句子,例如我今天很好,今天天气很晴朗。进行分词处理后,可以得到:我、今天、很好、今天、天气、很、晴朗。此时不清楚这是一句话还是两句话,可能会影响关键词抽取的效果。因此需要将得到的字符信息进行分句。句子与句子之间可用特定的字符进行区别,另外若出现字体大小不一致,或者符号不一致的情况也需要进行处理,以提高分词的准确性。
在一些示例性的实施例中,我、今天、很好、今天、天气、很、晴朗。进行分句后可以为:我今天很好/今天天气很晴朗。两个句子中可以使用“/”或者其他的字符进行区分。
在一个实施例中,所述方法还包括:将每个所述待解析文档的关键信息与预设的关键信息进行比较,确定每个所述待解析文档的关键信息匹配度,响应于所述关键信息匹配度小于预设的匹配度阈值,将对应的所述待解析文档进行过滤。
其中,预设的关键信息通常为想要识别得到的一些关键信息,或者是较为关心的一些关键信息。
具体地,获取到每个待解析文档的关键信息后,用户可以将得到的每个待解析文档的关键信息和预设的关键信息进行比较,确定关键信息的匹配度,当关键信息的匹配度小于预设的匹配度阈值时,可以确定该待解析文档中用户所关注的信息或者关键信息较少,可以进行过滤。
在一些示例性的实施例中,例如获取到的第一待解析文档的关键信息为:A、B、C三种信息,获取到的第二解析文档的关键信息为“A、C、B、D”,预设的关键信息为A、C、D、E、F,则第一待解析文档的匹配度可以为2/5,大约为40%,第二待解析文档的匹配符为3/5,大约为60%。若预先设置的匹配度阈值为50%。可以确定匹配度小于预设的匹配度阈值,则第一待解析文档为不符合要求的文档,可以对其进行过滤,第二待解析文档为符合要求文档,可以对其进行保留。
在本实施例中,通过设置匹配度和预设的关键字段,在存在大量的文档时,将不符合的进行过滤,可以较为快速的提取得到需要文档,并获取其中的数据。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本公开实施例还提供了一种用于实现上述所涉及的信息提取方法的信息提取装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个信息提取装置实施例中的具体限定可以参见上文中对于信息提取方法的限定,在此不再赘述。
在一个实施例中,如图4所示,提供了一种信息提取装置400,包括:信息接收模块402、信息解析模块404和信息抽取模块406,其中:
信息接收模块402,用于接收至少一个待解析文档并存储;
信息解析模块404,用于获取所述待解析文档,对每个所述待解析文档进行解析,获取每个所述待解析文档中文本数据信息;
信息抽取模块406,用于获取所述文本数据信息,对所述文本数据信息进行分词处理,得到分词文本信息,并利用预先设置的关键字段和关键词逻辑表达式对所述分词文本信息进行关键词抽取,输出每个所述待解析文档的关键词信息至所述信息接收模块402。
在所述装置的一个实施例中,所述信息抽取模块406,包括:
文本分类模块,用于利用文本分类算法对所述文本数据信息进行文本分类,确定所述文本数据信息的分类结果,所述文本分类算法包括:Fast Text模型;
自然语言处理模块,用于利用自然语言处理对所述文本数据信息进行分词、词性标记、命名实体识别,得到分词文本信息。
在所述装置的一个实施例中,所述待解析文档的格式至少包括:PPTX格式、DOCX格式、DOC格式和XLXS格式;所述信息接收模块402包括:格式转换模块,用于将所述待解析文档的格式转换为可携带文档格式。
在所述装置的一个实施例中,所述信息解析模块404,还用于利用PDF Plumber对转换为可携带文档格式的待解析文档进行解析,获取所述待解析文档中文本数据信息,所述文本数据信息至少包括:字符信息、矩阵信息和行列信息。
在所述装置的一个实施例中,所述信息提取模块,还包括:
预处理模块,用于对所述字符信息、矩阵信息和行列信息进行预处理,所述预处理包括:分句、大小写转换、统一字符和符号。
在所述装置的一个实施例中,所述装置还包括:验证筛选模块,用于将每个所述待解析文档的关键信息与预设的关键信息进行比较,确定每个所述待解析文档的关键信息匹配度,响应于所述关键信息匹配度小于预设的匹配度阈值,将对应的所述待解析文档进行过滤。
上述信息提取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储待解析文档。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种信息提取方法。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本公开方案相关的部分结构的框图,并不构成对本公开方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,如图6所示,提供了一种信息提取系统,包括:处理端,所述处理端用于接收至少一个客户端上传的待解析文档,所述处理端用于实现上述任一方法实施例中的步骤。
在一个实施例中,如图7所示,从逻辑结构上系统结构主要分为基础设施层、数据层、应用层和用户层四个层次:
基础设施层主要包括服务器、存储、网络设备等硬件条件和操作系统,是系统运行的基础保证。
数据层用户存储系统的数据,系统数据有多种类型,包括项目数据库、用户数据库、日志数据库、文件数据库。其中文件数据库用于存储待解析文档。
应用层根据系统需求可分为业务层和服务层。服务层介于数据层和业务层,为业务层提供支持,包括文件解析服务、自然语言处理(NLP)服务、关键信息抽取服务及关键词逻辑表达式解析服务,从物理结构上将服务层分为PDF解析模块及信息抽取模块;业务层是指具体的业务应用系统功能模块,包括文件上传、项目管理、项目分享及评价、项目推荐及对比、用户权限管理、关键字段管理、导出报告、版本存档,该部分从物理结构划分到业务逻辑后台。可以理解的是,针对不同业务,相应的业务层中业务应用系统的具体功能模块也不同。
用户层为用户提供使用系统的入口,主要通过浏览器进行访问,包括用户登录及统一认证服务等。
在一些示例性的实施例中,如图8所示,可以使用两个处理端来进行实现,例如其中一个处理端部署文件解析服务、文本解析服务、自然语言处理(NLP)服务、关键信息抽取服务及关键词逻辑表达式等解析服务和数据库,该处理端通常情况下硬件配置较高,例如处理器、内存硬盘等配置较高。另一处理端部署业务服务。这样,将运算或者处理时消耗计算资源较大的服务可以部署在一个配置较高的处理端中,另一些业务服务部署在另一个处理端中,能够较好的利用配置较高的处理端的计算资源。
在一个实施例中,如图9所示,用户通过终端设备登录系统,进入上传待解析文档的上传页面。在终端设备选择对应的待解析文档,上传至上传页面。上传页面将待解析文档上传至文件数据库中。文件数据库对上传的待解析文档进行存储,并返回存储信息至系统服务,系统服务返回待解析文档的上传结果至上传页面。如果系统服务反馈的上传结果为上传失败,则需重新上传待解析文档,重复上述操作。如果反馈的上传结果为上传成功,终端设备提交解析请求至系统服务。系统服务进行解析待解析文档,将解析后的待解析文档发送至抽取服务,分配解析任务给抽取服务。抽取服务将待解析文档解析为文本数据。对文本数据进行处理,从文本数据中抽取关键信息。抽取服务返回抽取结果至系统服务。系统服务将返回的抽取结果存储至文件数据库中。文件数据库返回存储结果至系统服务。系统服务返回处理结果至上传页面。用户通过终端设备在上传页面查看解析结果。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述任一方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述任一方法实施例中的步骤。
需要说明的是,本申请所涉及的待解析文档,包括其中的数据,均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本公开所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本公开所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本公开所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本公开的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本公开专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本公开构思的前提下,还可以做出若干变形和改进,这些都属于本公开的保护范围。因此,本公开的保护范围应以所附权利要求为准。
Claims (10)
1.一种信息提取方法,其特征在于,所述方法包括:
接收至少一个待解析文档;
对每个所述待解析文档进行解析,获取每个所述待解析文档中文本数据信息;
对所述文本数据信息进行分词处理,得到分词文本信息;
利用预先设置的关键字段和关键词逻辑表达式对所述分词文本信息进行关键词抽取,输出每个所述待解析文档的关键词信息;
将每个所述待解析文档的关键信息与预设的关键信息进行比较,确定每个所述待解析文档的关键信息匹配度,响应于所述关键信息匹配度小于预设的匹配度阈值,将对应的所述待解析文档进行过滤。
2.根据权利要求1所述的方法,其特征在于,所述对所述文本数据信息进行分词处理,得到分词文本信息,包括:
利用文本分类算法对所述文本数据信息进行文本分类,确定所述文本数据信息的分类结果,所述文本分类算法包括:Fast Text模型;
利用自然语言处理对所述文本数据信息进行分词、词性标记、命名实体识别,得到分词文本信息。
3.根据权利要求1所述的方法,其特征在于,所述待解析文档的格式至少包括:PPTX格式、DOCX格式、DOC格式和XLXS格式,所述对每个所述待解析文档进行解析,包括:将每个所述待解析文档的格式转换为可携带文档格式,对所述可携带文档格式进行解析。
4.根据权利要求3所述的方法,其特征在于,所述对所述可携带文档格式进行解析,包括:
对转换为可携带文档格式的待解析文档进行解析,获取所述待解析文档中文本数据信息,所述文本数据信息至少包括:字符信息、矩阵信息和行列信息。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:对所述字符信息、矩阵信息和行列信息进行预处理,所述预处理包括:分句、大小写转换、统一字符和符号。
6.一种信息提取装置,其特征在于,所述装置包括:
信息接收模块,用于接收至少一个待解析文档并存储;
信息解析模块,用于获取所述待解析文档,对每个所述待解析文档进行解析,获取每个所述待解析文档中文本数据信息;
信息抽取模块,用于获取所述文本数据信息,对所述文本数据信息进行分词处理,得到分词文本信息,并利用预先设置的关键字段和关键词逻辑表达式对所述分词文本信息进行关键词抽取,输出每个所述待解析文档的关键词信息至所述信息接收模块;
验证筛选模块,用于将每个所述待解析文档的关键信息与预设的关键信息进行比较,确定每个所述待解析文档的关键信息匹配度,响应于所述关键信息匹配度小于预设的匹配度阈值,将对应的所述待解析文档进行过滤。
7.根据权利要求6所述的装置,其特征在于,所述信息抽取模块,包括:
文本分类模块,用于利用文本分类算法对所述文本数据信息进行文本分类,确定所述文本数据信息的分类结果,所述文本分类算法包括:Fast Text模型;
自然语言处理模块,用于利用自然语言处理对所述文本数据信息进行分词、词性标记、命名实体识别,得到分词文本信息。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-5任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-5任一项所述的方法的步骤。
10.一种信息提取系统,其特征在于,包括:处理端,所述处理端用于接收至少一个客户端上传的待解析文档,所述处理端用于实现权利要求1-5任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211404727.7A CN115934926A (zh) | 2022-11-10 | 2022-11-10 | 信息提取方法、装置、计算机设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211404727.7A CN115934926A (zh) | 2022-11-10 | 2022-11-10 | 信息提取方法、装置、计算机设备、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115934926A true CN115934926A (zh) | 2023-04-07 |
Family
ID=86696806
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211404727.7A Pending CN115934926A (zh) | 2022-11-10 | 2022-11-10 | 信息提取方法、装置、计算机设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115934926A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116663549A (zh) * | 2023-05-18 | 2023-08-29 | 海南科技职业大学 | 一种基于企业档案的数字化管理方法、系统及存储介质 |
CN117095422A (zh) * | 2023-10-17 | 2023-11-21 | 企查查科技股份有限公司 | 文档信息解析方法、装置、计算机设备、存储介质 |
CN118113816A (zh) * | 2024-04-26 | 2024-05-31 | 杭州数云信息技术有限公司 | 文档知识抽取方法及装置、存储介质、终端、计算机程序产品 |
-
2022
- 2022-11-10 CN CN202211404727.7A patent/CN115934926A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116663549A (zh) * | 2023-05-18 | 2023-08-29 | 海南科技职业大学 | 一种基于企业档案的数字化管理方法、系统及存储介质 |
CN116663549B (zh) * | 2023-05-18 | 2024-03-19 | 海南科技职业大学 | 一种基于企业档案的数字化管理方法、系统及存储介质 |
CN117095422A (zh) * | 2023-10-17 | 2023-11-21 | 企查查科技股份有限公司 | 文档信息解析方法、装置、计算机设备、存储介质 |
CN117095422B (zh) * | 2023-10-17 | 2024-02-09 | 企查查科技股份有限公司 | 文档信息解析方法、装置、计算机设备、存储介质 |
CN118113816A (zh) * | 2024-04-26 | 2024-05-31 | 杭州数云信息技术有限公司 | 文档知识抽取方法及装置、存储介质、终端、计算机程序产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210157984A1 (en) | Intelligent system that dynamically improves its knowledge and code-base for natural language understanding | |
US20230222366A1 (en) | Systems and methods for semantic analysis based on knowledge graph | |
CN107808011B (zh) | 信息的分类抽取方法、装置、计算机设备和存储介质 | |
EP3855324A1 (en) | Associative recommendation method and apparatus, computer device, and storage medium | |
CN115934926A (zh) | 信息提取方法、装置、计算机设备、存储介质 | |
US20190286741A1 (en) | Document revision change summarization | |
CN111783471B (zh) | 自然语言的语义识别方法、装置、设备及存储介质 | |
US10929453B2 (en) | Verifying textual claims with a document corpus | |
US20240346077A1 (en) | Determining data categorizations based on an ontology and a machine-learning model | |
US20240265041A1 (en) | Methods and Systems for Improved Document Processing and Information Retrieval | |
Jain et al. | Context sensitive text summarization using k means clustering algorithm | |
CN112149387A (zh) | 财务数据的可视化方法、装置、计算机设备及存储介质 | |
KR102516560B1 (ko) | 수기로 작성된 문서의 관리 시스템 | |
CN111985212A (zh) | 文本关键字识别方法、装置、计算机设备及可读存储介质 | |
CN110888977B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN114266255B (zh) | 基于聚类模型的语料分类方法、装置、设备及存储介质 | |
CN112100364A (zh) | 文本语义理解方法和模型训练方法、装置、设备和介质 | |
CN113868431A (zh) | 面向金融知识图谱的关系抽取方法、装置及存储介质 | |
CN112133308A (zh) | 一种用于语音识别文本多标签分类的方法和装置 | |
CN114495138A (zh) | 一种智能文档识别与特征提取方法、装置平台和存储介质 | |
CN112559739A (zh) | 电力设备绝缘状态数据处理方法 | |
Indira et al. | Profile screening and recommending using natural language processing (NLP) and leverage Hadoop framework for big data | |
US11783112B1 (en) | Framework agnostic summarization of multi-channel communication | |
US20220358287A1 (en) | Text mining based on document structure information extraction | |
CN117688140B (zh) | 文档查询方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |