CN115563306A - 信息抽取处理方法、设备、介质及产品 - Google Patents
信息抽取处理方法、设备、介质及产品 Download PDFInfo
- Publication number
- CN115563306A CN115563306A CN202211192672.8A CN202211192672A CN115563306A CN 115563306 A CN115563306 A CN 115563306A CN 202211192672 A CN202211192672 A CN 202211192672A CN 115563306 A CN115563306 A CN 115563306A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- document
- extracted
- type
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及数据处理领域,提供一种信息抽取处理方法、设备、介质及产品。该方法包括:在接收到用户输入的检索信息之后,根据检索信息确定对应的待检索的知识类型,知识类型包括职责、权限、流程、规范中的一种或多种;确定预设的知识结果库中与待检索的知识类型对应的知识结果,并根据知识结果向用户输出检索结果,知识结果包括知识实体、知识图谱、知识文档、知识索引、知识变更历史列表中的一种或多种。本申请的方法,提高了银行金融系统检索的准确性和效率。
Description
技术领域
本申请涉及数据处理领域,尤其涉及一种信息抽取处理方法、设备、介质及产品。
背景技术
随着互联网技术的发展和社会的进步,数据呈爆发式增长,对数据的处理变得越来越重要,例如,如何准确从大量的数据中得到用户所检索的内容。
现有技术中,一般采用知识抽取的方式从大量的数据中抽取得到用户所检索的内容。现有的知识抽取方法主要以下两种:一种是首先基于自然语言处理(Natural LanguageProcessing,NLP)对数据进行实体抽取,然后对抽取到的实体进行实体对齐、实体链接等操作,并根据实体之间的关系构建得到知识图谱。另一种是构建基于深度学习的统计语言模型,然后利用模型提取数据中的特征,并建立特征之间的关系或链接以得到最终的知识。现有的知识抽取方法都是通用的、大众化的,更多的体现在实体抽取和关系抽取方向,并且在完成知识抽取之后,会以相关的文档列表作为检索结果输出给用户。但是,一方面,银行金融系统中存在有大量的非结构化数据,并且这些数据由于特有的业务领域和应用场景,有着与其他非结构化数据大不相同的数据特点,利用现有的知识抽取方法对数据进行处理的准确度低,从而导致银行金融系统检索准确性低。另一方面,以文档列表作为检索结果输出给用户,用户需要依次点开文档进行查找,操作繁琐,检索效率低。
因此,需要一种能够提高银行金融系统检索准确性和效率的数据处理方案。
发明内容
本申请提供一种信息抽取处理方法、设备、介质及产品,用以解决银行金融系统采用现有的信息抽取处理方法进行检索时准确性和效率低的问题。
第一方面,本申请提供一种信息抽取处理方法,包括:
在接收到用户输入的检索信息之后,根据所述检索信息确定对应的待检索的知识类型,所述知识类型包括业务、职责、权限、流程、规范中的一种或多种;
确定预设的知识结果库中与所述待检索的知识类型对应的知识结果,并根据所述知识结果向所述用户输出检索结果,所述知识结果包括知识实体、知识图谱、知识文档、知识索引、知识变更历史列表中的一种或多种;
所述知识结果库是利用下列方式获得的:
确定待抽取文档之间的关联度,并根据所述待抽取文档以及所述待抽取文档之间的关联度,构建文档关系图谱;
确定所述文档关系图谱中待分析的子图谱;
根据所述知识类型对所述子图谱中的文档进行知识抽取,以得到所述知识类型对应的知识结果;
根据所述知识类型对应的知识结果,建立所述知识结果库。
在一种可能的实施方式中,所述确定待抽取文档之间的关联度,具体包括:
确定每一所述待抽取文档对应的文档类型,并根据所述文档类型确定每一所述待抽取文档对应的文档类型分布向量,所述文档类型包括系统管理、培训管理、业务管理、运营操作、业务操作中的一种或多种;
根据每一所述待抽取文档对应的文档类型分布向量,确定所述待抽取文档之间的关联度。
在一种可能的实施方式中,所述确定每一所述待抽取文档对应的文档类型,并根据所述文档类型确定每一所述待抽取文档对应的文档类型分布向量,具体包括:
根据预设的类型词典确定每一所述待抽取文档对应的类型描述词;根据预设的类型描述词与文档类型之间的对应关系,确定每一所述待抽取文档对应的文档类型;对所述文档类型进行归一化处理,以确定每一所述待抽取文档对应的文档类型分布向量;
或者,
利用多个二分类器对每一所述待抽取文档进行分类,以得到每一所述待抽取文档的分类概率值;根据最大的分类概率值对应的类型确定每一所述待抽取文档的文档类型,并根据每一所述待抽取文档的分类概率值确定每一所述待抽取文档对应的文档类型分布向量。
在一种可能的实施方式中,所述根据每一所述待抽取文档对应的文档类型分布向量,确定所述待抽取文档之间的关联度,具体包括:
对每一所述待抽取文档依次进行分词处理、句法分析和依存分析,以确定每一所述待抽取文档对应的词汇;
根据预设的核心词库,确定每一所述待抽取文档对应的词汇中的核心词汇,所述核心词库是根据业务领域词典、系统功能集合、功能菜单集合的一种或多种得到的;
对于任意两个待抽取文档D1和D2,利用下列公式确定所述待抽取文档之间的关联度:
R=R1+R2+R3+R4+R5
R1=w1·(V1·V2)·2C/(N1+N2)
R2=w2·B1·B2
R3=w3·α·A
R4=w4·B1·B2
R5=w5·M12/(M1+M2)
其中,所述R表示待抽取文档D1和D2之间的关联度,所述R1表示业务概念关联度,所述R2表示篇章级引用关联度,所述R3表示章节段落级引用关联度,所述R4表示语义级关联度,所述R5表示词语级关联度;所述w1表示业务概念关联权重,所述w2表示篇章级引用关联权重,所述w3表示章节段落级引用关联权重,所述w4表示语义级关联权重,所述w5表示词语级关联权重;
所述V1表示待抽取文档D1的文档类型分布向量,所述V2表示待抽取文档D2的文档类型分布向量;所述N1表示待抽取文档D1中核心词汇的个数,所述N2表示待抽取文档D2中核心词汇的个数,所述C表示待抽取文档D1和D2中相同的核心词汇的个数;所述B1表示待抽取文档D1对应的词向量,所述B2表示待抽取文档D2对应的词向量;所述A表示待抽取文档D1的章节段落中引用待抽取文档D2的次数,所述α表示关联度常数;所述M1表示所述核心词汇在待抽取文档D1中出现的频次,所述M2表示所述核心词汇在待抽取文档D1中出现的频次,所述M12表示待抽取文档D1和D2中相同的核心词汇出现的频次。
在一种可能的实施方式中,所述确定所述文档关系图谱中待分析的子图谱,具体包括:
确定所述文档关系图谱中的第一核心文档;
删除所述文档关系图谱中,与所述第一核心文档的关联度小于预设的关联度阈值的文档;
根据所述文档关系图谱中剩余的第一文档确定所述待分析的子图谱。
在一种可能的实施方式中,所述根据所述知识类型对所述子图谱中的文档进行知识抽取,以得到所述知识类型对应的知识结果,具体包括:
确定所述待分析的子图谱中的第二核心文档,以及除所述第二核心文档之外的第二文档,所述第一文档包括第二核心文档和第二文档;
对所述第二核心文档进行知识抽取,并按照关联度由大到小的顺序依次对每一所述第二文档进行知识抽取;
其中,对于每一所述第一文档的抽取方式为:
对所述第一文档进行解析,以得到所述第一文档对应的关键特征,以及各关键特征的上下文信息,所述关键特征包括文档标题、章节标题、章节关系、段落、图表、列表中的一种或多种;
以章节为单位,对所述第一文档进行识别,以确定所述第一文档中与所述知识类型对应的章节;
依次对每一所述章节、所述章节对应的关键特征以及所述关键特征对应的上下文信息进行知识抽取,以获取所述第一文档对应的知识结果;
按照所述知识类型对每一所述第一文档的知识结果进行融合,以得到所述知识类型对应的知识结果。
在一种可能的实施方式中,所述按照所述知识类型对每一所述第一文档的知识结果进行融合,以得到所述知识类型对应的知识结果,具体包括:
按照所述知识类型对每一所述第一文档的知识结果进行融合,以得到所述知识类型对应的第一知识结果;
判断所述知识结果库中是否已经存在所述知识类型对应的第二知识结果;
若是,则按照文档的上传时间和/或知识结果的生成时间,对所述第一知识结果和所述第二知识结果进行融合,以得到所述知识类型对应的知识结果。
在一种可能的实施方式中,所述根据所述知识类型对应的知识结果,建立所述知识结果库,具体包括:
将每一所述第一文档对应的知识结果、第一知识结果、第二知识结果以及所述知识类型对应的知识结果,以预设的存储形式存储至所述知识结果库,所述存储形式包括知识实体、知识图谱、知识文档、知识索引、知识变更历史列表中的一种或多种;
其中,所述知识实体包括知识定义、知识所处文档名称、知识所处文档中的位置中的一种或多种,所述知识变更历史列表包括知识抽取时间、相关文档发布时间、所述抽取时间对应的知识结果中的一种或多种。
第二方面,本申请提供一种终端设备,包括:
接收模块,用于在接收到用户输入的检索信息之后,根据所述检索信息确定对应的待检索的知识类型,所述知识类型包括业务、职责、权限、流程、规范中的一种或多种;
处理模块,用于确定预设的知识结果库中与所述待检索的知识类型对应的知识结果,并根据所述知识结果向所述用户输出检索结果,所述知识结果包括知识实体、知识图谱、知识文档、知识索引、知识变更历史列表中的一种或多种;所述知识结果库是利用下列方式获得的:确定待抽取文档之间的关联度,并根据所述待抽取文档以及所述待抽取文档之间的关联度,构建文档关系图谱;确定所述文档关系图谱中待分析的子图谱;根据所述知识类型对所述子图谱中的文档进行知识抽取,以得到所述知识类型对应的知识结果;根据所述知识类型对应的知识结果,建立所述知识结果库。
第三方面,本申请提供一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现上述的方法。
第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现上述的方法。
第五方面,本申请提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述的方法。
本申请提供的信息抽取处理方法、设备、介质及产品,可以预先根据知识类型对待抽取文档进行知识抽取,以得到不同知识类型对应的知识结果,之后根据所有知识结果建立知识结果库。在接收到用户输入的检索信息之后,根据检索信息对应的待检索的知识类型即可从预设的知识结果库中得到知识结果,并将知识结果作为检索结果输出给用户。其中,知识类型可以是根据银行金融系统的数据特征设置的,使得知识抽取更具针对性,提高了检索的准确性和效率。进一步的,知识结果可以包括知识实体、知识图谱、知识文档、知识索引、知识变更历史列表中的一种或多种,不再仅是文档列表。通过多种展现形式的知识结果,可以使用户更加简单便捷地得到想要检索的内容,不需要依次点击文档列表查找,进一步提高了检索效率,同时,也提高了银行金融系统数据的使用价值。
进一步的,由于银行金融系统中存在有大量的非结构化数据,例如制度文档等,这些非结构化数据通常具有频繁更新以及体系化的特性,彼此之间会相互引用、链接。因此,为了提高这些非结构化数据检索的准确性和便捷性,在建立知识结果库时,可以确定待抽取文档之间的关联度,并根据待抽取文档以及待抽取文档之间的关联度,构建文档关系图谱。通过在知识图谱中引入各文档之间的关联度来构建文档关系图谱,使得文档关系图谱可以表征不同的文档之间的关联度,提高了根据文档关系图谱进行知识抽取的准确性和便捷性,进一步提高了检索的准确性。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请一实施例的信息抽取处理方法的流程图;
图2为本申请另一实施例的信息抽取处理方法的流程图;
图3为本申请一实施例的文档关系图谱示意图;
图4为本申请一实施例的终端设备的结构示意图;
图5为本申请一实施例的电子设备的结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
本申请的技术方案中,所涉及的金融数据或用户数据等信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
需要说明的是,本申请的信息抽取处理方法、设备、介质及产品可用于金融领域,也可用于除金融领域以外的任意领域。本申请的信息抽取处理方法、设备、介质及产品的应用领域并不作限定。
随着互联网技术的发展和社会的进步,银行金融数据数据呈爆发式增长,对这些数据的处理变得越来越重要。例如,当银行用户想要从海量数据中进行检索时,如何准确从大量的数据中得到用户所检索的内容。
现有技术中,一般采用知识抽取的方式从大量的数据中抽取得到用户所检索的内容。现有的知识抽取方法主要以下两种:一种是首先基于自然语言处理(Natural LanguageProcessing,NLP)对数据进行实体抽取,然后对抽取到的实体进行实体对齐、实体链接等操作,并根据实体之间的关系构建得到知识图谱。另一种是构建基于深度学习的统计语言模型,然后利用模型提取数据中的特征,并建立特征之间的关系或链接以得到最终的知识。现有的知识抽取方法都是通用的、大众化的,更多的体现在实体抽取和关系抽取方向,并且在完成知识抽取之后,会以相关的文档列表作为检索结果输出给用户。
但是,一方面,银行金融系统内部存在大量的非结构化数据,主要包括各类政策法规文档、制度文档、办公文档、各类资讯信息等,大概占据系统总数据重量的80%以上。这类内容数据的特点是种类繁多、内容没有太固定的模式,并且在不同的业务领域和应用场景数据的使用目的和分析要求差异较大。银行的各业务部门、各业务条线会下发各类制度文档,统一业务定义、规范业务操作。此类内容文档具有发布比较频繁以及随着业务发展同一个业务的定义、操作、流程、规范等频繁更新的特点。利用现有的知识抽取方法对数据进行处理的准确度低,从而导致银行金融系统检索准确性低。
另一方面,现有的知识抽取方法一般会将文档列表作为检索结果输出给用户,用户需要依次点开文档进行查找,操作繁琐,检索效率低。
基于该技术问题,本申请的发明构思在于:如何提供一种在银行金融系统检索准确性和效率更高的信息抽取处理方法。
本申请提供的信息抽取处理方法,旨在解决现有技术的如上技术问题。该方法可以预先根据知识类型对待抽取文档进行知识抽取,以得到不同知识类型对应的知识结果,之后根据所有知识结果建立知识结果库。在接收到用户输入的检索信息之后,根据检索信息对应的待检索的知识类型即可从预设的知识结果库中得到知识结果,并将知识结果作为检索结果输出给用户。其中,知识类型可以是根据银行金融系统的数据特征设置的,使得知识抽取更具针对性,提高了检索的准确性和效率。进一步的,知识结果可以包括知识实体、知识图谱、知识文档、知识索引、知识变更历史列表中的一种或多种,不再仅是文档列表。通过多种展现形式的知识结果,可以使用户更加简单便捷地得到想要检索的内容,不需要依次点击文档列表查找,进一步提高了检索效率,同时,也提高了银行金融系统数据的使用价值。
进一步的,由于银行金融系统中存在有大量的非结构化数据,例如制度文档等,这些非结构化数据通常具有频繁更新以及体系化的特性,彼此之间会相互引用、链接。因此,为了提高这些非结构化数据检索的准确性和便捷性,在建立知识结果库时,可以确定待抽取文档之间的关联度,并根据待抽取文档以及待抽取文档之间的关联度,构建文档关系图谱。通过在知识图谱中引入各文档之间的关联度来构建文档关系图谱,使得文档关系图谱可以表征不同的文档之间的关联度,提高了根据文档关系图谱进行知识抽取的准确性和便捷性,进一步提高了检索的准确性。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
实施例一
图1是本申请一实施例提供的信息抽取处理方法的流程图,本申请实施例提供的信息抽取处理方法的执行主体可以是数据处理装置,也可以是集成有数据处理装置的终端设备(简称:终端设备),本实施例以执行主体为终端设备对该信息抽取处理方法进行说明。如图1所示,该信息抽取处理方法可以包括以下步骤:
S101:在接收到用户输入的检索信息之后,根据检索信息确定对应的待检索的知识类型,知识类型可以包括业务、职责、权限、流程、规范中的一种或多种。
需要说明的是,银行金融系统的非结构化数据中占据大多说的是制度文档,而制度文档也充分体现了银行金融系统数据的特点,因此,本实施例中以制度文档作为数据处理的对象,进行示例性的阐述。
在本实施例中,上述的用户可以指银行的工作人员、例如客服人员、培训人员等。客服人员进行问题答复是可能并不清楚全部问题的答案,可能会需要根据问题进行检索,而培训人员进行业务或者制度的培训时,可能需要对业务或者制度进行系统化总结,也需要进行检索,当然,此处仅是示例性的描述检索应用的场景,并不仅限于此。
在本实施例中,检索信息可以是句子,也可以是词汇,检索信息的具体表现形式在此不做任何限制。示例性的,用户可以输入“信用卡办理流程”“反假币”等作为检索信息。
在本实施例中,知识类型可以是根据银行金融系统数据的特点确定的,例如业务、职责、权限、流程、规范等,当然,知识类型并不仅局限于此,本领域技术人员可以灵活设置。
示例性的,用户输入“信用卡办理流程”作为检索信息时,知识类型可以是“流程”和“信用卡”。
S102:确定预设的知识结果库中与待检索的知识类型对应的知识结果,并根据知识结果向用户输出检索结果,知识结果包括知识实体、知识图谱、知识文档、知识索引、知识变更历史列表中的一种或多种;知识结果库可以是利用下列方式获得的:确定待抽取文档之间的关联度,并根据待抽取文档以及待抽取文档之间的关联度,构建文档关系图谱;确定文档关系图谱中待分析的子图谱;根据知识类型对子图谱中的文档进行知识抽取,以得到知识类型对应的知识结果;根据知识类型对应的知识结果,建立知识结果库。
在本实施例中,上述步骤S102中知识结果库获取的具体实施方式请详见实施例二。
在本实施例中,本领域技术人员可以灵活设置知识结果的表现形式,优选的,为了便于用户查看检索结果,知识结果可以以知识实体为表现形式,知识实体中可以包括知识定义、操作流程等属性,用户可以对询问的问题一目了然,不需要多次查找检索结果。进一步的,客户在询问问题时一般不会只询问一个问题,通常会询问多个相关的问题,因此,为了提高服务质量和答复的效率,知识结果还可以是知识图谱、知识索引和知识变更历史列表等以知识类型为体系呈现的表现形式。若客户询问多个相关的问题,用户不需要进行多次检索。进一步的,知识结果还可以以知识文档为表现形式,通过展现原始的文档,可以为用户提供知识的支撑基础,不仅使用户清楚其他的知识表现形式是有根据的,也便于用户查看。
本申请的方法,可以预先根据知识类型对待抽取文档进行知识抽取,以得到不同知识类型对应的知识结果,之后根据所有知识结果建立知识结果库。在接收到用户输入的检索信息之后,根据检索信息对应的待检索的知识类型即可从预设的知识结果库中得到知识结果,并将知识结果作为检索结果输出给用户。其中,知识类型可以是根据银行金融系统的数据特征设置的,使得知识抽取更具针对性,提高了检索的准确性和效率。进一步的,知识结果可以包括知识实体、知识图谱、知识文档、知识索引、知识变更历史列表中的一种或多种,不再仅是文档列表。通过多种展现形式的知识结果,可以使用户更加简单便捷地得到想要检索的内容,不需要依次点击文档列表查找,进一步提高了检索效率,同时,也提高了银行金融系统数据的使用价值。
进一步的,由于银行金融系统中存在有大量的非结构化数据,例如制度文档等,这些非结构化数据通常具有频繁更新以及体系化的特性,彼此之间会相互引用、链接。因此,为了提高这些非结构化数据检索的准确性和便捷性,在建立知识结果库时,可以确定待抽取文档之间的关联度,并根据待抽取文档以及待抽取文档之间的关联度,构建文档关系图谱。通过在知识图谱中引入各文档之间的关联度来构建文档关系图谱,使得文档关系图谱可以表征不同的文档之间的关联度,提高了根据文档关系图谱进行知识抽取的准确性和便捷性,进一步提高了检索的准确性。
本申请通过对制度文档进行充分解构,抽取出知识条目并且做了一定程度的融合后,用户可以直接检索知识点,并且可以返回知识点相关的知识、实体、文档等。呈现的是一个知识脉络和结构化组织的知识体系,而不是原始的文本文档,可以有效的提高用户体验和提升制度类文档的使用率。
下面以具体的实施例二对上述实施例一的步骤S102中获取知识结果库的具体实施方式进行详细的阐述。
实施例二
图2是本申请另一实施例提供的信息抽取处理方法的流程图,本申请实施例提供的信息抽取处理方法的执行主体可以是数据处理装置,也可以是集成有数据处理装置的终端设备(简称:终端设备),本实施例以执行主体为终端设备对该信息抽取处理方法进行说明。如图2所示,该信息抽取处理方法可以包括以下步骤:
S201:确定待抽取文档之间的关联度,并根据待抽取文档以及待抽取文档之间的关联度,构建文档关系图谱。
在本实施例中,知识结果库中可以包括银行金融系统的所有制度文档,并且知识结果库可以包括数据接入接口,用户可以通过数据接入接口上传相关的文档。当有新的文档上传至知识结果库时,该文档即可作为待抽取文档,并进行知识抽取得到相应的知识结果。
示例性的,知识结果库可以包括1000篇文档,这些文档均已进行知识抽取得到相应的知识结果,这些文档和知识结果均按照知识类型进行分类存储在知识结果库中。某用户通过知识结果库的数据接口上传了10篇文档,这10篇文档即可作为待抽取文档,待进行知识抽取之后,和知识结果一起分类存储在知识结果库中。
当然,文档和知识结果也可以存别存储在知识结果库的不同区域。当文档和知识结果分别存储时,针对文档也可以进行相应的分类存储,例如,可以按照业务部门、业务领域、文档类型、目标阅读者等对文档进行分类存储。
在本实施例中,知识结果库还可以包括数据服务接口,用户可以通过数据服务接口下载知识结果用于其他系统或者其他服务。当然,该数据服务接口也可用于文档的筛选、卸载或者推送,在此不做任何限制。
示例性的,某用户想要得到一种特定表现形式的知识结果用于展示,但是该表现形式在知识结果库中并不存在,则该用户可以下载相应的知识结果,之后进行转换以得到想要的表现形式。
在一个可能的实施方式中,上述步骤S201中的确定待抽取文档之间的关联度,可以包括:确定每一待抽取文档对应的文档类型,并根据文档类型确定每一待抽取文档对应的文档类型分布向量,文档类型包括系统管理、培训管理、业务管理、运营操作、业务操作中的一种或多种;根据每一待抽取文档对应的文档类型分布向量,确定待抽取文档之间的关联度。
在本实施方式中,文档类型本领域技术人员可以根据银行金融系统的制度文档的特点灵活设置,例如,系统管理、培训管理、业务管理、运营操作、业务操作等,当然,文档类型并不仅局限于此。
在本实施方式中,在文档上传至知识结果库时,可以根据文档类型对文档进行分类整理。而银行制度文档一般会有固定的几种类型,包括但不限于系统管理办法、培训管理办法、业务管理办法、运营操作流程、业务操作规程等。比如系统管理办法主要强调系统建设的职责、要求和规范;培训管理办法主要针对业务培训;业务操作规程主要强调操作权限、流程和规范等。
在本实施方式中,银行金融系统的制度文档基本与其业务相关,而即便是相同的业务,不同文档类型的文档关联度也是不同的,例如,“针对反假币的培训管理办法”、“反假币的运营操作规程”和“反假币的工作管理办法”的相关业务均是反假币,但是这三个文档的文档类型不同,任意两个文档之间的相关程度也不同。因此,可以根据文档类型确定每一待抽取文档对应的文档类型分布向量,并根据每一待抽取文档对应的文档类型分布向量,确定待抽取文档之间的关联度。通过这样的设置,可以提高待抽取文档之间的关联度的准确性。此外,通过根据银行金融系统的制度文档的特点设置文档类型,可以进一步提高待抽取文档之间的关联度的准确性。
在一个可能的实施方式中,确定每一待抽取文档对应的文档类型,并根据文档类型确定每一待抽取文档对应的文档类型分布向量,可以包括:根据预设的类型词典确定每一待抽取文档对应的类型描述词;根据预设的类型描述词与文档类型之间的对应关系,确定每一待抽取文档对应的文档类型;对文档类型进行归一化处理,以确定每一待抽取文档对应的文档类型分布向量。
在本实施方式中,银行金融系统的制度文档的标题一般设置为“<银行名称><业务概念><文档类型>”,其中银行名称前面偶尔还会带上“关于”等词语;业务概念一般为具体的银行业务,比如外币代兑业务。因此,通过识别并提取制度文档的标题,或者文档正文的前几段,即可得到表示文档类型的类型描述词,例如,“流程”、“操作”、“运营”等。
在本实施方式中,类型词典可以是本领域技术人员事先对文档类型的相关描述词进行枚举并整合而成的,其可以为一个包括全部类型描述词的词典模板,当然,类型词典可以不断对其内的类型描述词进行更新和整理。
在本实施方式中,根据预设的类型词典确定每一待抽取文档对应的类型描述词,可以采用精确匹配或模糊匹配的方式进行匹配。模糊匹配的方式可以基于编辑距离进行。此处可以采用现有的精确匹配或模糊匹配的方法进行匹配,在此不做赘述。
在本实施方式中,由于银行金融系统的制度文档有其明显的特点,即一般文档类型会体现在文档标题或者正文中。因此,可以预先设置包括所有类型词汇的类型词典,根据类型词典确定待抽取文档的类型描述词。根据类型描述词即可简单而又准确地确定待抽取文档对应的文档类型。得到文档类型之后,对文档类型进行归一化处理,即可简单便捷地确定每一待抽取文档对应的文档类型分布向量。
可替代的,确定每一待抽取文档对应的文档类型,并根据文档类型确定每一待抽取文档对应的文档类型分布向量,还可以包括:利用多个二分类器对每一待抽取文档进行分类,以得到每一待抽取文档的分类概率值;根据最大的分类概率值对应的类型确定每一待抽取文档的文档类型,并根据每一待抽取文档的分类概率值确定每一待抽取文档对应的文档类型分布向量。
在本实施方式中,可以采用现有的二分类器技术对文档进行分类,具体的,可以将目标类型作为正类型,其他所有类型作为负类型,以此训练N个(文档类型个数)二分类器。当需要新增文档类型时可以及时筛选正类型文档,并将已有其他文档数据作为负类文档构建分类器。二分类器的具体结构可以参考校友技术,在此不做赘述。
示例性的,可以将待抽取文档输入N个分类器得到N个分类结果,分类器输出的数值可以看作文档属于该分类的概率。数值最大的分类器对应的类型即为该文档最可能的文档类型。在此过程中可以保留所有的概率值,比如有10个文档类型,按C1、C2…C9、C10某个固定的顺序排列。那么每一个文档的预测结果作为一个长度为10的向量,例如,[0.82,0.53,0.12,0.61,…,0.23],该向量即可作为文档类型分布向量。
在本实施方式中,具体的分类器可以使用支持向量机、朴素贝叶斯等基于统计模型的分类器,并且可以根据实际的文档数据量等情况考虑采用集成学习的方式提高分类的精确度。也可以采用深度学习的方法来减少对于特征工程的处理,但在文档数量较少的情况下更多还是采用基于统计学习模型的方法。
在本实施方式中,根据预设类型词典确定文档类型的方式,主要依靠文档标题是否符合制度文档的一般模式。类型词典的方式能解决一部分的文档类型确定问题,但是对于文档类型不会出现在文档标题中的文档,无法做到有效的分类。因此,可以通过多个二分类器对每一待抽取文档进行分类的方式对文档进行类型确定,从而使文档类型得确定更加全面有效,准确性更高。进一步的,二分类器会输出待抽取文档对每一类型的分类概率值,根据分类概率值即可简单直接的确定待抽取文档对应的文档类型分布向量,不需要再进行归一化处理,操作简单便捷。
在一个可能的实施方式中,根据每一待抽取文档对应的文档类型分布向量,确定待抽取文档之间的关联度,可以包括:
S1:对每一待抽取文档依次进行分词处理、句法分析和依存分析,以确定每一待抽取文档对应的词汇。
S2:根据预设的核心词库,确定每一待抽取文档对应的词汇中的核心词汇,核心词库是根据业务领域词典、系统功能集合、功能菜单集合的一种或多种得到的。
S3:对于任意两个待抽取文档D1和D2,利用下列公式(1)-(6)确定待抽取文档之间的关联度:
R=R1+R2+R3+R4+R5 (1)
R1=w1·(V1·V2)·2C/(N1+N2) (2)
R2=w2·B1·B2 (3)
R3=w3·α·A (4)
R4=w4·B1·B2 (5)
R5=w5·M12/(M1+M2) (6)
其中,R表示待抽取文档D1和D2之间的关联度,R1表示业务概念关联度,R2表示篇章级引用关联度,R3表示章节段落级引用关联度,R4表示语义级关联度,R5表示词语级关联度;w1表示业务概念关联权重,w2表示篇章级引用关联权重,w3表示章节段落级引用关联权重,w4表示语义级关联权重,w5表示词语级关联权重;
V1表示待抽取文档D1的文档类型分布向量,V2表示待抽取文档D2的文档类型分布向量;N1表示待抽取文档D1中核心词汇的个数,N2表示待抽取文档D2中核心词汇的个数,C表示待抽取文档D1和D2中相同的核心词汇的个数;B1表示待抽取文档D1对应的词向量,B2表示待抽取文档D2对应的词向量;A表示待抽取文档D1的章节段落中引用待抽取文档D2的次数,α表示关联度常数;M1表示核心词汇在待抽取文档D1中出现的频次,M2表示核心词汇在待抽取文档D1中出现的频次,M12表示待抽取文档D1和D2中相同的核心词汇出现的频次。
在本实施方式中,步骤S1可以首先对待抽取文档进行分词处理,即将文档中的句子拆分为词语,然后拆分得到的词语进行句法分析和依存分析,通过这样的设置,可以对拆分得到的词语进行扩充,使待抽取文档对应的词汇更加丰富。
在本实施方式中,核心词汇指的是业务核心词,即与业务相关联的词汇。而业务领域词典、系统功能集合、功能菜单集合可以是本领域技术人员根据经验,或者经过枚举预先设置的,包括全部业务核心词的核心词库。
在本实施方式中,w1、w2、w3、w4和w5这几个权重,本领域技术人员均可以根据适应应用场景灵活设置,w1、w2、w3、w4和w5可以相同,也可以不同,在此不做任何限制。
在本实施方式中,业务概念关联指多个文档是针对同一个业务概念或核心实体。比如“针对反假币的培训管理办法”、“反假币的运营操作规程”、“反假币的工作管理办法”等等都是围绕反假币的制度文档。这类文档就属于业务概念关联,属于同一个业务主体下的文档。业务概念关联分析首先通过文档标题的业务核心词的匹配识别来处理,如果判断的两个文档标题都包含核心业务概念词汇那么可以判定两个文档是属于同一业务概念。对于不能匹配标题中的业务核心词的文档,可以计算二者之间的关联度。两篇文档在业务概念上有重叠会体现在文档中的核心词汇上。在这里词频不是重要关注的点,主要看核心词汇的匹配度。并且,考虑到两个文档即便是属于同一个业务概念,但是其文档类型可能有差异,仅此,还可以在核心词汇的匹配度的基础上引入文档类型分布向量,使得业务概念关联度更加准确。
在本实施方式中,篇章级引用关联的特点是在文档正文中,但不是在文档的某个章节下。比如出现在文档的开头,或直接出现在文档中的参考文档列表中。即,篇章级引用关联指的是文档引用文档,若不存在篇章级引用关联,则R2可计为0。
在本实施方式中,待抽取文档对应的词向量可以通过词袋模型或者Embedding的方式构建,也可以借助于外部的词向量库,词向量具体的构建方式在此不做任何限制。B1·B2即为是计算待抽取文档D1和D2的余弦相似度。
在本实施方式中,章节段落级引用关联是指在目标文档的某些章节段落中会引用其他的制度文档。这类引用关联度可以按照出现次数累计,每出现一次引用,对应文档的关联度增加一个关联度常数,示例性的,关联度常数可以为0.1。
在本实施方式中,由于制度类文档呈现出体系化、持续更新的特点,因此需要重点考虑文档间的关联关系。在计算文档之间的关联度时,通过引入业务概念关联、篇章级引用关联、章节段落级引用关联、语义级关联和词语级关联,使得据此计算得到的待抽取文档之间的关联度更加准确。
S202:确定文档关系图谱中待分析的子图谱。
在一个可能的实施方式中,上述步骤S202确定文档关系图谱中待分析的子图谱,可以包括:确定文档关系图谱中的第一核心文档;删除文档关系图谱中,与第一核心文档的关联度小于预设的关联度阈值的文档;根据文档关系图谱中剩余的第一文档确定待分析的子图谱。
在本实施方式中,可以根据排序算法,例如PageRank算法确定文档关系图谱中每一文档的重要度,其中重要度最大的文档即为第一核心文档。
在本实施方式中,考虑到在以某篇文档作为输入进行查询时该文档的重要度不高,与其关联的1度文档(只通过一条关系线连接)的关联度可能都很低,达不到设置的阈值,所以默认每次查询不低于2度关系(通过两条或以上关系线连接)范围的文档。
在本实施方式中,文档关系图谱中可以包括存在关联度的全部文档,但实际上有些文档之间并没有关联,只是使用了相同的词汇。因此,可以首先对文档关系图谱进行降噪处理,即删除关联度小于阈值的文档。通过这样的设置,不仅可以减小后续知识抽取的工作量,还能够保证知识结果的准确性。
S203:根据知识类型对子图谱中的文档进行知识抽取,以得到知识类型对应的知识结果。
在一个可能的实施方式中,上述步骤S203根据知识类型对子图谱中的文档进行知识抽取,以得到知识类型对应的知识结果,可以包括:
S2031:确定待分析的子图谱中的第二核心文档,以及除第二核心文档之外的第二文档,第一文档包括第二核心文档和第二文档。
S2032:对第二核心文档进行知识抽取,并按照关联度由大到小的顺序依次对每一第二文档进行知识抽取;
其中,对于每一第一文档的抽取方式为:对第一文档进行解析,以得到第一文档对应的关键特征,以及各关键特征的上下文信息,关键特征包括文档标题、章节标题、章节关系、段落、图表、列表中的一种或多种;以章节为单位,对第一文档进行识别,以确定第一文档中与知识类型对应的章节;依次对每一章节、章节对应的关键特征以及关键特征对应的上下文信息进行知识抽取,以获取第一文档对应的知识结果。
S2033:按照知识类型对每一第一文档的知识结果进行融合,以得到知识类型对应的知识结果。
在本实施方式中,对每一第一文档的知识结果进行融合时,可以以第二核心文档的知识结果为基础进行融合。
在本实施方式中,可以根据排序算法,例如PageRank算法确定待分析的子图谱中每一第一文档的重要度,其中重要度最大的文档即为第二核心文档。核心文档将作为制度类文档进行知识抽取的首选文档。因为在核心文档中往往会给出业务概念的标准定义。其他制度文档可能都是基于核心文档衍生出来的文档。比如,管理机构针对某个业务发布新的要求和通知,银行响应的业务部门就会基于该通知制定内部的相应的制度文档。在制度文档中一般会引用该文档。所以这里可能出现的一种情况就是源头文档可能不是核心文档(比如管理机构发布的通知文档),银行内部发布的第一个制度文档会成为核心文档。但是这些文档之间的关系都可以在文档关系图谱中找到。
在本实施方式中,本申请的知识抽取不同于一般的实体抽取和关系抽取,而是针对制度类文档抽取有用的信息,即将自由文本进行碎片化,然后再组织,形成可理解的,直观的、全面的知识信息。制度文档的内容一般包括“定义”、“业务解释”、“流程”、“原则”、“职责”、“操作流程”等关键信息要素。这些关键信息要素就构成了制度知识条目,在文档中可能是以多段落、表格、列表等形式表达。因此需要考虑不同类型要素信息在文档中对应的关键特征,这些关键特征主要包括“标题”、“正文”、“列表”、“表格”、“引用”等。不同类型的关键特征主要用来划分边界和确定抽取规则。比如,抽取操作流程时,一般操作流程会以表格或者列表的方式呈现。在文档中将表格和列表识别出来后再进行是否为操作流程的识别,可以排除掉大量的无用操作。
在本实施方式中,以章节为单位进行知识类型的识别之后,即可识别出该知识类型对应的章节,之后抽取时,可以对该知识类型对应的章节进行传统的知识抽取任务,包括实体识别、关系识别,识别完实体和关系后可以通过构建的业务词库、系统功能、菜单功能等词库以及已抽取出的知识进行实体的链接和对齐操作。
示例性的,图3为本申请一实施例的文档关系图谱示意图,如图3所示,核心文档为d1,由于该文档关系图谱中与d1仅存在两级连接线,因此不删除其中的文档。进行知识抽取时,首先抽取d1,然后以d1出发基于BFS并且按照关联度大小接下来需要分析的是d5、d2、d4、d3、d8、d6、d7。
在本实施方式中,删除文档关系图谱中与第一核心文档的关联度小于阈值的文档之后,剩余的第一文档的核心文档可能会发生变化,即第一核心文档可能不会再是核心文档,因此需要利用排序算法对核心文档进行校正,得到第二核心文档。进一步的,对第一文档进行解析,以得到第一文档对应的关键特征,之后根据关键特征进行知识抽取,使知识抽取更具针对性,可以提高知识抽取的效率和准确性。进一步的,以章节为单位进行知识类型的识别,可以去除与该知识类型无关的章节,从而减少知识抽取的工作量,进一步提高知识抽取的效率和准确性。进一步的,在抽取得到该知识类型对应的章节的知识结果之后,可以对全部文档中该知识类型相关的知识结果进行融合,以使最终的知识结果更加全面而准确。
在一个可能的实施方式中,按照知识类型对每一第一文档的知识结果进行融合,以得到知识类型对应的知识结果,可以包括:按照知识类型对每一第一文档的知识结果进行融合,以得到知识类型对应的第一知识结果;判断知识结果库中是否已经存在知识类型对应的第二知识结果;若是,则按照文档的上传时间和/或知识结果的生成时间,对第一知识结果和第二知识结果进行融合,以得到知识类型对应的知识结果。
在本实施方式中,随着文档的更新,可能存在多个文档对各部门的业务职责进行定义,在做融合时可以依次识别业务、机构和权限职责要点。融合时会保留两边知识的所有原始信息,另外需要考虑文档的时间因素,后续定义的知识原则上比时间老旧的文档准确。融合时要考虑知识点覆盖的问题,以及识别出差异并保存在知识结果库中,方便后续对差异进行分析和跟踪。
在本实施方式中,上述实施方式已经表述了一个全新的业务的相关文档的知识抽取过程,但是,由于制度类文档呈现出体系化、持续更新的特点,上述实施方式得到的结果可能是现有业务的更新文档的知识抽取结果。因此,在得到第一知识结果之后,还可以判断知识结果库中是否已经存在知识类型对应的第二知识结果,若存在,则对第一知识结果和第二知识结果进行融合,以得到知识类型对应的知识结果。通过这样的设置,可以提高知识结果的准确性。进一步的,在进行融合时,可以按照文档的上传时间和/或知识结果的生成时间进行融合,后续定义的知识原则上比时间老旧的文档准确,通过这样的设置,可以进一步提高知识结果的准确性。
S204:根据知识类型对应的知识结果,建立知识结果库。
在一个可能的实施方式中,上述步骤S204根据知识类型对应的知识结果,建立知识结果库,可以包括:将每一第一文档对应的知识结果、第一知识结果、第二知识结果以及知识类型对应的知识结果,以预设的存储形式存储至知识结果库,存储形式包括知识实体、知识图谱、知识文档、知识索引、知识变更历史列表中的一种或多种;其中,知识实体包括知识定义、知识所处文档名称、知识所处文档中的位置中的一种或多种,知识变更历史列表包括知识抽取时间、相关文档发布时间、抽取时间对应的知识结果中的一种或多种。
在本实施方式中,知识图谱可以将制度类文档的内容通过知识图谱方式进行存储和重新组织与表达。可以将文档中抽取出的职责与权限填入对应的实体和关系数据中,具体的权限描述作为关系属性存放。实体属性可以包括业务、系统、专项工作、机构、账户、运营管理等核心概念。其中专项工作包括专项培训、反洗钱等临时的专项性工作事项。建立的关系体系可以包括机构与业务或系统之间具有的职责与权限关系。
在本实施方式中,知识变更历史列表可以包括,知识结果抽取的时间、相关文档发布时间,以及该时间点下知识结果融合后的结果。这样就构建了知识结果的时间线,方便对知识结果进行历史回溯。对于同一业务概念的文档,也可以以时间线的方式进行存储和展示。对于同一业务概念且同一文档类型的文档(即一般意义上的同一个文档)的不同版本,构建差异历史线路,可以直观的展示某个操作流程的演变,或某个机构在某项业务中职责的变化。
在本实施方式中,知识索引构建时,可以将抽取出的知识结果存入Elasticsearch中,并对其相关的业务概念、系统功能、功能菜单等建立索引;对其相关文档建立索引。这样就形成了从业务概念、业务实体到知识点再到具体文档的全方位的索引体系结构。
在本实施方式中,可以将知识抽取过程中抽取到的全部结果均存储在知识结果库中,以便于分析和追踪。进一步的,通过多种表现形式对知识结果进行存储,可以提高知识结果的使用价值,也可以使知识结果更全面,从而使用户更加简单便捷地得到想要检索的内容。
在本实施例中,由于银行金融系统中存在有大量的非结构化数据,例如制度文档等,这些非结构化数据通常具有频繁更新以及体系化的特性,彼此之间会相互引用、链接。因此,为了提高这些非结构化数据检索的准确性和便捷性,在建立知识结果库时,可以确定待抽取文档之间的关联度,并根据待抽取文档以及待抽取文档之间的关联度,构建文档关系图谱。通过在知识图谱中引入各文档之间的关联度来构建文档关系图谱,使得文档关系图谱可以表征不同的文档之间的关联度,提高了根据文档关系图谱进行知识抽取的准确性和便捷性,进一步提高了检索的准确性。进一步的,通过对文档关系图谱进行降噪处理,不仅可以减小后续知识抽取的工作量,还能够保证知识结果的准确性。进一步的,通过多种表现形式对知识结果进行存储,可以提高知识结果的使用价值,也可以使知识结果更全面,从而使用户更加简单便捷地得到想要检索的内容。
下面以一个具体的实施例对本申请的信息抽取处理方法进行阐述。
实施例三
在一个具体的实施例中,某银行的客服接收到客户的问题咨询,该用户询问信用卡的申请流程,而该客服对信用卡的申请流程并不清楚,该客服在终端设备的该银行的知识结果库页面的搜索栏中输入“信用卡的申请流程”进行检索,具体的检索过程如下:
第一步,终端设备在接收到客服输入的检索信息“信用卡的申请流程”之后,确定对应的待检索的知识类型为“信用卡”和“流程”。
第二步,终端设备从知识结果库中搜索得到与“信用卡”和“流程”相关的知识结果,知识结果包括知识实体、知识图谱和知识文档,并将知识结果作为检索结果输出给客服,客服根据知识实体展现的信用卡的申请流程向客户进行相关解答。
图4为本申请一实施例的终端设备的结构示意图,如图4所示,该终端设备包括:接收模块41,用于在接收到用户输入的检索信息之后,根据检索信息确定对应的待检索的知识类型,知识类型可以包括业务、职责、权限、流程、规范中的一种或多种;处理模块42,用于确定预设的知识结果库中与待检索的知识类型对应的知识结果,并根据知识结果向用户输出检索结果,知识结果包括知识实体、知识图谱、知识文档、知识索引、知识变更历史列表中的一种或多种;知识结果库是利用下列方式获得的:确定待抽取文档之间的关联度,并根据待抽取文档以及待抽取文档之间的关联度,构建文档关系图谱;确定文档关系图谱中待分析的子图谱;根据知识类型对子图谱中的文档进行知识抽取,以得到知识类型对应的知识结果;根据知识类型对应的知识结果,建立知识结果库。一个实施方式中,终端设备具体实现功能的描述可以参见实施例一中的步骤S101-S102以及实施例二中的步骤S201-S204,在此不做赘述。
图5为本申请一实施例的电子设备的结构示意图,如图5所示,该电子设备包括:处理器101,以及与处理器101通信连接的存储器102;存储器102存储计算机执行指令;处理器101执行存储器102存储的计算机执行指令,实现上述各方法实施例中信息抽取处理方法的步骤。
该电子设备可以是独立的,也可以是终端设备的一部分,该处理器101和存储器102可以采用终端设备现有的硬件。
在上述电子设备中,存储器102和处理器101之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可以通过一条或者多条通信总线或信号线实现电性连接,如可以通过总线连接。存储器102中存储有实现数据访问控制方法的计算机执行指令,包括至少一个可以软件或固件的形式存储于存储器102中的软件功能模块,处理器101通过运行存储在存储器102内的软件程序以及模块,从而执行各种功能应用以及数据处理。
存储器102可以是,但不限于,随机存取存储器(Random Access Memory,简称:RAM),只读存储器(Read Only Memory,简称:ROM),可编程只读存储器(ProgrammableRead-Only Memory,简称:PROM),可擦除只读存储器(Erasable Programmable Read-OnlyMemory,简称:EPROM),电可擦除只读存储器(Electric Erasable ProgrammableRead-Only Memory,简称:EEPROM)等。其中,存储器102用于存储程序,处理器101在接收到执行指令后,执行程序。进一步地,上述存储器102内的软件程序以及模块还可包括操作系统,其可包括各种用于管理系统任务(例如内存管理、存储设备控制、电源管理等)的软件组件和/或驱动,并可与各种硬件或软件组件相互通信,从而提供其他软件组件的运行环境。
处理器101可以是一种集成电路芯片,具有信号的处理能力。上述的处理器101可以是通用处理器,包括中央处理器(Central Processing Unit,简称:CPU)、网络处理器(Network Processor,简称:NP)等。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本申请的一实施例还提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现本申请各方法实施例的步骤。
本申请的一实施例还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现本申请各方法实施例的步骤。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由所附的权利要求书指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。
Claims (12)
1.一种信息抽取处理方法,其特征在于,包括:
在接收到用户输入的检索信息之后,根据所述检索信息确定对应的待检索的知识类型,所述知识类型包括业务、职责、权限、流程、规范中的一种或多种;
确定预设的知识结果库中与所述待检索的知识类型对应的知识结果,并根据所述知识结果向所述用户输出检索结果,所述知识结果包括知识实体、知识图谱、知识文档、知识索引、知识变更历史列表中的一种或多种;
所述知识结果库是利用下列方式获得的:
确定待抽取文档之间的关联度,并根据所述待抽取文档以及所述待抽取文档之间的关联度,构建文档关系图谱;
确定所述文档关系图谱中待分析的子图谱;
根据所述知识类型对所述子图谱中的文档进行知识抽取,以得到所述知识类型对应的知识结果;
根据所述知识类型对应的知识结果,建立所述知识结果库。
2.根据权利要求1所述的方法,其特征在于,所述确定待抽取文档之间的关联度,具体包括:
确定每一所述待抽取文档对应的文档类型,并根据所述文档类型确定每一所述待抽取文档对应的文档类型分布向量,所述文档类型包括系统管理、培训管理、业务管理、运营操作、业务操作、规章制度中的一种或多种;
根据每一所述待抽取文档对应的文档类型分布向量,确定所述待抽取文档之间的关联度。
3.根据权利要求2所述的方法,其特征在于,所述确定每一所述待抽取文档对应的文档类型,并根据所述文档类型确定每一所述待抽取文档对应的文档类型分布向量,具体包括:
根据预设的类型词典确定每一所述待抽取文档对应的类型描述词;根据预设的类型描述词与文档类型之间的对应关系,确定每一所述待抽取文档对应的文档类型;对所述文档类型进行归一化处理,以确定每一所述待抽取文档对应的文档类型分布向量;
或者,
利用多个二分类器对每一所述待抽取文档进行分类,以得到每一所述待抽取文档的分类概率值;根据最大的分类概率值对应的类型确定每一所述待抽取文档的文档类型,并根据每一所述待抽取文档的分类概率值确定每一所述待抽取文档对应的文档类型分布向量。
4.根据权利要求3所述的方法,其特征在于,所述根据每一所述待抽取文档对应的文档类型分布向量,确定所述待抽取文档之间的关联度,具体包括:
对每一所述待抽取文档依次进行分词处理、句法分析和依存分析,以确定每一所述待抽取文档对应的词汇;
根据预设的核心词库,确定每一所述待抽取文档对应的词汇中的核心词汇,所述核心词库是根据业务领域词典、系统功能集合、功能菜单集合的一种或多种得到的;
对于任意两个待抽取文档D1和D2,利用下列公式确定所述待抽取文档之间的关联度:
R=R1+R2+R3+R4+R5
R1=w1·(V1·V2)·2C/(N1+N2)
R2=w2·B1·B2
R3=w3·α·A
R4=w4·B1·B2
R5=w5·M12/(M1+M2)
其中,所述R表示待抽取文档D1和D2之间的关联度,所述R1表示业务概念关联度,所述R2表示篇章级引用关联度,所述R3表示章节段落级引用关联度,所述R4表示语义级关联度,所述R5表示词语级关联度;所述w1表示业务概念关联权重,所述w2表示篇章级引用关联权重,所述w3表示章节段落级引用关联权重,所述w4表示语义级关联权重,所述w5表示词语级关联权重;
所述V1表示待抽取文档D1的文档类型分布向量,所述V2表示待抽取文档D2的文档类型分布向量;所述N1表示待抽取文档D1中核心词汇的个数,所述N2表示待抽取文档D2中核心词汇的个数,所述C表示待抽取文档D1和D2中相同的核心词汇的个数;所述B1表示待抽取文档D1对应的词向量,所述B2表示待抽取文档D2对应的词向量;所述A表示待抽取文档D1的章节段落中引用待抽取文档D2的次数,所述α表示关联度常数;所述M1表示所述核心词汇在待抽取文档D1中出现的频次,所述M2表示所述核心词汇在待抽取文档D1中出现的频次,所述M12表示待抽取文档D1和D2中相同的核心词汇出现的频次。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述确定所述文档关系图谱中待分析的子图谱,具体包括:
确定所述文档关系图谱中的第一核心文档;
删除所述文档关系图谱中,与所述第一核心文档的关联度小于预设的关联度阈值的文档;
根据所述文档关系图谱中剩余的第一文档确定所述待分析的子图谱。
6.根据权利要求5所述的方法,其特征在于,所述根据所述知识类型对所述子图谱中的文档进行知识抽取,以得到所述知识类型对应的知识结果,具体包括:
确定所述待分析的子图谱中的第二核心文档,以及除所述第二核心文档之外的第二文档,所述第一文档包括第二核心文档和第二文档;
对所述第二核心文档进行知识抽取,并按照关联度由大到小的顺序依次对每一所述第二文档进行知识抽取;
其中,对于每一所述第一文档的抽取方式为:
对所述第一文档进行解析,以得到所述第一文档对应的关键特征,以及各关键特征的上下文信息,所述关键特征包括文档标题、章节标题、章节关系、段落、图表、列表中的一种或多种;
以章节为单位,对所述第一文档进行识别,以确定所述第一文档中与所述知识类型对应的章节;
依次对每一所述章节、所述章节对应的关键特征以及所述关键特征对应的上下文信息进行知识抽取,以获取所述第一文档对应的知识结果;
按照所述知识类型对每一所述第一文档的知识结果进行融合,以得到所述知识类型对应的知识结果。
7.根据权利要求6所述的方法,其特征在于,所述按照所述知识类型对每一所述第一文档的知识结果进行融合,以得到所述知识类型对应的知识结果,具体包括:
按照所述知识类型对每一所述第一文档的知识结果进行融合,以得到所述知识类型对应的第一知识结果;
判断所述知识结果库中是否已经存在所述知识类型对应的第二知识结果;
若是,则按照文档的上传时间和/或知识结果的生成时间,对所述第一知识结果和所述第二知识结果进行融合,以得到所述知识类型对应的知识结果。
8.根据权利要求7所述的方法,其特征在于,所述根据所述知识类型对应的知识结果,建立所述知识结果库,具体包括:
将每一所述第一文档对应的知识结果、第一知识结果、第二知识结果以及所述知识类型对应的知识结果,以预设的存储形式存储至所述知识结果库,所述存储形式包括知识实体、知识图谱、知识文档、知识索引、知识变更历史列表中的一种或多种;
其中,所述知识实体包括知识定义、知识所处文档名称、知识所处文档中的位置中的一种或多种,所述知识变更历史列表包括知识抽取时间、相关文档发布时间、所述抽取时间对应的知识结果中的一种或多种。
9.一种终端设备,包括:
接收模块,用于在接收到用户输入的检索信息之后,根据所述检索信息确定对应的待检索的知识类型,所述知识类型包括业务、职责、权限、流程、规范中的一种或多种;
处理模块,用于确定预设的知识结果库中与所述待检索的知识类型对应的知识结果,并根据所述知识结果向所述用户输出检索结果,所述知识结果包括知识实体、知识图谱、知识文档、知识索引、知识变更历史列表中的一种或多种;所述知识结果库是利用下列方式获得的:确定待抽取文档之间的关联度,并根据所述待抽取文档以及所述待抽取文档之间的关联度,构建文档关系图谱;确定所述文档关系图谱中待分析的子图谱;根据所述知识类型对所述子图谱中的文档进行知识抽取,以得到所述知识类型对应的知识结果;根据所述知识类型对应的知识结果,建立所述知识结果库。
10.一种电子设备,包括处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1至8中任一项所述的方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至8中任一项所述的方法。
12.一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现权利要求1-8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211192672.8A CN115563306A (zh) | 2022-09-28 | 2022-09-28 | 信息抽取处理方法、设备、介质及产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211192672.8A CN115563306A (zh) | 2022-09-28 | 2022-09-28 | 信息抽取处理方法、设备、介质及产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115563306A true CN115563306A (zh) | 2023-01-03 |
Family
ID=84743945
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211192672.8A Pending CN115563306A (zh) | 2022-09-28 | 2022-09-28 | 信息抽取处理方法、设备、介质及产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115563306A (zh) |
-
2022
- 2022-09-28 CN CN202211192672.8A patent/CN115563306A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11663254B2 (en) | System and engine for seeded clustering of news events | |
US20080235220A1 (en) | Methodologies and analytics tools for identifying white space opportunities in a given industry | |
CN111767716A (zh) | 企业多级行业信息的确定方法、装置及计算机设备 | |
CN111782763A (zh) | 基于语音语义的信息检索方法、及其相关设备 | |
CN109344227A (zh) | 工单处理方法、系统和电子设备 | |
CA2956627A1 (en) | System and engine for seeded clustering of news events | |
CN115239214B (zh) | 企业的评估处理方法、装置及电子设备 | |
CN109002432A (zh) | 同义词的挖掘方法及装置、计算机可读介质、电子设备 | |
CN111553556A (zh) | 业务数据分析方法、装置、计算机设备及存储介质 | |
CN115374781A (zh) | 文本数据信息挖掘方法、装置、设备 | |
WO2015084757A1 (en) | Systems and methods for processing data stored in a database | |
CN113660541A (zh) | 新闻视频的摘要生成方法及装置 | |
CN114461783A (zh) | 关键词生成方法、装置、计算机设备、存储介质和产品 | |
CN117149804A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN116933130A (zh) | 一种基于大数据的企业行业分类方法、系统、设备及介质 | |
US11922326B2 (en) | Data management suggestions from knowledge graph actions | |
CN112699245A (zh) | 预算管理知识图谱的构建方法、装置及应用方法、装置 | |
CN113988878B (zh) | 一种基于图数据库技术的反欺诈方法及系统 | |
US20220083570A1 (en) | Enhanced data driven intelligent cloud advisor system | |
CN114528378A (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN113095078A (zh) | 关联资产确定方法、装置和电子设备 | |
CN115563306A (zh) | 信息抽取处理方法、设备、介质及产品 | |
CN112380321A (zh) | 基于票据知识图谱的主次数据库分配方法及相关设备 | |
Rybak et al. | Machine learning-enhanced text mining as a support tool for research on climate change: theoretical and technical considerations | |
AU2019290658A1 (en) | Systems and methods for identifying and linking events in structured proceedings |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |