CN115510196A - 知识图谱的构建方法、问答方法、装置和存储介质 - Google Patents
知识图谱的构建方法、问答方法、装置和存储介质 Download PDFInfo
- Publication number
- CN115510196A CN115510196A CN202110632969.0A CN202110632969A CN115510196A CN 115510196 A CN115510196 A CN 115510196A CN 202110632969 A CN202110632969 A CN 202110632969A CN 115510196 A CN115510196 A CN 115510196A
- Authority
- CN
- China
- Prior art keywords
- entity
- attribute information
- entities
- standard
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Abstract
本申请提供一种知识图谱的构建方法、问答方法、装置和存储介质。该知识图谱的构建方法包括:对多个文本进行分析,得到多个实体以及每个文本对应的属性信息;将多个实体以及属性信息与预设实体库进行匹配,确定各实体之间的关联关系以及属性信息与各所述实体之间的关联关系;预设实体库中包括标准业务实体、标准行为实体、标准事件实体和标准属性信息,标准行为实体、标准事件实体和标准属性信息均为标准业务实体的子节点;获取与属性信息对应的属性值;根据各实体之间的关联关系、属性信息与各实体之间的关联关系和属性值,构建知识图谱。本申请可以避免从文本中提取三元组数据,当文本中无法提取出三元组的实体与关系时,也可以构建出知识图谱。
Description
技术领域
本申请涉及大数据技术,尤其涉及一种知识图谱的构建方法、问答方法、装置和存储介质。
背景技术
知识图谱(Knowledge Graph)用于描述实体的属性和实体之间的联系。随着计算机科学的发展,人工智能领域的兴起,知识图谱的应用也越发广泛。
目前大多数的知识图谱都是基于大量的语料,提取出三元组数据,从而采用三元组数据组织知识,以形成三元组知识图谱。其中,三元组的形式可以为:(实体,关系,实体)。例如“张三,出生地,北京”就构成了一个三元组,当用户提问“张三的出生地在哪里”的时候,就可以提取出“张三”这一实体和“出生地”的关系,进而根据知识图谱中的上述三元组查找到与“张三”具有“出生地”关系的实体“北京”。
然而,对于语料中无法提取出三元组数据的情况,按照上述方式,将无法构建出知识图谱。
发明内容
本申请提供一种知识图谱的构建方法、问答方法、装置和存储介质,用以解决在语料中无法提取出三元组数据时,将无法构建知识图谱的技术问题。
第一方面,本申请提供一种知识图谱的构建方法,包括:
对多个文本进行分析,得到多个实体以及所述每个文本对应的属性信息,所述实体包括业务实体、行为实体和事件实体,所述业务实体用于表示业务类型,所述事件实体用于表示所述业务实体的操作状态,所述行为实体用于表示业务实体的操作行为,所述属性信息用于表示所述文本所属的类型;
将所述多个实体以及所述属性信息与预设实体库进行匹配,确定各实体之间的关联关系以及所述属性信息与各所述实体之间的关联关系;所述预设实体库中包括标准业务实体、标准行为实体、标准事件实体和标准属性信息,所述标准行为实体、所述标准事件实体和所述标准属性信息均为所述标准业务实体的子节点;
获取与所述属性信息对应的属性值;
根据各实体之间的关联关系、所述属性信息与各所述实体之间的关联关系和所述属性值,构建知识图谱。
第二方面,本申请提供一种问答方法,包括:
对待处理文本进行分析,得到至少一个待匹配实体以及所述与待处理文本对应的待匹配属性信息;
根据所述至少一个待匹配实体和所述待匹配属性信息,基于知识图谱确定所述待处理文本对应的答案,其中,所述知识图谱包括节点和边,所述节点包括多个实体、属性信息以及所述属性信息对应的属性值,所述边表示各实体之间的关联关系、属性信息与各所述实体之间的关联关系以及所述属性信息与所述属性值之间的关联关系;
输出所述待处理文本对应的答案。
第三方面,本申请实施例还提供了一种知识图谱的构建装置,包括:
分析模块,用于对多个文本进行分析,得到多个实体以及所述每个文本对应的属性信息,所述实体包括业务实体、行为实体和事件实体,所述业务实体用于表示业务类型,所述事件实体用于表示所述业务实体的操作状态,所述行为实体用于表示业务实体的操作行为,所述属性信息用于表示所述文本所属的类型;
确定模块,用于将所述多个实体以及所述属性信息与预设实体库进行匹配,确定各实体之间的关联关系以及所述属性信息与各所述实体之间的关联关系;所述预设实体库中包括标准业务实体、标准行为实体、标准事件实体和标准属性信息,所述标准行为实体、所述标准事件实体和所述标准属性信息均为所述标准业务实体的子节点;
所述获取模块,还用于获取与所述属性信息对应的属性值;
构建模块,还用于根据各实体之间的关联关系、所述属性信息与各所述实体之间的关联关系和所述属性值,构建知识图谱。
第四方面,本申请实施例还提供了一种问答装置,包括:
分析模块,用于对待处理文本进行分析,得到至少一个待匹配实体以及与所述待处理文本对应的待匹配属性信息;
确定模块,用于根据所述至少一个待匹配实体和所述待匹配属性信息,基于知识图谱确定所述待处理文本对应的答案,其中,所述知识图谱包括节点和边,所述节点包括多个实体、属性信息以及所述属性信息对应的属性值,所述边表示各实体之间的关联关系、属性信息与各所述实体之间的关联关系以及所述属性信息与所述属性值之间的关联关系;
输出模块,用于输出所述待处理文本对应的答案。
第五方面,本申请实施例还提供了一种电子设备,该电子设备可以包括处理器和存储器;其中,
所述存储器,用于存储计算机程序。
所述处理器,用于读取所述存储器存储的计算机程序,并根据所述存储器中的计算机程序执行上述第一方面的知识图谱的构建方法的技术方案或执行上述第二方面的问答方法的技术方案。
第六方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现上述第一方面任一种可能的实现方式中所述的知识图谱的构建方法或实现上述第二方面任一种可能的实现方式中所述的问答方法。
第七方面,本申请实施例还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时,实现上述第一方面任一种可能的实现方式所述的知识图谱的构建方法或实现上述第二方面任一种可能的实现方式所述的问答方法。
本申请实施例提供的知识图谱的构建方法、问答方法、装置和存储介质,通过预先设置预设实体库,在该预设实体库中设置标准业务实体、标准行为实体、标准事件实体和标准属性信息之间的关联关系。在对多个文本进行分析,得到多个实体以及每个文本对应的属性信息后,通过将多个实体以及属性信息与预设实体库进行匹配,以确定各实体之间的关联关系以及属性信息与各实体之间的关联关系,在获取到与属性信息对应的属性值后,将根据各实体之间的关联关系、属性信息与各实体之间的关联关系和属性值,构建知识图谱。通过预先设置预设实体库,该预设实体库中包括各个标准实体之间的关联关系,通过采用确定出的实体和预设实体库中各个标准实体之间的关联关系进行匹配的方式构建知识图谱,可以避免必须从文本中提取三元组数据才能构建知识图谱的现象,当文本中无法提取出三元组的实体与关系,而且文本中名词实体较少时,采用上述方式也可以构建出知识图谱。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请实施例提供的知识图谱的构建方法的系统架构图;
图2为本申请实施例提供的一种知识图谱的构建方法的流程示意图;
图3为一种预设实体库的示意图;
图4为操作指令的界面示意图;
图5为知识图谱的一结构示意图;
图6为本申请实施例提供的知识图谱构建的示意图;
图7为知识图谱的另一结构示意图;
图8为本申请实施例提供的一种问答方法的流程示意图;
图9为本申请实施例提供的一种知识图谱的构建装置的结构示意图;
图10为本申请实施例提供的一种问答装置的结构示意图;
图11为本申请实施例提供的一种服务器的结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在一些智能问答场景中,为了能准确的回答用户提出的问题,通常都需要预先构建知识图谱,从而根据该知识图谱确定出与用户提出的问题相匹配的答案,以输出给用户。目前,为了解决用户提出问题时存在的口语化或语义不清,以及低频的长尾等问题,通常采用三元组形式的知识图谱。在构建三元组形式的知识图谱时,需要从大量的语料中提取三元组数据,从而根据提取的三元组数据进行构建。
但是,在很多场景,例如消费金融场景中,用户提出的问题很多都是“为什么XXX”、“什么时候XXX”、“哪里XXX”或者“XXX在哪里”等,针对这一类特殊的问题,通常很难提取出三元组中的实体与关系,而且这类问题中的名词实体也比较少,如果按照现有技术中的方式,将无法构建出知识图谱。
本申请实施例中考虑到这一问题,可以从文本中提取多个实体以及属性信息,通过判断这些实体之间、实体与属性信息之间是否存在关联关系,从而根据判断出的关联关系构建知识图谱。具体的,可以通过预先设置预设实体库,在该预设实体库中设置标准业务实体、标准行为实体、标准事件实体和标准属性信息之间的关联关系。在对多个文本进行分析后,可以提取出多个文本中包括的业务实体、行为实体和事件实体,以及每个文本的属性信息,并将这些信息与预设实体库中的标准实体和标准属性信息进行匹配,以确定各实体之间,以及实体与属性信息之间是否存在关联关系,从而根据确定出的关联关系构建知识图谱,通过这种方式可以避免从文本中提取三元组数据,在文本中无法提取出三元组的实体与关系,而且文本中名词实体较少时,采用上述方式也可以构建出知识图谱。
本申请提供的知识图谱的构建方法,可以适用于问答场景,例如人机对话的场景中,尤其可以适用于经常询问原因、时间或者地点等问题的场景,或者用户提出的问题中包含的名词实体较少的场景,例如消费金融问答场景中。
在描述本申请的知识图谱的构建的方案之前,先根据图1来了解下本申请的示例运行环境。
如图1所示,在左侧示出了获取文本的各种主体,例如用户102或企业104等等,这些主体可以根据需要向系统平台106发送需要查询的问题或者文本,其中,系统平台106可以为服务器或者服务器集群,示例性的,这些主体可以以文字的形式向系统平台106发送文本,也可以以语音的形式向系统平台106发送语音,其中,若以语音的形式发送时,系统平台106还需要根据语音识别的方法,将接收到的语音转换为文本。当然,上述的两种主体仅仅是为了示例说明,实际上还有其他主体可以发送文本或者发起问答,例如系统平台106根据目前所处的环境,自动推送与目前环境相关的信息等等,在此不再一一举例。来自各个主体的文本通过网络被提供给系统平台106,该系统平台106用于执行知识图谱的构建任务,所述系统平台106包括:预设实体库和知识图谱构建模块。其中,预设实体库用于存储标准业务实体、标准行为实体、标准事件实体和标准属性信息,以及包括上述至少一个标准实体和标准属性信息之间的关联关系的多个预设规则链。示例性,在上述关联关系中,标准业务实体为根节点,标准行为实体、标准事件实体和标准属性信息均为标准业务实体的子节点。其中,标准业务实体用于表示业务类型,标准事件实体用于表示标准业务实体的操作状态,标准行为实体用于表示标准业务实体的操作行为,标准属性信息用于表示来自各个主体的文本所属的类型。其中,预设实体库中包括多个预设规则链,这些预设规则链为通过网络从各个数据源(例如110a-110c和/或112a-112b)处采集到的所有问答信息,通过提取这些问答信息中的标准业务实体、标准行为实体、标准事件实体以及各个文本的标准属性信息,并分析各标准实体之间以及标准实体和标准属性信息之间的关联关系后形成的。知识图谱构建模块,用于在获取到用户102或企业104发送的多个文本后,将对这些文本进行分析,获得多个业务实体、行为实体、事件实体以及各个文本对应的属性信息,从而将这些实体和属性信息与预先构建的预设实体库中的多个预设规则链进行匹配,从而确定出各个实体之间以及实体与属性信息之间的关联关系,以此构建出知识图谱。需要进行说明的是,若构建的知识图谱用于某个指定企业内,如用于金融领域某企业的人机问答场景中时,则数据源110a-110c可以是上述指定企业,由这些企业自身的服务器向系统平台106提供各个维度的数据以用于构建预设实体库。另外,为了使得构建的预设实体库更加准确,系统平台106还可以从其他数据源,例如112a-112b,采集与上述指定企业有关的各种数据。所述其他数据源112a-112b可以是该企业的官方网站、应用程序(Application,APP)等等。
应理解,在示例环境中的用户102、企业104以及数据源110a-110c、112a-112b的数目仅仅是示例性的,更多或更少的数量都属于本申请的保护范畴。并且,在上述示例运行场景中,所述用户102可以使用各种设备访问所述网络,例如个人计算机、服务器、平板、手机、掌上电脑(Personal Digital Assistant,PDA)、笔记本或其它任何具有联网功能的计算设备。而所述企业104、系统平台106、各种数据源110a-110c、112a-112b则可以利用具有更强大处理能力和更高安全性的一个服务器或服务器组来实现。而它们之间所使用的网络可以包括各种类型的有线和无线网络,例如但不局限于:互联网、局域网、无线保真(WirelessFidelity,WIFI)、无线局域网(Wireless Local Area Networks,WLAN)、蜂窝通信网络(通用分组无线服务技术(General Packet Radio Service,GPRS)、码分多址(Code DivisionMultiple Access,CDMA)、2G/3G/4G/5G蜂窝网络)、卫星通信网络等等。
在了解了本申请的示例运行环境后,结合图2对本申请的知识图谱的构建方法的方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图2为本申请实施例提供的一种知识图谱的构建方法的流程示意图,本申请实施例提供了一种知识图谱的构建方法,该方法可以由任意执行知识图谱的构建方法的装置来执行,该装置可以通过软件和/或硬件实现。本实施例中,该装置可以集成在如图1所示的系统平台106中。如图2所示,本申请实施例提供的知识图谱的构建方法包括如下步骤:
步骤201:对多个文本进行分析,得到多个实体以及每个文本对应的属性信息。
在本步骤中,该多个文本可以为预设时间段内用户提出的所有问题,如最近一个月或者最近半年内用户提出的所有问题,也可以是预设时间段内用户所提出的,且频率超过预设值的问题,其中,该预设值可以根据实际情况或者经验选取,例如可以设置为3等。
在人机交互的场景中,通常用户是通过语音的方式提出问题,则系统平台在接收到用户发送的语音信息后,需要将该语音信息转换为文本。
示例性的,上述文本可以为无法提取出三元组数据的文本,或者是包含名词实体很少的文本,例如:“如何提前还书”、“在哪里归还图书”,或者在金融领域中,该文本还可以为“如何提前还款”、“提前还款需要多少钱”或者“还款日查询”等等。
其中,实体包括业务实体、行为实体和事件实体。业务实体用于表示业务类型,事件实体用于表示业务实体的操作状态,行为实体用于表示业务实体的操作行为,属性信息用于表示文本所属的类型。
下面,对系统平台从多个文本中分别获取业务实体、行为实体、事件实体以及属性信息的方式进行详细说明。
其中,业务实体用于表示业务的类型,该业务实体例如可以为“还书”、“借书”等,在消费金融领域中,该业务实体例如可以为“还款”、“贷款”、“认证”等。
示例性的,可以通过如下方式对多个文本进行分析,以获取业务实体:分别对多个文本进行分词处理,得到多个目标分词,并分别确定多个目标分词与预设词之间的相似度,并将相似度大于第一预设值的目标分词确定为业务实体。
具体的,可以根据业务需求或者实际需要,在系统平台中设置多个预设词,例如“还书”、“借书”、“还款”、“贷款”或“认证”等。在获取到多个文本后,可以对每个文本进行分词处理,从而可以得到多个目标分词。在一种可能的实现方式中,可以直接将得到的目标分词与预设词进行匹配,若匹配成功,则将匹配成功的目标分词确定为业务实体。在另一种可能的实现方式中,由于同一个词语可能有多种不同的表述方式,如果直接匹配的话,可能丢失很多分词。如贷款和借款,虽然表述方式不同,但是表达的含义是相同的,假设预设词为贷款,如果直接匹配的话,则会将借款这一分词丢弃,从而造成业务提取的准确率不高。为了解决这一问题,在实际应用中,还可以分别计算每个目标分词与预设词之间的语义相似度,从而将语义相似度大于第一预设值的目标分词确定为业务实体。其中,第一预设值可以根据实际情况或者业务场景进行设置,如可以将第一预设值设置为70%或者75%等,对于第一预设值的具体取值,本申请实施例在此不做限制。另外,目标分词与预设词之间的语义相似度可以通过深度语义模型(Deep Structured Sematic models,DSSM)或卷积神经网络(Convolutional Neural Networks,CNN)确定。
在本实施方式中,通过确定多个目标分词与预设词之间的语义相似度,可以筛选出表述不同,但是语义相似的分词,将语义相似度大于第一预设值的目标分词确定为业务实体,从而可以将语义相似的分词均提取为业务实体,避免了某些词语由于表述与预设词不同而被丢弃的现象,从而不仅可以使得提取的业务实体更加全面,而且可以提高业务实体提取的准确率。
进一步的,为了减少确定目标分词的工作量,提升目标分词确定的效率,在实际应用中,在获取到多个文本之后,可以先对多个文本进行聚类,得到多个文本类,每个文本类中包括至少一个文本,然后分别对每个文本类中的每个文本进行分词处理,得到文本类对应的多个分词,再对文本类对应的多个分词进行词频统计,将频率大于第二预设值的分词确定为目标分词。
具体的,可以将每个文本映射为tfidf句向量或语义句向量的形式,并使用k均值等聚类算法进行聚类,从而得到多个文本类。举例来说,若多个文本分别为A文本、B文本、C文本、D文本和E文本、通过上述的分类方法,可以A文本和B文本分为一类,将C文本、D文本和E文本分为一类。分类之后,再针对各文本类中的每个文本分别进行分词处理,并统计每个分词出现的频率,将出现频率大于第二预设值的分词确定为目标分词。其中,第二预设值可以根据实际情况或者经验进行设置,例如可以设置为3或者5等,对于第二预设值的具体取值,本申请实施例在此不做限制。
在上述方式中,由于对于很多分词来说,其可能只出现在同一类业务中,如贷款或存款等,因此,可以将文本进行聚类,将同一类型的业务对应的文本聚为一类,例如,聚类后的文本为贷款类、存款类等。对于同一类文本中的每个文本进行分词处理后,在针对这一类文本中的分词进行词频统计时,由于仅统计各个分词在这一类文本中出现的频率,相比于在所有的文本中统计来说,可以提高词频统计的效率,进而提升了目标分词确定的效率。进一步的,将出现频率大于第二预设值的分词确定为目标分词,这样可以筛选掉偶尔出现或者出现频率较低的分词,由此可以使得确定出的业务实体更准确,并且根据该业务实体构建出的知识图谱的精确度更高。
进一步的,在实际的应用场景中,业务实体还可以包括一级业务实体和二级业务实体,其中,一级业务实体可以表示业务的类型,其提取或获取方式可以采用上述实施例中所述的方式,此处不再赘述。二级业务实体可以用于表示一级业务实体的操作方式,例如,若一级业务实体为“还书”,则二级业务实体可以为“提前还书”或者“延迟还书”,若一级业务实体为“还款”,则二级业务实体可以为“提前还款”或者“延迟还款”等。对于二级业务实体,可以针对前述实施例中的每个文本或者每个文本类中的文本,使用自然语言处理中的句法分析工具对每个文本进行句法分析,以句法分析结果为依据判断一级业务实体是否包含有修饰词,若有修饰词则提取出对应的二级业务实体。例如若文本为“可以申请提前还款吗”,使用句法分析可以得到“提前”为“还款”的修饰副词,则可以确定“还款”为一级业务实体,“提前还款”为二级业务实体。
示例性的,行为实体用于表示业务实体的操作行为,行为实体例如可以为“还书查询”、“取消借书”等,在消费金融领域中,该行为实体例如可以为“还款查询”、“取消贷款”,若业务实体存在二级业务实体时,该二级业务实体也可以存在对应的行为实体,例如,若二级业务实体为“提前还款”,则对应的行为实体可以为“取消提前还款”等。
在具体的实现过程中,可以通过如下方式对多个文本进行分析,以获取行为实体:将多个文本分别输入词性标注模型,确定每个文本中的候选动词,从候选动词中,筛选用于表示业务实体操作行为的目标动词,将目标动词和业务实体,确定为行为实体。
由于行为实体表示业务实体的操作行为,因此,该行为实体通常由业务实体以及修饰该业务实体的动词组成。基于此,可以采用自然语言处理中的词性标注模型对文本中的词性进行标注,从而进行辅助分析。具体的,在将多个文本分别输入词性标注模型后,可以确定出每个文本中所包含的候选动词,从而从这些候选动词中,筛选出用于表示业务实体的操作行为的目标动词,如“查询”、“取消”或“修改”等。最后,将筛选出的目标动词和业务实体,确定为行为实体,如“查询还款”、“取消贷款”。
其中,上述的词性标注模型可以为隐马尔可夫模型(Hidden Markov Model,HMM)或条件随机场(Conditional random fields,CRF)等,也可以为其他词性标注模型,只要能够实现词性标注即可,对于具体的词性标注模型,本申请实施例在此不做限制。
在上述方式中,可以直接通过词性标注模型确定文本中的候选动词,从而避免了人工确定候选动词的现象,提高了候选动词确定的效率,另外,在确定出所有的候选动词后,从所有的候选动词中筛选出表示业务实体的操作行为的目标动词,并将其他动词丢弃,从而可以使得确定出的目标动词较为全面,由此可以提高行为实体的准确性。
示例性的,事件实体用于表示业务实体的操作状态,事件实体例如可以为“无法还书”、“借书成功”等,在消费金融领域中,该事件实体例如可以为“无法还款”、“贷款失败”,若业务实体存在二级业务实体时,该二级业务实体也可以存在对应的事件实体,例如,若二级业务实体为“提前还款”,则对应的事件实体可以为“提前还款失败”等。
在具体的实现过程中,可以通过如下方式对多个文本进行分析,以获取事件实体:分别将多个文本分别输入事件抽取模型,确定多个事件,并判断多个事件中每个事件与业务实体和/或行为实体之间是否存在对应关系,将与事件存在对应关系的业务实体和/或行为实体,以及事件确定为事件实体。
由于事件实体表示与业务实体相关的某一事件的操作状态,基于此,可以采用自然语言处理中的事件抽取模型抽取文本中的事件,从而进行辅助分析。具体的,可以分别将多个文本输入事件抽取模型中,以确定出多个事件。应理解,同一个文本中可以不包含有任何一个事件,也可以包含有一个事件,还可以包含有至少两个事件。在确定出多个事件之后,针对每个事件,根据预设的事件与实体之间的对应关系,判断该事件是否与业务实体之间存在对应关系,或者判断该事件是否与行为实体之间存在对应关系,或者判断该事件是否同时与业务实体和行为实体之间存在对应关系。若确定出事件与某个业务实体和/或行为实体之间存在对应关系,则可以将存在对应关系的业务实体和/或行为实体以及该事件共同确定为事件实体。应理解,上述的对应关系可以为根据实际业务预先设定的,对于不同的企业,该对应关系可能不同,也可能相同。例如,对于金融消费类企业,可以预先设定“失败”或“成功”事件与“还款”、“贷款”、“验证”、“提前还款”、“提前贷款”和“验证”等业务实体之间存在对应关系。
举例来说,若文本为“为什么提前还款失败了”,则通过前述实施例中的方式,确定出一级业务实体为“还款”,二级业务实体为“提前还款”,再将该文本输入至事件抽取模型中,确定出“失败”事件,根据预设的实体和事件之间的对应关系,确定出“失败”事件与二级业务实体“提前还款”之间存在对应关系,则将二级业务实体“提前还款”和“失败”事件共同确定为事件实体,也即事件实体为“提前还款失败”。
其中,上述的事件抽取模型可以为对抗神经事件模型(AEM),也可以为其他事件抽取模型,只要能够实现事件的抽取即可,对于具体的事件抽取模型,本申请实施例在此不做限制。
在上述方式中,可以直接通过事件抽取模型确定文本中的事件,避免了人工确定事件的现象,提高了事件确定的效率,另外,在确定出所有的事件后,并不是直接将该事件确定为事件实体,而是需要进一步确定与事件存在对应关系的业务实体和/或行为实体,以此确定事件实体,由此可以提高事件实体的准确性。
进一步的,每个文本对应的属性信息用于表示该文本所属的类型,其中,属性信息包括原因类、方法类、时间类或地点类等等。例如,若文本为“为什么我还书失败了”,则该文本对应的属性信息为原因类,若文本为“如何提前还款”,则该文本对应的属性信息为方法类,若文本为“还款日查询”,则该文本对应的属性信息为时间类等等。
示例性的,在确定每个文本对应的属性信息时,可以通过语义分析或者将文本输入至文本分类模型中进行确定。其中,文本分类模型可以是NB模型、随机森林模型(RandomForest,RF)、SVM分类模型或KNN分类模型等,当然,也可以是其他分类模型,只要能确定出文本对应的属性信息即可,对于文本分类模型的具体形式,本申请实施例在此不做限制。
在本实施例中,可以将文本输入至文本分类模型中,可以直接获取到各个文本所属的类型,也即各文本所对应的属性信息,避免了人工确定属性信息的现象,从而可以提高文本属性信息确定的效率。
步骤202:将多个实体以及属性信息与预设实体库进行匹配,确定各实体之间的关联关系以及属性信息与各实体之间的关联关系。
其中,预设实体库中包括标准业务实体、标准行为实体、标准事件实体和标准属性信息,标准行为实体、标准事件实体和标准属性信息均为标准业务实体的子节点。
在本步骤中,系统平台可以预先收集大量的与指定企业相关的数据或者用户针对该企业中的业务提出的问题,并对这些问题进行分析,从而解析出这些问题中包含的标准业务实体、标准行为实体、标准事件实体和标准属性信息。其中,解析标准业务实体、标准行为实体、标准事件实体和标准属性信息的过程,可以采用前述各实施例中的方式,也可以是用户人为进行标注的方式。
在确定出标准业务实体、标准行为实体、标准事件实体和标准属性信息后,可以根据该指定企业内的实际业务,设置这些标准实体之间、标准实体与标准属性信息之间的关联关系,并将标准业务实体、标准行为实体、标准事件实体和标准属性信息,以及设置的这些标准实体之间,以及标准实体与标准属性信息之间的关联关系存储在预设实体库中。
其中,标准业务实体为根节点,标准行为实体、标准事件实体和标准属性信息均为标准业务实体的子节点。
系统平台在对获取到的多个文本进行分析,从这些文本中获取到多个实体以及属性信息后,会将这些实体和属性信息与上述的预设实体库进行匹配,从而确定出各个实体之间是否存在关联关系,以及各实体与各属性信息之间是否存在关联关系。
在一种可能的实现方式中,上述的预设实体库中包括多个预设规则链,每个预设规则链中包括至少两个标准实体以及至少两个标准实体中各标准实体之间的关联关系,或者预设规则链中包括至少一个标准实体和标准属性信息以及至少一个标准实体和标准属性信息之间的关联关系,则系统平台在将多个实体以及属性信息与预设实体库进行匹配,以确定各实体之间的关联关系,以及各实体与各属性信息之间的关联关系时,针对每个实体,将与每个预设规则链中包括的标准实体进行匹配,以从多个预设规则链中确定包含实体的第一目标预设规则链。另外,针对得到的多个属性信息中的每个属性信息,可以与包括有标准属性信息的预设规则链进行匹配,以从多个预设规则链中确定包含属性信息的第二目标预设规则链,从而可以根据第一目标预设规则链中包括的各标准实体之间的关联关系,以及第二目标预设规则链中包括的至少一个标准实体和标准属性信息之间的关联关系,确定各实体之间的关联关系以及属性信息与各实体之间的关联关系。
具体的,图3为一种预设实体库的示意图,如图3所示,该预设实体库中包含标准业务实体A、B、标准行为实体A1、A3和B1、标准事件实体A2、A4和B2、标准属性信息C、D、E、F、G和H。预设实体库中包括多个预设规则链,例如:A→A3→F,A→A1→C,B→B1→E,A→B等等,其中,→表示两个标准实体之间或者标准实体与标准属性信息之间存在关联关系,而且该关联关系为单向关系,其中,单向关系表示标准实体之间为单向可达,如A→B表示标准业务实体A到标准业务实体B可达,而标准业务实体B到标准业务实体A不可达。举例来说,若标准业务实体A为还款,标准业务实体B为扣款,应理解,通常只有还款之后才会发生扣款的操作,而不会先扣款再还款,因此,还款和扣款之间的关联关系即为单向关系,而且是还款→扣款的关系。
另外,预设实体库中包括多个预设规则链,每个预设规则链可以为用户预先根据企业的实际业务进行设置的,如设置哪些标准实体之间存在关联关系,哪些标准实体和标准属性信息之间存在关联关系等等。如上述的例子,若标准业务实体A和B分别为还款和扣款,标准行为实体A1、A3和B1分别为代还款、提前还款和多次扣款,标准事件实体A2、A4和B2分别为无法还款、还款失败和提前还款失败,标准属性信息C、D、E、F、G和H表示方法、金额、原因、日期、时间和利息。根据这些标准实体和标准属性信息,用户基于企业的实际业务,设置很多预设规则链,如设置预设规则链A→A3→F,表示还款→提前还款→日期,设置预设规则链A→A1→C表示还款→代还款→方法,设置预设规则链B→B1→E表示扣款→多次扣款→原因,设置预设规则链A→B表示还款→扣款等等。在从多个文本中获取到多个实体后,针对每个实体,将与多个预设规则链中包括的标准实体进行匹配,以确定包含该实体的第一目标预设规则链。例如,若获取到的实体包括业务实体A和B、行为实体A1、事件实体A2以及属性信息C和D,则将这些实体和图3中的预设规则链中的标准实体进行匹配,可以得到第一目标预设规则链:A→A1→C、A→A2→D、A→B以及B→A2→D,这些第一目标预设规则链中包括有上述至少一个实体。
继上述例子,若对文本进行分析后得到的业务实体A和B分别为还款和扣款,行为实体A1为代还款、事件实体A2为无法还款、属性信息C和D为方法和金额。将这些实体与上述的预设规则链进行匹配,可以得到包含这些实体的第一目标预设规则链:还款→代还款→方法、还款→无法还款→金额、还款→扣款、扣款→无法还款→金额。
另外,针对每个属性信息,将与包括有标准属性信息的预设规则链进行匹配,以确定包含该属性信息的第二目标预设规则链。例如,对于上述例子中的属性信息C和D,则将这些属性信息和图3中的预设规则链中的标准属性信息进行匹配,可以得到第二目标预设规则链:A->A1->C、A->A2->D、B->A2->D以及B->B1->D,这些第二目标预设规则链中包括有上述至少一个属性信息。
继上述例子,若对文本进行分析后得到的属性信息C和D为方法和金额。将这些属性信息与上述的预设规则链进行匹配,可以得到包含这些属性信息的第二目标预设规则链:还款→代还款→方法、还款→无法还款→金额、扣款→无法还款→金额、扣款→多次扣款→金额。
在得到多个第一目标预设规则链和第二目标规则链后,可以根据第一目标预设规则链中包括的各标准实体之间的关联关系,以及第二目标预设规则链中包括的至少一个标准实体和标准属性信息之间的关联关系,确定从文本中获取的各实体之间的关联关系以及属性信息与各实体之间的关联关系,例如,根据前述的第一目标预设规则链和第二目标预设规则链,可以确定出业务实体A和B之间存在关联关系,业务实体A、行为实体A1和属性信息C之间存在关联关系,业务实体A、事件实体A2和属性信息D之间存在关联关系,业务实体B、事件实体A2和属性信息D之间存在关联关系。
继上述的例子,可以确定出还款和扣款之间存在关联关系,该关联关系表示还款后会执行扣款的操作,还款、代还款和方法之间存在关联关系,该关联关系表示还款可以以代还款的方式进行且代还款有具体的方法,还款、无法还款和金额之间存在关联关系,该关联关系表示还款可能会存在无法还款的情况且有可能是因为金额的原因,扣款、多次扣款和金额之间存在关联关系,该关联关系表示扣款操作可能会存在多次扣款的情况且有可能是因为金额的原因引起的。
在上述方式中,通过预先在预设实体库中设置多个预设规则链,并从多个预设规则链中确定包含获取到的实体的第一目标预设规则链以及包含属性信息的第二目标预设规则链,以确定各实体之间的关联关系,以及属性信息与各实体之间的关联关系,该方式避免了需要根据三元组数据才能确定各实体之间以及实体与属性信息之间的关联关系的现象,从而可以在无法确定出三元组数据时,也能准确的确定出各个实体以及实体与属性信息之间的关联关系。
步骤203:获取与属性信息对应的属性值。
进一步的,由于在人机交互的场景中,通常用户在提出问题后,机器需要根据该问题,基于知识图谱确定并输出相应的答案。因此,为了能匹配出与用户提出的问题相对应的答案,还需要在知识图谱中添加答案,也即属性信息对应的属性值。
在一种可能的实现方式中,该属性值可以是用户根据企业的实际业务,以及某一文本所对应的属性信息,确定出该文本的答案,并将该答案确定为属性信息对应的属性值,从而将属性信息对应的属性值包含在操作指令中,通过终端设备发送给系统平台。
图4为操作指令的界面示意图,如图4所示,假设文本为“还款日可以修改几次”,用户根据企业的实际业务需求,可以通过终端设备输入答案,例如输入属性值“3次”,并点击“确定”控件,以向系统平台发送包含属性值的操作指令。另外,系统平台还可以根据前述实施例中的方式,确定出该文本对应的属性信息为方法类,则系统平台可以建立属性信息“方法类”和属性值“3次”之间的对应关系,以便根据该对应关系,在知识图谱中添加属性信息对应的属性值。
在另一种可能的实现方式中,系统平台在建立预设实体库时,还可以是通过收集大量的与指定企业相关的问答对,这样,系统平台在对这些问答对进行分析后,还可以在预设实体库中的预设规则链中设置答案,也即属性值。系统平台在将多个实体以及属性信息与预设实体库进行匹配时,可以同时匹配到与属性信息对应的属性值。
步骤204:根据各实体之间的关联关系、属性信息与各实体之间的关联关系和属性值,构建知识图谱。
在本步骤中,在确定出各个实体之间的关联关系、各实体与属性信息之间的关联关系,以及与属性信息对应的属性值后,将可以根据这些关联关系以及属性值,构建知识图谱。
继上述例子,图5为知识图谱的一结构示意图,如图5所示在确定出业务实体A和B之间存在关联关系,业务实体A、行为实体A1和属性信息C之间存在关联关系,业务实体A、事件实体A2和属性信息D之间存在关联关系,业务实体B、事件实体A2和属性信息D之间存在关联关系,且确定出属性信息C对应的属性值为C1、属性信息D对应的属性值为D1,将可以确定出如图5所示的知识图谱。
进一步的,在某些场景中,用户提出的问题可能是带有约束条件的,因此,为了能够向用户输出准确的答案,确定该答案所使用的知识图谱中也需要有相应的约束条件。示例性的,针对多个文本中的每个文本,可以判断该文本中是否包括多个业务实体和/或多个事件,若文本中包括多个业务实体和/或多个事件,则根据多个业务实体和/或多个事件,确定实体的约束条件,并根据该实体的约束条件,对构建的知识图谱进行更新。
具体的,针对某一文本,在一种实现方式中,通过前述实施例中的方式确定出业务实体后,还需要判断该文本中是否包括多个业务实体。应理解,在判断该文本中的约束条件时,可以判断文本中是否包括多个一级业务实体,其中,这多个一级业务实体可以全部相同,也可以部分相同,还可以全部不同。在另一种实现方式中,还可以在文本输入事件抽取模型中抽取事件时,判断该文本中是否包括多个事件,其中,多个事件可以全部相同,也可以部分相同,还可以全部不同。在又一种实现方式中,可以判断文本中是否同时包括多个一级业务实体和多个事件。若文本中包括多个业务实体和/或多个事件,则可以根据分类模型或者文本分析的方法,根据多个业务实体和/或多个事件,确定实体的约束条件,从而将该约束条件添加到知识图谱中。
举例来说,假设文本为“我的银行卡有钱,为什么还款失败”,通过上述实施例中的业务实体的确定方式,可以确定出该文本中包括两个一级业务实体“银行卡”和“还款”,并通过语义分析,可以确定出“银行卡有钱”为“还款失败”的约束条件,从而可以确定约束条件“银行卡有钱”与事件实体“还款失败”之间的关联关系,从而根据该关联关系,将约束条件“银行卡有钱”添加到知识图谱中。或者,也可以是在构建知识图谱时,通过文本分类模型确定出文本对应的属性信息为原因类,而且通过接收用户输入的该属性信息对应的属性值或者通过预设实体库匹配出的属性值,从而根据约束条件与事件实体之间的关联关系、属性信息以及对应的属性值,进行知识图谱的构建。
在该方式中,若文本中包括多个业务实体和/或多个事件时,将根据多个业务实体和/或多个事件,确定实体的约束条件,从而将约束条件添加到知识图谱中,从而使得知识图谱内容更加全面和完整,另外,该知识图谱可以应用于具有约束条件的场景中,提高了知识图谱应用的广泛性。
本申请实施例提供的知识图谱的构建方法,通过预先设置预设实体库,在该预设实体库中设置标准业务实体、标准行为实体、标准事件实体和标准属性信息之间的关联关系。在对多个文本进行分析,得到多个实体以及每个文本对应的属性信息后,通过将多个实体以及属性信息与预设实体库进行匹配,以确定各实体之间的关联关系以及属性信息与各实体之间的关联关系,在获取到与属性信息对应的属性值后,将根据各实体之间的关联关系、属性信息与各实体之间的关联关系和属性值,构建知识图谱。通过预先设置预设实体库,该预设实体库中包括各个标准实体之间的关联关系,通过采用确定出的实体和预设实体库中各个标准实体之间的关联关系进行匹配的方式构建知识图谱,可以避免必须从文本中提取三元组数据才能构建知识图谱的现象,当文本中无法提取出三元组的实体与关系,而且文本中名词实体较少时,采用上述方式也可以构建出知识图谱。
下面,以金融消费场景,具体说明本申请提供的知识图谱的构建方式。
图6为本申请实施例提供的知识图谱构建的示意图,如图6所示,可以采集金融领域内与指定企业相关的、用户提出过的样本问题,其中,采集的样本问题越多,预设实体库中内容就越丰富且全面。举例来说,采集的样本问题例如可以包括“如何还款”、“还款是否成功”、“可以分期还款吗”、“能否延期还款”等等,这些样本问题仅为举例,在实际应用中,可以通过该企业相关的网站或者APP中采集用户之前提出过的样本问题。
在采集到这些样本问题后,可以基于采集的样本问题,分析得到样本问题中的一级标准业务实体、二级标准业务实体、标准行为实体以及标准事件实体,其中,从样本问题中获取这些标准实体的方式,可以参照图2所示实施例中获取一级业务实体、二级业务实体、行为实体以及事件实体的方式,此处不再赘述。
例如,提取出的一级标准业务实体为“还款”,二级标准业务实体为“提前还款”,“延迟还款”或“分期还款”。标准行为实体表示标准业务实体可以具有的操作,标准事件实体表示对标准业务实体的某一状况的描述。对于每一种标准业务实体来说,它都可以具有标准行为实体和标准事件实体。例如一级标准业务实体“还款”可以具有标准行为实体“还款查询”和标准事件实体“无法还款”。类似地,二级标准业务实体“提前还款”具有标准行为实体“取消提前还款”和标准事件实体“提前还款失败”。对于标准行为实体来说,它同样可以具有标准事件实体,如“还款查询没有反应”。
如图6所示,在提取出一级标准业务实体、二级标准业务实体、标准行为实体以及标准事件实体后,将根据该企业具体的业务,设计这些标准实体之间的关联关系,其中,可以通过人为操作的方式定义这些标准实体之间的关联关系。示例性的,在消费金融场景中,用户提出的问题类型非常复杂,通常会涉及到多个实体。若按照实际业务需求,一级标准业务实体与一级标准业务实体之间符合业务流程,则将为其定义下一流程(next_process)的关联关系。例如一级标准业务实体“贷款”与一级标准业务实体“还款”之间的关系为next_process。
另外,可以将一级标准业务实体与对应的二级标准业务实体之间的关联关系定义为包含关系(has_child),其中,包含关系(has_child)表示二级标准业务实体为一级业务实体的子业务。例如“还款”拥有“提前还款”,“延迟还款”,“分期还款”三种子类型,也即“还款”和“提前还款”、“延迟还款”以及“分期还款”之间的关联关系为包含关系has_child。
可以将标准业务实体和对应的标准行为实体之间的关系定义为操作关系(has_operation),其中,标准业务实体和标准行为实体之间存在操作关系(has_operation),表示用户可以对该标准业务实体执行与该标准行为实体对应的操作,例如“还款”和“还款查询”之间具有关联关系has_operation,“提前还款”和“取消提前还款”之间具有关联关系has_operation。在本申请中,has_operation为单向关系。其中,单向关系表示标准业务实体到标准行为实体可达,而标准行为实体到标准业务实体不可达,例如,“提前还款”和“取消提前还款”之间为单向关系,表示在有提前还款这一标准业务实体的前提下,才能有取消提前还款的操作,而不会出现先有取消提前还款这一操作,再有提前还款这一业务的情况。
可以将标准业务实体和标准事件实体之间、以及标准行为实体和标准事件实体之间的关系定义为事件关系(has_event),其中,标准业务实体和标准事件实体之间存在事件关系(has_event)表示该标准事件实体可以用于表示该标准业务实体的某种操作状态,标准行为实体和标准事件实体之间存在事件关系(has_event)表示该标准事件实体可以用于表示该标准行为实体的某种操作状态。例如“贷款”和“贷款被拒绝”之间具有关联关系has_event,“提前还款”和“提前还款失败”之间具有关联关系has_event,“取消提前还款”和“无法取消提前还款”之间具有关联关系has_event。在本申请中,has_event也为单向关系。同样的,标准业务实体和标准事件实体之间的单向关系,表示标准业务实体到标准事件实体可达,而标准事件实体到标准业务实体不可达,例如,“提前还款”和“提前还款失败”之间为单向关系,表示在有提前还款这一标准业务实体的前提下,才会出现提前还款失败的状态,而不会出现先有提前还款失败的状态,再有提前还款这一业务的情况。标准行为实体和标准事件实体之间的单向关系,表示标准行为实体到标准事件实体可达,而标准事件实体到标准行为实体不可达,例如,“取消提前还款”和“无法取消提前还款”之间为单向关系,表示在进行取消提前还款这一操作行为的前提下,才会出现无法取消提前还款的状态,而不会出现先有无法取消提前还款的状态,再有取消提前还款这一操作的情况。
可以将标准事件实体与标准事件实体之间的关联关系定义为下一事件(next_event)关系,其中,标准事件实体1与标准事件实体2之间存在事件关系(next_event),表示标准事件实体2可以用于表示标准事件实体1的状态。例如“从来没有逾期过”和“不能贷款”之间定义为next_event关系。因为在消费金融场景中经常存在类似“我从来没有逾期过为什么不能贷款”这类涉及两种事件的问题。但这个关系不一定是单向的,用户提出的问题中可能会存在类似“为什么银行卡异常还能扣款成功”和“扣款成功为什么提示银行卡异常”这样的问题,因此,系统平台会从这类问题中提取出两个标准事件实体,从而将这两个标准事件实体之间的关系设置为next_event。
另外,在实际应用中,也可能存在意义相同,但是不同说法或者不同表述方式的实体,对于这类实体,通常不同的表述方式之间可以定义为相似(similar)关系,如“贷款”和“借款”两个实体之间的关系为similar。相似关系similar为双向关系。其中,双向关系表示两个实体之间互相可达。如“贷款”和“借款”之间的关联关系为双向关系,表示贷款可以称为借款,借款也可以称为贷款。
除了以上几种关系,本申请还针对具体的应用场景,针对用户提出的问题中的“会不会”,“可不可以”,“支不支持”,“能不能”类型问题设计了一个是/否(yes/no)的关系。例如,“还款”与“代还款”之间的关系为no,这表示在实际的业务场景中不支持替别人还款这种行为。
进一步的,继续参照图6所示,在消费金融的问答场景中,用户通常会问一些涉及到原因、办法、时间、地点等的特殊问题。比如“提前还款的利息怎么算”,“逾期还款的后果”等类似问题。针对特殊问句,比如“怎么回事”,“为什么”类型的问题,可以定义这类问题的属性信息为“原因类”。针对“怎么办”等类型的问题,可以定义这类问题的属性信息为“方法类”。针对“什么时候”,“多久”等类型的问题,可以定义这类问题的属性信息为“时间类”。针对“在哪里”等类型的问题,可以定义这类问题的属性信息为“位置类”或者“地点类”。
在确定出属性信息后,可以针对该属性信息,根据企业的实际业务,设置对应的属性值,属性值包括不带约束条件的属性值和带约束条件的属性值。
具体的,在真实的问答场景中,用户的问题并不都是只涉及到某一个实体,还可能会涉及到多种实体。在消费金融场景中,经常会出现带约束的问题。例如“我银行卡里有钱为什么不自动扣钱”或者“都已经过了好几天了都不自动扣款是怎么回事”这类带约束的问题。虽然两个问题问的都是“不自动扣钱”的原因,但用户想看到的回答却不一定相同。因此如果使用传统的一对一的属性信息与属性值的关系,并不能满足要求。因此,在本申请中,可以将属性值设计为带约束的复杂类型。如表1所示:以“不自动扣款”为例,可以为“不自动扣款”这个标准事件实体的原因类属性信息设置如下的属性值。
表1
产品 | 约束条件 | 答案 |
具体答案1 | ||
产品1 | 银行卡有钱 | 具体答案2 |
产品2 | 过了扣款时间 | 具体答案3 |
如表1所示,若没有任何约束条件,如对于“为什么不自动扣款”这一问题,可以设置该问题的答案为具体答案1,对于产品1。若存在约束条件“银行卡有钱”,也即对于“我银行卡里有钱为什么不自动扣钱”这一问题,可以设置该问题的答案为具体答案2。若存在约束条件“过了扣款时间”,也即对于“都已经过了好几天了都不自动扣款是怎么回事”这一问题,可以设置该问题的答案为具体答案3。
进一步的,系统平台可以根据提取出的一级标准业务实体、二级标准业务实体、标准行为实体以及标准事件实体、以及各个标准实体之间的关联关系、各个样本问题的属性信息、约束条件以及设置的属性值,构建预设实体库。其中,该预设实体库中包括多个预设规则链,每条预设规则链中均包括有至少一个上述的标准实体、属性信息、属性值以及前述的关联关系。例如,某个预设规则链中包括“贷款”和“贷款被拒绝”、以及它们之间的关联关系has_event,或者也可以是包括“提前还款”和“取消提前还款”、以及它们之间的关联关系has_operation。
继续参照图6所示,可以预先构建好上述预设实体库。在后续构建知识图谱时,可以基于采集的用户问题以及预先设置的预设实体库,构建知识图谱。
具体的,系统平台可以采集用户提出的问题,并将这些问题转换为文本,通过对这些文本进行分析,采用图2所示实施例中的方式,可以提取出一级业务实体、二级业务实体、行为实体、事件实体和属性信息。另外,还可以根据前述实施例中的方式,对文本中的约束条件进行识别,具体的识别方式可以参照前述实施例中的方式,此处不再赘述。
在提取出一级业务实体、二级业务实体、行为实体、事件实体和属性信息后,可以将这些信息与前面构建的预设实体库进行匹配,从而判断这些行为实体与属性信息之间是否存在关联关系,并确定属性信息对应的属性值,以此根据该关联关系和属性值,构建知识图谱。
需要进行说明的是,在上述的一级业务实体、二级业务实体、行为实体、事件实体和属性信息,以及约束条件的提取过程中,会同时进行相似表述的提取。提取完成之后,为了提高准确性,针对提取的上述各实体、约束条件以及属性信息还可以进行人工审核。在人工审核部分需要关注实体名称的正确性,实体间关系的正确性,实体与属性信息的对应关系的正确性。其中实体名称正确性是指此实体是否属于本业务场景,例如有的用户会把“贷款”说成“货款”,这时需要人工将其改正。实体间关系的正确性指的是两个实体之间的关系是否符合预先设置的业务流程。例如“人脸不匹配”这一事件实体应该是属于“认证”的事件实体,而不应该属于“还款”的事件实体。实体与属性信息的对应关系指的是需要判断此属性信息是不是属于对应的实体,例如“贷款”,“分期还款”,“提前还款”都可以拥有“利息”这一属性信息,但“扣款”不应该具有“利息”这一属性信息。约束条件审核指的是评估类似“银行卡有钱”为“不自动扣款”的约束条件,还是“不自动扣款”为“银行卡有钱”的约束条件等等。
在审核完成后,采用图数据neo4j,将以上的所提取的一级业务实体、二级业务实体、行为实体、事件实体、约束条件和属性信息等按照消费金融问答场景知识图谱设计部分的内容构建消费金融问答场景的图数据库,以供问答系统调用。
图7为知识图谱的另一结构示意图,如图7所示,假设提取的一级业务实体包括“还款”、“贷款”和“扣款”;二级业务实体包括“提前还款”、“提前结清”、“还款方式1”、“还款方式2”和“代还款”;事件实体包括“多次扣款”、“不自动扣款”、“扣款失败”、“已申请提前还款”、“提前还款失败”和“银行卡里有钱”;行为实体包括“自定义扣款”、“提前还款申请取消”和“提前还款咨询”,另外,属性信息包括“方法”、“原因”、“日期”、“利息”、“金额”、“手续费”、“时间”。
由于预设实体库中包括这些实体、属性信息以及与属性信息对应的属性值,因此,在确定出上述的实体和属性信息后,可以将这些实体和属性信息与预设实体库进行匹配,从而从预设实体库中包含的预设规则链中确定出包含这些实体和属性信息的多个目标预设规则链。例如,确定出目标预设规则链1为:还款→提前还款→提前还款失败→方法/原因;目标预设规则链2为:还款→扣款;目标预设规则链3为:扣款→不自动扣款→原因等等。在匹配出这些目标预设规则链后,将可以确定出各个实体之间、或者实体与属性信息之间是否存在关联关系,若存在关联关系,还可以进一步的确定出关联关系的类型。
接着上面的例子,根据上述的目标预设规则链1,可以确定出还款和提前还款之间存在包含关系(has_child),提前还款和提前还款失败之间存在事件关系(has_event),提前还款失败对应的属性信息包括方法类和原因类。根据上述的目标预设规则链2,可以确定出还款和扣款之间存在下一流程(next_process)关系。根据上述的目标预设规则链3,可以确定出扣款和不自动扣款之间存在事件关系(has_event),不自动扣款对应的属性信息包括原因类。
在确定出各个实体之间的关联关系以及实体和属性信息之间的关联关系后,将存在关联关系的实体之间、以及存在关联关系的实体和属性信息之间构建有向边,从而可以构建出如图7所示的知识图谱。
另外,还可以在预设实体库中获取与属性信息对应的属性值,或者接收用户通过终端设备输入的属性信息对应的属性值,例如,获取提前还款失败的原因对应的属性值,或者提前还款失败的解决方法,将该解决方法确定为提前还款失败的方法对应的属性值,从而将获取到的属性值添加到知识图谱中。
图8为本申请实施例提供的一种问答方法的流程示意图,本申请实施例提供了一种问答方法,该方法可以由任意执行问答方法的装置来执行,该装置可以通过软件和/或硬件实现。本实施例中,该装置可以集成在电子设备中,其中,该电子设备例如可以为智能客服系统中的电子设备。如图8所示,本申请实施例提供的问答方法包括如下步骤:
步骤801:对待处理文本进行分析,得到至少一个待匹配实体以及与待处理文本对应的待匹配属性信息。
在本步骤中,通过对待处理文本进行分析,从而可以得到待处理文本中所包括的至少一个待匹配实体以及待处理文本对应的待匹配属性信息,其中,待匹配实体包括待匹配行为实体和/或待匹配事件实体、以及待匹配业务实体,待匹配业务实体包括一级待匹配业务实体和/或二级待匹配业务实体。
在对待处理文件进行分析之前,可以先获取待处理文本。例如:用户在使用智能客服系统进行问题咨询时,一般会通过智能客户系统中的电子设备的人工界面利用语音或触摸的方式输入待咨询的问题,对应的电子设备接收上述待咨询的问题,也即可以获取待处理语音。电子设备在获取到待处理语音后,将通过语音识别方法,可以将该待处理语音转换为待处理文本。当然,也可以直接获取待处理文本,本实施例中不限定待处理文本的具体获取方式。
步骤802:根据至少一个待匹配实体和待匹配属性信息,基于知识图谱确定待处理文本对应的答案。
在本步骤中,在电子设备中存储的知识图谱可以根据前述任一实施例中所述的方式构建得到,但不限于上述实施例得到该知识图谱。示例性的,该知识图谱包括节点和边,上述节点包括多个实体、属性信息以及属性信息对应的属性值,上述边表示各实体之间的关联关系、属性信息与各实体之间的关联关系以及属性信息与属性值之间的关联关系。
本实施例中,上述实体包括业务实体、行为实体和事件实体,该业务实体用于表示业务类型,事件实体用于表示业务实体的操作状态,行为实体用于表示业务实体的操作行为,属性信息用于表示文本所属的类型。
示例性的,电子设备在确定出待处理文本中的至少一个待匹配实体和待匹配属性信息后,会在知识图谱中匹配出与至少一个待匹配实体对应的至少一个目标实体、与待匹配属性信息对应的目标属性信息以及目标实体和目标属性信息之间的关联关系,并根据至少一个目标实体、目标属性信息以及目标实体和目标属性信息之间的关联关系,确定待匹配属性信息对应的属性值,从而将该属性值确定为待处理文本的答案。
具体的,由于知识图谱的节点包括有多个实体、属性信息和属性信息对应的属性值,知识图谱的边表示各实体之间的关联关系、属性信息与各实体之间的关联关系以及属性信息与属性值之间的关联关系。因此,电子设备可以通过筛选或者过滤等方式,将获取到的至少一个待匹配实体和待匹配属性信息与知识图谱中的节点和边进行匹配,从而可以匹配出与至少一个待匹配实体对应的至少一个目标实体、与待匹配属性信息对应的目标属性信息以及目标实体和目标属性信息之间的关联关系。
另外,由于知识图谱的节点中还包括有属性信息对应的属性值,因此,在匹配出与待匹配属性信息对应的目标属性信息后,根据该目标属性信息,基于匹配出的至少一个目标实体、目标属性信息以及目标实体和目标属性信息之间的关联关系,从而可以从知识图谱中匹配出与目标属性信息对应的属性值。
比如,若电子设备获取到的待处理文本为“为什么多次扣款”,通过该待处理文本,可以确定出其中包括有待匹配业务实体“扣款”以及待匹配事件实体“多次扣款”,另外,可以确定出该待处理文本对应的待匹配属性信息为“原因”。因此,将这些待匹配实体和待匹配属性信息,在如图7所示的知识图谱中进行筛选和匹配,从而可以在图7所示的知识图谱中匹配出目标业务实体“扣款”以及目标事件实体“多次扣款”,可以匹配出目标属性信息“原因”。另外,基于上述知识图谱确定出,目标业务实体“扣款”以及目标事件实体“多次扣款”之间存在关联关系,具体为存在事件关系,目标事件实体“多次扣款”与目标属性信息“原因”之间存在关联关系。
应理解,在图7所示的知识图谱中还包括有与目标属性信息“原因”对应的属性值,因此,在基于上述关联关系的基础上,可以从知识图谱中确定出与目标属性信息“原因”对应的属性值,其中,该属性值也即为待匹配属性信息“原因”对应的属性值。该属性值即为“为什么多次扣款”的答案。
再比如,若电子设备根据接收到的语音信息转换后的待处理文本为“还款时间是什么时候”,通过该待处理文本,可以确定出其中包括有待匹配业务实体“还款”,另外,可以确定出该待处理文本对应的待匹配属性信息为“时间”。因此,将待匹配业务实体和待匹配属性信息,在如图7所示的知识图谱中进行筛选和匹配,从而可以在图7所示的知识图谱中匹配出目标业务实体“还款”以及目标属性信息“时间”。另外,基于上述知识图谱确定出,目标业务实体“还款”与目标属性信息“时间”之间存在关联关系。
应理解,在图7所示的知识图谱中还包括有与目标属性信息“时间”对应的属性值,因此,在基于上述关联关系的基础上,可以从知识图谱中确定出与目标属性信息“时间”对应的属性值,其中,该属性值也即为待匹配属性信息“时间”对应的属性值。该属性值为“还款时间是什么时候”的答案。
在本实施例中,通过在知识图谱中匹配出与至少一个待匹配实体对应的至少一个目标实体、与待匹配属性信息对应的目标属性信息以及目标实体和目标属性信息之间的关联关系,从而根据确定出的关联关系,确定待匹配属性信息对应的属性值,并基于该属性值确定待处理文本对应的答案。由于知识图谱中包括了多个实体、属性信息以及属性值,因此,只需要将待处理文本中包括的待匹配实体和待匹配属性信息直接与预先构建的知识图中的实体和属性信息进行匹配,即可得到待处理文本的答案,避免了将待处理文本与文本库进行比较来获取待处理文本对应的答案的现象,从而能够提高问题的咨询效率。
步骤803:输出待处理文本对应的答案。
在本步骤中,智能客服系统中的电子设备可通过其人工界面显示该问题的答案或者通过播放器语音播放问题的答案,在此不做限定。
本申请实施例提供的问答方法,在接收到待回答的问题后,通过将问题所对应的待处理文本进行分析,以得到该待处理文本中包括的待匹配实体以及待匹配属性信息,从而基于已经构建的知识图谱获取该问题的答案,并输出该答案。由于知识图谱中将实体之间以及实体与属性信息之间的关系进行有效关联,因此,通过该知识图谱匹配问题的答案时,只需要在该知识图谱中匹配待处理文本中包括的待匹配实体和待匹配属性信息,即可得到该问题的答案,从而能够提高问题的咨询效率。此外,即便待处理文本中无法提取出三元组的实体与关系,而且文本中名词实体较少时,采用本实施例结构的知识图谱及方法也可以得到准确的答案。当然,在待处理文本可以提取出三元组的实体和关系的情形,也可以采用本实施例方法提取待处理文本的待匹配实体以及与待处理文本对应的待匹配属性信息,并利用本实施例的知识图谱来查询得到准确答案。
图9为本申请实施例提供的一种知识图谱的构建装置90的结构示意图,示例的,请参见图9所示,该知识图谱的构建装置90可以包括:
分析模块901,用于对多个文本进行分析,得到多个实体以及所述每个文本对应的属性信息,所述实体包括业务实体、行为实体和事件实体,所述业务实体用于表示业务类型,所述事件实体用于表示所述业务实体的操作状态,所述行为实体用于表示业务实体的操作行为,所述属性信息用于表示所述文本所属的类型;
确定模块902,用于将所述多个实体以及所述属性信息与预设实体库进行匹配,确定各实体之间的关联关系以及所述属性信息与各所述实体之间的关联关系;所述预设实体库中包括标准业务实体、标准行为实体、标准事件实体和标准属性信息,所述标准行为实体、所述标准事件实体和所述标准属性信息均为所述标准业务实体的子节点;
获取模块903,还用于获取与所述属性信息对应的属性值;
构建模块904,还用于根据各实体之间的关联关系、所述属性信息与各所述实体之间的关联关系和所述属性值,构建知识图谱。
可选的,所述预设实体库中包括多个预设规则链,每个预设规则链中包括至少两个标准实体以及所述至少两个标准实体中各标准实体之间的关联关系,或者所述预设规则链中包括至少一个标准实体和标准属性信息以及所述至少一个标准实体和所述标准属性信息之间的关联关系;
所述确定模块902,具体用于:
针对所述多个实体中的每个实体,与所述每个预设规则链中包括的标准实体进行匹配,以从所述多个预设规则链中确定包含所述实体的第一目标预设规则链;
针对多个属性信息中的每个属性信息,与包括有标准属性信息的预设规则链进行匹配,以从所述多个预设规则链中确定包含所述属性信息的第二目标预设规则链;
根据所述第一目标预设规则链中包括的各标准实体之间的关联关系,以及所述第二目标预设规则链中包括的所述至少一个标准实体和所述标准属性信息之间的关联关系,确定各实体之间的关联关系以及所述属性信息与各所述实体之间的关联关系。
可选的,当所述实体包括业务实体时;所述分析模块901,具体用于:
分别对所述多个文本进行分词处理,得到多个目标分词;
分别确定所述多个目标分词与预设词之间的语义相似度,并将语义相似度大于第一预设值的目标分词确定为所述业务实体。
可选的,所述分析模块901,具体用于:
对所述多个文本进行聚类,得到多个文本类,每个文本类中包括至少一个文本;
分别对每个文本类中的每个文本进行分词处理,得到所述文本类对应的多个分词;
对所述文本类对应的多个分词进行词频统计,将频率大于第二预设值的分词确定为所述目标分词。
可选的,当所述实体包括行为实体时;所述分析模块901,具体用于:
将所述多个文本分别输入词性标注模型,确定每个文本中的候选动词;
从所述每个文本的候选动词中,筛选用于表示所述业务实体的操作行为的目标动词;
将所述目标动词和所述业务实体,确定为所述行为实体。
可选的,当所述实体包括事件实体时;所述分析模块901,具体用于:
分别将所述多个文本输入事件抽取模型,确定多个事件;
判断所述多个事件中每个事件与业务实体和/或所述行为实体之间是否存在对应关系;
将与所述事件存在对应关系的业务实体和/或所述行为实体,以及所述事件确定为所述事件实体。
可选的,所述装置还包括:
判断模块905,用于针对所述多个文本中的每个文本,判断所述文本中是否包括多个业务实体和/或多个事件;
所述确定模块902,还用于在所述文本中包括多个业务实体和/或多个事件时,根据所述多个业务实体和/或多个事件,确定所述实体的约束条件;
更新模块906,用于根据所述实体的约束条件,对所述知识图谱进行更新。
可选的,所述获取模块903,具体用于:
接收用户输入的操作指令,所述操作指令中包括所述属性信息对应的属性值。
可选的,所述分析模块901,具体用于:
针对所述多个文本中的每个文本,将所述文本输入文本分类模型中,以确定所述每个文本对应的属性信息。
本申请实施例提供的知识图谱的构建装置90,可以执行上述任一实施例中的知识图谱的构建方法的技术方案,其实现原理以及有益效果与知识图谱的构建方法的实现原理及有益效果类似,可参见知识图谱的构建方法的实现原理及有益效果,此处不再进行赘述。
图10为本申请实施例提供的一种问答装置100的结构示意图,示例的,请参见图10所示,该问答装置100可以包括:
分析模块1001,用于对待处理文本进行分析,得到至少一个待匹配实体以及与所述待处理文本对应的待匹配属性信息;
确定模块1002,用于根据所述至少一个待匹配实体和所述待匹配属性信息,基于知识图谱确定所述待处理文本对应的答案,其中,所述知识图谱包括节点和边,所述节点包括多个实体、属性信息以及所述属性信息对应的属性值,所述边表示各实体之间的关联关系、属性信息与各所述实体之间的关联关系以及所述属性信息与所述属性值之间的关联关系;;
输出模块1003,用于输出所述待处理文本对应的答案。
可选的,所述实体包括业务实体、行为实体和事件实体,所述业务实体用于表示业务类型,所述事件实体用于表示所述业务实体的操作状态,所述行为实体用于表示业务实体的操作行为,所述属性信息用于表示所述文本所属的类型。
可选的,所述根据所述至少一个待匹配实体和所述待匹配属性信息,基于知识图谱确定所述待处理文本对应的答案,包括:
在所述知识图谱中匹配出与所述至少一个待匹配实体对应的至少一个目标实体、与所述待匹配属性信息对应的所述目标属性信息以及所述目标实体和所述目标属性信息之间的关联关系;
根据所述至少一个目标实体、所述目标属性信息以及所述目标实体和所述目标属性信息之间的关联关系,确定所述待匹配属性信息对应的属性值;
基于所述属性值确定所述待处理文本对应的答案。
本申请实施例提供的问答装置100,可以执行上述任一实施例中的问答方法的技术方案,其实现原理以及有益效果与问答方法的实现原理及有益效果类似,可参见问答方法的实现原理及有益效果,此处不再进行赘述。
图11为本申请实施例提供的一种电子设备110的结构示意图,其中,该电子设备可以为服务器,也可以为终端设备。示例的,请参见图11所示,该电子设备110可以包括处理器1101和存储器1102;其中,
所述存储器1102,用于存储计算机程序。
所述处理器1101,用于读取所述存储器1102存储的计算机程序,并根据所述存储器1102中的计算机程序执行上述任一实施例中的知识图谱的构建方法的技术方案或者执行上述任一实施例中的问答方法的技术方案。
可选地,存储器1102既可以是独立的,也可以跟处理器1101集成在一起。当存储器1102是独立于处理器1101之外的器件时,服务器还可以包括:总线,用于连接存储器1102和处理器1101。
可选地,本实施例还包括:通信接口,该通信接口可以通过总线与处理器1101连接。处理器1101可以控制通信接口来实现上述服务器的获取和发送的功能。
本申请实施例所示的电子设备,可以执行上述任一实施例中的知识图谱的构建方法的技术方案或者执行上述任一实施例中的问答方法的技术方案,其实现原理以及有益效果与知识图谱的构建方法的实现原理及有益效果或者问答方法的实现原理及有益效果类似,可参见知识图谱的构建方法或者问答方法的实现原理及有益效果,此处不再进行赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现上述任一实施例中的知识图谱的构建方法的技术方案,其实现原理以及有益效果与知识图谱的构建方法的技术方案的实现原理及有益效果类似,可参见知识图谱的构建方法的技术方案的实现原理及有益效果,此处不再进行赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现上述任一实施例中的问答方法的技术方案的技术方案,其实现原理以及有益效果与问答方法的技术方案的实现原理及有益效果类似,可参见问答方法的技术方案的实现原理及有益效果,此处不再进行赘述。
本申请实施例还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时,实现上述任一实施例中的知识图谱的构建方法的技术方案,其实现原理以及有益效果与知识图谱的构建方法的技术方案的实现原理及有益效果类似,可参见知识图谱的构建方法的技术方案的实现原理及有益效果,此处不再进行赘述。
本申请实施例还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时,实现上述任一实施例中的问答方法的技术方案,其实现原理以及有益效果与问答方法的技术方案的实现原理及有益效果类似,可参见问答方法的技术方案的实现原理及有益效果,此处不再进行赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所展示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元展示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本申请各个实施例方法的部分步骤。
应理解的是,上述处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital SignalProcessor,简称:DSP)、专用集成电路(英文:Application Specific IntegratedCircuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合申请所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
上述计算机可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
Claims (13)
1.一种知识图谱的构建方法,其特征在于,包括:
对多个文本进行分析,得到多个实体以及每个文本对应的属性信息,所述实体包括业务实体、行为实体和事件实体,所述业务实体用于表示业务类型,所述事件实体用于表示所述业务实体的操作状态,所述行为实体用于表示业务实体的操作行为,所述属性信息用于表示所述文本所属的类型;
将所述多个实体以及所述属性信息与预设实体库进行匹配,确定各实体之间的关联关系以及所述属性信息与各所述实体之间的关联关系;所述预设实体库中包括标准业务实体、标准行为实体、标准事件实体和标准属性信息,所述标准行为实体、所述标准事件实体和所述标准属性信息均为所述标准业务实体的子节点;
获取与所述属性信息对应的属性值;
根据各实体之间的关联关系、所述属性信息与各所述实体之间的关联关系和所述属性值,构建所述知识图谱。
2.根据权利要求1所述的方法,其特征在于,所述预设实体库中包括多个预设规则链,每个预设规则链中包括至少两个标准实体以及所述至少两个标准实体中各标准实体之间的关联关系,或者所述预设规则链中包括至少一个标准实体和标准属性信息以及所述至少一个标准实体和所述标准属性信息之间的关联关系;
所述将所述多个实体以及所述属性信息与预设实体库进行匹配,确定各实体之间的关联关系以及所述属性信息与各所述实体之间的关联关系,包括:
针对所述多个实体中的每个实体,与所述每个预设规则链中包括的标准实体进行匹配,以从所述多个预设规则链中确定包含所述实体的第一目标预设规则链;
针对多个属性信息中的每个属性信息,与包括有标准属性信息的预设规则链进行匹配,以从所述多个预设规则链中确定包含所述属性信息的第二目标预设规则链;
根据所述第一目标预设规则链中包括的各标准实体之间的关联关系,以及所述第二目标预设规则链中包括的所述至少一个标准实体和所述标准属性信息之间的关联关系,确定各实体之间的关联关系以及所述属性信息与各所述实体之间的关联关系。
3.根据权利要求1或2所述的方法,其特征在于,当所述实体包括业务实体时;
所述对多个文本进行分析,得到多个实体,包括:
分别对所述多个文本进行分词处理,得到多个目标分词;
分别确定所述多个目标分词与预设词之间的语义相似度,并将语义相似度大于第一预设值的目标分词确定为所述业务实体。
4.根据权利要求3所述的方法,其特征在于,所述分别对所述多个文本进行分词处理,得到多个目标分词,包括:
对所述多个文本进行聚类,得到多个文本类,每个文本类中包括至少一个文本;
分别对每个文本类中的每个文本进行分词处理,得到所述文本类对应的多个分词;
对所述文本类对应的多个分词进行词频统计,将频率大于第二预设值的分词确定为所述目标分词。
5.根据权利要求1或2所述的方法,其特征在于,当所述实体包括行为实体时;
所述对多个文本进行分析,得到多个实体,包括:
将所述多个文本分别输入词性标注模型,确定每个文本中的候选动词;
从所述候选动词中,筛选用于表示所述业务实体操作行为的目标动词;
将所述目标动词和所述业务实体,确定为所述行为实体。
6.根据权利要求1或2所述的方法,其特征在于,当所述实体包括事件实体时;
所述对多个文本进行分析,得到多个实体,包括:
分别将所述多个文本输入事件抽取模型,确定多个事件;
判断所述多个事件中每个事件与所述业务实体和/或所述行为实体之间是否存在对应关系;
将与所述事件存在对应关系的所述业务实体和/或所述行为实体,以及所述事件确定为所述事件实体。
7.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
针对所述多个文本中的每个文本,判断所述文本中是否包括多个业务实体和/或多个事件;
当所述文本中包括多个业务实体和/或多个事件时,则根据所述多个业务实体和/或多个事件,确定所述实体的约束条件;
根据所述实体的约束条件,对所述知识图谱进行更新。
8.一种问答方法,其特征在于,包括:
对待处理文本进行分析,得到至少一个待匹配实体以及与所述待处理文本对应的待匹配属性信息;
根据所述至少一个待匹配实体和所述待匹配属性信息,基于知识图谱确定所述待处理文本对应的答案,其中,所述知识图谱包括节点和边,所述节点包括多个实体、属性信息以及所述属性信息对应的属性值,所述边表示各实体之间的关联关系、属性信息与各所述实体之间的关联关系以及所述属性信息与所述属性值之间的关联关系;
输出所述待处理文本对应的答案。
9.根据权利要求8所述的方法,其特征在于,所述实体包括业务实体、行为实体和事件实体,所述业务实体用于表示业务类型,所述事件实体用于表示所述业务实体的操作状态,所述行为实体用于表示业务实体的操作行为,所述属性信息用于表示所述文本所属的类型。
10.根据权利要求8或9所述的方法,其特征在于,所述根据所述至少一个待匹配实体和所述待匹配属性信息,基于知识图谱确定所述待处理文本对应的答案,包括:
在所述知识图谱中匹配出与所述至少一个待匹配实体对应的至少一个目标实体、与所述待匹配属性信息对应的目标属性信息以及所述目标实体和所述目标属性信息之间的关联关系;
根据所述至少一个目标实体、所述目标属性信息以及所述目标实体和所述目标属性信息之间的关联关系,确定所述待匹配属性信息对应的属性值;
基于所述属性值确定所述待处理文本对应的答案。
11.一种知识图谱的构建装置,其特征在于,包括:
分析模块,用于对多个文本进行分析,得到多个实体以及每个文本对应的属性信息,所述实体包括业务实体、行为实体和事件实体,所述业务实体用于表示业务类型,所述事件实体用于表示所述业务实体的操作状态,所述行为实体用于表示业务实体的操作行为,所述属性信息用于表示所述文本所属的类型;
确定模块,用于将所述多个实体以及所述属性信息与预设实体库进行匹配,确定各实体之间的关联关系以及所述属性信息与各所述实体之间的关联关系;所述预设实体库中包括标准业务实体、标准行为实体、标准事件实体和标准属性信息,所述标准行为实体、所述标准事件实体和所述标准属性信息均为所述标准业务实体的子节点;
获取模块,还用于获取与所述属性信息对应的属性值;
构建模块,还用于根据各实体之间的关联关系、所述属性信息与各所述实体之间的关联关系和所述属性值,构建所述知识图谱。
12.一种电子设备,包括:存储器,处理器;
存储器;用于存储计算机程序;
所述处理器,用于读取所述存储器存储的计算机程序,并根据所述存储器中的计算机程序执行上述权利要求1-7任一项所述的知识图谱的构建方法或用于实现如权利要求8-10任一项所述的问答方法。
13.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1-7任一项所述的知识图谱的构建方法或用于实现如权利要求8-10任一项所述的问答方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110632969.0A CN115510196A (zh) | 2021-06-07 | 2021-06-07 | 知识图谱的构建方法、问答方法、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110632969.0A CN115510196A (zh) | 2021-06-07 | 2021-06-07 | 知识图谱的构建方法、问答方法、装置和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115510196A true CN115510196A (zh) | 2022-12-23 |
Family
ID=84499679
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110632969.0A Pending CN115510196A (zh) | 2021-06-07 | 2021-06-07 | 知识图谱的构建方法、问答方法、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115510196A (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018072563A1 (zh) * | 2016-10-18 | 2018-04-26 | 中兴通讯股份有限公司 | 一种知识图谱构建方法、装置及系统 |
CN108932340A (zh) * | 2018-07-13 | 2018-12-04 | 华融融通(北京)科技有限公司 | 一种不良资产经营领域下金融知识图谱的构建方法 |
CN109492077A (zh) * | 2018-09-29 | 2019-03-19 | 北明智通(北京)科技有限公司 | 基于知识图谱的石化领域问答方法及系统 |
CN110543574A (zh) * | 2019-08-30 | 2019-12-06 | 北京百度网讯科技有限公司 | 一种知识图谱的构建方法、装置、设备及介质 |
CN110688495A (zh) * | 2019-12-09 | 2020-01-14 | 武汉中科通达高新技术股份有限公司 | 一种事件信息的知识图谱模型构建方法、装置、存储介质 |
US20200057946A1 (en) * | 2018-08-16 | 2020-02-20 | Oracle International Corporation | Techniques for building a knowledge graph in limited knowledge domains |
CN111553162A (zh) * | 2020-04-28 | 2020-08-18 | 腾讯科技(深圳)有限公司 | 一种意图识别的方法以及相关装置 |
CN111767368A (zh) * | 2020-05-27 | 2020-10-13 | 重庆邮电大学 | 一种基于实体链接的问答知识图谱构建方法及存储介质 |
CN112131882A (zh) * | 2020-09-30 | 2020-12-25 | 绿盟科技集团股份有限公司 | 一种多源异构网络安全知识图谱构建方法及装置 |
WO2021004333A1 (zh) * | 2019-07-08 | 2021-01-14 | 平安科技(深圳)有限公司 | 基于知识图谱的事件处理方法、装置、设备和存储介质 |
WO2021012878A1 (zh) * | 2019-07-19 | 2021-01-28 | 平安科技(深圳)有限公司 | 医疗领域知识图谱问答处理方法、装置、设备及存储介质 |
CN114911915A (zh) * | 2022-05-27 | 2022-08-16 | 重庆长安汽车股份有限公司 | 一种基于知识图谱的问答搜索方法、系统、设备和介质 |
-
2021
- 2021-06-07 CN CN202110632969.0A patent/CN115510196A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018072563A1 (zh) * | 2016-10-18 | 2018-04-26 | 中兴通讯股份有限公司 | 一种知识图谱构建方法、装置及系统 |
CN108932340A (zh) * | 2018-07-13 | 2018-12-04 | 华融融通(北京)科技有限公司 | 一种不良资产经营领域下金融知识图谱的构建方法 |
US20200057946A1 (en) * | 2018-08-16 | 2020-02-20 | Oracle International Corporation | Techniques for building a knowledge graph in limited knowledge domains |
CN109492077A (zh) * | 2018-09-29 | 2019-03-19 | 北明智通(北京)科技有限公司 | 基于知识图谱的石化领域问答方法及系统 |
WO2021004333A1 (zh) * | 2019-07-08 | 2021-01-14 | 平安科技(深圳)有限公司 | 基于知识图谱的事件处理方法、装置、设备和存储介质 |
WO2021012878A1 (zh) * | 2019-07-19 | 2021-01-28 | 平安科技(深圳)有限公司 | 医疗领域知识图谱问答处理方法、装置、设备及存储介质 |
CN110543574A (zh) * | 2019-08-30 | 2019-12-06 | 北京百度网讯科技有限公司 | 一种知识图谱的构建方法、装置、设备及介质 |
CN110688495A (zh) * | 2019-12-09 | 2020-01-14 | 武汉中科通达高新技术股份有限公司 | 一种事件信息的知识图谱模型构建方法、装置、存储介质 |
CN111553162A (zh) * | 2020-04-28 | 2020-08-18 | 腾讯科技(深圳)有限公司 | 一种意图识别的方法以及相关装置 |
CN111767368A (zh) * | 2020-05-27 | 2020-10-13 | 重庆邮电大学 | 一种基于实体链接的问答知识图谱构建方法及存储介质 |
CN112131882A (zh) * | 2020-09-30 | 2020-12-25 | 绿盟科技集团股份有限公司 | 一种多源异构网络安全知识图谱构建方法及装置 |
CN114911915A (zh) * | 2022-05-27 | 2022-08-16 | 重庆长安汽车股份有限公司 | 一种基于知识图谱的问答搜索方法、系统、设备和介质 |
Non-Patent Citations (8)
Title |
---|
GUOMING LU 等: "Entity alignment via knowledge embedding and type matching constraints for knowledge graph inference", JOURNAL OF AMBIENT INTELLIGENCE AND HUMANIZED COMPUTING, pages 5199 * |
YONG JIN 等: "Knowledge Graph Construction of Personal Relationships", ICAIS 2020: ARTIFICIAL INTELLIGENCE AND SECURITY, pages 455 * |
刘峰: "内容相似度计算-自动构建知识图谱(实例)", pages 1, Retrieved from the Internet <URL:https://zhuanlan.zhihu.com/p/103907362> * |
刘强 等: "基于联合学习的端到端威胁情报知识图谱构建方法", 现代计算机, pages 16 - 21 * |
杨广建: "基于行业知识图谱的学习资源库构建与考试管理系统设计与实现", 中国优秀硕士学位论文全文数据库 信息科技辑, no. 12, pages 138 - 87 * |
爱学习的毛里: "技术学习 | 知识图谱构建的一般流程", pages 1, Retrieved from the Internet <URL:https://zhuanlan.zhihu.com/p/107325417> * |
王芳: "图书发行领域标准化知识图谱的构建研究", 中国优秀硕士学位论文全文数据库 I138-2726, no. 2, pages 138 - 2726 * |
韦韬 等: "基于非分类关系提取技术的知识图谱构建", 工业技术创新, no. 02, pages 23 - 28 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11520975B2 (en) | Lean parsing: a natural language processing system and method for parsing domain-specific languages | |
US20230222366A1 (en) | Systems and methods for semantic analysis based on knowledge graph | |
US11164075B2 (en) | Evaluation method and apparatus based on text analysis, and storage medium | |
US7266537B2 (en) | Predictive selection of content transformation in predictive modeling systems | |
AU2023203202A1 (en) | Method and system for automatically extracting relevant tax terms from forms and instructions | |
CN110909226A (zh) | 金融类文档信息处理方法、装置、电子设备及存储介质 | |
EP3485445A1 (en) | System and method for automatically understanding lines of compliance forms through natural language patterns | |
CN110033382B (zh) | 一种保险业务的处理方法、装置及设备 | |
US11775772B2 (en) | Chatbot providing a defeating reply | |
CN111177307A (zh) | 一种基于语义理解相似度阀值配置的测试方案及系统 | |
US10592995B1 (en) | Methods, systems, and computer program product for providing expense information for an electronic tax return preparation and filing software delivery model | |
CN112256863A (zh) | 一种确定语料意图的方法、装置及电子设备 | |
CN115510196A (zh) | 知识图谱的构建方法、问答方法、装置和存储介质 | |
CN114239602A (zh) | 会话方法、装置和计算机程序产品 | |
US11379929B2 (en) | Advice engine | |
Rehman et al. | Automatically solving two‐variable linear algebraic word problems using text mining | |
CN114117057A (zh) | 产品反馈信息的关键词提取方法及终端设备 | |
CN111736804A (zh) | 一种基于用户评论识别App关键功能的方法及装置 | |
CN112115258A (zh) | 一种用户的信用评价方法、装置、服务器及存储介质 | |
AU2018337034B2 (en) | Lean parsing: a natural language processing system and method for parsing domain-specific languages | |
CN117573956B (zh) | 元数据管理方法、装置、设备及存储介质 | |
US11830081B2 (en) | Automated return evaluation with anomoly detection | |
Toprak et al. | Enhanced Named Entity Recognition algorithm for financial document verification | |
Park et al. | Lessons learned building a legal inference dataset | |
CN114065722A (zh) | 交易报告的生成系统、方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |