CN112966122A - 语料意图识别方法、装置、存储介质及计算机设备 - Google Patents
语料意图识别方法、装置、存储介质及计算机设备 Download PDFInfo
- Publication number
- CN112966122A CN112966122A CN202110233624.8A CN202110233624A CN112966122A CN 112966122 A CN112966122 A CN 112966122A CN 202110233624 A CN202110233624 A CN 202110233624A CN 112966122 A CN112966122 A CN 112966122A
- Authority
- CN
- China
- Prior art keywords
- link
- corpus
- determining
- entities
- unknown
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000012216 screening Methods 0.000 claims abstract description 28
- 238000004364 calculation method Methods 0.000 claims description 19
- 239000011159 matrix material Substances 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 8
- 238000004891 communication Methods 0.000 claims description 2
- 238000010801 machine learning Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 238000007689 inspection Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种语料意图识别方法、装置、存储介质及计算机设备,主要在于能够提高语料意图识别的效率和精度。其中方法包括:获取预设意图识别模型无法进行识别的未知语料;确定所述未知语料中包含的实体,并在知识图谱中确定包含所述实体的链路;计算在所述链路中所述实体之间的关联程度;基于所述关联程度,从所述链路中筛选最优链路;根据所述最优链路,确定所述未知语料对应的语料意图。本发明主要适用于语料的意图识别。本发明还涉及区块链技术,所述知识图谱存储于区块链中。
Description
技术领域
本发明涉及人工智能技术领域,尤其是涉及一种语料意图识别方法、装置、存储介质及计算机设备。
背景技术
意图识别是指机器通过学习已经设置好的语料,理解人类的语料并确认该语料的真实意图,在实际情况下,如果用户的检索语料未能被覆盖,则机器学习模型无法对用户的检索语料进行意图识别,此时需要采用其他方式对检索语料进行意图识别。
目前,当机器学习模型无法对用户输入的语料进行意图识别时,通常会将该语料与字典中的词汇进行规则匹配或者相似度匹配,从而确定语料的真实意图。然而,由此字典中存在大量词汇,需要进行大量的规则匹配和相似度匹配,增加了语料意图识别过程中的计算量,从而导致语料的意图识别效率较低,此外,当词典中不存在与语料完全匹配的词汇时,只能进行相似匹配,很可能导致识别的语料意图存在偏差,进而影响语料意图识别的精度。
发明内容
本发明提供了一种语料意图识别方法、装置、存储介质及计算机设备,主要在于能够提高语料意图识别的效率和精度。
根据本发明的第一个方面,提供一种语料意图识别方法,包括:
获取预设意图识别模型无法进行识别的未知语料;
确定所述未知语料中包含的实体,并在知识图谱中确定包含所述实体的链路;
计算在所述链路中所述实体之间的关联程度;
基于所述关联程度,从所述链路中筛选最优链路;
根据所述最优链路,确定所述未知语料对应的语料意图。
根据本发明的第二个方面,提供一种语料意图识别装置,包括:
获取单元,用于获取预设意图识别模型无法进行识别的未知语料;
第一确定单元,用于确定所述未知语料中包含的实体,并在知识图谱中确定包含所述实体的链路;
计算单元,用于计算在所述链路中所述实体之间的关联程度;
筛选单元,用于基于所述关联程度,从所述链路中筛选最优链路;
第二确定单元,用于根据所述最优链路,确定所述未知语料对应的语料意图。
根据本发明的第三个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:
获取预设意图识别模型无法进行识别的未知语料;
确定所述未知语料中包含的实体,并在知识图谱中确定包含所述实体的链路;
计算在所述链路中所述实体之间的关联程度;
基于所述关联程度,从所述链路中筛选最优链路;
根据所述最优链路,确定所述未知语料对应的语料意图。
根据本发明的第四个方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
获取预设意图识别模型无法进行识别的未知语料;
确定所述未知语料中包含的实体,并在知识图谱中确定包含所述实体的链路;
计算在所述链路中所述实体之间的关联程度;
基于所述关联程度,从所述链路中筛选最优链路;
根据所述最优链路,确定所述未知语料对应的语料意图。
本发明提供的一种语料意图识别方法、装置、存储介质及计算机设备,与目前通过将语料与字典中的词汇进行规则匹配或者相似度匹配来识别语料意图的方式相比,本发明能够获取预设意图识别模型无法进行识别的未知语料,并确定所述未知语料中包含的实体,以及在知识图谱中确定包含所述实体的链路,与此同时,计算在所述链路中所述实体之间的关联程度,并基于所述关联程度,从所述链路中筛选最优链路,最终根据所述最优链路,确定所述未知语料对应的语料意图,由此利用知识图谱对语料进行意图识别,能够避免规则匹配或者相似度匹配过程中的大量计算过程,提高了语料意图的识别效率,同时通过筛选知识图谱中包含实体的最优链路,并基于该最优链路确定语料意图,能够避免进行相似匹配和人工检验,提高了语料意图的识别精度,减少了验证人员的工作量。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了本发明实施例提供的一种语料意图识别方法流程图;
图2示出了本发明实施例提供的另一种语料意图识别方法流程图;
图3示出了本发明实施例提供的知识图谱示意图;
图4示出了本发明实施例提供的一种语料意图识别装置的结构示意图;
图5示出了本发明实施例提供的另一种语料意图识别装置的结构示意图;
图6示出了本发明实施例提供的一种计算机设备的实体结构示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
目前,在将语料与字典中的词汇进行规则匹配或者相似度匹配时,需要进行大量的规则匹配和相似度匹配,增加了语料意图识别过程中的计算量,从而导致语料的意图识别效率较低,此外,当词典中不存在与语料完全匹配的词汇时,只能进行相似匹配,很可能导致识别的语料意图存在偏差,进而影响语料意图识别的精度。
为了解决上述问题,本发明实施例提供了一种语料意图识别方法,如图1所示,所述方法包括:
101、获取预设意图识别模型无法进行识别的未知语料。
其中,预设意图识别模型为机器学习模型,具体可以为支持向量机学习模型,也可以为Bi-LSTM-CRF模型,当用户输入检索语料时,首先利用机器学习模型对用户输入的检索语料进行意图识别,以确定用户的意图,如果用户输入的语料超过机器学习模型所学习的范围,则将语料定义为未知语料,需要采用其他方式对该未知语料进行意图识别,为了克服现有技术中语料意图识别效率低和精度低的问题,本发明实施例在机器学习模型无法对未知语料进行识别时,利用预先构建的知识图谱对未知语料的意图进行推理识别,相比于规则匹配和相似度匹配减少了计算量,提高了语料意图识别的效率,同时能够避免相似匹配,保证语料意图识别结果的准确度,本发明实施例主要应用于在利用机器学习模型无法对语料进行识别时,采用知识图谱对语料意图进行推理识别,本发明实施例的执行主体为能够进行语料意图识别的装置或者设备,具体可以设置在客户端或者服务器一侧。
对于本发明实施例,当用户输入检索语料时,获取该语料,并将该语料输入至预设意图识别模型进行意图识别,如果意图识别模型没有反馈意图识别结果,则说明用户输入的检索语料超过预设意图识别模型所覆盖的范围,将用户输入的检索语料定义为未知语料,利用知识图谱对该未知语料进行逻辑推理和意图识别,以便根据意图识别结果为用户反馈针对检索语料的回复信息,例如,用户输入的检索语料为“建行属于金融机构中的哪种类型”,通过知识图谱对该语料进行意图识别,根据意图识别结果,生成并向用户反馈针对该检索语料的回复信息为“银行”。
102、确定所述未知语料中包含的实体,并在知识图谱中确定包含所述实体的链路。
对于本发明实施例,当预设意图识别模型无法对未知语料进行意图识别时,为了能够了解用户的真正意图,利用知识图谱对未知语料进行意图识别,具体地,首先利用预设自然语言模型对未知语料进行分词处理,得到未知语料对应的各个分词,该预设自然语言模型具体可以为BERT自然语言模型,之后将未知语料对应的各个分词输入至预设实体识别模型进行实体识别,确定未知语料中包含的实体,其中,预设实体识别模型具体可以为LSTM网络,该未知语料中至少包含一个实体,例如,未知语料为“建行是金融机构中的哪种类型”,可分解为建行/是/金融机构/中/的/哪种/类型,其中,“建行”和“金融机构”为实体。
进一步地,在确定未知语料中包含的实体之后,在预先构建的知识图谱中查找包含该实体的所有链路,知识图谱可以存储于区块链的节点中,如图3所示,在知识图谱中查找包含“银行”和“金融机构”实体的链路,具体地,在知识图谱的各个节点中分别查找“银行”和“金融机构”,由此能够得到两条链路分别是“建行-金融交易-银行-金融机构”和“建行-金融交易-证券-金融机构”,该链路中要包含所有实体节点,且可以由任意两个实体节点作为链路中的起始节点和终止节点,由此按照上述方式能够在知识图谱中确定包含所有实体的链路,以便根据该链路中的节点和连接关系进行推理,确定实体之间的关系,进而确定未知语料的意图。
需要说明的是,如果知识图谱中预先建立有实体之间的连通关系,则可以直接根据该连通关系,确定语料意图,如图3所示,如果知识图谱中预先创建有建行、银行和金融机构之间的实线,即知识图谱中预先建立有建行和金融机构的直接连通关系,那么在知识图谱中查找包含实体的链路时,能够直接确定链路“建行-银行-金融机构”,进而根据该链路能够直接确定建行属于金融机构中的银行;如果知识图图谱中预先没有创建建行、银行和金融机构之间的实线,即知识图谱中不存在建行和金融机构之间的直接连通关系,需要根据包含“建行”和“金融机构”的其他链路进行逻辑推理,进而确定建行与金融机构之间的关联关系,以便根据该关联关系,确定未知语料的真实意图,例如,未知语料为“建行是金融机构中的哪种类型”,在该未知语料中“建行”和“金融机构”为实体,“建行”和“金融机构”之间的关系为“类型”,在图3中,最优链路为“建行-金融交易-银行-金融机构”,通过该最优链路中的知识结构可知“金融机构”与“银行”属于直接连通关系,即“银行”和“金融机构”之间属于紧密的一跳边关系,且“银行”是“金融机构”的子类型,而未知语料中识别出的“建行”和“金融机构”之间的关系也为“类型”,因此,通过知识推理可知“建行”属于“金融机构”中的“银行”,由此利用知识图谱进行语料的意图识别,能够避免相似度匹配过程中的大量计算,提高了语料的意图识别效率,同时利用知识图谱进行知识推理相比于相似匹配能够提高语料意图的识别精度,避免意图识别结果出现偏差。
103、计算在所述链路中所述实体之间的关联程度。
其中,关联程度越高代表实体之间的关系越紧密,对于本发明实施例,在利用知识图谱对语料进行意图识别时,如果存在多条链路均包含实体,则需要从中筛选出一条最优链路,根据该最优链路进行知识推理,确定未知语料的意图,具体筛选最优链路时,需要计算在各个链路中实体之间的关联程度,筛选出一条关联程度最高的链路作为最优链路,具体计算各个链路中实体之间的关联程度时,可以通过计算在链路中实体之间的选择概率,确定实体之间的关联程度,选择概率的具体计算过程见步骤203-205,选择概率越高,代表在该链路中实体之间的关联程度越高,从而可以筛选出一条选择概率最高的链路,作为最优链路,以便根据该最优链路进行知识推理,确定未知语料的意图。
104、基于所述关联程度,从所述链路中筛选最优链路。
对于本发明实施例,如果知识图谱中存在多条链路包含实体,为了筛选包含实体的最优链路,需要分别计算在所有链路中实体之间的选择概率,选择概率越高,代表在该链路中实体之间的关联程度越高;选择概率越低,代表在该链路中实体之间的关联程度越低,因此可以根据计算的多条链路中实体之间的选择概率,确定在多条链路中实体之间的关联程度,并筛选一条选择概率最高的链路,将该链路作为最优链路。
105、根据所述最优链路,确定所述未知语料对应的语料意图。
对于本发明实施例,在筛选出包含实体的最优链路之后,需要根据该最优链路进行知识推理,进而确定未知语料的意图,具体地,在对未知语料进行实体识别的过程中,还需要识别未知语料中的实体之间的关系类型,如拆分后的未知语料为建行/是/金融机构/中/的/哪种/类型,确定实体为“建行”和“金融机构”,实体之间的关系为“类型”,进而根据该识别出的实体之间的关系类型和最优链路,进行知识推理,确定未知语料的意图,具体地,在未知语料中,“建行”和“金融机构”之间的关系为“类型”,在图3中,最优链路为“建行-金融交易-银行-金融机构”,通过该最优链路中的知识结构可知“金融机构”与“银行”属于直接连通关系,即“银行”和“金融机构”之间属于紧密的一跳边关系,且“银行”是“金融机构”的子类型,而未知语料中识别出的“建行”和“金融机构”之间的关系也为“类型”,因此,通过知识推理可知“建行”属于“金融机构”中的“银行”,即能够确定未知语料对应的意图,进一步地,可以在知识图谱中创建建行、银行和金融机构之间的直接连通关系,如图3中的虚线,并根据识别出的关系“类型”,将该直接连通关系命名为“类型”,由此在对未知语料进行意图识别的过程中,还能够不断地完善和扩展知识图谱的内容,逐渐扩大知识范围,以便能够为未知场景中的语料提供足够多的有效信息。
本发明实施例提供的一种语料意图识别方法,与目前通过将语料与字典中的词汇进行规则匹配或者相似度匹配来识别语料意图的方式相比,本发明能够获取预设意图识别模型无法进行识别的未知语料,并确定所述未知语料中包含的实体,以及在知识图谱中确定包含所述实体的链路,与此同时,计算在所述链路中所述实体之间的关联程度,并基于所述关联程度,从所述链路中筛选最优链路,最终根据所述最优链路,确定所述未知语料对应的语料意图,由此利用知识图谱对语料进行意图识别,能够避免规则匹配或者相似度匹配过程中的大量计算过程,提高了语料意图的识别效率,同时通过筛选知识图谱中包含实体的最优链路,并基于该最优链路确定语料意图,能够避免进行相似匹配和人工检验,提高了语料意图的识别精度,减少了验证人员的工作量。
进一步的,为了更好的说明上述语料意图的识别过程,作为对上述实施例的细化和扩展,本发明实施例提供了另一种语料意图识别方法,如图2所示,所述方法包括:
201、获取预设意图识别模型无法进行识别的未知语料。
对于本发明实施例,当用户进行检索时会输入相应的检索语料,为了向用户反馈正确的信息,需要识别用户的意图,具体地,将用户输入的检索语料输入至预设意图识别模型进行意图识别,如果预设意图识别模型没有反馈相应的结果,说明用户输入的语料超过预设意图识别模型学习的反馈,需要利用知识图谱对未知语料进行意图识别。
进一步地,为了利用知识图谱对未知语料进行知识推理和意图识别,需要预先构建知识图谱,具体可以使用OWL(Ontology Web Language本体语言)搭建知识图谱框架,并将其作为知识标杆,如图3为预先构建的知识图谱。
202、确定所述未知语料中包含的实体,并在知识图谱中确定包含所述实体的链路。
对于本发明实施例,为了利用知识图谱对未知语料进行知识推理和意图识别,需要先对未知语料进行实体识别,该实体识别的具体过程与步骤102完全相同,在此不再赘述,需要说明的是,在对未知语料进行实体识别的过程中,不仅需要识别出未知语料中包含的实体,还需要识别出实体之间的关系类型,例如,未知语料为建行/是/金融机构/中/的/哪种/类型,其中,“建行”和“金融机构”是实体,实体之间的关系类型为“类型”,关系类型的具体识别过程与实体识别的过程完全相同。
进一步地,在确定未知语料所包含的实体和实体之间的关系类型后,在知识图谱中查找包含该实体的节点,并根据该实体节点确定链路,如图3所示,包含“建行”和“金融机构”的链路分别为“建行-金融交易-银行-金融机构”和“建行-金融交易-证券-金融机构”,以便根据包含该实体的链路进行知识推理,确定未知语料的意图。
此外,在确定包含实体的链路中,需要确定链路中的节点数量,如果节点数量大于预设节点数量,说明实体节点之间的距离过远,两者之间的关联程度不大,尤其当知识图谱中存在多条链路包含实体时,可以预先统计各条链路中的节点数量,如果节点数量大于预设节点数量,则说明在该链路中实体节点之间的关联程度较小,不能用该链路进行知识推理;如果节点数量小于或者等于预设节点数量,则说明在该链路中实体节点之间的关联程度满足预设要求,可以利用该链路进行知识推理,基于此,在所述在知识图谱中确定包含所述实体的链路之后,所述方法还包括:确定所述链路中包含的节点数量,并判断所述节点数量是否小于或者等于预设节点数量;若小于或者等于所述预设节点数量,则计算在所述链路中所述实体之间的关联程度。
具体地,如果节点数量小于或者等于预设节点数量的链路仅存在一条,则将其确定为最优链路,并根据该最优链路进行知识推理,确定未知语料的意图;如果节点数量小于或者等于预设节点数量的链路存在多条,为了筛选出一条最优链路进行知识推理,需要分别计算在每条链路中实体之间的关联程度。
203、确定所述链路中各节点对应的位置信息,并根据所述位置信息,计算所述链路对应的路径长度。
其中,该位置信息为节点在知识图谱中的位置信息,包括横坐标和纵坐标,例如,节点的位置信息为(2,3),对于本发明实施例,可以根据链路对应的路径长度和该链路中实体之间的亲密度,确定在该链路中实体之间的关联程度,针对链路路径长度的具体计算过程,步骤203具体包括:获取所述链路中各节点对应的属性数量;根据所述属性数量,计算所述链路中各节点对应的属性饱和度;基于所述属性饱和度和所述位置信息,计算所述链路对应的路径长度。其中,知识图谱中的所有节点均定义有至少一个属性,针对属性饱和度和路径长度的具体计算公式如下:
f(p)=(1-PN)-1,N=1,2,3,…n
其中,vi和ki代表链路中的第i个节点在知识图谱中的横坐标和纵坐标,f(p)代表链路中各个节点的属性饱和度,PN等于节点对应的属性数量与预设属性数量的比值,例如,预设属性数量为5,即设定每个节点具有5个属性,而第3个节点的实际属性数量为3,则PN=3/5,进而根据计算的PN值,能够得到第三个节点对应的属性饱和度,由此按照上述公式能够计算出链路中每个节点对应的属性饱和度,进而根据链路中每个节点对应的属性饱和度和节点对应的位置信息,能够计算出该链路对应的路径长度,以便根据该链路长度,计算在该链路中实体之间的关联程度。
204、根据所述知识图谱中各节点之间的连接关系,确定所述知识图谱中各节点之间的亲密度矩阵,并根据所述亲密度矩阵,确定所述链路中实体之间的亲密度。
对于本发明实施例,获取知识图谱中各个节点之间的连接关系,基于各个节点之间的连接关系,构建知识图谱中各节点之间的邻接矩阵,并根据该邻接矩阵,确定各个节点之间的亲密度矩阵,针对该亲密度矩阵的具体计算公式如下:
其中,A为知识图谱中各节点之间的邻接矩阵,根据知识图谱中各节点的连接关系,能够确定该邻接矩阵,之后按照上述公式,根据该邻接矩阵,计算在知识图谱中各节点之间的亲密度矩阵,该亲密度矩阵由各节点之间的亲密度分值组成,如S(i,j)代表节点i和节点j之间的亲密度分值,由此在得到亲密度矩阵之后,能够查询链路中相邻节点之间的亲密度分值,进一步地,将链路中相邻节点之间的亲密度分值相加,能够得到该链路中实体之间的亲密度,以便根据该链路中实体之间的亲密度,计算实体之间的关联程度。
205、基于所述亲密度和所述路径长度,计算所述链路中实体之间的关联程度。
对于本发明实施例,为了提高链路中实体之间的关联程度的计算精度,可以分别为计算的亲密度和路径长度设置相应的权重值,如设置亲密度对应的权重值为0.3,链路路径长度对应的权重为0.7,进而根据该设置的权重值、亲密度和路径长度,计算链路中实体之间的选择概率,并基于计算的选择概率,确定链路中实体之间的关联程度,选择概率值越大代表实体之间的关联程度越高,具体计算公式如下:
M=(1-w)·LN+w·SN,N=1,2,3,…n
其中,M为链路中实体之间的选择概率,w为设置的权重值,LN为计算的链路路径长度,SN为计算的链路中实体之间的亲密度,由此将链路路径长度和链路中实体之间的亲密度分值相加,能够对得到实体之间的选择概率值,进而能够确定链路中实体之间的关联程度,以便根据该关联程度筛选出最优链路,并根据该最优链路进行逻辑推理和意图识别。
206、基于所述关联程度,从所述链路中筛选最优链路。
对于本发明实施例,为了根据计算的实体之间的关联程度,筛选出最优链路,步骤206具体包括:筛选所述关联程度满足预设关联程度条件的目标链路;若存在多条目标链路,则根据所述多条目标链路对应的关联程度,从所述多条目标链路中筛选出关联程度最高的最优链路。其中,预设关联程度条件可以根据业务需求进行设定,具体地,筛选出关联程度大于或者等于预设关联程度的目标链路,如筛选出关联程度大于或者等于0.7的目标链路。
在具体应用场景中,如果存在多条目标链路,则将多条目标链路中实体之间的关联程度由大到小进行排序,筛选出实体关联程度最高的目标链路作为最优链路,以便根据该最优链路进行知识推理和意图识别。
207、根据所述最优链路,确定所述未知语料对应的语料意图。
对于本发明实施例,为了利用知识图谱对未知语料进行意图识别,除了识别语料中包含的实体之外,还需要识别语料中实体之间的关系类型,进一步地,根据识别出的关系类型和最优链路,进行知识推理,进而确定未知语料的意图,基于此,步骤207具体包括:根据所述关系类型和所述最优链路,确定所述未知语料对应的语料意图。
进一步地,在确定未知语料对应的语料意图之后,利用预设回复信息模板生成回复信息并反馈给用户,例如,未知语料为“建行属于金融机构中的那种类型”,根据最优链路进行意图识别,确定建行属于金融机构中的银行,根据该意图识别结果和预设回复信息模板,生成答案“银行”,并反馈给用户。
在具体应用场景中,如果知识图谱的链路中不存在实体之间的之间连通关系,则根据本次知识推理结果可以在知识图谱中创建实体之间的直接连通关系,基于此,在所述根据所述关系类型和所述最优链路,确定所述未知语料对应的语料意图之后,所述方法还包括:在所述知识图谱的最优链路中创建所述实体之间的直接连通关系;根据所述关系类型对所述直接连通关系进行命名。例如,可以在知识图谱中创建建行、银行和金融机构之间的直接连通关系,如图3中的虚线,并根据识别出的关系“类型”,将该直接连通关系命名为“类型”,由此在对未知语料进行意图识别的过程中,还能够逐步扩大知识图谱所覆盖的知识范围,为后续不同场景下的语料意图识别提供尽可能多的有效信息。
本发明实施例提供的另一种语料意图识别方法,与目前通过将语料与字典中的词汇进行规则匹配或者相似度匹配来识别语料意图的方式相比,本发明能够获取预设意图识别模型无法进行识别的未知语料,并确定所述未知语料中包含的实体,以及在知识图谱中确定包含所述实体的链路,与此同时,计算在所述链路中所述实体之间的关联程度,并基于所述关联程度,从所述链路中筛选最优链路,最终根据所述最优链路,确定所述未知语料对应的语料意图,由此利用知识图谱对语料进行意图识别,能够避免规则匹配或者相似度匹配过程中的大量计算过程,提高了语料意图的识别效率,同时通过筛选知识图谱中包含实体的最优链路,并基于该最优链路确定语料意图,能够避免进行相似匹配和人工检验,提高了语料意图的识别精度,减少了验证人员的工作量。
进一步地,作为图1的具体实现,本发明实施例提供了一种语料意图识别装置,如图4所示,所述装置包括:获取单元31、第一确定单元32、计算单元33、筛选单元34和第二确定单元35。
所述获取单元31,可以用于获取预设意图识别模型无法进行识别的未知语料。
所述第一确定单元32,可以用于确定所述未知语料中包含的实体,并在知识图谱中确定包含所述实体的链路。
所述计算单元33,可以用于计算在所述链路中所述实体之间的关联程度。
所述筛选单元34,可以用于基于所述关联程度,从所述链路中筛选最优链路。
第二确定单元35,可以用于根据所述最优链路,确定所述未知语料对应的语料意图。
在具体应用场景中,为了计算链路中实体之间的关联程度,如图5所示,所述计算单元33包括:计算模块331和确定模块332。
所述计算模块331,可以用于确定所述链路中各节点对应的位置信息,并根据所述位置信息,计算所述链路对应的路径长度。
所述确定模块332,可以用于根据所述知识图谱中各节点之间的连接关系,确定所述知识图谱中各节点之间的亲密度矩阵,并根据所述亲密度矩阵,确定所述链路中实体之间的亲密度。
所述计算模块331,还可以用于基于所述亲密度和所述路径长度,计算所述链路中实体之间的关联程度。
进一步地,为了计算链路对应的路径长度,所述计算模块331包括:获取子模块和计算子模块。
所述获取子模块,可以用于获取所述链路中各节点对应的属性数量。
所述计算子模块,可以用于根据所述属性数量,计算所述链路中各节点对应的属性饱和度。
所述计算子模块,还可以用于基于所述属性饱和度和所述位置信息,计算所述链路对应的路径长度。
在具体应用场景中,为了从筛选出最优链路,所述筛选单元34包括:第一筛选模块341和第二筛选模块342。
所述第一筛选模块341,可以用于筛选所述关联程度满足预设关联程度条件的目标链路。
所述第二筛选模块342,可以用于若存在多条目标链路,则根据所述多条目标链路对应的关联程度,从所述多条目标链路中筛选出关联程度最高的最优链路。
进一步地,为了提高语料意图识别的效率和精度,所述装置还包括:判断单元36。
所述判断单元36,可以用于确定所述链路中包含的节点数量,并判断所述节点数量是否小于或者等于预设节点数量。
所述计算单元33,还可以用于若小于或者等于所述预设节点数量,则计算在所述链路中所述实体之间的关联程度。
在具体应用场景中,第一确定单元32,具体可以用于确定在未知语料中包含的实体和关系类型。
所述第二确定单元35,具体可以用于根据所述关系类型和所述最优链路,确定所述未知语料对应的语料意图。
进一步地,为了创建实体之间的连通关系,所述装置还包括创建单元37和命名单元38,所述创建单元37,可以用于根据所述关系类型,在所述知识图谱的最优链路中创建所述实体之间的连通关系。
所述命名单元38,可以用于根据所述关系类型对所述直接连通关系进行命名。
需要说明的是,本发明实施例提供的一种语料意图识别装置所涉及各功能模块的其他相应描述,可以参考图1所示方法的对应描述,在此不再赘述。
基于上述如图1所示方法,相应的,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:获取预设意图识别模型无法进行识别的未知语料;确定所述未知语料中包含的实体,并在知识图谱中确定包含所述实体的链路;计算在所述链路中所述实体之间的关联程度;基于所述关联程度,从所述链路中筛选最优链路;根据所述最优链路,确定所述未知语料对应的语料意图。
基于上述如图1所示方法和如图4所示装置的实施例,本发明实施例还提供了一种计算机设备的实体结构图,如图6所示,该计算机设备包括:处理器41、存储器42、及存储在存储器42上并可在处理器上运行的计算机程序,其中存储器42和处理器41均设置在总线43上所述处理器41执行所述程序时实现以下步骤:获取预设意图识别模型无法进行识别的未知语料;确定所述未知语料中包含的实体,并在知识图谱中确定包含所述实体的链路;计算在所述链路中所述实体之间的关联程度;基于所述关联程度,从所述链路中筛选最优链路;根据所述最优链路,确定所述未知语料对应的语料意图。
通过本发明的技术方案,本发明能够获取预设意图识别模型无法进行识别的未知语料,并确定所述未知语料中包含的实体,以及在知识图谱中确定包含所述实体的链路,与此同时,计算在所述链路中所述实体之间的关联程度,并基于所述关联程度,从所述链路中筛选最优链路,最终根据所述最优链路,确定所述未知语料对应的语料意图,由此利用知识图谱对语料进行意图识别,能够避免规则匹配或者相似度匹配过程中的大量计算过程,提高了语料意图的识别效率,同时通过筛选知识图谱中包含实体的最优链路,并基于该最优链路确定语料意图,能够避免进行相似匹配和人工检验,提高了语料意图的识别精度,减少了验证人员的工作量。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
Claims (10)
1.一种语料意图识别方法,其特征在于,包括:
获取预设意图识别模型无法进行识别的未知语料;
确定所述未知语料中包含的实体,并在知识图谱中确定包含所述实体的链路;
计算在所述链路中所述实体之间的关联程度;
基于所述关联程度,从所述链路中筛选最优链路;
根据所述最优链路,确定所述未知语料对应的语料意图。
2.根据权利要求1所述的方法,其特征在于,所述计算在所述链路中所述实体之间的关联程度,包括:
确定所述链路中各节点对应的位置信息,并根据所述位置信息,计算所述链路对应的路径长度;
根据所述知识图谱中各节点之间的连接关系,确定所述知识图谱中各节点之间的亲密度矩阵,并根据所述亲密度矩阵,确定所述链路中实体之间的亲密度;
基于所述亲密度和所述路径长度,计算所述链路中实体之间的关联程度。
3.根据权利要求2所述的方法,其特征在于,所述所述位置信息,计算所述链路对应的路径长度,包括:
获取所述链路中各节点对应的属性数量;
根据所述属性数量,计算所述链路中各节点对应的属性饱和度;
基于所述属性饱和度和所述位置信息,计算所述链路对应的路径长度。
4.根据权利要求1所述的方法,其特征在于,所述基于所述关联程度,从所述链路中筛选最优链路,包括:
筛选所述关联程度满足预设关联程度条件的目标链路;
若存在多条目标链路,则根据所述多条目标链路对应的关联程度,从所述多条目标链路中筛选出关联程度最高的最优链路。
5.根据权利要求1所述的方法,其特征在于,在所述在知识图谱中确定包含所述实体的链路之后,所述方法还包括:
确定所述链路中包含的节点数量,并判断所述节点数量是否小于或者等于预设节点数量;
若小于或者等于所述预设节点数量,则计算在所述链路中所述实体之间的关联程度。
6.根据权利要求1所述的方法,其特征在于,所述确定所述未知语料中包含的实体,包括:
确定在未知语料中包含的实体和关系类型;
所述根据所述最优链路,确定所述未知语料对应的语料意图,包括:
根据所述关系类型和所述最优链路,确定所述未知语料对应的语料意图。
7.根据权利要求6所述的方法,其特征在于,在所述根据所述关系类型和所述最优链路,确定所述未知语料对应的语料意图之后,所述方法还包括:
在所述知识图谱的最优链路中创建所述实体之间的直接连通关系;
根据所述关系类型对所述直接连通关系进行命名。
8.一种语料意图识别装置,其特征在于,包括:
获取单元,用于获取预设意图识别模型无法进行识别的未知语料;
第一确定单元,用于确定所述未知语料中包含的实体,并在知识图谱中确定包含所述实体的链路;
计算单元,用于计算在所述链路中所述实体之间的关联程度;
筛选单元,用于基于所述关联程度,从所述链路中筛选最优链路;
第二确定单元,用于根据所述最优链路,确定所述未知语料对应的语料意图。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110233624.8A CN112966122B (zh) | 2021-03-03 | 2021-03-03 | 语料意图识别方法、装置、存储介质及计算机设备 |
PCT/CN2021/083001 WO2022183547A1 (zh) | 2021-03-03 | 2021-03-25 | 语料意图识别方法、装置、存储介质及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110233624.8A CN112966122B (zh) | 2021-03-03 | 2021-03-03 | 语料意图识别方法、装置、存储介质及计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112966122A true CN112966122A (zh) | 2021-06-15 |
CN112966122B CN112966122B (zh) | 2024-05-10 |
Family
ID=76276549
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110233624.8A Active CN112966122B (zh) | 2021-03-03 | 2021-03-03 | 语料意图识别方法、装置、存储介质及计算机设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112966122B (zh) |
WO (1) | WO2022183547A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023098091A1 (zh) * | 2021-12-02 | 2023-06-08 | 浙江宇视科技有限公司 | 实体图像的聚类处理方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108369586A (zh) * | 2015-10-20 | 2018-08-03 | 阿克森维伯股份公司 | 用于检测网络中的交互和影响的系统和方法 |
CN109257287A (zh) * | 2017-07-13 | 2019-01-22 | 华为技术有限公司 | 一种最短路径确定方法及控制器 |
CN110837550A (zh) * | 2019-11-11 | 2020-02-25 | 中山大学 | 基于知识图谱的问答方法、装置、电子设备及存储介质 |
CN111930957A (zh) * | 2020-06-28 | 2020-11-13 | 国家计算机网络与信息安全管理中心 | 实体间亲密度的分析方法、装置、电子设备以及存储介质 |
CN112035635A (zh) * | 2020-08-28 | 2020-12-04 | 康键信息技术(深圳)有限公司 | 医疗领域意图识别方法、装置、设备及存储介质 |
CN112287095A (zh) * | 2020-12-30 | 2021-01-29 | 中航信移动科技有限公司 | 确定问题答案的方法、装置、计算机设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109918676B (zh) * | 2019-03-18 | 2023-06-27 | 广东小天才科技有限公司 | 一种检测意图正则表达式的方法及装置、终端设备 |
CN110458207A (zh) * | 2019-07-24 | 2019-11-15 | 厦门快商通科技股份有限公司 | 一种语料意图预测方法、语料标注方法及电子设备 |
-
2021
- 2021-03-03 CN CN202110233624.8A patent/CN112966122B/zh active Active
- 2021-03-25 WO PCT/CN2021/083001 patent/WO2022183547A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108369586A (zh) * | 2015-10-20 | 2018-08-03 | 阿克森维伯股份公司 | 用于检测网络中的交互和影响的系统和方法 |
CN109257287A (zh) * | 2017-07-13 | 2019-01-22 | 华为技术有限公司 | 一种最短路径确定方法及控制器 |
CN110837550A (zh) * | 2019-11-11 | 2020-02-25 | 中山大学 | 基于知识图谱的问答方法、装置、电子设备及存储介质 |
CN111930957A (zh) * | 2020-06-28 | 2020-11-13 | 国家计算机网络与信息安全管理中心 | 实体间亲密度的分析方法、装置、电子设备以及存储介质 |
CN112035635A (zh) * | 2020-08-28 | 2020-12-04 | 康键信息技术(深圳)有限公司 | 医疗领域意图识别方法、装置、设备及存储介质 |
CN112287095A (zh) * | 2020-12-30 | 2021-01-29 | 中航信移动科技有限公司 | 确定问题答案的方法、装置、计算机设备及存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023098091A1 (zh) * | 2021-12-02 | 2023-06-08 | 浙江宇视科技有限公司 | 实体图像的聚类处理方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2022183547A1 (zh) | 2022-09-09 |
CN112966122B (zh) | 2024-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109408627B (zh) | 一种融合卷积神经网络和循环神经网络的问答方法及系统 | |
CN111444344B (zh) | 实体分类方法、装置、计算机设备和存储介质 | |
CN109271506A (zh) | 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法 | |
CN112765312B (zh) | 一种基于图神经网络嵌入匹配的知识图谱问答方法和系统 | |
CN112214593A (zh) | 问答处理方法、装置、电子设备及存储介质 | |
CN110717023B (zh) | 面试回答文本的分类方法及装置、电子设备、存储介质 | |
KR102138130B1 (ko) | 개념 그래프 기반 질의응답 장치 및 방법 | |
CN113590784B (zh) | 三元组信息抽取方法、装置、电子设备、及存储介质 | |
CN114780691B (zh) | 模型预训练及自然语言处理方法、装置、设备及存储介质 | |
CN111274822A (zh) | 语义匹配方法、装置、设备及存储介质 | |
US20130159318A1 (en) | Rule-Based Generation of Candidate String Transformations | |
CN112685550B (zh) | 智能问答方法、装置、服务器及计算机可读存储介质 | |
Jha et al. | A novel approach on visual question answering by parameter prediction using faster region based convolutional neural network | |
CN114329029B (zh) | 对象检索方法、装置、设备及计算机存储介质 | |
CN112463949A (zh) | 数据召回方法与系统、交互方法及交互系统 | |
CN114647713A (zh) | 基于虚拟对抗的知识图谱问答方法、设备及存储介质 | |
US11948387B2 (en) | Optimized policy-based active learning for content detection | |
CN112966122A (zh) | 语料意图识别方法、装置、存储介质及计算机设备 | |
CN117932058A (zh) | 基于文本分析的情绪识别方法、装置及设备 | |
CN117609436A (zh) | 一种结合知识图谱和大语言模型的高校科研管理问答系统 | |
CN115905187B (zh) | 一种面向云计算工程技术人员认证的智能化命题系统 | |
CN115774996A (zh) | 智能面试的追问题目生成方法、装置和电子设备 | |
CN115129863A (zh) | 意图识别方法、装置、设备、存储介质和计算机程序产品 | |
CN114429140A (zh) | 一种基于相关图信息进行因果推断的案由认定方法及系统 | |
CN114579605A (zh) | 表格问答数据处理方法、电子设备及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |