CN114722837A - 一种多轮对话意图识别方法、装置及计算机可读存储介质 - Google Patents
一种多轮对话意图识别方法、装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN114722837A CN114722837A CN202210319320.8A CN202210319320A CN114722837A CN 114722837 A CN114722837 A CN 114722837A CN 202210319320 A CN202210319320 A CN 202210319320A CN 114722837 A CN114722837 A CN 114722837A
- Authority
- CN
- China
- Prior art keywords
- keywords
- embedding
- corpus data
- original text
- acquiring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/231—Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种多轮对话意图识别方法、装置及计算机可读存储介质,涉及人工智能领域。采用keybert获取多轮对话的原始文本中的关键词;将关键词和原始文本输入至语句转换模型中获取到embedding,并对其进行聚类,以获取包含关键词和对应的原始文本的语料数据的文档;获取各文档的关键词,从而确定文档的主题类别;获取主题类别对应的语料数据,并对语料数据标注主题类别,并输入至bert模型中进行意图识别。上述方案通过keybert获取原始文本中的关键词,考虑了语义关系;以关键词和原始文本的形式输入至语句转换模型,不会因模型的嵌入长度对原始文本的截断造成信息的丢失,提高了信息的覆盖度和意图识别的准确率。
Description
技术领域
本申请涉及人工智能领域,特别是涉及一种多轮对话意图识别方法、装置及计算机可读存储介质。
背景技术
意图识别是自然语言理解的一个子任务。对于多轮对话,要理解用户说的内容,需要借助于对业务的理解以及对话文本的数据分析,抽象出对用户发言的语义理解定义。采用分类的方法进行意图识别是最为行之有效的办法。但是一般具体场景中意图的具体类别是未知的。对于多轮对话长文本,对话长度一般大于语句转换模型(sentence-transformers)表征的最大文本长度512,在处理过程中一般使用截断、分段的方式或者使用信息检索与数据挖掘的常用加权技术(term frequency-inverse document frequency,tf-idf)与原始文本进行处理。
然而对于多轮对话长文本,截断对话的句子会丢失一部分信息,分段会减少句子之间的联系;通过tf-idf对原始文本处理的方式会增加丢失部分的信息,但是没有考虑句子之间的联系,影响获取用户意图的类别总结,从而影响意图识别的准确。
鉴于上述问题,设计一种多轮对话意图识别方法,是该领域技术人员亟待解决的问题。
发明内容
本申请的目的是提供一种多轮对话意图识别方法、装置及计算机可读存储介质。
为解决上述技术问题,本申请提供一种多轮对话意图识别方法,包括:
获取多轮对话的原始文本;
通过keybert获取所述原始文本中的关键词;
将所述关键词和所述原始文本输入至预先训练的sentence-transformers模型中,以用于获取embedding;
对所述embedding进行聚类,以用于获取包含所述关键词和对应的所述原始文本的语料数据的文档;其中,所述文档的数量为多个;
获取各所述文档的所述关键词,以用于根据所述关键词确定所述文档的主题类别;
获取所述主题类别对应的所述语料数据,并对所述语料数据标注所述主题类别;
将标注后的所述语料数据输入至bert模型中进行意图识别。
优选地,所述sentence-transformers模型的训练的具体步骤包括:
获取多个句子的文本;
通过网络层bert和池化层pooling获取各所述文本对应的sentence embedding;
通过Semantic Textual Similarity任务获取各所述sentence embedding之间的相似度,得到所述sentence-transformers模型。
优选地,在所述将标注后的所述语料数据输入至bert模型中进行意图识别之后,还包括:
通过所述bert模型获取未标注的所述语料数据;
判断未标注的所述语料数据的置信度是否大于阈值;
若是,将未标注的所述语料数据加入至标注后的所述语料数据所在的数据集中;
返回至所述将标注后的所述语料数据输入至bert模型中进行意图识别的步骤。
优选地,在所述对所述embedding进行聚类之前,还包括:
对所述embedding进行降维处理。
优选地,所述对所述embedding进行聚类包括:
通过层次聚类的方式对所述embedding进行聚类。
优选地,所述获取各所述文档的所述关键词包括:
通过tf-idf技术获取各所述文档的所述关键词。
优选地,所述对所述embedding进行降维处理包括:
通过UMAP非线性降维的方式对所述embedding进行降维处理。
为解决上述技术问题,本申请还提供一种多轮对话意图识别装置,包括:
第一获取模块,用于获取多轮对话的原始文本;
第二获取模块,用于通过keybert获取所述原始文本中的关键词;
输入模块,用于将所述关键词和所述原始文本输入至预先训练的sentence-transformers模型中,以用于获取embedding;
聚类模块,用于对所述embedding进行聚类,以用于获取包含所述关键词和对应的所述原始文本的语料数据的文档;其中,所述文档的数量为多个;
第三获取模块,用于获取各所述文档的所述关键词,以用于根据所述关键词确定所述文档的主题类别;
第四获取模块,用于获取所述主题类别对应的所述语料数据,并对所述语料数据标注所述主题类别;
识别模块,用于将标注后的所述语料数据输入至bert模型中进行意图识别。
为解决上述技术问题,本申请还提供另一种多轮对话意图识别装置,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述所述的多轮对话意图识别方法的步骤。
为解决上述技术问题,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述所述的多轮对话意图识别方法的步骤。
本申请所提供的多轮对话意图识别方法,通过获取多轮对话的原始文本,并采用keybert获取原始文本中的关键词;将关键词和原始文本输入至预先训练的sentence-transformers模型中,以用于获取embedding。对embedding进行聚类,以用于获取包含关键词和对应的原始文本的语料数据的文档;其中,文档的数量为多个;获取各文档的关键词,以用于根据关键词确定文档的主题类别;获取主题类别对应的语料数据,并对语料数据标注主题类别;将标注后的语料数据输入至bert模型中进行意图识别。由此可知,上述方案中通过采用基于语义的相似性提取关键词和短语的keybert获取原始文本中的关键词,考虑了语义关系;同时以关键词和原始文本的形式输入至sentence-transformers模型,不会因模型的嵌入长度对原始文本的截断造成信息的丢失,提高了信息的覆盖度,同时提高了多轮对话意图识别的准确率。
此外,本申请还提供了一种多轮对话意图识别装置及计算机可读存储介质,效果同上。
附图说明
为了更清楚地说明本申请实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种多轮对话意图识别方法的流程图;
图2为本申请实施例提供的sentence-transformers模型的训练过程的示意图;
图3为本申请实施例提供的另一种多轮对话意图识别方法的流程图;
图4为本申请实施例提供的一种多轮对话意图识别装置的结构示意图;
图5为本申请实施例提供的另一种多轮对话意图识别装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本申请保护范围。
本申请的核心是提供一种多轮对话意图识别方法、装置及计算机可读存储介质。
为了使本技术领域的人员更好地理解本申请方案,下面结合附图和具体实施方式对本申请作进一步的详细说明。
自然语言处理(Natural Language Processing,NLP)是研究人与计算机交互的语言问题技术,而意图识别是自然语言理解的一个子任务。对于多轮对话,要理解用户说的内容,需要借助于对业务的理解以及对话文本的数据分析,抽象出对用户发言的语义理解定义。采用分类的方法进行意图识别是最为行之有效的办法。但是一般具体场景中意图的具体类别是未知的。对于多轮对话长文本,对话长度一般大于sentence-transformers表征的最大文本长度512,在处理过程中一般使用截断、分段的方式或者使用tf-idf与原始文本进行处理。然而对于多轮对话长文本,截断对话的句子会丢失一部分信息,分段会减少句子之间的联系;通过tf-idf对原始文本处理的方式会增加丢失部分的信息,但是没有考虑句子之间的联系,影响获取用户意图的类别总结,从而影响意图识别的准确。因此本申请实施例提供了一种多轮对话意图识别方法。图1为本申请实施例提供的一种多轮对话意图识别方法的流程图。如图1所示,方法包括:
S10:获取多轮对话的原始文本。
S11:通过keybert获取原始文本中的关键词。
S12:将关键词和原始文本输入至预先训练的sentence-transformers模型中,以用于获取embedding。
S13:对embedding进行聚类,以用于获取包含关键词和对应的原始文本的语料数据的文档。其中,文档的数量为多个。
S14:获取各文档的关键词,以用于根据关键词确定文档的主题类别。
S15:获取主题类别对应的语料数据,并对语料数据标注主题类别。
S16:将标注后的语料数据输入至bert模型中进行意图识别。
在多轮对话的意图识别中,首先要获取多轮对话的原始文本。该文本是与用户的多轮对话的音频转换后得到。可以理解的是,在原始文本中包含对应的关键词,关键词是表征原始文本中关键内容的词汇或短语。在本实施例中,通过keybert获取原始文本中的关键词。keybert可以基于语义的相似性提取关键词和短语,它通过预训练的语言表征模型(Bidirectional Encoder Representation from Transformers,bert)嵌入和简单的余弦相似性来查找文档中与文档本身最相似的子短语。由于使用sentence-transformers模型表示文本嵌入时,句子token最长为512,对句子进行截断会丢失部分数据;因此通过keybert获取原始文本中的关键词,采用关键词+原始文本的形式输入sentence-transformers模型,使得原始句子变为(关键词1,关键词2,...关键词k,原始文本)的格式输入模型。例如,原始文本为:“你好,请介绍一下你们的产品是什么意思”,“什么叫企业真人客服”,“多少钱”,“太贵了你们这个东西”,“那你们有折扣吗”,“先加微信发我资料看看”;那么通过keybert可以提取出以下关键词:“多少钱”,“太贵了”,“折扣”和“加微信”;而最终输入至sentence-transformers模型中的内容即为:“多少钱”,“太贵了”,“折扣”,“加微信”,“你好,请介绍一下你们的产品是什么意思”,“什么叫企业真人客服”,“多少钱”,“太贵了你们这个东西”,“那你们有折扣吗”,“先加微信发我资料看看”。因此sentence-transformers模型表示文本嵌入时,对输入内容进行截断不会丢失关键数据。
语句转换模型sentence-transformers模型是一种无监督的句子嵌入模型,它是对预训练bert网络的一种修改,能够针对语义相似性进行微调,提高句子的表征能力。需要注意的是,sentence-transformers模型需要进行预先训练,在本实施例中对于sentence-transformers模型的训练的具体过程不做限制,根据具体的实施情况而定。将关键词和原始文本输入至预先训练的sentence-transformers模型中,能够获取到embedding。embedding实际上是通过sentence-transformers模型得到的文本信息的表征向量,向量的维度为768维。这种方式提高了模型的表征和泛化能力。
在得到文本信息的表征向量embedding后,对embedding进行聚类;由于多轮对话中一般很多时候是事先不清楚到底有多少聚类的,因此对embedding进行聚类能够获取到包含关键词和对应的原始文本的语料数据的多个文档,即多个聚类,从而明确聚类的数量。在本实施例中对于聚类的具体方式不做限制,根据具体的实施情况而定。
在得到聚类后的文档后,获取各文档的关键词,从而根据关键词确定文档的主题类别。例如,当获取到的关键词为“多少钱”,“多贵”,“折扣”,“套餐”,“便宜”等,这些关键词的主题总结为“价格”;而当关键词为“辞职”,“不干”,“汇报”,“领导”,“不算”等,关键词的主题被总结为“不是负责人”。本实施例中,对于文档中关键词的获取方式不做限制,根据具体的实施情况而定。
进一步地,获取主题类别对应的语料数据,由于在上述步骤中只是对文档中关键词确定了主题,并没有对文档中的语料数据进行主题标注,因此还需要对语料数据标注主题类别。再将标注后的语料数据输入至bert模型中进行训练,即意图识别,从而实现了多轮对话的意图识别。
本实施例中,通过获取多轮对话的原始文本,并采用keybert获取原始文本中的关键词;将关键词和原始文本输入至预先训练的sentence-transformers模型中,以用于获取embedding。对embedding进行聚类,以用于获取包含关键词和对应的原始文本的语料数据的文档;其中,文档的数量为多个;获取各文档的关键词,以用于根据关键词确定文档的主题类别;获取主题类别对应的语料数据,并对语料数据标注主题类别;将标注后的语料数据输入至bert模型中进行意图识别。由此可知,上述方案中通过采用基于语义的相似性提取关键词和短语的keybert获取原始文本中的关键词,考虑了语义关系;同时以关键词和原始文本的形式输入至sentence-transformers模型,不会因模型的嵌入长度对原始文本的截断造成信息的丢失,提高了信息的覆盖度,同时提高了多轮对话意图识别的准确率。
在上述实施例的基础上:
作为一种优选的实施例,sentence-transformers模型的训练的具体步骤包括:
获取多个句子的文本;
通过网络层bert和池化层pooling获取各文本对应的sentence embedding;
通过Semantic Textual Similarity任务获取各sentence embedding之间的相似度,得到sentence-transformers模型。
可以理解的是,sentence-transformers模型的是对预训练bert网络的一种修改。具体地,sentence-transformers模型的训练首先需要获取多个句子的文本。图2为本申请实施例提供的sentence-transformers模型的训练过程的示意图。如图2所示,分别将句子A和B输入一个网络层bert,bert为该句子token输出一个embedding;接着将embedding输出,进入一个池化层pooling。作为一种优选的实施例,在本实施例中池化层选择平均池化层,以将所有句子token的embedding的均值作为输出,得到跟输入句子长度无关的一个定长的句子嵌入sentence embedding U,即文本的embedding,维度是768维。进一步地,使用Semantic Textual Similarity任务训练,这是一种文本相似度检测的任务。输入两个句子A和B的embedding,标签label为两者的相似度打分;句子转换成embedding u和embeddingv,将这两个向量计算余弦相似度然后跟模型输入的得分比较,计算出loss值,进而获取下一步的微调参数,实现了sentence-transformers模型的训练。
本实施例中,通过对sentence-transformers模型的训练,实现了对多轮对话文本句子嵌入的获取,以便于后续的聚类。
图3为本申请实施例提供的另一种多轮对话意图识别方法的流程图。如图3所示,在将标注后的语料数据输入至bert模型中进行意图识别之后,还包括:
S17:通过bert模型获取未标注的语料数据。
S18:判断未标注的语料数据的置信度是否大于阈值;若是,进入步骤S19。
S19:将未标注的语料数据加入至标注后的语料数据所在的数据集中,返回至步骤S16。
在具体实施中,输入至bert模型中进行意图识别的标注后的语料数据并不是全部的语料数据,还有一些语料数据并未被标注。因此为了继续对未被标注的语料数据进行处理,在将标注后的语料数据输入至bert模型中进行意图识别之后,还需要通过bert模型获取未标注的语料数据,并判断未标注的语料数据的置信度是否大于阈值。本实施例中对于阈值的具体大小不做限制,根据具体的实施情况而定。当置信度大于阈值时,认为未标注的语料数据可以被继续处理,将其加入至标注后的语料数据所在的数据集中,以用于通过bert模型进行意图识别。
本实施例中,通过bert模型获取未标注的语料数据,判断未标注的语料数据的置信度是否大于阈值;若是,将未标注的语料数据加入至标注后的语料数据所在的数据集中,继续通过bert模型进行意图识别,实现了语料数据的完全处理。
如图3所示,在对embedding进行聚类之前,即步骤S13之前,还包括:
S20:对embedding进行降维处理。
可以理解的是,通过sentence-transformers模型得到的句子嵌入embedding的维度为768维。而对于高维度向量的聚类,一般的聚类效果不好。因此还需要对得到的embedding进行降维处理。作为一种优选的实施例,一般可以将维度降低至100左右。在本实施例中对于具体的降维方式不做限制,根据具体的实施情况而定。
本实施例中,为了达到更好的聚类效果,对embedding进行聚类之前对embedding进行降维处理,从而更好的实现聚类。
在上述实施例的基础上:
作为一种优选的实施例,对embedding进行聚类包括:
通过层次聚类的方式对embedding进行聚类。
在上述实施例中,对于聚类的具体方式不做限制,根据具体的实施情况而定。作为一种优选的实施例,在本实施例中,通过层次聚类的方式对embedding进行聚类。层次聚类是一种很直观的算法,顾名思义就是要一层一层地进行聚类,可以自下而上地将小的集群cluster合并聚集,也可以从上到下地将大的集群cluster进行分割,不需要指定聚类个数,因此适应于本申请中多轮对话意图识别场景。通过设置最小集群尺寸min_cluster_size,能够得到多个聚类。
本实施例中,通过层次聚类的方式对embedding进行聚类,不需要提前指定聚类类别,实现了聚类。
在上述实施例的基础上:
作为一种优选的实施例,获取各文档的关键词包括:
通过tf-idf技术获取各文档的关键词。
tf-idf(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术,用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。通过tf-idf技术获取各文档的关键词,具有更快的处理速度,降低了时间复杂度。
在上述实施例的基础上:
作为一种优选的实施例,对embedding进行降维处理包括:
通过UMAP非线性降维的方式对embedding进行降维处理。
在上述实施例中对于embedding的具体的降维方式不做限制,根据具体的实施情况而定。作为一种优选的实施例,在本实施例中,通过UMAP非线性降维的方式对embedding进行降维处理。统一流形逼近与投影(Uniform Manifold Approximation andProjection,UMAP)是一种非线性降维的算法,相对于t分布随机近邻嵌入算法(t-Distributed Stochastic Neighbor Embedding,t-SNE),UMAP算法更加快速,是一个确定性算法,而且保留双结构。该方法的原理是利用流形学和投影技术达到降维目的,首先计算高维空间中的点之间的距离,将它们投影到低维空间,并计算该低维空间中的点之间的距离,最后通过随机梯度下降来最小化这些距离之间的差异,从而实现了降维。
本实施例中,通过UMAP非线性降维的方式对embedding进行降维处理,具有速度快的优势。
在上述实施例中,对于多轮对话意图识别方法进行了详细描述,本申请还提供多轮对话意图识别装置对应的实施例。需要说明的是,本申请从两个角度对装置部分的实施例进行描述,一种是基于功能模块的角度,另一种是基于硬件结构的角度。
图4为本申请实施例提供的一种多轮对话意图识别装置的结构示意图。
如图4所示,多轮对话意图识别装置包括:
第一获取模块10,用于获取多轮对话的原始文本。
第二获取模块11,用于通过keybert获取原始文本中的关键词。
输入模块12,用于将关键词和原始文本输入至预先训练的sentence-transformers模型中,以用于获取embedding。
聚类模块13,用于对embedding进行聚类,以用于获取包含关键词和对应的原始文本的语料数据的文档;其中,文档的数量为多个。
第三获取模块14,用于获取各文档的关键词,以用于根据关键词确定文档的主题类别。
第四获取模块15,用于获取主题类别对应的语料数据,并对语料数据标注主题类别。
识别模块16,用于将标注后的语料数据输入至bert模型中进行意图识别。
由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
图5为本申请实施例提供的另一种多轮对话意图识别装置的结构示意图。如图5所示,多轮对话意图识别装置包括:
存储器20,用于存储计算机程序;
处理器21,用于执行计算机程序时实现如上述实施例中所提到的多轮对话意图识别的方法的步骤。
本实施例提供的多轮对话意图识别装置可以包括但不限于智能手机、平板电脑、笔记本电脑或台式电脑等。
其中,处理器21可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器21可以采用数字信号处理器(Digital Signal Processor,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器21也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称中央处理器(CentralProcessing Unit,CPU);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器21可以在集成有图形处理器(Graphics Processing Unit,GPU),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器21还可以包括人工智能(Artificial Intelligence,AI)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器20可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器20还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器20至少用于存储以下计算机程序201,其中,该计算机程序被处理器21加载并执行之后,能够实现前述任一实施例公开的多轮对话意图识别方法的相关步骤。另外,存储器20所存储的资源还可以包括操作系统202和数据203等,存储方式可以是短暂存储或者永久存储。其中,操作系统202可以包括Windows、Unix、Linux等。数据203可以包括但不限于多轮对话意图识别方法涉及到的数据。
在一些实施例中,多轮对话意图识别装置还可包括有显示屏22、输入输出接口23、通信接口24、电源25以及通信总线26。
本领域技术人员可以理解,图5中示出的结构并不构成对多轮对话意图识别装置的限定,可以包括比图示更多或更少的组件。
最后,本申请还提供一种计算机可读存储介质对应的实施例。计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述方法实施例中记载的步骤。
可以理解的是,如果上述实施例中的方法以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上对本申请所提供的一种多轮对话意图识别方法、装置及计算机可读存储介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (10)
1.一种多轮对话意图识别方法,其特征在于,包括:
获取多轮对话的原始文本;
通过keybert获取所述原始文本中的关键词;
将所述关键词和所述原始文本输入至预先训练的sentence-transformers模型中,以用于获取embedding;
对所述embedding进行聚类,以用于获取包含所述关键词和对应的所述原始文本的语料数据的文档;其中,所述文档的数量为多个;
获取各所述文档的所述关键词,以用于根据所述关键词确定所述文档的主题类别;
获取所述主题类别对应的所述语料数据,并对所述语料数据标注所述主题类别;
将标注后的所述语料数据输入至bert模型中进行意图识别。
2.根据权利要求1所述的多轮对话意图识别方法,其特征在于,所述sentence-transformers模型的训练的具体步骤包括:
获取多个句子的文本;
通过网络层bert和池化层pooling获取各所述文本对应的sentence embedding;
通过Semantic Textual Similarity任务获取各所述sentence embedding之间的相似度,得到所述sentence-transformers模型。
3.根据权利要求1所述的多轮对话意图识别方法,其特征在于,在所述将标注后的所述语料数据输入至bert模型中进行意图识别之后,还包括:
通过所述bert模型获取未标注的所述语料数据;
判断未标注的所述语料数据的置信度是否大于阈值;
若是,将未标注的所述语料数据加入至标注后的所述语料数据所在的数据集中;
返回至所述将标注后的所述语料数据输入至bert模型中进行意图识别的步骤。
4.根据权利要求1所述的多轮对话意图识别方法,其特征在于,在所述对所述embedding进行聚类之前,还包括:
对所述embedding进行降维处理。
5.根据权利要求4所述的多轮对话意图识别方法,其特征在于,所述对所述embedding进行聚类包括:
通过层次聚类的方式对所述embedding进行聚类。
6.根据权利要求1所述的多轮对话意图识别方法,其特征在于,所述获取各所述文档的所述关键词包括:
通过tf-idf技术获取各所述文档的所述关键词。
7.根据权利要求4所述的多轮对话意图识别方法,其特征在于,所述对所述embedding进行降维处理包括:
通过UMAP非线性降维的方式对所述embedding进行降维处理。
8.一种多轮对话意图识别装置,其特征在于,包括:
第一获取模块,用于获取多轮对话的原始文本;
第二获取模块,用于通过keybert获取所述原始文本中的关键词;
输入模块,用于将所述关键词和所述原始文本输入至预先训练的sentence-transformers模型中,以用于获取embedding;
聚类模块,用于对所述embedding进行聚类,以用于获取包含所述关键词和对应的所述原始文本的语料数据的文档;其中,所述文档的数量为多个;
第三获取模块,用于获取各所述文档的所述关键词,以用于根据所述关键词确定所述文档的主题类别;
第四获取模块,用于获取所述主题类别对应的所述语料数据,并对所述语料数据标注所述主题类别;
识别模块,用于将标注后的所述语料数据输入至bert模型中进行意图识别。
9.一种多轮对话意图识别装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述的多轮对话意图识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的多轮对话意图识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210319320.8A CN114722837A (zh) | 2022-03-29 | 2022-03-29 | 一种多轮对话意图识别方法、装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210319320.8A CN114722837A (zh) | 2022-03-29 | 2022-03-29 | 一种多轮对话意图识别方法、装置及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114722837A true CN114722837A (zh) | 2022-07-08 |
Family
ID=82240700
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210319320.8A Pending CN114722837A (zh) | 2022-03-29 | 2022-03-29 | 一种多轮对话意图识别方法、装置及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114722837A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115168593A (zh) * | 2022-09-05 | 2022-10-11 | 深圳爱莫科技有限公司 | 一种可自我学习的智能对话管理系统、方法及处理设备 |
CN117556025A (zh) * | 2024-01-10 | 2024-02-13 | 川投信息产业集团有限公司 | 基于ai和可视化的平台化项目服务信息优化方法及系统 |
-
2022
- 2022-03-29 CN CN202210319320.8A patent/CN114722837A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115168593A (zh) * | 2022-09-05 | 2022-10-11 | 深圳爱莫科技有限公司 | 一种可自我学习的智能对话管理系统、方法及处理设备 |
CN117556025A (zh) * | 2024-01-10 | 2024-02-13 | 川投信息产业集团有限公司 | 基于ai和可视化的平台化项目服务信息优化方法及系统 |
CN117556025B (zh) * | 2024-01-10 | 2024-04-02 | 川投信息产业集团有限公司 | 基于ai和可视化的平台化项目服务信息优化方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108399228B (zh) | 文章分类方法、装置、计算机设备及存储介质 | |
CN114722837A (zh) | 一种多轮对话意图识别方法、装置及计算机可读存储介质 | |
US10915756B2 (en) | Method and apparatus for determining (raw) video materials for news | |
CN114218945A (zh) | 实体识别方法、装置、服务器及存储介质 | |
CN112560506A (zh) | 文本语义解析方法、装置、终端设备及存储介质 | |
CN115329176A (zh) | 搜索请求的处理方法、装置、计算机设备及存储介质 | |
CN112001167B (zh) | 一种标点符号添加方法、系统、设备和介质 | |
CN113515593A (zh) | 基于聚类模型的话题检测方法、装置和计算机设备 | |
Lagus et al. | Topic identification in natural language dialogues using neural networks | |
CN111783424A (zh) | 一种文本分句方法和装置 | |
CN112100364A (zh) | 文本语义理解方法和模型训练方法、装置、设备和介质 | |
CN116010545A (zh) | 一种数据处理方法、装置及设备 | |
CN115129864A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
US20180268844A1 (en) | Syntactic system for sound recognition | |
CN114676699A (zh) | 实体情感分析方法、装置、计算机设备和存储介质 | |
CN111199170B (zh) | 配方文件识别方法及装置、电子设备、存储介质 | |
KR102215259B1 (ko) | 주제별 단어 또는 문서의 관계성 분석 방법 및 이를 구현하는 장치 | |
CN114239601A (zh) | 语句的处理方法、装置及电子设备 | |
CN112784052A (zh) | 文本分类方法、装置、设备及计算机可读存储介质 | |
CN112364131A (zh) | 一种语料处理方法及其相关装置 | |
CN111368068A (zh) | 一种基于词性特征和语义增强的短文本主题建模方法 | |
CN111368083A (zh) | 基于意图混淆的文本分类方法、装置、设备及存储介质 | |
CN115618968B (zh) | 新意图发现方法、装置、电子设备及存储介质 | |
CN117909505B (zh) | 事件论元的抽取方法及相关设备 | |
CN114579740B (zh) | 文本分类方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |