CN115017306A - 意图挖掘方法、装置、计算机设备和存储介质 - Google Patents
意图挖掘方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN115017306A CN115017306A CN202210415330.1A CN202210415330A CN115017306A CN 115017306 A CN115017306 A CN 115017306A CN 202210415330 A CN202210415330 A CN 202210415330A CN 115017306 A CN115017306 A CN 115017306A
- Authority
- CN
- China
- Prior art keywords
- sentence
- sentences
- vectors
- clustering
- obtaining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种意图挖掘方法、装置、计算机设备和存储介质。该方法包括:获取前端指定的待挖掘意图的对话内容和针对对话内容的挖掘参数;使用挖掘参数对对话内容进行初步筛选,得到多个语句;若多个语句与通用语料的表达方式相匹配,则针对每个语句,得到对应的保留通用语义信息的句子向量;若多个语句与业务语料的表达方式相匹配,则针对每个语句,得到对应的多个分词,并根据分词的词向量和对应的权重得到句子向量;根据多个语句所属话题的话题范围特征,选择对应的聚类算法对多个语句所对应的句子向量进行聚类;基于聚类结果得到针对对话内容的意图。采用本方法能够提高意图挖掘效率。
Description
技术领域
本申请涉及软件技术领域,特别是涉及一种意图挖掘方法、装置、计算机设备和存储介质。
背景技术
随着社会的不断发展,各行各业所提供的产品越来越多,针对这些产品存在大量相关的非结构化数据,包括用户与产品客服人员之间的对话数据、用户与相关人员之间对产品的探讨等等。由于企业需要不断改进这些产品,以提升产品质量,因此,企业需要对这些对话内容进行分析,挖掘到相关的意图,从而了解到跟产品相关的热点、痛点问题等等。
目前,企业一般是使用人工的方式来进行挖掘。但由于对话内容具有一定的多样性,导致使用人工的方式对这些对话内容进行分析的效率不高。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高意图挖掘效率的意图方法、装置、计算机设备、存储介质和计算机程序产品。
第一方面,本申请提供了一种意图挖掘方法。所述方法包括:
获取前端指定的待挖掘意图的对话内容和针对所述对话内容的挖掘参数;
使用所述挖掘参数对所述对话内容进行初步筛选,得到多个语句;
若所述多个语句与通用语料的表达方式相匹配,则针对每个语句,得到对应的保留通用语义信息的句子向量;
若所述多个语句与业务语料的表达方式相匹配,则针对每个语句,得到对应的多个分词,并根据所述分词的词向量和对应的权重得到句子向量;
根据所述多个语句所属话题的话题范围特征,选择对应的聚类算法对多个语句所对应的句子向量进行聚类;
基于聚类结果得到针对所述对话内容的意图。
第二方面,本申请还提供了一种意图挖掘装置。所述装置包括:
预处理模块,用于获取前端指定的待挖掘意图的对话内容和针对所述对话内容的挖掘参数;使用所述挖掘参数对所述对话内容进行初步筛选,得到多个语句;
向量获取模块,用于若所述多个语句与通用语料的表达方式相匹配,则针对每个语句,得到对应的保留通用语义信息的句子向量;若所述多个语句与业务语料的表达方式相匹配,则针对每个语句,得到对应的多个分词,并根据所述分词的词向量和对应的权重得到句子向量;
聚类模块,用于根据所述多个语句所属话题的话题范围特征,选择对应的聚类算法对多个语句所对应的句子向量进行聚类;
意图确定模块,用于基于聚类结果得到针对所述对话内容的意图。
在其中一个实施例中,所述向量获取模块还用于若所述多个语句与通用语料的表达方式相匹配,则针对每个语句,将所述语句输入至语言向量化模型以得到保留通用语义信息的句子向量;其中,所述语言向量化模型是使用所述通用语料进行训练的。
在其中一个实施例中,所述分词包括非关键词和关键词;所述向量获取模块还用于根据所述关键词的词向量和所述非关键词的词向量分别按照相应的权重进行加权计算得到句子向量;其中,所述关键词的权重大于所述非关键词的权重。
在其中一个实施例中,所述聚类模块还用于确定所述多个语句所属话题的话题范围特征;若所述话题范围特征所表征的话题范围满足第一条件,则使用基于密度的聚类算法对多个所述句子向量进行聚类;若所述话题范围特征表征的话题范围满足第二条件,则使用基于划分的聚类算法对多个所述句子向量进行聚类;所述第二条件所表征的话题范围大于所述第一条件所表征的话题范围。
在其中一个实施例中,所述意图确定模块还用于确定聚类结果中各个类簇中的句子向量的数量;根据所述各个类簇各自对应的句子向量的数量对所述多个类簇进行排序;根据排序结果选取排名靠前的多个目标类簇;基于所述多个目标类簇得到针对所述对话内容的意图。
在其中一个实施例中,所述意图确定模块还用于针对聚类结果中的类簇,确定所述类簇中各句子向量和中心句子向量之间的距离;基于所述距离,从所述类簇中选取至少一个目标句子向量;基于所述至少一个目标句子向量确定针对所述对话内容的意图。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行上述意图挖掘方法的步骤。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行上述意图挖掘方法的步骤。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行上述意图挖掘方法的步骤。
上述意图挖掘方法、装置、计算机设备、存储介质和计算机程序产品,获取前端指定的待挖掘意图的对话内容和针对所述对话内容的挖掘参数;使用所述挖掘参数对所述对话内容进行初步筛选,得到多个语句。这样,用户不需要对对话内容进行初步筛选,而是直接在客户端指定即可。若所述多个语句与通用语料的表达方式相匹配,则针对每个语句,得到对应的保留通用语义信息的句子向量。若所述多个语句与业务语料的表达方式相匹配,则针对每个语句,得到对应的多个分词,并根据所述分词的词向量和对应的权重得到句子向量。这样,本方法就可以处理具有通用性或者具有业务性的对话内容。根据所述多个语句所属的话题,选择对应的聚类算法对多个所述句子向量进行聚类。根据所述多个语句所属话题的话题范围特征,选择对应的聚类算法对多个语句所对应的句子向量进行聚类,基于聚类结果得到针对所述对话内容的意图。因此,用户在客户端指定对话内容和挖掘参数,就可以执行本方法挖掘出对应的意图,不需要人工进行挖掘,从而提高了对对话内容的意图挖掘效率。并且,本方法可以处理具有通用性或者具有业务性的对话内容,还可以根据话题范围特征选择不同的聚类方法,在提高意图挖掘效率的同时,还增加了本方法应用的广泛性和兼容性。
附图说明
图1为一个实施例中意图挖掘方法的应用环境图;
图2为一个实施例中意图挖掘方法的流程示意图;
图3为另一个实施例中意图挖掘方法的流程示意图;
图4为一个实施例中意图挖掘方法的原理示意图;
图5为一个实施例中意图挖掘装置的结构框图;
图6为一个实施例中计算机设备的内部结构图;
图7为另一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的意图挖掘方法,可以应用于如图1所示的应用环境中。其中,终端110通过网络与服务器120进行通信。数据存储系统可以存储服务器120需要处理的数据。数据存储系统可以集成在服务器120上,也可以放在云上或其他网络服务器上。其中,终端110可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
终端110可以作为前端展示页面,用户在该页面上指定待挖掘意图的对话内容和针对对话内容的挖掘参数。终端110将对话内容和挖掘参数发送给服务器120。服务器120获取在终端110指定的待挖掘意图的对话内容和针对对话内容的挖掘参数,使用挖掘参数对对话内容进行初步筛选,得到多个语句。若多个语句与通用语料的表达方式相匹配,则针对每个语句,得到对应的保留通用语义信息的句子向量;若多个语句与业务语料的表达方式相匹配,则针对每个语句,得到对应的多个分词,并根据分词的词向量和对应的权重得到句子向量。服务器120根据多个语句所属话题的话题范围特征,选择对应的聚类算法对多个语句所对应的句子向量进行聚类;基于聚类结果得到针对对话内容的意图。服务器120将意图返回给终端110,终端110可以在页面上展示针对对话内容挖掘出的意图。
在一个实施例中,服务器120也可以由终端替代,对此不限定。
在一个实施例中,如图2所示,提供了一种意图挖掘方法,本实施例以该方法应用于服务器进行举例说明,可以理解的是,该方法也可以应用于终端,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
S202,获取前端指定的待挖掘意图的对话内容和针对对话内容的挖掘参数;使用挖掘参数对对话内容进行初步筛选,得到多个语句。
具体地,用户在前端指定待挖掘意图的对话内容和针对对话内容的挖掘参数。服务器获取到前端发送的待挖掘意图的对话内容和针对对话内容的挖掘参数,使用挖掘参数对对话内容进行初步筛选,得到多个语句。
可以理解,通过用户在前端指定对话内容和挖掘参数,服务器可以对对话内容进行初步筛选和并执行后续意图挖掘步骤。这样,用户可以灵活地定制对话内容和挖掘参数,不需要跟开发人员提出挖掘需求,也不需要重新修改挖掘处理逻辑,从而提高了意图挖掘的灵活性和便利性。
在一个实施例中,挖掘参数包括关键词,服务器可以根据挖掘参数所指定的关键词,确定多个语句中每个语句的关键词。服务器还可以根据挖掘参数所指定的关键词,保留包含关键词的语句,过滤掉不包含关键词的语句,从而得到最终的多个语句。
在一个实施例中,挖掘参数包括最小对话轮次、最大对话轮次。若对话内容的对话轮次小于最小对话轮次或大于最大对话轮次,服务器可以过滤掉该对话内容。可以理解,服务器可以预先过滤掉无效或者异常的数据,减少不必要的计算机资源开销。
在一个实施例中,挖掘参数包括停用词。服务器可以根据挖掘参数所指定的停用词,比如“哦,啊,呵呵”等这些无意义且会干扰结果的停用词,从对话内容中过滤掉这些停用词。
在一个实施例中,挖掘参数包括去重指令。对话内容的语句具有唯一的会话标识。服务器可以根据挖掘参数所指定的去重指令,过滤对话内容中重复的会话标识所对应的语句。
在一个实施例中,挖掘参数包括关键词、最小对话轮次、最大对话轮次、停用词和去重指令等中的至少一种。
S204,若多个语句与通用语料的表达方式相匹配,则针对每个语句,得到对应的保留通用语义信息的句子向量;若多个语句与业务语料的表达方式相匹配,则针对每个语句,得到对应的多个分词,并根据分词的词向量和对应的权重得到句子向量。
其中,业务语料是在开展某个业务的过程中所产生的语料,比如在金融这一行业,基金的买卖属于一种业务,在开展基金买卖业务的过程中所产生的语料则是业务语料。可以理解,通用语料相对于业务语料,是跟业务不相关的通用性语料。
具体地,服务器将多个语句与业务语料的表达方式进行匹配确认,若多个语句与业务语料的表达方式相匹配,则针对每个语句,得到对应的多个分词,并根据分词的词向量和对应的权重得到句子向量。若多个语句与业务语料的表达方式不匹配,服务器将多个语句与通用语料的表达方式进行匹配确认,若多个语句与通用语料的表达方式相匹配,则针对每个语句,得到对应的保留通用语义信息的句子向量。可以理解,多个语句先和通用语料执行匹配确认还是先和业务语料执行匹配确认,这个步骤顺序不做要求。
在一个实施例中,保留通用语义信息的句子向量是基于训练好的语言向量化模型得到的。
在一个实施例中,分词包括关键词和非关键词,关键词的权重大于非关键词的权重,服务器基于不同分词的权重进行加权计算得到句子向量。
S206,根据多个语句所属话题的话题范围特征,选择对应的聚类算法对多个语句所对应的句子向量进行聚类。
其中,话题范围特征用于表征话题范围的属性。不同的话题可以有不同的话题范围特征。比如,针对金融这一行业,“绿色金融”这一话题的话题范围特征可以是宽泛的,跟“绿色金融”相比,归属于“绿色金融”的“绿色债券”这一话题的话题范围特征则是精确的。
具体地,服务器根据多个语句所属话题的话题范围特征,选择对应的聚类算法对多个语句所对应的句子向量进行聚类。
在一个实施例中,聚类算法可以是基于划分的聚类算法,也可以是基于密度的聚类算法,还可以是基于层次的聚类算法,基于网络的聚类算法等等。
S208,基于聚类结果得到针对对话内容的意图。
具体地,服务器获取到聚类结果后,对聚类结果进一步分析,得到针对所对话内容的意图。
在一个实施例中,服务器可以计算聚类结果中各个类簇中的句子向量的数量,并选择数量多的类簇作为目标类簇,进一步根据目标类簇得到针对对话内容的意图。
在另一个实施例中,服务器将聚类结果中的各个类簇都作为目标类簇,根据目标类簇得到针对对话内容的意图。
在一个实施例中,服务器确定目标类簇中离中心点最近的句子向量,并基于句子向量对应的语句的意图得到对话内容的意图。
在另一个实施例中,服务器确定目标类簇中各句子向量和中心句子向量之间的距离;基于距离选取至少一个目标句子向量以确定针对对话内容的意图。
上述意图挖掘方法,获取前端指定的待挖掘意图的对话内容和针对对话内容的挖掘参数;使用挖掘参数对对话内容进行初步筛选,得到多个语句。这样,用户不需要对对话内容进行初步筛选,而是直接在客户端指定即可。若多个语句与通用语料的表达方式相匹配,则针对每个语句,得到对应的保留通用语义信息的句子向量。若多个语句与业务语料的表达方式相匹配,则针对每个语句,得到对应的多个分词,并根据分词的词向量和对应的权重得到句子向量。这样,本方法就可以处理具有通用性或者具有业务性的对话内容。根据多个语句所属的话题,选择对应的聚类算法对多个句子向量进行聚类。根据多个语句所属话题的话题范围特征,选择对应的聚类算法对多个语句所对应的句子向量进行聚类,基于聚类结果得到针对对话内容的意图。因此,用户在客户端指定对话内容和挖掘参数,就可以执行本方法挖掘出对应的意图,不需要人工进行挖掘,从而提高了对对话内容的意图挖掘效率。并且,本方法可以处理具有通用性或者具有业务性的对话内容,还可以根据话题范围特征选择不同的聚类方法,在提高意图挖掘效率的同时,还增加了本方法应用的广泛性和兼容性。并且,针对于需要运营分析的业务,本方法可以对海量非结构化数据进行聚类,聚类出海量数据中的重要信息,进而协助运营分析人员快速洞察用户诉求,发现问题,优化工作流程,使得不再需要反复对录音数据进行测听,极大地提高了工作效率。
在一个实施例中,若多个语句与通用语料的表达方式相匹配,则针对每个语句,得到对应的保留通用语义信息的句子向量包括:若多个语句与通用语料的表达方式相匹配,则针对每个语句,将语句输入至语言向量化模型以得到保留通用语义信息的句子向量;其中,语言向量化模型是使用通用语料进行训练的。
具体地,服务器预先使用大量的通用语料训练语言向量化模型。在语言向量化模型训练完成之后,在多个语句与通用语料的表达方式相匹配的情况下,服务器针对每个语句,将语句输入至语言向量化模型,使得语言向量化模型输出保留通用语音信息的句子向量。
在本实施例中,通过使用大量的通用语料对语言向量化模型进行训练,以得到保留通用语义信息的句子向量,使得句子向量都保留了通用语义信息,即,每个句子向量保留了属于同一范围内的特征信息,从而提高了对句子向量进行聚类的准确性。
在一个实施例中,分词包括非关键词和关键词;根据分词的词向量和对应的权重得到句子向量包括:根据关键词的词向量和非关键词的词向量分别按照相应的权重进行加权计算得到句子向量;其中,关键词的权重大于非关键词的权重。
具体地,分词包括非关键词和关键词。服务器计算非关键词的权重和关键词的权重。其中,关键词的权重大于非关键词的权重。进一步地,服务器针对关键词的词向量和非关键词的词向量分别按照相应的权重进行加权计算,从而得到句子向量。可以理解,提高关键词的权重使得句子向量可以保留更多的关键词信息,以满足用户指定的需求。比如,用户指定想确认客户是否要咨询5G业务,那么“5G”这个词就比其它词要重要很多,服务器可以将“5G”作为关键词,使用词向量加权得到句子向量,并提高句子中关键词在句子向量中的权重。
在一个实施例中,服务器可以通过执行TF-IDF(term frequency–inversedocument frequency,一种用于信息检索与数据挖掘的常用加权技术)算法以获取分词的权重,即,分词权重=TF*IDF。其中,服务器可以针对每个句子而不是文档计算TF(TermFrequency,词频),并提升IDF(Inverse Document Frequency,逆文本频率指数)的权重。比如,以金融相关的对话内容为例,对TF-IDF的公式进行加权重调整,优化后的公式如下:
其中,W为关键词,TFw则为W关键词的词频,IDFw则为W关键词的逆文本频率指数。可以看出,服务器针对每个句子而不是文档计算TF(Term Frequency,词频),并且IDFw的权重得到了提升。
在本实施例中,通过提升关键词的权重,使得句子向量能够保留更多的关键词的语义信息,从而在对句子向量进行聚类时,可以得出更为准确的结果。
在一个实施例中,根据多个语句所属话题的话题特征,选择对应的聚类算法对多个语句所对应的句子向量进行聚类包括:确定多个语句所属话题的话题范围特征;若话题范围特征所表征的话题范围满足第一条件,则使用基于密度的聚类算法对多个句子向量进行聚类;若话题范围特征表征的话题范围满足第二条件,则使用基于划分的聚类算法对多个句子向量进行聚类;第二条件所表征的话题范围大于第一条件所表征的话题范围。
具体地,服务器确定多个语句所属话题的话题范围特征,并对话题范围特征进行判断。若话题范围特征所表征的话题范围满足第一条件,则使用基于密度的聚类算法对多个句子向量进行聚类;若话题范围特征表征的话题范围满足第二条件,则使用基于划分的聚类算法对多个句子向量进行聚类。其中,第二条件所表征的话题范围大于第一条件所表征的话题范围。可以理解,服务器根据话题范围的大小选择不同的聚类算法,从而可以针对句子向量得到更为准确的聚类结果。
在一个实施例中,服务器可以选择对k-means算法作为基于划分的聚类算法。
在另一个实施例中,服务器可以选择k-medoids算法作为基于划分的聚类算法。
在本实施例中,通过对对话题范围特征表征的话题范围进行做判断,以选择不同的聚类算法。由于基于划分的聚类算法对噪声不敏感,适合于对类的粒度要求比较粗的场景,而基于密度的聚类算法适合于对类的粒度要求比较细的场景。因此,在本实施例中,基于划分的聚类算法所对应的话题范围大于基于密度的聚类算法所对应的话题范围,从而使得对对句子向量的聚类更准确、更符合预期需求。
在一个实施例中,基于聚类结果得到针对对话内容的意图包括:确定聚类结果中各个类簇中的句子向量的数量;根据各个类簇各自对应的句子向量的数量对多个类簇进行排序;根据排序结果选取排名靠前的多个目标类簇;基于多个目标类簇得到针对对话内容的意图。
具体地,服务器计算聚类结果中各个类簇中的句子向量的数量。服务器根据各个类簇各自对应的句子向量的数量对多个类簇进行排序,并根据排序结果选取排名靠前的多个目标类簇。服务器基于多个目标类簇得到针对对话内容的意图。
在本实施例中,通过计算聚类结果中各个类簇中的句子向量的数量,选择数量多的类簇作为目标类簇。这样,服务器就完成了类间清洗操作,去掉了聚类结果中质量较低的类簇,保留了高质量的类簇,进一步根据高质量的类簇得到针对对话内容的意图,使得得出的意图是最准确的。
在一个实施例中,基于聚类结果得到针对对话内容的意图包括:针对聚类结果中的类簇,确定类簇中各句子向量和中心句子向量之间的距离;基于距离,从类簇中选取至少一个目标句子向量;基于至少一个目标句子向量确定针对对话内容的意图。
具体地,服务器可以针对聚类结果中的一部分类簇或者全部类簇,确定类簇中各句子向量和中心句子向量之间的距离。服务器基于距离,从类簇中选取至少一个目标句子向量,并基于至少一个目标句子向量确定针对对话内容的意图。
在一个实施例中,服务器可以针对聚类结果中的目标类簇,即,一部分类簇,确定类簇中各句子向量和中心句子向量之间的距离。基于距离,从类簇中选取至少一个目标句子向量。
在一个实施例中,挖掘参数可以指定至少一个预设距离指标,以选取出符合于预设距离指标的目标句子向量。
在一个实施例中,服务器可以选择距离最小的句子向量作为目标句子向量。可以理解,这样的操作使得服务器保留了一个类中质量最高的句子向量。
在一个实施中,服务器得到的意图具有重复性,服务器需要执行去重复处理得到针对对话内容的最终的意图。
在本实施中,通过距离得到至少一个目标句子向量,并根据至少一个目标句子向量确定针对对话内容的意图。这样,服务器就可以通过距离灵活调整目标句子向量的获取策略。
在一个实施例中,如图3所示,展示了意图挖掘方法的流程示意图。具体地,用户在用户端的聚类工具中创建聚类任务,并配置对话内容和相应的挖掘参数。聚类工具发送聚类任务发起指令。其中,聚类工具可以通过http(超文本传输协议)请求,发送聚类任务发起指令。服务器作为后端,运行聚类服务,并通过聚类服务接收到聚类任务发起指令。聚类服务根据聚类任务发起指令获取对应的对话内容和挖掘参数。进一步地,聚类服务根据挖掘参数对对话内容进行初步筛选,得到多个语句,并针对多个语句抽取数据特征,得到句子向量,根据语句所属于的话题范围特征,选择对应的聚类算法进行聚类。聚类服务根据聚类结果得到对话内容的意图,将意图返回到用户端的聚类工具,使得用户端在聚类工具的界面上展示针对对话内容的意图。
在一个实施例中,如图4所示,展示了意图挖掘方法的原理示意图。具体地,服务器获取前端指定的待挖掘意图的对话内容和针对对话内容的挖掘参数。服务器使用挖掘参数对对话内容进行初步筛选,得到多个语句。若多个语句与通用语料的表达方式相匹配,则针对每个语句,将语句输入至语言向量化模型以得到保留通用语义信息的句子向量;其中,语言向量化模型是使用通用语料进行训练的。若多个语句与业务语料的表达方式相匹配,则针对每个语句,得到对应的多个分词,该分词包括非关键词和关键词。服务器根据关键词的词向量和非关键词的词向量分别按照相应的权重进行加权计算得到句子向量。其中,关键词的权重大于非关键词的权重。可以理解,如图4中的句子向量1、句子向量2至句子向量n可以是基于语言向量化模型得出的,也可以是基于多个分词进行加权计算得到的,具体取决于多个语句与哪种语料类型的表达方式相匹配。服务器确定多个语句所属话题的话题范围特征。若话题范围特征所表征的话题范围满足第一条件,则使用基于密度的聚类算法对多个句子向量进行聚类;若话题范围特征表征的话题范围满足第二条件,则使用基于划分的聚类算法对多个句子向量进行聚类。其中,第二条件所表征的话题范围大于第一条件所表征的话题范围。聚类结果中具有多个类簇,如图4中对句子向量1至句子向量n的聚类结果为类簇1、类簇2至类簇m。服务器确定聚类结果中各个类簇中的句子向量的数量,根据各个类簇各自对应的句子向量的数量对多个类簇进行排序。服务器根据排序结果选取排名靠前的多个目标类簇。如图4中对类簇1至类簇m进行排序选择出来目标类簇1和目标类簇k。服务器还可以针对聚类结果中的目标类簇,确定目标类簇中各句子向量和中心句子向量之间的距离。进一步地,服务器基于距离,从类簇中选取至少一个目标句子向量。如图4中针对目标类簇1选取的目标句子向量为第一语句和第二语句的句子向量。如图4中针对目标类簇k选取的目标句子向量为第三语句和第四语句的句子向量。进一步地,服务器基于至少一个目标句子向量确定针对对话内容的意图。如图4所示,服务器基于第一语句和第二语句得到第一意图,基于第二语句和第三语句得到第二意图,服务器可以将第一意图和第二意图作为针对对话内容的意图。
应该理解的是,虽然本申请部分实施例中的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的意图挖掘方法的意图挖掘装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个意图挖掘装置实施例中的具体限定可以参见上文中对于意图挖掘方法的限定,在此不再赘述。
在一个实施例中,如图5所示,提供了一种意图挖掘装置500,包括:预处理模块502、向量获取模块504、聚类模块506和意图确定模块508,其中:
预处理模块502,用于获取前端指定的待挖掘意图的对话内容和针对所述对话内容的挖掘参数;使用所述挖掘参数对所述对话内容进行初步筛选,得到多个语句。
向量获取模块504,用于若所述多个语句与通用语料的表达方式相匹配,则针对每个语句,得到对应的保留通用语义信息的句子向量;若所述多个语句与业务语料的表达方式相匹配,则针对每个语句,得到对应的多个分词,并根据所述分词的词向量和对应的权重得到句子向量。
聚类模块506,用于根据所述多个语句所属话题的话题范围特征,选择对应的聚类算法对多个语句所对应的句子向量进行聚类。
意图确定模块508,用于基于聚类结果得到针对所述对话内容的意图。
在一个实施例中,所述向量获取模块504还用于若所述多个语句与通用语料的表达方式相匹配,则针对每个语句,将所述语句输入至语言向量化模型以得到保留通用语义信息的句子向量;其中,所述语言向量化模型是使用所述通用语料进行训练的。
在一个实施例中,所述分词包括非关键词和关键词;所述向量获取模块504还用于根据所述关键词的词向量和所述非关键词的词向量分别按照相应的权重进行加权计算得到句子向量;其中,所述关键词的权重大于所述非关键词的权重。
在一个实施例中,所述聚类模块506还用于确定所述多个语句所属话题的话题范围特征;若所述话题范围特征所表征的话题范围满足第一条件,则使用基于密度的聚类算法对多个所述句子向量进行聚类;若所述话题范围特征表征的话题范围满足第二条件,则使用基于划分的聚类算法对多个所述句子向量进行聚类;所述第二条件所表征的话题范围大于所述第一条件所表征的话题范围。
在一个实施例中,所述意图确定模块508还用于确定聚类结果中各个类簇中的句子向量的数量;根据所述各个类簇各自对应的句子向量的数量对所述多个类簇进行排序;根据排序结果选取排名靠前的多个目标类簇;基于所述多个目标类簇得到针对所述对话内容的意图。
在一个实施例中,所述意图确定模块508还用于针对聚类结果中的类簇,确定所述类簇中各句子向量和中心句子向量之间的距离;基于所述距离,从所述类簇中选取至少一个目标句子向量;基于所述至少一个目标句子向量确定针对所述对话内容的意图。
上述意图挖掘装置,获取前端指定的待挖掘意图的对话内容和针对所述对话内容的挖掘参数;使用所述挖掘参数对所述对话内容进行初步筛选,得到多个语句。这样,用户不需要对对话内容进行初步筛选,而是直接在客户端指定即可。若所述多个语句与通用语料的表达方式相匹配,则针对每个语句,得到对应的保留通用语义信息的句子向量。若所述多个语句与业务语料的表达方式相匹配,则针对每个语句,得到对应的多个分词,并根据所述分词的词向量和对应的权重得到句子向量。这样,本方法就可以处理具有通用性或者具有业务性的对话内容。根据所述多个语句所属的话题,选择对应的聚类算法对多个所述句子向量进行聚类。根据所述多个语句所属话题的话题范围特征,选择对应的聚类算法对多个语句所对应的句子向量进行聚类,基于聚类结果得到针对所述对话内容的意图。因此,用户在客户端指定对话内容和挖掘参数,就可以执行本方法挖掘出对应的意图,不需要人工进行挖掘,从而提高了对对话内容的意图挖掘效率。并且,本方法可以处理具有通用性或者具有业务性的对话内容,还可以根据话题范围特征选择不同的聚类方法,在提高意图挖掘效率的同时,还增加了本方法应用的广泛性和兼容性。
关于上述意图挖掘装置的具体限定可以参见上文中对于上述意图挖掘方法的限定,在此不再赘述。上述意图挖掘装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储对话内容数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种意图挖掘方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图7所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种意图挖掘方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置,显示屏可以是液晶显示屏或电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图6和图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种意图挖掘方法,其特征在于,所述方法包括:
获取前端指定的待挖掘意图的对话内容和针对所述对话内容的挖掘参数;
使用所述挖掘参数对所述对话内容进行初步筛选,得到多个语句;
若所述多个语句与通用语料的表达方式相匹配,则针对每个语句,得到对应的保留通用语义信息的句子向量;
若所述多个语句与业务语料的表达方式相匹配,则针对每个语句,得到对应的多个分词,并根据所述分词的词向量和对应的权重得到句子向量;
根据所述多个语句所属话题的话题范围特征,选择对应的聚类算法对多个语句所对应的句子向量进行聚类;
基于聚类结果得到针对所述对话内容的意图。
2.根据权利要求1所述的方法,其特征在于,所述若所述多个语句与通用语料的表达方式相匹配,则针对每个语句,得到对应的保留通用语义信息的句子向量包括:
若所述多个语句与通用语料的表达方式相匹配,则针对每个语句,将所述语句输入至语言向量化模型以得到保留通用语义信息的句子向量;其中,所述语言向量化模型是使用所述通用语料进行训练的。
3.根据权利要求1所述的方法,其特征在于,所述分词包括非关键词和关键词;所述根据所述分词的词向量和对应的权重得到句子向量包括:
根据所述关键词的词向量和所述非关键词的词向量分别按照相应的权重进行加权计算得到句子向量;其中,所述关键词的权重大于所述非关键词的权重。
4.根据权利要求1所述的方法,其特征在于,所述根据所述多个语句所属话题的话题特征,选择对应的聚类算法对多个语句所对应的句子向量进行聚类包括:
确定所述多个语句所属话题的话题范围特征;
若所述话题范围特征所表征的话题范围满足第一条件,则使用基于密度的聚类算法对多个所述句子向量进行聚类;
若所述话题范围特征表征的话题范围满足第二条件,则使用基于划分的聚类算法对多个所述句子向量进行聚类;所述第二条件所表征的话题范围大于所述第一条件所表征的话题范围。
5.根据权利要求1所述的方法,其特征在于,所述基于聚类结果得到针对所述对话内容的意图包括:
确定聚类结果中各个类簇中的句子向量的数量;
根据所述各个类簇各自对应的句子向量的数量对所述多个类簇进行排序;
根据排序结果选取排名靠前的多个目标类簇;
基于所述多个目标类簇得到针对所述对话内容的意图。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述基于聚类结果得到针对所述对话内容的意图包括:
针对聚类结果中的类簇,确定所述类簇中各句子向量和中心句子向量之间的距离;
基于所述距离,从所述类簇中选取至少一个目标句子向量;
基于所述至少一个目标句子向量确定针对所述对话内容的意图。
7.一种意图挖掘装置,其特征在于,所述装置包括:
预处理模块,用于获取前端指定的待挖掘意图的对话内容和针对所述对话内容的挖掘参数;使用所述挖掘参数对所述对话内容进行初步筛选,得到多个语句;
向量获取模块,用于若所述多个语句与通用语料的表达方式相匹配,则针对每个语句,得到对应的保留通用语义信息的句子向量;若所述多个语句与业务语料的表达方式相匹配,则针对每个语句,得到对应的多个分词,并根据所述分词的词向量和对应的权重得到句子向量;
聚类模块,用于根据所述多个语句所属话题的话题范围特征,选择对应的聚类算法对多个语句所对应的句子向量进行聚类;
意图确定模块,用于基于聚类结果得到针对所述对话内容的意图。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210415330.1A CN115017306A (zh) | 2022-04-20 | 2022-04-20 | 意图挖掘方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210415330.1A CN115017306A (zh) | 2022-04-20 | 2022-04-20 | 意图挖掘方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115017306A true CN115017306A (zh) | 2022-09-06 |
Family
ID=83066833
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210415330.1A Pending CN115017306A (zh) | 2022-04-20 | 2022-04-20 | 意图挖掘方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115017306A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117235236A (zh) * | 2023-11-10 | 2023-12-15 | 腾讯科技(深圳)有限公司 | 对话方法、装置、计算机设备和存储介质 |
-
2022
- 2022-04-20 CN CN202210415330.1A patent/CN115017306A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117235236A (zh) * | 2023-11-10 | 2023-12-15 | 腾讯科技(深圳)有限公司 | 对话方法、装置、计算机设备和存储介质 |
CN117235236B (zh) * | 2023-11-10 | 2024-03-29 | 腾讯科技(深圳)有限公司 | 对话方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11995409B2 (en) | Content generation using target content derived modeling and unsupervised language modeling | |
CN108874992B (zh) | 舆情分析方法、系统、计算机设备和存储介质 | |
EP3855324A1 (en) | Associative recommendation method and apparatus, computer device, and storage medium | |
US8131684B2 (en) | Adaptive archive data management | |
US7747616B2 (en) | File search method and system therefor | |
US10489511B2 (en) | Content editing using AI-based content modeling | |
CN110637316B (zh) | 用于预期对象识别的系统和方法 | |
CN104899322A (zh) | 搜索引擎及其实现方法 | |
US20140258322A1 (en) | Semantic-based search system and search method thereof | |
CN111753527A (zh) | 基于自然语言处理的数据分析方法、装置和计算机设备 | |
CN112651236B (zh) | 提取文本信息的方法、装置、计算机设备和存储介质 | |
CN113239176B (zh) | 语义匹配模型训练方法、装置、设备及存储介质 | |
CN113704436A (zh) | 基于会话场景的用户画像标签挖掘方法及装置 | |
US20240184837A1 (en) | Recommendation method and apparatus, training method and apparatus, device, and recommendation system | |
CN112818686A (zh) | 领域短语挖掘方法、装置和电子设备 | |
CN104077327B (zh) | 核心词重要性识别方法和设备及搜索结果排序方法和设备 | |
US20220358415A1 (en) | System and Method for Tagging Data | |
CN104102727B (zh) | 查询词的推荐方法及装置 | |
CN114399396A (zh) | 保险产品推荐方法、装置、计算机设备及存储介质 | |
CN115017306A (zh) | 意图挖掘方法、装置、计算机设备和存储介质 | |
CN112749249A (zh) | 司法知识图谱构建以及基于司法知识图谱搜索方法与装置 | |
CN110688516A (zh) | 图像检索方法、装置、计算机设备和存储介质 | |
CN113190658B (zh) | 提案热点精准提取的方法、装置、计算机设备和存储介质 | |
CN113688314B (zh) | 一种理疗门店推荐方法及装置 | |
CN112015968B (zh) | 信息处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |