CN114676257A - 一种对话主题确定方法及装置 - Google Patents
一种对话主题确定方法及装置 Download PDFInfo
- Publication number
- CN114676257A CN114676257A CN202210333544.4A CN202210333544A CN114676257A CN 114676257 A CN114676257 A CN 114676257A CN 202210333544 A CN202210333544 A CN 202210333544A CN 114676257 A CN114676257 A CN 114676257A
- Authority
- CN
- China
- Prior art keywords
- cluster
- determining
- keyword
- dialogue data
- conversation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本说明书公开了一种对话主题确定方法及装置,通过确定若干对话数据以及各对话数据分别对应的执行结果,并针对指定业务的每类执行结果,将该类执行结果中包含的各对话数据进行聚类,确定各聚类簇,以及各聚类簇分别对应的关键词,再根据各聚类簇中包含的对话数据,确定该类执行结果中各关键词的评价指标,进而根据各关键词在各类执行结果中的评价指标,以及预设的各类执行结果的第二权重,确定该指定业务对应的对话主题。本方案确定出的对话主题与指定业务强相关,因而保证了根据对话主题和用户开展对话时,对话的用户执行该对话主题对应的指定业务的概率,提高了业务引导的效率。
Description
技术领域
本说明书涉及计算机技术领域,尤其涉及一种对话主题确定方法及装置。
背景技术
目前,随着计算机技术的发展,业务提供方的工作人员需要根据对话主题和用户进行对话,以引导用户执行业务。因此,如何确定对话主题成为一个重要的问题。
一种常用的确定对话主题的方法,是由业务提供方的工作人员根据自身经验总结历史对话中的关键词,作为目标对话主题。
但是,由工作人员根据自身经验确定出的对话主题,与该对话主题对应的业务是否执行成功,没有明显相关性,使得根据现有技术确定出的对话主题进行业务引导时的效率较低。
发明内容
本说明书提供一种对话主题确定方法及装置,以部分的解决现有技术存在的上述问题。
本说明书采用下述技术方案:
本说明书提供一种对话主题确定方法,包括:
确定若干对话数据以及各对话数据分别对应的执行结果,所述执行结果用于指示对话数据对应的用户对指定业务的执行结果;
针对所述指定业务的每类执行结果,对该类执行结果对应的各对话数据进行聚类,得到各聚类簇,并确定所述各聚类簇分别对应的关键词;
根据各聚类簇包含的各对话数据,分别确定各聚类簇的第一权重,以确定该类执行结果中各关键词的评价指标;
根据各关键词在所述指定业务的各类执行结果中的评价指标,以及预设的各类执行结果的第二权重,确定所述指定业务对应的关键词,作为所述指定业务的对话主题。
可选的,对该类执行结果对应的各对话数据进行聚类,得到各聚类簇,具体包括:
针对该类执行结果对应的每个对话数据,确定该对话数据中包含的各语句;
确定所述各语句分别对应的分词序列,按照所述各语句在该对话数据中的先后顺序,将各分析序列依次输入语义模型,得到该对话数据对应的语义向量;
对属于该类执行结果的各语义向量进行聚类,得到各聚类簇。
可选的,确定所述各聚类簇分别对应的关键词,具体包括:
针对每个聚类簇,确定该聚类簇包含的各语义向量分别对应的对话数据;
对各对话数据的分词序列中各分词的出现频次进行统计,并根据统计结果,确定若干中心分词;
将各中心分词输入所述语义模型中,确定各中心分词对应的词向量;
针对每个词向量,根据该词向量和该聚类簇包含的各语义向量的相似度,确定该词向量对应于该聚类簇的相似度;
根据各词向量分别对应于该聚类簇的相似度,确定该聚类簇对应的关键词。
可选的,确定各聚类簇的第一权重,具体包括:
针对每个聚类簇,确定该聚类簇包含的对话数据的数量;
根据所述数量,确定该聚类簇的第一权重,所述第一权重和所述数量正相关。
可选的,根据各关键词在所述指定业务的各类执行结果中的评价指标,以及预设的各类执行结果的第二权重,确定所述指定业务对应的关键词,具体包括:
根据各关键词在所述指定业务的各类执行结果中的评价指标,以及预设的各类执行结果的第二权重,确定各关键词的最终评价;
根据所述最终评价,确定所述指定业务对应的关键词。
可选的,所述方法还包括:
按照预设的时间周期,确定各时间周期分别对应的关键词,以及各关键词分别对应的最终评价;
根据所述评价指标,确定各关键词随所述时间周期变化的趋势;
根据所述变化的趋势,确定所述指定业务对应的关键词。
可选的,根据各聚类簇包含的各对话数据,分别确定各聚类簇的第一权重,具体包括:
针对每个聚类簇,确定该聚类簇的聚类中心;
根据该聚类簇中包含的各对话数据分别与该聚类中心的距离,确定该聚类簇的相关度,并根据所述相关度,确定该聚类簇的第一权重,所述第一权重和所述相关度正相关。
本说明书提供一种对话主题确定装置,所述装置包括:
第一确定模块,用于确定若干对话数据以及各对话数据分别对应的执行结果,所述执行结果用于指示对话数据对应的用户对指定业务的执行结果;
关键词确定模块,用于针对所述指定业务的每类执行结果,对该类执行结果对应的各对话数据进行聚类,得到各聚类簇,并确定所述各聚类簇分别对应的关键词;
第二确定模块,用于根据各聚类簇包含的各对话数据,分别确定各聚类簇的第一权重,以确定该类执行结果中各关键词的评价指标;
对话主题确定模块,用于根据各关键词在所述指定业务的各类执行结果中的评价指标,以及预设的各类执行结果的第二权重,确定所述指定业务对应的关键词,作为所述指定业务的对话主题。
本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述对话主题确定方法。
本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述对话主题确定方法。
本说明书采用的上述至少一个技术方案能够达到以下有益效果:
在本说明书提供的对话主题确定方法中,通过确定若干对话数据以及各对话数据分别对应的执行结果,并针对指定业务的每类执行结果,将该类执行结果中包含的各对话数据进行聚类,确定各聚类簇,以及各聚类簇分别对应的关键词,再根据各聚类簇中包含的对话数据,确定该类执行结果中各关键词的评价指标,进而根据各关键词在各类执行结果中的评价指标,以及预设的各类执行结果的第二权重,确定该指定业务对应的对话主题。
从上述方法中可以看出,本方案确定出的对话主题与指定业务强相关,因而保证了根据对话主题和用户开展对话时,对话的用户执行该对话主题对应的指定业务的概率,提高了业务引导的效率。
附图说明
此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,本说明书的示意性实施例及其说明用于解释本说明书,并不构成对本说明书的不当限定。在附图中:
图1为本说明书中提供的对话主题确定方法的流程示意图;
图2为本说明书提供的确定关键词的流程示意图;
图3为本说明书提供的各对话主题对应的分析图;
图4为本说明书提供的对话主题确定装置示意图;
图5为本说明书提供的对应于图1的电子设备示意图。
具体实施方式
为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书保护的范围。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
在业务引导领域,业务提供方的工作人员通常可通过电话、客户端等进行交流,根据对话主题和用户进行沟通,以引导用户执行业务。
以对话主题为健身服务为例,业务提供方的工作人员可通过向用户打电话的方式,围绕健身服务和用户展开对话,以使用户执行该健身服务对应的指定业务。
但目前,通常为工作人员根据自身工作经验,总结得到对话主题,但对话主题和该对话主题对应的业务是否执行成功,没有明显相关性,也就是说,总结得到的对话主题在实际开展对话的过程中,对话的用户是否可执行该对话主题对应的指定业务,其实是尚未可知的。
其中,该指定业务为该对话主题对应的业务,具体可为点击、收藏、下单中的至少一种。当然,具体的指定业务的类型可根据需要进行设置,本说明书对此不做限制。
基于此,本说明书提供一种新的对话主题确定方法。
图1为本说明书中提供的对话主题确定方法的流程示意图,具体包括以下步骤:
S100:确定若干对话数据以及各对话数据分别对应的执行结果,所述执行结果用于指示对话数据对应的用户对指定业务的执行结果。
区别于目前由业务提供方的工作人员根据经验从历史对话数据中提取关键词,将提取出的关键词作为对话主题,但无法确定根据提取出的对话主题和用户开展对话时,对话的用户是否会执行该对话主题对应的指定业务,使得确定出的对话主题的准确率较低的情况。本说明书提供一种新的对话主题确定方法,可基于历史上的若干对话数据以及各对话数据分别对应的执行结果,对各对话数据进行聚类,根据聚类得到的聚类簇,确定关键词,再根据关键词,确定指定业务对应的对话主题。
基于此,该服务器可首先确定历史对话数据以及各对话数据分别对应的执行结果。
在本说明书提供的一个或多个实施例中,该对话主题确定方法,可由业务提供方的服务器执行,则后续以服务器执行该对话主题确定方法为例进行说明。
具体的,在服务提供方的工作人员和用户展开对话时,该服务器可将工作人员和用户之间的对话作为对话数据进行存储。其中,针对每个对话数据,该对话数据包含工作人员和用户开始对话,直至结束对话为止的所有数据。该对话数据可为音频数据、文本数据、视频数据等,具体的对话数据的形式可根据需要进行设置,本说明书对此不做限制。
以此对话数据为例,该对话数据可包含服务提供方的工作人员和用户开始对话、工作人员向用户展示产品、介绍产品包含的服务等等在结束对话之前的所有数据。
然后,在需确定对话主题时,该服务器可获取预先存储的各对话数据。
当然,在确定对话数据的同时,该服务器还需确定该对话数据对应的执行结果。其中,该执行结果用于指示对话数据对应的用户对指定业务的执行结果,即,对话数据对应的用户是否执行该指定业务。
具体的,针对每个对话数据,该服务器可确定该对话数据对应的用户的标识,并根据该标识,确定该用户对指定业务的执行结果,进而将该执行结果作为该对话数据对应的执行结果。
以指定业务为点击业务为例,在工作人员和用户对话过程中以及对话结束后,该服务器可根据该用户对应的标识,确定该用户对指定业务的执行结果。若用户执行了该指定业务,则该服务器可确定该对话数据对应的执行结果为“执行成功”。若用户未执行该指定业务,则该服务器可确定该对话数据对应的执行结果为“执行失败”。
当然,上述执行结果包含的类型可根据需要进行设置,本说明书对此不做限制。
S102:针对所述指定业务的每类执行结果,对该类执行结果对应的各对话数据进行聚类,得到各聚类簇,并确定所述各聚类簇分别对应的关键词。
在本说明书提供的一个或多个实施例中,针对该指定业务的每类执行结果,若对该类执行结果对应的各对话数据进行聚类,则针对得到的每个聚类簇,该聚类簇包含的每个对话数据,与该聚类簇中包含的其他对话数据都具有相同特征或相近特征的对话数据。而若将该相同特征或相近特征进行提取,则提取出的特征所表征的关键词可用于表征在该类执行结果中,该聚类簇包含的各对话数据的共同点。则根据确定出的各关键词,该服务器可确定对话主题。
基于此,该服务器可针对指定业务的每类执行结果,对该类执行结果对应的各对话数据进行聚类,得到各聚类簇,并确定各聚类簇分别对应的关键词
具体的,根据步骤S100中的内容,该服务器可将执行结果分为“执行成功”和“执行失败”两种类型。并分别确定“执行成功”类型的对应的各对话数据以及“执行失败”类型对应的各对话数据。
然后,针对每类执行结果,该服务器可对该类型对应的各对话数据进行聚类,得到各聚类簇。
最后,针对每个聚类簇,该服务器可根据该聚类簇中包含的各对话数据,将各对话数据中包含的各字符出现的频次进行统计,并根据统计结果,得到该聚类簇对应的关键词。
进一步的,若仅根据对话数据进行聚类,则文本数据和音频数据由于编码上的不同之处,可能导致聚类结果并不准确,因此,该服务器可将各对话数据的格式转换为一种,并确定各对话数据分别对应的语句,再根据各语句,对各对话数据进行聚类。
具体的,当该对话数据为音频数据时,该服务器可针对每个对话数据,确定该对话数据对应的音频数据。
之后,将该音频数据作为输入,输入预先确定出的语义识别算法,将音频数据转写为文本数据。
最后,根据确定出的文本数据、音频数据的特征,如,梅尔倒谱系数(Mel-scaleFrequencyCepstral Coefficients,MFCC)等,对确定出的文本数据进行分句,确定该对话数据分别对应的各语句。
更进一步的,针对每个聚类簇,若该聚类簇为根据特征的编码形式等进行聚类,则其确定出的聚类簇的共同点,可用于表征该聚类簇包含的各对话数据所共同的编码形式。而若对各对话数据进行语义聚类,则得到的各聚类簇中的各对话数据都含有相近语义。
基于此,该服务器可对各对话数据进行语义聚类。
具体的,在确定出各语句后,该服务器可将该对话数据包含的所有语句作为输入,依次输入预先训练好的语义模型中,得到该对话数据对应的语义向量。
其中,该语义模型可为编码-解码器网络,也可为卷积神经网络等。具体的语义模型的结构可根据需要进行设置,本说明书对此不做限制。
当然,由于语句的长度通常不等,不同语句所包含的字符的数目可能差距较大,因此,该服务器还可对确定出的语句进行分词,确定对话数据所包含的各语句对应的分词序列,再将分词序列作为模型的输入,确定语义向量。
另外,考虑到语句中可能包含过多“我”、“您”等文字,导致根据确定出的语义向量在进行聚类时,聚类结果为“我”、“您”等文字所表征的语义,在确定语义向量前,该服务器还可对确定出的语句进行分词,并将停用词等词语进行过滤。
具体的,该服务器可预先训练出确定分词模型。
其次,该服务器可针对文本数据中包含的每个语句,将各语句作为输入,输入该预先训练好的分词模型中,输出各语句分别对应的分词结果。
然后,针对每个语句,该服务器可根据预设的停用词表等,对该语句对应的分词结果进行更新,即,将分词结果中的停用词等进行过滤,得到该语句对应的不包含停用词的词序列。
最后,该服务器可将更新结果作为该语句对应的分词序列。
其中,针对每个语句,该语句对应的语义向量可采用下述方式:
该服务器可预先利用有标注的数据,训练得到语义提取模型,则在确定出个语句后,该服务器可针对每个语句,将该语句作为输入,输入预先训练好的语义提取模型中,确定该语句对应的语义向量,作为该语句对应的语义向量。
另外,上述对各语句进行处理,确定各语句对应的分词序列,通常包括三个部分:中文分词、文本清洗、文本去燥。其中,中文分词为将连续的、无间隔的中文序列按照一定的规范分割成一个个词语;中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。文本清洗主要为了统一文本,将文本规范化,方便后续的分析挖掘工作开展;主要包括以下处理步骤:大小写转换、全角半角转换、简繁体转换、特殊字符转换。文本去噪主要为剔除停用词,即删除对理解文本无明显意义的词语,比如:语气助词、副词、介词、连词等高频但无明确意义的词语。
确定分词序列,能有效剔除文本中不重要的信息,在保留语义信息的基础上有效的规范化文本,为后续确定语义向量提供了统一的输入文本。
进一步的,在根据语义向量进行聚类时,该服务器可基于语义模型,确定各聚类簇分别对应的关键词。
具体的,该服务器可针对每个聚类簇,确定该聚类簇包含的各语义向量分别对应的对话数据。
其次,该服务器可对各对话数据的分词序列中各分词的出现频次进行统计,并根据统计结果,确定若干中心分词。
然后,该服务器可将各中心分词输入该语义模型中,确定各中心分词对应的分词向量。
最后,该服务器可根据各分词向量和该聚类簇包含的各语义向量,确定该聚类簇对应的关键词。
其中,上述各对话数据的分词序列,可为根据停用词表更新后的,也可未根据停用词表更新的。
S104:根据各聚类簇包含的各对话数据,分别确定各聚类簇的第一权重,以确定该类执行结果中各关键词的评价指标。
在本说明书中提供的一个或多个实施例中,针对指定业务的每类执行结果,该类执行结果中对应的各聚类簇中,若某聚类簇中包含的对话数据较多,另一聚类簇中包含的对话数据较少,则根据包含对话数据较多的聚类簇对应的关键词进行对话时,对话的用户执行指定业务的执行结果为该类执行结果的可能性较高,而根据包含对话数据较少的聚类簇对应的关键词进行对话时,对话的用户执行指定业务的执行结果为该类执行结果的可能性较低。
基于此,该服务器可根据各聚类簇包含的各对话数据,分别确定各聚类簇的第一权重,以确定该类执行结果中各关键词的评价指标。
具体的,该服务器可针对每个聚类簇,确定该聚类簇包含的各对话数据。
然后,该服务器可根据该聚类簇包含的对话数据的数量,确定该聚类簇的第一权重,其中,该第一权重用于表征该聚类簇在该聚类簇所属的该类执行结果中的比重。该第一权重和该聚类簇包含的对话数据的数量正相关。
最后,该服务器可根据该聚类簇的第一权重,确定该类执行结果中该关键词的评价指标。
其中,该评价指标可为得分,如,直接将该聚类簇的第一权重,作为该关键词的评价指标,该评价指标还可为预设的等级,如,根据该聚类的第一权重,确定该第一权重落入的权重区间,并根据该区间,确定该聚类簇所对应的等级,并根据该等级确定该聚类簇对应的关键词的评价指标。
进一步的,针对指定业务的每类执行结果中的每个聚类簇,若该聚类簇包含的各语义向量与该聚类簇的聚类中心的距离都较小,则根据该聚类簇对应的关键词开展对话时,对话的语义以及对话的流程都较为相似,也就是说,根据该聚类簇对应的关键词开展对话时,用户执行指定业务的执行结果为该类执行结果的概率较为稳定。
基于此,该服务器可基于聚类簇中各对话数据的相似度,确定第一权重。
具体的,该服务器可针对每个聚类簇,确定该聚类簇的聚类中心的位置;
然后,该服务器可分别确定该聚类簇中包含的各对话数据分别和聚类中心的距离。
最后,该服务器可根据确定出的距离,确定该聚类簇的第一权重。其中,该第一权重和该距离负相关,也就是说,距离越近,第一权重越高,距离越远,第一权重越小。
其中,该距离可为欧氏距离等,且该距离可为各对话数据和该聚类中心的距离叠加确定,也可为平均距离,具体的距离的确定方法及类型可根据需要进行设置,本说明书对此不做限制。
S106:根据各关键词在所述指定业务的各类结果中的评价指标,以及预设的各类执行结果的第二权重,确定所述指定业务对应的关键词,作为所述指定业务的对话主题。
在本说明书提供的一个或多个实施例中,如前所述的,对于指定业务的每类执行结果,在根据该类执行结果所对应的各聚类簇的关键词开展对话时,对话的用户执行指定业务的执行结果为该类执行结果的概率较高。但若在不同的执行结果中存在相同的关键词,则仅根据关键词的评价指标,可能无法确定该指定业务对应的关键词。而若对各类执行结果分别预设第二权重,则根据各关键词的评价指标和各第二权重,即可确定指定业务对应的关键词。
基于此,该服务器可基于根据各关键词在指定业务的各类执行结果中的评价指标,以及预设的各类执行结果的第二权重,确定指定业务对应的关键词,作为指定业务的对话主题。
具体的,该服务器可首先确定各关键词,即,对该指定业务的每类执行结果中的关键词进行统计,确定各关键词。
然后,该服务器可针对每个关键词,根据该关键词在该指定业务的各类执行结果中的评价指标,以及预设的各类执行结果的第二权重,确定各关键词分别对应的最终评价。
以指定业务包含执行成功和执行失败两类执行结果,且执行成功的权重为1,执行失败的权重为-1为例,若关键词“机械”在指定业务的执行成功中的评价指标为5,在指定业务的执行失败中的评价指标为7,则可确定该关键词“机械”的最终评价为-2。
最后,该服务器可根据各关键词分别对应的最终评价,对各关键词进行排序,并根据该排序,确定该指定业务对应的关键词,作为该指定业务对应的对话主题。
当然,除确定最终评价外,该服务器还可针对每类执行结果,将该类执行结果中的各关键词根据评价指标进行排序,确定该执行结果中的关键词排序。然后,根据各类执行结果的权重,以及其他类执行结果中的关键词序列,对该执行结果的关键词进行更新。如,执行成功的关键词序列为A、B、C。执行失败的关键词序列为B、D,则服务器可从该执行成功的关键词序列中,将关键词B剔除。具体确定指定业务对应的关键词的方法可根据需要进行设置,本说明书对此不做限制。
基于图1的对话主题确定方法,通过确定若干对话数据以及各对话数据分别对应的执行结果,并针对指定业务的每类执行结果,将该类执行结果中包含的各对话数据进行聚类,确定各聚类簇,以及各聚类簇分别对应的关键词,再根据各聚类簇中包含的对话数据,确定该类执行结果中各关键词的评价指标,进而根据各关键词在各类执行结果中的评价指标,以及预设的各类执行结果的第二权重,确定该指定业务对应的对话主题。本方案确定出的对话主题与指定业务强相关,因而保证了根据对话主题和用户开展对话时,对话的用户执行该对话主题对应的指定业务的概率,提高了业务引导的效率。
基于图1所示的对话主题确定方法,本说明书提供确定对话主题的流程示意图,如图2所示。
图2为本说明书提供的确定对话主题的流程示意图,图中,该服务器可从数据库中,确定若干对话数据及其对应的执行结果。然后,根据指定业务的各类执行结果,该服务器可对获取到的对话数据进行分类,并针对指定业务的每类执行结果,将该类执行结果中包含的各对话数据分别进行聚类,得到各聚类簇。图中,白色原点对应的聚类簇为关键词A对应的聚类簇,浅灰色色原点对应的聚类簇为关键词B对应的聚类簇,黑色原点对应的聚类簇为关键词C对应的聚类簇,深灰色原点对应的聚类簇为关键词D对应的聚类簇。且执行指定业务的第二权重为1,未执行指定业务的第二权重为-1。
于是,根据各关键词各类执行结果中的评价指标,以及预设的各类执行结果的第二权重,可确定各关键词对应的最终评价,其中,关键词A的最终评价为3,关键词B的最终评价为-2,关键词C的最终评价为4,关键词D的最终评价为-3。于是,根据上述最终评价,该服务器可确定关键词C为该指定业务对应的关键词,并将关键词C作为指定业务的对话主题。
需要说明的是,上述数据库只是作为对话数据及其对应的执行结果的存储方式的示例说明,具体如何将对话数据及其执行结果进行预先存储并在需要使用时进行获取,可根据需要进行设置,本说明书对此不做限制。
另外,在确定出指定业务的对话主题后,该服务器可基于该对话主题,为各指定业务生成优秀话术。以保证业务引导效率。
进一步的,对话主题会随着时间的变化而变化,因此,为了准确确定出对话主题,该服务器还可基于各关键词随时间周围的变化趋势,确定指定业务的关键词。
具体的,该服务器可按照预设的时间周期,分别获取各时间周期的对话数据。
然后,针对每个时间周期,按照上述步骤S100~S106,确定该时间周期的关键词以及各关键词的最终评价。
最后,根据各最终评价,确定各关键词的变化趋势,并根据该变化趋势,确定该指定业务的关键词。如图3所示。
图3为本说明书提供的各对话主题对应的分析图。图中,以每个月为一个时间周期,分别获取了从一月到三月的各关键词,以及各关键词对应的最终评价。则根据最终评价,该服务器可分别确定各关键点随时间变化的趋势。如,A:10-7-6,B:7-9-8,C:5-4-1,D:1-2-7。则根据变化趋势,该服务器可确定在下一个周期内可使用的对话主题。如,对话主题D对应的趋势为稳步上升,则可确定该话题点D为下一周期使用的对话主题。
当然,具体如何根据对变化趋势确定对话主题,可根据需要进行设置,本说明书对此不做限制。
另外,在本说明书中,该指定业务可为多个,且各指定业务可存在于一个服务中,如,保险服务涉及的指定业务可包括点击业务、收藏业务、下单业务等。则该服务器可根据各执行业务的每类执行结果,确定该服务的各类执行结果以及各类执行结果的第三权重。
进而根据各聚类簇的第一权重和该各类执行结果的第三权重,确定各关键词对应的权重,再根据各权重,确定该服务对应的关键词,作为该服务的对话主题。
以上为本说明书的一个或多个实施例提供的对话主题确定方法,基于同样的思路,本说明书还提供了相应的对话主题确定装置,如图4所示。
图4为本说明书提供的对话主题确定装置示意图,包括:
第一确定模块200,用于确定若干对话数据以及各对话数据分别对应的执行结果,所述执行结果用于指示对话数据对应的用户对指定业务的执行结果。
关键词确定模块202,用于针对所述指定业务的每类执行结果,对该类执行结果对应的各对话数据进行聚类,得到各聚类簇,并确定所述各聚类簇分别对应的关键词。
第二确定模块204,用于根据各聚类簇包含的各对话数据,分别确定各聚类簇的第一权重,以确定该类执行结果中各关键词的评价指标。
对话主题确定模块206,用于根据各聚类簇包含的各对话数据,分别确定各聚类簇的第一权重,以确定该类执行结果中各关键词的评价指标。
可选的,所述关键词确定模块202,用于针对该类执行结果对应的每个对话数据,确定该对话数据中包含的各语句,确定所述各语句分别对应的分词序列,按照所述各语句在该对话数据中的先后顺序,将各分析序列依次输入语义模型,得到该对话数据对应的语义向量,对属于该类执行结果的各语义向量进行聚类,得到各聚类簇。
可选的,所述关键词确定模块202,用于针对每个聚类簇,确定该聚类簇包含的各语义向量分别对应的对话数据,对各对话数据的分词序列中各分词的出现频次进行统计,并根据统计结果,确定若干中心分词,将各中心分词输入所述语义模型中,确定各中心分词对应的词向量,针对每个词向量,根据该词向量和该聚类簇包含的各语义向量的相似度,确定该词向量对应于该聚类簇的相似度,根据各词向量分别对应于该聚类簇的相似度,确定该聚类簇对应的关键词
可选的,所述第二确定模块204,用于针对每个聚类簇,确定该聚类簇包含的对话数据的数量,根据所述数量,确定该聚类簇的第一权重,所述第一权重和所述数量正相关。
可选的,所述第二确定模块204,用于针对每个聚类簇,确定该聚类簇的聚类中心,根据该聚类簇中包含的各对话数据分别与该聚类中心的距离,确定该聚类簇的相关度,并根据所述相关度,确定该聚类簇的第一权重,所述第一权重和所述相关度正相关。
可选的,所述关键词确定模块202,用于针对每个聚类簇,确定该聚类簇包含的各语义向量分别对应的对话数据,对各对话数据的分词序列中各分词的出现频次进行统计,并根据统计结果,确定若干中心分词,将各中心分词输入所述语义模型中,确定各中心分词对应的分词向量,根据各分词向量和该聚类簇包含的各语义向量,确定该聚类簇对应的关键词。
可选的,所述对话主题确定模块206,用于根据各关键词在所述指定业务的各类执行结果中的评价指标,以及预设的各类执行结果的第二权重,确定各关键词的最终评价,根据所述最终评价,确定所述指定业务对应的关键词。
可选的,所述对话主题确定模块206,用于按照预设的时间周期,确定各时间周期分别对应的关键词,以及各关键词分别对应的最终评价,根据所述评价指标,确定各关键词随所述时间周期变化的趋势,根据所述变化的趋势,确定所述指定业务对应的关键词。
需要说明的是,本发明中所有获取信号、信息或数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下,并获得由相应装置所有者给予授权的情况下进行的。
本说明书还提供了一种计算机可读存储介质,该存储介质存储有计算机程序,计算机程序可用于执行上述图1提供的对话主题确定方法。
本说明书还提供了图5所示的电子设备的示意结构图。如图5所述,在硬件层面,该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,以实现上述图1所述的对话主题确定方法。当然,除了软件实现方式之外,本说明书并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。
Claims (10)
1.一种对话主题确定方法,其特征在于,包括:
确定若干对话数据以及各对话数据分别对应的执行结果,所述执行结果用于指示对话数据对应的用户对指定业务的执行结果;
针对所述指定业务的每类执行结果,对该类执行结果对应的各对话数据进行聚类,得到各聚类簇,并确定所述各聚类簇分别对应的关键词;
根据各聚类簇包含的各对话数据,分别确定各聚类簇的第一权重,以确定该类执行结果中各关键词的评价指标;
根据所述各关键词在所述指定业务的各类执行结果中的评价指标,以及预设的各类执行结果的第二权重,确定所述指定业务对应的关键词,作为所述指定业务的对话主题。
2.如权利要求1所述的方法,其特征在于,对该类执行结果对应的各对话数据进行聚类,得到各聚类簇,具体包括:
针对该类执行结果对应的每个对话数据,确定该对话数据中包含的各语句;
确定所述各语句分别对应的分词序列,按照所述各语句在该对话数据中的先后顺序,将各分词序列依次输入语义模型,得到该对话数据对应的语义向量;
对属于该类执行结果的各语义向量进行聚类,得到各聚类簇。
3.如权利要求2所述的方法,其特征在于,确定所述各聚类簇分别对应的关键词,具体包括:
针对每个聚类簇,确定该聚类簇包含的各语义向量分别对应的对话数据;
对各对话数据的分词序列中各分词的出现频次进行统计,并根据统计结果,确定若干中心分词;
将各中心分词输入所述语义模型中,确定各中心分词对应的词向量;
针对每个词向量,根据该词向量和该聚类簇包含的各语义向量的相似度,确定该词向量对应于该聚类簇的相似度;
根据各词向量分别对应于该聚类簇的相似度,确定该聚类簇对应的关键词。
4.如权利要求1所述的方法,其特征在于,确定各聚类簇的第一权重,具体包括:
针对每个聚类簇,确定该聚类簇包含的对话数据的数量;
根据所述数量,确定该聚类簇的第一权重,所述第一权重和所述数量正相关。
5.如权利要求1所述的方法,其特征在于,根据所述各关键词在所述指定业务的各类执行结果中的评价指标,以及预设的各类执行结果的第二权重,确定所述指定业务对应的关键词,具体包括:
根据各关键词在所述指定业务的各类执行结果中的评价指标,以及预设的各类执行结果的第二权重,确定各关键词的最终评价;
根据所述最终评价,确定所述指定业务对应的关键词。
6.如权利要求5所述的方法,其特征在于,所述方法还包括:
按照预设的时间周期,确定各时间周期分别对应的关键词,以及各关键词分别对应的最终评价;
根据所述评价指标,确定各关键词随所述时间周期变化的趋势;
根据所述变化的趋势,确定所述指定业务对应的关键词。
7.如权利要求1所述的方法,其特征在于,根据各聚类簇包含的各对话数据,分别确定各聚类簇的第一权重,具体包括:
针对每个聚类簇,确定该聚类簇的聚类中心;
根据该聚类簇中包含的各对话数据分别与该聚类中心的距离,确定该聚类簇的相关度,并根据所述相关度,确定该聚类簇的第一权重,所述第一权重和所述相关度正相关。
8.一种对话主题确定装置,其特征在于,所述装置包括:
第一确定模块,用于确定若干对话数据以及各对话数据分别对应的执行结果,所述执行结果用于指示对话数据对应的用户对指定业务的执行结果;
关键词确定模块,用于针对所述指定业务的每类执行结果,对该类执行结果对应的各对话数据进行聚类,得到各聚类簇,并确定所述各聚类簇分别对应的关键词;
第二确定模块,用于根据各聚类簇包含的各对话数据,分别确定各聚类簇的第一权重,以确定该类执行结果中各关键词的评价指标;
对话主题确定模块,用于根据所述各关键词在所述指定业务的各类执行结果中的评价指标,以及预设的各类执行结果的第二权重,确定所述指定业务对应的关键词,作为所述指定业务的对话主题。
9.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1~7任一项所述的方法。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述权利要求1~7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210333544.4A CN114676257A (zh) | 2022-03-30 | 2022-03-30 | 一种对话主题确定方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210333544.4A CN114676257A (zh) | 2022-03-30 | 2022-03-30 | 一种对话主题确定方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114676257A true CN114676257A (zh) | 2022-06-28 |
Family
ID=82077032
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210333544.4A Pending CN114676257A (zh) | 2022-03-30 | 2022-03-30 | 一种对话主题确定方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114676257A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115795040A (zh) * | 2023-02-10 | 2023-03-14 | 成都桉尼维尔信息科技有限公司 | 一种用户画像分析方法及系统 |
-
2022
- 2022-03-30 CN CN202210333544.4A patent/CN114676257A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115795040A (zh) * | 2023-02-10 | 2023-03-14 | 成都桉尼维尔信息科技有限公司 | 一种用户画像分析方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111488426B (zh) | 一种查询意图确定方法、装置及处理设备 | |
CN107437416B (zh) | 一种基于语音识别的咨询业务处理方法及装置 | |
CN107679082A (zh) | 问答搜索方法、装置以及电子设备 | |
CN112735374B (zh) | 一种自动语音交互的方法及装置 | |
CN117076650B (zh) | 一种基于大语言模型的智能对话方法、装置、介质及设备 | |
CN108875743B (zh) | 一种文本识别方法及装置 | |
CN112417093B (zh) | 一种模型训练的方法及装置 | |
CN111611393A (zh) | 一种文本分类方法、装置及设备 | |
CN115203394A (zh) | 一种模型训练的方法、业务执行的方法及装置 | |
CN113887206B (zh) | 一种模型训练及关键词提取方法及装置 | |
CN110688460B (zh) | 风险识别的方法、装置、可读存储介质以及电子设备 | |
CN114880472A (zh) | 数据处理方法、装置及设备 | |
CN117390293B (zh) | 一种针对纠纷案件的信息推荐方法、装置、介质及设备 | |
CN114676257A (zh) | 一种对话主题确定方法及装置 | |
CN117669598A (zh) | 一种安全智能问答方法、装置及相关设备 | |
CN114511376A (zh) | 基于多模型的信用数据处理方法及装置 | |
CN115658891B (zh) | 一种意图识别的方法、装置、存储介质及电子设备 | |
CN108804603B (zh) | 人机书面对话方法及系统、服务器、介质 | |
CN115862675B (zh) | 一种情感识别方法、装置、设备及存储介质 | |
CN117744837B (zh) | 一种模型训练、文本检测方法、装置、存储介质及设备 | |
CN116340469B (zh) | 一种同义词挖掘方法、装置、存储介质及电子设备 | |
CN117494068B (zh) | 一种结合深度学习与因果推断的网络舆情分析方法及装置 | |
CN117035695B (zh) | 一种信息预警的方法、装置、可读存储介质以及电子设备 | |
CN114116816B (zh) | 一种推荐方法及装置 | |
CN118069824A (zh) | 一种风险识别的方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |