CN115146653B - 对话剧本构建方法、装置、设备及存储介质 - Google Patents

对话剧本构建方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115146653B
CN115146653B CN202210873405.0A CN202210873405A CN115146653B CN 115146653 B CN115146653 B CN 115146653B CN 202210873405 A CN202210873405 A CN 202210873405A CN 115146653 B CN115146653 B CN 115146653B
Authority
CN
China
Prior art keywords
dialogue
intention
sequence
dialog
refused
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210873405.0A
Other languages
English (en)
Other versions
CN115146653A (zh
Inventor
廖泽翔
王燕蒙
李剑锋
王少军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202210873405.0A priority Critical patent/CN115146653B/zh
Publication of CN115146653A publication Critical patent/CN115146653A/zh
Application granted granted Critical
Publication of CN115146653B publication Critical patent/CN115146653B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及人工智能领域,揭露一种对话剧本构建方法,包括:利用预设的意图识别模型将原始对话数据集进行意图识别,得到对话意图;查询意图识别模型未识别原始对话数据集中的拒识对话数据,将拒识对话数据进行聚类意图识别,得到拒识对话意图;根据对话意图及拒识对话意图将原始对话数据集映射为对话意图序列;将对话意图序列进行频繁项挖掘,得到对话序列频繁项集;基于对话序列频繁项集构建目标对话剧本。本发明还涉及一种区块链技术,目标对话剧本可存储在区块链节点中。本发明还提出一种对话剧本构建装置、设备以及介质。本发明可以提高对话剧本构建的效率及准确率。

Description

对话剧本构建方法、装置、设备及存储介质
技术领域
本发明涉及人工智能领域,尤其涉及一种对话剧本构建方法、装置、设备及存储介质。
背景技术
当前,随着自然语言处理技术的愈发成熟,智能对话机器人在企业客服、电话销售等行业中广泛应用。在企业客服行业中,常常使用智能对话机器人进行智能电话外呼,即通过智能对话机器人对客户声音进行语音识别和对应文本的意图识别,理解客户的话术意图,并根据预先设置好的对话剧本流程与客户进行对话,以获取客户意向。且在智能电话外呼中,预先构建的对话剧本流程是整个任务的关键。
在对话剧本构建的传统方法中,是通过企业组织专家对大量历史客服与客户之间的对话日志进行分析,梳理对话日志中的话术意图,并统计话术意图出现的次序,以得到对话剧本。但是,这种传统方法一方面需要耗费大量人力资源进行对话分析及对话意图识别,使得对话剧本构建的效率较低;另一方面,通过人工分析对话过程受限于专家经验,在分析过程中可能会出现对话意图遗漏,使得整个对话剧本流程不完整,导致对话剧本构建的准确率较低。
发明内容
本发明提供一种对话剧本构建方法、装置、设备及存储介质,其主要目的是提高对话剧本构建的效率及准确率。
为实现上述目的,本发明提供了一种对话剧本构建方法,包括:
获取原始对话数据集,利用预设的意图识别模型将所述原始对话数据集进行意图识别,得到对话意图;
查询所述意图识别模型未识别所述原始对话数据集中的拒识对话数据,将所述拒识对话数据进行聚类意图识别,得到拒识对话意图;
根据所述对话意图及所述拒识对话意图将所述原始对话数据集映射为对话意图序列;
将所述对话意图序列进行频繁项挖掘,得到对话序列频繁项集;
基于所述对话序列频繁项集构建目标对话剧本。
可选地,所述将所述拒识对话数据进行聚类意图识别,得到拒识对话意图,包括:
利用预设的语义模型预测所述拒识对话数据的相似语义对话数据,并计算所述相似语义对话数据与所述拒识对话数据的相似度,得到拒识对话语义向量集;
根据所述拒识对话语义向量集确定多个聚类中心及聚类簇,定义所述聚类中心与所述聚类簇的损失函数;
利用所述损失函数将所述拒识对话语义向量集中的各个拒识对话语义向量分配至与所述聚类中心最近的聚类簇中,并重新更新所述聚类中心,直到所述更新的聚类中心与对应的聚类簇同时收敛,得到所述拒识对话数据对应的拒识对话意图。
可选地,所述定义所述聚类中心与所述聚类簇的损失函数,包括:
利用下述公式定义所述聚类中心与所述聚类簇的损失函数:
Figure BDA0003760078500000021
其中,所述J(c,u)表示损失函数;所述c表示聚类簇,且聚类簇是指同类别的拒识对话语义向量;所述u表示聚类中心,且聚类中心是指拒识对话语义向量集中随机选取的拒识对话语义向量;所述M表示拒识对话语义向量集;所述xi表示拒识对话语义向量集中第i个拒识对话语义向量;所述ci表示xi所属的聚类簇;所述
Figure BDA0003760078500000022
表示xi所属的聚类簇对应的聚类中心。
可选地,所述将所述对话意图序列进行频繁项挖掘,得到对话序列频繁项集,包括:
获取所述对话意图序列的前缀序列及投影数据库,将所述前缀序列及所述投影数据库存储至预设的消息队列中;
接收客户端发出的挖掘任务请求,根据所述挖掘任务请求利用预设的任务处理器从所述消息队列中获取所述前缀序列及所述投影数据库,并根据预设的前缀序列长度将挖掘任务请求拆分为多个子任务,对各个所述子任务对应的前缀序列进行递归频繁项挖掘,得到所述前缀序列对应的前缀投影数据项;
将各个所述子任务的所述前缀投影数据项与所述前缀序列进行合并,得到所述对话序列频繁项集。
可选地,所述利用预设的意图识别模型将所述原始对话数据集进行意图识别,得到对话意图,包括:
利用所述意图识别模型中的嵌入层将所述原始对话数据集进行分词,得到对话词向量集;
利用所述意图识别模型中的自注意力机制层将所述对话词向量集进行特征提取,得到对话特征向量集;
利用所述意图识别模型中的全连接层输出所述对话特征向量集的对话意图。
可选地,所述根据所述对话意图及所述拒识对话意图将所述原始对话数据集映射为对话意图序列,包括:
将所述对话意图及所述拒识对话意图根据发生的对话时间进行意图排序,得到排序对话意图;
将所述排序对话意图进行意图序号标注,得到所述对话意图序列。
可选地,所述基于所述对话序列频繁项集构建目标对话剧本,包括:
将所述对话序列频繁项集进行业务划分,得到所述对话序列频繁项集的业务类别;
根据所述业务类别从所述对话序列频繁项集筛选出目标对话序列频繁项集,并将所述目标对话序列频繁项集流程化,得到所述目标对话剧本。
为了解决上述问题,本发明还提供一种对话剧本构建装置,所述装置包括:
对话意图识别模块,用于获取原始对话数据集,利用预设的意图识别模型将所述原始对话数据集进行意图识别,得到对话意图;
拒识对话意图识别模块,用于查询所述意图识别模型未识别所述原始对话数据集中的拒识对话数据,将所述拒识对话数据进行聚类意图识别,得到拒识对话意图;
对话意图序列映射模块,用于根据所述对话意图及所述拒识对话意图将所述原始对话数据集映射为对话意图序列;
对话序列挖掘模块,用于将所述对话意图序列进行频繁项挖掘,得到对话序列频繁项集;
对话剧本构建模块,用于基于所述对话序列频繁项集构建目标对话剧本。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
存储器,存储至少一个计算机程序;及
处理器,执行所述存储器中存储的计算机程序以实现上述所述的对话剧本构建方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的对话剧本构建方法。
本发明实施例中,首先通过利用预设的意图识别模型将所述原始对话数据集进行意图识别,得到对话意图,无需耗费大量人力资源进行对话意图分析就可以准确识别出原始对话数据集对应的对话意图,提高后续对话剧本构建的效率;其次通过查询所述意图识别模型未识别所述原始对话数据集中的拒识对话数据,将所述拒识对话数据进行聚类意图识别,可以将意图识别模型未识别到的对话数据进行聚类意图识别,提取完整的对话数据意图,避免人工分析分析对话的意图出现遗漏,以提高后续对话剧本构建的准确率,进一步地,通过根据识别到的完整对话意图将所述原始对话数据集映射为对话意图序列,可以便于后续挖掘对话意图中出现的意图频繁项;最后通过将所述对话意图序列进行频繁项挖掘,可以提取对话中常常出现的对话意图项,并基于所述对话序列频繁项集构建目标对话剧本,提高对话剧本构建的效率及准确率。因此本发明实施例提出的对话剧本构建方法、装置、设备及存储介质可以提高对话剧本构建的效率及准确率。
附图说明
图1为本发明一实施例提供的对话剧本构建方法的流程示意图;
图2为本发明一实施例提供的对话剧本构建方法中一个步骤的详细流程示意图;
图3为本发明一实施例提供的对话剧本构建方法中一个步骤的详细流程示意图;
图4为本发明一实施例提供的对话剧本构建装置的模块示意图;
图5为本发明一实施例提供的实现对话剧本构建方法的电子设备的内部结构示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例提供一种对话剧本构建方法。所述对话剧本构建方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述对话剧本构建方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。
参照图1所示的本发明一实施例提供的对话剧本构建方法的流程示意图,在本发明实施例中,所述对话剧本构建方法包括以下步骤S1-S5:
S1、获取原始对话数据集,利用预设的意图识别模型将所述原始对话数据集进行意图识别,得到对话意图。
本发明实施例中,所述原始对话数据集是指企业经理或客户与客户的对话对话日志集合,比如,在金融领域中,所述原始对话数据集可以为基于产品购买的售后服务对话日志。
本发明实施例中,所述预设的意图识别模型是基于神经网络构建的模型,比如Bert或TextCNN模型,其中,所述意图识别模型包括:嵌入层、自注意力机制层及全连接层;所述对话意图是指所述原始对话数据集中每句话对应的意图,比如,对话为购买的产品什么时候生效,则真实意图为产品生效时间。
本发明实施例通过利用预设的意图识别模型将所述原始对话数据集进行意图识别,得到对话意图,可以无需耗费大量人力资源进行对话意图分析就可以准确识别出原始对话数据集对应的对话意图,提高后续对话剧本构建的效率。
本发明一实施例中,在原始对话日志中,由于对话日志中存在客服与客户两种角色,可以将客服与客户的对话通过标识(如姓名)进行角色区分,以将原始对话日志划分成不同角色的对话日志,便于后续对话剧本的构建。进一步地,在不同角色的对话日志中,可能存在某个角色在一次对话中表述了多个句子,因此可以根据句子间的标点符号进行句子切分,进一步将角色对话切分至句子粒度。
作为本发明的一个实施例,所述利用预设的意图识别模型将所述原始对话数据集进行意图识别,得到对话意图,包括:
利用所述意图识别模型中的嵌入层将所述原始对话数据集进行分词,得到对话词向量集;利用所述意图识别模型中的自注意力机制层将所述对话词向量集进行特征提取,得到对话特征向量集;利用所述意图识别模型中的全连接层输出所述对话特征向量集的对话意图。
其中,所述对话词向量集是指对话日志的向量集形式,可以通过将对话日志进行词嵌入操作,实现对话分词,以得到对话词向量集[cls]向量集,具体的,可以通过Subwordtokenizer(即子词分词器)进行词嵌入操作。
本发明一实施例中,所述自注意力机制层的主要作用是将所述对话词向量集进行特征提取,将嵌入层输出的[cls]向量集作为自注意力机制层的query向量集,另外,将[cls]向量集进行编码操作,提取[cls]向量集中的(key,value)键值对,根据query与key来计算values的加权平均值,实现将向量集表征投影到不同的向量集空间中以得到对话向量集,可以充分提取对话词向量集中的重要特征并将一些不需要的特征去除,以提高后续对话剧本构建的效率。
本发明一实施例中,利用全连接层中的激活函数(如Softmax函数)可以准确识别所述对话向量集的对话意图。
S2、查询所述意图识别模型未识别所述原始对话数据集中的拒识对话数据,将所述拒识对话数据进行聚类意图识别,得到拒识对话意图。
本发明实施例中,所述拒识对话数据是指意图识别模型未识别的到意图的对话数据,可以通过意图识别模型输出的阈值来判断拒识对话数据,当阈值小于0.5时,则存在拒识对话数据。所述拒识对话意图是指所述拒识对话数据对应的每句话的意图。
本发明实施例通过查询所述意图识别模型未识别所述原始对话数据集中的拒识对话数据,将所述拒识对话数据进行聚类意图识别,得到拒识对话意图,可以将意图识别模型未识别到的对话数据进行聚类意图识别,提取完整的对话数据意图,避免人工分析分析对话的意图出现遗漏,以提高后续对话剧本构建的准确率。
作为本发明的一个实施例,参考图2所示,所述将所述拒识对话数据进行聚类意图识别,得到拒识对话意图,包括以下步骤S21-S23:
S21、利用预设的语义模型预测所述拒识对话数据的相似语义对话数据,并计算所述相似语义对话数据与所述拒识对话数据的相似度,得到拒识对话语义向量集;
S22、根据所述拒识对话语义向量集确定多个聚类中心及聚类簇,定义所述聚类中心与所述聚类簇的损失函数;
S23、利用所述损失函数将所述拒识对话语义向量集中的各个拒识对话语义向量分配至与所述聚类中心最近的聚类簇中,并重新更新所述聚类中心,直到所述更新的聚类中心与对应的聚类簇同时收敛,得到所述拒识对话数据对应的拒识对话意图。
其中,所述预设的语义模型可以为Simbert模型,主要作用是提取拒识对话数据中各个对话的语义向量;所述语义模型通过利用seq2seq(即序列到序列模型)中的编码器将拒识对话数据编码成固定大小的向量a,再利用解码器将向量a进行解码,生成对应的相似语义对话数据;所述相似度可以通过余弦相似度算法进行计算,进一步提取相似语义对话数据中语义相似度最高的句子向量作为拒识对话语义向量集,以实现拒识对话数据的语义向量提取。
本发明实一实施例中,聚类是在不知道任何对话数据标签的情况下,通过数据之间的内在关系把对话数据划分为若干类别,使得同类别对话数据之间的相似度高,不同类别之间的对话数据相似度低;所述聚类中心可以为随机选取的拒识对话语义向量;所述聚类簇是指同类别中聚类的拒识对话语义向量;可以通过Kmeans聚类方法实现拒识对话数据的聚类意图识别。
具体地,可以选取拒识对话语义向量集数量的开平方作为聚类中心个数;所述损失函数的主要作用为可以定义为各个拒识对话语义向量距离所属聚类中心的误差平方和。
进一步地,所述定义所述聚类中心与所述聚类簇的损失函数,包括:
利用下述公式定义所述聚类中心与所述聚类簇的损失函数:
Figure BDA0003760078500000071
其中,所述J(c,u)表示损失函数;所述c表示聚类簇,且聚类簇是指同类别的拒识对话语义向量;所述u表示聚类中心,且聚类中心是指拒识对话语义向量集中随机选取的拒识对话语义向量;所述M表示拒识对话语义向量集;所述xi表示拒识对话语义向量集中第i个拒识对话语义向量;所述ci表示xi所属的聚类簇;所述
Figure BDA0003760078500000072
表示xi所属的聚类簇对应的聚类中心。
进一步地,可以通过确定聚类中心的数量,调整拒识对话语义向量集所属的聚类簇的类别来减少J(c,u),以将所述拒识对话语义向量集中的各个拒识对话语义向量分配至与所述聚类中心最近的聚类簇中,实现聚类簇的收敛;再通过确定聚类簇的类别,调整聚类中心的数量来减少J(c,u),以将聚类中心进行更新,实现聚类中心的收敛;通过利用损失函数进行上述两个过程的交替循环,直到J(c,u)单调递减直到最小值,使得所述更新的聚类中心与对应的聚类簇同时收敛,得到所述拒识对话数据对应的拒识对话意图。
S3、根据所述对话意图及所述拒识对话意图将所述原始对话数据集映射为对话意图序列。
本发明实施例中,所述对话意图序列是基于客服在客户产生的对话时间组成的意图序列。
本发明实施例通过根据所述对话意图及所述拒识对话意图将所述原始对话数据集映射为对话意图序列,可以将各个对话语句对应的意图进行相应的序列表示,便于后续对话序列的意图频繁项挖掘。
作为本发明的一个实施例,所述根据所述对话意图及所述拒识对话意图将所述原始对话数据集映射为对话意图序列,包括:
将所述对话意图及所述拒识对话意图根据发生的对话时间进行意图排序,得到排序对话意图;将所述排序对话意图进行意图序号标注,得到所述对话意图序列。
其中,所述排序对话意图是按照客服与客户对话的时间顺序进行排列的对话意图;所述犹太序号标注可以通过Deepdive标注工具实现,主要作用是将排序对话意图按照意图序号进行标注关联,得到对话意图序列。
具体地,客服跟客户产生的对话意图按照对话时间进行排序得到问候意图、推荐产品意图及购买产品意图等,则进行标注后可以将上述意图映射为对话意图序列:意图1为问候意图、意图2为产品推荐意图及意图3为产品购买意图。
S4、将所述对话意图序列进行频繁项挖掘,得到对话序列频繁项集。
本发明实施例中,所述对话序列频繁项集是指原始对话数据集中经常出现的对话意图项。
本发明实施例通过将所述对话意图序列进行频繁项挖掘,得到对话序列频繁项集,可以提取对话中常常出现的对话意图项,便于后续进行对话剧本的构建。
作为本发明的一个实施例,参考图3所示,所述将所述对话意图序列进行频繁项挖掘,得到对话序列频繁项集,包括以下步骤S41-S43:
S41、获取所述对话意图序列的前缀序列及投影数据库,将所述前缀序列及所述投影数据库存储至预设的消息队列中;
S42、接收客户端发出的挖掘任务请求,根据所述挖掘任务请求利用预设的任务处理器从所述消息队列中获取所述前缀序列及所述投影数据库,并根据预设的前缀序列长度将挖掘任务请求拆分为多个子任务,对各个所述子任务对应的前缀序列进行递归频繁项挖掘,得到所述前缀序列对应的前缀投影数据项;
S43、将各个所述子任务的所述前缀投影数据项与所述前缀序列进行合并,得到所述对话序列频繁项集。
其中,所述前缀序列是指对话意图序列中的任意两个序列之间存在一个序列A是另外一个序列B的子序列,则子序列A作为B序列的前缀序列,比如,存在序列A={a1,a2,...,an}和序列B={b1,b2,…,bm},n≤m,满足a1=b1,a2=b2…an-1=bm-1,且
Figure BDA0003760078500000081
则称序列A为序列B的前缀序列;所述投影数据库是指前缀序列投影后的序列,也可以称为后缀序列。
本发明一实施例中,所述预设的消息队列可以为broker中间件,主要作用是存储前缀序列及投影数据库,可以便于后续在频繁项挖掘时,进行任务的异步处理,提高挖掘效率;所述预设的任务处理器可以为worker处理器,可以将对话意图序列的挖掘拆分为多个子任务,并通过消息队列中的线程进行分布式执行,以提高频繁项挖掘的效率;所述预设的前缀序列长度是指前缀序列中包括的元素,比如,前缀序列长度为1时的可以表示为<a>,前缀序列长度为2时可以表示为<aa>等。
进一步地,对各个所述子任务对应的前缀序列进行递归频繁项挖掘,可以通过prefix span挖掘算法进行频繁项挖掘,即通过统计前缀序列对应投影数据库中前缀投影数据项的支持度进行计数,若所有项的支持度计数都低于预设阈值,则递归返回空值,若存在前缀投影数据项大于等于该阈值,则将满足支持度计数的各个前缀投影数据项和当前的前缀序列进行合并,得到所述对话序列频繁项集。
具体地,存在前缀序列<d>,对应的前缀投影数据项为<(cf)>、<c(bc)(ae)>及<(f)cb>,统计所述前缀投影数据项的支持度为{a=1,b=2,c=3,d=0,e=1,f=2},预设阈值为2,则满足阈值的前缀投影数据项为<cf(bc)(f)b>。
S5、基于所述对话序列频繁项集构建目标对话剧本。
本发明实施例中,所述目标对话剧本是指基于客户业务需求进行对话的剧本流程,可以基于不同业务场景筛选出对应的目标对话剧本,提高对话剧本构建的效率及准确率。
作为本发明的一个实施例,所述基于所述对话序列频繁项集构建目标对话剧本,包括:
将所述对话序列频繁项集进行业务划分,得到所述对话序列频繁项集的业务类别;根据所述业务类别从所述对话序列频繁项集筛选出目标对话序列频繁项集,并将所述目标对话序列频繁项集流程化,得到所述目标对话剧本。
其中,所述业务类别可以基于企业的实际业务进行划分,比如,产品推荐业务、产品售后业务及产品购买业务等。
本发明一实施例中,若所述业务类别为产品推荐业务,可以从所述对话序列频繁项集筛选出筛选出产品推荐业务对应的对话序列频繁项集,并将产品推荐业务对应的对话序列频繁项集按照客户与客服产生对话的先后时间进行流程化,以构建基于产品推荐业务的对话剧本。
本发明实施例中,首先通过利用预设的意图识别模型将所述原始对话数据集进行意图识别,得到对话意图,无需耗费大量人力资源进行对话意图分析就可以准确识别出原始对话数据集对应的对话意图,提高后续对话剧本构建的效率;其次通过查询所述意图识别模型未识别所述原始对话数据集中的拒识对话数据,将所述拒识对话数据进行聚类意图识别,可以将意图识别模型未识别到的对话数据进行聚类意图识别,提取完整的对话数据意图,避免人工分析分析对话的意图出现遗漏,以提高后续对话剧本构建的准确率,进一步地,通过根据识别到的完整对话意图将所述原始对话数据集映射为对话意图序列,可以便于后续挖掘对话意图中出现的意图频繁项;最后通过将所述对话意图序列进行频繁项挖掘,可以提取对话中常常出现的对话意图项,并基于所述对话序列频繁项集构建目标对话剧本,提高对话剧本构建的效率及准确率。因此本发明实施例提出的对话剧本构建方法可以提高对话剧本构建的效率及准确率。
本发明所述对话剧本构建装置100可以安装于电子设备中。根据实现的功能,所述对话剧本构建装置可以包括对话意图识别模块101、拒识对话意图识别模块102、对话意图序列映射模块103、对话序列挖掘模块104、对话剧本构建模块105,本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
所述对话意图识别模块101,用于获取原始对话数据集,利用预设的意图识别模型将所述原始对话数据集进行意图识别,得到对话意图。
本发明实施例中,所述原始对话数据集是指企业经理或客户与客户的对话对话日志集合,比如,在金融领域中,所述原始对话数据集可以为基于产品购买的售后服务对话日志。
本发明实施例中,所述预设的意图识别模型是基于神经网络构建的模型,比如Bert或TextCNN模型,其中,所述意图识别模型包括:嵌入层、自注意力机制层及全连接层;所述对话意图是指所述原始对话数据集中每句话对应的意图,比如,对话为购买的产品什么时候生效,则真实意图为产品生效时间。
本发明实施例通过利用预设的意图识别模型将所述原始对话数据集进行意图识别,得到对话意图,可以无需耗费大量人力资源进行对话意图分析就可以准确识别出原始对话数据集对应的对话意图,提高后续对话剧本构建的效率。
本发明一实施例中,在原始对话日志中,由于对话日志中存在客服与客户两种角色,可以将客服与客户的对话通过标识(如姓名)进行角色区分,以将原始对话日志划分成不同角色的对话日志,便于后续对话剧本的构建。进一步地,在不同角色的对话日志中,可能存在某个角色在一次对话中表述了多个句子,因此可以根据句子间的标点符号进行句子切分,进一步将角色对话切分至句子粒度。
作为本发明的一个实施例,所述对话意图识别模块101通过下述操作利用预设的意图识别模型将所述原始对话数据集进行意图识别,得到对话意图,包括:
利用所述意图识别模型中的嵌入层将所述原始对话数据集进行分词,得到对话词向量集;利用所述意图识别模型中的自注意力机制层将所述对话词向量集进行特征提取,得到对话特征向量集;利用所述意图识别模型中的全连接层输出所述对话特征向量集的对话意图。
其中,所述对话词向量集是指对话日志的向量集形式,可以通过将对话日志进行词嵌入操作,实现对话分词,以得到对话词向量集[cls]向量集,具体的,可以通过Subwordtokenizer(即子词分词器)进行词嵌入操作。
本发明一实施例中,所述自注意力机制层的主要作用是将所述对话词向量集进行特征提取,将嵌入层输出的[cls]向量集作为自注意力机制层的query向量集,另外,将[cls]向量集进行编码操作,提取[cls]向量集中的(key,value)键值对,根据query与key来计算values的加权平均值,实现将向量集表征投影到不同的向量集空间中以得到对话向量集,可以充分提取对话词向量集中的重要特征并将一些不需要的特征去除,以提高后续对话剧本构建的效率。
本发明一实施例中,利用全连接层中的激活函数(如Softmax函数)可以准确识别所述对话向量集的对话意图。
所述拒识对话意图识别模块102,用于查询所述意图识别模型未识别所述原始对话数据集中的拒识对话数据,将所述拒识对话数据进行聚类意图识别,得到拒识对话意图。
本发明实施例中,所述拒识对话数据是指意图识别模型未识别的到意图的对话数据,可以通过意图识别模型输出的阈值来判断拒识对话数据,当阈值小于0.5时,则存在拒识对话数据。所述拒识对话意图是指所述拒识对话数据对应的每句话的意图。
本发明实施例通过查询所述意图识别模型未识别所述原始对话数据集中的拒识对话数据,将所述拒识对话数据进行聚类意图识别,得到拒识对话意图,可以将意图识别模型未识别到的对话数据进行聚类意图识别,提取完整的对话数据意图,避免人工分析分析对话的意图出现遗漏,以提高后续对话剧本构建的准确率。
作为本发明的一个实施例,所述拒识对话意图识别模块102通过执行下述操作将所述拒识对话数据进行聚类意图识别,得到拒识对话意图,包括:
利用预设的语义模型预测所述拒识对话数据的相似语义对话数据,并计算所述相似语义对话数据与所述拒识对话数据的相似度,得到拒识对话语义向量集;
根据所述拒识对话语义向量集确定多个聚类中心及聚类簇,定义所述聚类中心与所述聚类簇的损失函数;
利用所述损失函数将所述拒识对话语义向量集中的各个拒识对话语义向量分配至与所述聚类中心最近的聚类簇中,并重新更新所述聚类中心,直到所述更新的聚类中心与对应的聚类簇同时收敛,得到所述拒识对话数据对应的拒识对话意图。
其中,所述预设的语义模型可以为Simbert模型,主要作用是提取拒识对话数据中各个对话的语义向量;所述语义模型通过利用seq2seq(即序列到序列模型)中的编码器将拒识对话数据编码成固定大小的向量a,再利用解码器将向量a进行解码,生成对应的相似语义对话数据;所述相似度可以通过余弦相似度算法进行计算,进一步提取相似语义对话数据中语义相似度最高的句子向量作为拒识对话语义向量集,以实现拒识对话数据的语义向量提取。
本发明实一实施例中,聚类是在不知道任何对话数据标签的情况下,通过数据之间的内在关系把对话数据划分为若干类别,使得同类别对话数据之间的相似度高,不同类别之间的对话数据相似度低;所述聚类中心可以为随机选取的拒识对话语义向量;所述聚类簇是指同类别中聚类的拒识对话语义向量;可以通过Kmeans聚类方法实现拒识对话数据的聚类意图识别。
具体地,可以选取拒识对话语义向量集数量的开平方作为聚类中心个数;所述损失函数的主要作用为可以定义为各个拒识对话语义向量距离所属聚类中心的误差平方和。
进一步地,所述定义所述聚类中心与所述聚类簇的损失函数,包括:
利用下述公式定义所述聚类中心与所述聚类簇的损失函数:
Figure BDA0003760078500000121
其中,所述J(c,u)表示损失函数;所述c表示聚类簇,且聚类簇是指同类别的拒识对话语义向量;所述u表示聚类中心,且聚类中心是指拒识对话语义向量集中随机选取的拒识对话语义向量;所述M表示拒识对话语义向量集;所述xi表示拒识对话语义向量集中第i个拒识对话语义向量;所述ci表示xi所属的聚类簇;所述
Figure BDA0003760078500000122
表示xi所属的聚类簇对应的聚类中心。
进一步地,可以通过确定聚类中心的数量,调整拒识对话语义向量集所属的聚类簇的类别来减少J(c,u),以将所述拒识对话语义向量集中的各个拒识对话语义向量分配至与所述聚类中心最近的聚类簇中,实现聚类簇的收敛;再通过确定聚类簇的类别,调整聚类中心的数量来减少J(c,u),以将聚类中心进行更新,实现聚类中心的收敛;通过利用损失函数进行上述两个过程的交替循环,直到J(c,u)单调递减直到最小值,使得所述更新的聚类中心与对应的聚类簇同时收敛,得到所述拒识对话数据对应的拒识对话意图。
所述对话意图序列映射模块103,用于根据所述对话意图及所述拒识对话意图将所述原始对话数据集映射为对话意图序列。
本发明实施例中,所述对话意图序列是基于客服在客户产生的对话时间组成的意图序列。
本发明实施例通过根据所述对话意图及所述拒识对话意图将所述原始对话数据集映射为对话意图序列,可以将各个对话语句对应的意图进行相应的序列表示,便于后续对话序列的意图频繁项挖掘。
作为本发明的一个实施例,所述对话意图序列映射模块103通过执行下述操作根据所述对话意图及所述拒识对话意图将所述原始对话数据集映射为对话意图序列,包括:
将所述对话意图及所述拒识对话意图根据发生的对话时间进行意图排序,得到排序对话意图;将所述排序对话意图进行意图序号标注,得到所述对话意图序列。
其中,所述排序对话意图是按照客服与客户对话的时间顺序进行排列的对话意图;所述犹太序号标注可以通过Deepdive标注工具实现,主要作用是将排序对话意图按照意图序号进行标注关联,得到对话意图序列。
具体地,客服跟客户产生的对话意图按照对话时间进行排序得到问候意图、推荐产品意图及购买产品意图等,则进行标注后可以将上述意图映射为对话意图序列:意图1为问候意图、意图2为产品推荐意图及意图3为产品购买意图。
所述对话序列挖掘模块104,用于将所述对话意图序列进行频繁项挖掘,得到对话序列频繁项集。
本发明实施例中,所述对话序列频繁项集是指原始对话数据集中经常出现的对话意图项。
本发明实施例通过将所述对话意图序列进行频繁项挖掘,得到对话序列频繁项集,可以提取对话中常常出现的对话意图项,便于后续进行对话剧本的构建。
作为本发明的一个实施例,所述对话序列挖掘模块104通过执行下述操作将所述对话意图序列进行频繁项挖掘,得到对话序列频繁项集,包括:
获取所述对话意图序列的前缀序列及投影数据库,将所述前缀序列及所述投影数据库存储至预设的消息队列中;
接收客户端发出的挖掘任务请求,根据所述挖掘任务请求利用预设的任务处理器从所述消息队列中获取所述前缀序列及所述投影数据库,并根据预设的前缀序列长度将挖掘任务请求拆分为多个子任务,对各个所述子任务对应的前缀序列进行递归频繁项挖掘,得到所述前缀序列对应的前缀投影数据项;
将各个所述子任务的所述前缀投影数据项与所述前缀序列进行合并,得到所述对话序列频繁项集。
其中,所述前缀序列是指对话意图序列中的任意两个序列之间存在一个序列A是另外一个序列B的子序列,则子序列A作为B序列的前缀序列,比如,存在序列A={a1,a2,...,an}和序列B={b1,b2,…,bm},n≤m,满足a1=b1,a2=b2…an-1=bm-1,且
Figure BDA0003760078500000141
则称序列A为序列B的前缀序列;所述投影数据库是指前缀序列投影后的序列,也可以称为后缀序列。
本发明一实施例中,所述预设的消息队列可以为broker中间件,主要作用是存储前缀序列及投影数据库,可以便于后续在频繁项挖掘时,进行任务的异步处理,提高挖掘效率;所述预设的任务处理器可以为worker处理器,可以将对话意图序列的挖掘拆分为多个子任务,并通过消息队列中的线程进行分布式执行,以提高频繁项挖掘的效率;所述预设的前缀序列长度是指前缀序列中包括的元素,比如,前缀序列长度为1时的可以表示为<a>,前缀序列长度为2时可以表示为<aa>等。
进一步地,对各个所述子任务对应的前缀序列进行递归频繁项挖掘,可以通过prefix span挖掘算法进行频繁项挖掘,即通过统计前缀序列对应投影数据库中前缀投影数据项的支持度进行计数,若所有项的支持度计数都低于预设阈值,则递归返回空值,若存在前缀投影数据项大于等于该阈值,则将满足支持度计数的各个前缀投影数据项和当前的前缀序列进行合并,得到所述对话序列频繁项集。
具体地,存在前缀序列<d>,对应的前缀投影数据项为<(cf)>、<c(bc)(ae)>及<(f)cb>,统计所述前缀投影数据项的支持度为{a=1,b=2,c=3,d=0,e=1,f=2},预设阈值为2,则满足阈值的前缀投影数据项为<cf(bc)(f)b>。
所述对话剧本构建模块105,用于基于所述对话序列频繁项集构建目标对话剧本。
本发明实施例中,所述目标对话剧本是指基于客户业务需求进行对话的剧本流程,可以基于不同业务场景筛选出对应的目标对话剧本,提高对话剧本构建的效率及准确率。
作为本发明的一个实施例,所述对话剧本构建模块105通过执行下述操作基于所述对话序列频繁项集构建目标对话剧本,包括:
将所述对话序列频繁项集进行业务划分,得到所述对话序列频繁项集的业务类别;根据所述业务类别从所述对话序列频繁项集筛选出目标对话序列频繁项集,并将所述目标对话序列频繁项集流程化,得到所述目标对话剧本。
其中,所述业务类别可以基于企业的实际业务进行划分,比如,产品推荐业务、产品售后业务及产品购买业务等。
本发明一实施例中,若所述业务类别为产品推荐业务,可以从所述对话序列频繁项集筛选出筛选出产品推荐业务对应的对话序列频繁项集,并将产品推荐业务对应的对话序列频繁项集按照客户与客服产生对话的先后时间进行流程化,以构建基于产品推荐业务的对话剧本。
本发明实施例中,首先通过利用预设的意图识别模型将所述原始对话数据集进行意图识别,得到对话意图,无需耗费大量人力资源进行对话意图分析就可以准确识别出原始对话数据集对应的对话意图,提高后续对话剧本构建的效率;其次通过查询所述意图识别模型未识别所述原始对话数据集中的拒识对话数据,将所述拒识对话数据进行聚类意图识别,可以将意图识别模型未识别到的对话数据进行聚类意图识别,提取完整的对话数据意图,避免人工分析分析对话的意图出现遗漏,以提高后续对话剧本构建的准确率,进一步地,通过根据识别到的完整对话意图将所述原始对话数据集映射为对话意图序列,可以便于后续挖掘对话意图中出现的意图频繁项;最后通过将所述对话意图序列进行频繁项挖掘,可以提取对话中常常出现的对话意图项,并基于所述对话序列频繁项集构建目标对话剧本,提高对话剧本构建的效率及准确率。因此本发明实施例提出的对话剧本构建装置可以提高对话剧本构建的效率及准确率。
如图5所示,是本发明实现对话剧本构建方法的电子设备的结构示意图。
所述电子设备可以包括处理器10、存储器11、通信总线12和通信接口13,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如对话剧本构建程序。
其中,所述存储器11至少包括一种类型的介质,所述介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、本地磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备的内部存储单元,例如该电子设备的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备的外部存储设备,例如电子设备上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备的应用软件及各类数据,例如对话剧本构建程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing Unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如对话剧本构建程序等),以及调用存储在所述存储器11内的数据,以执行电子设备的各种功能和处理数据。
所述通信总线12可以是外设部件互连标准(PerIPheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述通信总线12总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
图5仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图5示出的结构并不构成对所述电子设备的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
可选地,所述通信接口13可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。
可选地,所述通信接口13还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备中的所述存储器11存储的对话剧本构建程序是多个计算机程序的组合,在所述处理器10中运行时,可以实现:
获取原始对话数据集,利用预设的意图识别模型将所述原始对话数据集进行意图识别,得到对话意图;
查询所述意图识别模型未识别所述原始对话数据集中的拒识对话数据,将所述拒识对话数据进行聚类意图识别,得到拒识对话意图;
根据所述对话意图及所述拒识对话意图将所述原始对话数据集映射为对话意图序列;
将所述对话意图序列进行频繁项挖掘,得到对话序列频繁项集;
基于所述对话序列频繁项集构建目标对话剧本。
具体地,所述处理器10对上述计算机程序的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取介质中。所述计算机可读介质可以是非易失性的,也可以是易失性的。所述计算机可读介质可以包括:能够携待所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
本发明实施例还可以提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行时,可以实现:
获取原始对话数据集,利用预设的意图识别模型将所述原始对话数据集进行意图识别,得到对话意图;
查询所述意图识别模型未识别所述原始对话数据集中的拒识对话数据,将所述拒识对话数据进行聚类意图识别,得到拒识对话意图;
根据所述对话意图及所述拒识对话意图将所述原始对话数据集映射为对话意图序列;
将所述对话意图序列进行频繁项挖掘,得到对话序列频繁项集;
基于所述对话序列频繁项集构建目标对话剧本。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
在本发明所提供的几个实施例中,应该理解到,所揭露的介质、设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (4)

1.一种对话剧本构建方法,其特征在于,所述方法包括:
获取原始对话数据集,利用预设的意图识别模型将所述原始对话数据集进行意图识别,得到对话意图;
查询所述意图识别模型未识别所述原始对话数据集中的拒识对话数据,将所述拒识对话数据进行聚类意图识别,得到拒识对话意图;
根据所述对话意图及所述拒识对话意图将所述原始对话数据集映射为对话意图序列;
将所述对话意图序列进行频繁项挖掘,得到对话序列频繁项集;
基于所述对话序列频繁项集构建目标对话剧本;
其中,所述将所述拒识对话数据进行聚类意图识别,得到拒识对话意图,包括:利用预设的语义模型预测所述拒识对话数据的相似语义对话数据,并计算所述相似语义对话数据与所述拒识对话数据的相似度,得到拒识对话语义向量集;根据所述拒识对话语义向量集确定多个聚类中心及聚类簇,定义所述聚类中心与所述聚类簇的损失函数;利用所述损失函数将所述拒识对话语义向量集中的各个拒识对话语义向量分配至与所述聚类中心最近的聚类簇中,并重新更新所述聚类中心,直到所述更新的聚类中心与对应的聚类簇同时收敛,得到所述拒识对话数据对应的拒识对话意图;
所述定义所述聚类中心与所述聚类簇的损失函数,包括:利用下述公式定义所述聚类中心与所述聚类簇的损失函数:
Figure FDA0004138539880000011
其中,所述J(c,u)表示损失函数;所述c表示聚类簇,且聚类簇是指同类别的拒识对话语义向量;所述u表示聚类中心,且聚类中心是指拒识对话语义向量集中随机选取的拒识对话语义向量;所述M表示拒识对话语义向量集;所述xi表示拒识对话语义向量集中第i个拒识对话语义向量;所述ci表示xi所属的聚类簇;所述
Figure FDA0004138539880000012
表示xi所属的聚类簇对应的聚类中心;
所述将所述对话意图序列进行频繁项挖掘,得到对话序列频繁项集,包括:获取所述对话意图序列的前缀序列及投影数据库,将所述前缀序列及所述投影数据库存储至预设的消息队列中;接收客户端发出的挖掘任务请求,根据所述挖掘任务请求利用预设的任务处理器从所述消息队列中获取所述前缀序列及所述投影数据库,并根据预设的前缀序列长度将挖掘任务请求拆分为多个子任务,对各个所述子任务对应的前缀序列进行递归频繁项挖掘,得到所述前缀序列对应的前缀投影数据项;将各个所述子任务的所述前缀投影数据项与所述前缀序列进行合并,得到所述对话序列频繁项集;
所述利用预设的意图识别模型将所述原始对话数据集进行意图识别,得到对话意图,包括:利用所述意图识别模型中的嵌入层将所述原始对话数据集进行分词,得到对话词向量集;利用所述意图识别模型中的自注意力机制层将所述对话词向量集进行特征提取,得到对话特征向量集;利用所述意图识别模型中的全连接层输出所述对话特征向量集的对话意图;
所述根据所述对话意图及所述拒识对话意图将所述原始对话数据集映射为对话意图序列,包括:将所述对话意图及所述拒识对话意图根据发生的对话时间进行意图排序,得到排序对话意图;将所述排序对话意图进行意图序号标注,得到所述对话意图序列;
所述基于所述对话序列频繁项集构建目标对话剧本,包括:将所述对话序列频繁项集进行业务划分,得到所述对话序列频繁项集的业务类别;根据所述业务类别从所述对话序列频繁项集筛选出目标对话序列频繁项集,并将所述目标对话序列频繁项集流程化,得到所述目标对话剧本。
2.一种对话剧本构建装置,其特征在于,所述装置包括:
对话意图识别模块,用于获取原始对话数据集,利用预设的意图识别模型将所述原始对话数据集进行意图识别,得到对话意图;
拒识对话意图识别模块,用于查询所述意图识别模型未识别所述原始对话数据集中的拒识对话数据,将所述拒识对话数据进行聚类意图识别,得到拒识对话意图;
对话意图序列映射模块,用于根据所述对话意图及所述拒识对话意图将所述原始对话数据集映射为对话意图序列;
对话序列挖掘模块,用于将所述对话意图序列进行频繁项挖掘,得到对话序列频繁项集;
对话剧本构建模块,用于基于所述对话序列频繁项集构建目标对话剧本;
其中,所述将所述拒识对话数据进行聚类意图识别,得到拒识对话意图,包括:利用预设的语义模型预测所述拒识对话数据的相似语义对话数据,并计算所述相似语义对话数据与所述拒识对话数据的相似度,得到拒识对话语义向量集;根据所述拒识对话语义向量集确定多个聚类中心及聚类簇,定义所述聚类中心与所述聚类簇的损失函数;利用所述损失函数将所述拒识对话语义向量集中的各个拒识对话语义向量分配至与所述聚类中心最近的聚类簇中,并重新更新所述聚类中心,直到所述更新的聚类中心与对应的聚类簇同时收敛,得到所述拒识对话数据对应的拒识对话意图;
所述定义所述聚类中心与所述聚类簇的损失函数,包括:利用下述公式定义所述聚类中心与所述聚类簇的损失函数:
Figure FDA0004138539880000031
其中,所述J(c,u)表示损失函数;所述c表示聚类簇,且聚类簇是指同类别的拒识对话语义向量;所述u表示聚类中心,且聚类中心是指拒识对话语义向量集中随机选取的拒识对话语义向量;所述M表示拒识对话语义向量集;所述xi表示拒识对话语义向量集中第i个拒识对话语义向量;所述ci表示xi所属的聚类簇;所述
Figure FDA0004138539880000032
表示xi所属的聚类簇对应的聚类中心;
所述将所述对话意图序列进行频繁项挖掘,得到对话序列频繁项集,包括:获取所述对话意图序列的前缀序列及投影数据库,将所述前缀序列及所述投影数据库存储至预设的消息队列中;接收客户端发出的挖掘任务请求,根据所述挖掘任务请求利用预设的任务处理器从所述消息队列中获取所述前缀序列及所述投影数据库,并根据预设的前缀序列长度将挖掘任务请求拆分为多个子任务,对各个所述子任务对应的前缀序列进行递归频繁项挖掘,得到所述前缀序列对应的前缀投影数据项;将各个所述子任务的所述前缀投影数据项与所述前缀序列进行合并,得到所述对话序列频繁项集;
所述利用预设的意图识别模型将所述原始对话数据集进行意图识别,得到对话意图,包括:利用所述意图识别模型中的嵌入层将所述原始对话数据集进行分词,得到对话词向量集;利用所述意图识别模型中的自注意力机制层将所述对话词向量集进行特征提取,得到对话特征向量集;利用所述意图识别模型中的全连接层输出所述对话特征向量集的对话意图;
所述根据所述对话意图及所述拒识对话意图将所述原始对话数据集映射为对话意图序列,包括:将所述对话意图及所述拒识对话意图根据发生的对话时间进行意图排序,得到排序对话意图;将所述排序对话意图进行意图序号标注,得到所述对话意图序列;
所述基于所述对话序列频繁项集构建目标对话剧本,包括:将所述对话序列频繁项集进行业务划分,得到所述对话序列频繁项集的业务类别;根据所述业务类别从所述对话序列频繁项集筛选出目标对话序列频繁项集,并将所述目标对话序列频繁项集流程化,得到所述目标对话剧本。
3.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1所述的对话剧本构建方法。
4.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1所述的对话剧本构建方法。
CN202210873405.0A 2022-07-21 2022-07-21 对话剧本构建方法、装置、设备及存储介质 Active CN115146653B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210873405.0A CN115146653B (zh) 2022-07-21 2022-07-21 对话剧本构建方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210873405.0A CN115146653B (zh) 2022-07-21 2022-07-21 对话剧本构建方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN115146653A CN115146653A (zh) 2022-10-04
CN115146653B true CN115146653B (zh) 2023-05-02

Family

ID=83414289

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210873405.0A Active CN115146653B (zh) 2022-07-21 2022-07-21 对话剧本构建方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115146653B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115457945B (zh) * 2022-11-10 2023-03-31 广州小鹏汽车科技有限公司 语音交互方法、服务器和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004310628A (ja) * 2003-04-10 2004-11-04 Nippon Telegr & Teleph Corp <Ntt> 対話シナリオ生成方法、対話シナリオ生成装置、対話シナリオ生成用プログラム
KR20180116104A (ko) * 2017-04-14 2018-10-24 얄리주식회사 대화 시스템을 위한 대화 시나리오 데이터베이스 구축 방법 및 장치
KR20200011251A (ko) * 2018-07-24 2020-02-03 주식회사 자이냅스 대화 인지를 위한 규칙 생성 방법, 규칙 기반의 추론 방법 및 그 방법이 적용된 장치
CN111581375A (zh) * 2020-04-01 2020-08-25 车智互联(北京)科技有限公司 对话意图类型识别方法、多轮对话方法、装置及计算设备
CN111625636A (zh) * 2020-05-28 2020-09-04 深圳追一科技有限公司 一种人机对话的拒绝识别方法、装置、设备、介质
KR20200143039A (ko) * 2019-06-14 2020-12-23 주식회사 스캐터랩 대화 시나리오 데이터베이스 구축 방법 및 장치
CN112487144A (zh) * 2020-11-30 2021-03-12 北京天润融通科技股份有限公司 多轮对话机器人意图命中优化方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6515897B2 (ja) * 2016-09-28 2019-05-22 トヨタ自動車株式会社 音声対話システムおよび発話意図理解方法
CN111831813B (zh) * 2020-09-21 2021-02-05 北京百度网讯科技有限公司 对话生成方法、装置、电子设备及介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004310628A (ja) * 2003-04-10 2004-11-04 Nippon Telegr & Teleph Corp <Ntt> 対話シナリオ生成方法、対話シナリオ生成装置、対話シナリオ生成用プログラム
KR20180116104A (ko) * 2017-04-14 2018-10-24 얄리주식회사 대화 시스템을 위한 대화 시나리오 데이터베이스 구축 방법 및 장치
KR20200011251A (ko) * 2018-07-24 2020-02-03 주식회사 자이냅스 대화 인지를 위한 규칙 생성 방법, 규칙 기반의 추론 방법 및 그 방법이 적용된 장치
KR20200143039A (ko) * 2019-06-14 2020-12-23 주식회사 스캐터랩 대화 시나리오 데이터베이스 구축 방법 및 장치
CN111581375A (zh) * 2020-04-01 2020-08-25 车智互联(北京)科技有限公司 对话意图类型识别方法、多轮对话方法、装置及计算设备
CN111625636A (zh) * 2020-05-28 2020-09-04 深圳追一科技有限公司 一种人机对话的拒绝识别方法、装置、设备、介质
CN112487144A (zh) * 2020-11-30 2021-03-12 北京天润融通科技股份有限公司 多轮对话机器人意图命中优化方法及装置

Also Published As

Publication number Publication date
CN115146653A (zh) 2022-10-04

Similar Documents

Publication Publication Date Title
CN111552870A (zh) 对象推荐方法、电子装置及存储介质
CN113157927B (zh) 文本分类方法、装置、电子设备及可读存储介质
CN114398557B (zh) 基于双画像的信息推荐方法、装置、电子设备及存储介质
CN113706291A (zh) 欺诈风险预测方法、装置、设备及存储介质
CN115146653B (zh) 对话剧本构建方法、装置、设备及存储介质
CN114090601B (zh) 一种数据筛选方法、装置、设备以及存储介质
CN113658002B (zh) 基于决策树的交易结果生成方法、装置、电子设备及介质
CN111950623B (zh) 数据稳定性监控方法、装置、计算机设备及介质
CN113221570A (zh) 基于线上问诊信息的处理方法、装置、设备及存储介质
CN116361567B (zh) 应用于云办公的数据处理方法及系统
CN116450723A (zh) 数据提取方法、装置、计算机设备及存储介质
CN113626605B (zh) 信息分类方法、装置、电子设备及可读存储介质
CN113515591B (zh) 文本不良信息识别方法、装置、电子设备及存储介质
CN113591881B (zh) 基于模型融合的意图识别方法、装置、电子设备及介质
CN115186151A (zh) 简历筛选方法、装置、设备及存储介质
CN115034762A (zh) 一种岗位推荐方法、装置、存储介质、电子设备及产品
CN114329164A (zh) 用于处理数据的方法、装置、设备、介质和产品
CN114610854A (zh) 智能问答方法、装置、设备及存储介质
CN113612777A (zh) 训练方法、流量分级方法、装置、电子设备以及存储介质
CN113469237A (zh) 用户意图识别方法、装置、电子设备及存储介质
CN113064984A (zh) 意图识别方法、装置、电子设备及可读存储介质
CN113706207B (zh) 基于语义解析的订单成交率分析方法、装置、设备及介质
CN113688924B (zh) 异常订单检测方法、装置、设备及介质
CN114723488B (zh) 课程推荐方法、装置、电子设备及存储介质
CN116628330A (zh) 基于实时会话的产品组件推荐方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant