CN112992128A - 一种智能语音机器人的训练方法、装置和系统 - Google Patents
一种智能语音机器人的训练方法、装置和系统 Download PDFInfo
- Publication number
- CN112992128A CN112992128A CN202110157064.2A CN202110157064A CN112992128A CN 112992128 A CN112992128 A CN 112992128A CN 202110157064 A CN202110157064 A CN 202110157064A CN 112992128 A CN112992128 A CN 112992128A
- Authority
- CN
- China
- Prior art keywords
- rule information
- intelligent voice
- voice robot
- node
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 98
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000007621 cluster analysis Methods 0.000 claims description 19
- 238000013527 convolutional neural network Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 16
- 238000013135 deep learning Methods 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000009825 accumulation Methods 0.000 abstract description 2
- 239000013598 vector Substances 0.000 description 16
- 238000011176 pooling Methods 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 241000122205 Chamaeleonidae Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种智能语音机器人的训练方法、装置和系统,其中方法包括:将预先设置的树形结构的对话策略转换成规则信息列表组,规则信息列表组中的每一条规则信息对应树形结构中包含根结点到叶子结点的一条路径;根据规则信息列表组设计基础训练样例,使用基础训练样例对智能语音机器人进行基础训练;智能语音机器人完成基础训练后上线用于与用户进行对话,所述智能语音机器人无法处理的对话标记为负样例,使用负样例对所述智能语音机器人进行训练。采用该技术方案,在新拓展领域没有历史数据的情况下,能够使智能语音机器人快速上线为用户服务,随着使用时间的积累,智能语音机器人的对话策略逐渐迭代更新,对话策略会越来越完善。
Description
技术领域
本发明涉及计算机信息处理领域,具体而言,涉及一种智能语音机器人的训练方法、装置和系统。
背景技术
客户服务中心是企业与用户沟通的主要桥梁,提升用户满意度的主要渠道。以前客户服务中心主要以人工客服为主,由专业的客服人员为用户进行服务。
随着计算机信息处理技术的发展,越来越多的客户服务中心开始采用语音机器人来为用户进行服务,缓解人工客服等待时间过长的问题。
目前语音机器人在与用户进行对话过程中,由管理人员配置对话策略和对话结点,使用历史对话数据对智能语音机器人进行训练,完善智能语音机器人的性能。
但在某些新开拓的领域往往没有历史对话数据,无法对智能语音机器人进行训练,对话策略不够完善,使得该领域不能直接智能语音机器人,必须使用人工客服积累一段时间的对话数据才能上线智能语音机器人。
发明内容
本发明旨在解决现有某些新开拓的领域,没有历史对话数据,对话策略不够完善,无法直接应用智能语音机器人的问题。
为了解决上述技术问题,本发明第一方面提出一种智能语音机器人的训练方法,包括:
将预先设置的树形结构的对话策略转换成规则信息列表组,所述规则信息列表组中的每一条规则信息对应树形结构中包含根结点到叶子结点的一条路径;
根据所述规则信息列表组设计基础训练样例,使用基础训练样例对智能语音机器人进行基础训练;
所述智能语音机器人完成基础训练后上线用于与用户进行对话,所述智能语音机器人无法处理的对话标记为负样例,使用负样例对所述智能语音机器人进行训练。
根据本发明的一种优选实施方式,所述规则信息列表组中的规则信息覆盖树形结构中的所有分支。
根据本发明的一种优选实施方式,所述负样例与所述规则信息列表组进行匹配,确定与所述负样例最接近的规则信息。
根据本发明的一种优选实施方式,所述负样例与所述规则信息进行匹配具体为:
使用匹配模型对所述负样例和所述规则信息进行匹配。
根据本发明的一种优选实施方式,所述匹配模型为基于深度学习的LSTM-CNN卷积神经网络模型。
根据本发明的一种优选实施方式,使用匹配模型对所述负样例和所述规则信息进行匹配进一步包括,确定所述负样例命中所述的规则信息对应的路径中的具体结点,并确定该路径中被命中的最后一个分支结点以及所述负样例中未命中结点的内容。
根据本发明的一种优选实施方式,将所述负样例未命中结点的内容进行聚类分析,确定聚类分析后每个类别的主题,根据确定的主题调整对话策略并在路径中被命中的最后一个结点后面增加相应的叶子结点。
本发明第二方面提出一种智能语音机器人的训练装置,装置包括:
树形结构转化模块,用于将预先设置的树形结构的对话策略转换成规则信息列表组,所述规则信息列表组中的每一条规则信息对应树形结构中包含根结点到叶子结点的一条路径;
基础训练模块,用于根据所述规则信息列表组设计基础训练样例,使用基础训练样例对智能语音机器人进行基础训练;
策略调整模块,所述智能语音机器人完成基础训练后上线用于与用户进行对话,所述智能语音机器人无法处理的对话标记为负样例,使用负样例对所述智能语音机器人进行训练。
根据本发明的一种优选实施方式,所述规则信息列表组中的规则信息覆盖树形结构中的所有分支。
根据本发明的一种优选实施方式,所述负样例与所述规则信息列表组进行匹配,确定与所述负样例最接近的规则信息。
根据本发明的一种优选实施方式,所述负样例与所述规则信息进行匹配具体为:
使用匹配模型对所述负样例和所述规则信息进行匹配。
根据本发明的一种优选实施方式,所述匹配模型为基于深度学习的LSTM-CNN卷积神经网络模型。
根据本发明的一种优选实施方式,使用匹配模型对所述负样例和所述规则信息进行匹配进一步包括,确定所述负样例命中所述的规则信息对应的路径中的具体结点,并确定该路径中被命中的最后一个结点以及所述负样例中未命中结点的内容。
根据本发明的一种优选实施方式,将所述负样例未命中结点的内容进行聚类分析,确定聚类分析后每个类别的主题,根据确定的主题调整对话策略并在路径中被命中的最后一个结点后面增加相应的叶子结点。
本发明第三方面提出一种智能语音机器人的训练系统,其特征在于,包括:
存储单元,用于存储计算机可执行程序;
处理单元,用于读取所述存储单元中的计算机可执行程序,以执行所述的智能语音机器人的训练方法。
本发明第四方面提出一种计算机可读介质,用于存储计算机可读程序,所述计算机可读程序用于执行所述的智能语音机器人的训练方法。
采用该技术方案,在新拓展领域没有历史数据的情况下,能够使智能语音机器人快速上线为用户服务,随着使用时间的积累,智能语音机器人的对话策略逐渐迭代更新,对话策略会越来越完善。
附图说明
为了使本发明所解决的技术问题、采用的技术手段及取得的技术效果更加清楚,下面将参照附图详细描述本发明的具体实施例。但需声明的是,下面描述的附图仅仅是本发明的示例性实施例的附图,对于本领域的技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其他实施例的附图。
图1是本发明实施例中一种智能语音机器人的训练方法的流程示意图;
图2是本发明实施例中树形结构的对话策略的示意图;
图3是本发明实施例中一种智能语音机器人的训练装置的结构示意图;
图4是本发明实施例中一种智能语音机器人的训练系统的结构框架示意图;
图5是本发明实施例中计算机可读存储介质的结构示意图。
具体实施方式
现在将参考附图来更加全面地描述本发明的示例性实施例,虽然各示例性实施例能够以多种具体的方式实施,但不应理解为本发明仅限于在此阐述的实施例。相反,提供这些示例性实施例是为了使本发明的内容更加完整,更加便于将发明构思全面地传达给本领域的技术人员。
在符合本发明的技术构思的前提下,在某个特定的实施例中描述的结构、性能、效果或者其他特征可以以任何合适的方式结合到一个或更多其他的实施例中。
在对于具体实施例的介绍过程中,对结构、性能、效果或者其他特征的细节描述是为了使本领域的技术人员对实施例能够充分理解。但是,并不排除本领域技术人员可以在特定情况下,以不含有上述结构、性能、效果或者其他特征的技术方案来实施本发明。
附图中的流程图仅是一种示例性的流程演示,不代表本发明的方案中必须包括流程图中的所有的内容、操作和步骤,也不代表必须按照图中所显示的的顺序执行。例如,流程图中有的操作/步骤可以分解,有的操作/步骤可以合并或部分合并,等等,在不脱离本发明的发明主旨的情况下,流程图中显示的执行顺序可以根据实际情况改变。
附图中的框图一般表示的是功能实体,并不一定必然与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理单元装置和/或微控制器装置中实现这些功能实体。
各附图中相同的附图标记表示相同或类似的元件、组件或部分,因而下文中可能省略了对相同或类似的元件、组件或部分的重复描述。还应理解,虽然本文中可能使用第一、第二、第三等表示编号的定语来描述各种器件、元件、组件或部分,但是这些器件、元件、组件或部分不应受这些定语的限制。也就是说,这些定语仅是用来将一者与另一者区分。例如,第一器件亦可称为第二器件,但不偏离本发明实质的技术方案。此外,术语“和/或”、“及/或”是指包括所列出项目中的任一个或多个的所有组合。
图1是本发明本发明实施例中一种智能语音机器人的训练方法的流程示意图,如图1所示,本发明方法具有如下步骤:
S101、将预先设置的树形结构的对话策略转换成规则信息列表组,所述规则信息列表组中的每一条规则信息对应树形结构中包含根结点到叶子结点的一条路径。
在本实施方式中,在设置智能语音机器人时候会根据应用的场景预先设置对话策略,智能语音机器人根据设置的对话策略与用户进行对话。对话策略通常是树形结构的,如图2所示,最顶端的结点A为根结点,最终端的结点C、F、G、H、I、J、K为叶子结点,其余的结点B、D、E为分支结点。每个结点有具体的规则,根据用户对话的内容确定路径的走向。
在上述技术方案的基础上进一步地,所述规则信息列表组中的规则信息覆盖树形结构中的所有分支。
在本实施方式中,将对话策略树形结构的路径转为一条规则信息,所有的规则信息构成规则信息列表组,比如图2所示的属性结构转化后的规则信息列表组为{A→B→F,A→B→G,ABFBG,ABGBF,A→C,A→D→H,A→E→I,A→E→J,A→E→K…}。规则信息列表组中的规则信息覆盖所有的路径。
在本实施方式中,每个结点还设置有对应的语料库,智能语音机器人判断出用户说话内容的意图后根据对话策略命中具体结点,从结点对应的语料库中选取语料回答用户问题。
S102、根据所述规则信息列表组设计基础训练样例,使用基础训练样例对智能语音机器人进行基础训练。
在本实施方式中,由管理人员预先设置一定数量的基础训练样例,数量不用太多,但需要覆盖对话策略的所有规则。基础训练样例可以参考相近领域的实际对话进行调整修改,使用基础训练样例对智能语音机器人进行训练。通常训练智能语音机器人是将训练样例分为训练集和校验集,使用训练集对智能语音机器人进行训练,使用校验集进行校验。在本实施方式中由于可供使用的训练样例太少,就不再划分训练集和校验集,全部用来对智能语音机器人进行训练。
智能语音机器人可以采用LSTM模型、CNN神经卷积模型或BERT模型。在本实施方式中智能语音机器人采用BERT模型。
S103、所述智能语音机器人完成基础训练后上线用于与用户进行对话,所述智能语音机器人无法处理的对话标记为负样例,使用负样例对所述智能语音机器人进行训练。
在本实施方式中,由于管理人员设置的基础训练样例数量比较少,不会覆盖真实使用中所有的对话情况,因此肯定会有对话策略无法处理的情况,通常管理人员会设置兜底策略,预先设置的对话策略无法处理的对话内容使用兜底策略进行处理,比如“非常抱歉,这个问题暂时我无法回答,后期我同事跟您联系”。这种目前对话策略无法处理的对话会被标记为负样例,使用这些负样例对智能语音机器人进行训练,弥补对话策略的漏洞,使对话策略越来越完善。
在上述技术方案的基础上进一步地,所述负样例与所述规则信息列表组进行匹配,确定与所述负样例匹配的规则信息。
在本实施方式中,规则信息与对话策略的路径对应,包含多个结点,每个结点都设置有对话规则,使用负样例中的对话内容与规则信息中包括的对话规则进行匹配确定匹配的规则信息。由于可能不会命中路径所有的结点,在中间的某个结点就会触发兜底测录,所以可能会匹配多个规则信息。
在上述技术方案的基础上进一步地,所述负样例与所述规则信息进行匹配具体为:
使用匹配模型对所述负样例和所述规则信息进行匹配。
在本实施方式中,所述匹配模型为意图识别模型,通过对用户对话内容的意图识别确定路径的走向和命中的结点。
在上述技术方案的基础上进一步地,所述匹配模型为基于深度学习的LSTM-CNN卷积神经网络模型。
在本实施方式中,匹配模型采用基于深度学习的LSTM-CNN卷积神经网络模型,包括输入层、隐藏层以及输出层。其中所述输入层用于对对输入的内容进行向量化。文本的向量化,即使用数字特征来代表文本,因为计算机无法直接理解人类创造的语言和文字。为了让计算机能够理解文本,我们需要将文本信息映射到一个数值化的语义空间中,这个语义空间我们可以称之为词向量空间。将文本转化为向量有多种算法,比如TF-IDF、BOW、One-Hot、word2vec等等。在本实施方式中,文本的向量化采用word2vec算法,word2vec模型是一个无监督的学习模型,使用未标引的语料集的训练就可以实现文本信息到语义空间的映射。
在本实施方式中,用户输入的对话内容进行划词处理,将整句话转化为一个个短语,根据word2vec模型转化为向量。在其他实施方式中,可以预先设置语意向量库,将所有汉字提前转化为向量进行存储,使用时直接从语意向量库中选取汉字对应的向量。
隐藏层采用LSTM-CNN网络,用于学习语义信息以及进行特征提取。输出层为CRF层,对提取的特征进行解码,使用损失函数进行槽位填充以及完成意图识别。
在上述技术方案的基础上进一步地,使用匹配模型对所述负样例和所述规则信息进行匹配进一步包括,确定所述负样例命中所述的规则信息对应的路径中的具体结点,并确定该路径中被命中的最后一个结点以及所述负样例中未命中结点的内容。
在本实施方式中,匹配模型根据用户对话输入内容的意图以及对话规则确定命中的结点。比如通过匹配模型的匹配,确定匹配的规则信息为A→B→F,A→B→G,确定命中的最后一个结点为B;或者确定匹配的规则信息为A→E→J,确定命中的最后一个节点为J。
在上述技术方案的基础上进一步地,将所述负样例未命中结点的内容进行聚类分析,确定聚类分析后每个类别的主题,根据确定的主题调整对话策略并在路径中被命中的最后一个结点后面增加相应的叶子结点。
在本实施方式中,在将所述负样例未命中结点的内容进行聚类分析前,先根据确定的最后一个结点对未命中节点的内容进行分类,比如命中的最后一个结点为B的为一类,命中的最后一个节点是C的为一类。
然后再各个分类内部进行聚类分析,聚类分析后仅保留数量最多的一个分类,对其他的分类进行忽略。
进行聚类分析的算法模型也有很多种,比如:LDA、LSI、SVM、Chameleon算法模型。在本实施方式中,采用基于深度学习的TextCNN模型。TextCNN模型包括输入层、卷积层、池化层以及全连接层。
TextCNN模型的输入层需要输入一个定长的文本序列,我们需要通过分析语料集样本的长度指定一个输入序列的长度L,比L短的样本序列需要填充,比L长的序列需要截取。最终输入层输入的是文本序列中各个词汇对应的词向量。在模型的池化层中使用了最大值池化,即减少了模型的参数,又保证了在不定长的卷基层的输出上获得一个定长的全连接层的输入。
卷积层与池化层在分类模型的核心作用就是特征提取的功能,从输入的定长文本序列中,利用局部词序信息,提取初级的特征,并组合初级的特征为高级特征,通过卷积与池化操作,省去了传统机器学习中的特征工程的步骤。
全连接层的作用就是分类器,将输入的文本进行分类,归纳为不同的主题。
在对主题进行归纳时可以对由管理人员通过人工标引的方式进行归纳。还可以通过对保留的分类下的内容进行划词处理,然后统计词频,根据词频确定每个词的权重。然后再根据句子中各个词的权重计算整个句子的权重,在分类内部根据权重进行排序,权重最高的句子设为该分类的主题。
管理人员根据确定好的主题在该分类对应的命中的最后一个结点后面增加相应的叶子结点。由于仅保留数量最多的一个分类,因此每次也就增加一个结点,该结点为树形结构的叶子结点。
在本实施方式中,树形结构的对话策略增加结点后,还需要为新增的结点设置对应的语料库,设置用于回答用户问题的语料。
可以为对话策略设置调整周期,到达调整周期后对对话策略进行调整。还可以设定设定负样例数量阈值,当负样例积累到一定数量然后对对话策略进行调整。随着时间和数量的累积,每次召回的负样例会越来越少,对话策略越来越完善。
下面通过实施一进行说明。
实施例一
在最初的时候管理人员设置对话策略,对话策略的结构图如图2所示。根结点A是产品咨询,结点B是关于产品价格,结点C是关于产品性能,结点D是关于保修服务,结点E是关于产品外观,结点F是关于优惠券,结点G是关于折扣,结点H是关于保修期,结点I是关于产品颜色,结点J是关于产品重量,结点K是关于产品重量。
用户与客服的对话内容是如下。
用户:你好,请问关于XX产品的价格是多少?
(智能语音机器人识别用户的意图为询问产品价格,根据对话策略从结点A指向结点B,智能语音机器人对用户的问题进行回答)
智能语音机器人:你好,XX产品的价格是1999元。
用户:那是否有产品折扣?
(智能语音机器人识别用户的意图为询问产品折扣,根据对话策略此时从结点B指向结点G,路径为A→B→G,根据命中的结点选取对应的语料回到用户问题)
智能语音机器人:在X月X日有优惠活动,可以享受八折优惠。
用户:那是否有优惠券呢?
(智能语音机器人识别用户的意图为咨询产品的优惠券,根据对话策略是优惠券是在产品价格结点B下面,所以路径为A→B→F,而并非A→B→G→F,根据命中的节点F选取对应的语料回答用户。)
智能语音机器人:目前该产品有满500-50的优惠券。
用户:那是否有拼团呢,拼团价格会不会便宜?
(智能语音机器人识别用户的意图为拼团,根据上下文分析是在产品价格节点B下面,但并没有命中的结点,所以该对话内容为负样例,命中的最后一个结点为B,智能语音机器人使用兜底策略回答用户。)
智能语音机器人:你好,这个问题我暂时没有办法回答您,您留下联系方式,稍后我们会跟您联系。
用户:好的,我电话131XXXXXXXX。
经过一段时间使用,积累一定数量的负样例后,使用负样例对对话策略进行调整。其中,使用命中的最后一个结点为B的负样例进行聚类分析,聚类后为I、II和III类,其中I类数量最多,因此将II和III类舍弃。对I类中的关键词进行词频分析,采用的算法为TF-IDF算法,根据关键词在总次数中出现的词频以及关键词在逆向文档总次数中出现词频确定该关键词的权重。经过计算关键词拼团、便宜、价格、优惠、折扣的权重分别为0.2、0.15、0.1、0.05、0.03。此时负样例中短句“拼团价格会不会便宜”的包含关键词拼团、价格和便宜,所以短句的权重是0.2+0.15+0.1=0.45。
在I类内对各个短句根据权重进行排序,其中“拼团价格会不会便宜”排在第一位,因此可以确定该分类的主题就是拼团价格。对对话策略进行调整,在B结点的下面新增结点M,内容是关于拼团价格,设置对应的语料库,使得对话策略更佳完善。
对话策略调整完成后,用户再次询问到关于拼团的内容,智能语音机器人就不用在使用兜底策略进行回答,可以根据设置好的语料回答用户,提升了用户的满意度。
图3是本发明实施例中一种智能语音机器人的训练装置的结构示意图,如图3所示,本发明提供一种智能语音机器人的训练装置的结构示意图300,包括:
树形结构转化模块301,用于将预先设置的树形结构的对话策略转换成规则信息列表组,所述规则信息列表组中的每一条规则信息对应树形结构中包含根结点到叶子结点的一条路径。
在本实施方式中,在设置智能语音机器人时候会根据应用的场景预先设置对话策略,智能语音机器人根据设置的对话策略与用户进行对话。对话策略通常是树形结构的,如图2所示,最顶端的结点A为根结点,最终端的结点C、F、G、H、I、J、K为叶子结点,其余的结点B、D、E为分支结点。每个结点有具体的规则,根据用户对话的内容确定路径的走向。
在上述技术方案的基础上进一步地,所述规则信息列表组中的规则信息覆盖树形结构中的所有分支。
在本实施方式中,将对话策略树形结构的路径转为一条规则信息,所有的规则信息构成规则信息列表组,比如图2所示的属性结构转化后的规则信息列表组为{A→B→F,A→B→G,ABFBG,ABGBF,A→C,A→D→H,A→E→I,A→E→J,A→E→K…}。规则信息列表组中的规则信息覆盖所有的路径。
在本实施方式中,每个结点还设置有对应的语料库,智能语音机器人判断出用户说话内容的意图后根据对话策略命中具体结点,从结点对应的语料库中选取语料回答用户问题。
基础训练模块302,用于根据所述规则信息列表组设计基础训练样例,使用基础训练样例对智能语音机器人进行基础训练。
在本实施方式中,由管理人员预先设置一定数量的基础训练样例,数量不用太多,但需要覆盖对话策略的所有规则。基础训练样例可以参考相近领域的实际对话进行调整修改,使用基础训练样例对智能语音机器人进行训练。通常训练智能语音机器人是将训练样例分为训练集和校验集,使用训练集对智能语音机器人进行训练,使用校验集进行校验。在本实施方式中由于可供使用的训练样例太少,就不再划分训练集和校验集,全部用来对智能语音机器人进行训练。
策略调整模块303,所述智能语音机器人完成基础训练后上线用于与用户进行对话,所述智能语音机器人无法处理的对话标记为负样例,使用负样例对所述智能语音机器人进行训练。
在本实施方式中,由于管理人员设置的基础训练样例数量比较少,不会覆盖真实使用中所有的对话情况,因此肯定会有对话策略无法处理的情况,通常管理人员会设置兜底策略,预先设置的对话策略无法处理的对话内容使用兜底策略进行处理,比如“非常抱歉,这个问题暂时我无法回答,后期我同事跟您联系”。这种目前对话策略无法处理的对话会被标记为负样例,使用这些负样例对智能语音机器人进行训练,弥补对话策略的漏洞,使对话策略越来越完善。
在上述技术方案的基础上进一步地,所述负样例与所述规则信息列表组进行匹配,确定与所述负样例匹配的规则信息。
在本实施方式中,规则信息与对话策略的路径对应,包含多个结点,每个结点都设置有对话规则,使用负样例中的对话内容与规则信息中包括的对话规则进行匹配确定匹配的规则信息。由于可能不会命中路径所有的结点,在中间的某个结点就会触发兜底测录,所以可能会匹配多个规则信息。
在上述技术方案的基础上进一步地,所述负样例与所述规则信息进行匹配具体为:
使用匹配模型对所述负样例和所述规则信息进行匹配。
在本实施方式中,所述匹配模型为意图识别模型,通过对用户对话内容的意图识别确定路径的走向和命中的结点。
在上述技术方案的基础上进一步地,所述匹配模型为基于深度学习的LSTM-CNN卷积神经网络模型。
在本实施方式中,匹配模型采用基于深度学习的LSTM-CNN卷积神经网络模型,包括输入层、隐藏层以及输出层。其中所述输入层用于对对输入的内容进行向量化。文本的向量化,即使用数字特征来代表文本,因为计算机无法直接理解人类创造的语言和文字。为了让计算机能够理解文本,我们需要将文本信息映射到一个数值化的语义空间中,这个语义空间我们可以称之为词向量空间。将文本转化为向量有多种算法,比如TF-IDF、BOW、One-Hot、word2vec等等。在本实施方式中,文本的向量化采用word2vec算法,word2vec模型是一个无监督的学习模型,使用未标引的语料集的训练就可以实现文本信息到语义空间的映射。
在本实施方式中,用户输入的对话内容进行划词处理,将整句话转化为一个个短语,根据word2vec模型转化为向量。在其他实施方式中,可以预先设置语意向量库,将所有汉字提前转化为向量进行存储,使用时直接从语意向量库中选取汉字对应的向量。
隐藏层采用LSTM-CNN网络,用于学习语义信息以及进行特征提取。输出层为CRF层,对提取的特征进行解码,使用损失函数进行槽位填充以及完成意图识别。
在上述技术方案的基础上进一步地,使用匹配模型对所述负样例和所述规则信息进行匹配进一步包括,确定所述负样例命中所述的规则信息对应的路径中的具体结点,并确定该路径中被命中的最后一个结点以及所述负样例中未命中结点的内容。
在本实施方式中,匹配模型根据用户对话输入内容的意图以及对话规则确定命中的结点。比如通过匹配模型的匹配,确定匹配的规则信息为A→B→F,A→B→G,确定命中的最后一个结点为B;或者确定匹配的规则信息为A→E→J,确定命中的最后一个节点为J。
在上述技术方案的基础上进一步地,将所述负样例未命中结点的内容进行聚类分析,确定聚类分析后每个类别的主题,根据确定的主题调整对话策略并在路径中被命中的最后一个结点后面增加相应的叶子结点。
在本实施方式中,在将所述负样例未命中结点的内容进行聚类分析前,先根据确定的最后一个结点对未命中节点的内容进行分类,比如命中的最后一个结点为B的为一类,命中的最后一个节点是C的为一类。
然后再各个分类内部进行聚类分析,聚类分析后仅保留数量最多的一个分类,对其他的分类进行忽略。
进行聚类分析的算法模型也有很多种,比如:LDA、LSI、SVM、Chameleon算法模型。在本实施方式中,采用基于深度学习的TextCNN模型。TextCNN模型包括输入层、卷积层、池化层以及全连接层。
TextCNN模型的输入层需要输入一个定长的文本序列,我们需要通过分析语料集样本的长度指定一个输入序列的长度L,比L短的样本序列需要填充,比L长的序列需要截取。最终输入层输入的是文本序列中各个词汇对应的词向量。在模型的池化层中使用了最大值池化,即减少了模型的参数,又保证了在不定长的卷基层的输出上获得一个定长的全连接层的输入。
卷积层与池化层在分类模型的核心作用就是特征提取的功能,从输入的定长文本序列中,利用局部词序信息,提取初级的特征,并组合初级的特征为高级特征,通过卷积与池化操作,省去了传统机器学习中的特征工程的步骤。
全连接层的作用就是分类器,将输入的文本进行分类,归纳为不同的主题。
在对主题进行归纳时可以对由管理人员通过人工标引的方式进行归纳。还可以通过对保留的分类下的内容进行划词处理,然后统计词频,根据词频确定每个词的权重。然后再根据句子中各个词的权重计算整个句子的权重,在分类内部根据权重进行排序,权重最高的句子设为该分类的主题。
管理人员根据确定好的主题在该分类对应的命中的最后一个结点后面增加相应的叶子结点。由于仅保留数量最多的一个分类,因此每次也就增加一个结点,该结点为树形结构的叶子结点。
在本实施方式中,树形结构的对话策略增加结点后,还需要为新增的结点设置对应的语料库,设置用于回答用户问题的语料。
可以为对话策略设置调整周期,到达调整周期后对对话策略进行调整。还可以设定设定负样例数量阈值,当负样例积累到一定数量然后对对话策略进行调整。随着时间和数量的累积,每次召回的负样例会越来越少,对话策略越来越完善。
如图4所示,本发明的一个实施例中还公开一种智能语音机器人的训练系统,图4显示的一种智能语音机器人的训练系统仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
一种智能语音机器人的训练系统400,包括存储单元420,用于存储计算机可执行程序;处理单元410,用于读取所述存储单元中的计算机可执行程序,以执行本发明各种实施方式的步骤。
在本实施方式中一种智能语音机器人的训练系统400还包括,连接不同系统组件(包括存储单元420和处理单元410)的总线430、显示单元440等。
其中,所述存储单元420存储有计算机可读程序,其可以是源程序或都只读程序的代码。所述程序可以被处理单元410执行,使得所述处理单元410执行本发明各种实施方式的步骤。例如,所述处理单元410可以执行如图1所示的步骤。
所述存储单元420可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)4201和/或高速缓存存储单元4202,还可以进一步包括只读存储单元(ROM)4203。所述存储单元420还可以包括具有一组(至少一个)程序模块4205的程序/实用工具4204,这样的程序模块4205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线430可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
智能语音机器人的训练系统400也可以与一个或多个外部设备470(例如键盘、显示器、网络设备、蓝牙设备等)通信,使得用户能经由这些外部设备470通过输入/输出(I/O)接口450进行与处理单元410进行交互,还可以通过网络适配器460与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)进行。网络适配器460可以通过总线430与智能语音机器人的训练系统400的其它模块通信。应当明白,尽管图中未示出,智能语音机器人的训练系统400中可使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
图5是本发明的一个计算机可读介质实施例的示意图。如图5所示,所述计算机程序可以存储于一个或多个计算机可读介质上。计算机可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储单元(RAM)、只读存储单元(ROM)、可擦式可编程只读存储单元(EPROM或闪存)、光纤、便携式紧凑盘只读存储单元(CD-ROM)、光存储单元件、磁存储单元件、或者上述的任意合适的组合。当所述计算机程序被一个或多个数据处理设备执行时,使得该计算机可读介质能够实现本发明的上述方法:
S101、将预先设置的树形结构的对话策略转换成规则信息列表组,所述规则信息列表组中的每一条规则信息对应树形结构中包含根结点到叶子结点的一条路径;
S102、根据所述规则信息列表组设计基础训练样例,使用基础训练样例对智能语音机器人进行基础训练;
S103、所述智能语音机器人完成基础训练后上线用于与用户进行对话,所述智能语音机器人无法处理的对话标记为负样例,使用负样例对所述智能语音机器人进行训练。
通过以上的实施方式的描述,本领域的技术人员易于理解,本发明描述的示例性实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个计算机可读的存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台数据处理设备(可以是个人计算机、服务器、或者网络设备等)执行根据本发明的上述方法。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
综上所述,本发明可以执行计算机程序的方法、装置、电子设备或计算机可读介质来实现。可以在实践中使用微处理单元或者数字信号处理单元(DSP)等通用数据处理设备来实现本发明的一些或者全部功能。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,本发明不与任何特定计算机、虚拟装置或者电子设备固有相关,各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种智能语音机器人的训练方法,其特征在于,方法包括:
将预先设置的树形结构的对话策略转换成规则信息列表组,所述规则信息列表组中的每一条规则信息对应树形结构中包含根结点到叶子结点的一条路径;
根据所述规则信息列表组设计基础训练样例,使用基础训练样例对智能语音机器人进行基础训练;
所述智能语音机器人完成基础训练后上线用于与用户进行对话,所述智能语音机器人无法处理的对话标记为负样例,使用负样例对所述智能语音机器人进行训练。
2.如权利要求1所述的训练方法,其特征在于,所述规则信息列表组中的规则信息覆盖树形结构中的所有分支。
3.如权利要求1至2中任一项所述的训练方法,其特征在于,所述负样例与所述规则信息列表组进行匹配,确定与所述负样例最接近的规则信息。
4.如权利要求1至3中任一项所述的训练方法,其特征在于,所述负样例与所述规则信息进行匹配具体为:
使用匹配模型对所述负样例和所述规则信息进行匹配。
5.如权利要求1至4中任一项所述的训练方法,其特征在于,所述匹配模型为基于深度学习的LSTM-CNN卷积神经网络模型。
6.如权利要求1至5中任一项所述的训练方法,其特征在于,使用匹配模型对所述负样例和所述规则信息进行匹配进一步包括,确定所述负样例命中所述的规则信息对应的路径中的具体结点,并确定该路径中被命中的最后一个结点以及所述负样例中未命中结点的内容。
7.如权利要求1至6中任一项所述的训练方法,其特征在于,将所述负样例未命中结点的内容进行聚类分析,确定聚类分析后每个类别的主题,根据确定的主题调整对话策略并在路径中被命中的最后一个结点后面增加相应的叶子结点。
8.一种智能语音机器人的训练装置,其特征在于,装置包括:
树形结构转化模块,用于将预先设置的树形结构的对话策略转换成规则信息列表组,所述规则信息列表组中的每一条规则信息对应树形结构中包含根结点到叶子结点的一条路径;
基础训练模块,用于根据所述规则信息列表组设计基础训练样例,使用基础训练样例对智能语音机器人进行基础训练;
策略调整模块,所述智能语音机器人完成基础训练后上线用于与用户进行对话,所述智能语音机器人无法处理的对话标记为负样例,使用负样例对所述智能语音机器人进行训练。
9.一种智能语音机器人的训练系统,其特征在于,包括:
存储单元,用于存储计算机可执行程序;
处理单元,用于读取所述存储单元中的计算机可执行程序,以执行权利要求1至7中任一项所述的智能语音机器人的训练方法。
10.一种计算机可读介质,用于存储计算机可读程序,其特征在于,所述计算机可读程序用于执行权利要求1至7中任一项所述的智能语音机器人的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110157064.2A CN112992128B (zh) | 2021-02-04 | 2021-02-04 | 一种智能语音机器人的训练方法、装置和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110157064.2A CN112992128B (zh) | 2021-02-04 | 2021-02-04 | 一种智能语音机器人的训练方法、装置和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112992128A true CN112992128A (zh) | 2021-06-18 |
CN112992128B CN112992128B (zh) | 2023-06-06 |
Family
ID=76347243
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110157064.2A Active CN112992128B (zh) | 2021-02-04 | 2021-02-04 | 一种智能语音机器人的训练方法、装置和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112992128B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB0110532D0 (en) * | 2001-04-30 | 2001-06-20 | Vox Generation Ltd | Grammar coverage tool for spoken language interface |
CN111078844A (zh) * | 2018-10-18 | 2020-04-28 | 上海交通大学 | 软件众包的任务型对话系统及方法 |
CN111177350A (zh) * | 2019-12-20 | 2020-05-19 | 北京淇瑀信息科技有限公司 | 智能语音机器人的话术形成方法、装置和系统 |
CN112115242A (zh) * | 2020-08-01 | 2020-12-22 | 国网河北省电力有限公司信息通信分公司 | 一种基于朴素贝叶斯分类算法的智能客服问答系统 |
CN112199477A (zh) * | 2020-09-04 | 2021-01-08 | 北京邮电大学 | 对话管理方案和对话管理语料的构建方法 |
-
2021
- 2021-02-04 CN CN202110157064.2A patent/CN112992128B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB0110532D0 (en) * | 2001-04-30 | 2001-06-20 | Vox Generation Ltd | Grammar coverage tool for spoken language interface |
CN111078844A (zh) * | 2018-10-18 | 2020-04-28 | 上海交通大学 | 软件众包的任务型对话系统及方法 |
CN111177350A (zh) * | 2019-12-20 | 2020-05-19 | 北京淇瑀信息科技有限公司 | 智能语音机器人的话术形成方法、装置和系统 |
CN112115242A (zh) * | 2020-08-01 | 2020-12-22 | 国网河北省电力有限公司信息通信分公司 | 一种基于朴素贝叶斯分类算法的智能客服问答系统 |
CN112199477A (zh) * | 2020-09-04 | 2021-01-08 | 北京邮电大学 | 对话管理方案和对话管理语料的构建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112992128B (zh) | 2023-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111368996B (zh) | 可传递自然语言表示的重新训练投影网络 | |
WO2021139108A1 (zh) | 情绪智能识别方法、装置、电子设备及存储介质 | |
CN111191030B (zh) | 基于分类的单句意图识别方法、装置和系统 | |
CN110019742B (zh) | 用于处理信息的方法和装置 | |
WO2021139107A1 (zh) | 情感智能识别方法、装置、电子设备及存储介质 | |
CN111177351B (zh) | 基于规则的自然语言表达意图获取方法、装置和系统 | |
CN111414746B (zh) | 一种匹配语句确定方法、装置、设备及存储介质 | |
CN111177350A (zh) | 智能语音机器人的话术形成方法、装置和系统 | |
CN108960574A (zh) | 问答的质量确定方法、装置、服务器和存储介质 | |
US20220156467A1 (en) | Hybrid Natural Language Understanding | |
CN111599340A (zh) | 一种多音字读音预测方法、装置及计算机可读存储介质 | |
CN111177186A (zh) | 基于问题检索的单句意图识别方法、装置和系统 | |
KR20190072823A (ko) | Rnn 문장임베딩과 elm 알고리즘을 이용한 은행업무 관련 고객상담을 위한 도메인 특화 화행분류 방법 | |
CN113204624B (zh) | 一种多特征融合的文本情感分析模型及装置 | |
CN110347802A (zh) | 一种文本分析方法及装置 | |
CN110225210A (zh) | 基于通话摘要自动填写工单方法及系统 | |
CN111046674A (zh) | 语义理解方法、装置、电子设备和存储介质 | |
CN113407677A (zh) | 评估咨询对话质量的方法、装置、设备和存储介质 | |
CN116049387A (zh) | 一种基于图卷积的短文本分类方法、装置、介质 | |
CN114281996B (zh) | 长文本分类方法、装置、设备及存储介质 | |
CN109062977A (zh) | 一种基于语义相似度的自动问答文本匹配方法、自动问答方法和系统 | |
US11875128B2 (en) | Method and system for generating an intent classifier | |
CN110874408B (zh) | 模型训练方法、文本识别方法、装置及计算设备 | |
CN112100360B (zh) | 一种基于向量检索的对话应答方法、装置和系统 | |
CN113051388A (zh) | 一种智能问答方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |