CN114238605B - 一种智能语音客服机器人自动对话方法及装置 - Google Patents
一种智能语音客服机器人自动对话方法及装置 Download PDFInfo
- Publication number
- CN114238605B CN114238605B CN202111554796.1A CN202111554796A CN114238605B CN 114238605 B CN114238605 B CN 114238605B CN 202111554796 A CN202111554796 A CN 202111554796A CN 114238605 B CN114238605 B CN 114238605B
- Authority
- CN
- China
- Prior art keywords
- voice
- unit
- language
- neural network
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/105—Human resources
- G06Q10/1053—Employment or hiring
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Human Resources & Organizations (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Entrepreneurship & Innovation (AREA)
- Strategic Management (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Economics (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Operations Research (AREA)
- Human Computer Interaction (AREA)
- Marketing (AREA)
- Machine Translation (AREA)
Abstract
本申请提供了一种智能语音客服机器人自动对话方法及装置,属于数据处理技术领域。该方法包括将获取的用户语音数据转换为字符序列;基于训练好的意图神经网络模型,确定所述字符序列对应的包含意图关键词及实体关键词的期望值;根据所述期望值匹配给定的树状流程中的当前话术节点的下一个话术节点分支,并将这些关键词填充在所述话术节点分支对应的指令信息的槽位中;根据用户的所述指令信息确定需要对话的文本语言;将所述文本语言转换为语言,并输出给用户。本申请能够提高语音自动对话的智能性。
Description
技术领域
本申请属于数据处理技术领域,特别涉及一种智能语音客服机器人自动对话的方法及装置。
背景技术
在传统的人力资源招聘行业,人工外呼邀约面试为业务执行的主力军。然而,面对海量的简历线索、重复的工作内容、高度交付压力,人工外呼存在诸多问题:人力成本高、培训时间长、缺乏统一标准、工作效率低、目前招聘中的价值无法替代等。AI顾问代替人工完成招聘询问意向工作,可以使人工成本大幅降低。
但是采用智能语音客服机器人存在语言理解不到位的缺点,主要原因在于目前的语法分析都限于分析一个孤立的句子,上下文关系和谈话环境对本句的约束和影响还缺乏系统的研究。人理解一个句子不是单凭语法,还运用了大量的有关知识,包括生活知识和专门知识。在电话服务行业中,需要包含情感、性格、心理等更贴合人性的说话方式,但是目前的自然语言理解技术,仍不能满足此项。
现有技术中,最广泛的中文自然语言理解系统,使用了传统自然语言处理(NLP)技术,其预先设定好所有需要处理的问题的模板,模板中空出可变的关键词作为槽,对用户的实际问题进行关键字提取,并在模板集合中进行匹配。在匹配的结果中,进行打分,筛选出最有可能的目标模板。模板的意图即对应实际问题的意图,模板中槽里的词即为关键词,由意图和关键词共同决定了对整句话的理解,但由于中文的博大精深,在不用的使用场景或不同的说话语气时,即使是同一句也有多种意思,若采用该种理解方法,会导致语言理解不精准。
发明内容
为了解决上述技术问题至少之一,本申请提供了一种智能语音客服机器人自动对话方法及装置,提高语义理解。
本申请第一方面提供了一种智能语音客服机器人自动对话方法,包括:将获取的用户语音数据转换为字符序列;基于训练好的意图神经网络模型,确定所述字符序列对应的包含意图关键词及实体关键词的期望值;根据所述期望值匹配给定的树状流程中的当前话术节点的下一个话术节点分支,并将这些关键词填充在所述话术节点分支对应的指令信息的槽位中;根据用户的所述指令信息确定需要对话的文本语言;将所述文本语言转换为语言,并输出给用户。
优选的是,将获取的用户语音数据转换为字符序列包括:将所述用户语音数据转换为离散数字信号;通过预加重提高高频特性;提取语音的MFCC特征信息;将所述MFCC特征信息通过声学模型和语音模型转换为字符序列。
优选的是,将获取的用户语音数据转换为字符序列之后进一步包括:根据所述字符序列确定各词语出现的次数;根据各词语及其出现的次数填充与所述意图神经网络模型训练时所采用的训练输入向量维度相同的计算输入向量,其中,所述计算输入向量中的每一维度对应于标注字典中的一特定词语,每一维度的数值对应于该特定词语在用于进行计算的字符序列中出现的次数。
优选的是,所述标注字典基于以下步骤获取:以高频模式对在指定领域中用户的多条真实输入的语句进行BIO标注,所述高频模式是指BIO标注过程中,以给定词典中的所命中的最长的单词进行标注;根据高频模式提取的准确字典,标记出其他低频模式中的POI信息;进行CRF模型训练,识别POI信息,加入到标注字典中。
优选的是,所述意图神经网络模型通过以下步骤训练:获取样本数据,所述样本数据的每一条样本包括输入语料及输出期望值;根据输入语料所包含的词语及其出现的次数构建输入向量;构建神经网络模型,所述神经网络模型包括4层;通过构建二次代价函数并对其进行迭代优化,确定输入向量的各维度的权重及偏置,其中,二次代价函数包括:
其中,y(x)为输出期望值,a为实际输出,x=w1x1+w2x2+...+wnxn+b,x1~xn为输入向量的各维度值,w1~wn为各维度值对应的权重,b为偏置。
本申请第二方面提供了一种智能语音客服机器人自动对话装置,主要包括:语音识别模块,用于将获取的用户语音数据转换为字符序列;语言理解模块,用于基于训练好的意图神经网络模型,确定所述字符序列对应的包含意图关键词及实体关键词的期望值;对话管理模块,用于根据所述期望值匹配给定的树状流程中的当前话术节点的下一个话术节点分支,并将这些关键词填充在所述话术节点分支对应的指令信息的槽位中;语言生成模块,用于根据用户的所述指令信息确定需要对话的文本语言;语音合成模块,用于将所述文本语言转换为语言,并输出给用户。
优选的是,所述语音识别模块包括:数据转换单元,用于将所述用户语音数据转换为离散数字信号;高频处理单元,用于通过预加重提高高频特性;语音提取单元,用于提取语音的MFCC特征信息;字符序列生成单元,用于将所述MFCC特征信息通过声学模型和语音模型转换为字符序列。
优选的是,所述自动对话装置还包括预处理模块,所述预处理模块包括:词语统计单元,用于根据所述字符序列确定各词语出现的次数;输入向量填充单元,用于根据各词语及其出现的次数填充与所述意图神经网络模型训练时所采用的训练输入向量维度相同的计算输入向量,其中,所述计算输入向量中的每一维度对应于标注字典中的一特定词语,每一维度的数值对应于该特定词语在用于进行计算的字符序列中出现的次数。
优选的是,所述标注字典基于以下模块生成:高频模式标注单元,用于以高频模式对在指定领域中用户的多条真实输入的语句进行BIO标注,所述高频模式是指BIO标注过程中,以给定词典中的所命中的最长的单词进行标注;低频模式标注单元,用于根据高频模式提取的准确字典,标记出其他低频模式中的POI信息;模型训练单元,用于进行CRF模型训练,识别POI信息,加入到标注字典中。
优选的是,所述意图神经网络模型通过以下模块训练:样本获取单元,用于获取样本数据,所述样本数据的每一条样本包括输入语料及输出期望值;输入向量构建单元,用于根据输入语料所包含的词语及其出现的次数构建输入向量;神经网络构建单元,用于构建神经网络模型,所述神经网络模型包括4层;训练单元,用于通过构建二次代价函数并对其进行迭代优化,确定输入向量的各维度的权重及偏置,其中,二次代价函数包括:
其中,y(x)为输出期望值,a为实际输出,x=w1x1+w2x2+...+wnxn+b,x1~xn为输入向量的各维度值,w1~wn为各维度值对应的权重,b为偏置。
附图说明
图1是本申请智能语音客服机器人自动对话方法的一优选实施例的流程图。
图2是本申请图1所示实施例的语音识别流程图。
图3是本申请图1所示实施例的神经网络神经元结构示意图。
图4是本申请智能语音客服机器人自动对话装置的一优选实施例的系统架构图。
图5为本申请语言生成流程图。
具体实施方式
为使本申请实施的目的、技术方案和优点更加清楚,下面将结合本申请实施方式中的附图,对本申请实施方式中的技术方案进行更加详细的描述。在附图中,自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。所描述的实施方式是本申请一部分实施方式,而不是全部的实施方式。下面通过参考附图描述的实施方式是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。基于本申请中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本申请保护的范围。下面结合附图对本申请的实施方式进行详细说明。
本申请首先提供了一种智能语音客服机器人自动对话方法,如图1所示,主要包括:
步骤S1、将获取的用户语音数据转换为字符序列。
图2给出了步骤S1的一个具体实施例,首先对录入的语音数据进行预滤波去除干扰,然后通过模数转换器转化为离散数字信号,并且通过PCM进行脉冲编码;获取数字语音信号后,通过预加重提高高频特性,然后使用加窗和分帧技术获取语音帧,筛选有效语音信息的部分,进一步排除噪声干扰,提高语音识别效果;提取语音特征,提取MFCC特征信息;最后将语音特征信息通过声学模型和语音模型转换为字符序列。
本实施例中,MFCC是在Mel标度频率域提取出来的倒谱参数,Mel标度描述了人耳频率的非线性特性,以上步骤中,获取数字语音信号后,通过预加重提高高频特性属于MFCC参数提取的初始步骤,预加重处理其实是将语音信号通过一个高通滤波器,之后进行分帧及加窗操作,分帧是将多个采样点集合成一个观测单位,通常语音识别所采用语音信号的采样频率为8KHz或16KHz,以8KHz来说,若帧长度为256个采样点,则对应的时间长度是256/8000×1000=32ms。加窗是指对分帧后的数据乘以汉明窗,以增加帧左端和右端的连续性。再之后通过带通滤波器进一步排除噪声干扰,例如采用三角带通滤波器,经滤波器后,得到对数能量,之后经离散余弦变化即可得到MFCC系数。
步骤S2、基于训练好的意图神经网络模型,确定所述字符序列对应的包含意图关键词及实体关键词的期望值。
在实现步骤S2之前,首先需要构建意图神经网络模型,以及在构建意图神经网络模型之前需要构建标注字典,具体步骤如下。
步骤S21、数据准备:为了保证结果的准确性,训练数据为招聘业务中用户与招聘顾问的对话数据,用户以前在使用过程中真实输入的语句,以备模型构建使用。
步骤S22、数据标注:在模型训练之前,并没有一份能够适用于现有业务的标注好的数据,所以需要根据步骤S21中的数据,自行对数据做相应的标注。本申请的数据标注主要用BIO标注方式来做标注,用户数据是完全不带标注信息的,因此需要将用户QUERY标注为本申请需要的格式,使用字符串最长匹配,也就是找出现有词典中能找到的最长的子句,如,对于一个QUERY“我要去北京天安门”,在已有的词典中中,同时匹配到“北京”、“天安门”、“北京天安门”等三个词,那么需要选择其中最长的那个,也就是“北京天安门”,最终会将其标注为以下的形式:
导(O)航(O)到(O)天(B_POI)安(I_POI)门(I_POI)
我(O)要(O)去(O)北(B_POI)京(I_POI)天(I_POI)安(I_POI)门(I_POI)
通过以上方式形成本申请的标注字典,标注一批数据,这样可以通过高频模式提取的准确字典,标记出其他低频模式中的POI信息,然后用单机的CRF++软件来训练一个单机的CRF模型,最终将其映射为对应的标签。重复前面的过程,标注数据,训练模型,识别POI,加入词典,构成人资招聘领域词典,然后在此标注字典的基础上,对全部的数据进行标注,用于后面的神经网络模型训练。
进一步需要说明的是,本申请的BIO标注,是指用“B”代表词语的起始,“I”代表词语的中间或末尾,“O”表示非词语的部分,例如“天安门”中的“天”是该词语的起始部分,因此后面用“B”表示,后缀POI是位置标注的缩写。
有了上述标注字典之后,即可进行意图神经网络模型的构建,为了方便后续的计算,在中文文本处理中,本申请采用词袋模型(bag of word)。以如下三条语料进行举例:
“帮我查询明天到北京的机票”、“北京明天是否有雨”、“帮我定个烤鸭到酒店”。
经过分词后的词袋词典:
['北京','我定','明天','是否','有雨','机票','查询','烤鸭','送到','酒店']
词典标号:
{'北京':0,'我定':1,'明天':2,'是否':3,'有雨':4,'机票':5,'查询':6,'烤鸭':7,'送到':8,'酒店':9}
这个词典一共包含10个不同的单词,利用词典的索引号,上面两个文档每一个都可以用一个10维向量表示,表示某个单词在预料中出现的次数:
[[1 0 1 0 0 1 1 0 0 0],[1 0 1 1 1 0 0 0 0 0],[0 1 0 0 0 0 0 1 1 1]]
经过处理后就将上述提供的训练文本转换成了特征的向量表示形式,这些特征向量在传入到EmbeddingIntentClassifier框架中与各条语料的类别标识一同进行训练成模型。
基于上述的特征数据,本申请构建一个4层的神经网络,其中第一层为输入层,其接收上述处理后的特征向量数据,根据上述示例,每个语料有10个向量值,则第一层输入层对应有10个神经元;最后一层为输出层,也就是结构层,假设本申请这里有三个意图分类,则输出神经元对应有3个。
神经网络的主要思想可以看做是通过大量的训练样本,自动学习一个模拟函数,进而对未知数据进行预测。神经网络使用样本数据自动推断出每一类的的特征规则,然后应用的新的位置数据上,进而达到分类的目的。
针对上述的神经网络结构,每一个神经元的结构如下图3所示。图3中,x1,x2,...,x10就是上文处理后的特征向量,上文示例是10维度的,一般的情况下输出的维度都比较大,x=w1x1+w2x2+...+w10x10+b为加权输入,输出则为激活函数作用在加权输入x上,即y=σ(x)。
本申请已经构建了一个4层的神经网络,有了训练数据与相关的数据标识,则可以通过设计相关的优化函数将该神经网络与我们的分类结合在一起,比如已经将语料“帮我查询明天到北京的机票。”标识成一个1X10的向量表示[1 0 1 0 0 1 1 0 0 0],并设计了一个模拟函数y=y(x)标识对应的期望输出,根据上文示例,这个输出是一个3维的向量,对于语料“帮我查询明天到北京的机票。”期望的输出应该是y(x)=(1,0,0)T,如何求出这个模拟函数(一般情况下则是求相关的权重和偏置)则是本申请模型构建的过程,即上面说的最优化问题。针对上面是设计的神经网络,本申请选择二次代价函数(也称为均方误差代价函数)进行优化。
二次代价函数包括:
其中,y(x)为输出期望值,a为实际输出,x=w1x1+w2x2+...+wnxn+b,x1~xn为输入向量的各维度值,w1~wn为各维度值对应的权重,b为偏置。
模型的构建过程就是基于训练语料对上述代价函数进行最优化的过程,最终得到y(x)函数的权重及偏置,则在新的用户数据请求到来后,直接进行计算则可以得到相应的分类结果。
本模块输入是一段人类语言文本,输出是一段结构化数据(json/xml etc.),主要包含意图(Intent)和实体(Entities)的抽取结果,例如,输入文本为“我想在北京找服务员的工作”之后,本模块需要识别出用户的意图为“找工作”,并提取出关键信息“地点:北京”、“职位:服务员”,而在这里地点和职位就是信息槽。
步骤S3、根据所述期望值匹配给定的树状流程中的当前话术节点的下一个话术节点分支,并将这些关键词填充在所述话术节点分支对应的指令信息的槽位中。
在步骤S3中,根据对话的历史信息,决定用户此刻的反应,本申请的多轮对话采用任务驱动。具体来说,用户有明确的目的,比如询问工作地点、工资等,用户的需求比较复杂,限制也比较多。它可能需要分成多轮演示。一方面,用户在对话过程中,可以不断修改或改进自己的需求。另一方面,当用户陈述的需求不够具体或不够明确时,机器也可以通过询问、澄清或确认的方式帮助用户找到满意的结果。步骤S3进一步包括对话状态维护、系统决策生成、作为接口与后端/任务模型交互、语义表达期望等步骤。该步骤实际上是一个决策步骤,其状态决定下一步应该采取的最优行动(如:提供结果、要求具体约束、澄清或确认要求……),以最有效地协助用户完成获取信息或服务的任务,该步骤的输入是用户输入(或用户行为,NLU的输出)和当前对话状态的语义表达,输出是下一个系统行为和更新后的对话状态。这是一个不断循环的过程,直到任务完成。
语义输入是流通的驱动力,该步骤的约束条件(即每个节点需要补充的信息/要支付的价格)是阻力。输入携带的语义信息越多,动机越强;完成任务需要的信息越多,抵抗力就越强。该步骤需要应对跟业务直接相关的一些场景,在客服场景下的外呼包括确认信息:回访、通知、信息确认,营销:推广、介绍等,呼入包括任务对话:查话费、预约、FAQ等。外呼场景采用树状流程模式:在每一个正常话术节点下,智能客服的后台都可以设置肯否模型,通过意图识别客户意图,是“肯定”还是“否定”,再对应流转到下一节点。如果对话内容没有命中当前任何节点的分支,则会流转到默认分支,这样保证了对话过程的流畅完整。在对话过程中提取关键“变量”,例如:期望工作地点、薪资等。
步骤S4、根据用户的所述指令信息确定需要对话的文本语言。
步骤S5、将所述文本语言转换为语言,并输出给用户。
本申请第二方面提供了一种智能语音客服机器人自动对话装置,如图4所示,主要包括语音识别(ASR)模块、语言理解(NLU)模块、对话管理(DM)模块、语言生成(NLG)模块、语音合成(TTS)模块。语音识别模块接收用户输入的语音,将输入的语音信息识别为文本信息,交由语言理解模块处理生成完整语句并识别语句的意图,对话管理模块根据上下文控制多轮对话,语言生成模块根据本系统数据库中特定领域的文本数据进行数据分析,生成对应回答话术,再将生成的回答话术整合成完整字句的信息传输至语音合成模块,以语音方式输出,来达到与用户对话。
具体来讲,语音识别模块,用于将获取的用户语音数据转换为字符序列;语言理解模块,用于基于训练好的意图神经网络模型,确定所述字符序列对应的包含意图关键词及实体关键词的期望值;对话管理模块,用于根据所述期望值匹配给定的树状流程中的当前话术节点的下一个话术节点分支,并将这些关键词填充在所述话术节点分支对应的指令信息的槽位中;语言生成模块,用于根据用户的所述指令信息确定需要对话的文本语言;语音合成模块,用于将所述文本语言转换为语言,并输出给用户。
本申请的语言理解(NLU)模块需要应对跟业务直接相关的一些场景,在客服场景下的外呼包括确认信息:回访、通知、信息确认,营销:推广、介绍等,呼入包括任务对话:查话费、预约、FAQ等;自然语言处理是一门研究人与人交际中,以及人与计算机交际中的语言问题的学科。NLP的目标是希望通过图灵测试,包括了语音、形态、语法、语义以及语用等方面,也要解决人类语言中的因果、逻辑和推理的问题。NLU是NLP的一个子集,NLU的一个主要功能是“execute an intent”即提取意图,在NLU中,意图可以由槽位来表达,槽位就是意图的参数信息。槽位是指从句子中抽取出的特定概念,槽位填充为了让用户意图转化为用户明确的指令而补全信息的过程。
如图5所示,本申请的语言生成(NLG)模块旨在弥合人与机器之间的沟通鸿沟,将非语言格式的数据转换为人类可以理解的语言格式,例如文章、报告等。自然语言生成有两种方式:文本到语言的生成、数据到语言的生成。自然语言生成就像人类一样。它理解意图,增加智能,考虑上下文,并以用户可以轻松阅读和理解的富有洞察力的叙述方式呈现结果。这种自然语言生成的形式就像人类一样。它理解意图,增加智能,考虑上下文,并以用户可以轻松阅读和理解的有洞察力的叙述形式呈现结果。在这个模块中第一步:内容确定:系统需要决定在构建的文本中应该包含哪些信息,哪些不应该包含。通常数据包含比最终消息更多的信息。第二步:文本结构:系统需要按照合理的顺序组织文本。第三步:句子聚合:并非每条信息都需要用单独的句子表达。将多条信息组合成一个句子可能会更流畅、更容易阅读。第四步:语法化:每个句子的内容确定后,可以将信息组织成自然语言。这一步会在各种信息之间添加一些连接词,看起来更像是一个完整的句子。第五步:参考表达生成:这一步类似于语法化,选择单词和短语组成一个完整的句子。但是,他和语法化的本质区别在于“REG需要识别内容的领域,然后使用该领域(而不是其他领域)的词汇”。第六步:语言实现:最后,当所有相关的词和短语都确定后,需要将它们组合起来,形成一个结构良好的完整句子。
本申请的语音合成(TTS)模块是一种语音合成系统,包括:分割单元,用于将目标语音对应的音素串分割为多个片段,生成第一片段序列;选择单元,被配置为通过基于第一片段序列组合多个语音单元来生成对应于第一片段序列的多个第一语音单元串,并从多个第一语音单元串中选择一个语音单元串;连接单元,被配置为连接包括在选择的语音单元串中的多个语音单元以生成合成语音,选择单元包括被配置为重复执行第一处理和第二处理的检索单元,第一处理生成多个第三段序列对应的第三语音单元串基于至多W(W为预定值)第二段序列对应的第二语音单元串,第二段序列为第一段序列中的部分序列,第三段片段序列是将片段加入第二片段序列得到的部分序列,第二处理来源于多个第三语音序列。从单元串中最多选择W个第三语音单元串,第一计算单元被配置为计算多个第三语音单元串中的每一个的总成本,第二计算单元被配置为基于速度语音单元数据获取的极限用于计算多个第三语音单元串中的每一个的总成本对应的惩罚系数,其中惩罚系数取决于接近极限的程度,第三计算单元,被配置为通过使用惩罚系数来校正总成本来计算多个第三语音单元串中的每一个的估计值,其中检索单元基于估计值从多个第三语音单元串中获得估计值多个第三语音单元串中的每一个从多个第三语音单元串中选择至多W个第三语音单元串,它主要模拟人类理解自然语言的过程——文本正则化、分词、语法分析和语义分析,使计算机能够充分理解输入的文本,并给出后两部分所需的各种发音提示,通过韵律处理,合成语音可以规划音高、长度、强度等片段特征,使合成语音能够正确表达语义,听起来更自然。通过声学处理输出语音,即合成语音。
在一些可选实施方式中,所述语音识别模块包括:
数据转换单元,用于将所述用户语音数据转换为离散数字信号;
高频处理单元,用于通过预加重提高高频特性;
语音提取单元,用于提取语音的MFCC特征信息;
字符序列生成单元,用于将所述MFCC特征信息通过声学模型和语音模型转换为字符序列。
在一些可选实施方式中,所述自动对话装置还包括预处理模块,所述预处理模块包括:
词语统计单元,用于根据所述字符序列确定各词语出现的次数;
输入向量填充单元,用于根据各词语及其出现的次数填充与所述意图神经网络模型训练时所采用的训练输入向量维度相同的计算输入向量,其中,所述计算输入向量中的每一维度对应于标注字典中的一特定词语,每一维度的数值对应于该特定词语在用于进行计算的字符序列中出现的次数。
在一些可选实施方式中,所述标注字典基于以下模块生成:
高频模式标注单元,用于以高频模式对在指定领域中用户的多条真实输入的语句进行BIO标注,所述高频模式是指BIO标注过程中,以给定词典中的所命中的最长的单词进行标注;
低频模式标注单元,用于根据高频模式提取的准确字典,标记出其他低频模式中的POI信息;
模型训练单元,用于进行CRF模型训练,识别POI信息,加入到标注字典中。
在一些可选实施方式中,所述意图神经网络模型通过以下模块训练:
样本获取单元,用于获取样本数据,所述样本数据的每一条样本包括输入语料及输出期望值;
输入向量构建单元,用于根据输入语料所包含的词语及其出现的次数构建输入向量;
神经网络构建单元,用于构建神经网络模型,所述神经网络模型包括4层;
训练单元,用于通过构建二次代价函数并对其进行迭代优化,确定输入向量的各维度的权重及偏置,其中,二次代价函数包括:
其中,y(x)为输出期望值,a为实际输出,x=w1x1+w2x2+...+wnxn+b,x1~xn为输入向量的各维度值,w1~wn为各维度值对应的权重,b为偏置。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (8)
1.一种智能语音客服机器人自动对话方法,其特征在于,包括:
将获取的用户语音数据转换为字符序列;
基于训练好的意图神经网络模型,确定所述字符序列对应的包含意图关键词及实体关键词的期望值;
根据所述期望值匹配给定的树状流程中的当前话术节点的下一个话术节点分支,并将这些关键词填充在所述话术节点分支对应的指令信息的槽位中;
根据用户的所述指令信息确定需要对话的文本语言;
将所述文本语言转换为语言,并输出给用户;
其中,将获取的用户语音数据转换为字符序列之后进一步包括:
根据所述字符序列确定各词语出现的次数;
根据各词语及其出现的次数填充与所述意图神经网络模型训练时所采用的训练输入向量维度相同的计算输入向量,其中,所述计算输入向量中的每一维度对应于标注字典中的一特定词语,每一维度的数值对应于该特定词语在用于进行计算的字符序列中出现的次数。
2.如权利要求1所述的智能语音客服机器人自动对话方法,其特征在于,将获取的用户语音数据转换为字符序列包括:
将所述用户语音数据转换为离散数字信号;
通过预加重提高高频特性;
提取语音的MFCC特征信息;
将所述MFCC特征信息通过声学模型和语音模型转换为字符序列。
3.如权利要求1所述的智能语音客服机器人自动对话方法,其特征在于,所述标注字典基于以下步骤获取:
以高频模式对在指定领域中用户的多条真实输入的语句进行BIO标注,所述高频模式是指BIO标注过程中,以给定词典中的所命中的最长的单词进行标注;
根据高频模式提取的准确字典,标记出其他低频模式中的POI信息;
进行CRF模型训练,识别POI信息,加入到标注字典中。
5.一种智能语音客服机器人自动对话装置,其特征在于,包括:
语音识别模块,用于将获取的用户语音数据转换为字符序列;
语言理解模块,用于基于训练好的意图神经网络模型,确定所述字符序列对应的包含意图关键词及实体关键词的期望值;
对话管理模块,用于根据所述期望值匹配给定的树状流程中的当前话术节点的下一个话术节点分支,并将这些关键词填充在所述话术节点分支对应的指令信息的槽位中;
语言生成模块,用于根据用户的所述指令信息确定需要对话的文本语言;
语音合成模块,用于将所述文本语言转换为语言,并输出给用户;
所述自动对话装置还包括预处理模块,所述预处理模块包括:
词语统计单元,用于根据所述字符序列确定各词语出现的次数;
输入向量填充单元,用于根据各词语及其出现的次数填充与所述意图神经网络模型训练时所采用的训练输入向量维度相同的计算输入向量,其中,所述计算输入向量中的每一维度对应于标注字典中的一特定词语,每一维度的数值对应于该特定词语在用于进行计算的字符序列中出现的次数。
6.如权利要求5所述的智能语音客服机器人自动对话装置,其特征在于,所述语音识别模块包括:
数据转换单元,用于将所述用户语音数据转换为离散数字信号;
高频处理单元,用于通过预加重提高高频特性;
语音提取单元,用于提取语音的MFCC特征信息;
字符序列生成单元,用于将所述MFCC特征信息通过声学模型和语音模型转换为字符序列。
7.如权利要求5所述的智能语音客服机器人自动对话装置,其特征在于,所述标注字典基于以下模块生成:
高频模式标注单元,用于以高频模式对在指定领域中用户的多条真实输入的语句进行BIO标注,所述高频模式是指BIO标注过程中,以给定词典中的所命中的最长的单词进行标注;
低频模式标注单元,用于根据高频模式提取的准确字典,标记出其他低频模式中的POI信息;
模型训练单元,用于进行CRF模型训练,识别POI信息,加入到标注字典中。
8.如权利要求5所述的智能语音客服机器人自动对话装置,其特征在于,所述意图神经网络模型通过以下模块训练:
样本获取单元,用于获取样本数据,所述样本数据的每一条样本包括输入语料及输出期望值;
输入向量构建单元,用于根据输入语料所包含的词语及其出现的次数构建输入向量;
神经网络构建单元,用于构建神经网络模型,所述神经网络模型包括4层;
训练单元,用于通过构建二次代价函数并对其进行迭代优化,确定输入向量的各维度的权重及偏置,其中,二次代价函数包括:
其中,y(x)为输出期望值,a为实际输出,x=w1x1+w2x2+...+wnxn+b,x1~xn为输入向量的各维度值,w1~wn为各维度值对应的权重,b为偏置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111554796.1A CN114238605B (zh) | 2021-12-17 | 2021-12-17 | 一种智能语音客服机器人自动对话方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111554796.1A CN114238605B (zh) | 2021-12-17 | 2021-12-17 | 一种智能语音客服机器人自动对话方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114238605A CN114238605A (zh) | 2022-03-25 |
CN114238605B true CN114238605B (zh) | 2022-11-22 |
Family
ID=80758451
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111554796.1A Active CN114238605B (zh) | 2021-12-17 | 2021-12-17 | 一种智能语音客服机器人自动对话方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114238605B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114691852B (zh) * | 2022-06-01 | 2022-08-12 | 阿里巴巴达摩院(杭州)科技有限公司 | 人机对话系统及方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8775341B1 (en) * | 2010-10-26 | 2014-07-08 | Michael Lamport Commons | Intelligent control with hierarchical stacked neural networks |
CN108804453B (zh) * | 2017-04-28 | 2020-06-02 | 深圳荆虹科技有限公司 | 一种视音频识别方法及装置 |
CN111651572A (zh) * | 2020-05-19 | 2020-09-11 | 金日泽 | 一种多领域任务型对话系统、方法和终端 |
CN112115242A (zh) * | 2020-08-01 | 2020-12-22 | 国网河北省电力有限公司信息通信分公司 | 一种基于朴素贝叶斯分类算法的智能客服问答系统 |
CN112612462B (zh) * | 2020-12-29 | 2024-07-05 | 平安科技(深圳)有限公司 | 话术配置调整方法、装置、电子设备及存储介质 |
-
2021
- 2021-12-17 CN CN202111554796.1A patent/CN114238605B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN114238605A (zh) | 2022-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1366490B1 (en) | Hierarchichal language models | |
CN111666381B (zh) | 一种面向智能管制的任务型问答交互系统 | |
CN112712804A (zh) | 语音识别方法、系统、介质、计算机设备、终端及应用 | |
CN113223509B (zh) | 一种应用于多人混杂场景下的模糊语句识别方法及系统 | |
CN111353029B (zh) | 一种基于语义匹配的多轮对话口语理解方法 | |
CN112037773B (zh) | 一种n最优口语语义识别方法、装置及电子设备 | |
AU2006317628A1 (en) | Word recognition using ontologies | |
CN115019776A (zh) | 语音识别模型及其训练方法、语音识别方法及装置 | |
CN111680512B (zh) | 命名实体识别模型、电话总机转接分机方法及系统 | |
US20210327415A1 (en) | Dialogue system and method of controlling the same | |
CN112397054A (zh) | 一种电力调度语音识别方法 | |
CN113326367B (zh) | 基于端到端文本生成的任务型对话方法和系统 | |
Kumar et al. | A comprehensive review of recent automatic speech summarization and keyword identification techniques | |
CN117149977A (zh) | 一种基于机器人流程自动化的智能催收机器人 | |
CN115545041B (zh) | 一种增强医疗语句语义向量表示的模型构造方法及系统 | |
Kumar et al. | Machine learning based speech emotions recognition system | |
CN115497465A (zh) | 语音交互方法、装置、电子设备和存储介质 | |
CN115204143A (zh) | 一种基于prompt的文本相似度计算方法及系统 | |
CN114238605B (zh) | 一种智能语音客服机器人自动对话方法及装置 | |
Iori et al. | The direction of technical change in AI and the trajectory effects of government funding | |
WO2023215105A1 (en) | End-to-end automatic speech recognition system for both conversational and command-and-control speech | |
Oh et al. | Question understanding based on sentence embedding on dialog systems for banking service | |
Ghadekar et al. | ASR for Indian regional language using Nvidia’s NeMo toolkit | |
CN117407500A (zh) | 一种基于etc车主服务的生成式和决策式ai机器人 | |
Teshite et al. | Research Article Afan Oromo Speech-Based Computer Command and Control: An Evaluation with Selected Commands |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |