CN110111780B

CN110111780B - 数据处理方法和服务器

Info

Publication number: CN110111780B
Application number: CN201810094342.2A
Authority: CN
Inventors: 曹元斌; 王剑; 王天舟; 温建华; 李生; 郎君; 司罗
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-01-31
Filing date: 2018-01-31
Publication date: 2023-04-25
Anticipated expiration: 2038-01-31
Also published as: CN110111780A

Abstract

本申请提供了一种数据处理方法和服务器，应用于聊天机器人中，其中，该方法包括：获取语音数据；根据语音识别模型将所述语音数据转换为文本数据，其中，所述语音识别模型是基于特定领域语言模型对基准语言模型进行线性插值得到的目标语言模型建立的，其中，所述特定领域语言模型是基于目标特定领域的语料数据训练得到的，所述特定领域与所述语音数据的内容相匹配。通过上述方案使得在定制聊天机器人的时候，如果没有充足的训练语料，那么可以通过领域语言模型对基准语言模型进行插值的方式得到特定领域的聊天机器人，从而达到提高语音识别准确度的技术效果。

Description

数据处理方法和服务器

技术领域

本申请属于互联网技术领域，尤其涉及一种数据处理方法和服务器。

背景技术

随着智能化技术的不断发展，对机器人的研究越来越多。机器人的研究势必会研究用户与机器人的语音交互。现有的聊天机器人一般都是面向比较特定的需求，例如，用于进行自动订票的聊天机器人，用于回答客户咨询的聊天机器人等等。

在与这些机器人进行语音交互的过程中，往往会因为训练语料的不足，或者是语音中的词汇太过专业，导致语音识别的准确度比较低。

针对上述问题，目前上述提出有效的解决方案。

发明内容

本申请目的在于提供一种数据处理方法和服务器，以达到提高聊天机器人的语音识别准确率的技术效果。

为解决上述技术问题，本申请实施例提供一种数数据处理方法和服务器是这样实现的：

一种数据处理方法，应用于聊天机器人中，包括：

获取语音数据；

根据语音识别模型将所述语音数据转换为文本数据，其中，所述语音识别模型是基于特定领域语言模型对基准语言模型进行线性插值得到的目标语言模型建立的，其中，所述特定领域语言模型是基于目标特定领域的语料数据训练得到的，所述特定领域与所述语音数据的内容相匹配。

一种数据处理服务器，应用于聊天机器人中，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现如下步骤：

获取语音数据；

根据语音识别模型将所述语音数据转换为文本数据，所述语音识别模型是基于特定领域语言模型对基准语言模型进行线性插值得到的目标语言模型建立的，其中，所述特定领域语言模型是基于目标特定领域的语料数据训练得到的，所述特定领域与所述语音数据的内容相匹配。

本申请提供了一种数据处理方法，其中用于进行语音数据识别的语音识别模型是通过特定领域语音模型对基准语音模型进行插值得到的，使得在定制聊天机器人的时候，如果没有充足的训练语料，那么可以通过特定领域语言模型对基准语言模型进行插值的方式得到特定领域的聊天机器人，从而达到提高语音识别准确度的技术效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例中数据处理系统的架构示意图；

图2是本申请实施例中语音识别系统的架构示意图；

图3是本申请实施例中语音识别解码流程图；

图4是本申请实施例中语言模型定制流程图；

图5是本申请实施例中语言模型解码流程图；

图6是本申请提供的对话配置界面示意图；

图7是本申请提供的用户与聊天机器人的界面示意图；

图8是本申请提供的用户与聊天机器人的另一界面示意图；

图9是本申请提供的聊天机器人定制平台架构示意图；

图10是本申请提供的对话配置流程图；

图11是本申请提供的知识图谱配置流程图；

图12是本申请提供的用户输入流程示意图；

图13是本申请提供的聊天机器人配置系统模块示意图；

图14是本申请提供的数据处理方法流程图；

图15是本申请提供的数据处理系统的架构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

请参阅图1，本申请提供了一种数据处理系统，可以包括：用户客户端100和数据处理服务器200，所述用户客户端100与所述数据处理服务器200耦合。所述数据处理系统中可以有一个或多个用户客户端100。

在另一个实施方式中，所述数据处理系统还可以包括：聊天定制服务器300。所述聊天定制服务器300可以与所述数据处理服务器200耦合。所述数据处理服务器200可以分别为一个或多个服务器，也可以集成在一个服务器中。所述数据处理服务器200可以分别与所述用户客户端100和所述聊天定制服务器300耦合。

在一个实施方式中，所述用户客户端100可以是可移动设备。例如，可以是手机、平板电脑等。所述用户客户端100还可以是桌面设备，例如：桌面个人计算机(PC机)、一体机等。

上述数据处理服务器200可以是一个语音识别系统，可以如图2所示，可以包括：前端服务器和后端服务器，其中，后端服务器可以包括：语音解码需要用到的模型和算法。具体的：

前端服务器，可以与终端的用户界面集成在一起，在终端界面启动录音后，可以将数字的音频数据传送给前端，前端可以将音频数据传送给前端服务器，前端服务器可以对音频数据进行预处理。例如，对音频数据进行：端点检测(有声音部分的起始位置)、降噪、特征抽取，然后，将抽取后的特征采用流式方式传送给后端服务器。

后端服务器，可以通过预先训练好的声学模型和语言模型，对传入的特征进行解码。具体的，声学模型的解码部分可以将特征通过预先训练好的声学模型，转换为对应的发音；语言模型部分可以将发音通过预先训练好的语言模型，解码成文本。

具体的，可以采用如图3所示的算法流程进行处理：

1)LVCSR语音识别解码流程：

语音(即上述音频数据)可以从输入端输入至系统，系统可以将输入语音按时间进行切片，然后对每一片数据进行特征抽取。

在声学模型中，可以通过GMM模拟每一个发音，例如：“你好”的拼音为n-i-h-a-o，那么每一个音可以对应一个GMM；然后，利用HMM刻画音到音的转移，例如：“你”的拼音是n->i的转移，即，n到i的转移。其中，可以将GMM作为HMM的隐藏状态序列，可以将GMM转移后生成的特征序列，作为观察序列。即，前段所提取的特征序列就是该HMM的观察序列。

具体的，可以利用维特比搜索，来根据观察序列(即，特征序列)计算可能的隐藏状态序列(真实的GMM序列)。最后，将所有可能的GMM序列对应的发音序列和得分(作为声学模型得分)，一起传入下一个模块。

发音词典可以是词和词对应音的映射，例如：“你好”的发音是“n-i-h-a-o”，那么根据传入的候选音的序列，可以得到候选词的序列，这些候选词的序列是否有意义可以通过语言模型打分来确定。

语言模型打分后与声学模型的得分整合后的综合分，就作为句子的得分一起传入下一个模块。

在实现的时候，可以根据所有可能句子的得分，做出最可能的句子的假设，可以将假设的句子反馈给两个下游模块：

1)反馈给语言模型，该模块用于作为n-gram的先验，来计算后面可能的句子；

2)反馈给发音词典，用于进一步反馈给声学模型部分。

具体的，可以通过发音词典将句子反转换为音的序列，将音的序列反馈给声学模型。

声学模型将音的序列转换为GMM序列，然后反馈给HMM，用于清理之前的搜索状态，并作为继续搜索的先验。接下来语音继续输入，继续重复上面过程，直到全部输入结束。

在全部输入结束之后，最终的句子假设，可以作为语音识别结果返回并输出。

语言模型的定制可以包括如下部分：

1)根据聊天机器人用户配置的query，定制领域专门的语言模型，即领域语言模型；

2)通过定制的领域语言模型，对基准语言模型进行插值，得到目标语言识别模型，以便得到更好的识别效果。

其中，通过语言模型之间的插值可以进行低频词的估计，从而使得模型对所有的词具有普适性。具体的，做线性插值是为了同时利用不同阶的信息，例如：在ngram语言模型中，n越大，那么利用的上下文也相应的越多，但是，估计概率也就越稀疏。由于稀疏，经常会出现某个高阶ngram未在语料里出现过，如果直接认为该高阶ngram概率为零显然不合适，相对更好的办法就是回退到(n-1)gram，这就是线性插值的原理。

在建立目标语言识别模型的过程中，可以先建立领域语言模型，该领域语言模型可以是通过对目标领域的语言预料进行训练后形成的，基准语言模型是可以广泛使用的适用于普通各种情况的语言识别模型。因此，将领域语言模型对基准语言模型进行插值，从而得到可以适用于特定领域的语言识别模型，且识别准确率更高。

其中，所谓语言模型是用于描述一个文本串出现的概率，从而实现语音转换为文本的识别。在标准的语音识别系统中，词汇和语义信息包含在语音模型中，例如：“天安门”是一个词，“我爱北京天安门”是一个句子。在本例中，可以采用n-gram语言模型，即，一个由字符w1，w2，w3，...，wn组成的字符串S出现的概率，可以由链式法则表示为：

P(S)=P(w1,w2mw3,...,wn)

=P(W1)P(W2|W1)P(W3|W1,W2)..P(Wn|W1,W,...,Wn-1)

再根据马尔科夫假设：随意一个词出现的概率只与它前面出现的有限的一个或者几个词有关，于是，一个2-gram的字符串的概率，可以表示为：

P(S)=P(w1,w2,w3,..,wn)

=P(W1)P(W2|W1)P(W3|W1,W2)..P(Wn|W1,W2,..,Wn-1)

≈P(W1)P(W2|W1)P(W3|W2,W1)..P(Wn|Wn-1,Wn-2)

根据机器人配置，配置语言模型，可以如图4所示，首先，因为用户配置具有稀疏性，因此，可以通过class-based语言替换n-gram语言模型。其中，class-based语言模型采用POS标签作为词类，在本例中可以通过用户圈定关键词对应的实体类型作为词类。然后，可以训练语言模型，提取用户配置机器人中的句子，将所有句子作为原始语料进行切词，然后，将对应标出来的关键词替换为对应的实体类型标签，然后，基于替换后的实体类型标签进行语言模型训练。

其中，领域语言模型是根据目标领域一些常用的词，但是其它领域不常用到的词训练得到的语言模型。领域一般是具有专业性的，且具有大量的专业词汇，通用语言模型是无法有效识别的，例如，在电商场景下：pv、ipv、gmv、日活、留存率等词汇往往只在定制特定领域的聊天机器人的时候才会用到，而在其它场景是不需要的，如果其它场景也增加这些词汇的识别，那么反而会导致语音识别的错误率上升。因此，对于这些领域中的特定的一些专业性较高的词汇，在其它领域通用性比较低的词汇，可以通过建立领域语言模型的方式进行识别。

进一步的，可以将领域语言模型线性插值到基准语言模型中，可以在语料不足的情况下，保证语音识别模型的识别准确率，从而完成聊天机器人的更高效和准确的定制。

对于语音识别定制的插值部分，即，通过领域语言模型对通用语言模型进行插值。其中，通用语言模型是可以是n-gram语言模型，领域语言模型可以是训练得到的class-based语言模型。在插值的时候，可以通过线性插值(Linear interpo1ation)的方式进行插值。以2-gram(bi-gram language model)为例进行说明，当然，n还可以取其它的数值，形成其它的n-gram，具体的，可以表示为：

bi-gram：

p_interp(w_i|w_i-₁)＝λp_ML(w_i|w_i-₁)+(1-λ)p_ML(w_i)

n-gram：

其中，pinterp表示插值之后的概率，bi-gram插值定义中的PML(wi|wi-1)表示原来语言模型的概率，PML(wi)表示领域语言模型提供的低阶概率，λ表示0～1之间的权重，λ越接近1，通用模型的概率越强，λ越接近0，领域模型的概率越强。

在通用语言模型中，没有出现过的词的组合，概率为0。n-gram的表达式是一个递归的定义，结合bi-gram的定义，可以发现当使用领域语言模型对通用语言模型进行插值的时候，领域语言模型所拥有的低阶词会等比例递归的为所有包含该词的所有词的组合加权。

通过插值，可以保留通用语言模型的原有知识，且对于通用语言模型中未出现过的专业词汇(概率为0)，增加了出现概率，可以将用户配置中不常见的句式用法增加进去，从而提高了整体组合的概率。

即，当提高了一个字符串组合的语言模型得分，就依次可以提高句子得分，从而正向影响句子假设以及后面的一系列流程，可以提高整体的识别准确率。

在一个实施方式中，语音识别定制解码可以如图5所示，按照以下方式实现：语言模型解码首先加载语言模型和对应的实体词典；当输入查询字符串(即，由发音词典翻译过来的字符串)，以实体的词典作为分词词典，采用最大正向匹配原则进行切词，将切得的词替换为实体词典对应的实体类型作为切词结果。然后，可以枚举所有可能的切词结果，在语言模型的索引里搜索计算对应字符串的概率，保留概率最高的字符串切词对应的输入串作为句子假设，并将对应的分数作为语言模型分。其中，语言模型分是打标关键词对应实体类型在class-based语言模型中的语言模型分，通过class-based语言模型来解码，使得原本不在语言模型训练语料中的领域专业词汇可以被解码出来。

在上例中，提供了一个完整的针对领域机器人的定制语音识别系统，在用户定制有专业词汇的领域聊天机器人的情况下，通过class-based language model提高了语音识别对专业词汇的识别准确率；进一步的，在语言模型的定制和交互过程中，采用了切词和打标技术，使得聊天机器人可以适应于中文和英文。通过上述方式，使得在定制的聊天机器人没有充足的训练语料的情况下，通过使用领域语言模型对基准语言模型进行插值的策略，在保留通用语音识别的效果的前提下，可以识别未出现过的专业词汇、可以提升不常见句式的识别准确率，从而整体提升了领域语音的识别效果。

上述的数据处理系统可以应用在聊天机器人之中，以形成完成的针对领域机器人的定制语音识别系统。

基于上述的语音识别系统，可以提供如图6所示的对话配置界面，用户可以在该对话配置界面中配置以生成聊天机器人。例如，打算建立一个“用来买飞机票”的聊天机器人。那么第一步(即，图6中的1)命名当前对话为：“买机票对话”；第二步(即，图2中的2)输入一些表明意图的query，当用户说“机票”，或者“我想买什么时候到哪里的机票”的时候，认为用户是想要买机票的；第三步(即，图6中的3)在query中框选出买机票需要哪些有用信息，即需要在与用户的对话中，提取哪些信息，例如：出发地、目的地、出发时间等；第四步(即，图6中的4)命名这些被框选出的部分都是什么意思，例如：机票表示触发词，明天表示出发日期，上午十点表示出发时间，杭州表示出发城市，上海表示抵达城市；第五步(即，图6中的5)为这些框选出的有用信息选择所属的实体类型，例如：机票对应的实体类型为ticket，明天对应的实体类型为date，上午十点对应的实体类型为time，杭州对应的实体类型为geo-city，上海对应的实体类型为geo-city，其中，这些实体可以为知识图谱中的节点。当需要的节点不存在或者不够细，用户可以自定义额外节点。例如：在知识图谱中城市都对应一个实体geo-city，但是在订票的需求中，对于城市而言，有时是表示出发城市，有时是表示到达城市。因此，可以对知识图谱中的城市节点进行细化，将其细化为：出发城市和到达城市，从而实现知识图谱中节点的细化。第六步(即，图6中的6)，当该信息用户没有提供时，填写需要提问的问题，例如：用户只说＂我要买飞机票＂，则需要依次询问什么时候出发，哪里出发，从哪出发，到哪里去等等，如图6所示，针对不同的信息，可以设置不同的问题；第七步(即，图6中的7)在所有信息都满足，即已经获取到购票所需的所有信息之后，则可以触发服务，在本例中，就是触发一个订票服务。其中，该服务可以由应用机器人的平台提供使用，也可以是由第三方注册并提供使用；第八步(即，图6中的8)在触发服务后，可以返回信息以告诉用户订票成功，如果订票失败，还可以如图6所示配置订票失败对应的提示信息。

通过上述方式即可以实现对智能聊天机器人的对话定制。

在一个实施方式中，在完成对话的配置之后，服务端可以对配置好的对话进行算法分析，并建模保存。对于服务端而言，可以暴露接口集成在其它的即时通讯中，当对话配置完成后，最终用户可以在即时通讯界面上与配置的聊天机器人对话，来获取信息或完成特定任务。

在一个实施方式中，聊天机器人定制平台中不仅可以支持静态实体，例如：用户名、物品名称等等，还可以其它类型的实体。具体的，对于静态实体而言，当需要增加实体时，可以手动添加实体或者导入词表，但是一旦涉及到数据一般就会存在数据安全的问题，对于用户帐号、订单信息或者不同公司间的对话场景，一般是无法预先获得全部实体的，而且有些实体的数据是动态的，例如，在卖家和买家的对话场景中，“订单”实际指的是买家的＂我的订单＂，在这种对话任务中，在买家下单前，是不存在“我的订单”的。

对于无法获取全部实体的数据，可以仅提供数据校验接口，例如：对用户名密码的校验。为此，可以采用统一的抽象层实体，提供给用户可以统一使用的各种实体，在抽象层可以封装各种实体源，包括：词表、db、odps、http服务、hsf服务等。在使用实体的时候，对于无法遍历词表以完成校验的非词表类实体，抽象层可以采用实体发现加接口校验的策略进行统一抽取。

进一步的，可以通过知识图谱的方式对预设领域的知识体系进行建模，当对话定制深入到预设领域细节的时候，聊天机器人制定者可以通过增删改知识图谱中的局部节点来细化知识体系，并可以通过实体之间的关系来确定词语的意思和语句的意思。举例而言，在用户询问订单的场景中，如果在对话设置的时候，仅设置了“订单到哪了？”，那么此处的“订单”实体，相对的就会对应到买家买下后，卖家发货的订单。在订单完成一段时候后，在针对破损补寄的对话中，买家同样会询问“订单到哪了？”，这个时候还选择原来的实体，那返回的结果肯定是订单已签收，显然是不合理的。出现这种问题的原因主要是，在这个对话中出现了歧义，因此可以细化知识图谱，为“订单”实体增加同名子类订单：“补寄订单”用于区分，同时还可以关联补寄相关的一系列实体，这样在定制对话的时候，就可以通过实体选择的时候选择补寄订单实体，以明确词义和句义。

例如，对于用户名密码校验，可以通过预设的数据校验接口对用户名密码进行校验，在校验通过之后，返回校验结果，而不需要聊天机器人本身完成整个校验过程，因此，也就不需要知道具体的校验数据和校验逻辑，只需要通过预设的数据校验接口传送需要校验的内容，并接收校验结果即可。

在一个实施方式中，在对聊天机器人配置完成之后，用户可以在即时通讯软件中与聊天机器人进行对话。例如，用户与聊天机器人，输入“我要买机票”，在输入请求消息的时候，不需要与预先配置的请求消息完全一致，可以控制聊天内容的处理具备一定的泛化能力。基于这个触发请求，可以展开与聊天机器人的回话，以最终完成订票任务。

例如，可以如图7和图8所示，用户输入“我要买机票”以触发订票任务，按照预设的聊天内容，确定缺少哪些必须的实体内容，逐个采用相应的问题问询，并获取实体的对应内容，在确定出所有相关实体内容都获取到之后，就可以触发进行订票。

具体的，在用户输入请求消息之后，对请求消息进行分析和结构化处理，并是接触用户的意图，按照意图的不同搜索得到可用的实体。然后对结构化后的请求消息进行打标，并采用有数据源实体的意图，采用词典规则的方式对请求消息进行打标，对于无数据源实体的意图，可以采用实体发现加实时校验的策略进行打标。然后，对打标后的请求消息进行预测，并抽取实体。基于预测到的意图和抽取的实体，确定需要给用户返回的对话。

其中，上述即时通讯可以应用在客户端中，客户端可以是客户操作使用的终端设备或者软件。具体的，客户端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能手表或者其它可穿戴设备等终端设备。当然，客户端也可以是能运行于上述终端设备中的软件。例如：手机淘宝、支付宝或者浏览器等具备通讯能力的应用软件。

下面结合一个具体实施例对上述聊天机器人定制平台进行说明，然而值得注意的是，该具体实施例仅是为了更好地说明本申请，并不构成对本申请的不当限定。

考虑到因为语言本身的复杂性，经常会出现同义词或者存在歧义的词句。为此，可以采用知识图谱的方式，对于存在歧义或者同义词的词语或者场景，可以增加细化的或者精确区分的实体，以便可以适应复杂的语言环境。

在本例中，提供了一种聊天机器人定制平台，可以包括：对话配置平台、知识图谱数据库、服务接口。对话配置平台可以设置配置界面，用户可以通过该界面配置对话，并通过该对话配置平台生成聊天机器人，在生成聊天机器人之后，可以将该聊天机器人通过服务接口接入即时通讯应用中，用户可以与该聊天机器人进行对话。

对于该聊天机器人定制平台而言，使用者可以包括：聊天场景的制定者、服务提供者、最终用户，具体的，这些使用者可以按照如下功能操作：

1)聊天场景的制定者，用于根据具体任务，制定对话，具体制定的内容包括对话的问答内容。需要从问答中抽取关键实体，在对话结束后，需要返回或者是执行任务。

2)服务提供者，用于根据对话返回的需要被执行的任务，执行特定任务；

3)最终用户，用于使用定制好的聊天机器人，通过聊天的方式来请求完成特定任务。

具体的，可以如图9所示，设置一个对话用的前端，在对话配置完成之后，服务端可以对配置好的对话进行算法分析，并建模保存。进一步的，服务端可以暴露接口，集成在即时通讯应用中，在对话配置完成之后，用户可以在即时通讯界面中与配置的聊天机器人进行对话，以获取信息或完成特定任务。

在定制聊天机器人的用户输入完对话内容之后，可以通过如图10所示的方式配置对话。如图10所示，在后台配置完成，点击保存之后，(1)整个配置信息会由前端写入服务端，(2)服务端从知识图谱系统，抽取配置时选择的实体和关系，在NLP算法模块，对配置中的请求消息进行结构化，(3)结构化后的请求消息可以被拆分为两个部分：一部分是结构化的请求消息，可以将其送入意图识别模块组，用语音训练模型，另一部分是对话结构信息，可以将对话结构信息写入对话管理模块组(4)，用于进行对话管理。

如图11所示，知识图谱模块可以是预先定义的领域知识图谱，用户可以在预定义的知识图谱上增加实体和关系，可以设置用户增加的实体关系，只对用户自己有效。当用户新增实体和关系后，系统可以为新增的实体分配id。然后，将新增的实体划分为实体和关系两部分，可以将关系部分写入“实体关系管理子系统”，实体部分写入“实体抽象管理子系统”，在“实体注册子系统进行实体注册”。

对于有数据源的实体，例如：词表、数据库、hdfs(分布式文件系统)、odps，进入“统一数据接入系统”接入数据；对于只可以进行验证的实体，例如：公司员工账号、登陆密钥、动态生成的订单等，进入“动态实体校验管理子系统”提交相关信息。

在即时通讯端进行交互的时候，可以如图12所示，用户输入请求消息(query)时，(1)在NLP算法模块组进行分析和结构化处理，(2)然后交给意图识别模块组，意图识别模块组按照不同意图从知识图谱系统中搜索出可用实体。然后，对结构化后请求消息进行打标，对使用有数据源实体的意图，可以采用词典规则的方式进行打标(3)(4)，对使用无数据源实体的意图，采用实体发现加实时校验的策略进行打标(5)。最后，对打标后的请求消息进行预测，并抽取实体，将预测到的意图和抽取到的实体，共同交给会化管理模块组(6)，会话管理模块组确定需要给用户的返回对话，将确定的对话返回给用户(7)。

如图13所示，下面对上述几个模块说明如下：

1)NLP算法模块组，可以使用自然语言理解的相关技术，对用户请求消息进行切词、词法和句法分析。然后，使用依存分析等技术对请求消息进行结构化，最后，打上词法、句法以及语义标签。

2)意图识别模块组，可以使用规则加模型的方式，索引用户配置的所有对话。在配置对话时，可以显示从结构化后的标注请求消息中抽取模板规则。然后，将请求消息放入算法模型中进行训练，用以预测意图。在交互查询时，可以先从索引后的配置中，提取知识图谱对应子图，对结构化的用户请求消息进行预打标；然后，与之前还未结束的对话进行组装，交由规则和模型预测意图并抽取有用信息；最后，将结构化并打标的对话、预测的意图、抽取的关键信息，传送给对话管理模块组，生成返回内容。

3)对话管理模块组，可以保存用户对话所有结构化并打标的对话内容与每一轮的预测结果和抽取的关键信息。该模块可以采用规则的方式管理会话，当与用户进行对话时，用户输入缺少关键信息时，可以根据预先配置返回规定的提问信息。

4)知识图谱系统，采用实体和关系分离的管理策略，为实体分配ID之后，可以仅对关系构建索引。实体关系子系统提供根据实体ID按照关系进行搜索或查找出指定类型实体ID列表等基本知识图谱查询功能。

5)实体抽象管理子系统，扩展了实体范围，使得不能提供完整文本，不能提供任何类型文本而只能提供校验的实体，都可以用于对话中。该系统可以按照实体类型、实体来源分类管理不同的实体，对抽象层以外暴露统一的：按ID或者名字查询的实体，按类型查询实体，按指定子图查询实体等基本接口。

6)实体注册子系统，用于提供对多种数据源实体进行注册和管理的功能，对于数据源不同的实体，可注册详略不同的信息，以便于实体识别。例如：对一般文本类型的数据，在指定类型后，可以上传实体。对于集团e-mail类实体，可以提供e-mail实体发现用种子规则和e-mail校验用实时接口，而并不需要有实际的词表。

7)统一数据接入子系统，可以根据注册数据类型的不同，使用不同策略来维护数据。例如：对于纯文本词表类型，可以采用直接导入并索引的策略；对于hadoop或odps类型，可以定时或任务依赖的方式同步数据，对日更新或小时级更新的任务，可以采用隔天覆盖或隔消失覆盖的方式进行更新。

8)动态实体校验管理子系统，可以提供两部分功能，对于无数据源类型的实体，一部分用于为意图识别模块组提供规则和特征，用来进行实体发现，另一部分可以根据注册的接口和规则，对发现后的实体进行校验和归一化处理，并进行标注。最后，由意图识别模块来判断最后的实体。

上例的聊天机器人可以集成在即时通讯应用中，提供了一种模块化构建聊天机器人供用户或商家使用的使用的聊天人定制平台，可以与知识图谱进行整合，提高适应范围，同时采用抽象实体层配合对应算法，可以达到扩展平台的适用范围。

图14是本申请所述一种数据处理方法一个实施例的方法流程图。虽然本申请提供了如下述实施例或附图所示的方法操作步骤或装置结构，但基于常规或者无需创造性的劳动在所述方法或装置中可以包括更多或者更少的操作步骤或模块单元。在逻辑性上不存在必要因果关系的步骤或结构中，这些步骤的执行顺序或装置的模块结构不限于本申请实施例描述及附图所示的执行顺序或模块结构。所述的方法或模块结构的在实际中的装置或终端产品应用时，可以按照实施例或者附图所示的方法或模块结构连接进行顺序执行或者并行执行(例如并行处理器或者多线程处理的环境，甚至分布式处理环境)。

具体的如图14所示，本申请一种实施例提供的一种数据处理方法，应用于聊天机器人中，可以包括：

步骤1401：获取语音数据；

步骤1402：根据语音识别模型将所述语音数据转换为文本数据，其中，所述语音识别模型是基于特定领域语言模型对基准语言模型进行线性插值得到的目标语言模型建立的，其中，所述特定领域语言模型是基于目标特定领域的语料数据训练得到的，所述特定领域与所述语音数据的内容相匹配。

为了建立领域语言模型，并基于领域语言模型得到目标语言模型，可以按照如下步骤实现：

S1：获取配置所述聊天机器人时输入的语句内容；

S2：确定输入的语句内容所圈定出的关键词；

S3：获取确定出的关键词对应的实体类型，将获取的实体类型作为原始语料数据；

S4：根据所述原始语料数据生成得到特定领域语言模型；

S5：利用特定领域语言模型对基准语言模型进行插值得到目标语言模型。

具体的，可以3利用所述领域语言模型对基准语言模型进行线性插值，得到目标语音模型。

在上述步骤1402中，根据语音识别模型将所述语音数据转换为文本数据，可以包括：提取所述语音数据中的特征数据；通过声学模型将所述特征数据转换为发音数据；通过所述语音识别模型，将所述发音数据转换为文本数据。

具体的，在将发音数据转换为文本数据之后，还可以获取发音数据在声学模型中的得分和文本数据在语音识别模型中的得分；根据发音数据在声学模型中的得分和文本数据在语音识别模型中的得分，得到句子得分；将得分最高的句子，作为所述语音数据转换得到的文本数据。

为了通过所述语音识别模型，将所述发音数据转换为文本数据，可以执行如下操作：

S1：将所述发音数据翻译为字符串；

S2：基于实体词典，通过最大正向匹配对所述字符串进行切词处理；

S3：将切词处理得到的词替换为实体词典对应的实体类型；

S4：枚举所有可能的切词结果，并在所述领域语言模型的索引中搜索计算对应字符串的概率；

S5：将概率最高的字符串切词对应的输入字符串作为目标语句。

提供了一个完整的针对领域机器人的定制语音识别系统，在用户定制有专业词汇的领域聊天机器人的情况下，通过class-based language model提高了语音识别对专业词汇的识别准确率；进一步的，在语言模型的定制和交互过程中，采用了切词和打标技术，使得聊天机器人可以适应于中文和英文。通过上述方式，使得在定制的聊天机器人没有充足的训练语料的情况下，通过使用领域语言模型对基准语言模型进行插值的策略，在保留通用语音识别的效果的前提下，可以识别未出现过的专业词汇、可以提升不常见句式的识别准确率，从而整体提升了领域语音的识别效果。

本申请所提供的数据处理方法实施例可以在服务器、计算机终端或者类似的运算装置中执行。以运行在服务器端上为例，图15是本申请发明实施例的一种数据处理方法的服务器端的硬件结构框图。如图15所示，服务器端可以包括一个或多个(图中仅示出一个)处理器(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器、以及用于通信功能的传输模块。本领域普通技术人员可以理解，图11所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，服务器端还可包括比图15中所示更多或者更少的组件，或者具有与图15所示不同的配置。

存储器可用于存储应用软件的软件程序以及模块，如本发明实施例中的数据处理方法对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的数据处理方法。存储器可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至服务器端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输模块用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器端的通信供应商提供的无线网络。在一个实例中，传输模块包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输模块可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

上述数据处理装置可以应用于聊天机器人中，可以包括：第一获取模块、转换模块，其中：

第一获取模块，用于获取语音数据；

转换模块，用于根据语音识别模型将所述语音数据转换为文本数据，其中，所述语音识别模型是基于特定领域语言模型对基准语言模型进行线性插值得到的目标语言模型建立的，其中，所述特定领域语言模型是基于目标特定领域的语料数据训练得到的，所述特定领域与所述语音数据的内容相匹配。

在一个实施方式中，还可以包括：第二获取模块，用于在获取语音数据之前，获取配置所述聊天机器人时输入的语句内容；确定模块，用于确定输入的语句内容所圈定出的关键词；第三获取模块，用于获取确定出的关键词对应的实体类型，将获取的实体类型作为原始语料数据；生成模块，用于根据所述原始语料数据生成得到领域语言语音模型；插值模块，用于利用领域语言语音模型对基准语言模型进行插值得到目标语言模型。

在一个实施方式中，插值模块具体可以利用所述领域语言模型对基准语言模型进行线性插值，得到所述目标语音模型。

在一个实施方式中，转换模块具体可以提取所述语音数据中的特征数据；通过声学模型将所述特征数据转换为发音数据；通过所述语音识别模型，将所述发音数据转换为文本数据。

在一个实施方式中，在将发音数据转换为文本数据之后，还可以获取发音数据在声学模型中的得分和文本数据在语音识别模型中的得分；根据发音数据在声学模型中的得分和文本数据在语音识别模型中的得分，得到句子得分；将得分最高的句子，作为所述语音数据转换得到的文本数据。

在一个实施方式中，通过所述语音识别模型，将所述发音数据转换为文本数据，可以包括：将所述发音数据翻译为字符串；基于实体词典，通过最大正向匹配对所述字符串进行切词处理；将切词处理得到的词替换为实体词典对应的实体类型；枚举所有可能的切词结果，并在所述领域语言模型的索引中搜索计算对应字符串的概率；将概率最高的字符串切词对应的输入字符串作为目标语句。

本申请提供了一种数据处理方法，其中用于进行语音数据识别的语音识别模型是通过领域语音模型对基准语音模型进行插值得到的，使得在定制聊天机器人的时候，如果没有充足的训练语料，那么可以通过领域语言模型对基准语言模型进行插值的方式得到特定领域的聊天机器人，从而达到提高语音识别准确度的技术效果。

本申请中各个实施例所涉及的上述描述仅是本申请中的一些实施例中的应用，在某些标准、模型、方法的基础上略加修改后的实施方式也可以实行上述本申请各实施例的方案。当然，在符合本申请上述各实施例的中所述的处理方法步骤的其他无创造性的变形，仍然可以实现相同的申请，在此不再赘述。

虽然本申请提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。

上述实施例阐明的装置或模块，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。为了描述的方便，描述以上装置时以功能分为各种模块分别描述。在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。当然，也可以将实现某功能的模块由多个子模块或子单元组合实现。

本申请中所述的方法、装置或模块可以以计算机可读程序代码方式实现控制器按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

本申请所述装置中的部分模块可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的硬件的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，也可以通过数据迁移的实施过程中体现出来。该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，移动终端，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。本申请的全部或者部分可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、移动通信终端、多处理器系统、基于微处理器的系统、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

虽然通过实施例描绘了本申请，本领域普通技术人员知道，本申请有许多变形和变化而不脱离本申请的精神，希望所附的权利要求包括这些变形和变化而不脱离本申请的精神。

Claims

1.一种数据处理方法，其特征在于，应用于聊天机器人中，包括：

获取语音数据；

根据语音识别模型将所述语音数据转换为文本数据，其中，所述语音识别模型是基于特定领域语言模型对基准语言模型进行线性插值得到的目标语言模型建立的，其中，所述特定领域语言模型是基于目标特定领域的语料数据训练得到的，所述特定领域与所述语音数据的内容相匹配；

其中，根据语音识别模型将所述语音数据转换为文本数据，包括：

提取所述语音数据中的特征数据；

通过声学模型将所述特征数据转换为发音数据；

通过所述语音识别模型，将所述发音数据转换为文本数据。

2.根据权利要求1所述的方法，其特征在于，在获取语音数据之前，还包括：

获取配置所述聊天机器人时输入的语句内容；

确定输入的语句内容所圈定出的关键词；

获取确定出的关键词对应的实体类型，将获取的实体类型作为原始语料数据；

根据所述原始语料数据生成得到特定领域语言模型；

利用特定领域语言模型对基准语言模型进行线性插值得到目标语言模型。

3.根据权利要求1所述的方法，其特征在于，在将发音数据转换为文本数据之后，所述方法还包括：

获取发音数据在声学模型中的得分和文本数据在语音识别模型中的得分；

根据发音数据在声学模型中的得分和文本数据在语音识别模型中的得分，得到句子得分；

将得分最高的句子，作为所述语音数据转换得到的文本数据。

4.根据权利要求1所述的方法，其特征在于，通过所述语音识别模型，将所述发音数据转换为文本数据，包括：

将所述发音数据翻译为字符串；

基于实体词典，通过最大正向匹配对所述字符串进行切词处理；

将切词处理得到的词替换为实体词典对应的实体类型；

枚举所有可能的切词结果，并在所述特定领域语言模型的索引中搜索计算对应字符串的概率；

将概率最高的字符串切词对应的输入字符串作为目标语句。

5.一种数据处理服务器，其特征在于，应用于聊天机器人中，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现如下步骤：

获取语音数据；

提取所述语音数据中的特征数据；

通过声学模型将所述特征数据转换为发音数据；

通过所述语音识别模型，将所述发音数据转换为文本数据。

6.根据权利要求5所述的服务器，其特征在于，在获取语音数据之前，还包括：

获取配置所述聊天机器人时输入的语句内容；

确定输入的语句内容所圈定出的关键词；

根据所述原始语料数据生成得到特定领域语言语音模型；

利用特定领域语言语音模型对基准语言模型进行插值得到目标语言模型。

7.根据权利要求5所述的服务器，其特征在于，在将发音数据转换为文本数据之后，还包括：

8.根据权利要求5所述的服务器，其特征在于，通过所述语音识别模型，将所述发音数据转换为文本数据，包括：

将所述发音数据翻译为字符串；

将切词处理得到的词替换为实体词典对应的实体类型；

将概率最高的字符串切词对应的输入字符串作为目标语句。

9.一种计算机可读存储介质，其上存储有计算机指令，所述指令被执行时实现权利要求1至4中任一项所述方法的步骤。