CN110196963A

CN110196963A - 模型生成、语义识别的方法、系统、设备及存储介质

Info

Publication number: CN110196963A
Application number: CN201810162084.7A
Authority: CN
Inventors: 王颖帅; 李晓霞; 苗诗雨
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2018-02-27
Filing date: 2018-02-27
Publication date: 2019-09-03

Abstract

本发明公开了一种模型生成、语义识别的方法、系统、设备及存储介质，模型生成的方法包括以下步骤：获取历史数据；对每条历史数据进行分词及标注以得到对应的第一历史序列；采用CNN对每条第一历史序列进行字符级别的特征提取，以得到第二历史序列；采用LSTM对每条第二历史序列进行词语级别的特征提取，以得到第三历史序列；采用条件随机场学习算法对第三历史序列进行模型训练，以确定条件随机场模型的参数。本发明提供的模型生成、语义识别的方法、系统、设备及存储介质将传统条件随机场CRF和深度学习融合在一起的训练思路相比于模板匹配的传统思路更加的灵活且覆盖更多的用户，能够提升语音相关服务的用户体验和点击转化率。

Description

模型生成、语义识别的方法、系统、设备及存储介质

技术领域

本发明涉及自然语言处理领域，特别涉及一种基于LSTM(Long Short-TermMemory，长短期记忆网络)、CNN(Convolutional Neural Network，前馈神经网络)及条件随机场的用户语义识别的模型生成、语义识别的方法、系统、设备及存储介质。

背景技术

语音识别和语义理解是未来互联网网站发展的一种趋势，用户对着机器说一句话，当语音转化为文字后，如何根据文字准确地把握用户意图，显得越来越重要。现有技术中采用斯坦福正则匹配模板提取语义信息，该种实现方式比较死板，只有在模板指定的话术中才可以匹配，随着应用需求的扩大，需要设计越来越多的正则模板，浪费人力，效果也不够灵活。

发明内容

本发明要解决的技术问题是为了克服现有技术中语义识别采用斯坦福正则匹配模板提取语义信息的方式不够灵活，需要设计越来越多的正则模板导致人力成本高的缺陷，提供一种能够灵活地对用户语音输入信息准确提取关键信息进而实现语义识别的基于LSTM、CNN及条件随机场的用户语义识别的模型生成、语义识别的方法、系统、设备及存储介质。

本发明是通过下述技术方案来解决上述技术问题：

本发明提供了一种模型生成的方法，其特点在于，包括以下步骤：

获取历史数据；

对每条所述历史数据进行分词及标注以得到对应的第一历史序列，每条所述第一历史序列包括分词后的词和每个所述分词后的词对应的标注后的标签；

采用CNN对每条所述第一历史序列进行字符级别的特征提取，以得到第二历史序列，所述第二历史序列包括所述第一历史序列的信息和对应的提取到的字符级别的特征；

采用LSTM对每条所述第二历史序列进行词语级别的特征提取，以得到第三历史序列，所述第三历史序列包括所述第二历史序列的信息和对应的提取到的词语级别的特征；

采用条件随机场学习算法对所述第三历史序列进行模型训练，以确定条件随机场模型的参数。

本方案中，历史数据采用用户输入的历史数据。本方法首先对每条历史数据进行分词处理及标注，然后继续分别采用深度学习算法CNN和LSTM神经网络进行字符级别的特征和词语级别的特征的提取，由于字符级别的特征维度比词语级别的特征维度的粒度更细，所以采用CNN提取细粒度的特征放在前面效果更佳，最后采用条件随机场学习算法对包括特征和标签的序列进行模型训练。

本方案提出了一种基于LSTM、CNN及条件随机场的用户语义识别的模型生成的方法，本方法采用深度学习算法CNN和LSTM提取特征，提供了高效易用的特征工程，节省了特征提取环节的工作，特征提取后再接入CRF(条件随机场)层训练数据，将传统机器学习和深度学习巧妙结合，理论基础扎实。本发明将传统条件随机场和深度学习融合在一起的训练思路相比于模板匹配的传统思路更加的灵活且覆盖更多的用户，能够提升语音相关服务的用户体验和点击转化率。

较佳地，所述方法还包括对每条所述第一历史序列、所述第二历史序列和所述第三历史序列中的一个提取上下文特征，所述上下文特征为当前字的前面N个字和后面N个字，N为可配置的滑动窗口，N为正整数；

所述采用条件随机场学习算法对所述第三历史序列进行模型训练的步骤包括：

将所述上下文特征增加至所述第三历史序列后再采用条件随机场学习算法对所述第三历史序列进行模型训练。

本方案中，结合CRF算法和深度学习算法对用户输入的文本特征，进行了重构，主要是用深度学习CNN和LSTM构造抽象特征，具体为加入了CRF的手动配置特征即上下文特征，深度学习特征和传统CRF特征的有效结合，能够提高训练出来的模型的准确性。

本方案中，上下文特征的提取时间不限，只要在送入CRF之前已经提取好就可以了。也就是说，对于一条历史数据，可以针对其对应的第一历史序列提取上下文特征，也可以针对其对应的第二历史序列提取，同理也可以针对其对应的第三历史序列提取，但是对于同一条历史数据只要在这三个序列中提取一次上下文特征即可。

进一步的，本方案中字符级别的特征、词语级别的特征以及上下文特征均可分别配置成使用或者不使用，三个特征同时使用训练出来的模型的准确性最高。

较佳地，所述参数包括迭代次数maxiter、步长stepsize和学习率learningrate。

本方案中经过训练确定的参数包括迭代次数maxiter、步长stepsize和学习率learningrate；其中maxiter的取值范围为1至无穷大，stepsize取值范围为1至无穷大，learningrate取值范围为0至1。

较佳地，所述标签包括物品的中心词、物品的修饰词、询问范围、物品的品牌及频道编号中的至少一种。

本方案通过多种标签的设置能够提高模型的准确性。其中，询问范围和频道编号只需查询相应的数据库进行匹配即可获知。例如询问范围可以是购物车，如果历史数据中包括购物车这个词，而对应的数据库中提前预存有购物车，经过查询相应的数据库进行匹配即可确定该历史数据对应的询问范围涉及购物车，由此能够确定该条历史数据中对应的询问范围这一标签为购物车。

较佳地，每个所述标签还包括对应的所述分词后的词在对应的所述历史数据中的位置信息，所述位置信息包括开始位置、中间位置和/或结束位置。

本方案中，进一步地，将每个标签对应的分词后的词在对应的历史数据中的位置信息增加到标签中，例如物品的品牌在对应的历史数据中位于该数据的起始位置，则该标签除了物品的品牌外还包括开始位置信息，增加位置信息后的标签包含的信息更多，能够提高训练出来的模型的准确性。

较佳地，所述方法采用双向LSTM对每条所述第二历史序列进行词语级别的特征提取。

本方案中采用双向LSTM进行词语级别的特征提取的效果好于单向LSTM，单向LSTM仅考虑当前字的前文，而双向的除了考虑当前字的前文，还考虑当前字的后文，所以效果更佳。

本发明还提供了一种模型生成的系统，其特点在于，包括：

第一获取模块，用于获取历史数据；

第一处理模块，用于对每条所述历史数据进行分词及标注以得到对应的第一历史序列，每条所述第一历史序列包括分词后的词和每个所述分词后的词对应的标注后的标签；

第二处理模块，用于采用CNN对每条所述第一历史序列进行字符级别的特征提取，以得到第二历史序列，所述第二历史序列包括所述第一历史序列的信息和对应的提取到的字符级别的特征；

第三处理模块，用于采用LSTM对每条所述第二历史序列进行词语级别的特征提取，以得到第三历史序列，所述第三历史序列包括所述第二历史序列的信息和对应的提取到的词语级别的特征；

训练模块，用于采用条件随机场学习算法对所述第三历史序列进行模型训练，以确定条件随机场模型的参数。

较佳地，所述系统还包括第四处理模块，所述第四处理模块用于对每条所述第一历史序列、所述第二历史序列和所述第三历史序列中的一个提取上下文特征，所述上下文特征为当前字的前面N个字和后面N个字，N为可配置的滑动窗口，N为正整数；

所述训练模块用于将所述上下文特征增加至所述第三历史序列后再采用条件随机场学习算法对所述第三历史序列进行模型训练。

较佳地，所述第三处理模块采用双向LSTM对每条所述第二历史序列进行词语级别的特征提取。

本发明还提供了一种模型生成的设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特点在于，所述处理器执行所述计算机程序时实现前述的模型生成的方法。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，其特点在于，所述计算机程序被处理器执行时实现前述的模型生成的方法的步骤。

本发明还提供了一种语义识别的方法，其特点在于，包括以下步骤：

执行前述的模型生成的方法；

获取待识别的数据，对所述待识别的数据进行分词以得到第四历史序列，所述第四历史序列包括分词后的词；

采用CNN对所述第四历史序列进行字符级别的特征提取，以得到第五历史序列，所述第五历史序列包括所述第四历史序列的信息和对应的提取到的字符级别的特征；

采用LSTM对所述第五历史序列进行词语级别的特征提取，以得到第六历史序列，所述第六历史序列包括所述第五历史序列的信息和对应的提取到的词语级别的特征；

采用条件随机场预测算法对所述第六历史序列进行标注，以得到所述待识别的数据对应的所述标签。

本方案中，采用条件随机场预测算法对待识别的数据进行标注预测以确定对应的标签，标注预测包括用户输入信息的物品的中心词的预测，物品的品牌的预测，物品的修饰词的预测，询问范围预测和频道编号预测中的至少一种。

本方案中，首先采用模型生成的方法训练模型，具体为通过条件随机场学习算法对所述历史序列进行模型训练，以确定条件随机场模型的参数，然后采用条件随机场预测算法利用训练好的条件随机场模型对所述待识别的数据进行标注，以得到所述待识别的数据对应的所述标签。

本方案采用深度学习算法CNN和LSTM提取特征，提供了高效易用的特征工程，节省了特征提取环节的工作，为条件随机场算法的运用构造了比较好的训练集标注数据，提升了模型预测语义的准确度。本方案提供的语义识别的方法相比于模板匹配的传统思路更加的灵活且覆盖更多的用户，能够提升语音相关服务的用户体验和点击转化率。

较佳地，所述语义识别的方法还包括对所述第四历史序列、所述第五历史序列和所述第六历史序列中的一个提取待识别上下文特征，所述待识别上下文特征为当前字的前面N个字和后面N个字，N为可配置的滑动窗口，N为正整数；

所述采用条件随机场预测算法对所述第六历史序列进行标注的步骤包括：

将所述待识别上下文特征增加至所述第六历史序列后再采用条件随机场预测算法对所述第六历史序列进行标注。

本方案中，结合CRF算法和深度学习算法对用户输入的文本特征进行了重构，主要是用深度学习CNN和LSTM构造抽象特征，具体加入了CRF的手动配置特征即上下文特征，深度学习特征和传统CRF特征的有效结合能够提高训练出来的模型的准确性。进一步地，采用该模型进行语义识别相比于模板匹配的传统思路更加的灵活且覆盖更多的用户，能够提升语音相关服务的用户体验和点击转化率。

本发明还提供了一种语义识别的系统，其特点在于，包括：

模型训练模块，用于调用前述的模型生成的系统；

第二获取模块，用于获取待识别的数据，对所述待识别的数据进行分词以得到第四历史序列，所述第四历史序列包括分词后的词；

第五处理模块，用于采用CNN对所述第四历史序列进行字符级别的特征提取，以得到第五历史序列，所述第五历史序列包括所述第四历史序列的信息和对应的提取到的字符级别的特征；

第六处理模块，用于采用LSTM对所述第五历史序列进行词语级别的特征提取，以得到第六历史序列，所述第六历史序列包括所述第五历史序列的信息和对应的提取到的词语级别的特征；

预测模块，用于采用条件随机场预测算法对所述第六历史序列进行标注，以得到所述待识别的数据对应的所述标签。

较佳地，所述语义识别的系统还包括第七处理模块，所述第七处理模块用于对所述第四历史序列、所述第五历史序列和所述第六历史序列中的一个提取待识别上下文特征，所述待识别上下文特征为当前字的前面N个字和后面N个字，N为可配置的滑动窗口，N为正整数；

所述预测模块用于将所述待识别上下文特征增加至所述第六历史序列后再采用条件随机场预测算法对所述第六历史序列进行标注。

本发明还提供了一种语义识别的设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特点在于，所述处理器执行所述计算机程序时实现前述的语义识别的方法。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，其特点在于，所述计算机程序被处理器执行时实现前述的语义识别的方法的步骤。

本发明的积极进步效果在于：本发明提供的基于LSTM、CNN及条件随机场的用户语义识别的模型生成、语义识别的方法、系统、设备及存储介质采用深度学习算法CNN和LSTM提取特征，提供了高效易用的特征工程，节省了特征提取环节的工作，特征提取后再接入CRF层训练数据及预测标注，将传统机器学习和深度学习巧妙结合，理论基础扎实。本发明将传统条件随机场CRF和深度学习融合在一起的训练思路相比于模板匹配的传统思路更加的灵活且覆盖更多的用户，能够提升语音相关服务的用户体验和点击转化率。

附图说明

图1为本发明实施例1的模型生成的方法的流程图。

图2为本发明实施例2的模型生成的系统的模块示意图。

图3为本发明实施例3的模型生成的设备的结构示意图。

图4为本发明实施例5的语义识别的方法的流程图。

图5为本发明实施例6的语义识别的系统的模块示意图。

图6为本发明中一种历史数据的示意图。

图7为本发明中对一条历史数据分词和标注处理后的结果示意图。

图8为本发明中CRF算法的一种特征模板的配置示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。

实施例1

如图1所示，本实施例提供的模型生成的方法包括以下步骤：

步骤101、获取历史数据。

步骤102、对每条所述历史数据进行分词及标注以得到对应的第一历史序列。

本实施例的步骤102中，每条所述第一历史序列包括分词后的词和每个所述分词后的词对应的标注后的标签；所述标签包括物品的中心词、物品的修饰词、询问范围、物品的品牌及频道编号，每个所述标签还包括对应的所述分词后的词在对应的所述历史数据中的位置信息，所述位置信息包括开始位置、中间位置和/或结束位置。本实施例中标签采用One-Hot(独热码)编码。

步骤103、采用CNN对每条所述第一历史序列进行字符级别的特征提取，以得到第二历史序列。

本实施例的步骤103中，所述第二历史序列包括所述第一历史序列的信息和对应的提取到的字符级别的特征。CNN抓取字符级别的特征并将其转化为向量。本实施例中，字符级别特征的向量维度设置为25维。

步骤104、采用双向LSTM对每条所述第二历史序列进行词语级别的特征提取，以得到第三历史序列。

本实施例的步骤104中，所述第三历史序列包括所述第二历史序列的信息和对应的提取到的词语级别的特征。双向LSTM通过几个更新门，比如输入门、遗忘门、输出门等提取词语级别的特征。本实施例中，语级别的特征的向量维度也设置为25维。

步骤105、对每条所述第三历史序列提取上下文特征。

本实施例的步骤105中，所述上下文特征为当前字的前面N个字和后面N个字，N为可配置的滑动窗口，N为正整数。本实施例中将N配置为2，对于历史数据“我要买小米”，当前字如果为“买”，则该当前字的上下文特征就是“我”，“要”，“小”和“米”。

步骤106、将所述上下文特征增加至所述第三历史序列后再采用条件随机场学习算法对所述第三历史序列进行模型训练，以确定条件随机场模型的参数。

本实施例的步骤106中，所述参数包括迭代次数maxiter、步长stepsize和学习率learningrate。本实施例中CRF算法的损失函数设置为均方误差，CRF层的隐含层状态向量维度设置为100维，英文单词全部转化为小写，繁体中文全部转化为简体中文，语料库中文章短程句子的最大字符数设置为200。

本实施例中，历史数据采用用户输入的历史数据。本方法结合CRF算法和深度学习算法对用户输入的文本特征进行了重构，采用深度学习CNN和LSTM构造抽象特征并加入了CRF的手动配置特征即上下文特征。

本实施例中，首先对每条历史数据进行分词处理及标注，然后分别采用深度学习算法CNN和LSTM神经网络进行字符级别的特征和词语级别的特征提取，由于字符级别的特征维度比词语级别的特征维度的粒度更细，所以采用CNN提取细粒度的特征放在前面的效果更佳，接着提取上下文特征，最后采用条件随机场学习算法对包括特征和标签的序列进行模型训练。

本实施例中，通过多种标签的设置能够提高模型的准确性。其中，询问范围和频道编号只需查询相应的数据库进行匹配即可获知。例如询问范围可以是购物车，如果历史数据中包括购物车这个词，而对应的数据库中提前预存有购物车，经过查询相应的数据库进行匹配即可确定该历史数据对应的询问范围涉及购物车，由此能够确定该条历史数据中对应的询问范围这一标签为购物车。进一步地，将每个标签对应的分词后的词在对应的历史数据中的位置信息增加到标签中，例如物品的品牌在对应的历史数据中位于该数据的起始位置，则该标签除了物品的品牌外还包括开始位置信息，增加位置信息后的标签包含的信息更多，能够提高训练出来的模型的准确性。

本实施例中采用双向LSTM进行词语级别的特征提取的效果好于单向LSTM，单向LSTM仅考虑当前字的前文，而双向的除了考虑当前字的前文，还考虑当前字的后文，所以效果更佳。

本实施例提出了一种基于LSTM、CNN及条件随机场的用户语义识别的模型生成的方法，本方法采用深度学习算法CNN和LSTM提取特征，提供了高效易用的特征工程，节省了特征提取环节的工作，特征提取后再接入CRF层训练数据，将传统机器学习和深度学习巧妙结合，理论基础扎实。本实施例将传统条件随机场CRF和深度学习融合在一起的训练思路相比于模板匹配的传统思路更加的灵活且覆盖更多的用户，能够提升语音相关服务的用户体验和点击转化率。

需要说明的是，本发明提供的模型生成的方法中，上下文特征的提取时间并不局限于本实施例的实现方式，具体应用时只要在送入CRF之前已经提取好就可以了。也就是说，对于一条历史数据，可以针对其对应的第一历史序列提取上下文特征，也可以针对其对应的第二历史序列提取，同理也可以针对其对应的第三历史序列提取，但是对于同一条历史数据只要在这三个序列中提取一次上下文特征即可。进一步的，本发明提供的模型生成的方法中字符级别的特征、词语级别的特征以及上下文特征均可分别配置成使用或者不使用，本实施例中三个特征同时使用训练出来的模型的准确性最高。

实施例2

如图2所示，本实施例的模型生成的系统包括：

第一获取模块1，用于获取历史数据。

第一处理模块2，用于对每条所述历史数据进行分词及标注以得到对应的第一历史序列，每条所述第一历史序列包括分词后的词和每个所述分词后的词对应的标注后的标签。

第二处理模块3，用于采用CNN对每条所述第一历史序列进行字符级别的特征提取，以得到第二历史序列，所述第二历史序列包括所述第一历史序列的信息和对应的提取到的字符级别的特征。

第三处理模块4，用于采用双向LSTM对每条所述第二历史序列进行词语级别的特征提取，以得到第三历史序列，所述第三历史序列包括所述第二历史序列的信息和对应的提取到的词语级别的特征。

第四处理模块5，用于对每条所述第一历史序列、所述第二历史序列和所述第三历史序列中的一个提取上下文特征，所述上下文特征为当前字的前面N个字和后面N个字，N为可配置的滑动窗口，N为正整数。

训练模块6，用于将所述上下文特征增加至所述第三历史序列后再采用条件随机场学习算法对所述第三历史序列进行模型训练，以确定条件随机场模型的参数。

本实施例中，所述标签包括物品的中心词、物品的修饰词、询问范围、物品的品牌及频道编号中的至少一种。每个所述标签还包括对应的所述分词后的词在对应的所述历史数据中的位置信息，所述位置信息包括开始位置、中间位置和/或结束位置。

本实施例中，历史数据采用用户输入的历史数据。本系统结合CRF算法和深度学习算法对用户输入的文本特征进行了重构，采用深度学习CNN和LSTM构造抽象特征并加入了CRF的手动配置特征即上下文特征。

本实施例中，第一处理模块2对每条历史数据进行分词处理及标注，第二处理模块3和第三处理模块4分别采用深度学习算法CNN和LSTM神经网络进行字符级别的特征和词语级别的特征提取，由于字符级别的特征维度比词语级别的特征维度粒度更细，所以采用CNN提取细粒度的特征放在前面效果更佳，第四处理模块5用于提取上下文特征，训练模块6用于采用条件随机场学习算法对包括特征和标签的序列进行模型训练。

本实施例中，通过多种标签的设置能够提高模型的准确性。其中，询问范围和频道编号只需要查询相应的数据库进行匹配即可获知。例如询问范围可以是购物车，如果历史数据中包括购物车这个词，而对应的数据库中提前预存有购物车，经过查询相应的数据库进行匹配即可确定该历史数据对应的询问范围涉及购物车，由此能够确定该条历史数据中对应的询问范围这一标签为购物车。进一步地，将每个标签对应的分词后的词在对应的历史数据中的位置信息增加到标签中，例如物品的品牌在对应的历史数据中位于该数据的起始位置，则该标签除了物品的品牌外还包括开始位置信息，增加位置信息后的标签包含的信息更多，能够提高训练出来的模型的准确性。

本实施例提出了一种基于LSTM、CNN及条件随机场的用户语义识别的模型生成的系统，本系统采用深度学习算法CNN和LSTM提取特征，提供了高效易用的特征工程，节省了特征提取环节的工作，特征提取后再接入CRF层训练数据，将传统机器学习和深度学习巧妙结合，理论基础扎实。本实施例将传统条件随机场CRF和深度学习融合在一起的训练思路相比于模板匹配的传统思路更加的灵活且覆盖更多的用户，能够提升语音相关服务的用户体验和点击转化率。

实施例3

图3为本发明实施例3提供的一种模型生成的设备的结构示意图。图3示出了适于用来实现本发明实施方式的示例性模型生成的设备30的框图。图3显示的模型生成的设备30仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图3所示，模型生成的设备30可以通用计算设备的形式表现，例如其可以为服务器设备。模型生成的设备30的组件可以包括但不限于：上述至少一个处理器31、上述至少一个存储器32、连接不同系统组件(包括存储器32和处理器31)的总线33。

总线33包括数据总线、地址总线和控制总线。

存储器32可以包括易失性存储器，例如随机存取存储器(RAM)321和/或高速缓存存储器322，还可以进一步包括只读存储器(ROM)323。

存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工具325，这样的程序模块324包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理器31通过运行存储在存储器32中的计算机程序，从而执行各种功能应用以及数据处理，例如本发明实施例1所提供的模型生成的方法。

模型生成的设备30也可以与一个或多个外部设备34(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口35进行。并且，模型生成的设备30还可以通过网络适配器36与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器36通过总线33与模型生成的设备30的其它模块通信。应当明白，尽管图中未示出，可以结合模型生成的设备30使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了模型生成的设备的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

实施例4

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现实施例1所提供的模型生成的方法的步骤。

实施例5

如图4所示，本实施例的语义识别的方法包括以下步骤：

步骤201、执行实施例1所述的模型生成的方法。

步骤202、获取待识别的数据，对所述待识别的数据进行分词以得到第四历史序列。

本实施例的步骤202中，所述第四历史序列包括分词后的词。

步骤203、采用CNN对所述第四历史序列进行字符级别的特征提取，以得到第五历史序列。

本实施例的步骤203中，所述第五历史序列包括所述第四历史序列的信息和对应的提取到的字符级别的特征。

步骤204、采用LSTM对所述第五历史序列进行词语级别的特征提取，以得到第六历史序列。

本实施例的步骤204中，所述第六历史序列包括所述第五历史序列的信息和对应的提取到的词语级别的特征。

步骤205、对所述第六历史序列提取待识别上下文特征。

本实施例的步骤205中，所述待识别上下文特征为当前字的前面N个字和后面N个字，N为可配置的滑动窗口，N为正整数。

步骤206、将所述待识别上下文特征增加至所述第六历史序列后再采用条件随机场预测算法对所述第六历史序列进行标注，以得到所述待识别的数据对应的所述标签。

本实施例中，采用条件随机场预测算法对待识别的数据进行标注预测以确定对应的标签，标注预测包括用户输入信息的物品的中心词的预测，物品的品牌的预测，物品的修饰词的预测，询问范围预测和频道编号预测中的至少一种。例如当用户输入“我要买粉色的小米手机”时预测结果为“小米”是品牌，“手机”是物品的中心词。

本实施例中，首先采用模型生成的方法训练模型，即通过条件随机场学习算法对训练集标注数据进行模型训练，以确定条件随机场模型的参数，然后采用条件随机场预测算法利用训练好的条件随机场模型对所述待识别的数据进行标注，以得到所述待识别的数据对应的所述标签。

本实施例中，采用深度学习算法CNN和LSTM提取特征，提供了高效易用的特征工程，节省了特征提取环节的工作，为条件随机场算法的运用构造了比较好的训练集标注数据，提升了模型预测语义的准确度。本实施例提供的语义识别的方法相比于模板匹配的传统思路，更加的灵活且覆盖更多的用户，能够提升语音相关服务的用户体验和点击转化率。

实施例6

如图5所示，本实施例的一种语义识别的系统，包括：

模型训练模块7，用于调用实施例2所述的模型生成的系统。

第二获取模块8，用于获取待识别的数据，对所述待识别的数据进行分词以得到第四历史序列，所述第四历史序列包括分词后的词。

第五处理模块9，用于采用CNN对所述第四历史序列进行字符级别的特征提取，以得到第五历史序列，所述第五历史序列包括所述第四历史序列的信息和对应的提取到的字符级别的特征。

第六处理模块10，用于采用LSTM对所述第五历史序列进行词语级别的特征提取，以得到第六历史序列，所述第六历史序列包括所述第五历史序列的信息和对应的提取到的词语级别的特征。

第七处理模块11，用于对所述第四历史序列、所述第五历史序列和所述第六历史序列中的一个提取待识别上下文特征，所述待识别上下文特征为当前字的前面N个字和后面N个字，N为可配置的滑动窗口，N为正整数。

预测模块12，用于将所述待识别上下文特征增加至所述第六历史序列后再采用条件随机场预测算法对所述第六历史序列进行标注，以得到所述待识别的数据对应的所述标签。

本实施例中，预测模块12用于采用条件随机场预测算法对待识别的数据进行标注预测以确定对应的标签，标注预测包括用户输入信息的物品的中心词的预测，物品的品牌的预测，物品的修饰词的预测，询问范围预测和频道编号预测中的至少一种。

本实施例中，模型训练模块7用于调用模型生成的系统训练好的模型，预测模块12用于采用条件随机场预测算法利用训练好的条件随机场模型对所述待识别的数据进行标注，以得到所述待识别的数据对应的所述标签。

本实施例中，采用深度学习算法CNN和LSTM提取特征，提供了高效易用的特征工程，节省了特征提取环节的工作，为条件随机场算法的运用构造了比较好的训练集标注数据，提升了模型预测语义的准确度。本实施例提供的语义识别的系统相比于模板匹配的传统思路，更加的灵活且覆盖更多的用户，能够提升语音相关服务的用户体验和点击转化率。

实施例7

本实施例提供了一种语义识别的设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现实施例5所提供的语义识别的方法。

实施例8

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现实施例5所提供的语义识别的方法的步骤。

为了便于理解，下面继续结合具体的例子，进一步说明本发明的技术方案和技术效果。

本发明提供了一种基于LSTM、CNN及条件随机场的用户语义识别的的新的实现方式，能够用来提取用户输入内容的关键信息。具体可以应用在京东的语音助手项目中，本例子中的语音助手是指京东手机APP(应用程序)的一个频道，用户可以在这个频道以语音形式输入，语音助手会识别用户输入信息语义意图，并且给出相应的个性化推荐。语音助手的日志落到大数据Hive(一个数据仓库工具)表中，本例子用到的字段是该表中用户输入的内容，根据用户输入的内容识别用户的语义意图。具体应用时可以先使用正则匹配去除垃圾的没有信息含量的用户输入后得到如图6所示的若干条历史数据，然后再对这些历史数据进一步处理。

本例子的目的是识别用户输入信息的语义意图，用户语义意图由以下5个部分构成(1)物品名称，即物品的中心词，例子：“我想买手机”，物品的中心词为“手机”；(2)物品描述，即物品的修饰词，例子：“我想买玫瑰金手机”，物品描述为“玫瑰金”；(3)询问范围，例子：“我的购物车里有什么优惠”，询问范围为“购物车”；(4)物品的品牌，例子：“我买苹果手机”，物品的品牌为“苹果”；(5)频道编号，即京东的全站直达，例子：“我买秒杀里面的自拍杆”，频道编号为“秒杀”。为了确保模型的准确性，本例子中采用以上5个标签标注1万条历史数据。

为了便于理解，下面对一条历史数据分词和标注处理的结果举例说明如下。如图7所示，当用户通过语音说“我想要戴尔笔记本。”时，针对该条历史数据分词后的第一列是汉字，第二列是标签，标签以‘B’、’I’、‘O’开头，分别表示开始、中间和结尾以及其它等位置信息。

为了便于理解，下面对本例子中使用的CRF的特征模板进行说明，特征模板具体配置如图8所示。

本例子中的语音助手在工程中通过特征模板的匹配实现特征工程，特征函数抽象之后的形式为T**:％x[#,#]，其中T表示模板类型，两个#分别表示相对的行偏移与列偏移：当前词第几列，当前词就是当前行。第一种是Unigram template，第一个字符是U，这是用于描述unigram feature的模板，每一行％x[#,#]生成一个CRFs中的点(state)函数：f(s,o)，其中s为t时刻的标签(output)，o为t时刻的上下文，比如CRF++说明文件中的示例函数，[]号中的第一个表示当前词，第二个表示列。func1＝if(output＝B and feature＝"U02":那)return 1else return 0。它是由U02:％x[0,0]在输入文件的第一行生成的点函数，将输入文件的第一行代入到函数中，函数返回1，同时如果输入文件的某一行在第1列也是“那”，并且它的output(第二列)同样也为B，那么这个函数在这一行也返回1。第二种是Bigram tempalte：第一个字符是B，每一行％x[#,#]生成一个CRFs中的边函数，f(s1,s,o)，其中s1为t-1时刻的标签，也就是说Bigram与Unigram大致相同，只是还需要考虑t-1时刻的标签，如果只写一个B的话，默认生成f(s1,s)，这意味着前一个分词和后一个分词将组合成bigram features。模板文件中的每一行代表一个template，每一个template中，专门的宏％x[row,col]用于确定输入数据的一个token，row用于确定与当前token的相对行数，col用于确定绝对列数。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种模型生成的方法，其特征在于，包括以下步骤：

获取历史数据；

2.如权利要求1所述的模型生成的方法，其特征在于，所述方法还包括对每条所述第一历史序列、所述第二历史序列和所述第三历史序列中的一个提取上下文特征，所述上下文特征为当前字的前面N个字和后面N个字，N为可配置的滑动窗口，N为正整数；

3.如权利要求1所述的模型生成的方法，其特征在于，所述参数包括迭代次数maxiter、步长stepsize和学习率learningrate。

4.如权利要求1所述的模型生成的方法，其特征在于，所述标签包括物品的中心词、物品的修饰词、询问范围、物品的品牌及频道编号中的至少一种。

5.如权利要求4所述的模型生成的方法，其特征在于，每个所述标签还包括对应的所述分词后的词在对应的所述历史数据中的位置信息，所述位置信息包括开始位置、中间位置和/或结束位置。

6.如权利要求1所述的模型生成的方法，其特征在于，所述方法采用双向LSTM对每条所述第二历史序列进行词语级别的特征提取。

7.一种模型生成的系统，其特征在于，包括：

第一获取模块，用于获取历史数据；

8.如权利要求7所述的模型生成的系统，其特征在于，所述系统还包括第四处理模块，所述第四处理模块用于对每条所述第一历史序列、所述第二历史序列和所述第三历史序列中的一个提取上下文特征，所述上下文特征为当前字的前面N个字和后面N个字，N为可配置的滑动窗口，N为正整数；

9.如权利要求7所述的模型生成的系统，其特征在于，所述标签包括物品的中心词、物品的修饰词、询问范围、物品的品牌及频道编号中的至少一种。

10.如权利要求9所述的模型生成的系统，其特征在于，每个所述标签还包括对应的所述分词后的词在对应的所述历史数据中的位置信息，所述位置信息包括开始位置、中间位置和/或结束位置。

11.如权利要求7所述的模型生成的系统，其特征在于，所述第三处理模块采用双向LSTM对每条所述第二历史序列进行词语级别的特征提取。

12.一种模型生成的设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6任一项所述的模型生成的方法。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6任一项所述的模型生成的方法的步骤。

14.一种语义识别的方法，其特征在于，包括以下步骤：

执行权利要求1至6任一项所述的模型生成的方法；

15.如权利要求14所述的语义识别的方法，其特征在于，所述语义识别的方法还包括对所述第四历史序列、所述第五历史序列和所述第六历史序列中的一个提取待识别上下文特征，所述待识别上下文特征为当前字的前面N个字和后面N个字，N为可配置的滑动窗口，N为正整数；

16.一种语义识别的系统，其特征在于，包括：

模型训练模块，用于调用权利要求7至11任一项所述的模型生成的系统；

17.如权利要求16所述的语义识别的系统，其特征在于，所述语义识别的系统还包括第七处理模块，所述第七处理模块用于对所述第四历史序列、所述第五历史序列和所述第六历史序列中的一个提取待识别上下文特征，所述待识别上下文特征为当前字的前面N个字和后面N个字，N为可配置的滑动窗口，N为正整数；

18.一种语义识别的设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求14或15所述的语义识别的方法。

19.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求14或15所述的语义识别的方法的步骤。