CN112164391A

CN112164391A - 语句处理方法、装置、电子设备及存储介质

Info

Publication number: CN112164391A
Application number: CN202011112034.1A
Authority: CN
Inventors: 李文博
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-10-16
Filing date: 2020-10-16
Publication date: 2021-01-01
Anticipated expiration: 2040-10-16
Also published as: CN112164391B

Abstract

本申请涉及人工智能及语义识别技术领域，公开了一种语句处理方法、装置、电子设备及存储介质，其中，该语句处理方法包括：获取待处理语句；获取待处理语句所包含各词的词向量；将各词的词向量输入至语义识别模型中，通过语义识别模型得到待处理语句对应的语义特征；通过语义识别模型确定语义特征和各候选语义识别结果之间的相似度，并基于各相似度和各所述候选语义识别结果，确定待处理语句对应的语义识别结果。本申请提供的语句处理方法，能够挖掘待处理语句的深层特征，获得待处理语句的准确语义信息。

Description

语句处理方法、装置、电子设备及存储介质

技术领域

本申请涉及人工智能及语义识别技术领域，具体而言，本申请涉及一种语句处理方法、装置、电子设备及存储介质。

背景技术

随着人工智能的发展，基于语音信号进行响应的电子设备的应用越来越广泛。电子设备在对语音信号进行响应时，需要对语音信号的语义进行判断，然后进一步基于识别出的语义进行处理。

但目前的语句识别方法中，识别出的语义往往是字面意思，识别结果并不准确，如：待处理语句为：“she said yes”，现有的识别方法往往识别为“她说是的”，但在求婚场合中，其真实意思为女方答应男方的求婚，导致对语句的识别准确性不高。

发明内容

本申请的目的旨在至少能解决上述的技术缺陷之一，特提出以下技术方案：

本申请的一个方面，提供了一种语句处理方法，包括：

获取待处理语句；

获取待处理语句所包含各词的词向量；

将各词的词向量输入至语义识别模型中，通过语义识别模型得到待处理语句对应的语义特征；

通过语义识别模型确定语义特征和各候选语义识别结果之间的相似度，并基于各相似度和各候选语义识别结果，确定待处理语句对应的语义识别结果；其中，语义识别模型是基于训练数据集对初始神经网络模型进行训练得到的，该训练数据集中的每个训练样本包括一个样本语句中所包含的每个词的词向量、以及该样本语句对应的语义标签，语义标签表征样本语句的真实语义识别结果。

本申请的另一个方面，提供了一种语句处理装置，该装置包括：

待处理语句获取模块，用于获取待处理语句；

词向量获取模块，用于获取待处理语句所包含各词的词向量；

语义特征获取模块，用于将各词的词向量输入至语义识别模型中，通过语义识别模型得到待处理语句对应的语义特征；

确定语义识别结果模块，用于通过语义识别模型确定语义特征和各候选语义识别结果之间的相似度，并基于各相似度和各候选语义识别结果，确定待处理语句对应的语义识别结果；其中，语义识别模型是基于训练数据集对初始神经网络模型进行训练得到的，该训练数据集中的每个训练样本包括一个样本语句中所包含的每个词的词向量、以及该样本语句对应的语义标签，语义标签表征样本语句的真实语义识别结果。

本申请的再一个方面，提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现本申请第一方面所示的语句处理方法。

本申请的又一个方面，提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现本申请第一方面所示的语句处理方法。

本申请提供的技术方案带来的有益效果是：

本申请提供的语句处理方法，根据待处理语句的语义特征和各候选语义识别结果之间的相似度，确定待处理语句对应的语义识别结果，相似度是待处理语句的语义特征与每一候选语义识别结果之间的距离，基于该距离能够获得不同候选语义识别结果之间的差异，挖掘待处理语句的深层含义，使得得到的语义特征能够表达该语句的真实语义，有利于提高语义识别结果的准确性。

另外，本申请提供的语句处理方法，利用语义识别模型基于待处理语句中各词的词向量获得待处理语句对应的语义特征，考虑了待处理语句中每个词的语义信息，使得得到的语义特征能够完整、准确地表征待处理语句的语义信息，而且，采用语义识别模型获得待处理语句的语义特征，利用大数据优势进一步提高语义特征的准确性，还能够提高获得准确语义特征的速度。另外，在模型训练过程中，利用样本语句对应的语义标签进行模型训练，有利于使得模型输出的预测结果与样本语句的真实语义信息不断接近，利用训练完成的语义识别模型生成的语义特征能够表征待处理语句的真实语义。

本申请附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请一个实施例提供的语句处理方法的流程图；

图2为本申请另一实施例提供的语句处理方法的流程图，该流程图重点展示语义识别模型的训练过程；

图3为本申请一个实施例提供的计算损失函数的值的过程示意图；

图4为本申请一个实施例提供的颜文字对应的词向量的可视图；

图5为本申请一个实施例提供的语义识别模型的模型架构图；

图6为本申请一个实施例提供的模型训练过程的架构图；

图7为本申请一个实施例提供的待处理语句与其对应的处理结果之间的对照图；

图8为本申请一个实施例提供的一种应用场景中语句处理系统的结构示意图；

图9为本申请实施例提供的一种语句处理装置的结构示意图；

图10为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

词向量：表示一个词的向量，表征词的语义信息。

句向量：表示一句话的向量，表征句子的语义信息。

余弦相似性(Cosine Similarity)：衡量词向量或句向量语义相似度的一种计算方法，通过测量两个向量夹角的余弦值来度量它们之间的相似度。

长短期记忆网络(Long Short-term Memory，LSTM)：一种时间循环神经网络。

归一化指数函数(SoftMax Function/Normalized Exponential Function)：将一组输入映射为0-1的概率值，并且归一化之后的概率值之和为1。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。本申请通过及机器学习获得初步训练后的语义识别模型。

发明人在研究过程中发现，为了准确表达语句的语义信息，可以采用词袋模型、平均词向量、加权词向量、Doc2Vec等方法，但这些方法至少存在如下问题中的一个：没有考虑语句中的语序信息，对包含相同词不同语序的语句的识别结果不准确；将句子作为一个整体作为模型输入，忽略语句中每个词的语义，导致结果识别准确率不高；模型输出的句向量仅适用于特定用于训练的文本，对于未出现过的新语句，模型无法直接推断新语句的句向量，需要重新训练，模型的通用性和鲁棒性较差；句向量的长度会因文本中的不重复词的数量变化为变化，导致得到的句向量长度不可控；句向量因语句长度不同而不同，导致识别效果参差不齐。

本申请实施例中的服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。对于现有技术中所存在的技术问题，本申请提供的语句处理方法、装置、电子设备及存储介质，旨在解决现有技术的如上技术问题中的至少一项。

下面以具体实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

本申请实施例提供了一种可能的实现方式，如图1所示，提供了一种语句处理方法的流程图，该方案可以由任一电子设备执行，可选的，可以在服务器端执行，包括以下步骤：

步骤S110，获取待处理语句；

步骤S120，获取待处理语句所包含各词的词向量；

步骤S130，将各词的词向量输入至语义识别模型中，通过语义识别模型得到待处理语句对应的语义特征；

步骤S140，通过语义识别模型确定语义特征和各候选语义识别结果之间的相似度，并基于各相似度和各候选语义识别结果，确定待处理语句对应的语义识别结果；其中，语义识别模型是基于训练数据集对初始神经网络模型进行训练得到的，该训练数据集中的每个训练样本包括一个样本语句中所包含的每个词的词向量、以及该样本语句对应的语义标签，语义标签表征样本语句的真实语义识别结果。

本申请提供的方案可以适用但不限于如下场景：电子设备(如服务器或者用户终端)接收到一段待处理语句的处理请求，该处理请求可以包括对至少一项如下操作的处理请求：情绪分析、表情推荐等。服务器响应于该请求，首先对待处理语句中各词进行词向量获取处理，得到该待处理语句中所包含的各词对应的词向量。基于该待处理语句中各词的词向量，利用语义识别模型获取待处理语句对应的语义特征，该语义特征表征该待处理语句的语义，该语义特征可以采用向量的形式表征，根据语义特征及候选语义识别结果确定两者之间的相似度。

其中，语义识别模型可以包括级联的语义特征提取模块和语义识别模块，语义特征提取模块的输入为语句所包含各词的词向量，输出为语句对应的语义特征，也就是说语义特征提取模块可以用于执行步骤S110至S130提供的方法步骤，语义识别模块将语句的语义特征作为输入，输出该语义特征相对应的语义识别结果，也就是说，语义识别模块可以用于执行步骤S140，通过语义识别模型可以得到语句对应的语义特征以及语义识别结果。本申请提供的语义识别模型可以是预先利用训练数据集对语义识别模型进行训练得到的训练完成的语义识别模型，利用训练完成的语义识别模型可以得到待处理语句对应的语义特征以及待处理语句的识别结果。

可选地，语义特征及候选语义识别结果可以均采用向量的形式表征，以便计算两者之间的相似度。候选语义识别结果为待处理语句对应的可选语义识别结果，如：本申请的使用场景是为待处理语句匹配情绪，待处理语句的处理结果为情绪，则候选语义识别结果可以为收集到的所有表征情绪的字符，计算待处理语句的语义特征与该所有字符之间的相似度，获得语义特征与所有字符之间的差异，以明确不同字符之间的差异，有利于挖掘待处理语句的深层特征，以获得待处理语句的准确语义。

每一候选语义识别结果对应一个相似度，待处理语句对应的相似度的数量与候选语义识别结果的数量相同，基于待处理语句对应的相似度和候选语义识别结果，确定待处理语句对应的语义识别结果，如情绪匹配场景中，待处理语句对应的相似度包括4个概率值，每个相似度对应一个候选语义识别结果，按照预设筛选条件，可以筛选相似度最大的候选语义识别结果为处理结果，则可以将概率值最大的相似度对应的候选语义识别结果作为待处理语句对应的语义识别结果。

可选地，语义识别模型是基于训练数据集对初始神经网络模型进行训练得到的，该训练数据集中的每个训练样本包括一个样本语句中所包含的每个词的词向量、以及该样本语句对应的语义标签，语义标签表征样本语句的真实语义识别结果。

该种获得语义特征的方式，首先，利用模型获得待处理语句对应的语义特征，利用大数据的优势，有利于高效获得表征待处理语句真实语义的语义特征；其次，基于样本语句中每个词对应的词向量作为模型的训练数据，考虑了样本语句中每个词的语义，基于每个词的语义信息生成的样本语句的语义特征，有利于提升对待处理语句的语义的准确识别。

除此之外，在语义识别模型的训练过程中，利用样本语句的语义标签进行模型训练，这种训练方式，有利于挖掘样本语句的真实含义，使得模型中语义特征提取模块输出的语义特征能够准确表征待处理语句的真实语义，提升模型对待处理语句的识别准确性。

通过语义识别模型得到待处理语句对应的语义特征，能够利用大数据的优势挖掘出各词的词向量与语句对应的语义特征之间的关联，进而获得能够表征待处理语句真实语义的语义特征。

本申请提供的语句处理方法，根据待处理语句的语义特征和各候选语义识别结果之间的相似度，确定待处理语句对应的语义识别结果，相似度是待处理语句的语义特征与每一候选语义识别结果之间的距离，基于该距离有利于获得不同候选语义识别结果之间的差异，能够挖掘待处理语句的深层含义，有利于提高语义识别结果的准确性。

为了更清楚本申请提供的语句处理方案及其技术效果，接下来以多个实施例对其具体实施方案进行详细阐述。

在一种可选实施例中，待处理语句为待分类语句，候选语义识别结果为候选分类结果，基于各相似度和各候选语义识别结果，确定待处理语句对应的语义识别结果，可以通过如下方式确定，包括：

基于各相似度和各候选分类结果，将最大的相似度对应的候选分类结果确定为待处理语句对应的目标分类结果。

该实施例提供的方案适用于分类场景中，该分类场景可以如：文本类型分类、情绪分类、表情分类等，在分类场景中，待处理语句为待分类语句，候选语义识别结果为候选分类结果，如情绪匹配实质上是对情绪进行分类，将匹配的情绪作为待分类语句的分类结果，如：生气、高兴、惊讶等候选分类结果。根据待分类语句的语义特征与候选分类结果之间的相似度确定待分类语句与每一候选分类结果之间的距离，距离越大，待分类语句与候选分类结果之间的相似度越小，表明待分类语句的类别与该候选分类结果之间的差距越大。分类结果是唯一的，可以通过择一的形式从候选分类结果中确定待处理语句对应的目标分类结果，如：可以将相似度最大的候选分类结果作为待处理语句的目标分类结果，以实现待处理语句与目标分类结果之间的相似度最大，有利于提升分类结果的准确性。

该种实施例中，针对待处理语句为待分类语句，待处理语句最终与候选分类结果中的一个相匹配，将匹配的候选分类结果作为待处理语句对应的目标分类结果。

具体地，如：为待处理语句进行表情分类，也就是说，为待分类语句挑选一个与之相匹配的表情，具体地，根据待分类语句的句向量与每一预设的候选表情之间的相似度，再结合每一相似度对应的候选表情确定待分类语句对应的表情。

本申请一种可选实施例还提供了另一种语义识别模型的训练方式，语义识别模型的训练过程还可以通过以下方式训练得到，包括：

对于每个训练样本，将该训练样本的样本语句中所包含的各词的词向量输入至初始神经网络模型中，得到该样本语句的预测语义特征；

基于各样本语句的预测语义特征和语义标签，确定神经网络模型对应的训练损失值；

基于各训练样本和训练损失值对神经网络模型进行迭代训练，直至满足训练结束条件，将训练结束时的神经网络模型，确定为语义识别模型。

本实施例提供的方案，提供了一种语义识别模型的训练方案，神经网络模型的结构包括级联的两个模块，一个是语义特征提取模块，另一个是语义识别模块，语义特征提取模块输出语句中各词向量对应的语义特征，语义识别模块输出语句的语义识别结果。

在模型训练过程中，通过神经网络模型中语义特征提取模块输出的预测语义特征和样本语句对应的语义标签确定神经网络模型对应的训练损失值，其中，预测语义特征与语义标签均可以通过向量的形式表征，利用训练损失值调整模型参数，利用训练样本对神经网络模型进行迭代训练，直至模型满足训练结束条件，训练结束条件如：损失函数收敛，将训练结束时的神经网络模型确定为语义识别模型。将待处理语句中各词的词向量输入语义识别模型，输出该待处理语句的语义特征。

模型的训练过程中，利用样本语句的预测语义特征和语义标签确定模型的训练损失值，不断缩小预测语义与真实语义之间的距离，使得模型的输出不断逼近样本语句的真实语义，直至模型训练完成，提升语义识别模型对语句语义的识别准确性。

此外，语义识别模型的训练数据是基于样本语句中每个词的词向量以及该样本语句对应的语义标签，考虑了每个词的语义信息，训练过程中利用预测语义特征与语义标签确定模型的训练损失值，通过训练损失值不断缩小预测语义特征与语义标签之间的距离，有利于挖掘样本语句的真实语义，使得待处理语句的语义识别结果能够与该待处理语句的真实含义相匹配。

上述实施例提供了对待处理语句的处理方案，一种可选实施例中，语义识别模型的训练还可以通过如下方式进行，其流程图如图2所示，包括：

步骤S210，获取训练数据集，训练数据集中的每个训练样本包括一个样本语句中所包含的每个词的词向量、以及该样本语句对应的语义标签；

步骤S220，对于每个训练样本，将样本语句中所包含的各词的词向量输入至初始神经网络模型中，得到样本语句的预测语义特征；

步骤S230，确定每个样本语句的预测语义特征与每一候选语义识别结果之间的相似度；

步骤S240，基于每个样本语句对应的各相似度以及语义标签确定神经网络模型对应的损失函数的值；

步骤S250，基于各训练样本以及损失函数的值对神经网络模型进行迭代训练，直至损失函数收敛，将训练结束时的神经网络模型确定为语义识别模型。

本申请提供的方案可以适用于但不限于如下场景：电子设备(如服务器或者用户终端)接收到一段待处理语句的语义识别请求，服务器响应于该请求，通过训练完成的语义识别模型对该待处理语句进行识别，获得语义识别结果，该语义识别结果可以采用句向量的形式表征，后续还可以将语义识别结果用文本信息的形式或者转换成表情、符号等形式表征，并可以将语义识别结果提供给用户或者请求发送端。

可选地，语义识别模型通过如下方式训练得到：

获得用于模型训练的训练数据集，训练数据集中包含多个训练样本，每个训练样本包括：样本语句及样本语句对应的语义标签，每个样本语句中包含至少一个词，样本语句的长度可以按照需求设置，若一个语句中包含的语句较长，则可以预先将该语句分割为多个符合预设长度条件的短句，将每个短句作为一个样本语句。样本语句中的每个词对应一个词向量，根据词向量获取方法获得样本语句中每个词对应的词向量，将样本语句中每个词的词向量及该样本语句对应的语义标签作为一个训练样本，这样设置可以直接将训练样本中的词向量作为模型的输入，与将训练样本设置为包括样本语句，而非词向量的方式相比，本实施例的训练样本中包括词向量，无需在训练数据输入模型之前花费时间进行词向量的获取，有利于加快模型训练速度。

训练数据集还可以根据应用场景进行选取，即基于应用场景从大量的适用语料中选取相应的训练数据集，适用语料可以从社交平台上获得，如：应用场景为待处理语句推荐颜文字，则可以基于带有颜文字的语句确定训练数据集；应用场景为情绪匹配时，可以拉取带有情绪标签的语句确定训练数据集。根据应用场景确定相应的训练数据集，有利于提高获得适用于该应用场景的语义识别模型的训练效率。

在实际应用中，对于不同的应用场景，候选语义识别结果是不同的，例如：应用场景是为待处理语句推荐颜文字，则候选语义识别结果为颜文字，应用场景是为待处理语句匹配情绪，则候选语义识别结果为表征情绪的文字或表情。

预设数量个候选语义识别结果，以推荐颜文字为例，最终发送给用户的是颜文字，则候选语义识别结果是颜文字，每个候选语义识别结果对应一个颜文字，该候选语义识别结果可以为获得的所有颜文字，也可以是经过筛选的预设数量的颜文字，通过样本语句对应的语义特征与每一候选语义识别结果进行相似度计算，为了便于计算，可以通过词向量的形式表征候选语义识别结果，获得语义特征与每一候选语义识别结果之间的相似度，该相似度表征语义特征与每一候选语义识别结果之间的距离，距离越近，则表明样本语句与该候选语义识别结果的语义越接近。

每个候选语义识别结果对应一个相似度，每个样本语句对应的相似度数量与候选语义识别结果的数量相同，根据各样本语句对应的各相似度与语义标签确定神经网络模型对应的损失函数的值。

确定样本语句的语义特征与候选语义识别结果之间的相似度时，可以将候选语义识别结果通过向量的形式表征，若候选语义识别结果有多个，则获得的相似度也采用向量的形式表征，且向量长度与候选语义识别结果的数量一致。基于每个样本语句对应的各相似度以及语义标签确定神经网络模型对应的损失函数的值，可以通过计算该相似度对应的向量与语义标签对应的向量之间的差异确定神经网络模型的损失函数的值。若该损失函数的值对应的损失函数不收敛，则相应调整神经网络模型的模型参数，进而影响语义特征的生成，通过损失函数调整语义特征的生成，直至损失函数收敛，模型训练完成，获得语义识别模型，利用语义识别模型获得的语义特征能够准确表征语句的语义信息，输出的语义处理结果与待处理语句的真实语义相匹配。

在模型训练过程中，是将各样本语句中所包含的每个词的词向量输入到初始神经网络模型中，模型中的语义特征提取模块输出样本语句的语义特征，由于语义特征是基于样本语句中包含的每个词对应的词向量获得的，因此，语义特征中包含了每个词向量的语义信息，有利于提升语句的识别准确性。而且，由于模型输入的是样本语句中每个词对应的词向量，因此，对特定语句无依赖，可以依据各词任意组成新语句，利用训练完成的模型对新语句进行识别，提高了语义识别模型的通用性和鲁棒性。

本实施例提供的方案，利用相似度确定样本语句的预测语义特征与候选语义识别结果之间的距离，基于该相似度及语义标签确定模型的损失函数的值，不断缩小语义特征与候选语义识别结果在语义空间中的距离，直至损失函数收敛，完成模型训练，利用训练完成的语义识别模型得出的语义特征能够表征待处理语句的真实语义。

一种可选实施例中，基于每个样本语句对应的各相似度以及语义标签确定神经网络模型对应的损失函数的值，可以通过如下方式实现，包括：

A1，对于每一样本语句，获取样本语句的语义标签对应的样本语义向量，基于样本语句对应的各相似度，确定样本语句对应于各候选语义识别结果的语义相似度向量；

A2，对于每一样本语句，基于样本语句所对应的语义相似度向量和样本语义向量，计算样本语句对应的训练损失值；

A3，基于各样本语句的训练损失值，计算得到神经网络模型对应的损失函数的值。

对于每一样本语句，获取样本语句的语义标签对应的样本语义向量，基于样本语句对应的各相似度，确定样本语句对应的语义特征与各候选语义识别结果的语义相似度向量，该语义相似度向量的维数与候选语义识别结果的数量相同，即每个样本语句，对应一个语义相似度向量，将语义标签以及相似度通过向量表示，以便于对语义标签及相似度进行量化计算。

对于每一样本语句，基于样本语句所对应的语义相似度向量和样本语义向量，计算样本语句对应的训练损失值，可选地，通过计算语义相似度向量和样本语义向量之间的余弦相似度或马氏距离等获得样本语句对应的训练损失值。

通过上述方法获得各样本语句对应的训练损失值，基于各样本语句的训练损失值，计算得到神经网络模型对应的损失函数的值，得到模型预设结果与语义标签之间的差异。

本申请实施例提供的方案，将语义标签与相似度进行量化表示，获得样本语义向量和语义相似度向量，通过对语义相似度向量和样本语义向量的计算获得神经网络模型的损失函数的值，通过量化处理，有利于准确获得损失函数的值。

一种可选实施例中，对于每一样本语句，A1提供的基于样本语句对应的各相似度，确定样本语句对应的于各候选语义识别结果的语义相似度向量，包括：

将样本语句所对应的各相似度进行归一化处理，得到样本语句对应于各候选语义识别结果的概率分布，将概率分布作为语义相似度向量。

本实施例提供的方案，在获得样本语句对应的相似度之后，将样本语句对应的各相似度进行归一化处理，获得样本语句对应的各候选语义识别结果的概率分布，归一化之后的相似度向量能够直观地看出样本语句与各候选语义识别结果的相似性大小，概率值越大，表明样本语句与该候选语义识别结果的相似度越高，该候选语义识别结果为样本语句的识别结果的概率越大。

结合图3提供的计算损失函数的值的过程示意图，示例如下：样本语句的语义特征对应的句向量为[3.3,5.2]，候选语义识别结果为颜文字，每个颜文字对应一个候选语义识别结果，四个颜文字分别对应的向量为：[1.2,-0.5]、[2.5,4.9]、[-3.2,3]、[2.7,-1.8]，将样本语句对应的句向量与候选语义识别结果对应的向量进行余弦相似度计算，获得相似度分别为：0.169、0.995、0.186、-0.02，将各相似度进行归一化处理得到该样本语句对应于各候选语义识别结果的概率分布分别为：0.19496615、0.44533461、0.1983089、0.16139034，则样本语句对应的语义相似度向量为[0.19496615,0.44533461,0.1983089,0.16139034]，将归一化后的相似度向量进行二值化处理，得到相应的二值化处理后的特征向量[0,1,0,0]，再基于二值化处理后的特征向量与语义标签对应的样本语义向量计算训练损失值，即损失函数的值，得到训练损失值为1.1092，若该训练损失值不满足损失函数的收敛条件，基于该训练损失值进一步进行模型参数的调整，进行训练数据的迭代训练，直至损失函数收敛。

一种可选实施例中，为了获得可靠的词向量，语句处理方法，还可以包括：

B1，获取训练数据集中每个样本语句所包含的每个词对应的预测词向量；

B2，基于训练数据集中每个词的预测词向量获得预测词向量的可视图；

B3，基于可视图从预测词向量中确定对应词的词向量。

其中，获得各样本语句中各词的预测词向量可以通过词向量训练算法或词向量训练模型进行，词向量训练算法，如：Skip-Gram、CBOW等对训练数据集进行训练，得到训练数据集中每个词对应的词向量。可以将获得的词向量整理成词向量表，训练数据集中的每个词，可以是文字，也可以是表情、颜文字等形式，若训练数据集中包含文字及颜文字，则词向量表中包含文字、颜文字等对应的词向量，词表大小等于文字表征的词与颜文字数量之和。例如：词向量训练参数可以按照如下参数设置：窗口大小设为5，最小频次设为5，词向量大小设为256，得到具有固定词向量大小的词向量。

根据词向量训练算法或词向量训练模型获得的预测词向量表征该词的语义，获得训练数据集中所有词向量之后，通过可视化算法获得预测词向量的可视图，根据预测词向量在可视图中的表现确定训练数据集中各词的词向量，该词向量为有效词向量。

利用可视图判断预测词向量是否可靠，若可靠，则将该预测词向量作为该词的词向量，即有效词向量，若不可靠，则表明预测词向量不可靠，需要重新获取该词对应的预测词向量，直至预测词向量可靠，将可靠的预测词向量确定为该词的词向量。

其中，重新获取该词对应的预测词向量，可以通过调整词向量训练算法，如更换词向量训练算法，还可以通过调整词向量训练模型中的模型参数，以重新获得该词的预测词向量。

本申请实施例通过预测词向量的可视图判断预测词向量是否有效，若无效，调整预测词向量，直至预测词向量可靠，以获得训练数据集中每个词的有效词向量，以提高语义识别模型的识别准确性及模型收敛速度。

可选地，基于可视图从预测词向量中确定对应词的词向量，可以通过如下方式进行，包括：

B31，根据可视图中预测词向量的聚类结果是否符合预期语义判断预测词向量是否有效；

B32，将有效的测试词向量作为对应词的词向量。

对包含训练数据集中所有预测词向量的可视图进行解析，在可视图中，语义相近的词向量距离较近，反之则较远，图4为颜文字对应的词向量的可视图，观察可知，语义相近的词向量聚集在一起，如图中表情颜文字聚类(图4中的区域A所示)、头像颜文字聚类(对应于图4中的区域B所示)，还可以包括植物颜文字聚类(图4中未示出)、食物颜文字聚类(图4中未示出)，该图作为聚类结果的一种可视示意图，并不形成对聚类结果的限定。若预测词向量的聚类结果符合预期语义，如：表征土豆的预测词向量在可视图中靠近食物类，或者该预测词向量与食物类的聚类中心的距离小于与其他类的类中心的距离，则表明预测词向量的聚类结果符合预期语义，该预测词向量为有效词向量，该预测词向量可用，反之，该预测词向量不可用，需要调整词向量训练算法或调整模型参数重新训练，直至可视图中该预测词向量的聚类结果符合预期语义。

本申请实施例提供的方案将预测词向量进行可视化，利用可视图中预测词向量的聚类结果是否符合预期语义来判断预测词向量是否有效，能够直观且有效地判断该预测词向量是否有效。

一种可选实施例中，基于词向量对初始神经网络模型进行训练时，得到各样本语句对应的预测语义特征，还可以通过如下方式进行，包括：

对于每一样本语句，根据样本语句所包含的各词在样本语句中的语序，将样本语句的各词的词向量输入至神经网络模型，得到样本语句的预测语义特征。

对于每一样本语句，将样本语句中的各词按照其在样本语句中的顺序，将该词对应的词向量输入至神经网络模型得到样本语句的预测语义特征，即在模型训练过程中，不仅将词向量作为模型的输入，还将样本语句的语序信息作为模型的输入数据的一部分，以提高模型对包含相同词语，不同语序的样本语句的识别准确性。

本实施例提供的方案中，将样本语句的语序及词向量均作为神经网络模型的输入，也就是说，在模型训练过程中，考虑了样本语句中各词的顺序信息，得到的语义识别模型能够分辨包含相同词语但不同语序的语句，避免出现将包含相同词语但不同语序的语句判断为相同语义的情况，如“我吃了鱼”与“鱼吃了我”，两个语句所包含词语虽相同，但因词语顺序不同，导致语义完全不同，但如果在模型训练过程中没有加入样本语句的语序信息，则得出的语义结果可能是一致的。

可选地，在得到样本语句的语义特征的过程中，还包括：利用丢弃层(drop outlayer)随机让一部分隐层节点失效，防止训练样本较少时模型过拟合的情况出现。

本申请一种实施例提供的语义识别模型的模型架构图包括：输入层-网络层-丢弃层-稠密层-相似度层-归一化层-输出层，以应用场景为推荐颜文字为例，本申请提供的模型架构图如图5所示，输入层(input layer)：输入参数大小＝(样本数量，句向量长度，词向量维度)，对应的参数设置为：shape＝(num_samples,sentence_length,embed_dimension)，将样本语句中的每个词对应的词向量，作为模型的输入数据；网络层：该网络层可以为图5所示的双向长短期记忆网络(Bi-LSTM，双向长短期记忆网络)、长短期记忆网络、循环神经网络或卷积神经网络等，网络参数设置为：LSTM(unit＝256,L2norm＝0.01)，表征词向量的向量大小为256，归一化处理的参数为0.01，该层可以正向或反向遍历语句中的各词，获得语句中各词的语序信息，将该语序信息也作为模型的输入数据；丢弃层(dropout layer)：丢弃层随机让一部分隐层节点失效以防止过拟合，丢弃率可以设为图5所示的0.33，参数设置为：rate＝0.33，即3个隐层节点中选择失效1个隐层节点；稠密层(dense)：用于得到语义特征，且语义特征大小可以与样本语句中各词的词向量大小相同，激活函数activation可以采用tanh双曲函数，添加正则项，稠密层的参数设置如下unit＝embed_dimension，activation＝tanh，kernel-regularizer；相似度计算层(cosine similarity，如图5所示的余弦相似度层)，该架构图中采用余弦相似度计算，余弦相似度计算的是稠密层输出与每一颜文字对应的词向量之间的相似度，参数设置如下：Cosine similarity(Dense_output,each emoji embed)，还可以通过点积的方式计算相似度，该余弦相似度层用于计算语义特征和每一候选语义识别结果，如颜文字词向量之间的相似度；归一化层(softmax)：用于将相似度值转换为概率，归一化之后的相似度值的数量与候选语义识别结果的数量相同，归一化之后的向量大小为样本数量，每个样本对应的向量长度为颜文字的词向量长度，参数设置如下：shape＝(num_samples,len(all emoji embeds))；输出层(output)，输出归一化之后的相似度值构成的向量，也就是说归一化后的相似度值为输出结果，对应的参数设置如下：output(softmax vector)。

在此基础上，本申请还提供了一种训练架构图，同样以推荐颜文字为例，模型训练过程的架构图如图6所示，包括两个分支，左侧的分支用于获得样本语句的语义特征，该语义特征可以通过句向量(Sematics of Sentence)表征，样本语句为“she said yes”，确定该样本语句对应的颜文字，首先对样本语句中的各词进行词向量的获取，得到“she”、“said”、“yes”对应的词向量分别为w7、w8、w9，利用神经网络层(如图6所示的双向长短期记忆网络(Bi-LSTM))及分类层(如FC层，全连接层)进行特征处理，得到语义特征，语义特征可以通过图6中的句向量表征；右侧的分支，用于获得候选语义识别结果(如图6中的戒指、婚礼、女士等颜文字)，对候选语义识别结果进行词向量处理，得到各候选语义识别结果对应的词向量(对应于图6中颜文字的词向量(semantics of each emoji))，利用样本语句对应的语义特征与各候选语义识别结果对应的词向量进行相似度计算，如：进行余弦相似度的计算(cosine similarity)，得到语义特征和每一候选语义识别结果的相似度，对该相似度进行归一化处理得到归一化后的相似度值，将该归一化之后的相似度对应的向量与样本语句对应的样本语义向量进行模型的损失函数的计算，得到损失函数的值，基于该损失函数的值进行神经网络模型的参数调整，直到损失函数收敛，得到语义识别模型。

本申请提供的语义识别模型，可以根据不同应用场景训练相应场景对应的语义识别模型。具体地，本申请可以针对应用场景训练语义识别模型，如：智能推荐标签、推荐颜文字、推荐兴趣社区、推荐广告、匹配情绪等。基于包含上述应用场景中的词、按照上述实施例提供的语句处理方法获得语义识别模型，利用该语义识别模型可以获得能够进行相应的智能推荐。

本实施例提供的方案得到的语义识别模型，还可以输出识别语句的准确语义信息，该准确语义信息可以通过语义特征表征，该种方案可以适用于机器问答场景中，该场景中，模型训练过程中的样本语句为问答系统中的回复语句，语义识别结果为问题系统产生的回复语句的语义特征，该语义特征能够准确表征该回复语句的语义信息。该种场景下，模型训练过程如下：基于问答系统产生的对话信息，基于对话信息中的回复信息确定模型的训练数据，对话信息中的提问语句可以作用该回复信息的语境信息，候选语义识别结果为该回复信息关联的候选语义识别结果，如候选语义识别结果为该回复信息在不同语境中的语义信息，在模型训练过程中，通过分析句子语境确定语句的语义。

本申请基于相似度计算模型的损失函数，缩短了语义特征与候选语义识别结果之间的距离，结合语句的语境使得模型可以有效挖掘语句的隐含语义，如：俚语、谚语等。

上述实施例提供的方案，阐述了语义识别模型的训练过程中的方案，获得语义识别模型可以适用于对语句的语义识别，接下来的实施例是对上述方法得到的语义识别模型的应用。

本申请一种可选实施例还提供了另一种方案，基于上述实施例提供的语义识别模型输出待处理语句的语义特征，该种语句处理方案的架构，只包含语义识别模型中的语义特征提取模块，输出为待处理语句的语义特征，语义特征表征待处理语句的真实语义信息。以便后续基于语义识别模型中语义特征提取模块输出的语义特征表征的语义信息可以进行语句的查找、检索、分类等处理。

一种可选实施例中，待处理语句可以为提问语句、用户输入的文本语句、待分类语句或检索语句中的至少一种，按照上述实施例提供的方法获得待处理语句的语义特征，可选地，通过语义识别模型中的语义特征提取模块获得待处理语句的语义特征，本申请实施例提供的方案是基于待处理语句的语义特征进行相应处理，如基于提问语句的语义特征进行问题回复、信息推荐、信息检索、信息分类等。

可选地，待处理语句为提问语句，本申请提供的语句处理方法，还包括：

获取各候选答案；

获得各候选答案分别对应的语义特征；

根据提问语句的语义特征与候选答案对应的语义特征之间的匹配度确定目标答案，并将目标答案展示给待处理语句对应的提问端。

本申请实施例提供的方案针对待处理语句为提问语句的处理，待处理语句为提问语句，根据前述获得的语义识别模型得到该提问语句的语义特征，该语义特征表征该提问语句的真实语义。获取各候选答案，该候选答案可以是与待处理语句的语句类型、待处理语句中的关键词等至少一种相关的候选答案，如：待处理语句为位置查找，则获取与位置查找相关的所有答案作为候选答案；候选答案也可以与提问语句没有关系，如热门问题对应的答案、常用关键词对应的答案等。获取各候选答案分别对应的语义特征，候选答案的语义特征可以通过前述实施例中的语义识别模型确定。

计算提问语句的语义特征与候选答案对应的语义特征之间的匹配度，其中，匹配度的计算方式不限，可以通过模型训练的方式计算问题与答案之间的匹配度，获得匹配度计算模型，将本申请实施例中的提问语句及各候选答案输入训练完成的匹配度计算模型中，获得提问语句与候选答案之间的匹配度，可以将匹配程度最高的候选答案作为目标答案，也可以将匹配程度排序靠前的多个候选答案作为目标答案。

将目标答案展示给待处理语句对应的提问端，实现基于语义识别模型进行准确的智能问答。该种方案可适用于智能机器人的场景中，用户利用智能机器人的人机交互界面通过文字或语音输入提问语句，智能机器人后台通过本申请提供的语句处理方法获得提问语句的真实语义，并基于该真实语义查询与该真实语义相关的候选答案，并按照筛选规则进行筛选、排序等处理，将筛选、排序处理后得到的目标答案通过文本或语音的形式告知提问用户，实现对提问语句的智能回复。

可选地，若待处理语句为用户输入的文本语句，本申请提供的语句处理方法，还包括：

获取各候选推信息；

获取各候选推荐信息分别对应的语义特征；

根据文本语句对应的语义特征与各候选推荐信息的语义特征之间的相似度确定与所述待处理语句对应的目标推荐信息；

将目标推荐信息发送给用户。

本申请实施例提供的待处理语句对应的推荐信息，如推荐标签、推荐颜文字、推荐广告、推荐社区等。根据语义识别模型获得表征文本语句真实语义的语义特征，获取各候选推荐信息，该候选推荐信息可以与文本语句无关，如推荐广告时，可以将待推荐的所有广告均作为候选推荐信息，也可以将热门广告作为候选推进信息。同样地，各候选推荐信息对应的语义特征可以通过前述实施例中的语义识别模型获得。

然后根据文本语句对应的语义特征和各候选推荐信息对应的语义特征之间的相似度确定目标推荐信息，也可以根据两种语义特征之间的匹配度确定目标推荐信息，将相似度或匹配度最高的语义特征对应的候选推荐信息作为目标推荐信息，并将获得的目标推荐信息发送给用户，使得语义识别模型可以根据用户输入的文本语句获得准确的推荐信息。除此之外，本申请实施例中的文本语句还可以为用户输入的语音语句，通过将语音语句转换成文本语句，再利用文本语句的推荐方案实现智能信息的推荐。

值得说明的是，该待处理语句对应的推荐信息为颜文字时，待处理语句对应多个颜文字，即推荐信息为多个颜文字的组合，该种情况下，由于待处理语句对应的候选语义识别结果有多个，无法利用待处理语句的语义特征与任一候选语义识别结果进行相似度计算得到语义处理结果，因此，根据待处理语句的语义特征，与颜文字的各种组合对应的语义信息进行对比，将待处理语句的语义特征相匹配的颜文字的组合作为待处理语句的语义处理结果。

可选地，若待处理语句为检索语句，本申请实施例提供的语句处理方法，还包括：

获取各候选检索结果；

获取各候选检索结果对应的语义特征；

根据检索语句对应的语义特征与各候选检索结果对应的语义特征之间的相似度确定检索语句对应的目标检索结果；

将目标检索结果提供给待处理语句对应的检索请求端。

本申请实施例提供的方案是对待处理语句的检索方案，获得各候选检索结果，该检索结果可以与检索语句的语义信息无关，可以与检索语句对应的检索类型或检索领域有关，若与检索类型或检索领域有关，则将该检索类型或检索领域的相关检索结果作为候选检索结果。利用前述实施例中的语义识别模型获得各候选检索结果对应的语义特征。根据待处理语句的语义特征与各候选检索结果对应的语义特征之间的相似度或匹配度，确定待处理语句的目标检索结果，也就是说利用待处理语句的真实语义进行检索，从各候选检索结果中选择与检索语句的真实语义的相似度最高或匹配度最高的候选检索结果作为目标检索结果，并将目标检索结果发送给检索请求端，实现基于待处理语句的精准检索，避免检索结果不准确，有利于提升检索准确性和检索效率。

基于对待处理语句的检索，还可以基于待处理语句的语义特征进行文本、段落、文章的分类、检索等处理。

本申请还提供了一种可选实施例，通过推荐颜文字示例本申请实施例提供的方案，利用训练完成的语义识别模型得到待处理语句对应的语义特征，并获得颜文字的组合对应的候选分类结果，对比候选分类结果的语义信息与待处理语句的语义特征，将语义信息与该语义特征相匹配的候选分类结果作为待处理语句的分类结果，将符合该条件的颜文字组合作为待处理语句的处理结果，推荐给用户，待处理语句与其对应的处理结果之间的对照图如图7所示，图7采用表格的形式表征待处理语句与其对应的处理结果之间的关联关系，表格中的第一栏为待处理语句，表格中的第二栏为同一行中待处理语句对应的语义处理结果，表格中的第一行中，第一栏(由于该表格中只有两栏，因此，第一栏也可以称为左侧栏)对应的待处理语句为“she said yes”，经过处理后得到该待处理语句的语义信息是女士同意男士求婚，表格中同一行的第二栏对应的处理结果为表征女士同意男士求婚对应的颜文字，实现对待处理语句的真实语义的准确推荐。

通过如下实施例说明本申请提供的语句处理方法，在问答场景中，包括问答系统，问答系统包括客户端、服务器端，该问答系统的客户端可以通过机器人的形象展示，客户端可以是至少包括一个应用程序的客户端，提问用户可以通过客户端的用户界面发送提问语句，服务器端接收到该提问语句，利用本申请提供的语句处理方法，获得提问语句对应的语义特征，并将提问语句对应的语义特征发送至问答系统，问答系统获得提问语句的准确语义信息，基于该提问语句的语义特征，确定预先存储的与该语义特征对应的答案，并将该答案展示在提问用户的客户端的用户界面上，若客户端以机器人的形象展示，则该机器人能够实现智能问答的功能。

可以理解的是，本申请实施例提供的方案可以应用于各种不同的需要进行语句分析的场景中，如可以包括但不限于前文各可选实施例中描述的通过语义识别模型得到待处理语句的语义识别结果的应用场景，基于语义识别模型的语义特征提取模块提取得到的待处理语句的语义特征进行进一步分析处理的场景，如：问答场景、信息推荐场景、检索场景等。

为了更好地理解及说明本申请所提供的方案，下面结合一个具体的应用场景的示例对本申请实施例所提供的方案进行进一步说明。该示例中的应用场景为颜文字推荐，该场景中的待处理语句为文本信息，语义识别结果为推荐的颜文字，图8示出了该应用场景中的一种语句处理系统的结构示意图，如图中所示，该语句处理系统可以包括：客户端、服务器端。客户端可以作为待处理语句的输入端以及语义识别结果的接收端。客户端将获取到的待处理语句以及语义识别请求上传至服务器，服务器端接收并响应于该语义识别请求，对待处理语句执行如下操作：首先，将待处理语句划分为若干个词，并按照前述实施例提供的方法获得各词对应的词向量，然后，调用预先训练的语义识别模型，将各词向量输入到语义识别模型中，通过语义识别模型中的语义特征提取模块获得待处理语句对应的语义特征，通过语义识别模型中的语义识别模块获取候选语义识别结果，具体地，在本场景中，获得待处理语句的语义特征之后，获得所有候选颜文字对应的词向量，计算待处理语句对应的语义特征与所有候选颜文字对应的词向量之间的相似度，可以将相似度符合预设阈值的若干个候选语义识别结果作为待处理语句的语义识别结果，也可以将数值最大的相似度对应的候选语义识别结果作为待处理语句的语义识别结果。然后，服务器端将语义识别结果下发至发送该待处理语句的客户端，客户端接收该语义识别结果展示给用户，实现根据用户输入的待处理语句智能推荐颜文字的目的。

服务器端可以由具有处理功能的计算机设备来实现，客户端可以由移动终端、固定终端等来实现，移动终端与固定终端的表征形式多样，如：手机、智能机器人等，对此不做限定。基于与本申请实施例所提供的方法相同的原理，本申请实施例还提供了一种语句处理装置700，如图9所示，该装置可以包括：待处理语句获取模块710、词向量获取模块720、语义特征获取模块730、确定语义识别结果模块740，其中：

待处理语句获取模块710，用于获取待处理语句；

词向量获取模块720，用于获取待处理语句所包含各词的词向量；

语义特征获取模块730，用于将各词的词向量输入至语义识别模型中，通过语义识别模型得到待处理语句对应的语义特征；

确定语义识别结果模块740，用于通过语义识别模型确定语义特征和各候选语义识别结果之间的相似度，并基于各相似度和各候选语义识别结果，确定待处理语句对应的语义识别结果；其中，语义识别模型是基于训练数据集对初始神经网络模型进行训练得到的，该训练数据集中的每个训练样本包括一个样本语句中所包含的每个词的词向量、以及该样本语句对应的语义标签，语义标签表征样本语句的真实语义识别结果。

本申请提供的语句处理装置，根据待处理语句的语义特征和各候选语义识别结果之间的相似度，确定待处理语句对应的语义识别结果，相似度是待处理语句的语义特征与每一候选语义识别结果之间的距离，基于该距离能够获得不同候选语义识别结果之间的差异，能够挖掘待处理语句的深层含义，使得待识别语句对应的语义特征能够表达该语句的真实语义，有利于提高语义识别结果的准确性。

可选地，待处理语句为待分类语句，候选语义识别结果为候选分类结果时，确定语义识别结果模块740，还用于：

基于各相似度和各候选分类结果，将最大的所述相似度对应的候选分类结果确定为待处理语句对应的目标分类结果。

可选地，语义特征获取模块730，还用于：

基于各训练样本和所述训练损失值对神经网络模型进行迭代训练，直至满足训练结束条件，将训练结束时的神经网络模型，确定为所述语义识别模型。

可选地，语义特征获取模块730，还用于：

确定每个样本语句的预测语义特征与每一候选语义识别结果之间的相似度；

基于每个样本语句对应的各相似度以及语义标签确定神经网络模型对应的损失函数的值。

本申请实施例提供的语句处理装置，在模型训练过程中，利用样本语句对应的各相似度与语义标签确定神经网络模型对应的损失函数的值，语义标签表征样本语句的真实语义信息，基于样本语句对应的语义标签计算损失函数的值，有利于使得模型输出的预测结果与样本语句的真实语义信息不断接近，训练完成的语义识别模型生成的语义特征能够表征待处理语句的真实语义。

可选地，语义特征获取模块730，还用于：

对于每一样本语句，获取所述样本语句的语义标签对应的样本语义向量，基于所述样本语句对应的各相似度，确定所述样本语句对应于各候选语义识别结果的语义相似度向量；

对于每一样本语句，基于所述样本语句所对应的语义相似度向量和样本语义向量，计算所述样本语句对应的训练损失值；

基于各样本语句的训练损失值，计算得到神经网络模型对应的损失函数的值。

可选地，语义特征获取模块730，还用于：

可选地，待处理语句为提问语句，语句处理装置还包括提问模块，

提问模块具体用于：

获取各候选答案；

获得各所述候选答案分别对应的语义特征；

根据所述提问语句的语义特征与所述候选答案对应的语义特征之间的匹配度确定目标答案，并将所述目标答案展示给所述待处理语句对应的提问端。

可选地，待处理语句为用户输入的文本语句，语句处理装置还包括推荐模块，推荐模块具体用于：

获取各候选推荐信息；

获取各所述候选推荐信息分别对应的语义特征；

根据所述文本语句对应的语义特征与各候选推荐信息的语义特征之间的相似度确定与所述待处理语句对应的目标推荐信息；

将所述目标推荐信息发送给所述用户。

可选地，待处理语句为检索语句，语句处理装置还包括检索模块，检索模块具体用于：

获取各候选检索结果；

获取各候选检索结果对应的语义特征；

根据所述检索语句对应的语义特征与各候选检索结果对应的语义特征之间的相似度确定所述检索语句对应的目标检索结果；

将所述目标检索结果提供给所述待处理语句对应的检索请求端。

本申请实施例的语句处理装置可执行本申请实施例所提供的语句处理方法，其实现原理相类似，本申请各实施例中的语句处理装置中的各模块、单元所执行的动作是与本申请各实施例中的语句处理方法中的步骤相对应的，对于语句处理装置的各模块的详细功能描述具体可以参见前文中所示的对应的语句处理方法中的描述，此处不再赘述。

基于与本申请的实施例中所示的方法相同的原理，本申请的实施例中还提供了一种电子设备，该电子设备可以包括但不限于：处理器和存储器；存储器，用于存储计算机程序；处理器，用于通过调用计算机程序执行本申请任一可选实施例所示的语句处理方法。与现有技术相比，利用语义识别模型获得待处理语句对应的语义特征，根据待处理语句的语义特征和各候选语义识别结果之间的相似度，确定待处理语句对应的语义识别结果，相似度是待处理语句的语义特征与每一候选语义识别结果之间的距离，基于该距离能够获得不同候选语义识别结果之间的差异，能够挖掘待处理语句的深层含义，使得待识别语句对应的语义特征能够表达该语句的真实语义，有利于提高语义识别结果的准确性。

在一个可选实施例中提供了一种电子设备，如图10所示，图10所示的电子设备4000可以为服务器，包括：处理器4001和存储器4003。其中，处理器4001和存储器4003相连，如通过总线4002相连。可选地，电子设备4000还可以包括收发器4004。需要说明的是，实际应用中收发器4004不限于一个，该电子设备4000的结构并不构成对本申请实施例的限定。

处理器4001可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线4002可包括一通路，在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图10中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器4003用于存储执行本申请方案的应用程序代码，并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码，以实现前述方法实施例所示的内容。

其中，电子设备包括但不限于：移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图10示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

本申请提供的服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

人工智能云服务，一般也被称作是AIaaS(AI as a Service，中文为“AI即服务”)。这是目前主流的一种人工智能平台的服务方式，具体来说AIaaS平台会把几类常见的AI服务进行拆分，并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城：所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务，部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。本申请中，可以利用平台提供的AI框架和AI基础设施来实现本申请提供的语句处理方法。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

需要说明的是，本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备执行上述实施例所示的方法。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的语句处理方法。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块的名称在某种情况下并不构成对该模块本身的限定，例如，词向量获取模块还可以被描述为“获取待处理语句所包含各词的词向量模块”。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种语句处理方法，其特征在于，包括：

获取待处理语句；

获取待处理语句所包含各词的词向量；

将所述各词的词向量输入至语义特征提取模型中，通过所述语义识别模型得到所述待处理语句对应的语义特征；

通过所述语义识别模型确定所述语义特征和各候选语义识别结果之间的相似度，并基于各所述相似度和各所述候选语义识别结果，确定所述待处理语句对应的语义识别结果；

其中，所述语义识别模型是基于训练数据集对初始神经网络模型进行训练得到的，所述训练数据集中的每个训练样本包括一个样本语句中所包含的每个词的词向量、以及该样本语句对应的语义标签，所述语义标签表征所述样本语句的真实语义识别结果。

2.根据权利要求1所述的方法，其特征在于，所述待处理语句为待分类语句，所述候选语义识别结果为候选分类结果，所述基于各所述相似度和各所述候选语义识别结果，确定所述待处理语句对应的语义识别结果，包括：

基于各所述相似度和各候选分类结果，将最大的所述相似度对应的候选分类结果确定为所述待处理语句对应的目标分类结果。

3.根据权利要求1所述的方法，其特征在于，所述语义识别模型是通过以下方式训练得到的：

对于每个所述训练样本，将该训练样本的样本语句中所包含的各词的词向量输入至初始神经网络模型中，得到所述样本语句的预测语义特征；

基于各所述训练样本和所述训练损失值对神经网络模型进行迭代训练，直至满足训练结束条件，将训练结束时的神经网络模型，确定为所述语义识别模型。

4.根据权利要求3所述的方法，其特征在于，所述基于各样本语句的预测语义特征和语义标签，确定神经网络模型对应的训练损失值，包括：

确定每个所述样本语句的预测语义特征与每一候选语义识别结果之间的相似度；

基于每个所述样本语句对应的各相似度以及语义标签确定神经网络模型对应的损失函数的值。

5.根据权利要求4所述的方法，其特征在于，所述基于每个所述样本语句对应的各相似度以及语义标签确定神经网络模型对应的损失函数的值，包括：

对于每一所述样本语句，获取所述样本语句的语义标签对应的样本语义向量，基于所述样本语句对应的各相似度，确定所述样本语句对应于各候选语义识别结果的语义相似度向量；

对于每一所述样本语句，基于所述样本语句所对应的语义相似度向量和样本语义向量，计算所述样本语句对应的训练损失值；

基于各所述样本语句的训练损失值，计算得到神经网络模型对应的损失函数的值。

6.根据权利要求5所述的方法，其特征在于，对于每一所述样本语句，所述基于所述样本语句对应的各相似度，确定所述样本语句对应于各候选语义识别结果的语义相似度向量，包括：

将所述样本语句所对应的各相似度进行归一化处理，得到所述样本语句对应于各候选语义识别结果的概率分布，将所述概率分布作为所述语义相似度向量。

7.根据权利要求3所述的方法，其特征在于，所述得到所述样本语句的预测语义特征，包括：

对于每一所述样本语句，根据所述样本语句所包含的各词在所述样本语句中的语序，将所述样本语句的各词的词向量输入至神经网络模型，得到所述样本语句的预测语义特征。

8.根据权利要求1所述的方法，其特征在于，所述待处理语句为提问语句，所述方法还包括：

获取各候选答案；

获得各所述候选答案分别对应的语义特征；

9.根据权利要求1所述的方法，其特征在于，所述待处理语句为用户输入的文本语句，所述方法还包括：

获取各候选推荐信息；

获取各所述候选推荐信息分别对应的语义特征；

将所述目标推荐信息发送给所述用户。

10.根据权利要求1所述的方法，其特征在于，所述待处理语句为检索语句，所述方法，还包括：

获取各候选检索结果；

获取各候选检索结果对应的语义特征；

11.一种语句处理装置，其特征在于，包括：

待处理语句获取模块，用于获取待处理语句；

语义特征获取模块，用于将所述各词的词向量输入至语义识别模型中，通过所述语义识别模型得到所述待处理语句对应的语义特征；

确定语义识别结果模块，用于通过所述语义识别模型确定所述语义特征和各候选语义识别结果之间的相似度，并基于各所述相似度和各所述候选语义识别结果，确定所述待处理语句对应的语义识别结果；

其中，所述语义识别模型是基于训练数据集对初始神经网络模型进行训练得到的，该训练数据集中的每个训练样本包括一个样本语句中所包含的每个词的词向量、以及该样本语句对应的语义标签，所述语义标签表征样本语句的真实语义识别结果。

12.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-10任一项所述的语句处理方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现权利要求1-10任一项所述的语句处理方法。