CN110598200A

CN110598200A - 语义识别方法及装置

Info

Publication number: CN110598200A
Application number: CN201810607163.4A
Authority: CN
Inventors: 林义明; 郭辉; 刘建林; 戴祥鹰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-06-13
Filing date: 2018-06-13
Publication date: 2019-12-20
Anticipated expiration: 2038-06-13
Also published as: CN110598200B

Abstract

本发明实施例提供一种语义识别方法及装置。该方法包括：获取待处理的词语片段；将待处理的词语片段与所有语义类别簇中的词语片段进行字符串匹配，语义类别簇包括数个同一类别词语片段；若匹配成功，则将待处理的词语片段识别为与之匹配的语义类别簇的标识词语片段，标识词语片段用于标注所属语义类别簇的中心语义；若匹配失败，则根据预先训练的文本分类模型，确定待处理的词语片段所属的语义类别簇，并将待处理的词语片段识别为所属的语义类别簇的标识词语片段。本发明实施例的方法，通过精确的字符串匹配和模糊分类相结合，能够准确识别意思相同但形式不同的词语片段。

Description

语义识别方法及装置

技术领域

本发明实施例涉及计算机文本信息处理技术领域，尤其涉及一种语义识别方法及装置。

背景技术

随着人工智能的不断发展，各个领域中都出现了基于文字的智能系统，如购物网站的智能客服系统，医疗领域的智能问诊系统等。由于汉语的博大精深，机器要准确理解文字的语义还是比较困难的。尤其是汉语里有不少同义词，而相同意思的词语片段形式更多，虽然人们能够比较容易地理解这些意思相同但形式不同的词语片段，但是对于机器来讲却是十分困难的。

为了便于机器理解相同意思的不同词语片段，使智能系统真正做到智能化，需要对词语片段进行归一化。虽然已经有了通用的同义词词典，但是无法满足各个领域内词语片段归一化的需求。首先，不同领域中所使用的词语差异较大，与该领域内的业务密切相关，通用的同义词词典在领域词语覆盖上无法满足需求；其次，现有技术中使用通用的同义词词典仅能对完全精确匹配的词进行归一化，不能对形式多变的词语片段进行归一化。领域词语片段归一化是一项基础功能，对构建各个领域的基于文字的智能系统都很有帮助。

综上所述，现有技术中对于意思相同但形式不同的词语片段无法准确识别。

发明内容

本发明实施例提供一种语义识别方法及装置，用以解决现有技术中对于意思相同但形式不同的词语片段无法准确识别的问题。

第一方面，本发明实施例提供一种语义识别方法，包括：

获取待处理的词语片段；

将待处理的词语片段与所有语义类别簇中的词语片段进行字符串匹配，语义类别簇包括数个同一类别词语片段；

若匹配成功，则将待处理的词语片段识别为与之匹配的语义类别簇的标识词语片段，标识词语片段用于标注所属语义类别簇的中心语义；

若匹配失败，则根据预先训练的文本分类模型，确定待处理的词语片段所属的语义类别簇，并将待处理的词语片段识别为所属的语义类别簇的标识词语片段。

在一种可能的实现方式中，在根据预先训练的文本分类模型，确定待处理的词语片段所属的语义类别簇之后，方法还包括：

根据所属的语义类别簇的基本校验集，对待处理的词语片段进行校验。

在一种可能的实现方式中，语义类别簇的标识词语片段为预先指定的该语义类别簇中的词语片段，或者，为该语义类别簇中长度最短的词语片段。

在一种可能的实现方式中，将待处理的词语片段与所有语义类别簇中的词语片段进行字符串匹配之前，还包括：

获取大量各类别的词语片段；

根据聚类算法对各类别的词语片段进行聚类，得到不同类别的语义簇。

在一种可能的实现方式中，根据聚类算法对各类别的词语片段进行聚类包括：

根据同义词替换和杰卡德相似度相结合的方法，确定任意两个词语片段之间的距离；

根据距离对词语片段进行聚类。

在一种可能的实现方式中，根据同义词替换和杰卡德相似度相结合的方法，确定任意两个词语片段之间的距离包括：

对两个词语片段进行拆分并去重，得到第一集合和第二集合；

应用该领域的同义词数据库对第一集合和第二集合分别进行同义词替换，得到第三集合和第四集合；

计算第三集合和第四集合的杰卡德相似度；

根据杰卡德相似度确定两个词语片段之间的距离。

在一种可能的实现方式中，在根据预先训练的文本分类模型，确定待处理的词语片段所属的语义类别簇之前，所述方法还包括：

根据所有的语义类别簇对文本分类模型进行训练；

根据所有的语义类别簇对文本分类模型进行训练包括：

为每一个语义类别簇设置类别标签；

以语义类别簇中的词语片段作为输入，以该语义类别簇的类别标签作为期望输出，对文本分类模型进行训练。

第二方面，本发明实施例提供一种语义识别装置，包括：

获取模块，用于获取待处理的词语片段；

匹配模块，用于将待处理的词语片段与所有语义类别簇中的词语片段进行字符串匹配，语义类别簇包括数个同一类别词语片段；

第一识别模块，用于若匹配成功，则将待处理的词语片段识别为与之匹配的语义类别簇的标识词语片段，标识词语片段用于标注所属语义类别簇的中心语义；

第二识别模块，用于若匹配失败，则根据预先训练的文本分类模型，确定待处理的词语片段所属的语义类别簇，并将待处理的词语片段识别为所属的语义类别簇的标识词语片段。

第三方面，本发明实施例提供一种语义识别设备，包括：

存储器；

处理器；以及

计算机程序；

其中，计算机程序存储在存储器中，并被配置为由处理器执行以实现如第一方面任一项所述的方法。

第四方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行以实现如第一方面任一项所述的方法。

本发明实施例提供的语义识别方法及装置，通过将待处理的词语片段识别为所属语义类别簇的标识词语片段，实现了对意思相同但形式不同的词语片段的准确识别，通过将字符串匹配与文本分类模型相结合，不仅提高了语义识别的速度，而且提高了语义识别的准确率。综上所述，本发明实施例提供的语义识别方法及装置，能够快速、准确的识别意思相同但形式不同的词语片段。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1为本发明提供的语义识别方法一实施例的流程图；

图2为本发明提供的语义识别方法又一实施例的流程图；

图3为本发明提供的语义识别方法中确定语义类别簇一实施例的流程图；

图4为本发明提供的语义识别装置一实施例的结构示意图；

图5为本发明提供的语义识别设备一实施例的结构示意图。

通过上述附图，已示出本发明明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围，而是通过参考特定实施例为本领域技术人员说明本发明的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

本发明的说明书和权利要求书中的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明中的“第一”和“第二”只起标识作用，而不能理解为指示或暗示顺序关系、相对重要性或者隐含指明所指示的技术特征的数量。“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本发明的说明书中通篇提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

图1为本发明提供的语义识别方法一实施例的流程图。如图1所示，本实施例提供的方法可以包括：

步骤S101、获取待处理的词语片段。

本发明实施例中的词语片段是长度介于词语和句子之间，由数个词语组成的短语。根据本实施例提供的语义识别方法应用的领域的不同，待处理的词语片段来源有所不同。例如，当本实施例提供的语义识别方法用于医疗领域时，如用于医疗智能问诊系统，待处理的词语片段可以来自患者对自身病情症状的描述；当本实施例提供的语义识别方法用于电子商务领域时，如用于购物网站的智能导购系统，待处理的词语片段可以来自顾客对商品的咨询；当本实施例提供的语义识别方法用于智能家电领域时，待处理的词语片段可以来自用户对产品的控制命令。

通过对输入文件进行文本分析，可以获取到待处理的词语片段，本实施例对于具体的实现方式不做限制。如患者输入的症状描述为“我昨天晚上吃了火锅，今天早上起来肚子不舒服”，则获取到的待处理的词语片段为“肚子不舒服”；如顾客输入的对商品的咨询为“这个牛奶的生产日期是几月几日”，则获取到的待处理的词语片段可以为“几月几日”。

步骤S102、将待处理的词语片段与所有语义类别簇中的词语片段进行字符串匹配，语义类别簇包括数个同一类别词语片段。

一个语义类别簇包括数个同一类别词语片段，例如：{“腹痛”、“肚子疼”、“肚子痛”、“肚子不舒服”}、{“什么时间”、“几月几日”、“哪天”、“什么时候”}等。

将步骤S101中获取到的待处理的词语片段与所有语义类别簇中的词语片段进行字符串匹配。本实施例对于语义类别簇的个数不做限制，通常来讲，语义类别簇的数量越多，覆盖面越广，语义识别的精确率越高。

进一步的，语义类别簇还可以根据应用领域进行设置。例如，用于医疗智能问诊系统的语义簇可以包括对于疾病症状的描述片段，用于电子商务领域的语义簇可以覆盖对于商品的咨询用语。

步骤S103、若匹配成功，则将待处理的词语片段识别为与之匹配的语义类别簇的标识词语片段，标识词语片段用于标注所属语义类别簇的中心语义。

一个语义类别簇的标识词语片段用于标注该语义类别簇的中心语义，例如语义类别簇{“腹痛”、“肚子疼”、“肚子痛”、“肚子不舒服”}的标识词语片段可以为“腹痛”，语义类别簇{“什么时间”、“几月几日”、“哪天”、“什么时候”}的标识词语片段可以为“什么时间”。语义类别簇的标识词语片段可以为预先指定的该语义类别簇中的词语片段，或者，可以为该语义类别簇中长度最短的词语片段。若采用长度最短的词语片段作为语义类别簇的标识词语片段时，该语义类别簇中包括多个长度最短的词语片段时，可以选取排序最靠前的词语片段做为该语义类别簇的标识词语片段，本实施例对于语义类别簇中词语片段的排序方式不做限制。例如，对于语义类别簇{“头疼”、“头痛”、“偏头痛”、“全头痛”、“头灼痛”、“头跳痛”、“烈头痛”}，其中包括“头疼”和“头痛”两个长度同为2的词语片段，可以选取自然排序靠前的“头疼”作为该语义类别簇的标识词语片段。

若待处理的词语片段与语义类别簇中的词语片段匹配成功，即存在一个语义类别簇包括了待处理的词语片段，则将待处理的词语片段识别为与之匹配的语义类别簇的标识词语片段。举例来说，若待处理的词语片段为“肚子不舒服”，经过字符串匹配，与语义类别簇{“腹痛”、“肚子疼”、“肚子痛”、“肚子不舒服”}匹配成功，则将“肚子不舒服”识别为该语义类别簇的标识词语片段“腹痛”；若待处理的词语片段为“几月几日”，经过字符串匹配，与语义类别簇{“什么时间”、“几月几日”、“哪天”、“什么时候”}匹配成功，则将“几月几日”识别为该语义类别簇的标识词语片段“什么时间”。

通过标识词语片段，可以将一个语义类别簇所包括的多个意思相同或者相近的词语片段归一化为同一种形式，为机器识别意思相同但形式不同的词语片段奠定了基础。

步骤S104、若匹配失败，则根据预先训练的文本分类模型，确定待处理的词语片段所属的语义类别簇，并将待处理的词语片段识别为所属的语义类别簇的标识词语片段。

若字符串匹配失败，即不存在一个语义类别簇包括待处理的词语片段，则可以根据预先训练的文本分类模型，确定待处理的词语片段所属的语义类别簇。预先训练的文本分类模型，以待处理的词语片段作为输入，输出该词语片段属于各个语义类别簇的概率。假如有1000个语义类别簇，则文本分类模型将输出1000个概率值，这1000个概率值的和为1，可以将概率值最高的语义类别簇作为待处理的词语片段所属的语义类别簇。

进一步的，为了提高语义识别的准确率，可以预先设置一个概率阈值，只有当文本分类模型输出的最高概率值高于该概率阈值时，才将最高概率值对应的语义类别簇作为待处理的词语片段所属的语义类别簇。

本实施例对于文本分类模型的具体实现方式不做限制。但是考虑到本实施例提供的语义识别方法的应用场景，为了提高用户体验，可以选取处理速度快、耗时短的文本分类模型。例如，可以采用fasttext文本分类模型进行分类。

本实施例提供的语义识别方法，通过将待处理的词语片段识别为所属语义类别簇的标识词语片段，实现了对意思相同但形式不同的词语片段的准确识别，通过将字符串匹配与文本分类模型相结合，不仅提高了语义识别的速度，而且提高了语义识别的准确率。综上所述，本实施例提供的语义识别方法，能够快速、准确的识别意思相同但形式不同的词语片段。

本实施例提供的语义识别方法可以应用于各个领域，通过快速、准确的识别语义，可以提升用户体验，创造经济效益。例如，将本实施例提供的语义识别方法用于医疗智能问诊系统时，可以准确识别各个患者对于病症的描述，做出准确的判断，以便提供准确的建议或者为患者安排与其病症相匹配的医生专家，不仅能够提高患者的使用体验，而且能够节约医疗资源。将本实施例提供的语义识别方法用于购物网站的智能客服系统时，可以准确识别各个顾客的咨询，以便及时做出准确的响应，不仅能够提高顾客的使用体验，而且能够节约医疗资源。

为了进一步提高语义识别的准确率，在上述实施例的基础上，本实施例提供的语义识别方法，在根据预先训练的文本分类模型，确定待处理的词语片段所属的语义类别簇之后，还可以包括：根据所属的语义类别簇的基本校验集，对待处理的词语片段进行校验。

一个语义类别簇的基本校验集，是根据该语义类别簇所包括的所有词语片段确定的，能够体现该语义类别簇的中心语义。一个语义类别簇的基本校验集可以是由单个字或者词语构成。例如，语义类别簇{“头疼”、“头痛”、“偏头痛”、“全头痛”、“头灼痛”、“头跳痛”、“烈头痛”、“剧烈的头痛”}的基本校验集可以设置为“头”。

在根据预先训练的文本分类模型，确定待处理的词语片段所属的语义类别簇之后，根据所属的语义类别簇的基本校验集，对待处理的词语片段进行校验。在一种可能的实现方式中，对待处理的词语片段进行校验可以包括：若待处理的词语片段包括基本校验集中的字或者词语时，则检验通过；若待处理的词语片段不包括基本校验集中的字或者词语时，则检验失败。仅当校验通过时，才将待处理的词语片段识别为所属语义类别簇的标识词语片段。对于校验失败的情况，可能是由于语义类别簇的覆盖范围不能满足需求，可以通过增加语义类别簇的方式改善。

举例来说，若通过文本分类模型确定的待处理的词语片段“剧烈的腹痛”所属的语义类别簇为{“头疼”、“头痛”、“偏头痛”、“全头痛”、“头灼痛”、“头跳痛”、“烈头痛”、“剧烈的头痛”}，然而待处理的词语片段“剧烈的腹痛”中并不包括该语义类别簇的基本校验集中的“头”字，检验失败，避免了将待处理的词语片段“剧烈的腹痛”错误的识别为“头疼”。

本实施例提供的语义识别方法，通过在文本分类模型确定待处理的词语片段所属的语义类别簇之后，对待处理词语片段采用所属语义类别簇的基本校验集进行进一步的校验，避免了对待处理的词语片段的错误识别，进一步提高了语义识别的准确率。

在上述实施例的基础上，本实施例对上述实施例进行结合。图2为本发明提供的语义识别方法又一实施例的流程图。如图2所示，本实施例提供的语义识别方法可以包括：

步骤S201、获取待处理的词语片段。

步骤S202、将待处理的词语片段与所有语义类别簇中的词语片段进行字符串匹配。

步骤S203、判断是否匹配成功。若匹配成功，则执行步骤S204；若匹配失败，则执行步骤S205。

步骤S204、则将待处理的词语片段识别为与之匹配的语义类别簇的标识词语片段。结束对待处理的词语片段的语义识别。

步骤S205、则根据预先训练的文本分类模型，确定待处理的词语片段所属的语义类别簇。

步骤S206、根据待处理的词语片段所属的语义类别簇的基本校验集，对待处理的词语片段进行校验。

步骤S207、判断是否检验成功。若校验成功，则继续执行步骤S208；若校验失败，则结束。

步骤S208、将所述待处理的词语片段识别为所属的语义类别簇的标识词语片段。

本实施例提供的语义识别方法，通过将待处理的词语片段识别为所属语义类别簇的标识词语片段，实现了对意思相同但形式不同的词语片段的准确识别；通过将字符串匹配与文本分类模型相结合，不仅提高了语义识别的速度，而且提高了语义识别的准确率；通过在文本分类模型确定待处理的词语片段所属的语义类别簇之后，对待处理词语片段采用所属语义类别簇的基本校验集进行进一步的校验，避免了对待处理的词语片段的错误识别，进一步提高了语义识别的准确率。

下面采用一个具体的实施例，针对上述实施例中语义类别簇的确定进行详细说明。

在一种可能的实现方式中，将待处理的词语片段与所有语义类别簇中的词语片段进行字符串匹配之前，还可以包括：

获取大量各类别的词语片段。

可以通过人工搜集的方式获取各个类别的词语片段，也可以通过网络爬虫去爬取各个类别的词语片段，本实施例对于获取词语片段的具体方式不做限制。

为了使确定的语义类别簇的覆盖范围满足需求，使待处理的词语片段能够被准确的识别，本实施例中可以获取尽可能多的词语片段。

进一步的，为了满足语义识别方法所应用的领域需求，还可以根据方法所应用的领域，确定需要获取的词语片段。例如，当用于医疗领域时，可以通过合作、抓取的方式获取各大权威垂类站点中的关于疾病症状描述的词语片段数据，还可以通过人工标注或者文本分析的方式在问诊语料中召回大量的症状词语片段。收集的症状越全越好，覆盖的疾病种类越多越好。

聚类的目的是把在某个维度上意思相同的词语片段聚集为一个语义类别簇。本实施例对于所采用的聚类算法不做特殊限制，可以采用现有的文本聚类算法进行。例如，可以采用具有噪声的基于密度的空间聚类方法(Density-Based Spatial Clustering ofApplications with Noise，简称：DBSCAN)。

在一种可能的实现方式中，根据聚类算法对各类别的词语片段进行聚类可以包括：

根据同义词替换和杰卡德相似度相结合的方法，确定任意两个词语片段之间的距离。

需要说明的是，本实施例中的同义词并不一定指通用的同义词词典中的同义词，还可以是根据应用领域所确定的具有相应领域特色的同义词。例如，在医疗领域中，可以认为{“腹胀”、“胀气”、“肚子胀”为一组同义词}。

根据距离对词语片段进行聚类。

当两个词语片段之间的距离满足预设条件时，可以将这两个词语片段划分至同一语义类别簇。

在一种可能的实现方式中，根据同义词替换和杰卡德相似度相结合的方法，确定任意两个词语片段之间的距离，可以包括：

对两个词语片段进行拆分并去重，得到第一集合和第二集合。

可以采用以下方法进行拆分：(1)通过标点符号拆分；(2)通过特征连接词拆分，如“和”“并发”“或”等；(3)通过字符串包含关系进行拆分。然后去掉两个词语片段中的相同部分。

应用该领域的同义词数据库对第一集合和第二集合分别进行同义词替换，得到第三集合和第四集合。

计算第三集合和第四集合的杰卡德相似度。需要说明的是，在计算杰卡德相似度的时候，还可以考虑具体应用领域的，以提高准确性。例如，在医疗领域，在计算两个疾病症状词语片段的杰卡德相似度时，还可以通过人体部位词和常见否定词对疾病症状词语片段进行进一步限定。比如可以要求如果其中一个疾病症状词语片段含有人体部位词的话，另外一个也需要含有相同含义的人体部位词；可以要求如果其中一个疾病症状词语片段含有否定词的话，另外一个也需要含有否定词。

根据杰卡德相似度确定两个词语片段之间的距离。例如，两个词语片段之间的距离可以确定为1减去杰卡德相似度。

图3为本发明提供的语义识别方法中确定语义类别簇一实施例的流程图。如图3所示，本实施例提供的确定语义类别簇的方法可以包括：

步骤S301、获取大量各类别的词语片段。

步骤S302、对任意两个词语片段进行拆分并去重，得到第一集合和第二集合。

步骤S303、应用该领域的同义词数据库对第一集合和第二集合分别进行同义词替换，得到第三集合和第四集合。

步骤S304、计算第三集合和第四集合的杰卡德相似度，根据杰卡德相似度确定两个词语片段之间的距离。

步骤S305、根据获取到的大量各类别的词语片段中两两之间的距离对词语片段进行聚类，得到不同类别的语义簇。

本实施例提供的确定语义类别簇的方法，通过将同义词替换与杰卡德相似度相结合，对获取到的大量各类别的词语片段进行聚类，使得属于同一语义类别簇的词语片段具有同一个中心语义，为词语片段的准确识别创造了必要条件。

在上述任一实施例的基础上，本实施例针对文本分类模型的训练进行详细说明。在一种可能的实现方式中，在根据预先训练的文本分类模型，确定待处理的词语片段所属的语义类别簇之前，所述方法还可以包括：

根据所有的语义类别簇对文本分类模型进行训练。可选的，可以为每一个语义类别簇设置类别标签，以语义类别簇中的词语片段作为输入，以该语义类别簇的类别标签作为期望输出，对文本分类模型进行训练。

本发明实施例还提供一种语义识别装置，请参见图4所示，本发明实施例仅以图4为例进行说明，并不表示本发明仅限于此。图4为本发明提供的语义识别装置一实施例的结构示意图。如图4所示，本实施例提供的语义识别装置40包括：获取模块401、匹配模块402、第一识别模块403和第二识别模块404。

获取模块401，用于获取待处理的词语片段。

匹配模块402，用于将待处理的词语片段与所有语义类别簇中的词语片段进行字符串匹配，语义类别簇包括数个同一类别词语片段。

第一识别模块403，用于若匹配成功，则将待处理的词语片段识别为与之匹配的语义类别簇的标识词语片段，标识词语片段用于标注所属语义类别簇的中心语义。

第二识别模块404，用于若匹配失败，则根据预先训练的文本分类模型，确定待处理的词语片段所属的语义类别簇，并将待处理的词语片段识别为所属的语义类别簇的标识词语片段。

本实施例的装置，可以用于执行图1所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

在一种可能的实现方式中，语义识别装置还可以包括校验模块，用于在根据预先训练的文本分类模型，确定待处理的词语片段所属的语义类别簇之后，根据所属的语义类别簇的基本校验集，对待处理的词语片段进行校验。

在一种可能的实现方式中，语义识别装置还可以包括聚类模块，用于在将待处理的词语片段与所有语义类别簇中的词语片段进行字符串匹配之前，获取大量各类别的词语片段，根据聚类算法对各类别的词语片段进行聚类，得到不同类别的语义簇。

在一种可能的实现方式中，上述聚类模块具体可以用于，

首先，根据同义词替换和杰卡德相似度相结合的方法，确定任意两个词语片段之间的距离。具体可以包括：对两个词语片段进行拆分并去重，得到第一集合和第二集合；应用该领域的同义词数据库对第一集合和第二集合分别进行同义词替换，得到第三集合和第四集合；计算第三集合和第四集合的杰卡德相似度；根据杰卡德相似度确定两个词语片段之间的距离。

然后，根据距离对词语片段进行聚类。

在一种可能的实现方式中，语义识别装置还可以包括训练模块，用于在根据预先训练的文本分类模型，确定待处理的词语片段所属的语义类别簇之前，根据所有的语义类别簇对文本分类模型进行训练。

在一种可能的实现方式中，上述训练模块具体可以用于，为每一个语义类别簇设置类别标签，以语义类别簇中的词语片段作为输入，以该语义类别簇的类别标签作为期望输出，对文本分类模型进行训练。

本发明实施例还提供一种语义识别设备，请参见图5所示，本发明实施例仅以图5为例进行说明，并不表示本发明仅限于此。图5为本发明提供的语义识别设备一实施例的结构示意图。如图5所示，本实施例提供的语义识别设备50包括：存储器501、处理器502和总线503。其中，总线503用于实现各元件之间的连接。

存储器501中存储有计算机程序，计算机程序被处理器502执行时可以实现上述任一方法实施例提供的语义识别方法的技术方案。

其中，存储器501和处理器502之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可以通过一条或者多条通信总线或信号线实现电性连接，如可以通过总线503连接。存储器501中存储有实现语义识别方法的技术方案的计算机程序，包括至少一个可以软件或固件的形式存储于存储器501中的软件功能模块，处理器502通过运行存储在存储器501内的软件程序以及模块，从而执行各种功能应用以及数据处理。

存储器501可以是，但不限于，随机存取存储器(Random Access Memory，简称：RAM)，只读存储器(Read Only Memory，简称：ROM)，可编程只读存储器(ProgrammableRead-Only Memory，简称：PROM)，可擦除只读存储器(Erasable Programmable Read-OnlyMemory，简称：EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，简称：EEPROM)等。其中，存储器501用于存储程序，处理器502在接收到执行指令后，执行程序。进一步地，上述存储器501内的软件程序以及模块还可包括操作系统，其可包括各种用于管理系统任务(例如内存管理、存储设备控制、电源管理等)的软件组件和/或驱动，并可与各种硬件或软件组件相互通信，从而提供其他软件组件的运行环境。

处理器502可以是一种集成电路芯片，具有信号的处理能力。上述的处理器502可以是通用处理器，包括中央处理器(Central Processing Unit，简称：CPU)、网络处理器(Network Processor，简称：NP)等。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。可以理解，图5的结构仅为示意，还可以包括比图5中所示更多或者更少的组件，或者具有与图5所示不同的配置。图5中所示的各组件可以采用硬件和/或软件实现。

需要说明的是，本实施例提供的语义识别设备包括但不限于以下中的至少一个：用户侧设备、网络侧设备。用户侧设备包括但不限于计算机、智能手机、平板电脑、数字广播终端、消息收发设备、游戏控制台、个人数字助理等。网络侧设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算的由大量计算机或网络服务器构成的云，其中，云计算是分布式计算的一种，由一群松散耦合的计算机组成的一个超级虚拟计算机。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时可以实现上述任一方法实施例提供的语义识别方法。本实施例中的计算机可读存储介质可以是计算机能够存取的任何可用介质，或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备，可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如SSD)等。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种语义识别方法，其特征在于，包括：

获取待处理的词语片段；

将所述待处理的词语片段与所有语义类别簇中的词语片段进行字符串匹配，所述语义类别簇包括数个同一类别词语片段；

若匹配成功，则将所述待处理的词语片段识别为与之匹配的语义类别簇的标识词语片段，所述标识词语片段用于标注所属语义类别簇的中心语义；

若匹配失败，则根据预先训练的文本分类模型，确定所述待处理的词语片段所属的语义类别簇，并将所述待处理的词语片段识别为所属的语义类别簇的标识词语片段。

2.根据权利要求1所述的方法，其特征在于，在所述根据预先训练的文本分类模型，确定所述待处理的词语片段所属的语义类别簇之后，所述方法还包括：

根据所述所属的语义类别簇的基本校验集，对所述待处理的词语片段进行校验。

3.根据权利要求1所述的方法，其特征在于，所述语义类别簇的标识词语片段为预先指定的该语义类别簇中的词语片段，或者，为该语义类别簇中长度最短的词语片段。

4.根据权利要求1所述的方法，其特征在于，所述将所述待处理的词语片段与所有语义类别簇中的词语片段进行字符串匹配之前，还包括：

获取大量各类别的词语片段；

根据聚类算法对所述各类别的词语片段进行聚类，得到不同类别的语义簇。

5.根据权利要求4所述的方法，其特征在于，所述根据聚类算法对所述各类别的词语片段进行聚类包括：

根据所述距离对所述词语片段进行聚类。

6.根据权利要求5所述的方法，其特征在于，所述根据同义词替换和杰卡德相似度相结合的方法，确定任意两个词语片段之间的距离包括：

对所述两个词语片段进行拆分并去重，得到第一集合和第二集合；

应用该领域的同义词数据库对所述第一集合和所述第二集合分别进行同义词替换，得到第三集合和第四集合；

计算所述第三集合和所述第四集合的杰卡德相似度；

根据所述杰卡德相似度确定所述两个词语片段之间的距离。

7.根据权利要求1-6任一项所述的方法，其特征在于，在根据预先训练的文本分类模型，确定所述待处理的词语片段所属的语义类别簇之前，所述方法还包括：

根据所有的语义类别簇对所述文本分类模型进行训练；

所述根据所有的语义类别簇对所述文本分类模型进行训练包括：

为每一个语义类别簇设置类别标签；

以语义类别簇中的词语片段作为输入，以该语义类别簇的类别标签作为期望输出，对所述文本分类模型进行训练。

8.一种语义识别装置，其特征在于，包括：

获取模块，用于获取待处理的词语片段；

匹配模块，用于将所述待处理的词语片段与所有语义类别簇中的词语片段进行字符串匹配，所述语义类别簇包括数个同一类别词语片段；

第一识别模块，用于若匹配成功，则将所述待处理的词语片段识别为与之匹配的语义类别簇的标识词语片段，所述标识词语片段用于标注所属语义类别簇的中心语义；

第二识别模块，用于若匹配失败，则根据预先训练的文本分类模型，确定所述待处理的词语片段所属的语义类别簇，并将所述待处理的词语片段识别为所属的语义类别簇的标识词语片段。

9.一种语义识别设备，其特征在于，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行以实现如权利要求1-7任一项所述的方法。