CN107665188A

CN107665188A - 一种语义理解方法及装置

Info

Publication number: CN107665188A
Application number: CN201610602149.6A
Authority: CN
Inventors: 梅林海; 陈志刚; 潘青华
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2016-07-27
Filing date: 2016-07-27
Publication date: 2018-02-06
Anticipated expiration: 2036-07-27
Also published as: CN107665188B

Abstract

本发明提供了一种语义理解方法及装置，其中方法包括：获取待处理文本数据；对所述文本数据进行知识点标注，以生成多条语义理解候选路径；提取每条语义理解候选路径的路径特征；根据所述路径特征对所述多条语义理解候选路径进行过滤，以得到一条或多条语义理解路径；根据过滤后得到的一条或多条语义理解路径对所述文本数据进行语义理解，以得到所述文本数据的语义理解结果。本发明提出了语义理解“候选路径”的概念，在生成最后的语义理解之前，先通过知识点标注得到众多候选路径，然后提取每条候选路径的路径特征，再根据路径特征对众多候选路径进行过滤，从而大大减少了最后进行语义理解时所面对的路径的数量，进而提高了语义理解的效率。

Description

一种语义理解方法及装置

技术领域

本发明涉及自然语言理解领域，尤其涉及一种语义理解方法及装置。

背景技术

随着信息技术的迅速发展，人们面对的各种文本信息成爆炸式增长，如何快速有效的分析出文本信息所包含的意思(也即语义)，成为一种迫切的需求，尤其是对于人机交互的场景。在人机交互的场景下，理解语义是做出正确应答的基础，所以如何能够快速分析出语义是需要重点关注的研究方向。

举例来讲，人机交互可以是用户与智能家居或智能穿戴设备等智能终端的交互，例如用户与智能终端交互时，说出“我想听邓丽君的歌曲”，智能终端通过语音识别技术将用户语音数据识别为文本数据后，需要快速对该文本数据进行语义理解，然后才能做出正确的响应。

当对一句话进行语义理解时，通常会得到多种可能的语义理解(也即一句话可能会被理解为多种意思)，故需要从中进一步找到最优的语义理解作为最终结果。然而发明人在实现本发明的过程中发现，随着语义理解技术的发展，对文本的解析越来越细致，这就导致得到的语义理解的数量呈指数级增长，而这些众多的语义理解中往往会包含较多不相关甚至是无意义的语义理解，换句话说，数量众多的语义理解中存在较多冗余，使得很难从中快速找到最优的语义理解，从而大大影响了语义理解时的速度和效率。

发明内容

本发明提供一种语义理解方法及装置，以提高语义理解时的效率。

根据本发明实施例的第一方面，提供一种语义理解方法，所述方法包括：

获取待处理文本数据；

对所述文本数据进行知识点标注，以生成多条语义理解候选路径；

提取每条语义理解候选路径的路径特征；

根据所述路径特征对所述多条语义理解候选路径进行过滤，以得到一条或多条语义理解路径；

根据过滤后得到的一条或多条语义理解路径对所述文本数据进行语义理解，以得到所述文本数据的语义理解结果。

可选的，对所述文本数据进行知识点标注，以生成多条语义理解候选路径，包括：

对所述文本数据进行分词；

根据分词后得到的词语和预设的知识库对所述文本数据进行知识点标注，其中所述知识库中存储有多个由属性及属性值组成的属性-属性值对，每个所述知识点以属性-词语-属性值的形式表示，所述分词后得到的词语为分词后得到的词或词组；

使用标注得到的知识点中的属性替换所述文本数据中相应的词语，以生成多条语义理解候选路径。

可选的，根据分词后得到的词语和预设的知识库对所述文本数据进行知识点标注，包括：

计算当前词语与所述知识库中每个属性对应的属性值之间的距离，并将所述距离作为匹配得分；

当所述匹配得分小于第一预设阈值时，则判断为匹配成功，并生成一个知识点，其中所生成的知识点中的词语为当前词语，所生成的知识点中的属性和属性值分别为匹配成功的属性和属性值。

可选的，所述路径特征包括以下一种或多种特征：路径中属性数、路径中属性对应属性值长度占比、每种属性出现在路径中的次数、路径中所有属性匹配得分均值、属性在候选路径中的语境概率；

所述提取每条语义理解候选路径的路径中属性数，包括：

通过统计当前候选路径中包含的所有知识点中出现的属性的总数，得到当前候选路径的路径中属性数；

所述提取每条语义理解候选路径的路径中属性对应属性值长度占比，包括：

统计当前候选路径的所有知识点中所有属性值的字数，

将当前候选路径的所有知识点中所有属性值的字数与所述文本数据的总字数的比值作为当前候选路径的路径中属性对应属性值长度占比；

所述提取每条语义理解候选路径的每种属性出现在路径中的次数，包括：

通过统计当前候选路径的所有知识点中每种属性出现的次数，得到当前候选路径的每种属性出现在路径中的次数；

所述提取每条语义理解候选路径的路径中所有属性匹配得分均值，包括：

获取所述文本数据分词后得到的词语与相应属性值匹配成功时得到的匹配得分的均值，作为当前语义理解候选路径的路径中所有属性匹配得分均值；

所述提取每条语义理解候选路径的属性在候选路径中的语境概率，包括：

获取当前候选路径中每个属性与其上下文词语搭配出现的概率作为当前语义理解候选路径的属性在候选路径中的语境概率，其中每个属性的上下文词语是当前候选路径中每个属性前后的一个或多个词语。

可选的，根据所述路径特征对所述多条语义理解候选路径进行过滤，包括：

将当前语义理解候选路径的路径特征输入到预设的过滤模型中，其中所述过滤模型预先通过训练得到，所述过滤模型的输入为候选路径的路径特征，输出为所输入的候选路径为语义理解路径的概率；

判断所述过滤模型所输出的概率是否大于第二预设阈值，如果大于第二预设阈值，则确定当前候选路径是一条语义理解路径。

可选的，根据过滤后得到的一条或多条语义理解路径对所述文本数据进行语义理解，以得到所述文本数据的语义理解结果，包括：

根据语义理解路径中的词语及属性生成词向量，将每个词向量组合以得到语义理解路径的向量；

使用深度学习算法，根据每条语义理解路径的向量计算每条语义理解路径得分；

根据每条语义理解路径得分，对各条语义理解路径进行排序，根据所述排序确定一条或多条语义理解路径作为最优语义理解路径；

根据所述最优语义理解路径所包含的属性及对应属性值，获得所述文本数据的语义理解结果。

根据本发明实施例的第二方面，提供一种语义理解装置，所述装置包括：

文本获取模块，用于获取待处理文本数据；

知识点标注模块，用于对所述文本数据进行知识点标注，以生成多条语义理解候选路径；

路径特征提取模块，用于提取每条语义理解候选路径的路径特征；

路径过滤模块，用于根据所述路径特征对所述多条语义理解候选路径进行过滤，以得到一条或多条语义理解路径；

语义理解模块，用于根据过滤后得到的一条或多条语义理解路径对所述文本数据进行语义理解，以得到所述文本数据的语义理解结果。

可选的，所述知识点标注模块包括：

分词子模块，用于对所述文本数据进行分词；

知识点标注子模块，用于根据分词后得到的词语和预设的知识库对所述文本数据进行知识点标注，其中所述知识库中存储有多个由属性及属性值组成的属性-属性值对，每个所述知识点以属性-词语-属性值的形式表示，所述分词后得到的词语为分词后得到的词或词组；

词语替换子模块，用于使用标注得到的知识点中的属性替换所述文本数据中相应的词语，以生成多条语义理解候选路径。

可选的，所述知识点标注子模块用于：

计算当前词语与所述知识库中每个属性对应的属性值之间的距离，并将所述距离作为匹配得分；当所述匹配得分小于第一预设阈值时，则判断为匹配成功，并生成一个知识点，其中所生成的知识点中的词语为当前词语，所生成的知识点中的属性和属性值分别为匹配成功的属性和属性值。

所述路径特征提取模块用于提取每条语义理解候选路径的路径中属性数时，用于：

所述路径特征提取模块用于提取每条语义理解候选路径的路径中属性对应属性值长度占比时，用于：

统计当前候选路径的所有知识点中所有属性值的字数，

所述路径特征提取模块用于提取每条语义理解候选路径的每种属性出现在路径中的次数时，用于：

所述路径特征提取模块用于提取每条语义理解候选路径的路径中所有属性匹配得分均值时，用于：

所述路径特征提取模块用于提取每条语义理解候选路径的属性在候选路径中的语境概率时，用于：

可选的，所述路径过滤模块包括：

过滤模型子模块，用于将当前语义理解候选路径的路径特征输入到预设的过滤模型中，其中所述过滤模型预先通过训练得到，所述过滤模型的输入为候选路径的路径特征，输出为所输入的候选路径为语义理解路径的概率；

概率判断子模块，用于判断所述过滤模型所输出的概率是否大于第二预设阈值，如果大于第二预设阈值，则确定当前候选路径是一条语义理解路径。

可选的，所述语义理解模块包括：

词向量生成子模块，用于根据语义理解路径中的词语及属性生成词向量，将每个词向量组合以得到语义理解路径的向量；

路径得分计算子模块，用于使用深度学习算法，根据每条语义理解路径的向量计算每条语义理解路径得分；

路径排序子模块，用于根据每条语义理解路径得分，对各条语义理解路径进行排序，根据所述排序确定一条或多条语义理解路径作为最优语义理解路径；

语义理解结果获取子模块，用于根据所述最优语义理解路径所包含的属性及对应属性值，获得所述文本数据的语义理解结果。

本发明的实施例提供的技术方案可以包括以下有益效果：

在本发明实施例中，提出了语义理解“候选路径”的概念，在生成最后的语义理解之前，先通过知识点标注得到众多候选路径，然后提取每条候选路径的路径特征，再根据路径特征对众多候选路径进行过滤，从而大大减少了最后进行语义理解时所面对的路径的数量，去掉了冗余，便于从中快速找到最优语义理解路径，提高了语义理解的效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据本发明一示例性实施例示出的一种语义理解方法的流程图；

图2是根据本发明一示例性实施例示出的一种语义理解方法的流程图；

图3是根据本发明一示例性实施例示出的一种语义理解方法的流程图；

图4是根据本发明一示例性实施例示出的一种语义理解方法的流程图；

图5是根据本发明一示例性实施例示出的一种语义理解方法的流程图；

图6是根据本发明一示例性实施例示出的一种语义理解装置的示意图；

图7是根据本发明一示例性实施例示出的一种语义理解装置的示意图；

图8是根据本发明一示例性实施例示出的一种语义理解装置的示意图；

图9是根据本发明一示例性实施例示出的一种语义理解装置的示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据本发明一示例性实施例示出的一种语义理解方法的流程图。该方法例如可用于智能终端(如便携终端或车载终端等)、个人电脑、服务器等设备。

参见图1所示，该方法可以包括以下步骤：

步骤S101，获取待处理文本数据。

待处理文本数据可以是直接输入的文本数据，也可以是经过某种处理如语音识别后而得到的文本数据，对此本实施例并不进行限制，用户可以根据应用需求给出。

例如，用户正在使用某款点歌软件，可以向点歌软件说出想点的歌曲，如说出“帮我放一首刘欢在中国好声音第一季中唱的有多少爱可以重来”，则软件对用户语音数据进行语音识别后可得到对应的文本数据。

步骤S102，对所述文本数据进行知识点标注，以生成多条语义理解候选路径。

例如可以借助知识库判断文本数据中哪些词语是一个知识点，并将知识点标注出来。通常由于知识库中包含的信息较多，文本数据标注的知识点数量也就会非常多，基于知识点生成的语义理解路径于是可能呈指数级增长，导致得到的语义理解路径中经常会包含较多不相关甚至是无意义的语义理解路径，存在较多冗余，干扰语义理解，造成很难快速找到最优语义理解路径，大大降低了语义理解效率，因此在本实施例将使用下面的步骤即通过提取路径特征来对候选路径进行过滤。

步骤S103，提取每条语义理解候选路径的路径特征。

对于路径特征具体如何选取本实施例并不进行限制，本领域技术人员可以根据不同需求\不同场景而自行设计，可以在此处使用的这些设计都没有背离本发明的精神和保护范围。

作为示例，所述路径特征可以包括以下一种或多种特征：路径中属性数、路径中属性对应属性值长度占比、每种属性出现在路径中的次数、路径中所有属性匹配得分均值、属性在候选路径中的语境概率，等等。

步骤S104，根据所述路径特征对所述多条语义理解候选路径进行过滤，以得到一条或多条语义理解路径。

对于具体如何进行过滤本实施例也并不进行限制，本领域技术人员可以根据不同需求\不同场景而自行设计，可以在此处使用的这些设计都没有背离本发明的精神和保护范围。

步骤S105，根据过滤后得到的一条或多条语义理解路径对所述文本数据进行语义理解，以得到所述文本数据的语义理解结果。

在本实施例中，提出了语义理解“候选路径”的概念，在生成最后的语义理解之前，先通过知识点标注得到众多候选路径，然后提取每条候选路径的路径特征，再根据路径特征对众多候选路径进行过滤，从而大大减少了最后进行语义理解时所面对的路径的数量，去掉了冗余，便于从中快速找到最优语义理解路径，提高了语义理解的效率。

参见图2所示，在本实施例或本发明其他某些实施例中，对所述文本数据进行知识点标注，以生成多条语义理解候选路径，也即步骤S102，可以进一步包括如下步骤：

步骤S201，对所述文本数据进行分词。

对于具体的分词技术本实施例并不进行限制，例如可以使用条件随机场的方法对文本数据进行分词，等等。

容易理解的是，在进行分词之前还可以先进行其他一些预处理工作，例如进行标点删除、大小写统一、全角半角统一、繁简体统一转换、数字规整操作，等等，所述数字规整即将文本数据中的数字使用统一的文字表示，如统一使用汉字表示数字，对此本实施例不再赘述。

此外，将文本数据分词后会得到一个个词，其中有些词可以组合在一起成为词组，因此下文将以词语作为词和词组的统称。

步骤S202，根据分词后得到的词语和预设的知识库对所述文本数据进行知识点标注，其中所述知识库中存储有多个由属性及属性值组成的属性-属性值对，每个所述知识点以属性-词语-属性值的形式表示，所述分词后得到的词语为分词后得到的词或词组。

所述属性可以根据应用需求确定，例如知识库中的记录与歌曲相关，则知识库中的属性根据应用需求可以包括歌曲名、歌手名、专辑名、节目名、影视名，等等。由于并不是所有的记录都能同时使用所有的属性描述，因此属性值也可以为空。所述知识库可以预先根据应用需求构建。

举例来讲，以文本数据为“帮我放一首刘欢在中国好声音第一季中唱的有多少爱可以重来”为例，分词后得到“帮我放一首刘欢在中国好声音第一季中唱的有多少爱可以重来”，所涉及的属性可以有：“singer”即歌手名、“show”即节目名、“song”即歌曲名、“album”即专辑名，而相应的属性值分别为“刘欢”、“中国好声音”等。

每个所述知识点以“属性-词语-属性值”的形式表示，其中的词语即文本数据分词后得到的词语，在本文中也可称为原始词，属性值在本文中可称为相似词，所以一个知识点也即以“属性-原始词-相似词”的形式表示。当然一个知识点内部也可以使用其他标记，如“属性/词语/属性值”的形式。

举例来讲，假设文本数据为“我想听邓丽君的甜蜜蜜”，得到相应分词结果为“我想听邓丽君的甜蜜蜜”，依次选择每个词语与知识库中每个属性对应的属性值进行匹配，根据匹配结果，标注的知识点为“song-我想-我想”、“singer-邓丽君-邓丽君”、“song-甜蜜蜜-甜蜜蜜”。

在具体实施时参见图3所示，根据分词后得到的词语和预设的知识库对所述文本数据进行知识点标注，即步骤S202，可以包括如下子步骤：

步骤S301，计算当前词语与所述知识库中每个属性对应的属性值之间的距离，并将所述距离作为匹配得分。

所述距离如余弦距离、欧式距离等，具体计算方法与现有技术相同，此处不再赘述。

步骤S302，当所述匹配得分小于第一预设阈值时，则判断为匹配成功，并生成一个知识点，其中所生成的知识点中的词语为当前词语，所生成的知识点中的属性和属性值分别为匹配成功的属性和属性值。

例如分词后得到的一个词语是“邓丽君”，知识库中存储有“singer-邓丽君”、“singer-邓丽军”等“属性-属性值”对，当将该词语与“邓丽君”、“邓丽军”这两个属性值进行匹配时，可以根据匹配得分与第一预设阈值的关系确定是否匹配成功。

需要说明的是，文本数据中的词语与知识库中属性对应的属性值进行匹配时，可以使用精确匹配的方式也可以使用模糊匹配的方式(例如精确匹配时第一预设阈值较高，而模糊匹配时第一预设阈值较低)，因此匹配成功后，原始词和相似词有可能相同，也有可能不同。例如精确匹配时，可得到一个知识点“singer-邓丽君-邓丽君”，而模糊匹配时，还可以额外得到“singer-邓丽君-邓丽军”这个知识点。

步骤S203，使用标注得到的知识点中的属性替换所述文本数据中相应的词语，以生成多条语义理解候选路径。

仍以“帮我放一首刘欢在中国好声音第一季唱的有多少爱可以重来”为例，对其标记的知识点例如可以有：

singer-刘欢-刘欢

show-中国好声音-中国好声音

song-中国好-中国人

song-第一-第一个

song-有多少爱-有多少爱

song-有多少爱可以重来-有多少爱可以重来

album-有多少爱可以重来-有多少爱可以重来

...

那么用上述标注得到的知识点中的属性直接替换待理解文本数据中相应词或词组，得到的语义理解候选路径如下(由于候选路径数量太多，以下仅示例性的给出部分候选路径)：

1)帮我放一首singer在show第一季中唱的song

2)帮我放一首singer在show第一季中唱的album

3)帮我放一首刘欢在show第一季中唱的有多少爱可以重来

4)帮我放一首刘欢在show第一季中唱的song

5)帮我放一首刘欢在show第一季中唱的album

6)帮我放一首singer在中国好声音第一季中唱的song

7)帮我放一首singer在中国好声音第一季中唱的album

8)帮我放一首singer在song声音第一季唱的song

9)……

由上面这个示例可以看出候选路径数量众多，有些甚至是无实际意义的候选路径，对语义理解造成严重干扰，大大降低了语义理解的效率，因此为了提高语义理解的效率，需要对语义理解候选路径进行过滤，将与待理解文本数据相关性较低的候选路径过滤掉。具体过滤时，可以先提取每条候选路径的过滤特征，然后利用预先训练的过滤模型对众多候选路径进行过滤。

所述路径特征可以包括以下一种或多种特征：路径中属性数、路径中属性对应属性值长度占比、每种属性出现在路径中的次数、路径中所有属性匹配得分均值、属性在候选路径中的语境概率。作为示例，不同路径特征的提取方式可以如下：

i)路径中属性数

所述提取每条语义理解候选路径的路径中属性数，可以包括：

通过统计当前候选路径中包含的所有知识点中出现的属性的总数，得到当前候选路径的路径中属性数。

例如语义理解候选路径“帮我放一首singer在show第一季中唱的song”中包含3个属性，即“singer”、“show”、“song”。

ii)路径中属性对应属性值长度占比

所述提取每条语义理解候选路径的路径中属性对应属性值长度占比，可以包括：

统计当前候选路径的所有知识点中所有属性值的字数；

将当前候选路径的所有知识点中所有属性值的字数与所述文本数据总字数的比值作为当前候选路径的路径中属性对应属性值长度占比。

例如语义理解候选路径“帮我放一首singer在show第一季中唱的song”，经查标注的知识点可以得到每个属性对应属性值，如下：

属性“singer”对应属性值为“刘欢”，属性“show”对应属性值为“中国好声音”，song对应属性值为“有多少爱可以重来”。这样属性对应属性值字数为15，而对应的文本数据的总字数为27，所以路径中属性对应属性值长度占比为：0.556。

iii)每种属性出现在路径中的次数

所述提取每条语义理解候选路径的每种属性出现在路径中的次数，可以包括：

通过统计当前候选路径的所有知识点中每种属性出现的次数，得到当前候选路径的每种属性出现在路径中的次数。

以音乐领域语义理解为例，属性一般分为singer(歌手名)，show(节目名)，song(歌曲名)，album(专辑名)，若当前语义理解候选路径为“帮我放一首singer在show第一季中唱的song”，候选路径中歌手名singer出现一次，节目名show出现一次，歌曲名song出现一次。

iv)路径中所有属性匹配得分均值

所述提取每条语义理解候选路径的路径中所有属性匹配得分均值，可以包括：

获取所述文本数据分词后得到的词语与相应属性值匹配成功时得到的匹配得分的均值，作为当前语义理解候选路径的路径中所有属性匹配得分均值。

如候选路径“帮我放一首singer在song声音第一季唱的song”，待理解文本数据中词或词组在与候选路径中属性对应属性值匹配成功时，得到匹配得分分别为1、0.66、1，则所有属性匹配得分均值为

v)属性在候选路径中的语境概率

所述提取每条语义理解候选路径的属性在候选路径中的语境概率，可以包括：

具体提取时，对于未出现在当前候选路径中的属性，所述语境概率为0；对于出现在当前候选路径中的属性，可以通过查找预先构建的每个属性与词或词组搭配的语境概率表得到候选路径中每个属性的语境概率。可以通过预先收集大量文本数据，人工标注每条文本数据中包含的属性，统计所有文本数据中每个属性的语境概率，从而得到每个属性与词或词组搭配时的语境概率表。

如候选路径“帮我放一首singer在song声音第一季唱的song”中属性singer的语境概率，指singer分别与其前后词搭配的语境概率，如属性“singer”与前面一个词搭配的语境概率为P(一首singer)，或者属性“singer”与后面一个词搭配的语境概率为P(singer在)。

当考虑属性前后有多个词或词组时，可以得到属性与多个上下文词搭配的语境概率，如属性“singer”与前面两个词搭配的语境概率即P(放一首singer)，或者属性“singer”与后面两个词搭配的语境概率为P(singer在song)。具体考虑属性与前后多少个词搭配的语境概率可以根据应用需求确定，如可以考虑1个、2个、3个，甚至4个等。

参见图4所示，在本实施例或本发明其他某些实施例中，根据所述路径特征对所述多条语义理解候选路径进行过滤，即步骤S104，可以包括：

步骤S401，将当前语义理解候选路径的路径特征输入到预设的过滤模型中，其中所述过滤模型预先通过训练得到，所述过滤模型的输入为候选路径的路径特征，输出为所输入的候选路径为语义理解路径的概率。

作为示例，所述过滤模型可以为模式识别中常用分类模型，如支持向量机，深度神经网络模型等。

过滤模型可以通过预先收集大量文本数据训练得到。具体训练时，先对收集的大量数据进行知识点标注，生成每个文本数据的语义理解候选路径，然后人工标注每条候选路径是否为正确的语义理解路径，如使可以用0或1表示标注结果，1表示当前语义理解候选路径是一条语义理解路径，0表示当前语义理解路径不是一条语义理解路径。然后提取每条语义理解候选路径的过滤特征，具体提取方法与前述方法相同。再将每条语义理解候选路径的过滤特征及每条语义理解候选路径的标注结果作为训练数据，训练过滤模型。具体训练时，将每条语义理解候选路径的过滤特征作为过滤模型的输入，输出则为当前语义理解候选路径是文本数据语义理解路径的概率，根据所述概率及每条语义理解候选路径的标注结果对模型参数进行更新，参数更新结束后，得到训练后的过滤模型。

步骤S401，判断所述过滤模型所输出的概率是否大于第二预设阈值，如果大于第二预设阈值，则确定当前候选路径是一条语义理解路径。

参见图5所示，在本实施例或本发明其他某些实施例中，根据过滤后得到的一条或多条语义理解路径对所述文本数据进行语义理解，以得到所述文本数据的语义理解结果，也即步骤S105，可以包括：

步骤S501，根据语义理解路径中的词语及属性生成词向量，将每个词向量组合以得到语义理解路径的向量。

一条语义理解路径已被分解为词语+属性的形式，生成词向量时，每个词语生成一个词向量，而路径中的每个属性也直接作为一个词语生成一个词向量。

词向量可以通过Word2Vec或深度学习的方法训练得到，具体过程与现有技术相同，在此不再赘述。

步骤S502，使用深度学习算法，根据每条语义理解路径的向量计算每条语义理解路径得分。

计算每条语义理解路径得分时，可以使用深度学习算法，以卷积神经网络为例，具体计算方法举例如下：

首先分别将每条语义理解路径的向量(即初始向量)，作为卷积神经网络的输入，选定多个不同大小的滤波器作为卷积神经网络的卷积核，分别进行卷积计算和池化，得到每条语义理解路径经过卷积计算后的目标向量。

然后获取待理解文本数据的向量(即初始向量)，具体方法与语义理解路径的初始向量获取方法相同，将得到待理解文本数据的初始向量作为卷积神经网络的输入，进行卷积计算和池化，得到卷积计算后的目标向量。

最后将待理解文本数据的目标向量分别与每条语义理解路径的目标向量组合后，作为pair-wise排序模型的输入，得到每条语义理解路径和待理解文本数据组合后得分，将所述得分作为每条语义理解路径得分。

所述pair-wise排序模型可以预先收集大量数据训练得到，具体训练方法与现有技术相，在此不再详述。

当然本发明还可以使用其它的方法计算每条语义理解路径得分，如使用LSTM的递归神经网络计算待理解文本数据和每条语义理解路径的目标向量，再使用pair-wise排序模型计算每条语义理解路径得分，等等。

步骤S503，根据每条语义理解路径得分，对各条语义理解路径进行排序，根据所述排序确定一条或多条语义理解路径作为最优语义理解路径。

步骤S504，根据所述最优语义理解路径所包含的属性及对应属性值，获得所述文本数据的语义理解结果。

例如可以选择得分较高的一条或多条语义理解路径作为最优语义理解路径，根据所述最优语义理解路径中属性及其对应属性值，即可得到语义理解结果。

如上例中得到的最优语义理解路径为“帮我放一首singer在show第一季中唱的song”，语义理解路径中的属性和对应属性值为：

歌手名(singer)：刘欢

节目名(show)：中国好声音

歌曲名(song)：有多少爱可以重来

将所述属性和属性值作为语义理解结果。

下述为本发明装置实施例，可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明方法实施例。

图6是根据本发明一示例性实施例示出的一种语义理解装置的示意图。该装置例如可用于智能终端(如便携终端或车载终端等)、个人电脑、服务器等设备。

参见图6所示，该装置可以包括：

文本获取模块601，用于获取待处理文本数据；

知识点标注模块602，用于对所述文本数据进行知识点标注，以生成多条语义理解候选路径；

路径特征提取模块603，用于提取每条语义理解候选路径的路径特征；

路径过滤模块604，用于根据所述路径特征对所述多条语义理解候选路径进行过滤，以得到一条或多条语义理解路径；

语义理解模块605，用于根据过滤后得到的一条或多条语义理解路径对所述文本数据进行语义理解，以得到所述文本数据的语义理解结果。

参见图7所示，在本实施例或本发明其他某些实施例中，所述知识点标注模块可以包括：

分词子模块701，用于对所述文本数据进行分词；

知识点标注子模块702，用于根据分词后得到的词语和预设的知识库对所述文本数据进行知识点标注，其中所述知识库中存储有多个由属性及属性值组成的属性-属性值对，每个所述知识点以属性-词语-属性值的形式表示，所述分词后得到的词语为分词后得到的词或词组；

词语替换子模块703，用于使用标注得到的知识点中的属性替换所述文本数据中相应的词语，以生成多条语义理解候选路径。

在本实施例或本发明其他某些实施例中，所述知识点标注子模块具体可以用于：

在本实施例或本发明其他某些实施例中，所述路径特征可以包括以下一种或多种特征：路径中属性数、路径中属性对应属性值长度占比、每种属性出现在路径中的次数、路径中所有属性匹配得分均值、属性在候选路径中的语境概率；

所述路径特征提取模块用于提取每条语义理解候选路径的路径中属性数时，具体可以用于：

所述路径特征提取模块用于提取每条语义理解候选路径的路径中属性对应属性值长度占比时，具体可以用于：

统计当前候选路径的所有知识点中所有属性值的字数，

所述路径特征提取模块用于提取每条语义理解候选路径的每种属性出现在路径中的次数时，具体可以用于：

所述路径特征提取模块用于提取每条语义理解候选路径的路径中所有属性匹配得分均值时，具体可以用于：

所述路径特征提取模块用于提取每条语义理解候选路径的属性在候选路径中的语境概率时，具体可以用于：

参见图8所示，在本实施例或本发明其他某些实施例中，所述路径过滤模块具体可以包括：

过滤模型子模块801，用于将当前语义理解候选路径的路径特征输入到预设的过滤模型中，其中所述过滤模型预先通过训练得到，所述过滤模型的输入为候选路径的路径特征，输出为所输入的候选路径为语义理解路径的概率；

概率判断子模块802，用于判断所述过滤模型所输出的概率是否大于第二预设阈值，如果大于第二预设阈值，则确定当前候选路径是一条语义理解路径。

参见图9所示，在本实施例或本发明其他某些实施例中，所述语义理解模块具体可以包括：

词向量生成子模块901，用于根据语义理解路径中的词及属性生成词向量，将每个词向量组合以得到语义理解路径的向量；

路径得分计算子模块902，用于使用深度学习算法，根据每条语义理解路径的向量计算每条语义理解路径得分；

路径排序子模块903，用于根据每条语义理解路径得分，对各条语义理解路径进行排序，根据所述排序确定一条或多条语义理解路径作为最优语义理解路径；

语义理解结果获取子模块904，用于根据所述最优语义理解路径所包含的属性及对应属性值，获得所述文本数据的语义理解结果。

关于上述实施例中的装置，其中各个单元\模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由所附的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种语义理解方法，其特征在于，所述方法包括：

获取待处理文本数据；

提取每条语义理解候选路径的路径特征；

2.根据权利要求1所述的方法，其特征在于，对所述文本数据进行知识点标注，以生成多条语义理解候选路径，包括：

对所述文本数据进行分词；

3.根据权利要求2所述的方法，其特征在于，根据分词后得到的词语和预设的知识库对所述文本数据进行知识点标注，包括：

4.根据权利要求1所述的方法，其特征在于，所述路径特征包括以下一种或多种特征：路径中属性数、路径中属性对应属性值长度占比、每种属性出现在路径中的次数、路径中所有属性匹配得分均值、属性在候选路径中的语境概率；

所述提取每条语义理解候选路径的路径中属性数，包括：

统计当前候选路径的所有知识点中所有属性值的字数，

5.根据权利要求1所述的方法，其特征在于，根据所述路径特征对所述多条语义理解候选路径进行过滤，包括：

6.根据权利要求1所述的方法，其特征在于，根据过滤后得到的一条或多条语义理解路径对所述文本数据进行语义理解，以得到所述文本数据的语义理解结果，包括：

7.一种语义理解装置，其特征在于，所述装置包括：

文本获取模块，用于获取待处理文本数据；

8.根据权利要求7所述的装置，其特征在于，所述知识点标注模块包括：

分词子模块，用于对所述文本数据进行分词；

9.根据权利要求8所述的装置，其特征在于，所述知识点标注子模块用于：

10.根据权利要求7所述的装置，其特征在于，所述路径特征包括以下一种或多种特征：路径中属性数、路径中属性对应属性值长度占比、每种属性出现在路径中的次数、路径中所有属性匹配得分均值、属性在候选路径中的语境概率；

统计当前候选路径的所有知识点中所有属性值的字数，

11.根据权利要求7所述的装置，其特征在于，所述路径过滤模块包括：

12.根据权利要求7所述的装置，其特征在于，所述语义理解模块包括：