CN107015969A

CN107015969A - 可自我更新的语义理解系统与方法

Info

Publication number: CN107015969A
Application number: CN201710358502.5A
Authority: CN
Inventors: 尹娟; 高岚; 李足红
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2017-05-19
Filing date: 2017-05-19
Publication date: 2017-08-04

Abstract

本发明公开了一种可自我更新的语义理解系统与方法，理解语音识别引擎转换得到的语句，通过所述句法分析模型解析所述语句的语法成分，并理出各成分之间的关系，忽略所述语句中不重要的词语，保留所述语句中重要的词语，通过所述词向量模型将所述重要的词语转换为第三方应用或执行设备本身能识别的标准词；读取数据库中的失败语句，搜索与所述失败语句有关的网页，获取网页中相关的文字，作为更新语料，将更新语料添加到原语料中，并重新训练所述在线语义理解引擎。本发明增强语义理解的准确性和泛化能力，以及通过离线自更新系统达到自动更新目的。

Description

可自我更新的语义理解系统与方法

技术领域

本发明涉及人工智能技术自然语言处理(NLP)领域，具体涉及一种可自我更新的语义理解系统与方法。

背景技术

在用语音识别系统应用到智能电视上做应用开发时，开发者发现：当下的语音识别系统语音识别的准确率较高，但对识别文字的理解较简单，理解准确度不够，理解扩展性不大，不能对用户某种意图的各种说法准确理解。同时，语音识别系统通常不具备自动更新的能力，经常是应用开发人员或测试人员发现识别失败时，手动添加关键词或者通知语音识别系统开发者修改，这样更新效率低。而且现有技术中常用的自然语言处理技术将词向量放在整个系统最前端，词向量用作句法分析的输入，也就是说仅仅是将词向量作为向量化的工具而已，但实际上用神经网络训练后的词向量能够很好的表示词与词之间的关系，因此，为了提高语义理解系统的准确性和泛化理解力，遂提出了本申请。

以及，现在的语音系统对电视领域的语义理解不够准确，主要是由于电视领域的语义理解和移动终端的应用场景不太一样。移动终端主要是聊天、通过搜索引擎查找，而电视领域主要是查询电视功能，查找视频、音乐、换台等。电视领域的语义理解涉及到大量的影视、音乐相关知识，且不能在终端直接调用搜索引擎进行搜索。因此，需要语义引擎本身涵盖大而全的影视、音乐知识，才能正确的理解，并完成用户想要的操作。但是，现在主流的语音系统对电视领域没有做这样细致的工作，导致终端用户使用语音功能时经常得不到想要的结果。

同时，当电视软件开发人员发现某一些语句是终端用户常说但不能正确理解，想要将这些语句添加到语义理解引擎中，只能通过语音系统供应商或者自己手动添加到配置文件中，通知供应商更新速度很慢，自己手动添加很机械，效果不好。

综上分析，现有技术中存在的技术问题有两个：(1)现有的语音系统在电视领域语义理解准确率低；(2)语音系统的语义理解引擎不可自动更新。

发明内容

为了解决背景技术中的技术问题，本发明提供一种可自我更新的语义理解系统与方法。

考虑到现有技术的上述问题，根据本发明公开的一个方面，本发明采用以下技术方案：

一种可自我更新的语义理解系统，包括：

在线语义理解引擎，用于理解语音识别引擎转换得到的语句，所述在线语义理解引擎包括句法分析模型和词向量模型，通过所述句法分析模型解析所述语句的语法成分以及各成分之间的关系，忽略所述语句中不重要的词语，保留所述语句中重要的词语，通过所述词向量模型将所述重要的词语转换为第三方应用或执行设备本身能识别的标准词；

离线自更新系统，用于读取数据库中的失败语句，搜索与所述失败语句有关的网页，获取网页中相关的文字作为更新语料，将更新语料添加到原语料中，并重新训练所述在线语义理解引擎。

为了更好地实现本发明，进一步的技术方案是：

根据本发明的一个实施方案，所述句中重要的词语为与所述执行设备或第三方应用执行动作有关的词语。

根据本发明的另一个实施方案，所述词向量模型内设置标签库，根据能否被第三方应用或执行设备本身所理解，将所述执行设备或第三方应用环境有关的专有词贴上对应标签并存入所述标签库。

根据本发明的另一个实施方案，所述词向量模型将不能被第三方应用或执行设备本身所理解的非标签词与所述标签库中的标签词关联，从而自动给非标签词打上标签，使其成为带标签词。

根据本发明的另一个实施方案，所述在线语义理解引擎在理解完句子之后会判断句子理解是否正确，判断的标准是分析经过词向量模型关联后输出的所有无标签词的成分，如果所述无标签词是核心词或核心宾语，则理解失败。

根据本发明的另一个实施方案，所述离线自更新系统通过爬虫程序爬取相关网页中的文字。

本发明还可以是：

一种可自我更新的语义理解的方法，包括：

理解语音识别引擎转换得到的语句，通过所述句法分析模型解析所述语句的语法成分，并理出各成分之间的关系，忽略所述语句中不重要的词语，保留所述语句中重要的词语，通过所述词向量模型将所述重要的词语转换为第三方应用或执行设备本身能识别的标准词；

读取数据库中的失败语句，搜索与所述失败语句有关的网页，获取网页中相关的文字作为更新语料，将更新语料添加到原语料中，并重新训练所述在线语义理解引擎。

根据本发明的另一个实施方案，还包括初始模型的步骤：

(a)以与第三方应用或执行设备应用环境有关的网页资料作为初始数据，并从中整理出与第三方应用或执行设备应用环境有关的专有名词；

(b)将所述专有名词加入到分词用户词典和词向量标签词库；

(c)训练句法分析模型、分词工具中引用的机器学习模型；

(d)用训练好的分词工具对词向量语料进行分词，并将分词后的语料送入到词向量神经网络中进行训练；

(e)建立用户语音识别后的句子测试集；

(f)得到句法分析模型和词向量模型后，用测试集分别验证两模型的准确性，如果准确性达标，则初始模型完成，如果准确性不达标，分析未正确输出的句子所属领域，然后重复步骤(a)-(d)。

与现有技术相比，本发明的有益效果之一是：

本发明的一种可自我更新的语义理解系统与方法，1)其在线语义理解引擎采用句法分析和词向量关联对相关词语做关联的方式理解语音系统识别的句子，增强了语义理解的准确性和泛化能力；2)离线自更新系统自动收集未理解成功的句子，针对未理解成功的句子补充语料，重新训练模型，训练好的模型提供给在线语义理解引擎使用，从而达到自动更新目的。

附图说明

为了更清楚的说明本申请文件实施例或现有技术中的技术方案，下面将对实施例或现有技术的描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅是对本申请文件中一些实施例的参考，对于本领域技术人员来讲，在不付出创造性劳动的情况下，还可以根据这些附图得到其它的附图。

图1示出了根据本发明一个实施例的可自我更新的语义理解系统框图。

图2示出了根据本发明一个实施例的在线语义理解引擎框图。

图3示出了根据本发明一个实施例的训练词向量的过程框图。

图4示出了根据本发明一个实施例的离线系统的实现过程框图。

具体实施方式

下面结合实施例对本发明作进一步地详细说明，但本发明的实施方式不限于此。

用神经网络训练后的词向量能够很好的表示词与词之间的关系，为了提高语义理解系统的准确性和泛化理解力，本发明提出的语义理解方法把词向量放在句法分析后面，词向量模型由神经网络训练，能很好的体现词与词之间的关系，使无论用户说怎样的句子，只要是跟电视相关都能广泛理解。另外，另一核心点在于自更新，自更新的实现方式是：设计一套判定机制，判定句子理解是否成功，并自动收集理解失败的句子。定时连接搜索引擎，自动搜索理解失败的句子，获取搜索结果的网页，从而进一步收集与失败句子相关的语料，将语料添加到原语料中，再训练词向量模型，使词向量模型与时俱进，及时更新。

如图1-图4所示，一种可自我更新的语义理解系统，具体技术方案为：

在线语义理解引擎，用于理解语音识别引擎转换得到的语句，所述在线语义理解引擎包括句法分析模型和词向量模型，通过所述句法分析模型解析所述语句的语法成分，并理出各成分之间的关系，忽略所述语句中不重要的词语，保留所述语句中重要的词语，通过所述词向量模型将所述重要的词语转换为第三方应用或执行设备本身能识别的标准词；

离线自更新系统，用于读取数据库中的失败语句，搜索与所述失败语句有关的网页，获取网页中相关的文字，作为更新语料，将更新语料添加到原语料中，并重新训练所述句法分析模型和词向量模型，更新在线语义理解引擎。

离线自更新系统通过爬虫程序爬取相关网页中的文字。

进一步，上述句中重要的词语为与所述执行设备或第三方应用执行动作有关的词语。

词向量模型内可设置标签库，根据能否被第三方应用或执行设备本身所理解，将所述执行设备或第三方应用相关的专有词贴上对应标签并存入所述标签库。以及词向量模型可将不能被第三方应用或执行设备本身所理解的非标签词与所述标签库中的标签词关联，从而自动给非标签词打上标签，使其成为带标签词。

在线语义理解引擎在理解完句子之后会判断句子理解是否正确，判断的标准是分析经过词向量模型关联后输出的所有无标签词的成分，如果所无述标签词是核心词或核心宾语，则理解失败。

也就是说，本发明涉及的系统中，其在线语义理解引擎采用句法分析和词向量关联对相关词语做关联的方式理解语音系统识别的句子，增强语义理解的准确性和泛化能力。离线自更新系统自动收集未理解成功的句子，针对未理解成功的句子补充语料，重新训练模型，训练好的模型提供给在线语义理解引擎使用，从而达到自更新目的。

为了便于说明在线语义理解系统和离线自更新系统，下面列举如下示例：

(1)在线语义理解系统

如图2所示，在线语义理解系统包含两个部分句法分析和词向量。句法分析将解析语句的主语、宾语、谓语等成分，并理出各成分之间的关系，将不重要的词语忽略掉，将重要成分词保存下来。词向量的作用是将词与词之间关联起来，通过这种关联性，将所有词都转换成第三方app或者电视本身能识别的标准词，从而达到将用户句子理解成电视能懂的语义。

比如，“我要看电影”，调用句法分析模型进行分析，得到的结果是：

我要(A)看nz1

看(H)##核心##v

电影(V)看nz1

上面结果中第一列是句子分解后的词，第二列表示的是该词在句子中的关系，第三列表示与该词相关的词，最后一列表示该词的词性。这句话表达的信息是核心词为看，它是一个动作，做这个动作的人是我，要看的是电影，对于电视终端来说谁想要做这个动作并不重要，因此，“我要”这个词不被输出，句法分析模型只会输出动作——看，看的内容——电影。

词向量是一个由大量的语料(正常的句子)训练而成的模型，在训练大量句子的过程中，能提取到词与词之间的关联性。同时，为了得到电视理解的词，我们在训练模型前，对部分词贴标签，如“播放”被贴为“play”，“电影”贴上“movie”。贴了标签的词存入标签库，标签库的词都是电视上安装的app能够理解的词，标签库的词量很小，其他非标签词在训练过程中与标签词关联。调用训练好的词向量模型分析上面例句，可得“看”为非标签词，与“播放”关联较大，从而“看”理解为“播放”，可继承标签“play”，“电影”是标签词。词向量分析的输出是“play movie”，整个理解过程完成。

依存句法分析模型和词向量都是深度学习语言模型，这两个模型都要预先使用大量数据来训练，词向量神经网络的的输入是分词后的语料，因此，在训练词向量模型前要先将语料分词，而分词工具本身也依赖机器学习算法，也要先训练。本发明以开源的依存句法分析模型和词向量模型为基础，原本词向量模型只是训练词与词之间的关系，而本发明对词向量模型加以修改，给词向量加入了标签库，所有的专有词贴上相应的标签，使其成为标签词，非专有词贴为“normal”。

在线语义理解引擎在理解完句子之后会判断句子理解是否正确，判断的标准是词向量输出的所有词所带的标签是否有“normal”，标签为normal表示这个词未被理解为标准词，电视和第三方app无法理解该词，然后判断这个词的成分，如果是核心词、核心宾语，则理解失败。

句法分析模型和词向量模型的效果除了算法本身的好坏之外，很大程度取决于用作训练的语料。为了让两个模型准确性更高，在训练初始模型时，我们通过爬虫在网上搜集了大量的百科语料、新闻、电影简介、影评、音乐简介、乐评等作为初始的数据作为初始语料，同时，从电视用户常说的句子中提取大量的核心词，用这些核心词模拟语料。初始模型尽量准确完整。

(2)离线自更新系统

即便初始模型在当下准确性达到要求，但影视、音乐每天都在更新，且用户的说话方式也在更新，为了能及时应对这种更新，本发明设计了离线自更新系统。在线语义理解引擎理解失败的句子能很好的反应现有的语言模型的不足，利用理解失败的句子查找语料，及时补充语料，再训练句法分析和词向量模型。

离线自更新系统的视线过程如图4。给在线语义理解引擎的输出设置判断机制，该判断机制用来判断在线理解是否成功，如果成功，直接输出，如果不成功，存入到数据库当中。离线自更新系统定期读取数据库中的失败句子，启动搜索引擎，对失败句子进行搜索，然后启动预先针对搜索页面开发好的爬虫程序，对搜索返回的页面中的所有url进行递归爬取，爬取相关网页中的所有文字，作为更新语料。将更新语料添加到原语料中，并重新训练分词工具、句法分析模型、词向量模型。

离线自更新系统训练好的模型被用来替换在线语义理解引擎调用的现有模型，这样，在线引擎的理解会与时俱进。

为了验证整套语义理解系统的准确性，开发者定期请第三方测试人员收集200条电视语音语句，对模型进行测试。

如图1所示，整个语义理解系统分为两部分，当用户的语音数据经过语音识别系统识别成用户文字并发送给在线语义理解引擎，在线语义理解引擎对用户所说的句子进行理解，理解成功则发送给APP，对接app，实现用户希望的操作；如果理解失败，则将失败的句子存入用户数据库。离线自更新系统定期读取用户数据库中的失败句子，根据失败句子寻找相应的语料，来更新在线语引擎调用的模型。

下面以两个用户句子为例来说明在线语义引擎的工作原理。

句子1：“观看星爷的电影”。

句子2：“我想听王菲女儿的歌”。

一，初始模型：

(1)以与第三方应用或执行设备应用环境有关的网页资料作为初始数据，并从中整理出与第三方应用或执行设备应用环境有关的专有名词；例如，利用百科语料、新闻、电影简介、影评、音乐简介、乐评等作为初始的数据，从这些语料中整理出电影名、演员名、歌手等专有名词，如上面的句子中相关的“周星驰”、“王菲”就会被选入相关的专有名词中。这些专有名词有三方面的作用：中文分词工具的用户词典、句法分析的用户词典、词向量的标准词库。

(2)将所述专有名词加入到分词用户词典；

(3)训练句法分析模型、分词工具中引用的机器学习模型；

(4)用训练好的分词工具对词向量语料进行分词，并将分词后的语料送入到词向量神经网络中进行训练；

(5)用户语音识别后的句子建立测试集；

(6)得到句法分析模型和词向量模型后，用测试集分别验证两模型的准确性，如果准确性达标，则初始模型完成，如果准确性不达标，分析未正确输出的句子属于哪方面，然后重复步骤(1)-(4)。

二，在线语义理解引擎：

(1)编写在线语义理解引擎，调用5.1中训练出来的模型，整个系统接收来自语音识别后的文字，然后实时调用句法分析模型，输出带有依存关系的重要词。句法分析模型输出后调用词向量模型，词向量模型输出的数据输出。

(2)设置判断机制：核心谓语、宾语、宾语修饰词都转化成了带标签的词，且各词之间不会相互冲突，则判断理解成功，否则理解失败。

例如，以上两个例句，在测试过程中等到如下结果：

句子1理解成功：(谓语)观看-播放(play)\(宾语修饰词)星爷-周星驰(actor&director)\(宾语)电影-电影(movie)

理解成功。

句子2理解失败：听-播放(play)\(宾语修饰语)王菲-王菲(singer)\(核心宾语修饰语)女儿-normal\(宾语)歌-歌曲(song)

(3)理解成功的句子以json输出给相应的app。如句子1输出为

{

“intent”:”play”

“actor”:“周星驰”

“director”:”周星驰”

}

(4)理解不成功的句子存入数据库中。“王菲女儿的歌”。

三，离线语义自更新系统：

(1)定期连接用户数据库，从数据库中读出新增的失败句子，如“王菲女儿的歌”。

(2)通过chromedriver启动百度搜索引擎，并将“王菲女儿的歌”这样的失败句子输入搜索框，然后启动预先针对百度搜索页面开发好的爬虫程序，对搜索“王菲女儿的歌”返回的页面中的所有url进行深度小于3的递归爬取，爬取相关网页中的所有文字。

(3)对百度音乐、豆瓣电影、豆瓣音乐会做特殊处理，如果搜索出了这三个网站相关的url，则会爬取歌手、导演、演员、电影名、歌名等内容，并存入数据库的相关字段中，而其他文本同一存成“内容”字段。

(4)将歌手、导演、演员、电影名、歌名等规则字段读出，去重、计数、取重点词整理成标签，添加到词向量用户词典、句法分析用户词典、词向量标签库。同时，限定标签库的词量，定期将元标签库里面词频数靠后的词去掉。

(5)将内容字段的文本读出，添加到原语料中，调用分词工具，句法分析训练词向量模型。

(6)在凌晨用训练后的词向量替换在线引擎中原来的词向量。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同相似部分相互参见即可。

在本说明书中所谈到的“一个实施例”、“另一个实施例”、“实施例”、等，指的是结合该实施例描述的具体特征、结构或者特点包括在本申请概括性描述的至少一个实施例中。在说明书中多个地方出现同种表述不是一定指的是同一个实施例。进一步来说，结合任一实施例描述一个具体特征、结构或者特点时，所要主张的是结合其他实施例来实现这种特征、结构或者特点也落在本发明的范围内。

尽管这里参照本发明的多个解释性实施例对本发明进行了描述，但是，应该理解，本领域技术人员可以设计出很多其他的修改和实施方式，这些修改和实施方式将落在本申请公开的原则范围和精神之内。更具体地说，在本申请公开和权利要求的范围内，可以对主题组合布局的组成部件和/或布局进行多种变型和改进。除了对组成部件和/或布局进行的变型和改进外，对于本领域技术人员来说，其他的用途也将是明显的。

Claims

1.一种可自我更新的语义理解系统，其特征在于包括：

离线自更新系统，用于读取数据库中的失败语句，搜索与所述失败语句有关的网页，获取网页中相关的文字作为更新语料，将更新语料添加到原语料中，并重新训练句法分析和词向量模型，供所述在线语义理解引擎使用。

2.根据权利要求1所述的可自我更新的语义理解系统，其特征在于所述句中重要的词语为与所述执行设备或第三方应用执行动作有关的词语。

3.根据权利要求1所述的可自我更新的语义理解系统，其特征在于所述词向量模型内设置标签库，根据能否被第三方应用或执行设备本身所理解，将所述第三方应用或执行设备相关的专有词贴上对应标签并存入所述标签库。

4.根据权利要求3所述的可自我更新的语义理解系统，其特征在于所述词向量模型将不能被第三方应用或执行设备本身所理解的非标签词与所述标签库中的标签词关联。

5.根据权利要求1所述的可自我更新的语义理解系统，其特征在于所述在线语义理解引擎在理解完句子之后会判断句子理解是否正确，判断的标准是分析经过词向量模型关联后输出的所有无标签词的成分，如果所述无标签词是核心词或核心宾语，则理解失败。

6.根据权利要求1所述的可自我更新的语义理解系统，其特征在于所述离线自更新系统通过爬虫程序爬取相关网页中的文字。

7.一种实现如权利要求1所述可自我更新的语义理解系统的方法，其特征在于包括：

理解语音识别引擎转换得到的语句，通过所述句法分析模型解析所述语句的语法成分以及各成分之间的关系，忽略所述语句中不重要的词语，保留所述语句中重要的词语，通过所述词向量模型将所述重要的词语转换为第三方应用或执行设备本身能识别的标准词；

8.根据权利要求7所述的可自我更新的语义理解方法，其特征在于还包括初始模型的步骤：

(b)将所述专有名词加入到分词用户词典和词向量标签词库；

(c)训练句法分析模型、分词工具中引用的机器学习模型；

(e)建立用户语音识别后的句子测试集；