CN111680129B

CN111680129B - 语义理解系统的训练方法及系统

Info

Publication number: CN111680129B
Application number: CN202010550756.9A
Authority: CN
Inventors: 刘亮; 徐华; 葛付江
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2020-06-16
Filing date: 2020-06-16
Publication date: 2022-07-12
Anticipated expiration: 2040-06-16
Also published as: CN111680129A

Abstract

本发明实施例提供一种语义理解系统的训练方法。该方法包括：识别训练样句中各词语的对应的语义槽位，通过词表知识库确定各语义槽位对应的性质；基于各语义槽位的不同性质，利用句式知识库对训练样句进行不同方式的扩展，生成与训练样句同义、不同句式的多条训练语句；通过多条训练语句对语义理解系统进行训练。本发明实施例还提供一种语义理解系统的训练系统。本发明实施例将词表知识库以及句式知识库相互依赖，共同提高泛化能力，来达到快速语义订制的目的。从而可快速自动扩展语义的训练语句，从而训练语义理解系统，提高语义理解系统的解析效果。

Description

语义理解系统的训练方法及系统

技术领域

本发明涉及智能语音领域，尤其涉及一种语义理解系统的训练方法及系统。

背景技术

语义理解是自然语言处理重要方向，在限定应用场景下，给定一句输入的文本(query)，程序输出对应的“意图”和“槽位”。目前市面的主要方法有：基于规则匹配的意图识别和槽位提取、基于特征工程的意图识别和槽位提取、基于深度学习的意图识别和槽位提取。

基于规则匹配的意图识别和槽位提取：每个应用场景，人工根据业务需求，整理出所需要的意图和槽位，使用正则语法，设计相应的规则去匹配各种不同的说法。需要人工调整规则的权重，把所有匹配上的规则按权重高低输出得分最高的规则的结果。

基于特征工程的意图识别和槽位提取：人工提取文本特征(如ngram特征)作为分类模型的输入，特征提取的过程决定了模型结果的上限。最常用的模型有SVM(SupportVector Machine，支持向量机)、最大熵模型等。

基于深度学习的意图识别和槽位提取：没有复杂的人工取特征的过程，分好词或者直接使用字输入即可，准备好标注好的样本训练集，深度学习模型自动学习特征表达能力，端到端的解决问题。常用模型有：CNN(Convolutional Neural Network，卷积神经网络)、LSTM(Long Short Term Memory Network，长短时记忆网络)，Transformer等。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

基于规则匹配的意图识别和槽位提取：需耗费大量人力设计匹配规则，由于同一种语义有众多的口语说法，这就决定了需要写大量的规则才能有比较好的覆盖度。规则泛化性差，只能匹配到固定的句子；同一个说法可能会匹配到多个规则，需要制定权重来调整输出排序，权重全靠人为经验确定，麻烦很难维护；另外设计的规则通用性不高，每个应用场景都得根据业务需求特殊定制规则。

基于特征工程的意图识别和槽位提取：需耗时耗力的人工提取特征，且常用的特征提取方法存在数据稀疏和维度爆炸等问题，一旦特征提取的不好，模型很难取得较好的性能，且不同任务特征不具有通用性，需根据不同的任务定制特征。从业界的实践效果来看，这类方法的性能要比深度学习的差。

基于深度学习的意图识别和槽位提取：虽然该方法不需要做很多特征工程，能自动学习文本的特征，但是依赖比较多的标注数据集，标注好的数据集成本昂贵。深度学习每次训练成本比较高，耗时长，对于bad case没法修正；深度学习是黑盒模型，可解释性差，对于业务做微小的调整，往往都需要对模型做比较大的调整。

发明内容

为了至少解决现有技术中项目开发所需要的资源多，耗费的人力比较多、项目复用性差，无论是规则，特征还是深度学习，对于一个不同的场景，甚至同样的场景下的不同业务需求往往仍然要投入大量的人力重新开发的问题。

第一方面，本发明实施例提供一种语义理解系统的训练方法，包括：

识别训练样句中各词语的对应的语义槽位，通过词表知识库确定各语义槽位对应的性质；

基于各语义槽位的不同性质，利用句式知识库对所述训练样句进行不同方式的扩展，生成与所述训练样句同义、不同句式的多条训练语句；

通过所述多条训练语句对语义理解系统进行训练。

第二方面，本发明实施例提供一种语义理解系统的训练系统，包括：

槽位性质确定程序模块，用于识别训练样句中各词语的对应的语义槽位，通过词表知识库确定各语义槽位对应的性质；

句式扩展程序模块，用于基于各语义槽位的不同性质，利用句式知识库对所述训练样句进行不同方式的扩展，生成与所述训练样句同义、不同句式的多条训练语句；

训练程序模块，用于通过所述多条训练语句对语义理解系统进行训练。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的语义理解系统的训练方法的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的语义理解系统的训练方法的步骤。

本发明实施例的有益效果在于：利用知识库自动扩展语义，使用句式知识库检索并扩展语义，再通过模型或者带模糊匹配的规则系统来提高语义的泛化能力，将词表知识库以及句式知识库相互依赖，共同提高泛化能力，来达到快速语义订制的目的。从而可快速自动扩展语义的训练语句，从而训练语义理解系统，提高语义理解系统的解析效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种语义理解系统的训练方法的流程图；

图2是本发明一实施例提供的一种语义理解系统的训练方法的运行流程图；

图3是本发明一实施例提供的一种语义理解系统的训练系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种语义理解系统的训练方法的流程图，包括如下步骤：

S11：识别训练样句中各词语的对应的语义槽位，通过词表知识库确定各语义槽位对应的性质；

S12：基于各语义槽位的不同性质，利用句式知识库对所述训练样句进行不同方式的扩展，生成与所述训练样句同义、不同句式的多条训练语句；

S13：通过所述多条训练语句对语义理解系统进行训练。

在本实施方式中，申请人发现之前常规做法没有把语义理解的步骤做细致的拆解，都是端到端的思路对待问题；其次没有从知识库的角度看待问题，把不同项目的语义理解看作是单独的项目，这种做法很难积累语义知识库。

语义理解之所以困难，是因为同一种意图会有很多不同说法。本方法把同一种语义的不同说法的变化形式归纳到几大类：

a)词汇差异：比如“开通，办理，办个”在很多语境下都是差不多的意思。

b)句式的差异：主动句，被动句，倒装，疑问，肯定，否定。

c)语气词，助词，形容词等。

d)ASR自动语音识别的一些错误，口误，重复等。

想要由少量例句来获得泛化能力强的解析，只要想办法分别在上面几点尽可能的自动扩展即可。

解决方式：

词汇差异：可以维护“同义词”词汇库，当然这里的“同义词”指的是广义上的，按照词汇来管理的优点是：容易维护，容易积累，同时很多词汇是在不同领域，不同项目上都是能共用的；相对积累规则来说，积累规则比较麻烦，复用起来难；

句式的差异：句式的数量不是很多，语言学特点也很强，做一些程序化的自动扩展并不是很难，当然这个需要词库带有词性标注。

c和d变化非常多，也没有什么规律，比较难处理，但是注意到一个句子表达意思的主干在a,b两处，抓住了ab就能知道意图，所以cd的部分想办法跳过即可，对语义理解本身影响不大。

比如：来一首超好听的歌，这个超字很难在写规则的时候覆盖到，忽略这个词对意思影响不大。

对于步骤S11，由于同一种意图会有很多不同说法，写出每个意图下的自然表达句子，作为训练来说，尽量写出长表达的句子可扩展的效果更好。在提供训练样句之后，整理出主要的语义槽位，找到语义槽位的词表，没有对应的词表，那需要开发者自己提供，当词表知识库比较完备的时候，大部分槽位都能检索出对应的词表。

例如：

例句：我想听一首李白的五言绝句静夜思＝>"背诵诗歌"

step1:我想听一首李白的五言绝句静夜思＝>{"intent":"背诵诗歌"}

step2:{我想}{听}{一首}{李白}{的}{五言绝句}{静夜思}

step3:对应词表＝>我想：前缀助词.txt；听：播放.txt；李白:古诗作者.txt；五言绝句古诗类型.txt；静夜思:古诗标题.txt；的：可忽略。

这一步程序可以帮助从词表知识库里查找；为了准确性，还需要用户选择和确认合适的正确的词库，如果没有需要自己提供。

step4:标注槽位的主要性质{我想,？}{听,_act,？}<{一首,_qua,？}{李白,？}{的,-}{五言绝句,？}>{静夜思,_noun}＝>{"intent":"背诵诗歌"}

1.标注了主干的槽位_act和_noun，为动作和对象。

2.？表示不必要的槽位，<e1,e2,e3>：表示里面的槽位顺序不限制；增强了整个例句的表达能力。

更具体的举例，例句：我想听一首李白的五言绝句静夜思

{我想,？}{听,_act,？}<{一首,_qua,？}{李白,？}{的,-}{五言绝句,？}>{静夜思,_noun}＝>{"intent":"背诵诗歌"}

{窗前明月光,古诗_诗句|国学_句子,+}＝>{"intent":"诗句"}

这里面“我想”，“听”都是从原始句子中划的槽位词语。

支持简单常用的正则：

？：表示当前槽位可有可无。

<e1,e2,e3>：表示里面的槽位顺序不限制。

+:一个或多个连续的。

-：表示这个槽位无需关注。

对于步骤S12，由于各语义槽为的性质各不相同，在扩展时，会使用不同的方法进行扩展，从而生成与所述训练样句同义但不同句式的多条训练语句。

作为一种实施方式，所述语义槽位的性质包括：动作、对象、不必要、槽位顺序不限制；

所述利用句式知识库对所述训练样句进行不同方式的扩展包括：

当所述词语的语义槽位的性质为动作时，在扩展时利用词表知识库对所述词语进行同义词替换；

当所述词语的语义槽位的性质为对象时，在扩展时对所述词语进行保留；

当所述词语的语义槽位的性质为不必要时，在扩展时对所述词语保留或删除；

当所述词语的语义槽位的性质为槽位顺序不限制时，在扩展时改变所述词语在所述训练样句中的位置。

例如，“听”这个词为动作词语，可以讲题替换成“播放”、“放一下”、“背诵”等词语，这些词语是可以相互替换的。

“静夜思”这个词语是明确的对象词语，这种词语不能被替换，需要保留该词语来表达句子的意思，因此，在扩展时，“静夜思”是不改变的。

“我想”、“听”、“一首”、“李白”、“五言绝句”这些词语在扩展时属于可要可不要的不稳定状态，通过这种不稳定状态，可以扩展出更多种类的语句。

对于槽位顺序不限制的词语，例如<{一首,_qua,？}{李白,？}{的,-}{五言绝句,？}>。可以扩展为一首李白的五言绝句，也可以扩展为，李白的一首五言绝句；还可以扩展为，一首五言绝句，李白的。更多的扩展方法再此不再赘述。

从而会根据这些规则信息，自动进行扩展。

对于步骤S13，由于在步骤S12中扩展了多条训练语句，可以在本步骤中进行语义理解系统的训练。

所述通过所述多条训练语句对语义理解系统进行训练包括：

通过所述多条训练语句以及预设模糊匹配规则构建规则解析引擎，用于语义理解。简易流程图如图2所示。

在本实施方式中，提高泛化能力的引擎，规则引擎需要支持模糊匹配，在关键槽位之间可以跳过一些不相关的字，例如在正则里面增加A“.{0,3}”B这种通用匹配，指AB之间可以有0到3个任意字符。这样在已有的多条训练语句和规则下构建规则解析引擎，用于语义理解。

所述通过所述多条训练语句对语义理解系统进行训练还包括：

基于所述多条训练语句以及所述多条训练语句中各词语的词性训练神经网络模型，用于语义理解。

模型的话本身是有泛化能力的，为了增强泛化能力需要把文本和词性一起输入模型。

通过该实施方式可以看出，利用知识库自动扩展语义，使用句式知识库检索并扩展语义，再通过模型或者带模糊匹配的规则系统来提高语义的泛化能力，使得用户仅输入少量词语，从而可快速自动扩展语义的训练语句，从而训练语义理解系统，提高语义理解系统的解析效果。

作为一种实施方式，在本实施例中，所述词表知识库以及句式知识库为预先构建，其中，词表知识库包括同义词词汇库，以用于减少语义理解的词汇差异，所述句式知识库包括带有词性标注句式，以用于减少语义理解的句式差异。

在本实施方式中，词表知识库构建：

词表就是将同一类的词语放在一类，其之间可以相互替换，比如上面的例句中有如下词表：

我想：前缀助词.txt；听：播放.txt；李白:古诗作者.txt；五言绝句：古诗类型.txt；静夜思:古诗标题.txt。

播放.txt中包含：“听，播放，放一下，背诵”等词；可以看出这些词是可以相互替换的。

句式知识库构建：

句式指一些常见说法和语法结构的

语法结构：

比如常见的动宾结构＝>动词+形容词+名词；这样的句式是相对通用的，可以自动扩展成：形容词+名词+动词；

例子：播放周杰伦的青花瓷＝>把周杰伦的青花瓷播放一下。

通过该实施方式可以看出，将词表知识库以及句式知识库相互依赖，共同提高泛化能力，来达到快速语义订制的目的。

如图3所示为本发明一实施例提供的一种语义理解系统的训练系统的结构示意图，该系统可执行上述任意实施例所述的语义理解系统的训练方法，并配置在终端中。

本实施例提供的一种语义理解系统的训练系统包括：槽位性质确定程序模块11，句式扩展程序模块12和训练程序模块13。

其中，槽位性质确定程序模块11用于识别训练样句中各词语的对应的语义槽位，通过词表知识库确定各语义槽位对应的性质；句式扩展程序模块12用于基于各语义槽位的不同性质，利用句式知识库对所述训练样句进行不同方式的扩展，生成与所述训练样句同义、不同句式的多条训练语句；训练程序模块13用于通过所述多条训练语句对语义理解系统进行训练。

进一步地，所述语义槽位的性质包括：动作、对象、不必要、槽位顺序不限制；

所述句式扩展程序模块用于：

进一步地，所述训练程序模块用于：

通过所述多条训练语句以及预设模糊匹配规则构建规则解析引擎，用于语义理解。

进一步地，所述训练程序模块还用于：

进一步地，所述词表知识库以及句式知识库为预先构建，其中，词表知识库包括同义词词汇库，以用于减少语义理解的词汇差异，所述句式知识库包括带有词性标注句式，以用于减少语义理解的句式差异。

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的语义理解系统的训练方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

通过所述多条训练语句对语义理解系统进行训练。

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的语义理解系统的训练方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的语义理解系统的训练方法的步骤。

本申请实施例的客户端以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据处理功能的电子装置。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语义理解系统的训练方法，包括：

识别训练样句中各词语的对应的语义槽位，通过词表知识库确定各语义槽位对应的性质，其中，所述语义槽位对应的性质包括：动作、对象、不必要、槽位顺序不限制；

基于各语义槽位的不同性质，利用句式知识库对所述训练样句进行不同方式的扩展，生成与所述训练样句同义、不同句式的多条训练语句，包括：

当所述词语的语义槽位的性质为槽位顺序不限制时，在扩展时改变所述词语在所述训练样句中的位置；

通过所述多条训练语句对语义理解系统进行训练。

2.根据权利要求1所述的方法，其中，所述通过所述多条训练语句对语义理解系统进行训练包括：

3.根据权利要求1所述的方法，其中，所述通过所述多条训练语句对语义理解系统进行训练还包括：

4.根据权利要求1所述的方法，其中，所述词表知识库以及句式知识库为预先构建，其中，词表知识库包括同义词词汇库，以用于减少语义理解的词汇差异，所述句式知识库包括带有词性标注句式，以用于减少语义理解的句式差异。

5.一种语义理解系统的训练系统，包括：

槽位性质确定程序模块，用于识别训练样句中各词语的对应的语义槽位，通过词表知识库确定各语义槽位对应的性质，其中，所述语义槽位对应的性质包括：动作、对象、不必要、槽位顺序不限制；

句式扩展程序模块，用于基于各语义槽位的不同性质，利用句式知识库对所述训练样句进行不同方式的扩展，生成与所述训练样句同义、不同句式的多条训练语句，包括：

6.根据权利要求5所述的系统，其中，所述训练程序模块用于：

7.根据权利要求5所述的系统，其中，所述训练程序模块还用于：

8.根据权利要求5所述的系统，其中，所述词表知识库以及句式知识库为预先构建，其中，词表知识库包括同义词词汇库，以用于减少语义理解的词汇差异，所述句式知识库包括带有词性标注句式，以用于减少语义理解的句式差异。