CN112347772A

CN112347772A - 一种语义解析方法和装置

Info

Publication number: CN112347772A
Application number: CN202010815893.0A
Authority: CN
Inventors: 孙孝雄
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2020-08-14
Filing date: 2020-08-14
Publication date: 2021-02-09

Abstract

本申请提供了一种语义解析方法和装置，所述方法包括：获取话术；识别所述话术中的关键词；使用识别出的关键词匹配语义模板的模板索引；将匹配到的模板索引对应的语义模板作为候选模板；在所述候选模板中对所述话术进行模板匹配，并根据匹配到的语义模板输出语义解析结果；其中，所述模板索引为加载所述语义模板时根据所述语义模板的组成单元信息生成的。该方法能够大大节省解析时间，以及解析资源。

Description

一种语义解析方法和装置

技术领域

本发明涉及计算机技术领域，特别涉及一种语义解析方法和装置。

背景技术

规则语义解析引擎，通过书写规则模板的方式，实现自然语言处理任务中的语义解析任务,如斯坦福大学的开源项目corenlp。在语义解析过程中，需要将输入话术，依次与所有书写的模板进行匹配，直到找到匹配的模板，输出语义解析结果。

目前实现话术的语义解析时，需要将输入话术，依次与所有语义模板进行匹配，直到找到匹配的模板，进行语义解析。

在实现本申请的过程中，发明人发现当模板量比较大时，耗时会非常长；且如果需要获取多候选的结果时，需要全量匹配模板，耗时更长，且浪费资源。

发明内容

有鉴于此，本申请提供一种语义解析方法和装置，能够大大节省解析时间，以及解析资源。

为解决上述技术问题，本申请的技术方案是这样实现的：

在一个实施例中，提供了一种语义解析方法，所述方法包括：

获取话术；

识别所述话术中的关键词；

使用识别出的关键词匹配语义模板的模板索引；

将匹配到的模板索引对应的语义模板作为候选模板；

在所述候选模板中对所述话术进行模板匹配，并根据匹配到的语义模板输出语义解析结果；

其中，所述模板索引为加载所述语义模板时根据所述语义模板的组成单元信息生成的。

在另一个实施例中，提供了一种义解析装置，所述装置包括：建立单元、获取单元、识别单元、第一匹配单元、第二匹配单元和输出单元；

所述建立单元，用于加载语义模板时根据所述语义模板的组成单元信息生成所述语义模板的模板索引；

所述获取单元，用于获取话术；

所述识别单元，用于识别所述获取单元获取的话术中的关键词；

所述第一匹配单元，用于使用所述识别单元识别出的关键词匹配所述建立单元建立的语义模板的模板索引；将匹配到的模板索引对应的语义模板作为候选模板。

所述第二匹配单元，用于在所述第一匹配单元匹配到的候选模板中对所述话术进行模板匹配；

所述输出单元，用于根据所述第二匹配单元匹配到的语义模板输出语义解析结果。

在另一个实施例中，提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现语义解析方法的步骤。

在另一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现语义解析方法的步骤。

由上面的技术方案可见，上述实施例中在进行模板匹配时，先提取话术中的关键词，匹配语义模的模板索引，将匹配到的模板索引对应的语义模板作为候选模板；在所述候选模板中对所述话术进行模板匹配，并根据匹配到的语义模板输出语义解析结果。该方案先从大量语义模板中通过索引匹配筛选出候选模板，再对候选的语义模板进行匹配，用于进行语义解析，能够大大节省解析时间，以及解析资源。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例中的一个语义模板对应的内容的示意图；

图2为本申请实施例中语义模板中的nameGroup所示内容；

图3为本申请实施例一中语义解析流程示意图；

图4为本申请实施例中的另一个语义模板对应内容的示意图；

图5为本申请实施例二中语义解析流程示意图；

图6为本申请实施例三中语义解析流程示意图；

图7为本申请实施例四中语义解析流程示意图；

图8为本申请实施例中应用于上述技术的装置结构示意图；

图9为本发明实施例提供的电子设备的实体结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或单元。

下面以具体实施例对本发明的技术方案进行详细说明。下面几个具体实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

本申请实施例中提供一种语义解析方法，在加载模板时，为每个语义模板根据组成单元信息生成模板引擎，在进行模板匹配时，先提取话术中的关键词，匹配语义模的模板索引，将匹配到的模板索引对应的语义模板作为候选模板；在所述候选模板中对所述话术进行模板匹配，并根据匹配到的语义模板输出语义解析结果。该方案先从大量语义模板中通过索引匹配筛选出候选模板，再对候选的语义模板进行匹配，用于进行语义解析，能够大大节省解析时间，以及解析资源。

语义解析模板应用于语义解析装置上，所述装置可以为一台PC，或服务器。

本申请实施例中，需在加载语义模板时，进行模板引擎的建立，具体如下：

语义解析引擎加载语义模板时，将每条模板加载到一个ActionTemplate中，每条语义模板包括的内容包括：(语义模板的每个组成单元)nameGroup，(语义模板的正则表达式)ActionPattern，(语义模板对应的语义结果)semantic等，通过nameGroup信息为每条模板建立模板索引，为了达到加速语义匹配的效果。

参见图1，图1为本申请实施例中的一个语义模板对应的内容的示意图。图1中的方框所框内容为一个ActionPattern，由多个nameGroup组成。

参见图2，图2为本申请实施例中语义模板中的nameGroup所示内容。图2中的每一个synset即为一个nameGroup；

其中，name是分组的名称，同时也是模板书写过程中需要用到的名称，如图一方框中对应的【播放】即是使用synset“播放”的内容。

其中core_term是分组的描述解释，便于理解；

其中expr是该分组的具体内容，支持正则表达式，支持引用(即一个组可以引用其他组的内容，比如【播放】实际的expr就是引用【播个】和【放】两个组中的内容)，当模板中使用name对应的分组的时候，实际最终编译的模板正则表达式使用的具体内容即为expr中的内容，比如【播放】，实际内容即为一个正则表达式：(来|放|播)(个)|放一首|放一个|来一首|播放|听听。

一个语义模板对应的语义结果即为图1中CDATA中的JSON数据。

实施例一

参见图3，图3为本申请实施例一中语义解析流程示意图。具体步骤为：

步骤301，获取话术。

所述话术可以为客户端发送的解析请求中携带的信息，也可以是通过拷贝等方式存到本语义解析装置上的，本申请实施例中对获取话术的方式不进行限制。

所述话术可以为待进行语义解析的文本，也可以是待进行语义解析的视频、图片等转化为的文本。

步骤302，识别所述话术中的关键词。

所述话术的关键词的具体识别，根据建立模板索引时所使用的nameGroup信息对应的内容进行关键词识别。

如使用命名实体建立模板索引，则所述关键词为命名实体；如使用命名组建立模板索引，则所述关键词为命名组。

步骤303，使用识别出的关键词匹配语义模板的模板索引。

这里匹配的是语义模板的模板索引，而不是模板本身，大大减少时间与工作量。

步骤304，将匹配到的模板索引对应的语义模板作为候选模板。

匹配到的模板索引的语义模板作为候选模板，未匹配到模板索引对应的语义模板则不用于进一步的模板匹配，相当于过滤掉这些模板，减少语义模板的匹配量。

步骤305，在所述候选模板中对所述话术进行模板匹配，并根据匹配到的语义模板输出语义解析结果。

如何进行模板的匹配，本申请具体实施例中不进行限制，可以使用现有匹配方法进行匹配。

本实施例中在进行模板匹配时，先提取话术中的关键词，匹配语义模的模板索引，将匹配到的模板索引对应的语义模板作为候选模板；在所述候选模板中对所述话术进行模板匹配，并根据匹配到的语义模板输出语义解析结果。该方案先从大量语义模板中通过索引匹配筛选出候选模板，再对候选的语义模板进行匹配，用于进行语义解析，能够大大节省解析时间，以及解析资源。

实施例二

本实施例中以命名实体建立模板索引，则识别话术中的关键词时，识别的是命名实体。

通过nameGroup信息为每条模板建立模板索引：

当所述语义模板中包括命名实体时，所述语义模板的模板索引由命名实体组成；

当所述语义模板中不包括命名实体时，所述语义模板的模板索引为指定模板索引。

也就是说将不包括命名实体的语义模板通过指定模板索引划分为一类语义模板。

该实施例适用于实体类别众多，且非实体类别的级数大大小于实体类别的级数的场景中。

如智能音箱通用识别领域，包含的实体类别为：音乐、人名、地名、视频、歌手、演员等。

以图1的语义模板为例，其模板索引为：％singer％-％song％。

参见图4，图4为本申请实施例中的另一个语义模板对应内容的示意图。图4中的语义模板中不存在实体，因此为该模板指定模板索引，如使用未被使用的字母、符号，数字，以及其任意组合作为该语义模板的模板索引，如2233等。

参见图5，图5为本申请实施例二中语义解析流程示意图。具体步骤为：

步骤501，获取话术。

步骤502，识别所述话术中的命名实体。

具体实现时，通过命名实体识别结果，获得所述话术中存在的命名实体类别。

步骤503，若识别出命名实体，则使用识别出的命名实体匹配语义模板的模板索引；将匹配到的模板索引对应的语义模板作为候选模板。执行步骤505。

当识别出多个命名实体时，所述使用识别出的命名实体匹配语义模板的模板索引，包括：

使用识别出的多个命名实体匹配模板索引；

当多个命名实体均与模板索引匹配时，确定所述多个命名实体与所述模板索引匹配。

也就是说，在一个模板索引中如果识别出的命名实体全部都存在，则认为识别出的命名实体与所述模板索引匹配；否则，认为不匹配。

假设待进行语义解析的话术为播放刘德华的忘情水，经过命名实体识别后，处理后为：播放％singer％的％song％，则认为话术中存在的实体为：％singer％，％song％。

这样的话术需匹配到模板索引中包含％singer％和％song％的语义模板，否则过滤；比如：如果模板索引中不包含：％singer％且％song％中任意一个，则过滤；如果存在一个模板：【我要听】％singer％【歌曲】％song％，包含候选中的％singer％，％song％，我们也会将其筛选出，作为我们的候选模板。模板：【来一首】％song％，因为不包含％singer％将不会筛选出；如图1中的语义模板，则会筛选出作为候选模板。

步骤504，若未识别出命名实体，则使用指定模板索引对应语义模板作为候选模板。

步骤505，在所述候选模板中对所述话术进行模板匹配，并根据匹配到的语义模板输出语义解析结果。

在3万语义模板量级的情况下：不使用索引耗时500+ms→使用索引耗时30ms以内，效果显著。

本实施例中在进行模板匹配时，先识别话术中的命名实体，识别出命名实体使用所述命名实体匹配语义模的模板索引，将匹配到的模板索引对应的语义模板作为候选模板；未识别出命名实体时，使用指定模板索引对应的语义模板作为候选模板；在所述候选模板中对所述话术进行模板匹配，并根据匹配到的语义模板输出语义解析结果。该方案先从大量语义模板中通过索引匹配筛选出候选模板，再对候选的语义模板进行匹配，用于进行语义解析，能够大大节省解析时间，以及解析资源。

实施例三

本实施例中以命名实体和命名组建立模板索引，则识别话术中的关键词时，首先识别命名实体，命名实体不存在时，识别命名组。

通过nameGroup信息为每条模板建立模板索引：

当所述语义模板中不包括命名实体时，所述语义模板的模板索引由命名组组成。

也就是说将不包括命名实体的语义模板通过命名组继续进行类别划分。

该实施例适用于实体类别众多，且非实体的模板也比较多的场景。

以图1的语义模板为例，其模板索引为：％singer％-％song％。

以图3的语义模板为例，其模板索引为：播放-singer_1-song。

参见图6，图6为本申请实施例三中语义解析流程示意图。具体步骤为：

步骤601，获取话术。

步骤602，识别所述话术中的命名实体。

步骤603，若识别出命名实体，则使用识别出的命名实体匹配语义模板的模板索引；将匹配到的模板索引对应的语义模板作为候选模板。执行步骤605。

使用识别出的多个命名实体匹配模板索引；

步骤604，若未识别出命名实体，则识别所述话术中的命名组；并使用识别组的命名组匹配语义模板的模板索引；将匹配到的模板索引对应的语义模板作为候选模板。

当识别出的命名组对应多个命名组时，所述使用识别出的命名组匹配语义模板的模板索引，包括：

使用识别出的多个命名组匹配模板索引；

当多个命名实体中至少存在一个命名组与模板索引匹配时，确定所述多个命名组与所述模板索引匹配。

比如：从话术识别出的命名组包含三个，如：播放、singer_1、song，如果模板索引中不包含：播放，singer_1、song中任意一个，则过滤掉，不作为候选语义模板；如果存在一个模板，其模板索引为播放-actor-video，其包含命名组中的播放，则将其筛选出，作为候选的语义模板。

步骤605，在所述候选模板中对所述话术进行模板匹配，并根据匹配到的语义模板输出语义解析结果。

本实施例中在进行模板匹配时，先识别话术中的命名实体，识别出命名实体使用所述命名实体匹配语义模的模板索引，将匹配到的模板索引对应的语义模板作为候选模板；未识别出命名实体时，识别话术中的命名组，使用所述命名组匹配语义模的模板索引，将匹配到的模板索引对应的语义模板作为候选模板；在所述候选模板中对所述话术进行模板匹配，并根据匹配到的语义模板输出语义解析结果。该方案先从大量语义模板中通过索引匹配筛选出候选模板，再对候选的语义模板进行匹配，用于进行语义解析，能够大大节省解析时间，以及解析资源。

实施例四

本实施例中通过命名组建立模板索引，则识别话术中的关键词时，识别命名组。

通过nameGroup信息为每条模板建立模板索引：

通过对语义模板的命名组内容进行解析，建立语义模板的模板索引；所述模板索引由命名组组成。

以图1的语义模板为例，其模板索引为：播放-％singer％-％song％。

以图3的语义模板为例，其模板索引为：播放-singer_1-song。

该实施例使用于实体类别单一场景。

参见图7，图7为本申请实施例四中语义解析流程示意图。具体步骤为：

步骤701，获取话术。

步骤702，识别所述话术中的命名组。

通过整合的数据，识别存在于所述话术中的所有命名组。

步骤703，使用识别出的命名组匹配语义模板的模板索引；将匹配到的模板索引对应的语义模板作为候选模板。

当识别出的命名组为多个时，所述使用识别出的命名组匹配语义模板的模板索引，包括：

使用识别出的多个命名组匹配模板索引；

当多个命名组中至少存在一个命名组与模板索引匹配时，确定所述多个命名组与所述模板索引匹配。

步骤704，在所述候选模板中对所述话术进行模板匹配，并根据匹配到的语义模板输出语义解析结果。

在3万语义模板量级的情况下：不使用索引耗时500+ms→使用索引耗时50ms以内，效果显著，在优化后，模板量级达到5万时，耗时同样稳定在50ms以内。极大的降低了处理时间和资源耗费，提升了服务的性能。

本实施例中在进行模板匹配时，识别话术中的命名组，使用所述命名组匹配语义模的模板索引，将匹配到的模板索引对应的语义模板作为候选模板；在所述候选模板中对所述话术进行模板匹配，并根据匹配到的语义模板输出语义解析结果。该方案先从大量语义模板中通过索引匹配筛选出候选模板，再对候选的语义模板进行匹配，用于进行语义解析，能够大大节省解析时间，以及解析资源。

基于同样的发明构思，本申请实施例中还提供一种语义解析装置。参见图8，图8为本申请实施例中应用于上述技术的装置结构示意图。所述装置包括：建立单元801、获取单元802、识别单元803、第一匹配单元804、第二匹配单元805和输出单元806；

建立单元801，用于加载语义模板时根据所述语义模板的组成单元信息生成所述语义模板的模板索引；

获取单元802，用于获取话术；

识别单元803，用于识别获取单元802获取的话术中的关键词；

第一匹配单元804，用于使用识别单元803识别出的关键词匹配建立单元建立的语义模板的模板索引；将匹配到的模板索引对应的语义模板作为候选模板第二匹配单元805，用于在第一匹配单元804匹配到的候选模板中对所述话术进行模板匹配；

输出单元506，用于根据第二匹配单元805匹配到的语义模板输出语义解析结果。

优选地，

建立单元801，具体用于当所述语义模板中包括命名实体时，所述语义模板的模板索引由命名实体组成；

识别单元803，具体用于识别的关键词为命名实体。

优选地，

第一匹配单元804，具体用于当识别出的关键词包括多个命名实体时，所述使用识别出的关键词匹配语义模板的模板索引，包括：使用识别出的多个命名实体匹配模板索引；当多个命名实体均与模板索引匹配时，确定所述多个命名实体与所述模板索引匹配。

优选地，

建立单元801，具体用于当所述语义模板中不包括命名实体时，所述语义模板的模板索引为指定模板索引；

第一匹配单元804，进一步用于当识别单元803若未识别出命名实体，则使用指定模板索引对应语义模板作为候选模板。

优选地，

建立单元801，具体用于当所述语义模板中不包括命名实体时，所述语义模板的模板索引由命名组组成；

识别单元803，进一步用于若未识别出命名实体，则识别所述话术中的命名组；

第一匹配单元804，进一步用于使用识别出的命名组匹配语义模板的模板索引。

优选地，

建立单元801，具体用于建立的所述语义模板的模板索引由命名组组成；

识别单元803，具体用于识别的所述关键词为命名组。

优选地，

第一匹配单元804，具体用于当识别出的关键词对应多个命名组时，所述使用识别出的关键词匹配语义模板的模板索引，包括：使用识别出的多个命名组匹配模板索引；当多个命名组中至少存在一个命名组与模板索引匹配时，确定所述多个命名组与所述模板索引匹配。

优选地，所述语义模板包括：

组成单元、正则表达式和语义结果；

上述实施例的单元可以集成于一体，也可以分离部署；可以合并为一个单元，也可以进一步拆分成多个子单元。

在另一个实施例中，还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述语义解析方法的步骤。

在另一个实施例中，还提供一种计算机可读存储介质，其上存储有计算机指令，所述指令被处理器执行时可实现所述语义解析方法中的步骤。

图9为本发明实施例提供的9电子设备的实体结构示意图。如图9所示，该电子设备可以包括：处理器(Processor)910、通信接口(Communications Interface)920、存储器(Memory)930和通信总线940，其中，处理器910，通信接口920，存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令，以执行如下方法：

获取话术；

识别所述话术中的关键词；

使用识别出的关键词匹配语义模板的模板索引；

将匹配到的模板索引对应的语义模板作为候选模板；

此外，上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种语义解析方法，其特征在于，所述方法包括：

获取话术；

识别所述话术中的关键词；

使用识别出的关键词匹配语义模板的模板索引；

将匹配到的模板索引对应的语义模板作为候选模板；

2.根据权利要求1所述的方法，其特征在于，

所述关键词为命名实体。

3.根据权利要求2所述的方法，其特征在于，

当识别出的关键词包括多个命名实体时，所述使用识别出的关键词匹配语义模板的模板索引，包括：

使用识别出的多个命名实体匹配模板索引；

4.根据权利要求2所述的方法，其特征在于，

当所述语义模板中不包括命名实体时，所述语义模板的模板索引为指定模板索引；

所述方法进一步包括：

若未识别出命名实体，则使用指定模板索引对应语义模板作为候选模板。

5.根据权利要求2所述的方法，其特征在于，

当所述语义模板中不包括命名实体时，所述语义模板的模板索引由命名组组成；

所述方法进一步包括：

若未识别出命名实体，则识别所述话术中的命名组；

使用识别出的命名组匹配语义模板的模板索引。

6.根据权利要求1所述的方法其特征在于，

所述语义模板的模板索引由命名组组成；

所述关键词为命名组。

7.根据权利要求2所述的方法，其特征在于，

当识别出的关键词对应多个命名组时，所述使用识别出的关键词匹配语义模板的模板索引，包括：

使用识别出的多个命名组匹配模板索引；

8.根据权利要求1-7任一项所述的方法，其特征在于，所述语义模板包括：

组成单元、正则表达式和语义结果。

9.一种语义解析装置，其特征在于，所述装置包括：建立单元、获取单元、识别单元、第一匹配单元、第二匹配单元和输出单元；

所述获取单元，用于获取话术；

所述第一匹配单元，用于使用所述识别单元识别出的关键词匹配所述建立单元建立的语义模板的模板索引；将匹配到的模板索引对应的语义模板作为候选模板；其中；

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-8任一项所述的方法。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-8任一项所述的方法。