CN109344393B

CN109344393B - 一种主干语句的提取方法及系统

Info

Publication number: CN109344393B
Application number: CN201810995542.5A
Authority: CN
Inventors: 王星光
Original assignee: Beijing Yunzhisheng Information Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2018-08-29
Filing date: 2018-08-29
Publication date: 2023-04-07
Anticipated expiration: 2038-08-29
Also published as: CN109344393A

Abstract

本发明提供了一种主干语句的提取方法及系统，其中，所述方法包括：构建非主干信息模式库，所述非主干信息模式库中包括多个非主干信息项，所述非主干信息项包括一个非主干文本，及其关联的若干约束模式；获取待处理的目标语句，并识别所述目标语句的词汇序列特征、词性序列特征以及命名实体特征；根据针对所述目标语句的识别结果，从所述目标语句中确定出与所述非主干信息模式库中的非主干文本相匹配的目标非主干文本；判断所述目标非主干文本是否需要被标记为非主干成分，并根据判断结果，提取所述目标语句中的主干语句。本申请提供的技术方案，能够提高主干语句的提取精度。

Description

一种主干语句的提取方法及系统

技术领域

本发明涉及语句处理技术领域，特别涉及一种主干语句的提取方法及系统。

背景技术

目前，为了简化对话系统中的语句，通常会提取对话中的主干语句。现有对话系统的主干语句的提取方法通常是抽取出句子的主谓宾句法成分，再将抽取出的成分组成新的语句，参与到对话系统的语义理解当中去。

然而，现有方案中，主干提取之后的句子丢失了语义信息，与原句可能存在语义不一致性，甚至可能会出现逻辑错误。例如，句子「爸爸的爸爸是爷爷」中，抽取句法主干成分是「爸爸是爷爷」，从而会造成对话系统的语义理解偏差甚至是谬误。

发明内容

本申请的目的在于提供一种主干语句的提取方法及系统，能够提高主干语句的提取精度。

为实现上述目的，本申请提供一种主干语句的提取方法，所述方法包括：构建非主干信息模式库，所述非主干信息模式库中包括多个非主干信息项，所述非主干信息项包括一个非主干文本，及其关联的若干约束模式；获取待处理的目标语句，并识别所述目标语句的词汇序列特征、词性序列特征以及命名实体特征；根据针对所述目标语句的识别结果，从所述目标语句中确定出与所述非主干信息模式库中的非主干文本相匹配的目标非主干文本；判断所述目标非主干文本是否需要被标记为非主干成分，并根据判断结果，提取所述目标语句中的主干语句。

进一步地，判断所述目标非主干文本是否需要被标记为非主干成分包括：

若所述目标非主干文本不具备关联的约束模式，将所述目标非主干文本标记为非主干成分。

进一步地，所述非主干信息项中还包括与所述非主干文本相关联的至少一个约束模式；

相应地，判断所述目标非主干文本是否需要被标记为非主干成分包括：

判断与所述目标非主干文本关联的约束模式在所述目标语句中是否均满足，若均满足，将所述目标非主干文本标记为非主干成分。

进一步地，根据判断结果，提取所述目标语句中的主干语句包括：

将所述目标语句中标记为非主干成分的目标非主干文本删除，得到所述目标语句的主干语句。

进一步地，在识别所述目标语句的词汇序列特征、词性序列特征以及命名实体特征之后，所述方法还包括：

将所述目标语句中所述命名实体特征指向的名词用实体标签替代，得到替代语句；

相应地，从所述替代语句中确定出与所述非主干信息模式库中的非主干文本相匹配的目标非主干文本。

进一步地，在提取所述目标语句中的主干语句之后，所述方法还包括：

将所述主干语句中的实体标签还原为对应的实体名词。

为实现上述目的，本申请还提供一种主干语句的提取系统，所述系统包括：非主干信息模式库构建单元，用于构建非主干信息模式库，所述非主干信息模式库中包括多个非主干信息项，所述非主干信息项包括一个非主干文本，及其关联的若干约束模式；特征识别单元，用于获取待处理的目标语句，并识别所述目标语句的词汇序列特征、词性序列特征以及命名实体特征；非主干文本匹配单元，用于根据针对所述目标语句的识别结果，从所述目标语句中确定出与所述非主干信息模式库中的非主干文本相匹配的目标非主干文本；主干语句提取单元，用于判断所述目标非主干文本是否需要被标记为非主干成分，并根据判断结果，提取所述目标语句中的主干语句。

进一步地，所述主干语句提取单元包括：

标记模块，用于若所述目标非主干文本不具备关联的约束模式，将所述目标非主干文本标记为非主干成分。

相应地，所述主干语句提取单元包括：

约束模式判断模块，用于判断与所述目标非主干文本关联的约束模式在所述目标语句中是否均满足，若均满足，将所述目标非主干文本标记为非主干成分。

进一步地，所述主干语句提取单元包括：

非主干文本删除模块，用于将所述目标语句中标记为非主干成分的目标非主干文本删除，得到所述目标语句的主干语句。

由上可见，与传统的句法主干提取方法相比，本申请提供的技术方案，保持了语义一致性，避免了文本缩减过程中可能的语义理解偏差或语义谬误。此外，通过缩减文本，减轻了句子中非关键文本带来的理解负担，提高语义理解引擎的准确性。再者，本申请中的主干语句的提取方法，是基于规则的提取方法，因此可以成本较低地做到领域规则定制与快速实施。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中主干语句的提取方法的流程图；

图2为本发明实施例中主干语句的提取系统的功能模块图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

请参阅图1，本申请提供一种主干语句的提取方法，所述方法包括：

S1：构建非主干信息模式库，所述非主干信息模式库中包括多个非主干信息项，所述非主干信息项包括一个非主干文本，及其关联的若干约束模式；

S2：获取待处理的目标语句，并识别所述目标语句的词汇序列特征、词性序列特征以及命名实体特征；

S3：根据针对所述目标语句的识别结果，从所述目标语句中确定出与所述非主干信息模式库中的非主干文本相匹配的目标非主干文本；

S4：判断所述目标非主干文本是否需要被标记为非主干成分，并根据判断结果，提取所述目标语句中的主干语句。

在一个实施方式中，判断所述目标非主干文本是否需要被标记为非主干成分包括：

在一个实施方式中，所述非主干信息项中还包括与所述非主干文本相关联的至少一个约束模式；

在一个实施方式中，根据判断结果，提取所述目标语句中的主干语句包括：

在一个实施方式中，在识别所述目标语句的词汇序列特征、词性序列特征以及命名实体特征之后，所述方法还包括：

在一个实施方式中，在提取所述目标语句中的主干语句之后，所述方法还包括：

将所述主干语句中的实体标签还原为对应的实体名词。

在一个具体的应用实例中，本申请的技术方案可以按照以下步骤执行：

第1步：构建非主干信息模式库。非主干信息模式库由多个非主干信息项构成。一个非主干信息项包含一个非主干文本，以及零到多个约束模式。非主干文本是指句子中连续出现的非主干词序列，是句子中潜在的待删除内容；约束模式描述了非主干文本在句中的位置、或者是其上下文的特征序列模式（词汇序列、词性/命名实体序列，或者混合序列）。若一个句子中潜在的非主干文本的约束模式均被激活，则该非主干文本在句中被标记为非主干成分；若非主干文本的约束模式数为零，则出现在句子中的非主干文本默认被激活。

第2步：将输入的句子（假设该句子记为S）进行自然语义分析，解析出句子的词汇序列特征、词性序列特征、命名实体特征。

第3步：将句子S中的命名实体词用命名实体标签替代，得到句子P。

第4步：将句子P从左向右扫描，若遇到一段连续词汇匹配到了非主干信息模式库的一个非主干文本，则转向第5步；否则转向第6步。

第5步：当该非主干文本的约束模式数为零，则句子P中相应被匹配到的词汇序列被标记为非主干成分；当该非主干文本的约束模式数大于零，则检查是否所有的约束模式在句子中均被满足，若约束模式均被满足，则句子P中相应被匹配到的词汇序列被标记为非主干成分。继续转向第4步。

第6步：将句子P中标记为非主干的所有词汇删除，并将剩余句中的命名实体标签还原成命名实体词，得到句子F。句子F即提取的语义主干。

具体的，非主干信息模式库可以表示为：

信息项1：非主干文本=「那」，约束模式={位置=句首}

信息项2：非主干文本=「你」，约束模式={右侧词汇序列=能不能|可不可以|能否|...}

信息项3：非主干文本=「给我」，约束模式={右侧词性序列=动词}

信息项4：非主干文本=「谢谢」，约束模式={位置=句末}

信息项5：非主干文本=「能不能」，约束模式=空

信息项6：非主干文本=「呀」，约束模式=空

下面描述一个具体的应用实例：

输入句子S：

那你能不能给我播放一首刘某某的来生缘呀谢谢。

分词与词性标注：

那/c 你/r 能/v 不/d 能/v 给/v 我/r播放/v一/m 首/q 刘某某/nh 的/u 来生/b 缘/n 呀/u 谢谢/v

命名实体识别：

刘某某-> %singer%，来生缘 –> %song%

句子P：

那你能不能给我播放一首%singer%的%song%呀谢谢。

标记非主干成分：

那/非主干你/非主干能不能/非主干给我/非主干播放一首 %singer% 的 %song% 呀/非主干谢谢/非主干

得到句子F：

播放一首刘某某的来生缘。

上述词性标注的过程中，c表示连词，r表示代词，v表示动词，d表示副词，m表示数词，q表示量词，nh表示实体名词，u表示助词，b表示区别词，n表示名词。

上述命名实体识别的过程中，%singer%表示歌手实体名词，%song%表示歌曲实体名词。

请参阅图2，本申请还提供一种主干语句的提取系统，所述系统包括：

非主干信息模式库构建单元，用于构建非主干信息模式库，所述非主干信息模式库中包括多个非主干信息项，所述非主干信息项包括一个非主干文本，及其关联的若干约束模式；

特征识别单元，用于获取待处理的目标语句，并识别所述目标语句的词汇序列特征、词性序列特征以及命名实体特征；

非主干文本匹配单元，用于根据针对所述目标语句的识别结果，从所述目标语句中确定出与所述非主干信息模式库中的非主干文本相匹配的目标非主干文本；

主干语句提取单元，用于判断所述目标非主干文本是否需要被标记为非主干成分，并根据判断结果，提取所述目标语句中的主干语句。

在一个实施方式中，所述主干语句提取单元包括：

相应地，所述主干语句提取单元包括：

在一个实施方式中，所述主干语句提取单元包括：

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种主干语句的提取方法，其特征在于，所述方法包括：

构建非主干信息模式库，所述非主干信息模式库中包括多个非主干信息项，所述非主干信息项包括一个非主干文本，及其关联的若干约束模式；

获取待处理的目标语句，并识别所述目标语句的词汇序列特征、词性序列特征以及命名实体特征；

根据针对所述目标语句的识别结果，从所述目标语句中确定出与所述非主干信息模式库中的非主干文本相匹配的目标非主干文本；

判断所述目标非主干文本是否需要被标记为非主干成分，并根据判断结果，提取所述目标语句中的主干语句；

判断所述目标非主干文本是否需要被标记为非主干成分包括：

若所述目标非主干文本不具备关联的约束模式，将所述目标非主干文本标记为非主干成分；

根据判断结果，提取所述目标语句中的主干语句包括：

2.根据权利要求1所述的方法，其特征在于，所述非主干信息项中还包括与所述非主干文本相关联的至少一个约束模式；

3.根据权利要求1所述的方法，其特征在于，在识别所述目标语句的词汇序列特征、词性序列特征以及命名实体特征之后，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，在提取所述目标语句中的主干语句之后，所述方法还包括：

将所述主干语句中的实体标签还原为对应的实体名词。

5.一种主干语句的提取系统，其特征在于，所述系统包括：

主干语句提取单元，用于判断所述目标非主干文本是否需要被标记为非主干成分，并根据判断结果，提取所述目标语句中的主干语句；

标记模块，用于若所述目标非主干文本不具备关联的约束模式，将所述目标非主干文本标记为非主干成分；

所述主干语句提取单元包括：

6.根据权利要求5所述的系统，其特征在于，所述非主干信息项中还包括与所述非主干文本相关联的至少一个约束模式；

相应地，所述主干语句提取单元包括：