CN115062625A

CN115062625A - 一种基于意图识别的语义拆分信息提取的实现方法

Info

Publication number: CN115062625A
Application number: CN202210731813.2A
Authority: CN
Inventors: 李铮; 代晓菊; 孙海; 蒋润青; 邵琳钰
Original assignee: Shanghai Ideal Information Industry Group Co Ltd
Current assignee: Shanghai Ideal Information Industry Group Co Ltd
Priority date: 2022-06-26
Filing date: 2022-06-26
Publication date: 2022-09-16

Abstract

本发明涉及智能客服及自然语言处理技术领域，且公开了一种基于意图识别的语义拆分信息提取的实现方法，包括以下步骤：S1：分词与词性标注，在自动填单文本输入的过程中输入长文本S，并对输入长文本S进行分词与词性标注，得到标注序列T；S2：业务要素识别，根据预设的业务要素规则，基于语义序列匹配算法对标注对象进行业务要素识别，生成新序列E；S3：定位意图边界，识别序列E中出现的主谓宾结构，定位意图边界。本发明采用了基于意图的业务内容提取方法，能够准确地将业务动作与业务对象相关联，尤其适合处理包含了多种业务场景的长文本，在处理复合业务的场景时能够划分不同的意图区域，每个场景都能保证自身的准确性。

Description

一种基于意图识别的语义拆分信息提取的实现方法

技术领域

本发明涉及智能客服及自然语言处理技术领域，具体为一种基于意图识别的语义拆分信息提取的实现方法。

背景技术

随着科技的进步，智能设备越来越多，功能也越来越强大。例如各种多媒体播放器(如电视、手机、相机等)不仅能够接入互联网，实现上网冲浪，获取各种网络资源；或者基于RPA系统的自动填单模式。目前生产环境大量使用的技术，只支持结构化数据，数据的梳理完全依赖人工，无法做到全程自动处理。

目前基于机器学习的自动填单模式的运行中，对训练样本依赖性大，难以进行人工干预和规则制定，另外在处理复合场景时难以区分意图边界，准确度较差，因此提出一种基于意图识别的语义拆分信息提取的实现方法。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种基于意图识别的语义拆分信息提取的实现方法，为了从长文本中提取真实业务信息需要解读一线人员真正的意图，从而准确的提取业务信息，需要通过识别动词词性抽取出用户意图，并根据用户意图对长文本进行短句切分，从短句中抽取出相应的业务要素，实现长文本的结构化转换。

(二)技术方案

为实现上述目的，本发明提供如下技术方案：

一种基于意图识别的语义拆分信息提取的实现方法，包括以下步骤：

S1：分词与词性标注，在自动填单文本输入的过程中输入长文本S，并对输入长文本S进行分词与词性标注，得到标注序列T{t₁,t₂…t_n}；

S2：业务要素识别，根据预设的业务要素规则，基于语义序列匹配算法对标注对象进行业务要素识别，生成新序列E{e₁,e₂,…e_n}；

S3：定位意图边界，识别序列E中出现的主谓宾结构，定位意图边界；

S4：文本切分，根据意图边界，将文本切分为短句集合P；

S5：识别业务场景，根据预设的业务场景特征规则，识别集合P中分句关联的业务场景，得到业务场景集合以及每个业务场景和短句的关联；

S6：生成工单，根据预设的业务场景字段规则，从当前业务场景关联的短句中，提取有效的业务要素填充到对应工单字段中，为每个业务场景生成工单。

作为本发明再进一步的方案，所述S2中预设的业务要素规则组成形式为词性、文本、逻辑运算符、推理运算符构成的正则序列，如果标注序列中的某段子序列满足规则条件，则进行业务要素转换。所有的规则条目会按照优先级顺序依次检查，从而完成要素识别。

进一步的，所述S2中在规则的组成序列中，三种类型的规则元素所代表的含义包括：词性或文本型、逻辑运算符型、逻辑推理型，词性或文本型为直接比对标注对象的文本或词性，逻辑运算符型用来描述规则元素之间的联系，相邻的距离限制、顺序等价性、逻辑的是、否、与、或操作、通配符，逻辑推理型中表示如规则带有逻辑推理，则需要最后将标注序列作为参数，输入到规则对应的知识推理机中进行实体识别。

在前述方案的基础上，所述S2中在运行时还包括如下步骤：

S201，每条规则从标注序列T的每一个元素t_x作为起点，进行连续子序列遍历检查；

S202，对规则序列中的每个规则对象，检查子序列中对应标注对象是否满足要求，规则对象中的词性和文本类对象直接进行比对判断是否满足，如果规则带有逻辑推理，则需要额外进行推理运算；

S203，如果规则不满足，则以t_x+1为起点子序列开始，重新进行规则序列检查；

S204，如果所有规则对象都满足要求，则当前规则检查通过，将子序列[t_x～t_x+k]从原始序列中移除，在原子序列起点插入一个新的标注对象e_x，标注对象的标签为规则对象的标签，标注对象的文本为子序列的对象文本拼接。如果规则对象包含推理，则使用推理结果作为e_x的文本；

S205，规则满足，则从t_x+k+1为起点，重复S203的步骤，如果t_x+k+1到tn的子序列长度小于规则长度，则当前规则检查结束，从规则列表中读取下一条规则重复S201步骤，直到完成所有规则的检查。

进一步的，所述S3中在定位意图边界还包括以下步骤：

S301，找出要素序列E中所有的业务动词，作为谓语，并对每一个谓语依次执行主谓宾结构检查；

S302，向前遍历每一个要素，检查其类型是否可以作为主语，如果满足则加入当前主谓宾结构的主语集合中；

S303，如果遇到句号、另一个主谓宾结构的边界或到达句首，结束前向遍历，当前位置或最后遇到的标点符号为前边界；

S304，向后遍历每一个要素，检查其类型是否可以作为宾语，如果满足则加入当前主谓宾结构的宾语集合中；

S305，如果遇到句号、后续谓语、只能作为主语的要素或到达句尾，结束后向遍历。当前位置或最后遇到的标点符号为后边界；

S306，校验当前主谓宾结构，如果主语和宾语均不为空，则可以作为一个有效的意图，然后根据动作分类模型对谓语进行分类标注；

S307，结果当前的结构检查，继续下一个谓语的结构检查，直到对所有谓语完成检查操作。

在前述方案的基础上，所述S5中包含了业务场景特征规则，每个规则由一个主谓宾关系式构成，其业务含义为：对某个产品或设备进行某种动作，规则关系式中，谓语为动作意图的表达式，主语和宾语由要素筛选式构成，三者由逻辑运算符连接，构成正则序列，对于一个业务场景，如果句子满足其所关联的任何一个特征规则，则说明当前句子包含该场景；

在规则关系式中，动作意图表达式用来进行谓语筛选，筛选模式有三种：文本比对、词性筛选、意图标签筛选，要素筛选式包含类型筛选、参数筛选、文本筛选，主语和宾语对象可以使用多个要素筛选式，通过逻辑运算符来组成复合筛选条件。

本发明再进一步的方案，所述S6中，每个场景的工单字段从文中提取要素，所使用和步骤S5中相同的要素筛选式定义。

进一步的，所述S2中包括业务规则管理单元，且业务规则管理单元包括：业务要素识别单元、意图分析单元、工单生成单元，业务要素识别单元和意图分析单元连接有语义算法单元，业务要素识别单元接收文本输入的数据，工单生成单元生成工单后进行输出。

(三)有益效果

与现有技术相比，本发明提供了一种基于意图识别的语义拆分信息提取的实现方法，具备以下有益效果：

1、本发明中，采用了基于意图的业务内容提取方法，能够准确地将业务动作与业务对象相关联，尤其适合处理包含了多种业务场景的长文本。

2、本发明中，通过识别动词词性抽取出用户意图，并根据用户意图对长文本进行短句切分，从短句中抽取出相应的业务要素，实现长文本的结构化转换。

3、本发明中，在处理复合业务的场景时能够划分不同的意图区域，每个场景都能保证自身的准确性。

附图说明

图1为本发明提出的一种基于意图识别的语义拆分信息提取的实现方法的流程结构示意图。

图2为本发明提出的一种基于意图识别的语义拆分信息提取的实现方法的系统框架结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

参照图1-2，一种基于意图识别的语义拆分信息提取的实现方法，包括以下步骤：

S4：文本切分，根据意图边界，将文本切分为短句集合P，采用了基于意图的业务内容提取方法，能够准确地将业务动作与业务对象相关联，尤其适合处理包含了多种业务场景的长文本；

S5：识别业务场景，根据预设的业务场景特征规则，识别集合P中分句关联的业务场景，得到业务场景集合以及每个业务场景和短句的关联，通过识别动词词性抽取出用户意图，并根据用户意图对长文本进行短句切分，从短句中抽取出相应的业务要素，实现长文本的结构化转换；

S6：生成工单，根据预设的业务场景字段规则，从当前业务场景关联的短句中，提取有效的业务要素填充到对应工单字段中，为每个业务场景生成工单，在处理复合业务的场景时能够划分不同的意图区域，每个场景都能保证自身的准确性。

本发明的，S2中预设的业务要素规则组成形式为词性、文本、逻辑运算符、推理运算符构成的正则序列，如果标注序列中的某段子序列满足规则条件，则进行业务要素转换。所有的规则条目会按照优先级顺序依次检查，从而完成要素识别，S2中在规则的组成序列中，三种类型的规则元素所代表的含义包括：词性或文本型、逻辑运算符型、逻辑推理型，词性或文本型为直接比对标注对象的文本或词性，逻辑运算符型用来描述规则元素之间的联系，如：相邻的距离限制、顺序等价性、逻辑的是、否、与、或操作、通配符，逻辑推理型中表示如规则带有逻辑推理，则需要最后将标注序列作为参数，输入到规则对应的知识推理机中进行实体识别；

S2中在运行时还包括如下步骤：

S201，每条规则从标注序列T的每一个元素tx作为起点，进行连续子序列遍历检查；

S205，规则满足，则从t_x+k+1为起点，重复S203的步骤，如果t_x+k+1到t_n的子序列长度小于规则长度，则当前规则检查结束，从规则列表中读取下一条规则重复S201步骤，直到完成所有规则的检查。

实施例2

S2中在运行时还包括如下步骤：

S204，如果所有规则对象都满足要求，则当前规则检查通过，将子序列[t_x～t_x+k]从原始序列中移除，在原子序列起点插入一个新的标注对象ex，标注对象的标签为规则对象的标签，标注对象的文本为子序列的对象文本拼接。如果规则对象包含推理，则使用推理结果作为e_x的文本；

尤其的，S3中在定位意图边界还包括以下步骤：

需要特别说明的是，S5中包含了业务场景特征规则，其目的针对每一个业务场景，定义若干组动作意图，每个规则由一个主谓宾关系式构成，其业务含义为：对某个产品或设备进行某种动作，规则关系式中，谓语为动作意图的表达式，主语和宾语由要素筛选式构成，三者由逻辑运算符连接，构成正则序列，对于一个业务场景，如果句子满足其所关联的任何一个特征规则，则说明当前句子包含该场景，在规则关系式中，动作意图表达式用来进行谓语筛选，筛选模式有三种：文本比对、词性筛选、意图标签筛选，要素筛选式包含类型筛选、参数筛选、文本筛选，主语和宾语对象可以使用多个要素筛选式，通过逻辑运算符来组成复合筛选条件，例如：一条“商品订购”的规则，会写作为(BUY+**+PRODUCT|0|1)，含义是：“谓语带有购买意图标签，宾语中包含一个PRODUCT类要素，并且要素的参数为0或1(组合商品和主商品)，主语不作限制，S6中，每个场景的工单字段从文中提取要素，所使用和步骤S5中相同的要素筛选式定义，例如，“商品订购”场景的工单中，字段“手机订购可选包”的要素规则为：(PRODUCT@！宽带+！全屋|2BUY)，含义为：“BUY意图对应的PRODUCT要素，名称不包含[宽带]和[全屋]且参数为2(可选包)”的筛选条件，句子中所有符合该条件的要素都会作为该字段的内容填写进工单中，S2中包括业务规则管理单元，且业务规则管理单元包括：业务要素识别单元、意图分析单元、工单生成单元，业务要素识别单元和意图分析单元连接有语义算法单元，业务要素识别单元接收文本输入的数据，工单生成单元生成工单后进行输出。

在该文中的描述中，需要说明的是，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于意图识别的语义拆分信息提取的实现方法，其特征在于，包括以下步骤：

S4：文本切分，根据意图边界，将文本切分为短句集合P；

2.根据权利要求1所述的一种基于意图识别的语义拆分信息提取的实现方法，其特征在于，所述S2中预设的业务要素规则组成形式为词性、文本、逻辑运算符、推理运算符构成的正则序列，如果标注序列中的某段子序列满足规则条件，则进行业务要素转换；所有的规则条目会按照优先级顺序依次检查，从而完成要素识别。

3.根据权利要求2所述的一种基于意图识别的语义拆分信息提取的实现方法，其特征在于，所述S2中在规则的组成序列中，三种类型的规则元素所代表的含义包括：词性或文本型、逻辑运算符型、逻辑推理型，词性或文本型为直接比对标注对象的文本或词性，逻辑运算符型用来描述规则元素之间的联系，相邻的距离限制、顺序等价性、逻辑的是、否、与、或操作、通配符，逻辑推理型中表示如规则带有逻辑推理，则需要最后将标注序列作为参数，输入到规则对应的知识推理机中进行实体识别。

4.根据权利要求3所述的一种基于意图识别的语义拆分信息提取的实现方法，其特征在于，所述S2中在运行时还包括如下步骤：

5.根据权利要求1所述的一种基于意图识别的语义拆分信息提取的实现方法，其特征在于，所述S3中在定位意图边界还包括以下步骤：

6.根据权利要求1所述的一种基于意图识别的语义拆分信息提取的实现方法，其特征在于，所述S5中包含了业务场景特征规则，每个规则由一个主谓宾关系式构成，其业务含义为：对某个产品或设备进行某种动作，规则关系式中，谓语为动作意图的表达式，主语和宾语由要素筛选式构成，三者由逻辑运算符连接，构成正则序列，对于一个业务场景，如果句子满足其所关联的任何一个特征规则，则说明当前句子包含该场景；

7.根据权利要求6所述的一种基于意图识别的语义拆分信息提取的实现方法，其特征在于，所述S6中，每个场景的工单字段从文中提取要素，所使用和步骤S5中相同的要素筛选式定义。

8.根据权利要求1所述的一种基于意图识别的语义拆分信息提取的实现方法，其特征在于，所述S2中包括业务规则管理单元，且业务规则管理单元包括：业务要素识别单元、意图分析单元、工单生成单元，业务要素识别单元和意图分析单元连接有语义算法单元，业务要素识别单元接收文本输入的数据，工单生成单元生成工单后进行输出。