CN110795539B

CN110795539B - 一种基于逻辑表达式的短文本标签识别方法

Info

Publication number: CN110795539B
Application number: CN201911074484.3A
Authority: CN
Inventors: 高研; 崔放; 张少卓; 王聪; 李旭
Original assignee: Changchun Jiacheng Information Technology Co ltd
Current assignee: Changchun Jiacheng Information Technology Co ltd
Priority date: 2019-11-06
Filing date: 2019-11-06
Publication date: 2023-04-18
Anticipated expiration: 2039-11-06
Also published as: CN110795539A

Abstract

本发明公开了一种基于逻辑表达式的短文本标签识别方法，包括如下步骤：步骤一、规则提取；步骤二、规则管理；步骤三、规则获取；步骤四、标签识别；步骤五、标签提取。本发明基于对业务的深入理解，梳理出标签提取的特征，将这些特征转换成逻辑表达式，并对梳理出来的逻辑表达式进行管理，应用这些逻辑表达式，对业务相关的短文本自动进行标签识别。本方法可应用于全领域文本的结构化提取、全领域文本的自动分类以及智能推荐系统的自动标签识别等场景，具有应用领域广，识别效率高、人工成本低等优势。

Description

一种基于逻辑表达式的短文本标签识别方法

技术领域

本发明涉及一种识别方法，尤其涉及一种基于逻辑表达式的短文本标签识别方法。

背景技术

短文本的自然语言处理技术在各行各业中的作用越来越重要，对于文本分析需要有一定的语料基础，通过已有标签的语料去分析要解决的文本内容。在处理大量的文本之前，需要人工去标记一定量的文本数据，比如标记该文本的主题，分类等，这是一个非常耗费时间的过程。目前，在短文本标签提取场景中，现有的短文本识别方法存在着一定的技术缺陷，例如：监督学习的分类方法标签范围不能灵活选取；无监督学习的关键词抽取方法中的TFIDF方式提取标签缺乏文档的覆盖率。因此，亟需提供一种基于逻辑表达式的标签识别方式，能灵活的识别关键词标签，识别的标签兼顾关键词的区分度和覆盖率。

发明内容

为了解决上述技术所存在的不足之处，本发明提供了一种基于逻辑表达式的短文本标签识别方法。

为了解决以上技术问题，本发明采用的技术方案是：一种基于逻辑表达式的短文本标签识别方法，包括如下步骤：

步骤一、规则提取：通过对领域内大量文本的解读，分别为每一个标签梳理出一套特征文本，对上述特征文本进行分析，提取出核心文本，并将核心文本转化为标签识别规则；

步骤二、规则管理：利用规则管理系统，管理步骤一中获得的标签识别规则；通过规则管理系统为每一个标签建立一个专属的标签识别规则库，在标签识别规则库下管理着对应短文本标签的全部标签识别规则；

步骤三、规则获取：业务系统通过调用标签规则识别接口将所需要的标签识别库、标签识别规则和短文本传递给规则识别引擎，规则识别引擎根据传递过来的标签识别库及标签识别规则去规则管理数据库中查询规则数据并存放到内存中；

步骤四、标签识别：应用规则识别引擎依次为短文本自动识别标签；

步骤五、标签提取：规则识别引擎提取出与短文本相匹配的标签识别规则的标识，将这个标识作为短文本的标签。

进一步地，步骤三中规则获取是业务系统根据业务需要调用业务相关的标签识别规则的过程，具体为：

S001：业务系统调用标签规则识别接口，在接口参数中传入需要自动识别标签的短文本、标签识别库的规则库名、标签识别规则的规则名称，规则库名及规则名称允许为多个，为空时，获取全部规则；

S002：通过标签规则识别接口，将参数传递给规则识别引擎，以规则库名和规则名称作为查询条件，在规则管理数据库中查询标签识别规则内容；

S003：规则识别引擎获取规则内容后，将标签识别规则存储在内存中。

进一步地，步骤四中标签识别是将短文本与获取的标签识别规则进行匹配，识别短文本标签的过程，具体为：

L001：验证标签识别规则是否符合逻辑表达式语法规范，符合规范则继续标签识别工作流程，不符合则终止流程；

L002：以逻辑运算符&、|、！、()为分隔符，将标签识别规则拆分成多个关键词，并将这些关键词存储在集合中；

L003：在集合中取出一个关键词，与短文本进行比对，如果短文本中包含该关键词，则该关键词的匹配结果为True；如果短文本中不包含关键词，则该关键词的匹配结果为False，循环执行这一流程，为集合中的所有关键词赋予匹配结果，直到集合中所有的关键词都与短文本进行了比对为止；

L004：以关键词与短文本的匹配结果替换标签识别规则的关键词，生成逻辑运算表达式；

L005：计算逻辑运算表达式结果；

循环执行以上流程，直至最后一个标签识别规则识别完成。

进一步地，步骤五中标签提取是存储识别短文本标签的过程，具体为：

A001：获取标签识别结果；

A002：验证标签识别结果，标签识别结果为True，继续标签识别工作流程，标签识别结果为False，则终止流程；

A003：提取标签识别结果为True的规则标识，并存储在集合中；

循环执行以上流程，直至所有标签提取完成。

本发明公开了一种基于逻辑表达式的短文本标签识别方法，包含规则提取、规则管理、规则获取、标签识别、标签提取五个步骤，通过对业务领域的深入理解，并对领域内大量文本的解读和研究，经规则识别引擎匹配，将标签识别规则解析为逻辑表达式，完成短文本标签的自动识别，形成了基于逻辑表达式的短文本标签识别的方法，有效解决了短文本标签识别、文本分类问题，可应用于文本的标签提取、文本的自动分类、非结构化转结构化以及智能推荐系统的自动标签识别等场景，具有应用领域广、识别效率高、人工成本降低等优势。

附图说明

图1为本发明基于逻辑表达式的短文本标签识别方法的总体架构图。

图2为本发明步骤三规则获取的工作流程图。

图3为本发明步骤四标签识别的工作流程图。

图4为本发明步骤五标签提取的工作流程图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，为本发明所公开的基于逻辑表达式的短文本标签识别方法的总体架构图，包含规则提取、规则管理、规则获取、标签识别、标签提取五个步骤，通过对业务领域的深入了解，并对领域内大量文本的解读和研究，经过上述五个步骤处理后，形成了基于逻辑表达式的短文本标签识别方法，剧透步骤如下：

本发明所公开的基于逻辑表达的短文本标签识别方法，通过规则识别引擎匹配，将标签识别规则解析为逻辑表达式，完成短文本标签的自动识别，其中，逻辑表达依赖逻辑运算，用数学方法研究逻辑问题，建立逻辑演算，用等式表示判断，把推理看作等式的变换，这种变换的有效性不依赖人们对符号的解释，只依赖符号的组合规律。

在本发明中，标签识别规则的编写是通过与、或、非的逻辑关系运算结合短文本特征实现的，使用关键词包含逻辑规则进行文本标签匹配，关键词包含逻辑规则是对指定文本进行是否包含相关关键词的逻辑判断功能，运算符号包括：()定义优先级、&定义与关系、|定义或关系、！定义非关系。逻辑表达式是由逻辑运算符与True、False组合而成的可以在逻辑表达式引擎中运行的表达式，逻辑表达式引擎解释执行逻辑表达式。

下面结合具体的实施方式，对本发明的基于逻辑表达式的短文本标签识别方法做进一步的说明。

步骤一、规则提取：采用人工的方式，学习领域专业知识，对领域有较深入的理解；梳理业务领域内有哪些标签需要自动化识别；解读领域内业务相关的短文本，分别为每一个标签梳理出一套特征文本，对这些特征文本进行分析，提取出核心文本，转化为标签识别规则；标签识别规则的编写需要符合逻辑表达式的语法规则：以&代表与的关系，以|代表或的关系，以！代表非的关系，支持以英文括号，提升运算符的优先级。

步骤二、规则管理：利用行业内已有的规则管理系统，为每一个标签分别创建一个标签识别规则库，用于存放每一个标签的识别规则，在这个库下，依次将步骤一提取的标签识别规则添加到对应的标签识别规则库中，可以对已添加的标签识别规则库以及规则进行修改和删除，便于对识别规则进行维护。

步骤三、规则获取：规则获取是根据业务需要调用业务相关的标签识别规则的过程，如图2所示，为规则获取的工作流程图，具体的为：

S001：业务系统调用标签规则识别接口，在接口参数中传入需要自动识别标签的短文本、标签识别库名和标签识别规则名称，规则库名及规则名称允许为多个，为空时，获取全部规则；

S002：通过标签规则识别接口，将参数传递给规则识别引擎，以规则库名和规则名作为查询条件，在规则管理数据库中查询规则内容；

S003：规则识别引擎获取规则内容后，将规则存储在内存中，通过存储在内存中，可有效提高下一次该短文本的识别效率。

步骤四、标签识别：标签识别是将短文本与获取的标签识别规则进行匹配，识别短文本标签的过程，如图3所示，为标签识别的工作流程图所示，具体的为：

L001：验证标签识别规则是否符合逻辑表达式语法规范，符合规范继续标签识别工作流程，不符合则终止流程；

L002：以逻辑运算符&、|、！、()为分隔符，将标签识别规则拆分成多个关键词，将这些关键词存储在集合中；

L003：在集合中取出一个关键词，与短文本进行比对，如果短文本中包含关键词，则该关键词的匹配结果为True；如果短文本中不包含关键词，则该关键词的匹配结果为False，循环执行这一流程，为集合中的所有关键词赋予匹配结果，直到集合中所有的关键词都与短文本进行了比对为止；

L005：计算逻辑运算表达式结果；

循环执行以上流程，直至最后一个标签识别规则识别完成。

步骤五、标签提取：标签提取是存储识别的短文本标签的过程，如图4所示，为标签提取的工作流程图，具体的为：

A001：获取标签识别结果；

循环执行以上流程，直至所有标签提取完成。

本发明所公开的基于逻辑表达式的短文本标签识别方法，基于对领域内大量文本的解读，分别为每一个标签梳理出一套特征文本，引入逻辑表达式、规则识别引擎等技术，与业务知识相融合，实现短文本标签的自动识别；与现有的短文本识别方法相比：

(1)本发明解决了标签体系建立难的问题。基于逻辑表达式的短文本标签识别方法是具体方法，首先深入解读业务领域内相关的短文本；其次深刻理解标签的含义以及特征，并在这些短文本中提取出标签的特征文本；再次基于这些特征文本转换成逻辑表达式，使逻辑表达式能够全部覆盖特征文本，从而建立一套业务领域专属的标签体系。

(2)解决了短文本标签识别准确率低的问题。在进行逻辑表达式匹配的时候，校验逻辑表达式的语法是否符合规范，确保逻辑表达式的正确后，将逻辑表达式以逻辑运算符&、|、！、()作为分隔符，将逻辑表达式进行拆分，生成逻辑表达式的关键词，循环应用这些关键词在短文本中进行查询，关键词存在于短文本中，记录为True，关键词在短文本中不存在，则记录为False；以关键词在文本中的查找结果替换对应的关键词，带入到逻辑表达式中，计算表达式结果。

同时，本发明所公开的基于逻辑表达式的短文本标签识别方法，是一种通用的短文本标签识别方法，可应用全领域文本的结构化提取、全领域文本的自动分类以及智能推荐系统的自动标签识别、自动分类和识别的标签体系建设等场景，具有应用领域广、技术门槛低、准确率高等优势，具有非常良好的发展前景。

上述实施方式并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的技术人员在本发明的技术方案范围内所做出的变化、改型、添加或替换，也均属于本发明的保护范围。

Claims

1.一种基于逻辑表达式的短文本标签识别方法，其特征在于：所述短文本标签的识别方法的包括如下步骤：

步骤五、标签提取：规则识别引擎提取出与短文本相匹配的标签识别规则的标识，将这个标识作为短文本的标签；

步骤一中，标签识别规则的编写是通过与、或、非的逻辑关系运算结合短文本特征实现的，使用关键词包含逻辑规则进行文本标签匹配，关键词包含逻辑规则是对指定文本进行是否包含相关关键词的逻辑判断功能，运算符号包括：()定义优先级、&定义与关系、|定义或关系、！定义非关系；逻辑表达式是由逻辑运算符与True、False组合而成的可以在逻辑表达式引擎中运行的表达式，逻辑表达式引擎解释执行逻辑表达式；

步骤四中，标签识别是将短文本与获取的标签识别规则进行匹配，识别短文本标签的过程，具体为：

L005：计算逻辑运算表达式结果；

循环执行以上流程，直至最后一个标签识别规则识别完成。

2.根据权利要求1所述的基于逻辑表达式的短文本标签识别方法，其特征在于：步骤三中所述规则获取是业务系统根据业务需要调用业务相关的标签识别规则的过程，具体为：

3.根据权利要求1所述的基于逻辑表达式的短文本标签识别方法，其特征在于：步骤五中所述标签提取是存储识别短文本标签的过程，具体为：

A001：获取标签识别结果；

循环执行以上流程，直至所有标签提取完成。