CN108549665A

CN108549665A - 一种人机交互的文本分类方案

Info

Publication number: CN108549665A
Application number: CN201810233929.7A
Authority: CN
Inventors: 袁波
Original assignee: Shanghai Wei Mdt Infotech Ltd
Current assignee: Shanghai Wei Mdt Infotech Ltd
Priority date: 2018-03-21
Filing date: 2018-03-21
Publication date: 2018-09-18

Abstract

本发明公开了一种人机交互的文本分类方案，它涉及文本类数据分析领域。本发明的文本分类方案采用多层级树形分类体系，单节点可设置多套不同规则，每种规则基于必出现词，并列出现词，不可出现词三种类型内容组合而成；同时，由机器自动计算并提供重要提示词、关联推荐词、建议的内容、搜索预览等功能，辅助人工建模；建模完成后，由机器利用学习算法自学人工模型结果，并叠加应用到模型上，强化整体模型。本发明设计合理，明确了一套分类模型构建的框架体系和方式方法，使文本数据的类别定义和自动分类变得简单快速的同时，保障准确率和覆盖率。

Description

一种人机交互的文本分类方案

技术领域

本发明涉及的是文本类数据分析领域，具体涉及一种以人机交互的形式进行的文本数据分类模型构建和自动分类方案。

背景技术

目前对于文本数据的分类比较常见，如新闻分类、客服对话分类、社交内容分类等。具体建模和分类的方法主要分为两种，一种是机器学习进行训练形成分类器，另一种是通过建立关键词集合搜索形成分类。第一种基于机器学习的方法，对于固定类别的分析准确率较高，但存在以下问题：1.需要寻找大量训练样本，不适合小数据量；2.样本需要人工阅读标注类型，工作量大；3.需要专业人士构建模型，难度高；4.生成的模型是黑盒，没有逻辑，无法从业务上进行理解和使用；5.不能进行经常的变更和调整，灵活性差。第二种基于关键词集合搜索的方法，若仅用一些关键词，则准确率很低；若使用复杂的关键词规则，则覆盖率很低，其缺点在于缺少一套合理的构建标准，并且构建模型时可能性太多，让人无从下手。

综上所述，本发明设计了一种人机交互的文本分类方案。

发明内容

针对现有技术上存在的不足，本发明目的是在于提供一种人机交互的文本分类方案，其设计合理，明确了一套分类模型构建的框架体系和方式方法，使文本数据的类别定义和自动分类变得简单快速的同时，保障准确率和覆盖率。

为了实现上述目的，本发明是通过如下的技术方案来实现：一种人机交互的文本分类方案，采用多层级树形分类体系，单节点可设置多套不同规则，每种规则基于必出现词，并列出现词，不可出现词三种类型内容组合而成；同时，由机器自动计算并提供重要提示词、关联推荐词、建议的内容、搜索预览等功能，辅助人工建模；建模完成后，由机器利用学习算法自学人工模型结果，并叠加应用到模型上，强化整体模型。

分类逻辑体系是一种多层级的树形分类。由一个总节点出发，总节点代表模型本身，用模型名称表示。总节点下可以创建一个或多个一级根节点，每一个根节点代表该模型下的一个大类，节点名称即为分类标签名称。每一个根节点大类下，可以创建若干个子节点，子节点下依然可以创建子节点的子节点，以此类推，并分别用类别标签名称命名各个节点。最终，可以形成一个含有总节点、根节点和多层子节点的多层级树形分类体系。

此分类体系下，每一个节点，均由一定规则构成，分类时，计算机扫描每一段文档，基于规则打上相应分类标签。其中，子节点继承父节点规则，即只有符合父节点规则，才进一步判断是否符合子节点规则，因此打上子节点分类标签的内容一定也会打上父节点分类标签。当父节点规则为空时，则其内容由所有打上子节点分类标签内容构成。最末端节点规则通常不为空。

本发明与现有技术相比有如下优势和有益效果：

1.构建方法简单易用，不需要专业技术人员参与开发，直接由一线业务需求者即可完成建模；

2.建模过程中，机器给予人工大量提示词和推荐词，并提示人工正确/错误，建模的效率和效果远高于其他方法；

3.以三层或多层级（通常为三层级）关键词规则的形式设计模型框架，准确合理，在保证准确率的同时，使得模型可优化、可微调、可变更，便于理解和实际投入应用；

4.机器学习辅助功能使得模型覆盖率和准确率显著高于其他方案。

附图说明

下面结合附图和具体实施方式来详细说明本发明；

图1为本发明的分类逻辑体系框架图；

图2为本发明的分类体系框图。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述本发明。

参照图1-2，本具体实施方式采用以下技术方案：一种人机交互的文本分类方案，采用多层级树形分类体系，单节点可设置多套不同规则，每种规则基于必出现词，并列出现词，不可出现词三种类型内容组合而成；同时，由机器自动计算并提供重要提示词、关联推荐词、建议的内容、搜索预览等功能，辅助人工建模；建模完成后，由机器利用学习算法自学人工模型结果，并叠加应用到模型上，强化整体模型。

具体来说，每一个节点可以有多套规则，符合任意一套规则，即可打上该标签。每一套规则只基于三种类型词汇：1.必出现词，由一个或多个词组成，各个词之间为“或”关系，表示出现其中任意一个词时，文档内容匹配规则；2.并列出现词，由一个或多个词组成，各个词之间为“或”关系，表示在出现“必出现词”的同时，还要并列出现其中任意一个词，则文档内容匹配规则；3.不可出现词，由一个或多个词组成，各个词之间为“或”关系，表示在出现“必出现词”和“并列出现词”的同时，还要不可出现其中任意一个词，若出现，则不符合规则。其中，并列出现词可以由多组，即多组词中，每组词都有至少一个词出现，即并列出现每组中任意一个词，则文档内容匹配规则。

规则中设置的内容，以词为主，还可以是短语搭配词组、概念组（表示一个类型的一组词）等。同时，规则中还可以配置文档数据结构化属性的筛选规则，比如，设置文档来源渠道为“电话客服”，则只有符合该渠道的文档内容，才进一步计算是否符合规则，否则直接不符合。

在配置规则中词汇的时候，机器会自动提示相关内容，从而以人机交互的形式建立分类模型。第一，计算机会提示文档中的重要词汇，按照包括但不仅限于：权重（可以是词频、tf-idf等）、词性、词意分类等方式排序筛选出的重要词汇。第二，计算机会提示推荐词，每当选中一个词或者加入一个词后，计算机会展示出若干推荐词，包括但不仅限于：近义词，相关词，搭配词组等。第三，计算机会根据当前分类，进行提示，包括但不仅限于：在目前设置的分类之内，已命中文档中的重要词；在目前设置的分类之外，未命中文档中的重要词；未根据规则命中，但文本特征类似的文档内容；已根据规则命中，但文本特征差异大的文档内容。第四，配置规则时，可以随时对词汇、规则、分类节点进行预览查询，并可以通过相关条件如情感、相似度、结构化属性进行筛选查看。

规则配置完成后，机器会根据自动分类结果进行学习，从而进一步由机器辅助人工，提升模型效果。具体方法是：对每一个节点，获取若干基于规则的命中结果文档，以节点名为分类，以其词特征或词向量特征为变量，利用学习算法（如贝叶斯、支持向量机、神经网络、深度学习等算法）进行训练，并调整阈值，将训练好的模型附加在规则模型之后。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种人机交互的文本分类方案，其特征在于，采用多层级树形分类体系，单节点可设置多套不同规则，每种规则基于必出现词，并列出现词，不可出现词三种类型内容组合而成；同时，由机器自动计算并提供重要提示词、关联推荐词、建议的内容、搜索预览等功能，辅助人工建模；建模完成后，由机器利用学习算法自学人工模型结果，并叠加应用到模型上，强化整体模型。

2.根据权利要求1所述的一种人机交互的文本分类方案，其特征在于，所述的多层级树形分类体系为分类逻辑体系，由一个总节点出发，总节点代表模型本身，用模型名称表示；总节点下可以创建一个或多个一级根节点，每一个根节点代表该模型下的一个大类，节点名称即为分类标签名称；每一个根节点大类下，可以创建若干个子节点，子节点下依然可以创建子节点的子节点，以此类推，并分别用类别标签名称命名各个节点；最终，可以形成一个含有总节点、根节点和多层子节点的多层级树形分类体系。

3.根据权利要求1所述的一种人机交互的文本分类方案，其特征在于，所述的分类逻辑体系下，每一个节点，均由一定规则构成，分类时，计算机扫描每一段文档，基于规则打上相应分类标签；其中，子节点继承父节点规则，即只有符合父节点规则，才进一步判断是否符合子节点规则，因此打上子节点分类标签的内容一定也会打上父节点分类标签；当父节点规则为空时，则其内容由所有打上子节点分类标签内容构成；最末端节点规则通常不为空。

4.根据权利要求1所述的一种人机交互的文本分类方案，其特征在于，所述的节点的每一套规则只基于三种类型词汇：1.必出现词，由一个或多个词组成，各个词之间为“或”关系，表示出现其中任意一个词时，文档内容匹配规则；2.并列出现词，由一个或多个词组成，各个词之间为“或”关系，表示在出现“必出现词”的同时，还要并列出现其中任意一个词，则文档内容匹配规则；3.不可出现词，由一个或多个词组成，各个词之间为“或”关系，表示在出现“必出现词”和“并列出现词”的同时，还要不可出现其中任意一个词，若出现，则不符合规则；其中，并列出现词可以由多组，即多组词中，每组词都有至少一个词出现，即并列出现每组中任意一个词，则文档内容匹配规则。