CN106897437A

CN106897437A - 一种知识系统的高阶规则多分类方法及其系统

Info

Publication number: CN106897437A
Application number: CN201710112977.6A
Authority: CN
Inventors: 谭培波; 史晓凌; 茹海燕
Original assignee: Beiming Zhitong (beijing) Technology Co Ltd
Current assignee: Beijing Zhitong Yunlian Technology Co., Ltd
Priority date: 2017-02-28
Filing date: 2017-02-28
Publication date: 2017-06-27
Anticipated expiration: 2037-02-28
Also published as: CN106897437B

Abstract

本发明公开了一种知识系统的高阶规则多分类方法及其系统，该分类方法包括：获取分词文本矩阵；从分词文本矩阵每个类别的文本中获取所有属于该类别的对象特征词文本，构建一阶特征词矩阵，并建立对象名和类别之间的索引；从每个类别的一阶特征词矩阵文本中获取同时包含对象词和概念词的二阶特征词对文本，构建二阶特征词对矩阵，并建立对象名、概念名和类别之间的索引；从每个类别的二阶特征词矩阵文本中获取同时包含对象词、概念词和领域词的三阶特征词组文本，构建三阶特征词组矩阵，并建立对象名、概念名、领域名和类别之间的索引。通过语料建立高阶分类模型，实现了在大语料情况下准确、快速的分类，工程实施量小，模型修改方便。

Description

一种知识系统的高阶规则多分类方法及其系统

技术领域

本发明属于信息系统分类技术领域，特别涉及一种知识系统的高阶规则多分类方法及其分类系统。

背景技术

随着以搜索为标志的信息系统的完善，人们越来越陷入了信息爆炸的困难境地，即在搜索出来的大量信息中，人们还需要花大量时间去阅读这些条目的内容，从中筛选出真正需要的信息条目。因此传统的信息系统不能满足人们快速获取知识的需求。传统知识分类的方法是数据库方法，即在信息条目入库的时候，已经表明了条目的属性，比如所属类别、研究对象、作者、作者单位等等。这是一种类似图书馆作业的传统数据中心或者信息中心的常规做法，是以文献的学术内容或者专业内容为依据进行划分的，这种方法在面向普通大众的情况下是合适的。

但是现实的业务是以场景的形态存在的，没有独立的纯粹的专业能满足现实工程的需要，一个工程包含很多专业的复杂组合，因此传统以专业为依据的录入属性的方法不能满足现实工程应用的需要。规则分类方法一般应用在语料少的情况下，比如售后服务领域，是一种见效快、分类准的方法。由于语料少，因此需要人工收集相关的日常术语，以弥补售后记录的口语化特点。但是这种以手工收集，建模、验证的方法，在具有大量语料的上游研发领域，将导致工程实施量大、分类结果不可控的技术问题。

发明内容

为了克服现有技术的不足，本发明提供的知识系统的高阶规则多分类方法及其系统，通过语料建立高阶分类模型，实现了在大语料情况下准确、快速的分类，工程实施量小，模型修改方便。

本发明提供的技术方案为：

第一方面，本发明提供了一种知识系统的高阶规则多分类方法，包括：

步骤一、对待分类的文件文本进行分词处理，获取分词文本，并根据预先设置的分类语料，获取分词文本矩阵；

步骤二、从所述分词文本矩阵每个类别的文本中获取所有属于该类别的对象特征词文本，构建排序为对象特征词、对象名的一阶特征词矩阵，并建立对象名和类别之间的索引；

步骤三、若所述每个类别的一阶特征词矩阵文本之间存在包含关系，从所述每个类别的一阶特征词矩阵文本中获取同时包含对象词和概念词的二阶特征词对文本，构建排序为对象特征词、对象名和概念特征词、概念名的二阶特征词对矩阵，并建立对象名、概念名和类别之间的索引；

步骤四、若所述每个类别的二阶特征词对矩阵文本之间存在包含关系，从所述每个类别的二阶特征词矩阵文本中获取同时包含对象词、概念词和领域词的三阶特征词组文本，构建排序对象特征词、对象名和概念特征词、概念名和领域特征词、领域名的三阶特征词组矩阵，并建立对象名、概念名、领域名和类别之间的索引。

优选的是，所述的知识系统的高阶规则多分类方法，

所述若所述每个类别的一阶特征词矩阵文本之间存在包含关系具体包括：计算所述一阶特征词矩阵中的每个文本与其它文本之间的关系，判断文本之间是否存在包含关系；

所述若所述每个类别的二阶特征词对矩阵文本之间存在包含关系具体包括：计算所述二阶特征词对矩阵中的每个文本与其它文本之间的关系，判断文本之间是否存在包含关系。

优选的是，所述的知识系统的高阶规则多分类方法，所述对待分类的文件文本进行分词处理，获取分词文本包括：根据分词词库对待分类的文件进行分词处理，获取分词文本。

优选的是，所述的知识系统的高阶规则多分类方法，所述步骤二具体包括：

根据对象词库，确定类别与对象词之间的一阶关系，建立一阶分类规则，即一阶模型，根据一阶模型从所述分词文本矩阵每个类别的文本中获取所有属于该类别的对象特征词文本，得到该类别的一阶特征词矩阵；

将排序为对象名、对象特征词的一阶特征词矩阵变换为排序为对象特征词、对象名的一阶特征词对矩阵；

建立排序为对象名和类别之间的索引。

优选的是，所述的知识系统的高阶规则多分类方法，所述步骤三具体包括：

将对象词库中的对象词和概念词库中的概念词组成同时包含对象词和概念词的二阶特征词对，建立二阶模型；

根据二阶模型从所述每个类别的一阶特征词矩阵文本中获取同时包含对象词和概念词的二阶特征词对文本，得到该类别的二阶特征词对矩阵；

将排序为对象名、对象特征词和概念名、概念特征词的二阶特征词对矩阵变换为排序对象特征词、对象名和概念特征词、概念名的二阶特征词对矩阵；

建立排序为对象名、概念名和类别之间的索引。

优选的是，所述的知识系统的高阶规则多分类方法，所述步骤四具体包括：

将对象词库中的对象词、概念词库中的概念词和领域词库中的领域词组成同时包含对象词、概念词和领域词的三阶特征词组，建立三阶模型；

根据三阶模型从所述每个类别的二阶特征词矩阵文本中获取同时包含对象词、概念词和领域词的三阶特征词组文本，得到该类别的三阶特征词组矩阵；

将排序为对象名、对象特征词，概念名、概念特征词和领域名、领域特征词的三阶特征词组矩阵变换为排序对象特征词、对象名，概念特征词、概念名和领域特征词、领域名的三阶特征词组矩阵；

建立排序为对象名、概念名、领域名和类别之间的索引。

优选的是，所述的知识系统的高阶规则多分类方法，所述待分类的文件文本格式为TXT格式；若所述待分类的文件文本格式为PDF，则需将所述待分类的文件文本由PDF格式转换为TXT格式。

第二方面，本发明还提供了一种知识系统的高阶规则多分类系统，包括：

数据库，其包括应用语料库和词库，所述应用语料库包括应用分类树和分类语料，所述词库包括：分词词库、对象词库、概念词库和领域词库；

规则引擎模块包括：

一阶对象规则模块和词→对象规则索引模块，所述一阶对象规则模块用于建立一阶模型，所述词→对象规则索引模块用于建立排序为对象名和类别之间的索引；

二阶对象→概念阶规则模块和词→对象+概念规则索引模块，所述二阶对象→概念规则模块用于建立二阶模型，所述词→对象+概念规则索引模块用于建立排序为对象名、概念名和类别之间的索引；

三阶对象→概念→领域规则模块和词→对象+概念+领域规则索引模块，所述三阶对象→概念→领域规则模块用于建立三阶模型，所述词→对象+概念+领域规则索引模块用于建立排序为对象名、概念名、领域名和类别之间的索引；

文本预处理模块，其包括分词模块和类-文献包含关系处理模块，所述分词模块用于根据分词词库对文本进行分词处理，类-文献包含关系处理模块用于计算文本之间的关系，并判断文本之间是否存在包含关系。

优选的是，所述的知识系统的高阶规则多分类系统，所述文本预处理模块还包括文本转换模块，用于将输入的文件格式转换为TXT格式。

优选的是，所述的知识系统的高阶规则多分类系统，还包括应用模块，其包括新文本输入模块和分类结果及展示模块。

本发明至少包括以下有益效果：由于对输入的文本依次获取一阶特征词矩阵，同时包含对象词和概念词的二阶特征词对文本，同时包含对象词、概念词和领域词的三阶特征词组文本，实现了对文本进行多次多类。本发明通过语料一次性自动建立高阶多分类模型，实现了在大语料情况下，准确、快速的分类，且实施工程量小，模型修改方便，提高了系统的可维护性。

本发明的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

图1为本发明实施例所述知识系统的高阶规则多分类方法的流程示意图；

图2为本发明实施例所述知识系统的高阶规则多分类系统的结构示意图；

图3为本发明实施例中的应用分类树的树型分类结构表；

图4为本发明实施例中的分类语料的存储格式结构表。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

为使本发明技术方案的优点更加清楚，下面结合附图和实施例对本发明作详细说明。

如图1所示，本发明一实施例提供的知识系统的高阶规则多分类方法，用于知识系统的高阶规则多分类系统，所述方法包括：

S101、对待分类的文件文本进行分词处理，获取分词文本，并根据预先设置的分类语料，获取分词文本矩阵。

其中，所述对待分类的文件文本进行分词处理，获取分词文本包括：根据分词词库对待分类的文件进行分词处理，获取分词文本。所述待分类的文件文本格式为TXT格式；若所述待分类的文件文本格式为PDF，则需将所述待分类的文件文本由PDF格式转换为TXT格式。

需要说明的是，将输入的所述待分类的文件文本由PDF格式转换为TXT格式，实际上是对加工语料进行格式转换，如果待分类文件文本本身就是TXT格式文件，则不需要转换，如果是待分类文件文本是PDF文件，则采用pdfbox-1.8.2.jar开源工具转换为TXT文件。如图2所示，分类系统中的数据库由与应用场景相关的应用语料库1和适用于通用场景的词库2组成，而应用语料库1由应用分类树1-1和分类语料1-2组成，应用分类树至少包括图3中所述的57种应用场景组成的树型分类结构，这个结构由用户根据应用的需要确认，所述分类语料是一个文件存储系统，存储格式如图4所示，分类语料是建立分类规则模型的基础数据，所以，根据预先设置的分类语料，获取分词文本矩阵时，需要选择图4中的标签或者类别列，构造整个分类结构和所有语料的类型即分词文本矩阵。

S102、从所述分词文本矩阵每个类别的文本中获取所有属于该类别的对象特征词文本，构建排序为对象特征词、对象名的一阶特征词矩阵，并建立对象名和类别之间的索引。

其中，步骤S102具体包括：根据对象词库，确定类别与对象词之间的一阶关系，建立一阶分类规则，即一阶模型，根据一阶模型从所述分词文本矩阵每个类别的文本中获取所有属于该类别的对象特征词文本，得到该类别的一阶特征词矩阵；

建立排序为对象名和类别之间的索引。

需要说明的是，如图2所示，所述词库由分词词库2-1、对象词库(也可以为实体词库)2-2、概念词库2-3和领域词库2-4组成。分词词库完成待分类文件的分词处理；对象词库支撑完成一阶模型的建立，对象词主要指在现实中具有物质特性的词，表示场景的物质组成部分；概念词库支撑完成同时包含对象词、概念词的二阶模型的建立，概念词主要指与人的思维活动紧密相连的词，代表场景的物质组成部分；领域词库支撑完成同时包含对象词、概念词和领域词的三阶模型的建立，领域词指那些领域内的常见词。所以规则引擎4中的一阶对象规则模块4-1根据对象词库确定类别与对象词之间的一阶关系，建立一阶分类规则，即一阶模型，规则表达为C＝o_对象1，其中o是对象的标示，“对象1”代表1个词的对象。根据一阶模型从所述分词文本矩阵每个类别的文本中获取所有属于该类别的对象特征词文本，得到该类别的一阶特征词矩阵。规则引擎4中的词→对象规则索引模块建立排序为对象名和类别之间的索引，从而确定对于输入的文本是否有满足一阶分类模型的特征词。

S103、若所述每个类别的一阶特征词矩阵文本之间存在包含关系，从所述每个类别的一阶特征词矩阵文本中获取同时包含对象词和概念词的二阶特征词对文本，构建排序为对象特征词、对象名和概念特征词、概念名的二阶特征词对矩阵，并建立对象名、概念名和类别之间的索引；

其中，所述若所述每个类别的一阶特征词矩阵文本之间存在包含关系具体包括：计算所述一阶特征词矩阵中的每个文本与其它文本之间的关系，判断文本之间是否存在包含关系；

步骤S 103具体包括：将对象词库中的对象词和概念词库中的概念词组成同时包含对象词和概念词的二阶特征词对，建立二阶模型；

建立排序为对象名、概念名和类别之间的索引。

需要说明的是，规则引擎4中的二阶对象→概念规则模块4-3是将对象词库中的对象词和概念词库中的概念词组成同时包含对象词和概念词的二阶特征词对，用二阶特征词对重建文本，将词组成的文本转换为以词对组成的文本，建立二阶模型。根据二阶模型从所述每个类别的一阶特征词矩阵文本中获取同时包含对象词和概念词的二阶特征词对文本，得到该类别的二阶特征词对矩阵，类的规则表达式为C＝c_概念2+o_对象2，其中c、o是概念和领域的标示符，“2”代表2阶，“对象2”代表2阶规则中使用的对象词，以和“对象1”所代表得1阶规则对象词相区分，表达式中“+”表示概念词和对象词要同时出现。词→对象+概念规则索引模块4-4建立词→概念规则和词→对象规则两张索引表，实际上就是规则→词的倒排表，实现对输入的概念词和对象词进行查询，然后取概念规则和对象规则的交集，就是输入文本的二阶分类结果。

S104、若所述每个类别的二阶特征词对矩阵文本之间存在包含关系，从所述每个类别的二阶特征词矩阵文本中获取同时包含对象词、概念词和领域词的三阶特征词组文本，构建排序对象特征词、对象名和概念特征词、概念名和领域特征词、领域名的三阶特征词组矩阵，并建立对象名、概念名、领域名和类别之间的索引。

其中，所述若所述每个类别的二阶特征词对矩阵文本之间存在包含关系具体包括：计算所述二阶特征词对矩阵中的每个文本与其它文本之间的关系，判断文本之间是否存在包含关系。

步骤S104具体包括：将对象词库中的对象词、概念词库中的概念词和领域词库中的领域词组成同时包含对象词、概念词和领域词的三阶特征词组，建立三阶模型；

建立排序为对象名、概念名、领域名和类别之间的索引。

需要说明的是，规则引擎4中的三阶阶对象→概念→领域规则模块4-5是将对象词库中的对象词、概念词库中的概念词和领域词库中的领域词组成三个词为一组的三阶特征词组文本，建立三阶模型，用三阶特征词组文本改造原来的单词组成的文本，根据三阶模型从所述每个类别的二阶特征词矩阵文本中获取同时包含对象词、概念词和领域词的三阶特征词组文本，得到该类别的三阶特征词组矩阵，该类的规则表达为C＝o_对象3+c_概念3+d_领域3，其中o、c、d是对象、概念和领域的标识符，“3”代表三阶，“对象3”表示三阶规则中所使用的对象词，“概念3”表示三阶规则中所使用的概念词，“领域3”表示三阶规则中所使用的领域词；“+”表示3个词要同时出现；词→对象+概念+领域规则索引模块4-6建立词→对象、词→概念和词→领域总共3张倒排表，实现对任何输入文本的词查询，通过3张索引表查找相应的规则集合，然后3个集合的交集就是文本对应的三阶规则分类结果。

如图2所示，本发明实施例还提供了一种知识系统的高阶规则多分类系统，包括：

数据库，其包括应用语料库1和词库2，所述应用语料库1包括应用分类树1-1和分类语料1-2，所述词库2包括：分词词库2-1、对象词库2-2、概念词库2-3和领域词库2-3；

规则引擎模块4包括：

一阶对象规则模块4-1和词→对象规则索引模块4-2，所述一阶对象规则模块4-1用于建立一阶模型，所述词→对象规则索引模块4-2用于建立排序为对象名和类别之间的索引；

二阶对象→概念阶规则模块4-3和词→对象+概念规则索引模块4-4，所述二阶对象→概念规则模块用于建立二阶模型，所述词→对象+概念规则索引模块用于建立排序为对象名、概念名和类别之间的索引；

三阶对象→概念→领域规则模块4-5和词→对象+概念+领域规则索引模块4-6，所述三阶对象→概念→领域规则模块用于建立三阶模型，所述词→对象+概念+领域规则索引模块用于建立排序为对象名、概念名、领域名和类别之间的索引；

文本预处理模块3，其包括分词模块3-2和类-文献包含关系处理模块3-3，所述分词模块用于根据分词词库对文本进行分词处理，类-文献包含关系处理模块用于计算文本之间的关系，并判断文本之间是否存在包含关系。

所述的知识系统的高阶规则多分类系统，所述文本预处理模块3还包括文本转换模块3-1，用于将输入的文件格式转换为TXT格式。

所述的知识系统的高阶规则多分类系统，还包括应用模块，其包括新文本输入模块5和分类结果及展示模块6，其中，新文本输入模块包括文章标题和正文的输入文本框，以及分类按钮，分类结果展示模块包含一个文本框，文本框里显示分类结果集合。

需要说明的是，该系统从逻辑关系上可以分为数据层，规则层和应用层。应用层包含文本的输入模块和文本分类的展示模块，文本输入模块通过调用规则层的文本预处理模块实现对文本的格式转换和分词，通过调用规则引擎实现规则的高阶匹配搜索。

如上所述，通过语料一次性自动建立高阶多分类模型，实施工程量小，提高了分类的准确性和实施效率。适应了未来自然语言处理向大语料多分类发展的趋势，模型修改方便，提高了系统的可维护性。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.一种知识系统的高阶规则多分类方法，其特征在于，包括：

步骤三、若所述每个类别的一阶特征词矩阵文本之间存在包含关系，则从所述每个类别的一阶特征词矩阵文本中获取同时包含对象词和概念词的二阶特征词对文本，构建排序为对象特征词、对象名和概念特征词、概念名的二阶特征词对矩阵，并建立对象名、概念名和类别之间的索引；

步骤四、若所述每个类别的二阶特征词对矩阵文本之间存在包含关系，则从所述每个类别的二阶特征词矩阵文本中获取同时包含对象词、概念词和领域词的三阶特征词组文本，构建排序对象特征词、对象名和概念特征词、概念名和领域特征词、领域名的三阶特征词组矩阵，并建立对象名、概念名、领域名和类别之间的索引。

2.如权利要求1所述的知识系统的高阶规则多分类方法，其特征在于，

3.如权利要求1所述的知识系统的高阶规则多分类方法，其特征在于，所述对待分类的文件文本进行分词处理，获取分词文本包括：根据分词词库对待分类的文件进行分词处理，获取分词文本。

4.如权利要求1所述的知识系统的高阶规则多分类方法，其特征在于，所述步骤二具体包括：

建立排序为对象名和类别之间的索引。

5.如权利要求4所述的知识系统的高阶规则多分类方法，其特征在于，所述步骤三具体包括：

建立排序为对象名、概念名和类别之间的索引。

6.如权利要求5所述的知识系统的高阶规则多分类方法，其特征在于，所述步骤四具体包括：

建立排序为对象名、概念名、领域名和类别之间的索引。

7.如权利要求1所述的知识系统的高阶规则多分类方法，其特征在于，所述待分类的文件文本格式为TXT格式；若所述待分类的文件文本格式为PDF，则需将所述待分类的文件文本由PDF格式转换为TXT格式。

8.一种知识系统的高阶规则多分类系统，其特征在于，包括：

规则引擎模块包括：

文本预处理模块，其包括分词模块和类-文献包含关系处理模块，所述分词模块用于根据分词词库对文本进行分词处理，所述类-文献包含关系处理模块用于计算文本之间的关系，并判断文本之间是否存在包含关系。

9.如权利要求8所述的知识系统的高阶规则多分类系统，其特征在于，所述文本预处理模块还包括文本转换模块，用于将输入的文件格式转换为TXT格式。

10.如权利要求9所述的知识系统的高阶规则多分类系统，其特征在于，还包括应用模块，其包括新文本输入模块和分类结果及展示模块。