CN105512191A

CN105512191A - 一种具备人工行为学习能力的行业特征分析器

Info

Publication number: CN105512191A
Application number: CN201510836144.5A
Authority: CN
Inventors: 张秋涵; 吴小铭; 金定勇; 饶慧
Original assignee: Nanjing LES Information Technology Co. Ltd
Current assignee: Nanjing LES Information Technology Co. Ltd
Priority date: 2015-11-25
Filing date: 2015-11-25
Publication date: 2016-04-20

Abstract

本发明公开了一种具备人工行为学习能力的行业特征分析器，涉及智能信息处理技术领域和大数据分析技术领域，包括可动态补充的行业特征样本库；分析器按一定策略从行业特征样本库中的两个样本集中抽取行业规则，形成行业分析规则库；在接受分析任务时，分析引擎根据行业分析规则库分析所输入未知特征文本，调整分析结果，辨识特征，实现学习能力。

Description

一种具备人工行为学习能力的行业特征分析器

技术领域

本发明涉及智能信息处理技术领域和大数据分析技术领域。

背景技术

一个行业(领域)的知识是繁杂多态的，从行业数据中提取知识并让计算机作为分析依据，其中需要涉及相关方面的技术：数据挖掘，特征辨识，学习完善。数据挖掘：目前数据挖掘采用的技术和手段是多样的，但是每种技术都有不足之处，对于不同特性的样本需要采用不同的手段。特征辨识：计算机根据给定特征分类体系对输入信息进行特征标注(或分类)，辨识水平依托样本质量和数量(训练效果)。学习完善：利用新的数据不断重组和完善自己的辨识(分类)体系，达到能力提升的目的。

对于一个行业/领域知识/特征的提取，目前的工作量和技术点主要在数据挖掘方面，对于未知特征样本分析采用数据挖掘方式有：1、聚类。使同类别数据对象差距较小，不同类别间差距较大。聚类结果是未知的，是对数据的自然划分，会因样本噪声的影响产生偏差。2、挖掘频繁项集。挖掘数据间的关联关系和规则，用以分析特征。3、在完善效果方面，目前多数是通过标注和定期更新样本集重新训练，周期长，不具备递进性。

由于这些方式单独并不具备完整性，存在差异和缺点，导致实际分析结果往往差强人意。故需要一种新的技术方案以解决上述问题。

发明内容

本发明的目的在于更加精确的获得道路交通车辆排队长度信息，在不同应用场景，实时跟踪检测区域内运动车辆，准确计算车辆排队长度，判断道路交通状况，来有效分析和管理道路交通。

为达到上述目的，本发明可采用如下技术方案：

一种具备人工行为学习能力的行业特征分析器，包括分析任务调度器、分析引擎、规则库、样本处理引擎、行业特征样本库；

行业特征样本库：包含多个行业特征样本，按行业分别存储，每个行业的样本又分为不分类样本集和分类样本集；分类样本指依业务需要，根据定义好的业务分类进行分组的样本；不分类样本指未经业务认定或分辨界限模糊，但是仍然具有价值的样本；

样本处理引擎包含所需的数据挖掘算法；其中，对于分类样本：对每一类样本分别使用TF-IDF获取特征词，计算权重，创建词条VSM；权重和VSM按给定分类存储入行业规则库，特征词按给定分类存储入行业特征词库；使用Apriori按样本集分类进行挖掘获取频繁特征短语和关联对象并建立向量，然后入行业规则库；对于不分类样本：使用K-means对整个样本集进行聚类，根据聚合度提取特征词，然后入行业特征词库，给予分组标示；同时获得词关联关系，然后入行业规则库，给予分组标示；使用Apriori挖掘样本集获取频繁特征短语和关联对象并建立向量，然后入行业规则库

行业分析规则库：包含行业特征词库、行业规则库；

分析引擎：包含相似度匹配算法、特征标注算法，根据分析策略加载对应的行业分析规则信息分析输入信息；

分析任务调度器：根据需求编排分析任务，和针对指定行业进行分析。

并且本发明中给出使用上述分析器的分析方法，包括规则抽取、特征分析、行为学习。

与现有技术相比，本发明的关键点是实现了一种具备人工行为学习能力的行业特征分析器，达到了自动提取行业知识，应用行业知识辨识对象，学习人工行为提升分析能力的目标。其主要特征点在于：1、基于行业样本提取行业知识。2、基于行业知识，分析识别指定对象的行业特征。3、记录和学习人工行为，模拟人的观点倾向，不断提高分析识别水平。4、可同时进行多个行业的分析和学习。

本发明体现了如下优点：

1、挖掘行业知识：可以从大量繁杂、非结构化的行业文本数据中，挖掘出行业知识，能够用于快速分析一个行业的特征，提取业务重点。行业样本数据的数量和质量能够影响知识挖掘的水平和利用知识分析的水平。

2、利用知识分析：可通过挖掘得的行业知识，对输入对象进行行业特征分析，从而可以实现对大量数据的筛选、过滤、汇总，取得人无法比拟的效率优势。

3、多行业同步分析：可以同时利用多个行业的知识进行分析。

4、学习并自完善：可以利用人对分析结果的干涉进行学习，积累这些人工行为，在下次分析时作为参考，不断提升分析水准(准确率)。

附图说明

图1是本发明行业特征分析器的结构示意图；

图2为本发明行业特征分析器的使用方法示意图；

图3为本发明中规则抽取的流程图；

图4为本发明中特征分析的流程图；

图5为本发明中行为学习的流程图。

具体实施方式

以下首先介绍本发明中应用到的术语的相关解释，以使本发明更易于理解。

本发明公开了一种具备人工行为学习能力的行业特征分析器，主要阐述其运作机制和实现原理。

结构上，如图1所示，分析器包括分析任务调度器、分析引擎、规则库(包括通用规则库和行业分析规则库)、样本处理引擎、行业特征样本库。

行业特征样本库：包含多个行业特征样本，按行业分别存储，每个行业的样本又分为不分类样本集和分类样本集。可以动态扩容和调整。分类样本指依业务需要，根据定义好的业务分类进行分组的样本。不分类样本指未经业务认定或分辨界限模糊，但是仍然具有价值的样本。

样本处理引擎：包含所需的数据挖掘算法——清洗(去重、去停用词、奇异词转换)、分词、Apriori关联规则挖掘、K-means聚类、TF-IDF。用于从指定行业样本库中挖掘抽取该行业的特征词和基于特征词的特征规则——规则是一系列词频向量和权重系数的组合。对于分类样本：①对每一类样本分别使用TF-IDF获取特征词，计算权重，创建词条VSM(向量空间模型)。权重和VSM按给定分类存储入行业规则库，特征词按给定分类存储入行业特征词库②使用Apriori按样本集分类进行挖掘获取频繁特征短语和关联对象，建立向量(二维)，入行业规则库。对于不分类样本：①使用K-means对整个样本集进行聚类(K暂指定，后由人工行为动态调整K)，根据聚合度提取特征词，入行业特征词库，给予分组标示。同时获得词关联关系(二维)，入行业规则库，给予分组标示②使用Apriori挖掘样本集获取频繁特征短语和关联对象，建立向量(二维)，入行业规则库。

行业分析规则库：包含行业特征词库、行业规则库。其中行业特征词库和行业规则库来自机器自动挖掘。也可以选择增加人工规则库内记录的分析规则来自人工操作，并作为行业经验赋予高权重，影响后续分析结果。

分析引擎：包含相似度匹配算法、特征标注算法，根据分析策略加载对应的行业分析规则信息分析输入信息。

在实现原理上，一种具备人工行为学习能力的行业特征分析器由规则抽取、特征分析、行为学习三部分构成。如图2所示,分析器依托行业特征样本提取行业规则，运用到分析上。人工对分析结果进行标注后，能够被分析器记录形成人工规则，为后续分析提供参考并调整分析结果。在运作一段时间后可形成无人值守式自分析环境。下面分别描述规则提取、特征分析、行为学习的运作机制。

其中，如图3，规则抽取是分析器的常态运作方式，周期性从所加载的“行业特征样本库”中加载样本集进行规则抽取和挖掘。工作步骤如下：

步骤201：分析器选择加载指定行业的样本(可同时加载多个行业)。

步骤202、203：读取指定的“行业特征样本库”中的分类样本和不分类样本。

步骤204：从这步开始样本处理引擎开始工作。将样本集进行去重、分词、去除停用词和奇异词转换，得到较为清洁的分词文档集。

步骤205：通过TF-IDF计算得特征(降维)和权重系数，。根据TF-IDF的原理可知单独使用具有一定的片面性，这里配合“步骤206：Apriori关联挖掘”挖掘文档集内频繁集和关联关系，补充特征词的关联词，并根据词频计算权重系数。需要注意的是，步骤205只用于抽取分类样本集，且是分别处理每个分类。

步骤206：Apriori关联挖掘用于挖掘文档内关联规则，并和步骤205、207配合使用。

步骤207：K-means聚类。本步骤用于处理不分类样本集。设定聚类数K(可人工指定)，从各聚合点的提取特征词。需要注意的是从不分类样本集中聚类出的分类不具备业务上的意义。这里配合“步骤206：Apriori关联挖掘”挖掘文档集内频繁集和关联关系，补充特征词的关联词。

步骤208:用步骤205和206的结果建立词条空间向量模型(VSM)并存储入行业规则库。需要注意的是分类样本是分类进行VSM建立和存储的。

步骤209：用步骤205和步骤207的结果存储入行业特征词库。

至此，基于行业样本的特征和规则的抽取——也就是所谓的知识提取完成，这一过程可以根据实际情况调整样本处理引擎的算法。随着日后样本数量的不断增多和样本质量的不断提高，行业特征规则也愈发全面。

如图4，特征分析是分析器的分析态工作方式。工作步骤如下：

步骤301：向分析器声明一个分析请求，递交待分析对象，并指定分析行业。

步骤302：分析器启动，加载行业规则库和人工规则库。

步骤303：将输入文本对象清理、分词后，生成VSM，并分别和人工规则库和行业规则库中的每一分类对应的VSM进行余弦相似度计算和内积计算。并根据相似度排序(不分类样本中得出的VSM的命中阀值的设定应低于分类样本)。

步骤304：输入对象和人工规则库相似度计算的结果。若达到相似度认可阀值则通过记录的正逆向规则进行观点倾向加权。

步骤305：输入对象和行业规则库相似度计算的结果。

步骤306：分析结果：结合步骤304和305的结果，按相似度倒排取超过阀值部分计算命中的特征分类。若同时命中正逆向规则，则计算正逆相似度方差和是否小于0来确定是否抛弃此分类标识。

至此。分析器完成了对一个输入对象的分析过程。并根据人工规则库和所选行业规则库进行了特征标注，并根据人工规则的匹配情况进行倾向性选择。

对于分析结果的人工操作，分析器进行记录和学习。

如图5所示“行为学习”是分析器对人工操作进行记录和学习的工作方式。工作步骤如下：

步骤101：结果评价。人工可以对分析结果进行标注操作，并被分析器记录。人工评价可以认为存在肯定和否定两种观点，因而给定一个从-1～+1的观点量化值，负数越小表示否定程度越强(逆向规则)，正数越大表肯定程度越强(正向规则)。这里通过累计人工行为的次数来确定观点程度。由看出表示极性词W在文档d中出现的次数占整个文档集中所有极性词出现的比例。通过“人工观点->获取观点对应的规则->获取规则对应特征词”计算得出观点相关的特征词并赋予其观点权重系数(这里取a＝0.4)。对通过人工观点加权后的权重进行平滑处理。在同时命中正向规则和逆向规则的场景下，通过命中权重和人工观点权重加值是否大于0确定结果(步骤306)。

步骤102：不认可分析结果。若人工标注为不认可分析结果，不认可分析结果表示分析结果命中的规则被否定，分析器进行步骤105或步骤106的操作，记录本逆向规则。

步骤103：认可分析结果。认可时，将认为分析命中的规则被肯定，分析器将进行步骤107或步骤108的操作，记录本正向规则。

步骤104：在人工不认可分析结果后，可对结果进行调整，调整可能会是增加新的标注或消除已有分析标注，消除认为是逆向规则，增加认为是正向规则。分析器将根据实际操作情况进行步骤105、或步骤106、或步骤107、或步骤108的操作。

步骤105：一条新的逆向规则包括：输入记录的VSM、命中规则的VSM、相似度值、和否定权重(这里取0.1)。通过输入的对象的VSM检索发现人工规则库中无此逆向记录时，记录一条新的逆向规则。

步骤106：当检索有此逆向规则时，提升其否定权重。

步骤107：一条新的正向规则包括：输入记录的VSM、命中规则的VSM、相似度值、和肯定权重(这里取0.1)。通过输入的对象的VSM检索发现人工规则库中无此正向记录时，记录一条新的正向规则。

步骤108：当检索有此正向规则时，提升其肯定权重。

步骤109：更新VSM，记录规则。将人工行为涉及的数据：人工标注的特征、特征相关的VSM、正逆向规则(权重策略)进行更新，存储入人工规则库。

人工规则随着标注的增多而逐渐具备人的业务观点倾向，同时在分析(步骤306)时提供指导作用，实现机制闭环。

综上，所述一种具备人工行为学习能力的行业特征分析器可通过行业样本完成行业知识的提取，进行对输入对象的业务特征识别，同时学习人的行为来进行观点修正，实现不断完善，不断强化分析辨识能力，最终实现辅助或替代人完成业务分析工作的目的。

另外，本发明的具体实现方法和途径很多，以上所述仅是本发明的优选实施方式。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种具备人工行为学习能力的行业特征分析器，其特征在于，包括分析任务调度器、分析引擎、规则库、样本处理引擎、行业特征样本库；

行业分析规则库：包含行业特征词库、行业规则库；

2.使用如权利要求1所述的具备人工行为学习能力的行业特征分析器的分析方法，其特征在于：包括规则抽取、特征分析、行为学习。

3.如权利要求2所述的分析方法，其特征在于：规则抽取是分析器的常态运作方式，周期性从所加载的行业特征样本库中加载样本集进行规则抽取和挖掘；工作步骤如下：

步骤201、分析器选择加载指定行业的样本。

步骤202及203、读取指定的行业特征样本库中的分类样本和不分类样本；

步骤204、从这步开始样本处理引擎开始工作；将样本集进行去重、分词、去除停用词和奇异词转换，得到较为清洁的分词文档集；

步骤205、通过TF-IDF计算得特征和权重系数，并配合步骤206：Apriori关联挖掘挖掘文档集内频繁集和关联关系，补充特征词的关联词，并根据词频计算权重系数；

步骤206、Apriori关联挖掘用于挖掘文档内关联规则，并和步骤205、207配合使用；

步骤207、K-means聚类；本步骤用于处理不分类样本集；设定聚类数K，从各聚合点的提取特征词；并配合步骤206：Apriori关联挖掘挖掘文档集内频繁集和关联关系，补充特征词的关联词；

步骤208、用步骤205和206的结果建立词条VSM并存储入行业规则库。需要注意的是分类样本是分类进行VSM建立和存储的；

步骤209、用步骤205和步骤207的结果存储入行业特征词库。

4.如权利要求3所述的分析方法，其特征在于：特征分析是分析器的分析态工作方式；工作步骤如下：

步骤301、向分析器声明一个分析请求，递交待分析对象，并指定分析行业；

步骤302、分析器启动，加载行业规则库和人工规则库。

步骤303、将输入文本对象清理、分词后，生成VSM，并分别和人工规则库和行业规则库中的每一分类对应的VSM进行余弦相似度计算和内积计算；并根据相似度排序；

步骤304、输入对象和人工规则库相似度计算的结果；若达到相似度认可阀值则通过记录的正逆向规则进行观点倾向加权；

步骤305、输入对象和行业规则库相似度计算的结果；

步骤306、分析结果：结合步骤304和305的结果，按相似度倒排取超过阀值部分计算命中的特征分类；若同时命中正逆向规则，则计算正逆相似度方差和是否小于0来确定是否抛弃此分类标识。

5.如权利要求4所述的分析方法，其特征在于：行为学习是分析器对人工操作进行记录和学习的工作方式；工作步骤如下：

步骤101、结果评价：人工可以对分析结果进行标注操作，并被分析器记录；人工评价存在肯定和否定两种观点，因而给定一个从-1～+1的观点量化值，负数越小表示否定程度越强，正数越大表肯定程度越强；通过累计人工行为的次数来确定观点程度；通过人工观点转入获取观点对应的规则再转入获取规则对应特征词计算得出观点相关的特征词并赋予其观点权重系数；对通过人工观点加权后的权重进行平滑处理；在同时命中正向规则和逆向规则的场景下，通过命中权重和人工观点权重加值是否大于0确定结果；

步骤102、不认可分析结果；若人工标注为不认可分析结果，不认可分析结果表示分析结果命中的规则被否定，分析器进行步骤105或步骤106的操作，记录本逆向规则；

步骤103、认可分析结果、认可时，将认为分析命中的规则被肯定，分析器将进行步骤107或步骤108的操作，记录本正向规则；

步骤104、在人工不认可分析结果后，可对结果进行调整，调整可能会是增加新的标注或消除已有分析标注，消除认为是逆向规则，增加认为是正向规则。分析器进入进行步骤105、或步骤106、或步骤107、或步骤108的操作；

步骤105、一条新的逆向规则包括：输入记录的VSM、命中规则的VSM、相似度值、和否定权重；通过输入的对象的VSM检索发现人工规则库中无此逆向记录时，记录一条新的逆向规则；

步骤106、当检索有此逆向规则时，提升其否定权重；

步骤107、一条新的正向规则包括：输入记录的VSM、命中规则的VSM、相似度值、和肯定权重；通过输入的对象的VSM检索发现人工规则库中无此正向记录时，记录一条新的正向规则；

步骤108：当检索有此正向规则时，提升其肯定权重；

步骤109：更新VSM，记录规则。将人工行为涉及的数据：人工标注的特征、特征相关的VSM、正逆向规则进行更新，存储入人工规则库、

人工规则随着标注的增多而逐渐具备人的业务观点倾向，同时在分析时提供指导作用，实现机制闭环。