CN109840281A

CN109840281A - 一种基于随机森林算法的自学习智能判定方法

Info

Publication number: CN109840281A
Application number: CN201910145429.2A
Authority: CN
Inventors: 姜帅; 栾丽丽; 宁方刚; 陈兆亮
Original assignee: Inspur Software Group Co Ltd
Current assignee: Inspur Software Group Co Ltd
Priority date: 2019-02-27
Filing date: 2019-02-27
Publication date: 2019-06-04

Abstract

本发明提供一种基于随机森林算法的自学习智能判定方法，属于自然语言处理技术领域，本发明通过分析历史数据、自我学习和增加新的树节点，可以不断改进判定的准确度。本发明的方法通过词频分布统计分析、词序分布统计分析、量化统计分析、规定条款统计分析等决策树综合分析判定文本内容，可以用于各种判定结果的生成，通过合理的决策树剪枝，实现了快速判定结果输出，其无人工干预的特点有助于实现判定结果生成的公平、公正性。

Description

一种基于随机森林算法的自学习智能判定方法

技术领域

本发明涉及自然语言处理技术，尤其涉及一种基于随机森林算法的自学习智能判定方法。

背景技术

随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。随机森林的优点在于：对于很多种资料，它可以产生高准确度的分类器；它可以处理大量的输入变数；学习过程是很快速的；在建造森林时，它可以在内部对于一般化后的误差产生不偏差的估计。

在日常的生产生活中，通过以国家的政策文件、规章制度、标准规范为基础，分析总结历史经验进行调整，进而得出对于现有需判定问题的结论是一个常用且能够被多数人认同的方法。

发明内容

根据以上内容，本发明提出了一种基于随机森林算法的自学习智能判定方法，模拟人类做出判定时的思维方式，可以智能分析输入文本中的内容，并将内容转换为匹配结果。

本发明所实现的判定方法最终部署为web服务方式，通过Rest接口获取外部输入的文本数据、分析文本中的语素，通过量化和非量化的分析得出相对应的结论，通过自我学习对判定结果进行修正。

本发明的技术方案是：

森林算法的自学习智能判定方法，其特征在于，

通过Rest接口获取外部输入的文本数据，通过对自然语言的词频分布统计分析、词序分布统计分析、量化统计分析、规定条款统计分析，综合分析判定文本内容，通过自我学习不断修正判定结果，最终辅助决策者得出判定结果。

所述Rest接口获取外部输入，

采用Restful风格接口获取外部系统的请求数据并通过JSON格式返回响应结果。

通过分析并统计文本中词出现的次数生成词频统计数据；

通过分析并统计文本中词与词之间的顺序关系生成词序统计网络；

通过分析文本中量化的数据及与其对应的实体间的关系，生成量化统计数据；

通过分析文本中的规定条款，生成规定条款统计数据。

所述词频分布统计，

通过分析历史数据，将历史数据中的自然语言描述拆解为词，统计各个历史判定结果对应的文本中各个词出现的次数，形成词频分布，最终将词频分布作为得出判定结果的一个条件，存入系统的知识库中。

所述词序分布统计，

通过分析历史数据，将历史数据中的自然语言拆解为词，根据各个历史判定结果对应的文本中的词的顺序关系构建词序分布网络，根据词序关系出现的次数决定各个节点间的距离，最终将词序分布作为得出判定结果的一个条件，存入系统的知识库中。

所述量化统计，

通过分析历史数据，解析出历史数据中的量词与量词描述的主体，将量化统计信息作为得出判定结果的一个条件，存入系统的知识库中。

所述规定条款统计，

通过分析历史数据，解析出历史数据中的规定条款信息，将规定条款信息作为得出判定结果的一个条件，存入系统的知识库中。

所述判定结果得出，

综合词频分布统计、词序分布统计、量化统计、规定条款统计得出最终判定结果。

本发明的有益效果是

本发明适用于需要频繁做出判定的场景，减轻了决策者的判定压力，辅助决策者得出更加公平、公正的判定结果。

附图说明

图1是本发明的业务流程的学习部分示意图；

图2是本发明的业务流程的判定部分示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围

本发明的一种基于随机森林算法的自学习智能判定方法，主要包括如下几个方面，

1)Restful风格接口获取外部数据和返回响应；

2)词频分布统计；

3)词序分布统计；

4)量化统计；

5)规定条款统计；

6)自学习；

7)随机森林算法多条件综合判定；

8)智能判定；

采用Restful风格接口获取外部系统的请求数据并通过JSON格式返回本系统的响应结果，可以适用于各种异构系统的接入。

通过分析并统计文本中词出现的次数生成词频统计数据，该数据用于后续的随机森林判断的一个要素，通过该数据估算待判定文本与历史数据的词频相似度。

通过分析并统计文本中词与词之间的顺序关系生成词序统计网络，该网络用于后续的随机森林的判断的一个要素，通过该数据估算待判定文本与历史数据的词序相似度。

通过分析文本中量化的数据及与其对应的实体间的关系，生成量化统计数据，该数据用于后续的随机森林判断的一个要素，通过该数据估算待判定文本与历史数据的量化相似度。

通过分析文本中的规定条款，生成规定条款统计数据，该数据用于后续的随机森林判断的一个要素，通过该数据估算待判定文本与历史数据的规定条款相似度。

既可以通过分析已经存在的历史数据进行学习，也可以在系统做出判定结果后通过人工修正的方式修正判定结果，从而实现系统的自主学习。

通过随机森林算法综合各种判定要素，本系统的判定要素有词频相似度、词序相似度、量化相似度、规定条款相似度，每个相似度的判定过程都是相互独立的，本发明的最终判定是通过随机森林算法综合四种条件得出的，可以有效的消除因为偶然因素造成的误差。

通过自然语言分析，智能分析文本中的各种语言要素，通过随机森林算法模拟人类判定时的判断思路做出判定。同时通过自学习，不断修正误差、完善系统的判定准确度。

本发明通过Rest接口获取外部输入的文本数据，通过对自然语言的词频分布统计分析、词序分布统计分析、量化统计分析、规定条款统计分析等综合分析判定文本内容，通过自我学习不断修正判定结果，最终辅助决策者得出更加公平、公正的判定结果。其中

1.Rest接口获取外部输入。使用Restful风格的接口获取数据，JSON格式返回数据，方便各类异构系统的接入。

2.词频分布统计。通过分析历史数据，将历史数据中的自然语言描述拆解为词，统计各个历史判定结果对应的文本中各个词出现的次数，形成词频分布，最终将词频分布作为得出判定结果的一个条件，存入系统的知识库中。

即：假设有词W，其总共出现了N次

则对应的每个判定结果中，记词频为C(W)＝N。

3.词序分布统计。通过分析历史数据，将历史数据中的自然语言拆解为词，根据各个历史判定结果对应的文本中的词的顺序关系构建词序分布网络，根据词序关系出现的次数决定各个节点间的距离，最终将词序分布作为得出判定结果的一个条件，存入系统的知识库中。

即：假设有词W_x，其后续可以连接的词有W_y1，W_y2,W_y3……,W_yn。若经过统计，W_x词后W_y1，W_y2,W_y3……,W_yn出现的次数分别为d₁,d₂,d₃……,d_n。

则对应的每个判定结果中，记词间距离D(W_x，W_yn)＝d_n。

4.量化统计。通过分析历史数据，解析出历史数据中的量词与量词描述的主体，将量化统计信息作为得出判定结果的一个条件，存入系统的知识库中。

即：假设主体E的量化描述范围为X<Q_E<Y。

则对应的每个判定结果中，记主体的量化描述为Q(E)＝(X,Y)。即使用数学中的区间表示法表示主体的量化范围.

5.规定条款统计。通过分析历史数据，解析出历史数据中的规定条款信息，将规定条款信息作为得出判定结果的一个条件，存入系统的知识库中。

即：通过分析提取出规定X，其名称为N、引用的章、节、条、目……分别为T₁、T₂、T₃、T₄……

则记对应的每个判定结果中，记规定条款为L(X)＝{N,T₁,T₂,T₃,T₄……}。

6.判定结果得出。综合词频分布统计、词序分布统计、量化统计、规定条款统计得出最终判定结果。

假设：待判定描述文本为X。经分词后的词为W₁，W₂，W₃，……，W_n，可能的判定结果为R₁，R₂，R₃,……，R_m。可能的判定结果中，词计数最多的判定结果中词计数为MaxC。

a)词频相似度CS_i(其中i∈{1,2,3……,m}):

取CS_i(X)的最大值，记为MaxCS

则相似度标准化到1后为：CS_i(X)′＝CS_i(X)/MaxCS

b)词序相似度DS_i(其中i∈{1,2,3……,m}):

(其中W_j必须连续不可断开)

取DS_i(X)的最大值，记为MaxDS

则相似度标准化到1后为：DS_i(X)′＝DS_i(X)/MaxDS

c)量化相似度QS_i(其中i∈{1,2,3……,m}):

d)规定条款相似度LS_i(其中i∈{1,2,3……,m}):

LS_i(X)＝(L(X)∩L_i)集合元素个数*0.5

e)文本与历史决策的相似度S_i(X)(其中i∈{1,2,3……,m}):

S_i(X)＝CS_i(X)′+DS_i(X)′+QS_i(X)+LS_i(X)。

f)得出判定结果：

取S_i(X)的最大值为S_k(X)k∈{1,2,3……,m},则判定系统最终的判定输出结果为R_k。

以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种基于森林算法的自学习智能判定方法，其特征在于，

2.根据权利要求1所述的方法，其特征在于，

所述Rest接口获取外部输入，

3.根据权利要求1或2所述的方法，其特征在于，

通过分析并统计文本中词出现的次数生成词频统计数据；

通过分析文本中的规定条款，生成规定条款统计数据。

4.根据权利要求3所述的方法，其特征在于，

所述词频分布统计，

5.根据权利要求3所述的方法，其特征在于，

所述词序分布统计，

6.根据权利要求3所述的方法，其特征在于，

所述量化统计，

7.根据权利要求3所述的方法，其特征在于，

所述规定条款统计，

8.根据权利要求3所述的方法，其特征在于，

所述判定结果得出，