CN109840281A - 一种基于随机森林算法的自学习智能判定方法 - Google Patents

一种基于随机森林算法的自学习智能判定方法 Download PDF

Info

Publication number
CN109840281A
CN109840281A CN201910145429.2A CN201910145429A CN109840281A CN 109840281 A CN109840281 A CN 109840281A CN 201910145429 A CN201910145429 A CN 201910145429A CN 109840281 A CN109840281 A CN 109840281A
Authority
CN
China
Prior art keywords
word
analysis
statistics
data
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910145429.2A
Other languages
English (en)
Inventor
姜帅
栾丽丽
宁方刚
陈兆亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Group Co Ltd
Original Assignee
Inspur Software Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Group Co Ltd filed Critical Inspur Software Group Co Ltd
Priority to CN201910145429.2A priority Critical patent/CN109840281A/zh
Publication of CN109840281A publication Critical patent/CN109840281A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Complex Calculations (AREA)

Abstract

本发明提供一种基于随机森林算法的自学习智能判定方法,属于自然语言处理技术领域,本发明通过分析历史数据、自我学习和增加新的树节点,可以不断改进判定的准确度。本发明的方法通过词频分布统计分析、词序分布统计分析、量化统计分析、规定条款统计分析等决策树综合分析判定文本内容,可以用于各种判定结果的生成,通过合理的决策树剪枝,实现了快速判定结果输出,其无人工干预的特点有助于实现判定结果生成的公平、公正性。

Description

一种基于随机森林算法的自学习智能判定方法
技术领域
本发明涉及自然语言处理技术,尤其涉及一种基于随机森林算法的自学习智能判定方法。
背景技术
随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。随机森林的优点在于:对于很多种资料,它可以产生高准确度的分类器;它可以处理大量的输入变数;学习过程是很快速的;在建造森林时,它可以在内部对于一般化后的误差产生不偏差的估计。
在日常的生产生活中,通过以国家的政策文件、规章制度、标准规范为基础,分析总结历史经验进行调整,进而得出对于现有需判定问题的结论是一个常用且能够被多数人认同的方法。
发明内容
根据以上内容,本发明提出了一种基于随机森林算法的自学习智能判定方法,模拟人类做出判定时的思维方式,可以智能分析输入文本中的内容,并将内容转换为匹配结果。
本发明所实现的判定方法最终部署为web服务方式,通过Rest接口获取外部输入的文本数据、分析文本中的语素,通过量化和非量化的分析得出相对应的结论,通过自我学习对判定结果进行修正。
本发明的技术方案是:
森林算法的自学习智能判定方法,其特征在于,
通过Rest接口获取外部输入的文本数据,通过对自然语言的词频分布统计分析、词序分布统计分析、量化统计分析、规定条款统计分析,综合分析判定文本内容,通过自我学习不断修正判定结果,最终辅助决策者得出判定结果。
所述Rest接口获取外部输入,
采用Restful风格接口获取外部系统的请求数据并通过JSON格式返回响应结果。
通过分析并统计文本中词出现的次数生成词频统计数据;
通过分析并统计文本中词与词之间的顺序关系生成词序统计网络;
通过分析文本中量化的数据及与其对应的实体间的关系,生成量化统计数据;
通过分析文本中的规定条款,生成规定条款统计数据。
所述词频分布统计,
通过分析历史数据,将历史数据中的自然语言描述拆解为词,统计各个历史判定结果对应的文本中各个词出现的次数,形成词频分布,最终将词频分布作为得出判定结果的一个条件,存入系统的知识库中。
所述词序分布统计,
通过分析历史数据,将历史数据中的自然语言拆解为词,根据各个历史判定结果对应的文本中的词的顺序关系构建词序分布网络,根据词序关系出现的次数决定各个节点间的距离,最终将词序分布作为得出判定结果的一个条件,存入系统的知识库中。
所述量化统计,
通过分析历史数据,解析出历史数据中的量词与量词描述的主体,将量化统计信息作为得出判定结果的一个条件,存入系统的知识库中。
所述规定条款统计,
通过分析历史数据,解析出历史数据中的规定条款信息,将规定条款信息作为得出判定结果的一个条件,存入系统的知识库中。
所述判定结果得出,
综合词频分布统计、词序分布统计、量化统计、规定条款统计得出最终判定结果。
本发明的有益效果是
本发明适用于需要频繁做出判定的场景,减轻了决策者的判定压力,辅助决策者得出更加公平、公正的判定结果。
附图说明
图1是本发明的业务流程的学习部分示意图;
图2是本发明的业务流程的判定部分示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围
本发明的一种基于随机森林算法的自学习智能判定方法,主要包括如下几个方面,
1)Restful风格接口获取外部数据和返回响应;
2)词频分布统计;
3)词序分布统计;
4)量化统计;
5)规定条款统计;
6)自学习;
7)随机森林算法多条件综合判定;
8)智能判定;
采用Restful风格接口获取外部系统的请求数据并通过JSON格式返回本系统的响应结果,可以适用于各种异构系统的接入。
通过分析并统计文本中词出现的次数生成词频统计数据,该数据用于后续的随机森林判断的一个要素,通过该数据估算待判定文本与历史数据的词频相似度。
通过分析并统计文本中词与词之间的顺序关系生成词序统计网络,该网络用于后续的随机森林的判断的一个要素,通过该数据估算待判定文本与历史数据的词序相似度。
通过分析文本中量化的数据及与其对应的实体间的关系,生成量化统计数据,该数据用于后续的随机森林判断的一个要素,通过该数据估算待判定文本与历史数据的量化相似度。
通过分析文本中的规定条款,生成规定条款统计数据,该数据用于后续的随机森林判断的一个要素,通过该数据估算待判定文本与历史数据的规定条款相似度。
既可以通过分析已经存在的历史数据进行学习,也可以在系统做出判定结果后通过人工修正的方式修正判定结果,从而实现系统的自主学习。
通过随机森林算法综合各种判定要素,本系统的判定要素有词频相似度、词序相似度、量化相似度、规定条款相似度,每个相似度的判定过程都是相互独立的,本发明的最终判定是通过随机森林算法综合四种条件得出的,可以有效的消除因为偶然因素造成的误差。
通过自然语言分析,智能分析文本中的各种语言要素,通过随机森林算法模拟人类判定时的判断思路做出判定。同时通过自学习,不断修正误差、完善系统的判定准确度。
本发明通过Rest接口获取外部输入的文本数据,通过对自然语言的词频分布统计分析、词序分布统计分析、量化统计分析、规定条款统计分析等综合分析判定文本内容,通过自我学习不断修正判定结果,最终辅助决策者得出更加公平、公正的判定结果。其中
1.Rest接口获取外部输入。使用Restful风格的接口获取数据,JSON格式返回数据,方便各类异构系统的接入。
2.词频分布统计。通过分析历史数据,将历史数据中的自然语言描述拆解为词,统计各个历史判定结果对应的文本中各个词出现的次数,形成词频分布,最终将词频分布作为得出判定结果的一个条件,存入系统的知识库中。
即:假设有词W,其总共出现了N次
则对应的每个判定结果中,记词频为C(W)=N。
3.词序分布统计。通过分析历史数据,将历史数据中的自然语言拆解为词,根据各个历史判定结果对应的文本中的词的顺序关系构建词序分布网络,根据词序关系出现的次数决定各个节点间的距离,最终将词序分布作为得出判定结果的一个条件,存入系统的知识库中。
即:假设有词Wx,其后续可以连接的词有Wy1,Wy2,Wy3……,Wyn。若经过统计,Wx词后Wy1,Wy2,Wy3……,Wyn出现的次数分别为d1,d2,d3……,dn
则对应的每个判定结果中,记词间距离D(Wx,Wyn)=dn
4.量化统计。通过分析历史数据,解析出历史数据中的量词与量词描述的主体,将量化统计信息作为得出判定结果的一个条件,存入系统的知识库中。
即:假设主体E的量化描述范围为X<QE<Y。
则对应的每个判定结果中,记主体的量化描述为Q(E)=(X,Y)。即使用数学中的区间表示法表示主体的量化范围.
5.规定条款统计。通过分析历史数据,解析出历史数据中的规定条款信息,将规定条款信息作为得出判定结果的一个条件,存入系统的知识库中。
即:通过分析提取出规定X,其名称为N、引用的章、节、条、目……分别为T1、T2、T3、T4……
则记对应的每个判定结果中,记规定条款为L(X)={N,T1,T2,T3,T4……}。
6.判定结果得出。综合词频分布统计、词序分布统计、量化统计、规定条款统计得出最终判定结果。
假设:待判定描述文本为X。经分词后的词为W1,W2,W3,……,Wn,可能的判定结果为R1,R2,R3,……,Rm。可能的判定结果中,词计数最多的判定结果中词计数为MaxC。
a)词频相似度CSi(其中i∈{1,2,3……,m}):
取CSi(X)的最大值,记为MaxCS
则相似度标准化到1后为:CSi(X)′=CSi(X)/MaxCS
b)词序相似度DSi(其中i∈{1,2,3……,m}):
(其中Wj必须连续不可断开)
取DSi(X)的最大值,记为MaxDS
则相似度标准化到1后为:DSi(X)′=DSi(X)/MaxDS
c)量化相似度QSi(其中i∈{1,2,3……,m}):
d)规定条款相似度LSi(其中i∈{1,2,3……,m}):
LSi(X)=(L(X)∩Li)集合元素个数*0.5
e)文本与历史决策的相似度Si(X)(其中i∈{1,2,3……,m}):
Si(X)=CSi(X)′+DSi(X)′+QSi(X)+LSi(X)。
f)得出判定结果:
取Si(X)的最大值为Sk(X)k∈{1,2,3……,m},则判定系统最终的判定输出结果为Rk
以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (8)

1.一种基于森林算法的自学习智能判定方法,其特征在于,
通过Rest接口获取外部输入的文本数据,通过对自然语言的词频分布统计分析、词序分布统计分析、量化统计分析、规定条款统计分析,综合分析判定文本内容,通过自我学习不断修正判定结果,最终辅助决策者得出判定结果。
2.根据权利要求1所述的方法,其特征在于,
所述Rest接口获取外部输入,
采用Restful风格接口获取外部系统的请求数据并通过JSON格式返回响应结果。
3.根据权利要求1或2所述的方法,其特征在于,
通过分析并统计文本中词出现的次数生成词频统计数据;
通过分析并统计文本中词与词之间的顺序关系生成词序统计网络;
通过分析文本中量化的数据及与其对应的实体间的关系,生成量化统计数据;
通过分析文本中的规定条款,生成规定条款统计数据。
4.根据权利要求3所述的方法,其特征在于,
所述词频分布统计,
通过分析历史数据,将历史数据中的自然语言描述拆解为词,统计各个历史判定结果对应的文本中各个词出现的次数,形成词频分布,最终将词频分布作为得出判定结果的一个条件,存入系统的知识库中。
5.根据权利要求3所述的方法,其特征在于,
所述词序分布统计,
通过分析历史数据,将历史数据中的自然语言拆解为词,根据各个历史判定结果对应的文本中的词的顺序关系构建词序分布网络,根据词序关系出现的次数决定各个节点间的距离,最终将词序分布作为得出判定结果的一个条件,存入系统的知识库中。
6.根据权利要求3所述的方法,其特征在于,
所述量化统计,
通过分析历史数据,解析出历史数据中的量词与量词描述的主体,将量化统计信息作为得出判定结果的一个条件,存入系统的知识库中。
7.根据权利要求3所述的方法,其特征在于,
所述规定条款统计,
通过分析历史数据,解析出历史数据中的规定条款信息,将规定条款信息作为得出判定结果的一个条件,存入系统的知识库中。
8.根据权利要求3所述的方法,其特征在于,
所述判定结果得出,
综合词频分布统计、词序分布统计、量化统计、规定条款统计得出最终判定结果。
CN201910145429.2A 2019-02-27 2019-02-27 一种基于随机森林算法的自学习智能判定方法 Pending CN109840281A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910145429.2A CN109840281A (zh) 2019-02-27 2019-02-27 一种基于随机森林算法的自学习智能判定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910145429.2A CN109840281A (zh) 2019-02-27 2019-02-27 一种基于随机森林算法的自学习智能判定方法

Publications (1)

Publication Number Publication Date
CN109840281A true CN109840281A (zh) 2019-06-04

Family

ID=66885097

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910145429.2A Pending CN109840281A (zh) 2019-02-27 2019-02-27 一种基于随机森林算法的自学习智能判定方法

Country Status (1)

Country Link
CN (1) CN109840281A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069021A (zh) * 2015-07-15 2015-11-18 广东石油化工学院 基于领域的中文短文本情感分类方法
CN106294324A (zh) * 2016-08-11 2017-01-04 上海交通大学 一种基于自然语言句法分析树的机器学习情感分析器
CN106372640A (zh) * 2016-08-19 2017-02-01 中山大学 一种字频文本分类方法
WO2017067153A1 (zh) * 2015-10-22 2017-04-27 腾讯科技(深圳)有限公司 基于文本分析的信用风险评估方法及装置、存储介质
WO2017107010A1 (zh) * 2015-12-21 2017-06-29 浙江核新同花顺网络信息股份有限公司 基于事件回测的信息分析系统及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069021A (zh) * 2015-07-15 2015-11-18 广东石油化工学院 基于领域的中文短文本情感分类方法
WO2017067153A1 (zh) * 2015-10-22 2017-04-27 腾讯科技(深圳)有限公司 基于文本分析的信用风险评估方法及装置、存储介质
WO2017107010A1 (zh) * 2015-12-21 2017-06-29 浙江核新同花顺网络信息股份有限公司 基于事件回测的信息分析系统及方法
CN106294324A (zh) * 2016-08-11 2017-01-04 上海交通大学 一种基于自然语言句法分析树的机器学习情感分析器
CN106372640A (zh) * 2016-08-19 2017-02-01 中山大学 一种字频文本分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李惠等: "基于语言模型和特征分类的抄袭判定", 《计算机工程》 *
鞠芳等: "试析基于机器学习的文本分类", 《电脑编程技巧与维护》 *

Similar Documents

Publication Publication Date Title
Kuleshov et al. Calibrated structured prediction
CN105786991B (zh) 结合用户情感表达方式的中文情感新词识别方法和系统
CN106503055B (zh) 一种从结构化文本到图像描述的生成方法
WO2021139232A1 (zh) 基于医疗知识图谱的分诊方法、装置、设备及存储介质
CN112328742A (zh) 基于人工智能的培训方法、装置、计算机设备及存储介质
CN109271634B (zh) 一种基于用户情感倾向感知的微博文本情感极性分析方法
CA3078984A1 (en) Methods, systems, and computer program product for implementing an intelligent system with dynamic configurability
US20220215175A1 (en) Place recognition method based on knowledge graph inference
CN104331523B (zh) 一种基于概念对象模型的问句检索方法
CN113590837A (zh) 一种基于深度学习的食品及健康知识图谱构建方法
CN110263854B (zh) 直播标签确定方法、装置及存储介质
CN104408639A (zh) 多轮会话交互方法和系统
CN109062907A (zh) 融入依存关系的神经机器翻译方法
US11915343B2 (en) Color representations for textual phrases
CN108112044B (zh) 一种基于正态模糊数的异构无线网络选择方法
WO2019114618A1 (zh) 一种深度神经网络训练方法、装置及计算机设备
CN113361258A (zh) 基于图卷积网络和选择注意力的方面级情感分析方法及系统
CN111368096A (zh) 基于知识图谱的信息分析方法、装置、设备和存储介质
CN109460462A (zh) 一种中文相似问题生成系统与方法
CN117494727A (zh) 用于大语言模型的去偏倚方法
CN110084427A (zh) 一种智慧城市舆情事件预测算法
Balkir et al. Sentence entailment in compositional distributional semantics
CN117436446B (zh) 基于弱监督的农业社会化销售服务用户评价数据分析方法
Xie et al. The study of methods for post-pruning decision trees based on comprehensive evaluation standard
CN109840281A (zh) 一种基于随机森林算法的自学习智能判定方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190604

RJ01 Rejection of invention patent application after publication