CN108228687A - 大数据知识挖掘及精准跟踪方法与系统 - Google Patents
大数据知识挖掘及精准跟踪方法与系统 Download PDFInfo
- Publication number
- CN108228687A CN108228687A CN201710470156.XA CN201710470156A CN108228687A CN 108228687 A CN108228687 A CN 108228687A CN 201710470156 A CN201710470156 A CN 201710470156A CN 108228687 A CN108228687 A CN 108228687A
- Authority
- CN
- China
- Prior art keywords
- classification
- sample
- module
- feature
- sorted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明的大数据知识挖掘及精准跟踪方法与系统,通过判断是否已有正确分类的训练语料从而区分监督分类和非监督分类,对应监督分类进行第一处理,包括根据预处理的训练样本提取特征,并生成特征向量,从而训练分类器来对待分类样本进行分类;或者,对应非监督分类采用对待分类样本进行预处理及特征提取,并生成特征向量,然后进行特征向量间相似度运算,再通过聚类算法完成对待分类样本的分类;使用多种分类算法的嵌套来实现多层级的多分类问题,同时需要将交互的关键词加入到特征集合中,并根据相应的算法赋予一定的特征权重将其应用到分类算法中,最终提高自动分类的准确性。
Description
技术领域
本发明涉及大数据技术领域,特别是涉及一种大数据知识挖掘及精准跟踪方法与系统。
背景技术
数据的环境下提供了巨量的信息资源,但数据的碎片化和信息过载等问题,使得对知识的利用更加困难。如何将低价值密度的碎片、散乱的数据,转换为有序的,可以持续深化的知识,是改善大数据环境下知识利用效率的核心。
虽然数据挖掘的各种方法已经有了较长时间的发展,但是由于互联网环境下的海量数据包含的有效信息较少,导致特征集维数非常高,准确而高效的降维就显得至关重要。
另外,数据挖掘的核心在于信息分为,针对网络文本数据,由于其含有的信息量巨大,其文本分类中最关键的步骤在于如何根据现有的平台设计出合适的分类算法,分类算法的选择决定了分类效果的好坏。
虽然目前已经存在有比较成熟的分类算法,但是每种算法都有各自的优缺点,为了达到更好的分类效果,需要对现有的分类算法根据现有的平台中的新闻进行改进,比如,现有的平台拥有多层级目录、多个主题类别和用于用户交互的关键词等,因此,需要使用多种分类算法的嵌套来实现多层级的多分类问题,以提升数据分类的准确性。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种大数据知识挖掘及精准跟踪方法与系统,用于解决现有技术的问题,提升海量网络文本信息挖掘的准确性。
为实现上述目的及其他相关目的,本发明提供一种大数据知识挖掘及精准跟踪方法,包括:判断是否已有正确分类的训练语料;若有正确分类的训练语料,则进行第一处理,其包括:对获取自所述训练语料的训练样本进行预处理;其中,所述预处理包括分词、词性标注、去停用词、及初步特征提取;通过特征选择算法对经预处理的训练样本计算特征值;将所计算各特征值从小到大排序后,提取最大的前M个特征值作为样本分类特征集合;根据所述样本分类特征集合,使用文本表示方法得到表示所述训练样本的特征向量;通过分类方法对所述特征向量进行训练以构建分类器;通过所述分类器将待分类样本的特征向量进行分类至所述正确分类中;其中,所述待分类样本的特征向量是对经过预处理的待分类样本进行计算得到的;若无正确分类的训练语料,则进行第二处理,其包括:对待分类样本进行预处理;通过特征选择算法对经预处理的待分类样本计算特征值;根据所述待分类样本的各特征值,使用文本表示方法得到表示所述待分类样本的特征向量;进行所计算的特征向量间的相似度计算;根据所计算的相似度,采用聚类算法以对待分类样本完成分类;其中,所述分类通过关键词来表示,其中,所述关键词包括:面向监测对象的第一类型;以及面向监测内容的第二类型。
于本发明的一实施例中,所述分类器包含预警判断规则,通过预警判断规则来判断文本内容以确定分类。
于本发明的一实施例中,所述特征选择算法包括:互信息或信息增益算法。
于本发明的一实施例中,所述分类方法包括:朴素贝叶斯或决策树。
于本发明的一实施例中,所述相似度计算方法包括:欧式距离;所述聚类算法包括: K-Means算法。
为实现上述目的及其他相关目的,本发明提供一种大数据知识挖掘及精准跟踪系统,包括:处理模式判断模块,用于判断是否已有正确分类的训练语料;第一处理模块,用于在有正确分类的训练语料的情况下,进行第一处理;所述第一处理模块包括:第一预处理模块、第一特征选择模块、特征提取模块、第一特征向量生成模块、及训练模块;所述第一预处理模块,用于对获取自所述训练语料的训练样本进行预处理;其中,所述预处理包括分词、词性标注、去停用词、及初步特征提取;所述第一特征选择模块,用于通过特征选择算法对经预处理的训练样本计算特征值;所述特征提取模块,用于将所计算各特征值从小到大排序后,提取最大的前M个特征值作为样本分类特征集合;所述第一特征向量生成模块,用于根据所述样本分类特征集合,使用文本表示方法得到表示所述训练样本的特征向量;所述训练模块,用于通过分类方法对所述特征向量进行训练以构建分类器;所述分类器,用于将待分类样本的特征向量进行分类至所述正确分类中;其中,所述待分类样本的特征向量是对经过预处理的待分类样本进行计算得到的;第二处理模块,用于在无正确分类的训练语料的情况下,则进行第二处理,其包括:第二预处理模块、第二特征选择模块、第二特征向量生成模块、相似度计算模块、及聚类计算模块;所述第二预处理模块,用于对待分类样本进行预处理;所述第二特征选择模块,用于通过特征选择算法对经预处理的待分类样本计算特征值;所述第二特征向量生成模块,用于根据所述待分类样本的各特征值,使用文本表示方法得到表示所述待分类样本的特征向量;所述相似度计算模块,用于进行所计算的特征向量间的相似度计算;所述聚类计算模块,用于根据所计算的相似度,采用聚类算法以对待分类样本完成分类;其中,所述分类通过关键词来表示,其中,所述关键词包括:面向监测对象的第一类型;以及面向监测内容的第二类型。
于本发明的一实施例中,包括:规则分类模块,所述分类器包含预警判断规则,通过预警判断规则来判断文本内容以确定分类。
于本发明的一实施例中,所述特征选择算法包括:互信息或信息增益算法。
于本发明的一实施例中,所述分类方法包括:朴素贝叶斯或决策树。
于本发明的一实施例中,所述相似度计算方法包括:欧式距离;所述聚类算法包括: K-Means算法。
如上所述,本发明的大数据知识挖掘及精准跟踪方法与系统,通过判断是否已有正确分类的训练语料从而区分监督分类和非监督分类,对应监督分类进行第一处理,包括根据预处理的训练样本提取特征,并生成特征向量,从而训练分类器来对待分类样本进行分类;或者,对应非监督分类采用对待分类样本进行预处理及特征提取,并生成特征向量,然后进行特征向量间相似度运算,再通过聚类算法完成对待分类样本的分类;使用多种分类算法的嵌套来实现多层级的多分类问题,同时需要将交互的关键词加入到特征集合中,并根据相应的算法赋予一定的特征权重将其应用到分类算法中,最终提高自动分类的准确性。
附图说明
图1显示为本发明一实施例中的大数据知识挖掘及精准跟踪方法的流程示意图。
图2显示为本发明一实施例中的大数据知识挖掘及精准跟踪系统的模块示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
请参阅图1,本发明提供一实施例中的大数据知识挖掘及精准跟踪方法的流程示意图,具体包括:
步骤S11:判断是否已有正确分类的训练语料。
于本实施例中,根据是否有分类正确的训练语料,文本分类可以划分为监督分类和非监督分类;所谓监督分类就是根据预先定义的文本类别,按照一定的方法将文档集合中未知类别的文本自动确定一个类别,而非监督分类即没有预先定义分类,需要依靠聚类分析来获得分类。
步骤S12:若有正确分类的训练语料,则进行第一处理,所述第一处理具体包括以下步骤:
步骤S121:对获取自所述训练语料的训练样本进行预处理。
所述训练样本可以是所述训练语料的部分或全部,样本越多所训练分类器的精确性可能会越高。
所述预处理包括分词、词性标注、去停用词、及初步特征提取。
举例来说,其中的分词和词性标注可采用例如中科院的NLPIR分词系统或其它分词系统;停用词指的是那些没有意义的词,并且在文本中出现次数较多,它们对文本分类没有贡献,比如标点符号、“的”、“今天”等,去停用词即从样本中去掉该些词;所述初步特征提取,从词性角度看,即获取能够表征类别的词性,一般为名词、动词和形容词等。
步骤S122:通过特征选择算法对经预处理的训练样本计算特征值。
所述特征选择算法包括:互信息(MI)或信息增益(IG)算法。
互信息算法,即根据特征和类别共同出现的概率,度量特征和类别的相关性。特征t和类别ci互信息计算公式如下:
信息增益(IG)算法:
在信息增益中,重要性的衡量标准就是看特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要,其计算公式如下:
步骤S123:将所计算各特征值从小到大排序后,提取最大的前M个特征值作为样本分类特征集合。
于本实施例中,每个特征的特征值越大,与系统越相关,提取前M个特征值作为样本分类集合以尽可能以最精简的开销即能表示该文档,简单举例来说,例如用5个指纹部位即可区分几亿人的指纹,而无需全部的指纹;而通过该M个特征即能表示一个文档,而不用该文档的所有特征来表示它,能有效降低维数。
步骤S124:根据所述样本分类特征集合,使用文本表示方法得到表示所述训练样本的特征向量。
所述文本表示方法包括:VSM方法。
VSM即向量空间模型,是一种知识表示方法。在文本分类中,向量空间模型是指一篇文本或一类文本用一组特征及其权值组成的向量表示,向量的集合组成向量空间。
在向量空间模型中,每个文本di都被形式化为n维空间的向量,其形式为: di=(T1,w1,T2,w2...,Tn,wn),其中Ti为特征,wi为特征Ti的权值,简记为:di=(w1,w2,...,wn)。
步骤S125:通过分类方法对所述特征向量进行训练以构建分类器。
所述分类方法包括:朴素贝叶斯或决策树。
朴素贝叶斯:
贝叶斯分类是一种统计学分类方法,它基于贝叶斯定理,可以用来预测类成员关系的可能性,给出文本属于某特定类别的概率,分类时根据预测结果将样本分到概率最高的类别中。
贝叶斯分类的出错率较小,在大型的数据集上表现出难得的速度和准确度。
决策树:
决策树是一个类似于流程图的树结构,其中每个节点代表一个属性上的测试,每个分支代表一个测试输出,最后的叶子节点代表类别。核心算法是贪心算法,它以自顶向下的方式在训练集上构造决策树之后,取未知文本的属性,在决策树上测试路径由根节点到叶节点,从而得到文本的所属类别。
决策树形成的分类规则易于理解,可以抵抗噪声,缺点是不适应大规模的数据集。
步骤S126:通过所述分类器将待分类样本的特征向量进行分类至所述正确分类中;其中,所述待分类样本的特征向量是对经过预处理的待分类样本进行计算得到的,即所述待分类样本可先进行预处理(分词、词性标注、去停用词、及初步特征提取等),然后以与前述实施例类似方式生成特征向量来表示待分类样本,进而通过构建的分类器来对待分类样本分类。
之后,还可包括对分类结果进行评价的步骤,评价的指标包括:准确率、召回率及F值;其计算公式如下所示:
如图2所示,展示本发明另一实施例中的大数据知识挖掘及精准跟踪方法的流程示意图,本实施例中的流程可作为图1中的一个分支,但并非以此为限;所述流程包括:
步骤S13:若无正确分类的训练语料,则进行第二处理,其包括:
步骤S131:对待分类样本进行预处理。
所述预处理可以与图1实施例中的预处理相似,所述预处理包括分词、词性标注、去停用词、及初步特征提取。
举例来说,其中的分词和词性标注可采用例如中科院的NLPIR分词系统或其它分词系统;停用词指的是那些没有意义的词,并且在文本中出现次数较多,它们对文本分类没有贡献,比如标点符号、“的”、“今天”等,去停用词即从样本中去掉该些词;所述初步特征提取,从词性角度看,即获取能够表征类别的词性,一般为名词、动词和形容词等。
步骤S132:通过特征选择算法对经预处理的待分类样本计算特征值。
于一实施例中,所述特征选择算法包括:互信息(MI)或信息增益(IG)算法。
步骤S133:根据所述待分类样本的各特征值,使用文本表示方法得到表示所述待分类样本的特征向量。
所述文本表示方法包括:VSM方法。
VSM即向量空间模型,是一种知识表示方法。在文本分类中,向量空间模型是指一篇文本或一类文本用一组特征及其权值组成的向量表示,向量的集合组成向量空间。
在向量空间模型中,每个文本di都被形式化为n维空间的向量,其形式为: di=(T1,w1,T2,w2...,Tn,wn),其中Ti为特征,wi为特征Ti的权值,简记为:di=(w1,w2,...,wn)。
步骤S134:进行所计算的特征向量间的相似度计算。
所述相似度计算可以通过例如欧式距离的算法来进行,当欧式距离表示相似度时,距离越小,相似度越大。欧式距离计算公式如下:
根据该公式,即可计算x向量和y向量之间的相似度,x、y向量可以是所述特征向量
步骤S135:根据所计算的相似度,采用聚类算法以对待分类样本完成分类;其中,所述分类通过关键词来表示,其中,所述关键词包括:面向监测对象的第一类型;以及面向监测内容的第二类型。
于本发明一实施例中,所述相似度计算方法为欧式举例算法的情况下;所述聚类算法包括:K-Means算法。
K-means算法是很典型的基于欧式距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。
具体说明其工作原理,首先从n个数据对象任意选择k个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数。k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。
该些分类的关键词例如包括:国家高层动向,重点行业追踪,开行客户追踪,银行业监管,金融市场,区域合作,宏观政策,主权国家评级,国际业务机会,主要国家货币政策,货币政策,经济动态,汇率政策,国际银行业监管,城镇化,融资平台与相关房地产,汇率政策,货币政策,债券市场,大宗商品与期货,货币市场,股票市场,欧元区,美国,德国,法国,英国,日本,公共基础设施,房地产,农林水利,邮电通信,石油天然气,煤炭,公路,债券发行监测,电力,棚改项目,数据财经简介,投资、消费、进出口指标,国民经济关键指标,财政指标,货币供应指标,石油石化,宏观经济运行指标,先行指标,航运业,房地产,矿产,业务动态,不良资产处置,融资平台,银行业监管,大宗商品与期货,铁路,业务创新,股票市场,货币市场。
代表该些分类(或者叫主题分类)的关键词可以自行建立,可以有多种关键词获得方式:第一种:面向监测对象的关键词,主要用于配置需要监测的对象,如****公司,****公司的某某人等,可以采用“括弧、中竖线、&”来组织监测逻辑。中竖线“|”代表或(OR)的关系;“&”代表和(AND)的关系,括弧用于分组;
第二种:面向监测内容的关键词,可根据想要监测的内容来设置:如客户的“互联网金融、大数据的业务动态等”对于风险监测,也可以输入代表风险内容的“破产、资金链断裂”等。
另外,所述分类器包含预警判断规则,通过预警判断规则来判断文本内容以确定分类,例如法律风险预警、股权风险预警、关联人风险预警、经营风险预警、财务风险预警、房地产行业预警等,并且,每个大类还可细分为小类,例如法律风险预警分类中包含刑事案件,行政案件,民事案件,执行案件等小分类;优选的,不同小分类的权重不同,例如刑事案件及行政案件对应等级较高的红色或橙色,民事案件对应橙色或黄色等。
举例来说,关于“法律风险预警”相关的文本内容进行分类,可按法律风险的高低不同而区别分类,例如,刑事案件,行政案件,民事案件,执行案件等,刑事案件及行政案件对应等级较高的红色或橙色,民事案件对应黄色或橙色等。
判断文本分类至“刑事案件”的预警判断规则可以例如为““XX公司”因“案由”被提起刑事诉讼;案号:“XXX”的内容,从中抽取字段“企业名称”、“案件类型”、“案由”、“被告”、“案号”来辨认是否为刑事案件,所述民事案件和行政案件等亦相似。
再举例来说,关于“股权风险预警”的分类,其可包含小分类“股权质押”,相关的预警判断规则可根据文本内容中包含股权质押的内容以及从中抽取字段“对象名称”、“质权人”、“出质股权数额”、“注册资本”、“质权人”等来完成文本分类。
在上述实施例中,所述训练样本可以是采集自客户的审核判定记录,从而缩短监测主题优化的时间和人力投入;其中,所述方法可以应用于互联网网络平台,所述客户可以是使用该互联网网络平台以获得文本浏览服务的客户。
常规情况下,可以依靠人工调整关键词,分类准确度达到80%以上,需要持续积累训练 3~6个月的时间配合人工智能算法后,时间可能可以缩短到1~2个月完成同等质量的训练。
并且,基于互联网网络平台实现,上手简单反馈结果快,会操作电脑的人员在0.5小时内就可以学会内容创建,其可在与网络平台连接的监测主题创建后10分钟即可看到监测的返回内容。
同时,利用网络平台实现端到端(网络平台的服务端到客户端)移动互联:监测数据可以实时接入移动端,用户可以随时利用合适的时间专注于与自身业务密切相关的定制化主题内容,长期跟踪带来自身专业素质的提升,如乘地铁时间就可以看,不会被其他资讯分散注意力。
通过云服务的方式,客户能够以超低的成本,极快服务交付速度,分享到大数据带来的红利。
如图2,本发明提供一大数据知识挖掘及精准跟踪系统,由于其技术原理与上述方法实施例大致相同,因此实施例间可通用的技术特征不作重复赘述。
所述系统包括:处理模式判断模块31、第一处理模块32、及第二处理模块33。
所述处理模式判断模块31,用于判断是否已有正确分类的训练语料。
所述第一处理模块32,用于在有正确分类的训练语料的情况下,进行第一处理。
所述第一处理模块32包括:第一预处理模块321、第一特征选择模块322、特征提取模块323、第一特征向量生成模块324、及训练模块325。
所述第一预处理模块321,用于对获取自所述训练语料的训练样本进行预处理;其中,所述预处理包括分词、词性标注、去停用词、及初步特征提取。
所述第一特征选择模块322,用于通过特征选择算法对经预处理的训练样本计算特征值。
所述特征提取模块323,用于将所计算各特征值从小到大排序后,提取最大的前M个特征值作为样本分类特征集合。
所述第一特征向量生成模块324,用于根据所述样本分类特征集合,使用文本表示方法得到表示所述训练样本的特征向量。
所述训练模块325,用于通过分类方法对所述特征向量进行训练以构建分类器。
所述分类器,用于将待分类样本的特征向量进行分类至所述正确分类中;其中,所述待分类样本的特征向量是对经过预处理的待分类样本进行计算得到的。
第二处理模块33,用于在无正确分类的训练语料的情况下,则进行第二处理。
第二处理模块33包括:第二预处理模块331、第二特征选择模块332、第二特征向量生成模块333、相似度计算模块334、及聚类计算模块335。
所述第二预处理模块331,用于对待分类样本进行预处理;
所述第二特征选择模块332,用于通过特征选择算法对经预处理的待分类样本计算特征值;
所述第二特征向量生成模块333,用于根据所述待分类样本的各特征值,使用文本表示方法得到表示所述待分类样本的特征向量;
所述相似度计算模块334,用于进行所计算的特征向量间的相似度计算;
所述聚类计算模块335,用于根据所计算的相似度,采用聚类算法以对待分类样本完成分类;其中,所述分类通过关键词来表示,其中,所述关键词包括:面向监测对象的第一类型;以及面向监测内容的第二类型。
于本发明的一实施例中,所述分类器包含预警判断规则,通过预警判断规则来判断文本内容以确定分类。
于本发明的一实施例中,所述特征选择算法包括:互信息或信息增益算法。
于本发明的一实施例中,所述分类方法包括:朴素贝叶斯或决策树。
于本发明的一实施例中,所述相似度计算方法包括:欧式距离;所述聚类算法包括: K-Means算法。
综上所述,本发明的大数据知识挖掘及精准跟踪方法与系统,通过判断是否已有正确分类的训练语料从而区分监督分类和非监督分类,对应监督分类进行第一处理,包括根据预处理的训练样本提取特征,并生成特征向量,从而训练分类器来对待分类样本进行分类;或者,对应非监督分类采用对待分类样本进行预处理及特征提取,并生成特征向量,然后进行特征向量间相似度运算,再通过聚类算法完成对待分类样本的分类;使用多种分类算法的嵌套来实现多层级的多分类问题,同时需要将交互的关键词加入到特征集合中,并根据相应的算法赋予一定的特征权重将其应用到分类算法中,最终提高自动分类的准确性。
通过上述系统建立网络平台(网站等),可以对接百万级别的网站资讯、贴吧、博客、微信等信息站点源,实现对站点信息的获取,并通过人机互动平台,实现这些多源信息按照预定的目标、行业等进行知识的体系化定制和各细分知识体系筛选规则的人工训练和挖掘程序自动训练;对于训练或审核通过的信息,可以通过PC、PDA、手机等基于设定的用户权限体系进行多角度的推荐。
在业务运营模式方面,可以支持多个专业领域的人员,依托平台建立自身专业领域的专业知识体系,同时将优质的专业体系作为一类信息产品,进行推广销售。
网络平台同时会积累不同用户的分析挖掘信息,包括建立知识和内容体系类的用户,以及直接使用某类推广信息的用户。后续可以通过对不同类别的客户进行精准细分,提升对不同类比用户对平台使用的满意度。同时在积累了用户之后,可以根据用户行为,加工用户的倾向标签,作为某些广告精准营销的对象。
本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (10)
1.一种大数据知识挖掘及精准跟踪方法,其特征在于,包括:
判断是否已有正确分类的训练语料;
若有正确分类的训练语料,则进行第一处理,其包括:
对获取自所述训练语料的训练样本进行预处理;其中,所述预处理包括分词、词性标注、去停用词、及初步特征提取;
通过特征选择算法对经预处理的训练样本计算特征值;
将所计算各特征值从小到大排序后,提取最大的前M个特征值作为样本分类特征集合;
根据所述样本分类特征集合,使用文本表示方法得到表示所述训练样本的特征向量;
通过分类方法对所述特征向量进行训练以构建分类器;
通过所述分类器将待分类样本的特征向量进行分类至所述正确分类中;其中,所述待分类样本的特征向量是对经过预处理的待分类样本进行计算得到的;
若无正确分类的训练语料,则进行第二处理,其包括:
对待分类样本进行预处理;
通过特征选择算法对经预处理的待分类样本计算特征值;
根据所述待分类样本的各特征值,使用文本表示方法得到表示所述待分类样本的特征向量;
进行所计算的特征向量间的相似度计算;
根据所计算的相似度,采用聚类算法以对待分类样本完成分类;其中,所述分类通过关键词来表示,其中,所述关键词包括:面向监测对象的第一类型;以及面向监测内容的第二类型。
2.根据权利要求1所述的大数据知识挖掘及精准跟踪方法,其特征在于,所述分类器包含预警判断规则,通过预警判断规则来判断文本内容以确定分类。
3.根据权利要求1所述的大数据知识挖掘及精准跟踪方法,其特征在于:所述特征选择算法包括:互信息或信息增益算法。
4.根据权利要求1所述的大数据知识挖掘及精准跟踪方法,其特征在于:所述分类方法包括:朴素贝叶斯或决策树。
5.根据权利要求1所述的大数据知识挖掘及精准跟踪方法,其特征在于,所述相似度计算方法包括:欧式距离;所述聚类算法包括:K-Means算法。
6.一种大数据知识挖掘及精准跟踪系统,其特征在于,包括:
处理模式判断模块,用于判断是否已有正确分类的训练语料;
第一处理模块,用于在有正确分类的训练语料的情况下,进行第一处理;所述第一处理模块包括:第一预处理模块、第一特征选择模块、特征提取模块、第一特征向量生成模块、及训练模块;
所述第一预处理模块,用于对获取自所述训练语料的训练样本进行预处理;其中,所述预处理包括分词、词性标注、去停用词、及初步特征提取;
所述第一特征选择模块,用于通过特征选择算法对经预处理的训练样本计算特征值;
所述特征提取模块,用于将所计算各特征值从小到大排序后,提取最大的前M个特征值作为样本分类特征集合;
所述第一特征向量生成模块,用于根据所述样本分类特征集合,使用文本表示方法得到表示所述训练样本的特征向量;
所述训练模块,用于通过分类方法对所述特征向量进行训练以构建分类器;
所述分类器,用于将待分类样本的特征向量进行分类至所述正确分类中;其中,所述待分类样本的特征向量是对经过预处理的待分类样本进行计算得到的;
第二处理模块,用于在无正确分类的训练语料的情况下,则进行第二处理,其包括:第二预处理模块、第二特征选择模块、第二特征向量生成模块、相似度计算模块、及聚类计算模块;
所述第二预处理模块,用于对待分类样本进行预处理;
所述第二特征选择模块,用于通过特征选择算法对经预处理的待分类样本计算特征值;
所述第二特征向量生成模块,用于根据所述待分类样本的各特征值,使用文本表示方法得到表示所述待分类样本的特征向量;
所述相似度计算模块,用于进行所计算的特征向量间的相似度计算;
所述聚类计算模块,用于根据所计算的相似度,采用聚类算法以对待分类样本完成分类;其中,所述分类通过关键词来表示,其中,所述关键词包括:面向监测对象的第一类型;以及面向监测内容的第二类型。
7.根据权利要求1所述的大数据知识挖掘及精准跟踪系统,其特征在于,所述分类器包含预警判断规则,通过预警判断规则来判断文本内容以确定分类。
8.根据权利要求1所述的大数据知识挖掘及精准跟踪系统,其特征在于:所述特征选择算法包括:互信息或信息增益算法。
9.根据权利要求1所述的大数据知识挖掘及精准跟踪系统,其特征在于:所述分类方法包括:朴素贝叶斯或决策树。
10.根据权利要求1所述的大数据知识挖掘及精准跟踪系统,其特征在于,所述相似度计算方法包括:欧式距离;所述聚类算法包括:K-Means算法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710470156.XA CN108228687A (zh) | 2017-06-20 | 2017-06-20 | 大数据知识挖掘及精准跟踪方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710470156.XA CN108228687A (zh) | 2017-06-20 | 2017-06-20 | 大数据知识挖掘及精准跟踪方法与系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108228687A true CN108228687A (zh) | 2018-06-29 |
Family
ID=62657341
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710470156.XA Pending CN108228687A (zh) | 2017-06-20 | 2017-06-20 | 大数据知识挖掘及精准跟踪方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108228687A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109062763A (zh) * | 2018-07-31 | 2018-12-21 | 云南大学 | 一种从svn日志事件流中动态实时挖掘软件过程活动的方法 |
CN109684479A (zh) * | 2018-12-26 | 2019-04-26 | 广州云趣信息科技有限公司 | 一种基于人工智能来实现业务分析的方法 |
CN110110087A (zh) * | 2019-05-15 | 2019-08-09 | 济南浪潮高新科技投资发展有限公司 | 一种基于二分类器的用于法律文本分类的特征工程方法 |
CN111461225A (zh) * | 2020-04-01 | 2020-07-28 | 支付宝(杭州)信息技术有限公司 | 聚类系统及其方法 |
CN113537271A (zh) * | 2020-10-06 | 2021-10-22 | 翁海坤 | 基于人工智能的大数据挖掘方法、系统及云端服务中心 |
CN113673889A (zh) * | 2021-08-26 | 2021-11-19 | 上海罗盘信息科技有限公司 | 一种智能化数据资产识别的方法 |
CN114819635A (zh) * | 2022-04-26 | 2022-07-29 | 中远海运科技股份有限公司 | 一种船舶运力指标生成及相似系数计算方法及系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101059796A (zh) * | 2006-04-19 | 2007-10-24 | 中国科学院自动化研究所 | 基于概率主题词的两级组合文本分类方法 |
US20070282892A1 (en) * | 2006-06-05 | 2007-12-06 | Accenture | Extraction of attributes and values from natural language documents |
EP2054855A2 (en) * | 2006-08-14 | 2009-05-06 | Microsoft Corporation | Automatic classification of objects within images |
CN103514183A (zh) * | 2012-06-19 | 2014-01-15 | 北京大学 | 基于交互式文档聚类的信息检索方法及系统 |
EP2764472A1 (en) * | 2011-10-03 | 2014-08-13 | AOL Inc. | Systems and methods for performing contextual classification using supervised and unsupervised training |
CN105447161A (zh) * | 2015-11-26 | 2016-03-30 | 广东工业大学 | 一种基于数据特征的智能信息分类方法 |
WO2016049437A1 (en) * | 2014-09-26 | 2016-03-31 | Oracle International Corporation | Techniques for similarity analysis and data enrichment using knowledge sources |
CN106203519A (zh) * | 2016-07-17 | 2016-12-07 | 合肥赑歌数据科技有限公司 | 基于分类聚类的故障预警算法 |
CN106250372A (zh) * | 2016-08-17 | 2016-12-21 | 国网上海市电力公司 | 一种用于电力系统的中文电力数据文本挖掘方法 |
CN106844328A (zh) * | 2016-08-23 | 2017-06-13 | 华南师范大学 | 一种新型大规模文档主题语义分析方法及系统 |
-
2017
- 2017-06-20 CN CN201710470156.XA patent/CN108228687A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101059796A (zh) * | 2006-04-19 | 2007-10-24 | 中国科学院自动化研究所 | 基于概率主题词的两级组合文本分类方法 |
US20070282892A1 (en) * | 2006-06-05 | 2007-12-06 | Accenture | Extraction of attributes and values from natural language documents |
EP2054855A2 (en) * | 2006-08-14 | 2009-05-06 | Microsoft Corporation | Automatic classification of objects within images |
EP2764472A1 (en) * | 2011-10-03 | 2014-08-13 | AOL Inc. | Systems and methods for performing contextual classification using supervised and unsupervised training |
CN103514183A (zh) * | 2012-06-19 | 2014-01-15 | 北京大学 | 基于交互式文档聚类的信息检索方法及系统 |
WO2016049437A1 (en) * | 2014-09-26 | 2016-03-31 | Oracle International Corporation | Techniques for similarity analysis and data enrichment using knowledge sources |
CN105447161A (zh) * | 2015-11-26 | 2016-03-30 | 广东工业大学 | 一种基于数据特征的智能信息分类方法 |
CN106203519A (zh) * | 2016-07-17 | 2016-12-07 | 合肥赑歌数据科技有限公司 | 基于分类聚类的故障预警算法 |
CN106250372A (zh) * | 2016-08-17 | 2016-12-21 | 国网上海市电力公司 | 一种用于电力系统的中文电力数据文本挖掘方法 |
CN106844328A (zh) * | 2016-08-23 | 2017-06-13 | 华南师范大学 | 一种新型大规模文档主题语义分析方法及系统 |
Non-Patent Citations (2)
Title |
---|
DALAL MK 等: "Automatic Text Classification: A Technical Review", 《INTERNATIONAL JOURNAL OF COMPUTER APPLICATIONS》 * |
庞观松 等: "文档自动分类技术研究综述", 《情报理论与实践》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109062763A (zh) * | 2018-07-31 | 2018-12-21 | 云南大学 | 一种从svn日志事件流中动态实时挖掘软件过程活动的方法 |
CN109684479A (zh) * | 2018-12-26 | 2019-04-26 | 广州云趣信息科技有限公司 | 一种基于人工智能来实现业务分析的方法 |
CN110110087A (zh) * | 2019-05-15 | 2019-08-09 | 济南浪潮高新科技投资发展有限公司 | 一种基于二分类器的用于法律文本分类的特征工程方法 |
CN111461225A (zh) * | 2020-04-01 | 2020-07-28 | 支付宝(杭州)信息技术有限公司 | 聚类系统及其方法 |
CN113537271A (zh) * | 2020-10-06 | 2021-10-22 | 翁海坤 | 基于人工智能的大数据挖掘方法、系统及云端服务中心 |
CN113537271B (zh) * | 2020-10-06 | 2022-09-27 | 思玛特健康科技(苏州)有限公司 | 基于人工智能的大数据挖掘方法、系统及云端服务中心 |
CN113673889A (zh) * | 2021-08-26 | 2021-11-19 | 上海罗盘信息科技有限公司 | 一种智能化数据资产识别的方法 |
CN114819635A (zh) * | 2022-04-26 | 2022-07-29 | 中远海运科技股份有限公司 | 一种船舶运力指标生成及相似系数计算方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108228687A (zh) | 大数据知识挖掘及精准跟踪方法与系统 | |
Souma et al. | Enhanced news sentiment analysis using deep learning methods | |
US7328218B2 (en) | Constrained tree structure method and system | |
Koh et al. | A two-step method to construct credit scoring models with data mining techniques | |
Kirkos et al. | Identifying qualified auditors' opinions: a data mining approach | |
Xu et al. | Novel key indicators selection method of financial fraud prediction model based on machine learning hybrid mode | |
Wibisono et al. | The use of big data analytics and artificial intelligence in central banking | |
WO2022143431A1 (zh) | 一种反洗钱模型的训练方法及装置 | |
Altman et al. | Realistic synthetic financial transactions for anti-money laundering models | |
Barman et al. | A complete literature review on financial fraud detection applying data mining techniques | |
Sarantitis et al. | A network analysis of the United Kingdom’s consumer price index | |
Zhao et al. | Innovative mechanism of rural finance: Risk assessment methods and impact factors of agricultural loans based on personal emotion and artificial intelligence | |
Huang et al. | Imbalanced credit card fraud detection data: A solution based on hybrid neural network and clustering-based undersampling technique | |
Li et al. | Prediction of Unbalanced Financial Risk Based on GRA‐TOPSIS and SMOTE‐CNN | |
Yu et al. | Neural network based transaction classification system for chinese transaction behavior analysis | |
CN110135509A (zh) | 一种基于神经网络的智能金融信用评分方法 | |
Fu | Research on artificial intelligence classification and statistical methods of financial data in smart cities | |
Teoh et al. | From technical analysis to text analytics: Stock and index prediction with gru | |
Taguchi et al. | Constructing equity investment strategies using analyst reports and regime switching models | |
CN112069392B (zh) | 涉网犯罪防控方法、装置、计算机设备及存储介质 | |
Zhao et al. | Detecting fake reviews via dynamic multimode network | |
CN114066631A (zh) | 一种反洗钱数据监控方法、系统、存储介质、智能终端 | |
CN114443835A (zh) | 一种基于多模型融合的分类方法及装置 | |
Ha et al. | Automated weak signal detection and prediction using keyword network clustering and graph convolutional network | |
Jin et al. | Diagnosis of corporate insolvency using massive news articles for credit management |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180629 |
|
RJ01 | Rejection of invention patent application after publication |