CN108932318B - 一种基于政策资源大数据的智能分析及精准推送方法 - Google Patents

一种基于政策资源大数据的智能分析及精准推送方法 Download PDF

Info

Publication number
CN108932318B
CN108932318B CN201810669810.4A CN201810669810A CN108932318B CN 108932318 B CN108932318 B CN 108932318B CN 201810669810 A CN201810669810 A CN 201810669810A CN 108932318 B CN108932318 B CN 108932318B
Authority
CN
China
Prior art keywords
word
client
policy information
training
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810669810.4A
Other languages
English (en)
Other versions
CN108932318A (zh
Inventor
涂小东
李凯
周焕来
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Zhengzihui Technology Group Co ltd
Original Assignee
Sichuan Zhengzihui Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Zhengzihui Intelligent Technology Co ltd filed Critical Sichuan Zhengzihui Intelligent Technology Co ltd
Priority to CN201810669810.4A priority Critical patent/CN108932318B/zh
Publication of CN108932318A publication Critical patent/CN108932318A/zh
Application granted granted Critical
Publication of CN108932318B publication Critical patent/CN108932318B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于政策资源大数据的智能分析及精准推送方法,首先对文本进行分词,分别对词频、词序、语义进行评分,以去除无效的、评分度低的分词,然后根据词频、词序、语义的综合评分进行排序,选取前N个综合评分较高的词作为词向量的表示,得到每个样本的词向量;将每个样本的词向量作为神经网络的输入进行训练,得到模型;进而对文本进行分类预测,最后向客户推送信息。本发明通过对词频、词序、语义分别进行评分,并根据综合评分进行筛除无效的、评分度低的的分词,提高了分词准确率,提高了数据智能分析的精确度,具有较好的实用性。本发明实现了智能分析大数据,提取精准的信息,并精准推荐给用户。

Description

一种基于政策资源大数据的智能分析及精准推送方法
技术领域
本发明属于大数据数据处理的技术领域,具体涉及一种基于政策资源大数据的智能分析及精准推送方法。
背景技术
近年来,计算机在百姓生活中逐步普及,不仅推动了通信技术水平的发展,同时也促进了国际互联网的迅猛发展,互联网已经发展成为全球信息传播的主要途径和当前世界上最大的信息资源库。
互联网应用遍及生活的方方面面,如即时通讯、社交网络、新闻网站、智能生活家电等,我们已经习惯依赖互联网提供便捷的信息去了解世界、形成人际社交网络,网络交互过程中生成的信息大多是文本形式。文本信息成为互联网社交媒体信息的重要承载者。随着国家经济的发展,科技更新的速度日新月异,网络新闻中的信息更新速度越来越快,其数据呈现指数型增长趋势。新世纪时期信息是成功的关键,快速获得自己想要的目标信息成为了人们追求的目标。因此面对海量的文本信息,实现智能分析数据并能够实现精准的推送成为了目前互联网应用的研究热点。
随着经济的发展,国家实行了宏观调整,国家政策是企业发展规划和发展的指向标,对企业未来的业务、服务方向、营销策划方式、广告策划等众多方面都会产生一定的营销。因此搜集国家政策成为了关注的热点,针对不同的行业我们需要关注相对应的国家政策法规类信息。
发明内容
本发明的目的在于提供一种基于政策资源大数据的智能分析及精准推送方法,实现了智能分析大数据,提取精准的信息,并精准推荐给用户;本发明通过对词频、词序、语义分别进行评分,并根据综合评分进行筛除无效的、评分度低的的分词,提高了分词准确率,提高了数据智能分析的精确度,具有较好的实用性。
本发明主要通过以下技术方案实现:
一种基于政策资源大数据的智能分析及精准推送方法,首先对文本进行分词,分别对词频、词序、语义进行评分,以去除无效的、评分度低的分词,然后根据词频、词序、语义的综合评分进行排序,选取前N个综合评分较高的词作为词向量的表示,得到每个样本的词向量;将每个样本的词向量作为神经网络的输入进行训练,得到模型;进而对文本进行分类预测,最后向客户推送信息。
为了更好的实现本发明,进一步的,在预测的过程中,采用SVM对文本分类,使用下列公式进行添加新样本:
Figure BDA0001708824630000021
其中<Xi,X>表示两个向量的内积;在对文本进行分类预测的过程中,预测新点X的类别时,只需要计算预测新点X与训练数据点的内积即可;用到的训练数据点是支持向量的点,只有支持向量的点会被用来进行新样本的预测。
为了更好的实现本发明,进一步的,若输入的模型的数据点为支持向量,则有yi(WTxi+b)=1,且αi是一个非零的数,故支持向量的点被纳入模型中,进行新点的分类预测的计算;若输入的模型的数据点不是支持向量,则有yi(WTxi+b)>1,且由于αi非负,为满足最大化则αi为0,因此在预测新点X时,在模型中,由于αi为0,故非支持向量的点不纳入计算。
为了更好的实现本发明,进一步的,词频的评分是先对通知进行证据分词,并统计通知中分词在证据通知中出现的次数,从而计算词频得分;词序的评分是构建通知词的2-gram表达式,统计2-gram表达式与证据匹配的次数,从而计算词序得分。
为了更好的实现本发明,进一步的,语义的评分是先向量化表示问题和证据,然后分别进行证据向量、主向量集合、问题主向量,计算证据问题相关度,证据向量集合上通过PageRank算法计算证据权重,结合证据权重和证据问题相关度,计算得到语义得分。
为了更好的实现本发明,进一步的,分词模型的训练主要包括以下步骤:筛选训练语料,按字切分训练语料并特征提取,然后训练CRF分词模型,得到CRF分词模型;将待切分的句子输入词典匹配歧义判断,若存在歧义则输入CRF分词模型得到CRF分词,从而输出分词结果;若不存在歧义,则直接输出分词结果;将切分后的训练语料分别输入Brown聚类特征提取,输入word2vec字向量训练后输入K-Means聚类特征提取。
为了更好的实现本发明,进一步的,向客户推送信息主要包括静态数据推荐、基于内容的推荐、基于协同过滤算法的推荐;所述静态数据推荐是指利用客户的静态数据信息进行推荐相应的政策性信息;所述基于内容的推荐是指根据客户收藏的政策性信息,找出与其相关的政策性信息并推荐给客户;所述基于协同过滤算法的推荐是指收集客户喜欢的政策性信息,根据用户喜欢的政策性信息进行推荐相似的政策性信息。
为了更好的实现本发明,进一步的,所述静态数据推荐中根据客户的地区为客户推荐政策性信息;根据客户所处的行业为客户推荐政策性信息;所述基于协同过滤算法的推荐中追踪客户浏览的政策性信息,收集与客户浏览的政策性信息相关的政策性信息并根据相似度进行排名;然后将相似度较高的政策信息推荐给客户。
为了更好的实现本发明,进一步的,推送信息之前先采用FCM聚类,确定聚类数目c、加权指数m、终止误差d,然后初始化隶属度矩阵,计算c个聚类中心,计算目标函数并与阈值d比较,若目标函数大于等于阈值,则更新隶属度矩阵,计算c个聚类中心,循环上述步骤;若目标函数小于阈值,则完成聚类。
文本分类中最著名的特征提取方法就是向量空间模型(VSM),即将样本转换为向量的形式。为了能实现这种转换,需要做两个工作:确定特征集和提取特征。
特征集其实就是词典,根据需要分类的样本,提取样本的特征,构成特征集。根据不同的业务,文本分类中词典的规模在万级到千万级甚至亿级。而这么大的维度可能会带来维度灾难,因此就要想办法从大量的特征中选择一些有代表性的特征而又不影响分类的效果,一般的计算方法有词频、卡方公式、信息增益等。
另外一种解决维度灾难的思路就是特征抽取。同样是降维,相比特征选择,特征抽取采用了一种高级的方法来进行。Topic Modeling是原理就是将利用映射将高纬度空间映射到低纬空间,从而达到降维的目的。当把文本转换成向量的形式后,大部分的工作其实已经做完了。后面所要做的就是利用算法进行训练和预测了。
采用SVM实现文本分类,首先对所有的样本进行分词,然后统计每个词出现的频率,选取出前N个频率较高的词来作为词向量的表示。然后对每个样本进行分词,得出每个样本的词向量,将每个样本的词向量作为神经网络的输入进行训练,得出模型,进而对用模型对文本进行分类预测。预测过程中使用公式(1)进行添加新样本,其中公式(1)如下:
Figure BDA0001708824630000031
所述SVM分类:对于二类分类问题,训练集T={(x1,y1),(x2,y2),…,(xN,yN)},其类别yi∈{0,1},线性SVM通过学习得到分离超平面(hyperplane):w·x+b=0,以及相应的分类决策函数:f(x)=sign(w·x+b)。
如图2所示,将距离分离超平面最近的两个不同类别的样本点称为支持向量(supportvector)的,构成了两条平行于分离超平面的长带,二者之间的距离称之为margin。显然,margin更大,则分类正确的确信度更高;与超平面的距离表示分类的确信度,距离越远则分类正确的确信度越高。通过计算容易得到:
Figure BDA0001708824630000032
SVM分类问题可描述为在全部分类正确的情况下,最大化
Figure BDA0001708824630000033
等价于最小化
Figure BDA0001708824630000034
线性分类的约束最优化问题:
Figure BDA0001708824630000041
对每一个不等式约束引进拉格朗日乘子(Lagrange multiplier)αi≥0,i=1,2,…,N;构造拉格朗日函数(Lagrange function):
Figure BDA0001708824630000042
根据拉格朗日对偶性,原始的约束最优化问题可等价于极大极小的对偶问题:
Figure BDA0001708824630000043
将L(w,b,α)对w,b求偏导并令其等于0,则:
Figure BDA0001708824630000044
Figure BDA0001708824630000045
得到:
Figure BDA0001708824630000046
等价于最优化问题:
Figure BDA0001708824630000047
二次规划问题,可以用二次规划工具求解了。
针对数据不完全线性可分的超平面,可将问题转化为下式:
Figure BDA0001708824630000048
大部分时候数据并不是线性可分的,此时我们如何利用SVM算法来对非线性的数据进行处理呢?对于非线性的情况,SVM的处理方法是选择一个核函数K,通过将数据映射到高维空间,来解决在原始空间中线性不可分的问题。
具体来说,在线性不可分的情况下,支持向量机首先在低维空间中完成计算,然后通过核函数将输入空间映射到高维特征空间,最终在高维特征空间中构造出最优分离超平面,从而把平面上本身不好分的非线性数据分开。
核函数K是一个函数,
Figure BDA0001708824630000056
是从X到内积特征空间F的映射。对所有x,z都满足:
K(x,z)=<Φ(x)·Φ(z)>;
假设我们通过SMO高效优化算法,得到了最优的ai们,那么我们也就可以知道W:
Figure BDA0001708824630000051
于是可以得到线性分类器的结果为:
Figure BDA0001708824630000052
式子中<,>表示两个向量的内积。从这个公式可以看出,对于一个新点X,只需要计算它与训练数据点的内积即可。这一点也是后面使用核函数进行非线性推广的前提。
这里需要强调两点:预测新点X的类别时,只需要计算它与训练数据点的内积即可;用到的训练数据点,其实也只是那些“支持向量”的点,即,只有“支持向量”的点会被用来进行新样本的预测。
把原来的一维x映射到了三维(x2,x,C)。在刚开始我们说了原问题的预测模型的形式为:
Figure BDA0001708824630000053
此时X也要换成H(x),那么就变成:
Figure BDA0001708824630000054
核函数计算的时候,它可以让x和z不用通过H()映射到高维空间再计算内积,而是直接在低维空间里计算了。我们用K()表示核函数,那么核函数作用就是:K(x,z)=某个函数,从而避开了X映射到H(X),Y映射到H(Y)这么一个过程。
多项式核:K(X,Y)=((X,Y)+R)d
高斯核:
Figure BDA0001708824630000055
通过调控参数σ,高斯核具有相当的灵活性。
精准推送方法:
1.静态数据推荐:信息服务平台中,利用客户的静态数据,例如客户的地区、行业等信息进行推荐相应的政策性信息。
(1)根据客户的地区为其推荐政策性信息,这个是最基础的推荐。
(2)根据客户所处的行业为其推荐政策性信息,类似于行业与相对应的政策性信息的类别相互对应。
2.基于内容的推荐:
信息服务平台中,客户可以收藏喜欢的政策性信息。根据客户收藏的政策性信息,找出与其相关的政策性信息推荐给客户。
3.协同过滤算法
信息服务平台中,协同过滤算法的应用需要依靠前期的数据积累。
(1)基于用户的协同过滤算法需要收集每一个客户喜欢的政策性信息,即计算若客户喜欢某个政策性信息,那么也会喜欢另外一个政策性信息。那么,当另一客户喜欢某个政策性信息,就可推荐相应的政策信息。
(2)基于内容的协同过滤算法需要收集每一个政策性信息的相似度进行排名,即追踪客户浏览的政策性信息,那么可推荐与该政策性信息相似度较高的推荐给客户。注意客户的浏览信息噪声较多。
FCM算法是一种基于划分的聚类算法,它的思想就是使得被划分到同一簇的对象之间相似度最大,而不同簇之间的相似度最小。模糊C均值算法是普通C均值算法的改进,普通C均值算法对于数据的划分是硬性的,而FCM则是一种柔性的模糊划分。
首先说明隶属度函数的概念。隶属度函数是表示一个对象x隶属于集合A的程度的函数,通常记做μA(x),其自变量范围是所有可能属于集合A的对象(即集合A所在空间中的所有点),取值范围是[0,1],即0<=μA(x)<=1。μA(x)=1表示x完全隶属于集合A,相当于传统集合概念上的x∈A。一个定义在空间X={x}上的隶属度函数就定义了一个模糊集合A,或者叫定义在论域X={x}上的模糊子集。对于有限个对象x1,x2,……,xn模糊集合可以表示为:
Figure BDA0001708824630000061
有了模糊集合的概念,一个元素隶属于模糊集合就不是硬性的了,在聚类的问题中,可以把聚类生成的簇看成模糊集合,因此,每个样本点隶属于簇的隶属度就是[0,1]区间里面的值。
模糊C均值聚类(FCM),是用隶属度确定每个数据点属于某个聚类的程度的一种聚类算法。C均值聚类(HCM)方法的一种改进。
FCM把n个向量xi(i=1,2,…,n)分为c个模糊组,并求每组的聚类中心,使得非相似性指标的价值函数达到最小。FCM与HCM的主要区别在于FCM用模糊划分,使得每个给定数据点用值在0,1间的隶属度来确定其属于各个组的程度。与引入模糊划分相适应,隶属矩阵U允许有取值在0,1间的元素。不过,加上归一化规定,一个数据集的隶属度的和总等于1:
Figure BDA0001708824630000071
那么,FCM的价值函数(或目标函数)就是式(6.2)的一般化形式:
Figure BDA0001708824630000072
这里uij介于0,1间;ci为模糊组I的聚类中心,dij=||ci-xj||为第I个聚类中心与第j个数据点间的欧几里德距离;且是一个加权指数。
构造如下新的目标函数,可求得使(6.10)式达到最小值的必要条件:
Figure BDA0001708824630000073
这里lj,j=1到n,是(6.9)式的n个约束式的拉格朗日乘子。对所有输入参量求导,使式(6.10)达到最小的必要条件为:
Figure BDA0001708824630000074
Figure BDA0001708824630000075
由上述两个必要条件,模糊C均值聚类算法是一个简单的迭代过程。在批处理方式运行时,FCM用下列步骤确定聚类中心ci和隶属矩阵U[1]:
步骤1:用值在0,1间的随机数初始化隶属矩阵U,使其满足式(6.9)中的约束条件。
步骤2:用式(6.12)计算c个聚类中心ci,i=1,…,c。
步骤3:根据式(6.10)计算价值函数。如果它小于某个确定的阀值,或它相对上次价值函数值的改变量小于某个阀值,则算法停止。
步骤4:用(6.13)计算新的U矩阵。返回步骤2。
上述算法也可以先初始化聚类中心,然后再执行迭代过程。由于不能确保FCM收敛于一个最优解。算法的性能依赖于初始聚类中心。因此,我们要么用另外的快速算法确定初始聚类中心,要么每次用不同的初始聚类中心启动该算法,多次运行FCM。
我们的通知相似算法,基于FCM的词典改进型算法,初始不同聚类中心采用打分方式,对词频+次序+语义的评分进行综合计算并排名,以去除无效的分词。
本发明的有益效果:
(1)首先对文本进行分词,分别对词频、词序、语义进行评分,以去除无效的、评分度低的分词,然后根据词频、词序、语义的综合评分进行排序,选取前N个综合评分较高的词作为词向量的表示,得到每个样本的词向量;将每个样本的词向量作为神经网络的输入进行训练,得到模型;进而对文本进行分类预测,最后向客户推送信息。本发明通过对词频、词序、语义分别进行评分,并根据综合评分进行筛除无效的、评分度低的的分词,提高了分词准确率,提高了数据智能分析的精确度,具有较好的实用性。本发明实现了智能分析大数据,提取精准的信息,并精准推荐给用户。
(2)在预测的过程中,采用SVM对文本分类;并采用公式(1)添加新样本。本发明在线性不可分的情况下,支持向量首先在低维空间中完成计算,然后通过核函数将输入空间映射到高维特征空间,最终在高维特征空间中构造出最优分离超平面,从而把平面上本身不好分的非线性数据分开。文本分类按照预设类别,通过分析输入文本具体内容,实现自动判定输入样本应属类别,可以精确的筛选出用户需要的政策类信息,具有较好的实用性。这一点也是后面使用核函数进行非线性推广的前提。支持向量机有效解决了非线性及空间维数高的问题。
(3)语义的评分是先向量化表示问题和证据,然后分别进行证据向量、主向量集合、问题主向量,计算证据问题相关度,证据向量集合上通过PageRank算法计算证据权重,结合证据权重和证据问题相关度,计算得到语义得分。本发明通过对词频、词序、语义分别进行评分,并根据综合评分进行筛除无效的、评分度低的的分词,提高了分词准确率,提高了数据智能分析的精确度,具有较好的实用性。本发明实现了智能分析大数据,提取精准的信息,并精准推荐给用户。
(4)分词模型的训练主要包括以下步骤:筛选训练语料,按字切分训练语料并特征提取,然后训练CRF分词模型,得到CRF分词模型;将待切分的句子输入词典匹配歧义判断,若存在歧义则输入CRF分词模型得到CRF分词,从而输出分词结果;若不存在歧义,则直接输出分词结果。本发明通过分词模型的训练精准的实现了大数据的智能分析,增强了对自由文本中数据的分词的可靠性和适用性。本发明的分词模型的训练提高了分类函数对类别划分的准确度,具有较好的实用性。
(5)向客户推送信息主要包括静态数据推荐、基于内容的推荐、基于协同过滤算法的推荐;所述静态数据推荐是指利用客户的静态数据信息进行推荐相应的政策性信息;所述基于内容的推荐是指根据客户收藏的政策性信息,找出与其相关的政策性信息推荐给客户;所述基于协同过滤算法的推荐是指收集每一个客户喜欢的政策性信息,根据用户喜欢的政策性信息进行推荐相似的政策性信息。本发明从多角度向客户推荐客户感兴趣的政策信息,提高了政策信息推荐的精准度。
(6)所述基于协同过滤算法的推荐中追踪客户浏览的政策性信息,收集与客户浏览的政策性信息相关的政策性信息并根据相似度进行排名;然后将相似度较高的政策信息推荐给客户。本发明通过协同过滤算法,将相似度较高的客户感兴趣的政策信息推送给客户,提高了政策信息推荐的精准度,具有较好的实用性。
(7)推送信息之前先采用FCM聚类,确定聚类数目c、加权指数m、终止误差d,然后初始化隶属度矩阵,计算c个聚类中心,计算目标函数并与阈值d比较,若目标函数大于等于阈值,则更新隶属度矩阵,计算c个聚类中心,循环上述步骤;若目标函数小于阈值,则完成聚类。本发明通过对信息进行聚类,提高了推送信息的精确,具有较好的实用性。
附图说明
图1为本发明的文本分类的流程图;
图2为最优分类超平面示意图;
图3为分词模型的训练流程图;
图4为词频评分的流程图;
图5为词序评分的流程图;
图6为语义评分的流程图;
图7为FCM聚类的流程图。
具体实施方式
实施例1:
一种基于政策资源大数据的智能分析及精准推送方法,如图1所示,首先对文本进行分词,分别对词频、词序、语义进行评分,以去除无效的、评分度低的分词,然后根据词频、词序、语义的综合评分进行排序,选取前N个综合评分较高的词作为词向量的表示,得到每个样本的词向量;将每个样本的词向量作为神经网络的输入进行训练,得到模型;进而对文本进行分类预测,最后向客户推送信息。
本发明通过对词频、词序、语义分别进行评分,并根据综合评分进行筛除无效的、评分度低的的分词,提高了分词准确率,提高了数据智能分析的精确度,具有较好的实用性。本发明实现了智能分析大数据,提取精准的信息,并精准推荐给用户。
实施例2:
本实施例是在实施例1的基础上进一步优化,如图4所示,词频的评分是先对通知进行证据分词,并统计通知中分词在证据通知中出现的次数,从而计算词频得分A;如图5所示,词序的评分是构建通知词的2-gram表达式,统计2-gram表达式与证据匹配的次数,从而计算词序得分B。如图6所示,语义的评分是先向量化表示问题和证据,然后分别进行证据向量、主向量集合、问题主向量,计算证据问题相关度,证据向量集合上通过PageRank算法计算证据权重,结合证据权重和证据问题相关度,计算得到语义得分C。
本发明通过对词频、词序、语义分别进行评分,并根据综合评分进行筛除无效的、评分度低的的分词,提高了分词准确率,提高了数据智能分析的精确度,具有较好的实用性。本发明实现了智能分析大数据,提取精准的信息,并精准推荐给用户。
本实施例的其他部分与实施例1相同,故不再赘述。
实施例3:
本实施例是在实施例2的基础上进一步优化,在预测的过程中,采用SVM对文本分类,使用下公式进行添加新样本:
Figure BDA0001708824630000101
其中式子中<Xi,X>表示两个向量的内积。从这个公式可以看出,对于一个新点X,只需要计算它与训练数据点的内积即可。这一点也是后面使用核函数进行非线性推广的前提。
如图2所示,将距离分离超平面最近的两个不同类别的样本点称为支持向量(support vector)的,构成了两条平行于分离超平面的长带,二者之间的距离称之为margin。显然,margin更大,则分类正确的确信度更高;与超平面的距离表示分类的确信度,距离越远则分类正确的确信度越高。
在线性不可分的情况下,支持向量机首先在低维空间中完成计算,然后通过核函数将输入空间映射到高维特征空间,最终在高维特征空间中构造出最优分离超平面,从而把平面上本身不好分的非线性数据分开。支持向量机有效解决了非线性及空间维数高的问题。本发明中,文本分类按照预设类别,通过分析输入文本具体内容,实现自动判定输入样本应属类别,可以精确的筛选出用户需要的政策类信息,具有较好的实用性。
在对文本进行分类预测的过程中,预测新点X的类别时,只需要计算它与训练数据点的内积即可;用到的训练数据点是支持向量的点,只有支持向量的点会被用来进行新样本的预测。若输入的模型的数据点为支持向量,则有yi(WTxi+b)=1,且αi是一个非零的数,故支持向量的点被纳入模型中,进行新点的分类预测的计算;若输入的模型的数据点不是支持向量,则有yi(WTxi+b)>1,且由于αi非负,为满足最大化则αi为0,因此在预测新点X时,在模型中,由于αi为0,故非支持向量的点不纳入计算。
在线性不可分的情况下,支持向量机首先在低维空间中完成计算,然后通过核函数将输入空间映射到高维特征空间,最终在高维特征空间中构造出最优分离超平面,从而把平面上本身不好分的非线性数据分开。支持向量机有效解决了非线性及空间维数高的问题。本发明中,文本分类按照预设类别,通过分析输入文本具体内容,实现自动判定输入样本应属类别,可以精确的筛选出用户需要的政策类信息,具有较好的实用性。
本实施例的其他部分与实施例2相同,故不再赘述。
实施例4:
本实施例是在实施例2或3的基础上进一步优化,如图3所示,分词模型的训练主要包括以下步骤:筛选训练语料,按字切分训练语料并特征提取,然后训练CRF分词模型,得到CRF分词模型;将待切分的句子输入词典匹配歧义判断,若存在歧义则输入CRF分词模型得到CRF分词,从而输出分词结果;若不存在歧义,则直接输出分词结果。将切分后的训练语料分别输入Brown聚类特征提取、先输入word2vec字向量训练后输入K-Means聚类特征提取。
本发明通过分词模型的训练精准的实现了大数据的智能分析,增强了对自由文本中数据的分词的可靠性和适用性。本发明的分词模型的训练提高了分类函数对类别划分的准确度,具有较好的实用性。
本实施例的其他部分与上述实施例2或3相同,故不再赘述。
实施例5:
本实施例是在实施例2的基础上进行优化,向客户推送信息主要包括静态数据推荐、基于内容的推荐、基于协同过滤算法的推荐;所述静态数据推荐是指利用客户的静态数据信息进行推荐相应的政策性信息;所述基于内容的推荐是指根据客户收藏的政策性信息,找出与其相关的政策性信息推荐给客户;所述基于协同过滤算法的推荐是指收集每一个客户喜欢的政策性信息,根据用户喜欢的政策性信息进行推荐相似的政策性信息。所述静态数据推荐中根据客户的地区为其推荐政策性信息;根据客户所处的行业为其推荐政策性信息。本发明从多角度向客户推荐客户感兴趣的政策信息,提高了政策信息推荐的精准度。
所述基于协同过滤算法的推荐中追踪客户浏览的政策性信息,收集与客户浏览的政策性信息相关的政策性信息并根据相似度进行排名;然后将相似度较高的政策信息推荐给客户。本发明通过协同过滤算法,将相似度较高的客户感兴趣的政策信息推送给客户,提高了政策信息推荐的精准度,具有较好的实用性。
本实施例的其他部分与上述实施例2相同,故不再赘述。
实施例6:
本实施例是在实施例5的基础上进行优化,如图7所示,推送信息之前先采用FCM聚类,确定聚类数目c、加权指数m、终止误差d,然后初始化隶属度矩阵,计算c个聚类中心,计算目标函数并与阈值d比较,若目标函数大于等于阈值,则更新隶属度矩阵,计算c个聚类中心,循环上述步骤;若目标函数小于阈值,则完成聚类。
本发明在使用过程中,首先是对资金通知的信息文本进行智能优选,然后针对优选的信息进行聚类得到客户偏向的信息,得到推送通知信息,本发明通过对信息进行聚类,提高了推送信息的精确,具有较好的实用性。
本实施例的其他部分与上述实施例5相同,故不再赘述。
以上所述,仅是本发明的较佳实施例,并非对本发明做任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化,均落入本发明的保护范围之内。

Claims (5)

1.一种基于政策资源大数据的智能分析及精准推送方法,其特征在于,首先对文本进行分词,分别对词频、词序、语义进行评分,以去除无效的、评分度低的分词,然后根据词频、词序、语义的综合评分进行排序,选取前N个综合评分较高的词作为词向量的表示,得到每个样本的词向量;将每个样本的词向量作为神经网络的输入进行训练,得到模型;进而对文本进行分类预测,最后向客户推送信息;
词频的评分是先对通知进行证据分词,并统计通知中分词在证据通知中出现的次数,从而计算词频得分;词序的评分是构建通知词的2-gram表达式,统计2-gram表达式与证据匹配的次数,从而计算词序得分;
语义的评分是先向量化表示问题和证据,然后分别进行证据向量、主向量集合、问题主向量,计算证据问题相关度,证据向量集合上通过PageRank算法计算证据权重,结合证据权重和证据问题相关度,计算得到语义得分;
分词模型的训练主要包括以下步骤:筛选训练语料,按字切分训练语料并特征提取,然后训练CRF分词模型,得到CRF分词模型;将待切分的句子输入词典匹配歧义判断,若存在歧义则输入CRF分词模型得到CRF分词,从而输出分词结果;若不存在歧义,则直接输出分词结果;将切分后的训练语料分别输入Brown聚类特征提取,输入word2vec字向量训练后输入K-Means聚类特征提取;
向客户推送信息主要包括静态数据推荐、基于内容的推荐、基于协同过滤算法的推荐;所述静态数据推荐是指利用客户的静态数据信息进行推荐相应的政策性信息;所述基于内容的推荐是指根据客户收藏的政策性信息,找出与其相关的政策性信息并推荐给客户;所述基于协同过滤算法的推荐是指收集客户喜欢的政策性信息,根据用户喜欢的政策性信息进行推荐相似的政策性信息;
所述静态数据推荐中根据客户的地区为客户推荐政策性信息;根据客户所处的行业为客户推荐政策性信息;所述基于协同过滤算法的推荐中追踪客户浏览的政策性信息,收集与客户浏览的政策性信息相关的政策性信息并根据相似度进行排名;然后将相似度较高的政策信息推荐给客户。
2.根据权利要求1所述的一种基于政策资源大数据的智能分析及精准推送方法,其特征在于,在预测的过程中,采用SVM对文本分类,使用下列公式进行添加新样本:
Figure DEST_PATH_IMAGE002
其中<Xi,X>表示两个向量的内积;在对文本进行分类预测的过程中,预测新点X的类别时,只需要计算预测新点X与训练数据点的内积即可;用到的训练数据点是支持向量的点,只有支持向量的点会被用来进行新样本的预测。
3.根据权利要求2所述的一种基于政策资源大数据的智能分析及精准推送方法,其特征在于,若输入的模型的数据点为支持向量,则有
Figure DEST_PATH_IMAGE004
,且
Figure DEST_PATH_IMAGE006
是一个非零的数,故支持向量的点被纳入模型中,进行新点的分类预测的计算;若输入的模型的数据点不是支持向量,则有
Figure DEST_PATH_IMAGE008
,且由于
Figure 689755DEST_PATH_IMAGE006
非负,为满足最大化则
Figure 934791DEST_PATH_IMAGE006
为0,因此在预测新点X时,在模型中,由于
Figure 980108DEST_PATH_IMAGE006
为0,故非支持向量的点不纳入计算。
4.根据权利要求1所述的一种基于政策资源大数据的智能分析及精准推送方法,其特征在于,在分词模型的训练中,将切分后的训练语料分别输入Brown聚类特征提取,输入word2vec字向量训练后输入K-Means聚类特征提取。
5.根据权利要求1-4任一项所述的一种基于政策资源大数据的智能分析及精准推送方法,其特征在于,推送信息之前先采用FCM聚类,确定聚类数目c、加权指数m、终止误差d,然后初始化隶属度矩阵,计算c个聚类中心,计算目标函数并与阈值d比较,若目标函数大于等于阈值,则更新隶属度矩阵,计算c个聚类中心,循环上述步骤;若目标函数小于阈值,则完成聚类。
CN201810669810.4A 2018-06-26 2018-06-26 一种基于政策资源大数据的智能分析及精准推送方法 Active CN108932318B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810669810.4A CN108932318B (zh) 2018-06-26 2018-06-26 一种基于政策资源大数据的智能分析及精准推送方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810669810.4A CN108932318B (zh) 2018-06-26 2018-06-26 一种基于政策资源大数据的智能分析及精准推送方法

Publications (2)

Publication Number Publication Date
CN108932318A CN108932318A (zh) 2018-12-04
CN108932318B true CN108932318B (zh) 2022-03-04

Family

ID=64446896

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810669810.4A Active CN108932318B (zh) 2018-06-26 2018-06-26 一种基于政策资源大数据的智能分析及精准推送方法

Country Status (1)

Country Link
CN (1) CN108932318B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109816015B (zh) * 2019-01-22 2021-01-08 北京科技大学 一种基于材料数据的推荐方法及系统
CN109947941A (zh) * 2019-03-05 2019-06-28 永大电梯设备(中国)有限公司 一种基于电梯客服文本分类的方法和系统
CN110321471A (zh) * 2019-04-19 2019-10-11 四川政资汇智能科技有限公司 一种基于政策性资源汇聚的互联网科技金融智能匹配方法
CN110633363B (zh) * 2019-09-18 2022-02-18 桂林电子科技大学 一种基于nlp和模糊多准则决策的文本实体推荐方法
CN110705289B (zh) * 2019-09-29 2023-03-28 重庆邮电大学 一种基于神经网络和模糊推理的中文分词方法、系统及介质
CN112258144B (zh) * 2020-09-27 2022-04-26 重庆生产力促进中心 基于自动构建目标实体集的政策文件信息匹配和推送方法
CN112287669B (zh) * 2020-12-28 2021-05-25 深圳追一科技有限公司 文本处理方法、装置、计算机设备和存储介质
CN112836038A (zh) * 2021-01-21 2021-05-25 中国科学院沈阳自动化研究所 一种基于多源数据可信度的智能推荐系统
CN113779246A (zh) * 2021-08-25 2021-12-10 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 基于句子向量的文本聚类分析方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104331498A (zh) * 2014-11-19 2015-02-04 亚信科技(南京)有限公司 一种对互联网用户访问的网页内容自动分类的方法
CN106776881A (zh) * 2016-11-28 2017-05-31 中国科学院软件研究所 一种基于微博平台的领域信息推荐系统及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013151546A1 (en) * 2012-04-05 2013-10-10 Thomson Licensing Contextually propagating semantic knowledge over large datasets

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104331498A (zh) * 2014-11-19 2015-02-04 亚信科技(南京)有限公司 一种对互联网用户访问的网页内容自动分类的方法
CN106776881A (zh) * 2016-11-28 2017-05-31 中国科学院软件研究所 一种基于微博平台的领域信息推荐系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于Word2vector的文本特征化表示方法;周顺先等;《重庆邮电大学学报(自然科学版)》;20180415(第02期);全文 *

Also Published As

Publication number Publication date
CN108932318A (zh) 2018-12-04

Similar Documents

Publication Publication Date Title
CN108932318B (zh) 一种基于政策资源大数据的智能分析及精准推送方法
Alam et al. The impact of preprocessing steps on the accuracy of machine learning algorithms in sentiment analysis
Sohangir et al. Big Data: Deep Learning for financial sentiment analysis
CN109165383B (zh) 一种基于云平台的数据汇聚、分析、挖掘与共享方法
Lovaglio et al. Skills in demand for ICT and statistical occupations: Evidence from web‐based job vacancies
Aliwy et al. Comparative study of five text classification algorithms with their improvements
CN107967575B (zh) 一种人工智能保险咨询服务人工智能平台系统
Jiang et al. An improved K-nearest-neighbor algorithm for text categorization
Iglesias et al. Web news mining in an evolving framework
Karthikeyan et al. Probability based document clustering and image clustering using content-based image retrieval
Junejo et al. Terms-based discriminative information space for robust text classification
Nasim et al. Sentiment analysis on Urdu tweets using Markov chains
Ashok et al. A personalized recommender system using Machine Learning based Sentiment Analysis over social data
CN110008365B (zh) 一种图像处理方法、装置、设备及可读存储介质
CN103778206A (zh) 一种网络服务资源的提供方法
Harakawa et al. Extracting hierarchical structure of web video groups based on sentiment-aware signed network analysis
Fan et al. A text clustering approach of Chinese news based on neural network language model
Wibowo et al. Sentiments Analysis of Indonesian Tweet About Covid-19 Vaccine Using Support Vector Machine and Fasttext Embedding
Mehrotra et al. To identify the usage of clustering techniques for improving search result of a website
Wang et al. High-level semantic image annotation based on hot Internet topics
Uskenbayeva et al. Creation of Data Classification System for Local Administration
Kowsher et al. Machine Learning and Deep Learning-Based Computing Pipelines for Bangla Sentiment Analysis
Pattanshetti et al. Performance evaluation and analysis of feature selection algorithms
Manne et al. A Query based Text Categorization using K-nearest neighbor Approach
Kathuria et al. Evaluating cohesion score with email clustering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Tu Xiaodong

Inventor after: Li Kai

Inventor after: Zhou Huanlai

Inventor before: Tu Xiaodong

Inventor before: Li Kai

Inventor before: Zhou Huanlai

Inventor before: Chen Wei

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: Floor 5, unit 2, building 1, No.88 Shujin Road, Chengdu hi tech Zone, China (Sichuan) pilot Free Trade Zone, Chengdu, Sichuan 610041

Patentee after: Sichuan Zhengzihui Technology Group Co.,Ltd.

Address before: 610041 room 704, floor 7, building 1, No. 1800, middle section of Yizhou Avenue, high tech Zone, Chengdu, Sichuan

Patentee before: SICHUAN ZHENGZIHUI INTELLIGENT TECHNOLOGY Co.,Ltd.

CP03 Change of name, title or address