发明内容
本发明的目的在于提供一种基于政策资源大数据的智能分析及精准推送方法,实现了智能分析大数据,提取精准的信息,并精准推荐给用户;本发明通过对词频、词序、语义分别进行评分,并根据综合评分进行筛除无效的、评分度低的的分词,提高了分词准确率,提高了数据智能分析的精确度,具有较好的实用性。
本发明主要通过以下技术方案实现:
一种基于政策资源大数据的智能分析及精准推送方法,首先对文本进行分词,分别对词频、词序、语义进行评分,以去除无效的、评分度低的分词,然后根据词频、词序、语义的综合评分进行排序,选取前N个综合评分较高的词作为词向量的表示,得到每个样本的词向量;将每个样本的词向量作为神经网络的输入进行训练,得到模型;进而对文本进行分类预测,最后向客户推送信息。
为了更好的实现本发明,进一步的,在预测的过程中,采用SVM对文本分类,使用下列公式进行添加新样本:
其中<Xi,X>表示两个向量的内积;在对文本进行分类预测的过程中,预测新点X的类别时,只需要计算预测新点X与训练数据点的内积即可;用到的训练数据点是支持向量的点,只有支持向量的点会被用来进行新样本的预测。
为了更好的实现本发明,进一步的,若输入的模型的数据点为支持向量,则有yi(WTxi+b)=1,且αi是一个非零的数,故支持向量的点被纳入模型中,进行新点的分类预测的计算;若输入的模型的数据点不是支持向量,则有yi(WTxi+b)>1,且由于αi非负,为满足最大化则αi为0,因此在预测新点X时,在模型中,由于αi为0,故非支持向量的点不纳入计算。
为了更好的实现本发明,进一步的,词频的评分是先对通知进行证据分词,并统计通知中分词在证据通知中出现的次数,从而计算词频得分;词序的评分是构建通知词的2-gram表达式,统计2-gram表达式与证据匹配的次数,从而计算词序得分。
为了更好的实现本发明,进一步的,语义的评分是先向量化表示问题和证据,然后分别进行证据向量、主向量集合、问题主向量,计算证据问题相关度,证据向量集合上通过PageRank算法计算证据权重,结合证据权重和证据问题相关度,计算得到语义得分。
为了更好的实现本发明,进一步的,分词模型的训练主要包括以下步骤:筛选训练语料,按字切分训练语料并特征提取,然后训练CRF分词模型,得到CRF分词模型;将待切分的句子输入词典匹配歧义判断,若存在歧义则输入CRF分词模型得到CRF分词,从而输出分词结果;若不存在歧义,则直接输出分词结果;将切分后的训练语料分别输入Brown聚类特征提取,输入word2vec字向量训练后输入K-Means聚类特征提取。
为了更好的实现本发明,进一步的,向客户推送信息主要包括静态数据推荐、基于内容的推荐、基于协同过滤算法的推荐;所述静态数据推荐是指利用客户的静态数据信息进行推荐相应的政策性信息;所述基于内容的推荐是指根据客户收藏的政策性信息,找出与其相关的政策性信息并推荐给客户;所述基于协同过滤算法的推荐是指收集客户喜欢的政策性信息,根据用户喜欢的政策性信息进行推荐相似的政策性信息。
为了更好的实现本发明,进一步的,所述静态数据推荐中根据客户的地区为客户推荐政策性信息;根据客户所处的行业为客户推荐政策性信息;所述基于协同过滤算法的推荐中追踪客户浏览的政策性信息,收集与客户浏览的政策性信息相关的政策性信息并根据相似度进行排名;然后将相似度较高的政策信息推荐给客户。
为了更好的实现本发明,进一步的,推送信息之前先采用FCM聚类,确定聚类数目c、加权指数m、终止误差d,然后初始化隶属度矩阵,计算c个聚类中心,计算目标函数并与阈值d比较,若目标函数大于等于阈值,则更新隶属度矩阵,计算c个聚类中心,循环上述步骤;若目标函数小于阈值,则完成聚类。
文本分类中最著名的特征提取方法就是向量空间模型(VSM),即将样本转换为向量的形式。为了能实现这种转换,需要做两个工作:确定特征集和提取特征。
特征集其实就是词典,根据需要分类的样本,提取样本的特征,构成特征集。根据不同的业务,文本分类中词典的规模在万级到千万级甚至亿级。而这么大的维度可能会带来维度灾难,因此就要想办法从大量的特征中选择一些有代表性的特征而又不影响分类的效果,一般的计算方法有词频、卡方公式、信息增益等。
另外一种解决维度灾难的思路就是特征抽取。同样是降维,相比特征选择,特征抽取采用了一种高级的方法来进行。Topic Modeling是原理就是将利用映射将高纬度空间映射到低纬空间,从而达到降维的目的。当把文本转换成向量的形式后,大部分的工作其实已经做完了。后面所要做的就是利用算法进行训练和预测了。
采用SVM实现文本分类,首先对所有的样本进行分词,然后统计每个词出现的频率,选取出前N个频率较高的词来作为词向量的表示。然后对每个样本进行分词,得出每个样本的词向量,将每个样本的词向量作为神经网络的输入进行训练,得出模型,进而对用模型对文本进行分类预测。预测过程中使用公式(1)进行添加新样本,其中公式(1)如下:
所述SVM分类:对于二类分类问题,训练集T={(x1,y1),(x2,y2),…,(xN,yN)},其类别yi∈{0,1},线性SVM通过学习得到分离超平面(hyperplane):w·x+b=0,以及相应的分类决策函数:f(x)=sign(w·x+b)。
如图2所示,将距离分离超平面最近的两个不同类别的样本点称为支持向量(supportvector)的,构成了两条平行于分离超平面的长带,二者之间的距离称之为margin。显然,margin更大,则分类正确的确信度更高;与超平面的距离表示分类的确信度,距离越远则分类正确的确信度越高。通过计算容易得到:
SVM分类问题可描述为在全部分类正确的情况下,最大化
等价于最小化
线性分类的约束最优化问题:
对每一个不等式约束引进拉格朗日乘子(Lagrange multiplier)αi≥0,i=1,2,…,N;构造拉格朗日函数(Lagrange function):
根据拉格朗日对偶性,原始的约束最优化问题可等价于极大极小的对偶问题:
将L(w,b,α)对w,b求偏导并令其等于0,则:
得到:
等价于最优化问题:
二次规划问题,可以用二次规划工具求解了。
针对数据不完全线性可分的超平面,可将问题转化为下式:
大部分时候数据并不是线性可分的,此时我们如何利用SVM算法来对非线性的数据进行处理呢?对于非线性的情况,SVM的处理方法是选择一个核函数K,通过将数据映射到高维空间,来解决在原始空间中线性不可分的问题。
具体来说,在线性不可分的情况下,支持向量机首先在低维空间中完成计算,然后通过核函数将输入空间映射到高维特征空间,最终在高维特征空间中构造出最优分离超平面,从而把平面上本身不好分的非线性数据分开。
核函数K是一个函数,
是从X到内积特征空间F的映射。对所有x,z都满足:
K(x,z)=<Φ(x)·Φ(z)>;
假设我们通过SMO高效优化算法,得到了最优的ai们,那么我们也就可以知道W:
于是可以得到线性分类器的结果为:
式子中<,>表示两个向量的内积。从这个公式可以看出,对于一个新点X,只需要计算它与训练数据点的内积即可。这一点也是后面使用核函数进行非线性推广的前提。
这里需要强调两点:预测新点X的类别时,只需要计算它与训练数据点的内积即可;用到的训练数据点,其实也只是那些“支持向量”的点,即,只有“支持向量”的点会被用来进行新样本的预测。
把原来的一维x映射到了三维(x2,x,C)。在刚开始我们说了原问题的预测模型的形式为:
此时X也要换成H(x),那么就变成:
核函数计算的时候,它可以让x和z不用通过H()映射到高维空间再计算内积,而是直接在低维空间里计算了。我们用K()表示核函数,那么核函数作用就是:K(x,z)=某个函数,从而避开了X映射到H(X),Y映射到H(Y)这么一个过程。
多项式核:K(X,Y)=((X,Y)+R)d;
精准推送方法:
1.静态数据推荐:信息服务平台中,利用客户的静态数据,例如客户的地区、行业等信息进行推荐相应的政策性信息。
(1)根据客户的地区为其推荐政策性信息,这个是最基础的推荐。
(2)根据客户所处的行业为其推荐政策性信息,类似于行业与相对应的政策性信息的类别相互对应。
2.基于内容的推荐:
信息服务平台中,客户可以收藏喜欢的政策性信息。根据客户收藏的政策性信息,找出与其相关的政策性信息推荐给客户。
3.协同过滤算法
信息服务平台中,协同过滤算法的应用需要依靠前期的数据积累。
(1)基于用户的协同过滤算法需要收集每一个客户喜欢的政策性信息,即计算若客户喜欢某个政策性信息,那么也会喜欢另外一个政策性信息。那么,当另一客户喜欢某个政策性信息,就可推荐相应的政策信息。
(2)基于内容的协同过滤算法需要收集每一个政策性信息的相似度进行排名,即追踪客户浏览的政策性信息,那么可推荐与该政策性信息相似度较高的推荐给客户。注意客户的浏览信息噪声较多。
FCM算法是一种基于划分的聚类算法,它的思想就是使得被划分到同一簇的对象之间相似度最大,而不同簇之间的相似度最小。模糊C均值算法是普通C均值算法的改进,普通C均值算法对于数据的划分是硬性的,而FCM则是一种柔性的模糊划分。
首先说明隶属度函数的概念。隶属度函数是表示一个对象x隶属于集合A的程度的函数,通常记做μA(x),其自变量范围是所有可能属于集合A的对象(即集合A所在空间中的所有点),取值范围是[0,1],即0<=μA(x)<=1。μA(x)=1表示x完全隶属于集合A,相当于传统集合概念上的x∈A。一个定义在空间X={x}上的隶属度函数就定义了一个模糊集合A,或者叫定义在论域X={x}上的模糊子集。对于有限个对象x1,x2,……,xn模糊集合可以表示为:
有了模糊集合的概念,一个元素隶属于模糊集合就不是硬性的了,在聚类的问题中,可以把聚类生成的簇看成模糊集合,因此,每个样本点隶属于簇的隶属度就是[0,1]区间里面的值。
模糊C均值聚类(FCM),是用隶属度确定每个数据点属于某个聚类的程度的一种聚类算法。C均值聚类(HCM)方法的一种改进。
FCM把n个向量xi(i=1,2,…,n)分为c个模糊组,并求每组的聚类中心,使得非相似性指标的价值函数达到最小。FCM与HCM的主要区别在于FCM用模糊划分,使得每个给定数据点用值在0,1间的隶属度来确定其属于各个组的程度。与引入模糊划分相适应,隶属矩阵U允许有取值在0,1间的元素。不过,加上归一化规定,一个数据集的隶属度的和总等于1:
那么,FCM的价值函数(或目标函数)就是式(6.2)的一般化形式:
这里uij介于0,1间;ci为模糊组I的聚类中心,dij=||ci-xj||为第I个聚类中心与第j个数据点间的欧几里德距离;且是一个加权指数。
构造如下新的目标函数,可求得使(6.10)式达到最小值的必要条件:
这里lj,j=1到n,是(6.9)式的n个约束式的拉格朗日乘子。对所有输入参量求导,使式(6.10)达到最小的必要条件为:
由上述两个必要条件,模糊C均值聚类算法是一个简单的迭代过程。在批处理方式运行时,FCM用下列步骤确定聚类中心ci和隶属矩阵U[1]:
步骤1:用值在0,1间的随机数初始化隶属矩阵U,使其满足式(6.9)中的约束条件。
步骤2:用式(6.12)计算c个聚类中心ci,i=1,…,c。
步骤3:根据式(6.10)计算价值函数。如果它小于某个确定的阀值,或它相对上次价值函数值的改变量小于某个阀值,则算法停止。
步骤4:用(6.13)计算新的U矩阵。返回步骤2。
上述算法也可以先初始化聚类中心,然后再执行迭代过程。由于不能确保FCM收敛于一个最优解。算法的性能依赖于初始聚类中心。因此,我们要么用另外的快速算法确定初始聚类中心,要么每次用不同的初始聚类中心启动该算法,多次运行FCM。
我们的通知相似算法,基于FCM的词典改进型算法,初始不同聚类中心采用打分方式,对词频+次序+语义的评分进行综合计算并排名,以去除无效的分词。
本发明的有益效果:
(1)首先对文本进行分词,分别对词频、词序、语义进行评分,以去除无效的、评分度低的分词,然后根据词频、词序、语义的综合评分进行排序,选取前N个综合评分较高的词作为词向量的表示,得到每个样本的词向量;将每个样本的词向量作为神经网络的输入进行训练,得到模型;进而对文本进行分类预测,最后向客户推送信息。本发明通过对词频、词序、语义分别进行评分,并根据综合评分进行筛除无效的、评分度低的的分词,提高了分词准确率,提高了数据智能分析的精确度,具有较好的实用性。本发明实现了智能分析大数据,提取精准的信息,并精准推荐给用户。
(2)在预测的过程中,采用SVM对文本分类;并采用公式(1)添加新样本。本发明在线性不可分的情况下,支持向量首先在低维空间中完成计算,然后通过核函数将输入空间映射到高维特征空间,最终在高维特征空间中构造出最优分离超平面,从而把平面上本身不好分的非线性数据分开。文本分类按照预设类别,通过分析输入文本具体内容,实现自动判定输入样本应属类别,可以精确的筛选出用户需要的政策类信息,具有较好的实用性。这一点也是后面使用核函数进行非线性推广的前提。支持向量机有效解决了非线性及空间维数高的问题。
(3)语义的评分是先向量化表示问题和证据,然后分别进行证据向量、主向量集合、问题主向量,计算证据问题相关度,证据向量集合上通过PageRank算法计算证据权重,结合证据权重和证据问题相关度,计算得到语义得分。本发明通过对词频、词序、语义分别进行评分,并根据综合评分进行筛除无效的、评分度低的的分词,提高了分词准确率,提高了数据智能分析的精确度,具有较好的实用性。本发明实现了智能分析大数据,提取精准的信息,并精准推荐给用户。
(4)分词模型的训练主要包括以下步骤:筛选训练语料,按字切分训练语料并特征提取,然后训练CRF分词模型,得到CRF分词模型;将待切分的句子输入词典匹配歧义判断,若存在歧义则输入CRF分词模型得到CRF分词,从而输出分词结果;若不存在歧义,则直接输出分词结果。本发明通过分词模型的训练精准的实现了大数据的智能分析,增强了对自由文本中数据的分词的可靠性和适用性。本发明的分词模型的训练提高了分类函数对类别划分的准确度,具有较好的实用性。
(5)向客户推送信息主要包括静态数据推荐、基于内容的推荐、基于协同过滤算法的推荐;所述静态数据推荐是指利用客户的静态数据信息进行推荐相应的政策性信息;所述基于内容的推荐是指根据客户收藏的政策性信息,找出与其相关的政策性信息推荐给客户;所述基于协同过滤算法的推荐是指收集每一个客户喜欢的政策性信息,根据用户喜欢的政策性信息进行推荐相似的政策性信息。本发明从多角度向客户推荐客户感兴趣的政策信息,提高了政策信息推荐的精准度。
(6)所述基于协同过滤算法的推荐中追踪客户浏览的政策性信息,收集与客户浏览的政策性信息相关的政策性信息并根据相似度进行排名;然后将相似度较高的政策信息推荐给客户。本发明通过协同过滤算法,将相似度较高的客户感兴趣的政策信息推送给客户,提高了政策信息推荐的精准度,具有较好的实用性。
(7)推送信息之前先采用FCM聚类,确定聚类数目c、加权指数m、终止误差d,然后初始化隶属度矩阵,计算c个聚类中心,计算目标函数并与阈值d比较,若目标函数大于等于阈值,则更新隶属度矩阵,计算c个聚类中心,循环上述步骤;若目标函数小于阈值,则完成聚类。本发明通过对信息进行聚类,提高了推送信息的精确,具有较好的实用性。
具体实施方式
实施例1:
一种基于政策资源大数据的智能分析及精准推送方法,如图1所示,首先对文本进行分词,分别对词频、词序、语义进行评分,以去除无效的、评分度低的分词,然后根据词频、词序、语义的综合评分进行排序,选取前N个综合评分较高的词作为词向量的表示,得到每个样本的词向量;将每个样本的词向量作为神经网络的输入进行训练,得到模型;进而对文本进行分类预测,最后向客户推送信息。
本发明通过对词频、词序、语义分别进行评分,并根据综合评分进行筛除无效的、评分度低的的分词,提高了分词准确率,提高了数据智能分析的精确度,具有较好的实用性。本发明实现了智能分析大数据,提取精准的信息,并精准推荐给用户。
实施例2:
本实施例是在实施例1的基础上进一步优化,如图4所示,词频的评分是先对通知进行证据分词,并统计通知中分词在证据通知中出现的次数,从而计算词频得分A;如图5所示,词序的评分是构建通知词的2-gram表达式,统计2-gram表达式与证据匹配的次数,从而计算词序得分B。如图6所示,语义的评分是先向量化表示问题和证据,然后分别进行证据向量、主向量集合、问题主向量,计算证据问题相关度,证据向量集合上通过PageRank算法计算证据权重,结合证据权重和证据问题相关度,计算得到语义得分C。
本发明通过对词频、词序、语义分别进行评分,并根据综合评分进行筛除无效的、评分度低的的分词,提高了分词准确率,提高了数据智能分析的精确度,具有较好的实用性。本发明实现了智能分析大数据,提取精准的信息,并精准推荐给用户。
本实施例的其他部分与实施例1相同,故不再赘述。
实施例3:
本实施例是在实施例2的基础上进一步优化,在预测的过程中,采用SVM对文本分类,使用下公式进行添加新样本:
其中式子中<Xi,X>表示两个向量的内积。从这个公式可以看出,对于一个新点X,只需要计算它与训练数据点的内积即可。这一点也是后面使用核函数进行非线性推广的前提。
如图2所示,将距离分离超平面最近的两个不同类别的样本点称为支持向量(support vector)的,构成了两条平行于分离超平面的长带,二者之间的距离称之为margin。显然,margin更大,则分类正确的确信度更高;与超平面的距离表示分类的确信度,距离越远则分类正确的确信度越高。
在线性不可分的情况下,支持向量机首先在低维空间中完成计算,然后通过核函数将输入空间映射到高维特征空间,最终在高维特征空间中构造出最优分离超平面,从而把平面上本身不好分的非线性数据分开。支持向量机有效解决了非线性及空间维数高的问题。本发明中,文本分类按照预设类别,通过分析输入文本具体内容,实现自动判定输入样本应属类别,可以精确的筛选出用户需要的政策类信息,具有较好的实用性。
在对文本进行分类预测的过程中,预测新点X的类别时,只需要计算它与训练数据点的内积即可;用到的训练数据点是支持向量的点,只有支持向量的点会被用来进行新样本的预测。若输入的模型的数据点为支持向量,则有yi(WTxi+b)=1,且αi是一个非零的数,故支持向量的点被纳入模型中,进行新点的分类预测的计算;若输入的模型的数据点不是支持向量,则有yi(WTxi+b)>1,且由于αi非负,为满足最大化则αi为0,因此在预测新点X时,在模型中,由于αi为0,故非支持向量的点不纳入计算。
在线性不可分的情况下,支持向量机首先在低维空间中完成计算,然后通过核函数将输入空间映射到高维特征空间,最终在高维特征空间中构造出最优分离超平面,从而把平面上本身不好分的非线性数据分开。支持向量机有效解决了非线性及空间维数高的问题。本发明中,文本分类按照预设类别,通过分析输入文本具体内容,实现自动判定输入样本应属类别,可以精确的筛选出用户需要的政策类信息,具有较好的实用性。
本实施例的其他部分与实施例2相同,故不再赘述。
实施例4:
本实施例是在实施例2或3的基础上进一步优化,如图3所示,分词模型的训练主要包括以下步骤:筛选训练语料,按字切分训练语料并特征提取,然后训练CRF分词模型,得到CRF分词模型;将待切分的句子输入词典匹配歧义判断,若存在歧义则输入CRF分词模型得到CRF分词,从而输出分词结果;若不存在歧义,则直接输出分词结果。将切分后的训练语料分别输入Brown聚类特征提取、先输入word2vec字向量训练后输入K-Means聚类特征提取。
本发明通过分词模型的训练精准的实现了大数据的智能分析,增强了对自由文本中数据的分词的可靠性和适用性。本发明的分词模型的训练提高了分类函数对类别划分的准确度,具有较好的实用性。
本实施例的其他部分与上述实施例2或3相同,故不再赘述。
实施例5:
本实施例是在实施例2的基础上进行优化,向客户推送信息主要包括静态数据推荐、基于内容的推荐、基于协同过滤算法的推荐;所述静态数据推荐是指利用客户的静态数据信息进行推荐相应的政策性信息;所述基于内容的推荐是指根据客户收藏的政策性信息,找出与其相关的政策性信息推荐给客户;所述基于协同过滤算法的推荐是指收集每一个客户喜欢的政策性信息,根据用户喜欢的政策性信息进行推荐相似的政策性信息。所述静态数据推荐中根据客户的地区为其推荐政策性信息;根据客户所处的行业为其推荐政策性信息。本发明从多角度向客户推荐客户感兴趣的政策信息,提高了政策信息推荐的精准度。
所述基于协同过滤算法的推荐中追踪客户浏览的政策性信息,收集与客户浏览的政策性信息相关的政策性信息并根据相似度进行排名;然后将相似度较高的政策信息推荐给客户。本发明通过协同过滤算法,将相似度较高的客户感兴趣的政策信息推送给客户,提高了政策信息推荐的精准度,具有较好的实用性。
本实施例的其他部分与上述实施例2相同,故不再赘述。
实施例6:
本实施例是在实施例5的基础上进行优化,如图7所示,推送信息之前先采用FCM聚类,确定聚类数目c、加权指数m、终止误差d,然后初始化隶属度矩阵,计算c个聚类中心,计算目标函数并与阈值d比较,若目标函数大于等于阈值,则更新隶属度矩阵,计算c个聚类中心,循环上述步骤;若目标函数小于阈值,则完成聚类。
本发明在使用过程中,首先是对资金通知的信息文本进行智能优选,然后针对优选的信息进行聚类得到客户偏向的信息,得到推送通知信息,本发明通过对信息进行聚类,提高了推送信息的精确,具有较好的实用性。
本实施例的其他部分与上述实施例5相同,故不再赘述。
以上所述,仅是本发明的较佳实施例,并非对本发明做任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化,均落入本发明的保护范围之内。