CN105808648A

CN105808648A - 一种基于r语言程序的个性化推荐方法

Info

Publication number: CN105808648A
Application number: CN201610108896.4A
Authority: CN
Inventors: 吴海龙
Original assignee: Focus Technology Co Ltd
Current assignee: Focus Technology Co Ltd
Priority date: 2016-02-25
Filing date: 2016-02-25
Publication date: 2016-07-27

Abstract

一种基于R语言程序对资讯进行个性化推荐的方法，其特征是具体步骤包括：1)R语言程序连接Oracle数据库，即让R语言程序能读取Oracle数据库中的数据；提取数据库中的数据，要让R语言程序能够与数据库互通，把所需要的数据读取到R语言程序中；2)数据预处理：关键词分隔符统一；需要对所给的关键词作分词，以便能够更好地提取出每个资讯以及保险的特征；3)特征权重计算；4)计算资讯与保险产品的相似度；计算出特征的权重之后，将每个特征作为一个维度，而特征的归一化权重作为其值，这样每个资讯以及保险产品就构成了特征空间图，其相似度就是两个空间图的接近程度。

Description

一种基于R语言程序的个性化推荐方法

技术领域

本发明涉及个性化推荐领域，具体而言，涉及一种基于R语言程序的利用资讯进行保险产品推荐的方法。

背景技术

随着电子商务的快速发展,商家提供的商品种类和数量急剧增长,具有明确需求的用户可以通过搜索查找想购买的商品。然而,用户需求通常具有不确定性和模糊性。如果商家能够从海量的商品中把满足用户模糊需求的商品主动推荐给用户,则有望将潜在需求转化为实际需求。

R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件，它是一个用于统计计算和统计制图的优秀工具。未有在利用资讯进行保险产品推荐的应用；本发明希望通过对新一站资讯页进行保险产品的有效推荐，能够提高产品的点击率、销量，以及增强用户对网站的忠诚度。采用的开发环境具有Oracle数据库，R语言，Windows。

发明内容

本发明目的是，主要给出了一种基于R语言程序对资讯(如新一站网站等)进行个性化推荐的方法，基于高效数据统计分析的基础得到匹配的资讯，提高了保险产品被用户了解并被接受的效率。

本发明技术方案是：一种基于R语言程序对资讯进行个性化推荐的方法，具体步骤主要包括：

1)R语言程序连接Oracle数据库，即让R语言程序可以读取Oracle数据库中的数据；

首先需要提取数据库中的数据，为此要让R语言程序能够与数据库互通，把所需要的数据读取到R语言程序中：

资讯与保险产品的相关数据都存储在Oracle数据库中，安装ODBC驱动程序并在Windows数据源管理器中添加数据源，并在R语言程序中下载RODBC包，从而实现R语言程序连接Oracle数据库；

2)数据预处理

Oracle数据库读取进来的原始数据与所需要的数据格式不相符，需要对其做预处理，

此步骤主要包括两个方面：

2-1)关键词分隔符统一

原始数据中给出了资讯以及保险产品的关键词，这些关键词多数以中文逗号分隔，也存在着其它的分隔符，比如英文逗号、顿号、空格，为了利于后续的分析，统一把分隔符转化为中文逗号；

2-3)中文分词

原始数据中虽然给出了关键词，但是这些关键词的代表性并不强，为此需要对所给的关键词作分词，以便能够更好地提取出每个资讯以及保险的特征，使得这些特征可以描述资讯以及保险产品的核心信息；

加入特定的分词库，即从搜狗输入法首页下载与保险相关的词库载入到R语言程序中，加入的词库包括保险专业词汇、财产保险、保险法实务术语、保险公司名称；

经过上述两个过程的预处理，得到了需要的数据格式，进行下一步分析；

3)特征权重计算

每一个特征在相对应的资讯或者保险产品中的权重是不一样的，为此我们要找到一个指标来代表特征权重的大小；在此处应用TF_IDF指标来计算每一个特征的权重；TF_IDF用来作为一个词在文档或整个查询词组的权重的重要程度(计算方式)，是信息检索与数据挖掘的常用加权技术；某个词对文档的重要性越高，它的TF_IDF值就会越大；TF词频指的是某一个给定的词语在该文档中出现的次数，这个数字通常会被正规化，以防止它偏向长的文档；逆向文档频率IDF是一个词语普遍重要性的度量；某一特定词语的IDF，由总文档数目除以包含该词语的文档的数目，再将得到的商取对数得到，TF乘上IDF即是TF_IDF值；TF_IDF定义是：如果一个词在一篇文档中出现的频率高，并且在其他文档中很少出现，则认为这个词具有很好的区分能力，能够比较好的代表这篇文档所要表达的中心思想；

如对于保险产品包括8个关键词，而保险产品总数是585，包含“意外”这一关键词的保险产品总数为203，此时计算“意外”这一关键词的TF_IDF值：

TF＝2/8＝0.25

IDF＝lg(585/203)＝0.460

TF_IDF＝TF*IDF＝0.115

所以“意外”这一特征在此保险产品中的权重为0.115；

4)计算资讯与保险产品的相似度

在衡量了特征权重大小之后，每一篇资讯以及保险产品都可以用特征所组成的维度空间中的向量去表示，每个向量元素的大小代表此特征的TF_IDF值。对于每一个资讯，算出其与每个保险产品的相似度大小，并对相似度进行降序排序，从而给出与每个资讯相似度最大的两个保险产品。

当4)中计算出特征的权重之后，将每个特征作为一个维度，而特征的归一化权重作为其值，这样每个资讯以及保险产品就构成了特征空间图，其相似度就是两个空间图的接近程度；

所有保险产品的特征的权重看作一个向量:

P＝{t1,t2,……,tN}

PV＝{P1,P2,……,PN}

同样也可以把任意一个资讯用特征权重向量来表示：

C＝{t1,t2,……,tN}

CV＝{C1,C2,……,CN}

其中N代表特征的个数，t1,t2,……,tN代表特征，P1，P2，……，PN代表保险产品中相对应的特征的权重，C1，C2，……，CN代表资讯中相对应的特征的权重。此时所有保险产品及资讯都将映射到一个N维空间中。在向量空间中，两个向量之间的夹角代表着相似度的大小，所以可以用夹角的余弦值作为相似度的打分，夹角越小，余弦值越大，打分越高，相似度就越大。为此可以计算出每一个资讯与所有保险产品的相似度，从而可以选出那些相似度高的作为资讯的推荐产品。

有益效果：本发明通过对新一站资讯页进行保险产品的有效推荐，提高产品的点击率、销量，以及增强用户对网站的忠诚度。本发明具有基于高效数据统计分析的基础得到匹配的资讯，提高了保险产品被用户了解并被接受的效率。

附图说明

图1为本发明实施例的流程图。

图2是本发明实施例的结构示意图。

具体实施方案

下面结合附图和实施例，对本发明的具体实施方案作进一步详细描述。

参阅图一所示，本发明的实施步骤如下：

S11：R连接oracle数据库，即让R可以读取Oracle数据库中的数据。

资讯与保险产品的相关数据都存储在Oracle数据库中，为了让R能够读取这些数据，必须要让R与Oracle可以互通，此处要安装ODBC驱动程序并在Windows数据源管理器中添加数据源，并在R中下载RODBC包，从而可以实现R连接数据库。

S12：数据预处理，即对所读取的原始数据做进一步的处理

因为在所给的原始数据中，已经由相关人员给出了每个资讯与保险产品的关键词，此处我们就省略了关键词的提取过程。

Oracle存储数据的格式并不是我们所需求的数据的格式，为此要对数据做预处理。数据预处理主要分为两个过程：

1)关键词分隔符统一

在每一个资讯与保险产品中，都记录了其关键词，而这些关键词多数以中文逗号分隔，但同时也存在着其它的分隔符，比如顿号、空格、英文逗号等等，为此可以先把所有的分隔符统一为中文逗号。

2)中文分词(处理)

在所给出的关键词中，关键词的代表性并不强，有的关键词很长，这些关键词是由许多词语组成的，如果直接使用这些关键词作为最终的特征进行分析，资讯与保险的特征重合度将会很低，最终会有高于一半的资讯与所有的保险产品的相似度都为0，就会无法为这些资讯进行有效的推荐，推荐率很低，这样的推荐算法用处很有限。为了改进算法，就需要对这些关键词做进一步的分词，重新提取特征。但是，R语言分词包中自带的分词效果并不好，很多保险专业词汇不能很好地分开，为了提高分词效果，需要加入特定的分词库，为此从搜狗输入法首页下载与保险相关的词库载入到R语言中，加入的词库主要包括了保险专业词汇、财产保险、保险法实务术语、保险公司名称，与此同时我们也手动加入了一些词，比如“大病”、“重疾”等等，这样分词效果会得到比较大的提升。值得欣喜地是分完词之后产品与资讯的关键词的重合度大大提升，而且资讯与保险的特征数量也减少了，关键词之间的冗余降低了，为后续分析带来了很大的帮助。分词完毕后，有一些无用的特征也需要去掉，比如“保险”这一特征词，相对资讯与保险产品来说，这一特征对最终的推荐起不到任何的效果，这类特征也要去掉。

经过上述两个过程的预处理，最终得到了我们需要的数据格式，可以进行下一步的分析。

S13：计算特征权重

对于任一资讯以及保险产品来说，每一个特征的重要性是不一样的，为此我们要找到一个指标去衡量特征的重要性。此处我们使用在文本挖掘中经常使用到的指标:TF_IDF。

TF-IDF用以评估一个字词对于一个文档集或一个语料库中的某一份文档的重要程度。TF词频指的是某一个给定的词语在该文档中出现的次数，这个数字通常会被正规化，以防止它偏向长的文档。逆向文档频率IDF是一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文档数目除以包含该词语的文档的数目，再将得到的商取对数得到，TF乘上IDF即是TF_IDF值。TF_IDF的主要思想是：如果一个词在一篇文档中出现的频率高，并且在其他文档中很少出现，则认为这个词具有很好的区分能力，能够比较好的代表这篇文档所要表达的中心思想。

比如对于保险产品“乘客意外伤害综合保障计划一(渠道专供，不支持分配)”，其分词后所对应的关键词一共包括泰康人寿保险股份有限公司、交通、意外、交通、意外、伤害、医疗、补偿这8个关键词，而保险产品总数是585，包含“意外”这一关键词的保险产品总数为203，此时就可以计算“意外”这一关键词的TF_IDF值：

TF＝2/8＝0.25

IDF＝lg(585/203)＝0.460

TF_IDF＝TF*IDF＝0.115

所以“意外”这一特征在此保险产品中的权重为0.115，其它特征的权重的计算方法类似。

S14：资讯与保险产品的相似度

计算出特征的权重之后，我们就可以把每个特征作为一个维度，而特征的归一化权重作为其值，这样每个资讯以及保险产品就构成了特征空间图，其相似度就是两个空间图的接近程度。

于是可以把所有保险产品的特征的权重看作一个向量(加粗表示):

P＝{t1,t2,……,tN}

PV＝{P1,P2,……,PN}

同样也可以把任意一个资讯用特征权重向量来表示：

C＝{t1,t2,……,tN}

CV＝{C1,C2,……,CN}

其中N代表特征的个数，t1,t2,……,tN代表所有的特征，P1，P2，……，PN代表保险产品中相对应的特征的权重，C1，C2，……，CN代表资讯中相对应的特征的权重。

此时所有保险产品及资讯都将映射到一个N维空间中。在向量空间中，两个向量之间的夹角代表着相似度的大小，所以可以用夹角的余弦值作为相似度的打分，夹角越小，余弦值越大，打分越高，相似度就越大。为此可以计算出每一个资讯与所有保险产品的相似度，从而可以选出那些相似度高的作为资讯的推荐产品。

比如对于某资讯“短期买航意险”和保险产品“长期买交意险以及保险产品百万航空意外保障”，其相似度的计算方法如下：

P＝C＝{航空，航意险，交通，意外，意外险}

CV＝{0.55,0.53,0.31,0.22,0.52}

PV＝{0.54,0.82,0,0.20,0}

Sim(CV,PV)＝CV·PV＝0.776

其中P、C为特征向量，由于提取的特征项很多，此处只给出了至少有一个特征权重大于0的相对应的特征，其余的特征项并未列出；CV为保险产品归一化的特征权重向量，PV为资讯归一化的特征权重向量，sim(·)为余弦相似度。由于向量CV与PV的模已经归一化，故在计算余弦相似度时省略分母。

参阅图2所示，本发明实施例的系统结构，包括：

数据源模块21、特征提取模块22、空间向量模块23、资讯推荐模块24。

数据源模块21主要用来让R读取资讯以及保险产品的相关信息，数据主要来源于数据库。

数据预处理模块22主要是对源数据进行处理，包括两个子模块：中文分词模块221、特征提取模块222。

中文分词模块221主要对关键词作进一步的分词，

特征提取模块主要在分词的基础上，提取出表征资讯以及产品的特征并同时计算特征的权重TF_IDF值。

空间向量模块23主要对保险产品以及资讯进行量化，把非结构化数据转变为结构化数据，包括向量化模块231、相似度模块232。

向量化模块231主要是把每一个资讯以及保险产品表示成特征空间里的一个向量，向量的维度为所提取的特征的总个数，元素值为归一化的TF_IDF值。

余弦相似度模块232主要是计算每一个资讯与所有保险产品的余弦相似度，相似度越大，资讯与产品的相关性越大，越会被推荐。

资讯推荐模块24给出与每个资讯相似度最大的两个保险产品。

所属领域的普通技术人员应当理解：以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于R语言程序对资讯进行个性化推荐的方法，其特征是具体步骤包括：

1)R语言程序连接Oracle数据库，即让R语言程序能读取Oracle数据库中的数据；提取数据库中的数据，要让R语言程序能够与数据库互通，把所需要的数据读取到R语言程序中：

2)数据预处理：Oracle数据库读取进来的原始数据与所需要的数据格式不相符，需要对其做预处理，此步骤主要包括两个方面：

2-1)关键词分隔符统一：

2-2)中文分词处理：

加入特定的分词库，即从搜狗输入法首页下载与保险相关的词库载入到R语言程序中，加入的词库包括保险专业词汇、财产保险、保险法实务术语、保险公司名称；经过上述两个过程的预处理，得到了需要的数据格式，进行下一步分析；

3)、特征权重计算：每一个特征在相对应的资讯或者保险产品中的权重是不一样的，为此我们要找到一个指标来代表特征权重的大小；在此处应用TF_IDF指标来计算每一个特征的权重；TF_IDF用来作为一个词在文档或整个查询词组的权重的重要程度，是信息检索与数据挖掘的常用加权技术；某个词对文档的重要性越高，它的TF_IDF值就会越大；TF词频指的是某一个给定的词语在该文档中出现的次数，这个数字通常会被正规化，以防止它偏向长的文档；逆向文档频率IDF是一个词语普遍重要性的度量；某一特定词语的IDF，由总文档数目除以包含该词语的文档的数目，再将得到的商取对数得到，TF乘上IDF即是TF_IDF值；TF_IDF定义是：如果一个词在一篇文档中出现的频率高，并且在其他文档中很少出现，则认为这个词具有很好的区分能力，能够比较好的代表这篇文档所要表达的中心思想；

4)计算资讯与保险产品的相似度：在衡量了特征权重大小之后，每一篇资讯以及保险产品都可以用特征所组成的维度空间中的向量去表示，每个向量元素的大小代表此特征的TF_IDF值。对于每一个资讯，算出其与每个保险产品的相似度大小，并对相似度进行降序排序，从而给出与每个资讯相似度最大的两个保险产品；

5)4)中计算出特征的权重之后，将每个特征作为一个维度，而特征的归一化权重作为其值，这样每个资讯以及保险产品就构成了特征空间图，其相似度就是两个空间图的接近程度。

2.根据权利要求1所述的基于R语言程序对资讯进行个性化推荐的方法，其特征是所有保险产品的特征的权重看作一个向量:

P＝{t1,t2,……,tN}

PV＝{P1,P2,……,PN}

同样也可以把任意一个资讯用特征权重向量来表示：

C＝{t1,t2,……,tN}

CV＝{C1,C2,……,CN}

其中N代表特征的个数，t1,t2,……,tN代表特征，P1，P2，……，PN代表保险产品中相对应的特征的权重，C1，C2，……，CN代表资讯中相对应的特征的权重；此时所有保险产品及资讯都将映射到一个N维空间中；在向量空间中，两个向量之间的夹角代表着相似度的大小，所以用夹角的余弦值作为相似度的打分，夹角越小，余弦值越大，打分越高，相似度就越大；为此可以计算出每一个资讯与所有保险产品的相似度，从而选出那些相似度高的作为资讯的推荐产品。