CN105808648A - 一种基于r语言程序的个性化推荐方法 - Google Patents

一种基于r语言程序的个性化推荐方法 Download PDF

Info

Publication number
CN105808648A
CN105808648A CN201610108896.4A CN201610108896A CN105808648A CN 105808648 A CN105808648 A CN 105808648A CN 201610108896 A CN201610108896 A CN 201610108896A CN 105808648 A CN105808648 A CN 105808648A
Authority
CN
China
Prior art keywords
information
feature
insurance
data
lisp
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610108896.4A
Other languages
English (en)
Inventor
吴海龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Focus Technology Co Ltd
Original Assignee
Focus Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Focus Technology Co Ltd filed Critical Focus Technology Co Ltd
Priority to CN201610108896.4A priority Critical patent/CN105808648A/zh
Publication of CN105808648A publication Critical patent/CN105808648A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0277Online advertisement

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Databases & Information Systems (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Game Theory and Decision Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

一种基于R语言程序对资讯进行个性化推荐的方法,其特征是具体步骤包括:1)R语言程序连接Oracle数据库,即让R语言程序能读取Oracle数据库中的数据;提取数据库中的数据,要让R语言程序能够与数据库互通,把所需要的数据读取到R语言程序中;2)数据预处理:关键词分隔符统一;需要对所给的关键词作分词,以便能够更好地提取出每个资讯以及保险的特征;3)特征权重计算;4)计算资讯与保险产品的相似度;计算出特征的权重之后,将每个特征作为一个维度,而特征的归一化权重作为其值,这样每个资讯以及保险产品就构成了特征空间图,其相似度就是两个空间图的接近程度。

Description

一种基于R语言程序的个性化推荐方法
技术领域
本发明涉及个性化推荐领域,具体而言,涉及一种基于R语言程序的利用资讯进行保险产品推荐的方法。
背景技术
随着电子商务的快速发展,商家提供的商品种类和数量急剧增长,具有明确需求的用户可以通过搜索查找想购买的商品。然而,用户需求通常具有不确定性和模糊性。如果商家能够从海量的商品中把满足用户模糊需求的商品主动推荐给用户,则有望将潜在需求转化为实际需求。
R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。未有在利用资讯进行保险产品推荐的应用;本发明希望通过对新一站资讯页进行保险产品的有效推荐,能够提高产品的点击率、销量,以及增强用户对网站的忠诚度。采用的开发环境具有Oracle数据库,R语言,Windows。
发明内容
本发明目的是,主要给出了一种基于R语言程序对资讯(如新一站网站等)进行个性化推荐的方法,基于高效数据统计分析的基础得到匹配的资讯,提高了保险产品被用户了解并被接受的效率。
本发明技术方案是:一种基于R语言程序对资讯进行个性化推荐的方法,具体步骤主要包括:
1)R语言程序连接Oracle数据库,即让R语言程序可以读取Oracle数据库中的数据;
首先需要提取数据库中的数据,为此要让R语言程序能够与数据库互通,把所需要的数据读取到R语言程序中:
资讯与保险产品的相关数据都存储在Oracle数据库中,安装ODBC驱动程序并在Windows数据源管理器中添加数据源,并在R语言程序中下载RODBC包,从而实现R语言程序连接Oracle数据库;
2)数据预处理
Oracle数据库读取进来的原始数据与所需要的数据格式不相符,需要对其做预处理,
此步骤主要包括两个方面:
2-1)关键词分隔符统一
原始数据中给出了资讯以及保险产品的关键词,这些关键词多数以中文逗号分隔,也存在着其它的分隔符,比如英文逗号、顿号、空格,为了利于后续的分析,统一把分隔符转化为中文逗号;
2-3)中文分词
原始数据中虽然给出了关键词,但是这些关键词的代表性并不强,为此需要对所给的关键词作分词,以便能够更好地提取出每个资讯以及保险的特征,使得这些特征可以描述资讯以及保险产品的核心信息;
加入特定的分词库,即从搜狗输入法首页下载与保险相关的词库载入到R语言程序中,加入的词库包括保险专业词汇、财产保险、保险法实务术语、保险公司名称;
经过上述两个过程的预处理,得到了需要的数据格式,进行下一步分析;
3)特征权重计算
每一个特征在相对应的资讯或者保险产品中的权重是不一样的,为此我们要找到一个指标来代表特征权重的大小;在此处应用TF_IDF指标来计算每一个特征的权重;TF_IDF用来作为一个词在文档或整个查询词组的权重的重要程度(计算方式),是信息检索与数据挖掘的常用加权技术;某个词对文档的重要性越高,它的TF_IDF值就会越大;TF词频指的是某一个给定的词语在该文档中出现的次数,这个数字通常会被正规化,以防止它偏向长的文档;逆向文档频率IDF是一个词语普遍重要性的度量;某一特定词语的IDF,由总文档数目除以包含该词语的文档的数目,再将得到的商取对数得到,TF乘上IDF即是TF_IDF值;TF_IDF定义是:如果一个词在一篇文档中出现的频率高,并且在其他文档中很少出现,则认为这个词具有很好的区分能力,能够比较好的代表这篇文档所要表达的中心思想;
如对于保险产品包括8个关键词,而保险产品总数是585,包含“意外”这一关键词的保险产品总数为203,此时计算“意外”这一关键词的TF_IDF值:
TF=2/8=0.25
IDF=lg(585/203)=0.460
TF_IDF=TF*IDF=0.115
所以“意外”这一特征在此保险产品中的权重为0.115;
4)计算资讯与保险产品的相似度
在衡量了特征权重大小之后,每一篇资讯以及保险产品都可以用特征所组成的维度空间中的向量去表示,每个向量元素的大小代表此特征的TF_IDF值。对于每一个资讯,算出其与每个保险产品的相似度大小,并对相似度进行降序排序,从而给出与每个资讯相似度最大的两个保险产品。
当4)中计算出特征的权重之后,将每个特征作为一个维度,而特征的归一化权重作为其值,这样每个资讯以及保险产品就构成了特征空间图,其相似度就是两个空间图的接近程度;
所有保险产品的特征的权重看作一个向量:
P={t1,t2,……,tN}
PV={P1,P2,……,PN}
同样也可以把任意一个资讯用特征权重向量来表示:
C={t1,t2,……,tN}
CV={C1,C2,……,CN}
其中N代表特征的个数,t1,t2,……,tN代表特征,P1,P2,……,PN代表保险产品中相对应的特征的权重,C1,C2,……,CN代表资讯中相对应的特征的权重。此时所有保险产品及资讯都将映射到一个N维空间中。在向量空间中,两个向量之间的夹角代表着相似度的大小,所以可以用夹角的余弦值作为相似度的打分,夹角越小,余弦值越大,打分越高,相似度就越大。为此可以计算出每一个资讯与所有保险产品的相似度,从而可以选出那些相似度高的作为资讯的推荐产品。
有益效果:本发明通过对新一站资讯页进行保险产品的有效推荐,提高产品的点击率、销量,以及增强用户对网站的忠诚度。本发明具有基于高效数据统计分析的基础得到匹配的资讯,提高了保险产品被用户了解并被接受的效率。
附图说明
图1为本发明实施例的流程图。
图2是本发明实施例的结构示意图。
具体实施方案
下面结合附图和实施例,对本发明的具体实施方案作进一步详细描述。
参阅图一所示,本发明的实施步骤如下:
S11:R连接oracle数据库,即让R可以读取Oracle数据库中的数据。
资讯与保险产品的相关数据都存储在Oracle数据库中,为了让R能够读取这些数据,必须要让R与Oracle可以互通,此处要安装ODBC驱动程序并在Windows数据源管理器中添加数据源,并在R中下载RODBC包,从而可以实现R连接数据库。
S12:数据预处理,即对所读取的原始数据做进一步的处理
因为在所给的原始数据中,已经由相关人员给出了每个资讯与保险产品的关键词,此处我们就省略了关键词的提取过程。
Oracle存储数据的格式并不是我们所需求的数据的格式,为此要对数据做预处理。数据预处理主要分为两个过程:
1)关键词分隔符统一
在每一个资讯与保险产品中,都记录了其关键词,而这些关键词多数以中文逗号分隔,但同时也存在着其它的分隔符,比如顿号、空格、英文逗号等等,为此可以先把所有的分隔符统一为中文逗号。
2)中文分词(处理)
在所给出的关键词中,关键词的代表性并不强,有的关键词很长,这些关键词是由许多词语组成的,如果直接使用这些关键词作为最终的特征进行分析,资讯与保险的特征重合度将会很低,最终会有高于一半的资讯与所有的保险产品的相似度都为0,就会无法为这些资讯进行有效的推荐,推荐率很低,这样的推荐算法用处很有限。为了改进算法,就需要对这些关键词做进一步的分词,重新提取特征。但是,R语言分词包中自带的分词效果并不好,很多保险专业词汇不能很好地分开,为了提高分词效果,需要加入特定的分词库,为此从搜狗输入法首页下载与保险相关的词库载入到R语言中,加入的词库主要包括了保险专业词汇、财产保险、保险法实务术语、保险公司名称,与此同时我们也手动加入了一些词,比如“大病”、“重疾”等等,这样分词效果会得到比较大的提升。值得欣喜地是分完词之后产品与资讯的关键词的重合度大大提升,而且资讯与保险的特征数量也减少了,关键词之间的冗余降低了,为后续分析带来了很大的帮助。分词完毕后,有一些无用的特征也需要去掉,比如“保险”这一特征词,相对资讯与保险产品来说,这一特征对最终的推荐起不到任何的效果,这类特征也要去掉。
经过上述两个过程的预处理,最终得到了我们需要的数据格式,可以进行下一步的分析。
S13:计算特征权重
对于任一资讯以及保险产品来说,每一个特征的重要性是不一样的,为此我们要找到一个指标去衡量特征的重要性。此处我们使用在文本挖掘中经常使用到的指标:TF_IDF。
TF-IDF用以评估一个字词对于一个文档集或一个语料库中的某一份文档的重要程度。TF词频指的是某一个给定的词语在该文档中出现的次数,这个数字通常会被正规化,以防止它偏向长的文档。逆向文档频率IDF是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文档数目除以包含该词语的文档的数目,再将得到的商取对数得到,TF乘上IDF即是TF_IDF值。TF_IDF的主要思想是:如果一个词在一篇文档中出现的频率高,并且在其他文档中很少出现,则认为这个词具有很好的区分能力,能够比较好的代表这篇文档所要表达的中心思想。
比如对于保险产品“乘客意外伤害综合保障计划一(渠道专供,不支持分配)”,其分词后所对应的关键词一共包括泰康人寿保险股份有限公司、交通、意外、交通、意外、伤害、医疗、补偿这8个关键词,而保险产品总数是585,包含“意外”这一关键词的保险产品总数为203,此时就可以计算“意外”这一关键词的TF_IDF值:
TF=2/8=0.25
IDF=lg(585/203)=0.460
TF_IDF=TF*IDF=0.115
所以“意外”这一特征在此保险产品中的权重为0.115,其它特征的权重的计算方法类似。
S14:资讯与保险产品的相似度
计算出特征的权重之后,我们就可以把每个特征作为一个维度,而特征的归一化权重作为其值,这样每个资讯以及保险产品就构成了特征空间图,其相似度就是两个空间图的接近程度。
于是可以把所有保险产品的特征的权重看作一个向量(加粗表示):
P={t1,t2,……,tN}
PV={P1,P2,……,PN}
同样也可以把任意一个资讯用特征权重向量来表示:
C={t1,t2,……,tN}
CV={C1,C2,……,CN}
其中N代表特征的个数,t1,t2,……,tN代表所有的特征,P1,P2,……,PN代表保险产品中相对应的特征的权重,C1,C2,……,CN代表资讯中相对应的特征的权重。
此时所有保险产品及资讯都将映射到一个N维空间中。在向量空间中,两个向量之间的夹角代表着相似度的大小,所以可以用夹角的余弦值作为相似度的打分,夹角越小,余弦值越大,打分越高,相似度就越大。为此可以计算出每一个资讯与所有保险产品的相似度,从而可以选出那些相似度高的作为资讯的推荐产品。
比如对于某资讯“短期买航意险”和保险产品“长期买交意险以及保险产品百万航空意外保障”,其相似度的计算方法如下:
P=C={航空,航意险,交通,意外,意外险}
CV={0.55,0.53,0.31,0.22,0.52}
PV={0.54,0.82,0,0.20,0}
Sim(CV,PV)=CV·PV=0.776
其中P、C为特征向量,由于提取的特征项很多,此处只给出了至少有一个特征权重大于0的相对应的特征,其余的特征项并未列出;CV为保险产品归一化的特征权重向量,PV为资讯归一化的特征权重向量,sim(·)为余弦相似度。由于向量CV与PV的模已经归一化,故在计算余弦相似度时省略分母。
参阅图2所示,本发明实施例的系统结构,包括:
数据源模块21、特征提取模块22、空间向量模块23、资讯推荐模块24。
数据源模块21主要用来让R读取资讯以及保险产品的相关信息,数据主要来源于数据库。
数据预处理模块22主要是对源数据进行处理,包括两个子模块:中文分词模块221、特征提取模块222。
中文分词模块221主要对关键词作进一步的分词,
特征提取模块主要在分词的基础上,提取出表征资讯以及产品的特征并同时计算特征的权重TF_IDF值。
空间向量模块23主要对保险产品以及资讯进行量化,把非结构化数据转变为结构化数据,包括向量化模块231、相似度模块232。
向量化模块231主要是把每一个资讯以及保险产品表示成特征空间里的一个向量,向量的维度为所提取的特征的总个数,元素值为归一化的TF_IDF值。
余弦相似度模块232主要是计算每一个资讯与所有保险产品的余弦相似度,相似度越大,资讯与产品的相关性越大,越会被推荐。
资讯推荐模块24给出与每个资讯相似度最大的两个保险产品。
所属领域的普通技术人员应当理解:以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种基于R语言程序对资讯进行个性化推荐的方法,其特征是具体步骤包括:
1)R语言程序连接Oracle数据库,即让R语言程序能读取Oracle数据库中的数据;提取数据库中的数据,要让R语言程序能够与数据库互通,把所需要的数据读取到R语言程序中:
资讯与保险产品的相关数据都存储在Oracle数据库中,安装ODBC驱动程序并在Windows数据源管理器中添加数据源,并在R语言程序中下载RODBC包,从而实现R语言程序连接Oracle数据库;
2)数据预处理:Oracle数据库读取进来的原始数据与所需要的数据格式不相符,需要对其做预处理,此步骤主要包括两个方面:
2-1)关键词分隔符统一:
原始数据中给出了资讯以及保险产品的关键词,这些关键词多数以中文逗号分隔,也存在着其它的分隔符,比如英文逗号、顿号、空格,为了利于后续的分析,统一把分隔符转化为中文逗号;
2-2)中文分词处理:
原始数据中虽然给出了关键词,但是这些关键词的代表性并不强,为此需要对所给的关键词作分词,以便能够更好地提取出每个资讯以及保险的特征,使得这些特征可以描述资讯以及保险产品的核心信息;
加入特定的分词库,即从搜狗输入法首页下载与保险相关的词库载入到R语言程序中,加入的词库包括保险专业词汇、财产保险、保险法实务术语、保险公司名称;经过上述两个过程的预处理,得到了需要的数据格式,进行下一步分析;
3)、特征权重计算:每一个特征在相对应的资讯或者保险产品中的权重是不一样的,为此我们要找到一个指标来代表特征权重的大小;在此处应用TF_IDF指标来计算每一个特征的权重;TF_IDF用来作为一个词在文档或整个查询词组的权重的重要程度,是信息检索与数据挖掘的常用加权技术;某个词对文档的重要性越高,它的TF_IDF值就会越大;TF词频指的是某一个给定的词语在该文档中出现的次数,这个数字通常会被正规化,以防止它偏向长的文档;逆向文档频率IDF是一个词语普遍重要性的度量;某一特定词语的IDF,由总文档数目除以包含该词语的文档的数目,再将得到的商取对数得到,TF乘上IDF即是TF_IDF值;TF_IDF定义是:如果一个词在一篇文档中出现的频率高,并且在其他文档中很少出现,则认为这个词具有很好的区分能力,能够比较好的代表这篇文档所要表达的中心思想;
4)计算资讯与保险产品的相似度:在衡量了特征权重大小之后,每一篇资讯以及保险产品都可以用特征所组成的维度空间中的向量去表示,每个向量元素的大小代表此特征的TF_IDF值。对于每一个资讯,算出其与每个保险产品的相似度大小,并对相似度进行降序排序,从而给出与每个资讯相似度最大的两个保险产品;
5)4)中计算出特征的权重之后,将每个特征作为一个维度,而特征的归一化权重作为其值,这样每个资讯以及保险产品就构成了特征空间图,其相似度就是两个空间图的接近程度。
2.根据权利要求1所述的基于R语言程序对资讯进行个性化推荐的方法,其特征是所有保险产品的特征的权重看作一个向量:
P={t1,t2,……,tN}
PV={P1,P2,……,PN}
同样也可以把任意一个资讯用特征权重向量来表示:
C={t1,t2,……,tN}
CV={C1,C2,……,CN}
其中N代表特征的个数,t1,t2,……,tN代表特征,P1,P2,……,PN代表保险产品中相对应的特征的权重,C1,C2,……,CN代表资讯中相对应的特征的权重;此时所有保险产品及资讯都将映射到一个N维空间中;在向量空间中,两个向量之间的夹角代表着相似度的大小,所以用夹角的余弦值作为相似度的打分,夹角越小,余弦值越大,打分越高,相似度就越大;为此可以计算出每一个资讯与所有保险产品的相似度,从而选出那些相似度高的作为资讯的推荐产品。
CN201610108896.4A 2016-02-25 2016-02-25 一种基于r语言程序的个性化推荐方法 Pending CN105808648A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610108896.4A CN105808648A (zh) 2016-02-25 2016-02-25 一种基于r语言程序的个性化推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610108896.4A CN105808648A (zh) 2016-02-25 2016-02-25 一种基于r语言程序的个性化推荐方法

Publications (1)

Publication Number Publication Date
CN105808648A true CN105808648A (zh) 2016-07-27

Family

ID=56465812

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610108896.4A Pending CN105808648A (zh) 2016-02-25 2016-02-25 一种基于r语言程序的个性化推荐方法

Country Status (1)

Country Link
CN (1) CN105808648A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107704512A (zh) * 2017-08-31 2018-02-16 平安科技(深圳)有限公司 基于社交数据的金融产品推荐方法、电子装置及介质
CN108804718A (zh) * 2018-06-11 2018-11-13 线粒体(北京)科技有限公司 数据推送方法、装置、电子设备及计算机可读存储介质
CN109558586A (zh) * 2018-11-02 2019-04-02 中国科学院自动化研究所 一种资讯的言据自证评分方法、设备和存储介质
CN109582953A (zh) * 2018-11-02 2019-04-05 中国科学院自动化研究所 一种资讯的言据支撑评分方法、设备和存储介质
CN110309387A (zh) * 2018-03-07 2019-10-08 苏州猫耳网络科技有限公司 一种大数据资讯聚合阅读推荐方法
WO2020164332A1 (zh) * 2019-02-12 2020-08-20 阿里巴巴集团控股有限公司 一种保险业务的处理方法、装置及设备
CN111651553A (zh) * 2020-04-17 2020-09-11 世纪保众(北京)网络科技有限公司 一种在保险指南文章内查看文中保险产品的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184262A (zh) * 2011-06-15 2011-09-14 悠易互通(北京)广告有限公司 基于web的文本分类挖掘系统及方法
US20140188609A1 (en) * 2011-04-25 2014-07-03 Alibaba Group Holding Limited Determination of recommendation data
CN104408115A (zh) * 2014-11-25 2015-03-11 三星电子(中国)研发中心 一种电视平台上基于语义链接的异构资源推荐方法和装置
CN105023178A (zh) * 2015-08-12 2015-11-04 电子科技大学 一种基于本体的电子商务推荐方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140188609A1 (en) * 2011-04-25 2014-07-03 Alibaba Group Holding Limited Determination of recommendation data
CN102184262A (zh) * 2011-06-15 2011-09-14 悠易互通(北京)广告有限公司 基于web的文本分类挖掘系统及方法
CN104408115A (zh) * 2014-11-25 2015-03-11 三星电子(中国)研发中心 一种电视平台上基于语义链接的异构资源推荐方法和装置
CN105023178A (zh) * 2015-08-12 2015-11-04 电子科技大学 一种基于本体的电子商务推荐方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张缔香: "基于R软件RODBC包的海量企业经营数据分析", 《西部经济管理论坛》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107704512A (zh) * 2017-08-31 2018-02-16 平安科技(深圳)有限公司 基于社交数据的金融产品推荐方法、电子装置及介质
WO2019041520A1 (zh) * 2017-08-31 2019-03-07 平安科技(深圳)有限公司 基于社交数据的金融产品推荐方法、电子装置及介质
CN107704512B (zh) * 2017-08-31 2021-08-24 平安科技(深圳)有限公司 基于社交数据的金融产品推荐方法、电子装置及介质
CN110309387A (zh) * 2018-03-07 2019-10-08 苏州猫耳网络科技有限公司 一种大数据资讯聚合阅读推荐方法
CN108804718A (zh) * 2018-06-11 2018-11-13 线粒体(北京)科技有限公司 数据推送方法、装置、电子设备及计算机可读存储介质
CN109558586A (zh) * 2018-11-02 2019-04-02 中国科学院自动化研究所 一种资讯的言据自证评分方法、设备和存储介质
CN109582953A (zh) * 2018-11-02 2019-04-05 中国科学院自动化研究所 一种资讯的言据支撑评分方法、设备和存储介质
CN109582953B (zh) * 2018-11-02 2023-04-07 中国科学院自动化研究所 一种资讯的言据支撑评分方法、设备和存储介质
CN109558586B (zh) * 2018-11-02 2023-04-18 中国科学院自动化研究所 一种资讯的言据自证评分方法、设备和存储介质
WO2020164332A1 (zh) * 2019-02-12 2020-08-20 阿里巴巴集团控股有限公司 一种保险业务的处理方法、装置及设备
CN111651553A (zh) * 2020-04-17 2020-09-11 世纪保众(北京)网络科技有限公司 一种在保险指南文章内查看文中保险产品的方法

Similar Documents

Publication Publication Date Title
CN105808648A (zh) 一种基于r语言程序的个性化推荐方法
US10289957B2 (en) Method and system for entity linking
Yao et al. Research on news keyword extraction technology based on TF-IDF and TextRank
CN110222160A (zh) 智能语义文档推荐方法、装置及计算机可读存储介质
CN111104794A (zh) 一种基于主题词的文本相似度匹配方法
US20180158078A1 (en) Computer device and method for predicting market demand of commodities
CN103064970B (zh) 优化译员的检索方法
CN104834651B (zh) 一种提供高频问题回答的方法和装置
US20110196670A1 (en) Indexing content at semantic level
CN108875065B (zh) 一种基于内容的印尼新闻网页推荐方法
CN103049569A (zh) 基于向量空间模型的文本相似性匹配方法
CN111460090A (zh) 基于向量的文档检索方法、装置、计算机设备及存储介质
Perez-Tellez et al. On the difficulty of clustering company tweets
CN103106245A (zh) 基于大规模术语语料库对译稿自动碎片化分类的方法
CN107506472A (zh) 一种学生浏览网页分类方法
CN111191031A (zh) 一种基于WordNet和IDF的非结构化文本的实体关系分类方法
CN111651675B (zh) 一种基于ucl的用户兴趣主题挖掘方法及装置
CN111325033B (zh) 实体识别方法、装置、电子设备及计算机可读存储介质
CN112307190A (zh) 医学文献排序方法、装置、电子设备及存储介质
Thakur et al. Analysis and Implementation of the Bray–Curtis Distance-Based Similarity Measure for Retrieving Information from the Medical Repository: Bray–Curtis Distance Similarity-Based Information Retrieval Model
Baena-García et al. TF-SIDF: Term frequency, sketched inverse document frequency
Perez-Tellez et al. On the difficulty of clustering microblog texts for online reputation management
Senthilkumar et al. A Survey On Feature Selection Method For Product Review
Giannakopoulos et al. Content visualization of scientific corpora using an extensible relational database implementation
CN112926297B (zh) 处理信息的方法、装置、设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160727