CN110196941B - 一种资讯推荐方法、装置、服务器与存储介质 - Google Patents
一种资讯推荐方法、装置、服务器与存储介质 Download PDFInfo
- Publication number
- CN110196941B CN110196941B CN201810819517.1A CN201810819517A CN110196941B CN 110196941 B CN110196941 B CN 110196941B CN 201810819517 A CN201810819517 A CN 201810819517A CN 110196941 B CN110196941 B CN 110196941B
- Authority
- CN
- China
- Prior art keywords
- information
- level
- variable
- characteristic
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000003860 storage Methods 0.000 title claims abstract description 26
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000009825 accumulation Methods 0.000 claims description 10
- 239000007795 chemical reaction product Substances 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000012937 correction Methods 0.000 claims description 4
- 238000003062 neural network model Methods 0.000 claims description 4
- 238000007619 statistical method Methods 0.000 claims description 4
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 2
- 230000000717 retained effect Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 37
- 238000010586 diagram Methods 0.000 description 15
- 238000011156 evaluation Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000005314 correlation function Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000009826 distribution Methods 0.000 description 5
- 210000001072 colon Anatomy 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 150000001875 compounds Chemical group 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 230000000875 corresponding effect Effects 0.000 description 2
- 230000009193 crawling Effects 0.000 description 2
- 238000005315 distribution function Methods 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000012887 quadratic function Methods 0.000 description 2
- 238000013441 quality evaluation Methods 0.000 description 2
- 238000003646 Spearman's rank correlation coefficient Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 231100000572 poisoning Toxicity 0.000 description 1
- 230000000607 poisoning effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013077 scoring method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出一种资讯推荐方法、装置、服务器与存储介质,所述方法包括如下步骤:获取指定主题的资讯信息;解析所述资讯信息的文本元,以获得所述文本元的多级特征信息变量;基于所述多级特征信息变量的多级关联特征加权模型,获得所述文本元的推荐度;根据所述推荐度推荐所述资讯信息。
Description
技术领域
本发明涉及互联网信息数据处理技术领域,特别涉及一种资讯推荐方法、装置、服务器与存储介质。
背景技术
随着互联网科技的发展,信息资讯呈爆炸式增长,用户每天都会收到大量的资讯。但是资讯信息中包含并非全部都是有用信息,还存在许多无用的冗余内容,甚至很多资讯中包含的信息都是具有误导性的错误资讯。因此,如何对海量的资讯内容进行提取、处理和评价成为了值得研究的课题。
发明内容
为了解决现有技术中存在的技术问题,本发明实施例提供了一种资讯评价方法、装置、服务器与存储介质。所述技术方案如下:
一方面,提供一种资讯推送方法,包括:获取指定主题的资讯信息;解析所述资讯信息的文本元,以获得所述文本元的多级特征信息变量;基于所述多级特征信息变量的多级关联特征加权模型,获得所述文本元的推荐度;根据所述推荐度推荐所述资讯信息。
另一方面,提供一种资讯推荐装置,其特征在于,所述装置包括:资讯获取模块,用于获取指定主题的资讯信息;解析模块,用于解析所述资讯信息的文本元,以获得所述文本元的多级特征信息变量;推荐度计算模块,基于所述多级特征信息变量的多级关联特征加权模型,计算所述文本元的推荐度;推荐模块,用于根据所述推荐度推荐所述资讯信息。
另一方面,提供一种服务器,所述服务器包含前述的装置。
另一方面,提供一种存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现前述的资讯推送方法。
本发明实施例提供的技术方案带来的有益效果包括:基于本实施例提供的方法,能够在获取到用户的指定类型资讯之后,对资讯内容的真实性、有效性、完整性等进行评分,为用户保留可靠性高、信息量大的资讯内容进行推荐,使用户可以免除过多无用信息的干扰。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的实施环境的示意图;
图2(a)是本发明实施例提供的资讯评价方法流程示意图;
图2(b)是本发明实施例提供的获取指定主题的资讯信息示意图;
图2(c)是本发明另一个实施例提供的获取指定主题的资讯信息示意图;
图3(a)是本发明实施例提供的资讯推送方法;
图3(b)是本发明实施例提供的获取指定主题的资讯信息方法流程图;
图3(c)是本发明实施例提供的建立层级以及因子之间联系的实例;
图4(a)是本发明实施例提供的资讯推荐装置系统框图;
图4(b)是本发明实施例提供的资讯获取模块原理框图;
图4(c)是本发明实施例提供的判断子模块原理框图;
图4(d)是本发明实施例提供的解析模块原理框图;
图4(e)是本发明实施例提供的推荐度计算模块原理框图;
图4(f)是本发明实施例提供的推荐模块原理框图;
图4(g)是本发明实施例提供的资讯获取模块原理框图;
图5是本发明实施例提供的资讯评价装置系统框图;
图6是本发明实施例提供的服务器结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
在本发明的一个实施例中,如图1所示,提出一种资讯推荐系统的使用场景图。资讯推荐系统包括处于前端的服务器集群或者云服务器,前端服务器集群或者云服务器用于收集各个来源的资讯。由于互联网上信息发布源是多种多样的,例如针对某一支股票的资讯,其可以是深交所发布的大盘资讯或者个股资讯,可以是基于某款软件的发布的股票内容,可以是门户网站发布的资讯,可以是社交平台发布的股评,可以是个人发布的网页文章等等。当然,还可以是其他类型的资讯,例如关于如何健身,例如如何养殖多肉植物,例如如何预防某种疾病,这些资讯大量充斥于互联网中,由于互联网发布资讯的自由性,许多资讯内容本身不完整、不严谨、不准确,甚至资讯本身就是错误的,这无疑会给使用者带来误导。对于用户而言,大量繁杂的信息会混淆用户分辨能力,而使用户造成信息中毒。在本实施例中,服务器集群或者云服务器将各种各样的资讯落地到本地,落地的方式包括推送、拉取等等。服务器集群会对落地的信息进行处理,处理完成的资讯信息,会转换为一个文本元信息。然后转换获得的文本元信息被输入计算服务器,计算服务器包含质量得分计算模块,质量得分计算模块会对转化为文本元的资讯进行评价,并且根据评价打出质量分数。质量分数反映资讯的正确度、完整度、可信度,然后计算服务器会根据质量分数对用户进行资讯推送。
当然,图1所示的系统只是示例性的,其中服务器同时具有多种功能的,例如,服务器集群或者云服务器可以在将落地到本地的资讯转换为文本元之后,直接对文本元进行质量评分。
综上所述,基于图1所示的资讯推荐系统,可以对海量资讯进行收集,对资讯进行转换,然后对转换后的资讯进行质量评价,根据质量评价结果对资讯进行推送。
在本发明的一个可能实施例中,如图2(a)所示,提出一种资讯评价方法,所述方法可以应用于图1所述的系统中。所述方法包括如下步骤:
步骤S201,获取指定主题的资讯信息。
获取指定主题的资讯信息,是在海量资讯中获得用户想获取主题的相关内容,并进行汇总的过程。
如图2(b)所示,获取指定主题的资讯信息的过程可以包括,在指定的数据库拉取指定主题相关的内容;在指定APP拉取指定主题相关的内容;在门户网站或者网页爬取指定主题相关的内容;在社交平台爬取指定主题相关的内容等等。
在一个可选的实施例中,如图2(c)所示,获取指定主题的资讯信息是一个服务器进行语义学习和迭代的过程。语义学习和迭代是指,在指定的数据库拉取指定主题相关的内容之后,服务器集群或者云服务器通过语义学习的方式获取与指定主题关联的内容,将该内容更新为需要获取的对象,然后以更新后的内容作为需要获取的资讯信息。
例如,用户对于代码为300XXX的股票感兴趣,该股票对应的公司为A公司。服务器第一轮获取的资讯是该股票相关的绝对信息,即A公司与300XXX股票的信息。服务器对第一轮获取的绝对资讯进行处理之后,会对信息进行语义挖掘,将资讯中与A公司和300XXX股票相关的信息挖掘出来,进行排序,作为第二轮获取的信息。语义挖掘可以利用分布式服务器的特点,使用神经网络训练的方式,获得相关度最高的资讯信息。
由于网络上资讯泛滥的一个重要因素是对于同一内容资讯的转发,因此,在获取资讯的过程中,首先考虑对于同一来源的资讯进行合并,根据资讯发表日期,转发的URL统计,获得最早的信息源,并排除在后转载源。通过保留源数据,可以最大限度地保护原创,
步骤S202,解析所述资讯信息的文本元,以获得所述文本元的多级特征信息变量。
在通过步骤S201获取到资讯信息之后,服务器集群将解析获得所述资讯信息的文本元资讯。文本元信息包括每篇文档的基本属性,如文本字数、段落数、所用词语数、所用标点符号数,以及包含图片数量、包含指定词语或符合的数量等。
例如,表1、表2中呈现了两级特征信息变量。
表1:多级关联特征加权模型中的第一级信息变量实例
变量名 | 特征含义 | 外部源 | |
一级特征 | x1 | 发布资讯的媒体得分 | 媒体评级数据库 |
x2 | 标题字数长度 | ||
x3 | 内容字数长度 | ||
x4 | 段落数目 | ||
x5 | 包含图片数目 | ||
x6 | 标题中出现特定关键字的次数 |
表2:多级关联特征加权模型中的第二级信息变量示例
步骤S203,基于与多级特征信息变量关联的多级关联特征加权模型,对所述文本元资讯进行质量评分。
在步骤S202获取得了文本元多级特征信息变量之后,将对来自各个源的信息变量进行质量评分,本实施例中,通过的多级关联特征加权模型来进行质量评分。多级关联特征加权模型是与文本元的配合的模型,多级关联特征加权模型的第一级和第二级中分别包含一定数量的变量,在模型中每一个变量都被以相关函数的方式体现出来,每个相关函数都具有一定的函数的权重。
第一级参数会以参数变量的形式参与到质量评分,以下式为例:
fscore=f1(x1)+f2(x2)+f3(x3)+f4(x4)+f5(x5)+f6(x6)+σ0y
其中函数fscore表示质量评分,f1(x1)、f2(x2)、f3(x3)、f4(x4)、f5(x5)、f6(x6)表示不同的第一级信息变量所对应的函数,函数可以线性函数、正态分布函数、比例函数、分段函数、幂函数等,也可以是复合函数。y表示第二级信息变量对质量评分fscore的影响,σ0表示影响因子,是一个加权系统,当然σ0也可以是与变量yi相关的函数因子。
最终的质量评分与包含各个第一级参数的函数相关,第二级参数以修正项的形式加入到函数运算之中。由于参与运算的每一个函数不同,在具体的计算过程中,每个参数对最终的质量评分影响是不同的。
在一个具体的实施过程中:
资讯的发布媒体与最终的质量评分是直接线性相关的:
f1(x1)=k1x1
也就是说从媒体库获得的媒体评级会成为最终质量评分的影响因素,线性因子k1用于调节资讯发布媒体对于质量评分影响的权重比例。就发布媒体评级而言,可以从媒体评级数据库提取评级信息,也可以通过历史数据对媒体进行评级打分。线性因子k1的取值还与媒体的活跃度有关。
对于文本元信息而言,标题字数长度、内容字数长度、段落数目、包含图片数目、标题中出现特定关键字的次数等都是对质量评分相关性比较高的因子,所以这些参数都可以被列为第一级参数,并且以不同的关联函数表现。例如,文本元信息中,标题字数长度对质量分地影响是对数形式的,因此其以对数的形式展现f2(x2)=k2log(x2)。例如,文本元信息中,内容长度并不是越长越好,而是在恰当的长度才可以保证用户在较短的时间获得最够多的信息量,所以其长度在适当的区间内是最合适的,对应地,其函数质量评分以具有偏移量的二次函数或者正态函数形式来表达:
资讯中的有效图片个数也是一个重要的因素,因此图片数量或者图片数量与文本元字数的比值也被认为是与质量评分密切相关的系数:
多级关联特征加权模型中的第二级对质量评分的影响比较小,其通过二级特征的权重系数σ0来作为加权因子。例如,二级因子包括,标题分词的长度y1、内容分词的长度y2、标题数字词个数y3,标题中是否含有“%”y4,文章标题词与内容的相关度y5,标题中是否含有行业内主要机构y6,标题中是否出现冒号&冒号前是否为人名y7,标题是否匹配带有特殊符号和关键字y8,标题中是否出现公告y9,内容部分数字词个数y10,内容部分关键词与指定领域的相关度y11,文章内出现相关实体的数目y12。可以计算得到该实例下的质量参数:
综上,基于本实施例提供的方法,能够在获取到用户的指定类型资讯之后,对资讯内容的真实性、有效性、完整性等进行评分,为用户保留可靠性高、信息量大的资讯内容进行推荐,使用户可以免除过多无用信息的干扰。
在本发明的一个可能实施例中,如图3(a)所示,提出一种资讯推送方法,所述方法可以应用于图1所述的系统中。
步骤S301,获取指定主题的资讯信息。
获取指定主题的资讯信息,是在海量资讯中获得用户想获取主题的相关内容,并进行汇总的过程。资讯的收集可以通过用户的输入获得,也可以根据用户的喜好进行推荐。用户输入是指用户通过人机接口使用文字输入或者语音输入的方式将想要获得的资讯输入到用户终端中。推荐是指服务器系统根据用户的历史喜好,定时地根据用户喜好生成内容。
如图3(b)所示,根据用户输入获得指定主题的资讯信息包括:
步骤S3011,获得用户的输入信息。
步骤S3012,根据所述输入信息在前端产品和/或搜索引擎中搜索与输入信息匹配的一级资讯。
步骤S3013,对所述一级资讯进行语义扩展,获得一级语义信息。
步骤S3014,在前端产品和/或搜索引擎中搜索与一级语义信息匹配的二级资讯。
步骤S3015,判断是否需要进行语义扩展,若不需要扩展,则合并一级资讯与二级资讯,并将合并后的资讯作为指定主题的资讯信息;
若需要扩展,则将上一次的二级资讯作为新的一级资讯,并重复步骤S3013和S3014。
判断是否需要进行语义扩展的依据包括但是不限于:
比较一级资讯和二级资讯,没有新增结果或者新增结果少于预定数值;这种情况是指语义扩展基本囊括了用户所需要的主题,再次扩展也不会增加新的资讯或者新增资讯数量很少;
或者,二级资讯数量大于预定数值;这种情况是指,资讯数量过多,造成信息溢出,会产生信息中毒,所以停止进行扩展;
或者,一级资讯与二级资讯语义相关度差别大于预定数值,这种情况是指扩展资讯与用户输入产生了较大偏差,所以停止进行扩展。
基于上述步骤,可以保证用户尽量大限度地获得所需要的资讯,能够保证获得信息的全面性。
步骤S302,解析所述资讯信息的文本元,以获得所述文本元的多级特征信息变量。
在通过步骤S201获取到资讯信息之后,服务器集群将解析获得所述资讯信息的文本元资讯。文本元信息包括每篇文档的基本属性,如文本字数、段落数、所用词语数、所用标点符号数,以及包含图片数量、包含指定词语或符合的数量等。
例如,表3、表4和表5中呈现了三级特征信息变量。
表3:多级关联特征加权模型中的第一级信息变量实例
变量名 | 特征含义 | 外部源 | |
一级特征 | x1 | 发布资讯的媒体得分 | 媒体评级数据库 |
x2 | 发布资讯的作者得分 | 作者评级数据库 | |
x3 | 内容评价得分 | 来源于资讯评价 | |
x4 | 时间差值 | 来源于资讯内容 | |
x5 | 同向资讯信息 | 来源于资讯内容 | |
x6 | 逆向资讯信息 | 来源于资讯内容 |
表4:多级关联特征加权模型中的第二级信息变量示例
表5:多级关联特征加权模型中的第三级信息变量示例
变量名 | 特征含义 | 外部源 | |
三级特征 | z1 | 标题字数长度 | 标题字数长度 |
z2 | 内容字数长度 | 内容字数长度 | |
… | … | … | |
zn | 段落数目 | 段落数目 | |
… | … | … | |
… | … | … |
实际上这三级信息变量是相互关联的,而且通常情况下,某些数据与结果的线性对应会比较好,例如表3中的时间差函数是指数据获取时间的实时性,还是前面提到的股票数据而言,时间差函数越大表明该数据与当前系统的时间越久,那么该资讯的实时性也就越差,这样时间差函数与最终的质量评分之间必然存在单调递减函数的关系。那么在没有重复数据的情况下,如果一个变量是另外一个变量的严格单调函数,则Spearman秩相关系数就是+1或-1,称变量完全Spearman秩相关。如果没有相同的秩次,使用如下公式计算相关性系数:
如果存在相同秩次,使用如下公式计算相关系数:
根据对线性关系的计算,可以获得各级变量之间的相关关系,例如x1与y1,y2之间的关系,以及x1与其因子x11,x12之间的关系,如图3(c)所示,一级变量信息以及其子变量建立联系,二级变量信息以及其自变量建立联系,并且一级与二级自变量之间建立联系。如此,可以根据上述联系建立更加符合信息掌纹脉络的模型,进而获得更加准确的结果。
步骤S302,可以分为如下子步骤:
步骤S3021,获得所述文本元中的元素作为特征变量。
文本元中的元素是指能够从资讯文本中能够提取的元素,例如内容长度、时间、发布媒体名和发布作者的姓名等等。
步骤S3022,引入外部源或者内部特征参数作为特征变量的参数。
在提取文本元中的特征变量之后,特征变量本身是孤立的,没有属性的,例如从文本元中提取的发布媒体信息,本身是一个文本信息,然而可以通过外部源获得该发布者的评级信息等相关信息,例如对于文本元中提取的A资讯发布者,是国家级的官方网站,那么其会或者一个极高的可信度评分,而这个评分会与文本元中提取的发布者产生关联。当然,由于互联网信息的来源各不相同,更多的信息是由一些其他网站提供的,例如对于文本元中提取的B资讯发布者,是一个BBS论坛,那么B资讯的发布者参数会获得一个低可信度评分,同时如果B资讯的作者的论坛等级如果很低,例如属于“新手上路”那么B资讯的作者也会被给出低可信度评分。然而,在该体系下,各个特征变量参数是互不干扰的,即B资讯的两个评分项虽然均为低评分项,但是二者是相互独立的。再例如,财经类资讯获得的外部库可以是媒体评分库、机构评分库、财经词库等等。
步骤S3023,建立所述特征变量之间的层级和关联,以形成多级特征信息变量。
在步骤S3022中,建立了文本元提取的变量与外部源或者内部因子之间的关联。但是各个变量之间是相互独立的,而实际上,变量之间是相互的关联的。例如,文本元中提取的附图数量与文字数量就具有相关关系,附图数量与文字数量在一个比例范围内时,说明资讯的图文性更好,用户更容易从资讯中获得内容。所以,步骤S3023的主要目的是建立各层级之间的特征关系。如图3(c)所示,其是一个建立层级以及因子之间联系的实例,在该构架下当一个因子发生改变时,同时会影响每个层级中的多个特征信息,从而使结果更加接近真实情况下资讯的内在关联性。
而对于多级特征信息变量的层级划分,是通过进行数据采集汇聚、统计分析、以及特征关联之后得出的。例如除前述的关联之外,还根据用户经常点击的资讯,或热度排名靠前的资讯统计分析,观察到含有的特定关键字的标题资讯,以及各类特征的影响程度,而提取为特定层级的特征,例如,第一层级特征或者第二层级特征。
步骤S303,基于与多级特征信息变量关联的多级关联特征加权模型,对所述文本元资讯进行质量评分。
在步骤S302获取得了文本元多级特征信息变量之后,将对来自各个源的信息变量进行质量评分,本实施例中,通过的多级关联特征加权模型来进行质量评分。多级关联特征加权模型是与文本元的配合的模型,多级关联特征加权模型的第一级和第二级中分别包含一定数量的变量,在模型中每一个变量都被以相关函数的方式体现出来,每个相关函数都具有一定的函数的权重。
第一级参数会以参数变量的形式参与到质量评分,以下式为例:
fscore=f1(x1)+f2(x2)+f3(x3)+f4(x4)+f5(x5)+f6(x6)+σ0y
其中函数fscore表示质量评分,f1(x1)、f2(x2)、f3(x3)、f4(x4)、f5(x5)、f6(x6)表示不同的第一级信息变量所对应的函数,函数可以线性函数、正态分布函数、比例函数、分段函数、幂函数等,也可以是复合函数。y表示第二级信息变量对质量评分fscore的影响,σ0表示影响因子,是一个加权系统,当然σ0也可以是与变量yi相关的函数因子。
最终的质量评分与包含各个第一级参数的函数相关,第二级参数以修正项的形式加入到函数运算之中。由于参与运算的每一个函数不同,在具体的计算过程中,每个参数对最终的质量评分影响是不同的。
在一个具体的实施过程中:
资讯的发布媒体与最终的质量评分是直接线性相关的:
f1(x1)=k1x1
也就是说从媒体库获得的媒体评级会成为最终质量评分的影响因素,线性因子k1用于调节资讯发布媒体对于质量评分影响的权重比例。就发布媒体评级而言,可以从媒体评级数据库提取评级信息,也可以通过历史数据对媒体进行评级打分。线性因子k1的取值还与媒体的活跃度有关。
对于文本元信息而言,标题字数长度、内容字数长度、段落数目、包含图片数目、标题中出现特定关键字的次数等都是对质量评分相关性比较高的因子,所以这些参数都可以被列为第一级参数,并且以不同的关联函数表现。例如,文本元信息中,标题字数长度对质量分地影响是对数形式的,因此其以对数的形式展现f2(x2)=k2log(x2)。例如,文本元信息中,内容长度并不是越长越好,而是在恰当的长度才可以保证用户在较短的时间获得最够多的信息量,所以其长度在适当的区间内是最合适的,对应地,其函数质量评分以具有偏移量的二次函数或者正态函数形式来表达:
资讯中的有效图片个数也是一个重要的因素,因此图片数量或者图片数量与文本元字数的比值也被认为是与质量评分密切相关的系数:
多级关联特征加权模型中的第二级对质量评分的影响比较小,其通过二级特征的权重系数σ0来作为加权因子。例如,二级因子包括,标题分词的长度y1、内容分词的长度y2、标题数字词个数y3,标题中是否含有“%”y4,文章标题词与内容的相关度y5,标题中是否含有行业内主要机构y6,标题中是否出现冒号&冒号前是否为人名y7,标题是否匹配带有特殊符号和关键字y8,标题中是否出现公告y9,内容部分数字词个数y10,内容部分关键词与指定领域的相关度y11,文章内出现相关实体的数目y12。可以计算得到该实例下的质量参数:
除了通过函数进行计算之外,还可以通过基于图3(c)的实例建立一个神经网络模型,将与文本元相关的因子作为输入项目,利用神经网络训练的方式获得输出评分。
步骤S304,根据所述推荐度推荐所述资讯信息。
在获得推荐度之后,对各个资讯的推荐度进行排序,然后根据排序结果将推荐结果推送给用户。例如,对多个相关资讯进行排序之后,会将排序的前N个推送给用户。基于推荐度的信息推荐是寻找与用户主题最相关的内容,可以在很大程度上排除竞价排名等人为的商业方法对资讯的干扰。
综上,基于本实施例的方法,能够实现对指定类别资讯的有效推荐,避免用户由于获取信息量过大而造成无法对信息进行有效甄别。同时能够在一定程度上排除竞价排名等商业方法对有效信息的干扰。
在本发明的一个实施例中,如图4(a)所示,提供一种资讯推荐装置,所述装置包括:
资讯获取模块,用于获取指定主题的资讯信息;
解析模块,用于解析所述资讯信息的文本元,以获得所述文本元的多级特征信息变量;
推荐度计算模块,基于所述多级特征信息变量的多级关联特征加权模型,计算所述文本元的推荐度;
推荐模块,用于根据所述推荐度推荐所述资讯信息。
在本发明的一个实施例中,如图4(b)所示,所述资讯获取模块包括:
接收子模块,用于获得用户的输入信息;
一级搜索子模块,用于根据所述输入信息在前端产品和/或搜索引擎中搜索与输入信息匹配的一级资讯;
一级语义扩展子模块,用于对所述一级资讯进行语义扩展,获得一级语义信息;
二级搜索子模块,在前端产品和/或搜索引擎中搜索与一级语义信息匹配的二级资讯;
判断子模块,用于判断是否需要进行语义扩展,并在不需要扩展时,合并一级资讯与二级资讯,并将合并后的资讯作为指定主题的资讯信息。
在本发明的一个实施例中,如图4(c)所示,所述判断子模块包括:
第一条件子模块,用于比较一级资讯和二级资讯的数量,当没有新增结果或者新增结果少于预定数值时,判断不需要进行语义扩展;
第二条件子模块,用于比较二级资讯数量与第一预定数值的大小,当二级资讯数量大于第一预定数值时,判断不需要进行语义扩展;
第三条件子模块,用于比较一级资讯与二级资讯语义相关度差别与第二预定数值的大小,如果语义相关度差别大于第二预定数值时,判断不需要进行语义扩展。
在本发明的一个实施例中,如图4(d)所示,所述解析模块包括:
变量获取子模块,用于获得所述文本元中的元素作为特征变量;
参数引入子模块,用于引入外部源或者内部特征参数作为特征变量的参数;
关联建立子模块,用于建立所述特征变量之间的层级和关联,以形成多级特征信息变量。
在本发明的一个实施例中,如图4(e)所示,推荐度计算模块包括:
加权累加子模块,用于通过多级特征信息以加权累加的方式计算文本元的推荐度;
关联累加子模块,用于通过多级特征信息以关联累加的方式计算文本元的推荐度;
神经网络训练子模块,将多级特征信息作为神经网络模型的输入量,获得推荐度的训练结果。
在本发明的一个实施例中,如图4(f)所示,所述推荐模块包括:排序模块,用于对所述资讯推荐度进行排序,并根据排序结果推送资讯。
在本发明的一个实施例中,如图4(g)所示,资讯获取模块包括:溯源筛选模块,用于保留资讯的源数据,而排除所述资讯的转载数据。
在本发明的一个实施例中,如图5所示,提供一种资讯评价装置示意图,所述装置包括:资讯获取模块,用于获取指定主题的资讯信息;解析模块,用于解析所述资讯信息的文本元,以获得所述文本元的多级特征信息变量;推荐度计算模块,基于所述多级特征信息变量的多级关联特征加权模型,计算所述文本元的推荐度。
请参考图6,其示出了本发明一个实施例提供的服务器的结构示意图。该服务器用于实施上述实施例中提供的后台服务器侧的资讯推荐方法或者资讯评分方法。具体来讲:
所述服务器1200包括中央处理单元(CPU)1201、包括随机存取存储器(RAM)1202和只读存储器(ROM)1203的系统存储器1204,以及连接系统存储器1204和中央处理单元1201的系统总线1205。所述服务器1200还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1206,和用于存储操作系统1213、应用程序1214和其他程序模块1215的大容量存储设备1207。
所述基本输入/输出系统1206包括有用于显示信息的显示器1208和用于用户输入信息的诸如鼠标、键盘之类的输入设备1209。其中所述显示器1208和输入设备1209都通过连接到系统总线1205的输入输出控制器1210连接到中央处理单元1201。所述基本输入/输出系统1206还可以包括输入输出控制器1210以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1210还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备1207通过连接到系统总线1205的大容量存储控制器(未示出)连接到中央处理单元1201。所述大容量存储设备1207及其相关联的计算机可读介质为服务器1200提供非易失性存储。也就是说,所述大容量存储设备1207可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术,CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1204和大容量存储设备1207可以统称为存储器。
根据本发明的各种实施例,所述服务器1200还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1200可以通过连接在所述系统总线1205上的网络接口单元1211连接到网络1212,或者说,也可以使用网络接口单元1211来连接到其他类型的网络或远程计算机系统(未示出)。
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行。上述一个或者一个以上程序包含用于执行上述后台服务器侧的方法的指令。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器,上述指令可由终端的处理器执行以完成上述方法实施例中发送方客户端或接收方客户端侧的各个步骤,或者上述指令由服务器的处理器执行以完成上述方法实施例中后台服务器侧的各个步骤。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (14)
1.一种资讯推荐方法,其特征在于,所述方法包括如下步骤:
获取指定主题的资讯信息;
解析所述资讯信息的文本元,以获得所述文本元的多级特征信息变量;所述解析所述资讯信息的文本元,以获得所述文本元的多级特征信息变量步骤包括:
获得所述文本元中的元素作为特征变量;
引入外部源或者内部特征参数作为特征变量的参数;
建立所述特征变量之间的层级和关联,以形成多级特征信息变量;当一个特征变量发生改变时,同时会影响每个层级中的多个特征变量;对于多级特征信息变量的层级划分,是通过进行数据采集汇聚、统计分析及特征关联之后得出的;第一级特征信息变量为对质量评分相关性高的因子,第二级特征信息变量为对质量评分影响小的因子;所述第一级特征信息变量以及其子变量建立联系,所述第二级特征信息变量以及其子变量建立联系,所述第一级特征信息变量与所述第二级特征信息变量之间建立联系;
基于所述多级特征信息变量的多级关联特征加权模型,获得所述文本元的推荐度;通过所述多级关联特征加权模型来进行质量评分,所述第一级特征信息变量以参数变量的形式参与到质量评分,所述第二级特征信息变量以修正项的形式加入到函数运算中;
根据所述推荐度推荐所述资讯信息。
2.根据权利要求1所述的方法,其特征在于,所述获取指定主题的资讯信息步骤包括:
获得用户的输入信息;
根据所述输入信息在前端产品和/或搜索引擎中搜索与输入信息匹配的一级资讯;
对所述一级资讯进行语义扩展,获得一级语义信息;
在前端产品和/或搜索引擎中搜索与一级语义信息匹配的二级资讯;
判断是否需要进行语义扩展,当不需要扩展时,合并一级资讯与二级资讯,并将合并后的资讯作为指定主题的资讯信息。
3.根据权利要求2所述的方法,其特征在于,判断不需要进行语义扩展的条件包括:
比较一级资讯和二级资讯的数量,当没有新增结果或者新增结果少于预定数值时,不需要进行语义扩展;
或者,比较二级资讯数量与第一预定数值的大小,当二级资讯数量大于第一预定数值时,不需要进行语义扩展;
或者,比较一级资讯与二级资讯语义相关度差别与第二预定数值的大小,如果语义相关度差别大于第二预定数值时,不需要进行语义扩展。
4.根据权利要求1所述的方法,其特征在于,基于所述多级特征信息变量的多级关联特征加权模型,获得所述文本元的推荐度步骤中,多级特征信息以加权累加的方式计算文本元的推荐度;
或者,多级特征信息以关联累加的方式计算文本元的推荐度;
或者,将多级特征信息作为神经网络模型的输入量,获得推荐度的训练结果。
5.根据权利要求1所述的方法,其特征在于,根据所述推荐度推荐所述资讯信息步骤包括:
对所述资讯推荐度进行排序,并根据排序结果推送资讯。
6.根据权利要求1所述的方法,其特征在于,获取指定主题的资讯信息步骤包括:
保留资讯的源数据,而排除所述资讯的转载数据。
7.一种资讯推荐装置,其特征在于,所述装置包括:
资讯获取模块,用于获取指定主题的资讯信息;
解析模块,用于解析所述资讯信息的文本元,以获得所述文本元的多级特征信息变量;所述解析所述资讯信息的文本元,以获得所述文本元的多级特征信息变量步骤包括:
获得所述文本元中的元素作为特征变量;
引入外部源或者内部特征参数作为特征变量的参数;
建立所述特征变量之间的层级和关联,以形成多级特征信息变量;当一个特征变量发生改变时,同时会影响每个层级中的多个特征变量;对于多级特征信息变量的层级划分,是通过进行数据采集汇聚、统计分析及特征关联之后得出的;第一级特征信息变量为对质量评分相关性高的因子,第二级特征信息变量为对质量评分影响小的因子;所述第一级特征信息变量以及其子变量建立联系,所述第二级特征信息变量以及其子变量建立联系,所述第一级特征信息变量与所述第二级特征信息变量之间建立联系;
推荐度计算模块,基于所述多级特征信息变量的多级关联特征加权模型,计算所述文本元的推荐度;通过所述多级关联特征加权模型来进行质量评分,所述第一级特征信息变量以参数变量的形式参与到质量评分,所述第二级特征信息变量以修正项的形式加入到函数运算中;
推荐模块,用于根据所述推荐度推荐所述资讯信息。
8.根据权利要求7所述的装置,其特征在于,所述资讯获取模块包括:
接收子模块,用于获得用户的输入信息;
一级搜索子模块,用于根据所述输入信息在前端产品和/或搜索引擎中搜索与输入信息匹配的一级资讯;
一级语义扩展子模块,用于对所述一级资讯进行语义扩展,获得一级语义信息;
二级搜索子模块,在前端产品和/或搜索引擎中搜索与一级语义信息匹配的二级资讯;
判断子模块,用于判断是否需要进行语义扩展,并在不需要扩展时,合并一级资讯与二级资讯,并将合并后的资讯作为指定主题的资讯信息。
9.根据权利要求8所述的装置,其特征在于,所述判断子模块包括:
第一条件子模块,用于比较一级资讯和二级资讯的数量,当没有新增结果或者新增结果少于预定数值时,判断不需要进行语义扩展;
第二条件子模块,用于比较二级资讯数量与第一预定数值的大小,当二级资讯数量大于第一预定数值时,判断不需要进行语义扩展;
第三条件子模块,用于比较一级资讯与二级资讯语义相关度差别与第二预定数值的大小,如果语义相关度差别大于第二预定数值时,判断不需要进行语义扩展。
10.根据权利要求7所述的装置,所述推荐度计算模块包括:
加权累加子模块,用于通过多级特征信息以加权累加的方式计算文本元的推荐度;
关联累加子模块,用于通过多级特征信息以关联累加的方式计算文本元的推荐度;
神经网络训练子模块,将多级特征信息作为神经网络模型的输入量,获得推荐度的训练结果。
11.根据权利要求7所述的装置,其特征在于,所述推荐模块包括排序模块,用于对所述资讯推荐度进行排序,并根据排序结果推送资讯。
12.根据权利要求7所述的装置,其特征在于,所述资讯获取模块包括:溯源筛选模块,用于保留资讯的源数据,而排除所述资讯的转载数据。
13.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至6任一所述的方法。
14.一种服务器,其特征在于,所述服务器包含权利要求7-12任一项所述的装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810819517.1A CN110196941B (zh) | 2018-07-24 | 2018-07-24 | 一种资讯推荐方法、装置、服务器与存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810819517.1A CN110196941B (zh) | 2018-07-24 | 2018-07-24 | 一种资讯推荐方法、装置、服务器与存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110196941A CN110196941A (zh) | 2019-09-03 |
CN110196941B true CN110196941B (zh) | 2024-05-14 |
Family
ID=67751369
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810819517.1A Active CN110196941B (zh) | 2018-07-24 | 2018-07-24 | 一种资讯推荐方法、装置、服务器与存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110196941B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929017B (zh) * | 2019-11-25 | 2023-07-14 | 腾讯科技(深圳)有限公司 | 文本的推荐方法及装置 |
CN111831922B (zh) * | 2020-07-14 | 2021-02-05 | 深圳市众创达企业咨询策划有限公司 | 一种基于互联网信息的推荐系统与方法 |
CN116738968B (zh) * | 2023-08-14 | 2023-11-24 | 宁波深擎信息科技有限公司 | 内容建联方法、装置、计算机设备和存储介质 |
CN117851671A (zh) * | 2024-01-04 | 2024-04-09 | 国家电投集团科学技术研究院有限公司 | 一种科技情报资讯推送方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102722499A (zh) * | 2011-03-31 | 2012-10-10 | 北京百度网讯科技有限公司 | 搜索引擎及其实现方法 |
CN103699521A (zh) * | 2012-09-27 | 2014-04-02 | 腾讯科技(深圳)有限公司 | 文本分析方法及装置 |
CN103838801A (zh) * | 2012-11-27 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种网页主题信息抽取方法 |
CN104331451A (zh) * | 2014-10-30 | 2015-02-04 | 南京大学 | 一种基于主题的网络用户评论的推荐度评分方法 |
US9519710B1 (en) * | 2014-03-14 | 2016-12-13 | Imdb.Com, Inc. | Dynamic classification of attribute relevance and classification |
CN108062573A (zh) * | 2017-12-29 | 2018-05-22 | 广东欧珀移动通信有限公司 | 模型训练方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10282462B2 (en) * | 2016-10-31 | 2019-05-07 | Walmart Apollo, Llc | Systems, method, and non-transitory computer-readable storage media for multi-modal product classification |
-
2018
- 2018-07-24 CN CN201810819517.1A patent/CN110196941B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102722499A (zh) * | 2011-03-31 | 2012-10-10 | 北京百度网讯科技有限公司 | 搜索引擎及其实现方法 |
CN103699521A (zh) * | 2012-09-27 | 2014-04-02 | 腾讯科技(深圳)有限公司 | 文本分析方法及装置 |
CN103838801A (zh) * | 2012-11-27 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种网页主题信息抽取方法 |
US9519710B1 (en) * | 2014-03-14 | 2016-12-13 | Imdb.Com, Inc. | Dynamic classification of attribute relevance and classification |
CN104331451A (zh) * | 2014-10-30 | 2015-02-04 | 南京大学 | 一种基于主题的网络用户评论的推荐度评分方法 |
CN108062573A (zh) * | 2017-12-29 | 2018-05-22 | 广东欧珀移动通信有限公司 | 模型训练方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110196941A (zh) | 2019-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11036791B2 (en) | Computerized system and method for determining non-redundant tags from a user's network activity | |
US10650059B2 (en) | Enhanced online user-interaction tracking | |
CN110196941B (zh) | 一种资讯推荐方法、装置、服务器与存储介质 | |
US7949643B2 (en) | Method and apparatus for rating user generated content in search results | |
Hasan Dalip et al. | Automatic quality assessment of content created collaboratively by web communities: a case study of wikipedia | |
US8650177B2 (en) | Skill extraction system | |
US7860878B2 (en) | Prioritizing media assets for publication | |
CN108460082B (zh) | 一种推荐方法及装置,电子设备 | |
CN110888990B (zh) | 文本推荐方法、装置、设备及介质 | |
US8417692B2 (en) | Generalized edit distance for queries | |
US20080104034A1 (en) | Method For Scoring Changes to a Webpage | |
KR20160057475A (ko) | 소셜 데이터를 능동적으로 획득하기 위한 시스템 및 방법 | |
Simmons et al. | A computer aided content analysis of online reviews | |
US20140122405A1 (en) | Information processing apparatus, information processing method, and program | |
US9760831B2 (en) | Content personalization system | |
CN108885623A (zh) | 基于知识图谱的语意分析系统及方法 | |
JP2008176721A (ja) | コンピュータネットワーク上の電子文書の重要度を、当該電子文書に関係付けられた他の電子文書の当該電子文書に対する批評に基づいて、計算するためのコンピュータ装置、コンピュータプログラム及び方法 | |
CN110895586A (zh) | 生成新闻页面的方法、装置、计算机设备及存储介质 | |
JP2011108053A (ja) | ニュース記事評価システム | |
Doshi et al. | Predicting movie prices through dynamic social network analysis | |
Ruhwinaningsih et al. | A sentiment knowledge discovery model in Twitter’s TV content using stochastic gradient descent algorithm | |
US9305103B2 (en) | Method or system for semantic categorization | |
US10061817B1 (en) | Social ranking for apps | |
JP2008102790A (ja) | 検索システム | |
Othman et al. | Customer opinion summarization based on twitter conversations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |