CN110334202A - 基于新闻应用软件的用户兴趣标签构建方法及相关设备 - Google Patents
基于新闻应用软件的用户兴趣标签构建方法及相关设备 Download PDFInfo
- Publication number
- CN110334202A CN110334202A CN201910245276.9A CN201910245276A CN110334202A CN 110334202 A CN110334202 A CN 110334202A CN 201910245276 A CN201910245276 A CN 201910245276A CN 110334202 A CN110334202 A CN 110334202A
- Authority
- CN
- China
- Prior art keywords
- user
- interest
- keyword
- application software
- scores
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 23
- 238000005192 partition Methods 0.000 claims abstract description 32
- 238000000034 method Methods 0.000 claims abstract description 30
- 238000004364 calculation method Methods 0.000 claims description 19
- 238000000605 extraction Methods 0.000 claims description 12
- 230000033228 biological regulation Effects 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 5
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000007405 data analysis Methods 0.000 abstract description 2
- 238000004445 quantitative analysis Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 7
- 238000013461 design Methods 0.000 description 6
- 238000013515 script Methods 0.000 description 6
- 125000002015 acyclic group Chemical group 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 241000238413 Octopus Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
- G06F16/337—Profile generation, learning or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Abstract
本发明涉及大数据分析领域的用户兴趣画像技术,具体涉及基于新闻应用软件的用户兴趣标签构建方法及相关设备,所述方法包括:获取用户在多类新闻应用软件上浏览、评论的新闻信息;调用分词系统,构建关键词词库,计算关键词权重;依据用户浏览、评论的新闻信息,计算兴趣评分;比较兴趣评分与预设的评分阈值,筛选出高于评分阈值的兴趣评分,将对应的兴趣标签更新至用户标签库。上述方法将用户的浏览习惯进行量化分析,便于分析用户行为,提升为用户推荐内容的准确度。
Description
技术领域
本发明涉及大数据分析领域,特别涉及基于新闻应用软件的用户兴趣标签构建方法及相关设备。
背景技术
随着互联网技术的不断发展,人们对新闻等信息的关注度也越来越大,但是分布在互联网中信息数量庞大,质量参差不齐,单纯地去阅读已经无法准确、及时地识别有用的阅读信息,如何为用户推荐最符合用户习惯的兴趣内容已成为目前互联网通讯行业研究的重点。
目前市场上传统的新闻应用软件的兴趣标签在初次使用时定义后无法实现动态更新,不能根据用户的使用习惯和兴趣变化而改变,且已有标签依据人为评价,主观性偏高,在不同的使用习惯面前无法取得普遍推广的效果。
发明内容
基于此,有必要针对用户兴趣标签无法实时更新,标签内容依据人为评价的主观性偏高等问题,提供基于新闻应用软件的用户兴趣标签构建方法及相关设备。
一种基于新闻应用软件的用户兴趣标签构建方法,包括:
获取用户在多类新闻应用软件上浏览、评论的新闻信息,生成多个独立句子;
调用预设的分词系统,以通过所述分词系统构建关键词词库,计算关键词权重;
从多个所述独立句子中筛选出用户兴趣标签,依据所述关键词权重,计算所述用户兴趣标签的兴趣评分;
将所述兴趣评分与预设的评分阈值进行比较,筛选出高于所述评分阈值的兴趣评分,将所述兴趣评分对应的用户兴趣标签更新至用户标签库。
在一种可能的设计中,所述获取用户在多类新闻应用软件上浏览、评论的新闻信息,生成多个独立句子,包括:
通过爬虫系统爬取用户在多类新闻应用软件上浏览的新闻信息,所述新闻信息包括文章、图集、视频以及对应的类别、浏览记录、标题,通过所述爬虫系统爬取所述用户对所述新闻信息的评论内容;
将所述新闻信息和所述评论内容汇总到同一文本文件中,读取所述文本文件中的标点符号,以标点符号将所述文本文件切分成多个独立句子。
在一种可能的设计中,所述调用预设的分词系统,以通过所述分析系统构建关键词词库,包括:
获取原始词库,所述原始词库来源于输入法词库;
调用预设的分词系统,利用分词算法提取所述原始词库的关键词,将提取的所述关键词保存在预设的文本文件中,构建所述关键词词库。
在一种可能的设计中,所述调用分词系统,利用分词算法提取所述原始词库的关键词,包括:
通过所述分词系统对所述原始词库进行词图扫描,生成所述原始词库中所有汉字可能成词的有向无环图;
所述分词系统依据所述有向无环图,获取多个词语,将多个所述词语定义为关键词。
在一种可能的设计中,所述计算关键词权重,包括:
利用关键词权重计算方法计算关键词权重,所述关键词权重计算公式如下:
TF-IDF=TF×IDF
修正所述关键词权重,修正计算公式如下:
TF-IDF′=(TF-IDF)×λ
其中,TF-IDF为所述关键词权重,TF-IDF′为修正后关键词权重,z为关键词,TF为词频,即关键词z在关键词词库文档中出现的频率,λ为调整系数,是一预设的常数。
在一种可能的设计中,所述从多个所述独立句子中筛选出用户兴趣标签,依据所述关键词权重,计算所述用户兴趣标签的兴趣评分,包括:
利用关键词提取算法筛选出多个所述独立句子中的关键词,将所述关键词定义为用户兴趣标签;
依据所述关键词对应的所述关键词权重,计算所述用户兴趣标签的兴趣评分,所述兴趣评分的计算公式如下:
Sum=(TF-IDF′)×ω×n
其中,Sum为所述兴趣评分,ω为权重系数,是一预设的常数,n为关键词出现的次数。
在一种可能的设计中,所述将所述兴趣评分与预设的评分阈值进行比较,筛选出高于所述评分阈值的兴趣评分,将所述兴趣评分对应的用户兴趣标签更新至用户标签,包括:
将所述兴趣评分归一化到[0,1]的范围内,将所述兴趣评分与预设的评分阈值进行比较,筛选出兴趣评分高于所述评分阈值的用户兴趣标签;
将筛选的所述用户兴趣标签更新至用户标签库。
基于相同的技术构思,本发明还提供了基于新闻应用软件的用户兴趣标签构建装置,所述基于新闻应用软件的用户兴趣标签构建装置包括:
信息获取模块,设置为获取用户在多类新闻应用软件上浏览、评论的新闻信息,生成多个独立句子;
权重计算模块,设置为调用预设的分词系统,以通过所述分词系统构建关键词词库,计算关键词权重;
评分计算模块,设置为从多个所述独立句子中筛选出用户兴趣标签,依据所述关键词权重,计算所述用户兴趣标签的兴趣评分;
标签更新模块,设置为将所述兴趣评分与预设的评分阈值进行比较,筛选出高于所述评分阈值的兴趣评分,将所述兴趣评分对应的用户兴趣标签更新至用户标签库。
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述所述基于新闻应用软件的用户兴趣标签构建方法的步骤。
一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述所述基于新闻应用软件的用户兴趣标签构建方法的步骤。
上述基于新闻应用软件的用户兴趣标签构建方法,通过获取用户在多类新闻应用软件上浏览、评论的新闻信息,生成多个独立句子;调用预设的分词系统,以通过所述分词系统构建关键词词库,计算关键词权重;从多个所述独立句子中筛选出用户兴趣标签,依据所述关键词权重,计算所述用户兴趣标签的兴趣评分;将兴趣评分与预设的评分阈值进行比较,筛选出高于评分阈值的兴趣评分,将兴趣评分对应的用户兴趣标签更新至用户标签库。本发明实施例对新闻信息中出现的关键词依据输入法词库对关键词的权重进行了计算,通过将兴趣标签进行量化处理,达到可以进一步准确判断用户兴趣标签的目的,为向用户推荐新闻内容,提供了更加可靠的参考依据。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。
图1为本发明一个实施例中基于新闻应用软件的用户兴趣标签构建方法的流程图;
图2为本发明一个实施例中步骤S1信息获取的流程图;
图3为本发明一个实施例中步骤S2权重计算的流程图;
图4为本发明一个实施例中有效无环图的示意图;
图5为本发明基于新闻应用软件的用户兴趣标签构建装置的示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。
图1为本发明实施例一种分布式事务一致性解决方法的流程图,如图1所示,一种基于新闻应用软件的用户兴趣标签构建方法,包括以下步骤:
步骤S1,信息获取:获取用户在多类新闻应用软件上浏览、评论的新闻信息,生成多个独立句子。
图2为本发明一个实施例中步骤S1信息获取的流程图,如图2所示,在一个实施例中,步骤S1可包括如下具体步骤:
步骤S101,新闻信息爬取:通过爬虫系统爬取用户在多类新闻应用软件上浏览的新闻信息,所述新闻信息包括文章、图集、视频以及对应的类别、浏览记录、标题,通过所述爬虫系统爬取所述用户对所述新闻信息的评论内容。
本步骤通过安装爬虫系统中预设的爬虫功能脚本,在新闻应用软件中爬取用户浏览的新闻信息,爬虫功能脚本是网络爬虫技术中具体使用的计算机运行脚本,这种脚本按照一定的规则,自动抓取新闻信息,并对抓取的信息进行分析、过滤,得到满足预设使用条件的数据库,本步骤的爬虫功能脚本具体可选用蠕虫采集器、蚂蚁爬虫、八爪鱼大数据等。浏览的新闻信息对于分析用户兴趣、习惯具有参考价值,但是用户的评论更能反映用户对新闻内容的兴趣程度,所以本步骤通过用户对新闻信息的评论内容做进一步补充。
步骤S102,新闻信息处理:将所述新闻信息和所述评论内容汇总到同一文本文件中,读取所述文本文件中的标点符号,以标点符号将所述文本文件切分成多个独立句子。
本步骤将新闻信息和评论内容进行汇总,便于快速、高效地批量处理收集的数据,本步骤中读取所述文本文件中的标点符号通过正则表达式实现,利用预设的逻辑规则,快速读取文本文件中的标点符号,一方面可以去除标点符号,减少对文本读取过程的影响,另一方面,依据标点符号,将文本文件切分,便于更简单地读取关键词,以定义兴趣标签。
本实施例通过用户的浏览和评论记录分析用户的兴趣程度,具有很高的参考价值,通过浏览记录可以量化分析用户的兴趣内容,可以有效提升确认用户兴趣标签的准确度。
例如:假设某文本为“今日,中央电视台开设新型文艺节目,此节目名为华夏文化。”通过预设的正则表达式,读取文本中的逗号、句号,读取的逗号、句号为预设的标点符号,预设的标点符号为包括逗号、句号、感叹号等所有标点符号的标点符号库,在读取到本文本中的句号和逗号后,以标点符号为分割点,将文本切分成“今日”、“中央电视台开设新型文艺节目”、“此节目为华夏文化”三个单独的句子。
步骤S2,权重计算:调用预设的分词系统,以通过所述分词系统构建关键词词库,计算关键词权重。
图3为本发明一个实施例中步骤S2权重计算的流程图,如图3所示,在一个实施例中,步骤S2可包括如下具体步骤:
步骤S201,原始词库获取:获取原始词库,所述原始词库来源于输入法词库。
本步骤通过获取数据庞大的输入法词库,尽可能将关键词词库进行扩充,避免词库量小,无法识别个别关键词的情况,出现数据统计的遗漏,所述输入法词库具体可选用搜狗输入法、百度输入法、讯飞输入法。
步骤S202,关键词词库构建:调用预设的分词系统,利用分词算法提取所述原始词库的关键词,将提取的所述关键词保存在预设的文本文件中,构建所述关键词词库。
本步骤中采用分词系统提取原始词库中的关键,采用的分词系统是基于已有的分词词库,通过前向最大匹配、后向最大匹配、双向最大匹配等人工设定的规则进行分词,分词规则设计得越复杂,分词的效果越理想,利用文本编辑脚本将提取的关键词保存在预设的文本文件中构建关键词词库。
在一个实施例中,步骤S202,包括如下具体步骤:
步骤S2021,生成有向无环图:通过所述分词系统对所述原始词库进行词图扫描,生成所述原始词库中所有汉字可能成词的有向无环图。
本步骤中的汉字包括字和原始词库中已有的词,本步骤通过字典树完成对原始词库中词图的扫描。字典树,又称为单词查找树,是一种树形结构,包括子节点和根节点,根节点为初始编号,子节点为顺序编号,依据编号依次连接根节点和子节点,构建有向无环图。具体分为两个过程:第一,读取原始词库中的字或词并完成编号;第二,从根节点开始连接子节点,直至所有子节点连接结束,不同的编号连接对应不同的有向无环图。有向无环图指的是一个无回路的有向图,在本步骤中,原始词库中的所有汉字可以得到构成词语的各种情形,可以用于更加精确地筛选关键词。
例如:假设图4中读取的原始词库中有汉字A、B、C、D、E,假设通过字典树最终获取到图4中箭头的指向情况,图4中的多种箭头指向即为最终的成词情况,如图中AB、AD、CD、CE四种情况。
步骤S2022,所述分词系统依据所述有向无环图,获取多个词语,将多个所述词语定义为关键词。
本步骤中通过分词系统,获取到汉字可以连接的各种情况,得到多个有向无环图,即为最终成词的最大概率路径,由此获取到多个词语,将获取的多个词语定义为关键词。
例如:图4中5个汉字分别构成AB、AD、CD、CE四个词语,则通过AB、AD、CD、CE四个词语的有向无环图可以得到词语,即最终关键词为AB、AD、CD、CE。
本实施例采用分词系统,实现分词处理的速度较快,可以分词的范围比较广,且可以快速完成复杂、时间长的句型或短语的处理。
在一个实施例中,步骤S2还包括如下计算关键词权重的具体步骤:
步骤S203,关键词权重计算:利用关键词权重计算方法计算关键词权重,所述关键词权重计算公式如下:
TF-IDF=TF×IDF
修正所述关键词权重,修正计算公式如下:
TF-IDF′=(TF-IDF)×λ
其中,TF-IDF为所述关键词权重,TF-IDF′为修正后关键词权重,z为关键词,TF为词频,即关键词z在关键词词库文档中出现的频率,λ为调整系数,是一预设的常数。
本实施例中还包括将提炼后的关键词分类获取关键词的定义,所述定义包括S分类、U实体、C概念,所述定义用于作为预设调整系数λ的参考,不同定义的调整参数大小不等,比如S分类词语的调整系数λ为1,U实体的词语的调整系数λ为2,C概念的词语的调整系数λ为3。
本实施例的关键词权重计算方法是一种用于信息检索与数据挖掘的常用加权技术,是一种统计方法,用以评估字、词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。本实施例加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。
本实施例采用关键词权重计算方法计算兴趣权重,可以有效解释兴趣权重的合理性,计算结果与实际情况的偏差较小,且计算过程简单、快捷,对于兴趣评分具有较高的参考价值。
例如:假如某文本的词语总数是100个,而词语“母牛”出现了3次,那么“母牛”一词在该文件中的词频就是3/100=0.03,假设“母牛”一词在1,000份文档出现过,文档总数是10,000,000份,则IDF=log(10,000,000/1,000)=4,最后的TF-IDF=0.03×4=0.12,假设调整系数为2,则TF-IDF′=0.12×2=0.24。
步骤S3,评分计算:从多个所述独立句子中筛选出用户兴趣标签,依据所述关键词权重,计算所述用户兴趣标签的兴趣评分。
在一个实施例中,步骤S3包括如下具体步骤:
步骤S301,关键词筛选:利用关键词提取算法筛选出多个所述独立句子中的关键词,将所述关键词定义为用户兴趣标签。
本步骤克服传统关键词提取算法局限于字面匹配、缺乏语义理解的缺点,采用现有的提取算法获取独立句子中的关键词,具体利用一种基于语义的关键词提取算法,将词语语义特征融入关键词提取过程中,构建词语语义相似度网络并利用居间度密度计算词语语义关键度,具体包括以下步骤:
(1)文本预处理,标注独立句子中词语的词性,去除停用词;
(2)通过以下公式计算词语的语义相似度:
其中,a为语义参数,是预设的值,用以控制语义相似度的取值范围,Sim为语义相似度,Dis(W1,W2)为语义距离,W1,W2表示任一两个词语,W为词语集合;
(3)将任一词语定义为一个顶点,在语义相似度超过相似度阈值的两个词语之间通过顶点添加一条无向边,构建相似度网络图G(V,E),其中,Vi为第i个词语的顶点,V为顶点的集合,V与W中词语一一对应,即Vi对应Wi,E为无向边的集合;
(4)通过以下公式计算顶点的居间度:
其中,bci为第i个顶点的居间度,n为顶点集合中顶点的数量,gmk为顶点Vm和Vk之间的最短路径数,Vm和Vk为第m个和第k个顶点,gmk(Vi)为顶点Vm和Vk之间的最短路径是否通过顶点Vi,通过Vi则存在一条无向边,记为1,否则记为0;
(5)统计所有顶点的居间度得到居间度集合,将居间度集合平均划分成一定数目的区间,得到顶点Vi的居间度所在的区间,即为顶点Vi的居间度密度Vdi;
(6)通过以下公式计算词语的统计特征值:
tfidfi=tfi×idfi;
其中,tfi为词语Wi在独立句子中的词频,idfi为词语Wi在独立文本中的逆向文档频率,tfidfi为第i个词语的统计特征值;
(7)通过以下公式计算词语的关键度:
其中,Score(Wi)为第i个词语的关键度,Vdw为语义贡献值权重,Vdi为顶点Vi的居间度密度;Tw为统计特征值权重;locij表示第i个词语是否出现,locwj表示统计特征中位置j的权重,其中,j取值为1、2、3,代表的位置种类分为为句首、句中、句尾;leni表示第i个词语的词长,lenw表示统计特征值中词长权重;posi表示第i个词语的词性值,词语所属词性不同,对应的posi也不同,当词语为形容词时,posi为0.5,词语为形容词或动词时,posi为0.3,当词语为名词时,posi为0.8,当词语为名形词、成语、习惯用语、名动词时,posi为0.6;posw表示统计特征值中词性权重,tfidfi为第i个词语的统计特征值,tfidfw表示统计特征值权重;
(8)将关键度满足要求的词语筛选出来作为关键词,用于定义用户的兴趣标签,具体可通过阈值筛选完成。
本步骤更符合人类的感知逻辑,性能较优。
例如:某独立句子中包含N个词语,预处理后剩余M个词语,通过基于语义的关键词提取算法,最终得到m个词语为关键词,则m个词语为用户兴趣标签。
步骤S302,兴趣评分计算:依据所述关键词对应的所述关键词权重,计算所述用户兴趣标签的兴趣评分,所述兴趣评分的计算公式如下:
Sum=(TF-IDF′)×ω×n
其中,Sum为所述兴趣评分,ω为权重系数,是一预设的常数,n为关键词出现的次数。
通过利用兴趣权重计算兴趣得分的最终结果准确度较高。
本实施例通过计算得分,将兴趣权重显性化,将数据转化成可直观看到的分值,可更加清晰的分析用户的兴趣标签,提升了兴趣标签识别的水平,便于用户兴趣标签的管理。
例如:假设ω为0.3,步骤S302中“母牛”一词出现了1000次,则Sum=0.24×0.3×1000=72。
步骤S4,标签更新:将所述兴趣评分与预设的评分阈值进行比较,筛选出高于所述评分阈值的兴趣评分,将所述兴趣评分对应的用户兴趣标签更新至用户标签库。
在一个实施例中,步骤S4包括如下具体步骤:
步骤S401,兴趣标签抽取:将所述兴趣评分归一化到[0,1]的范围内,将所述兴趣评分与预设的评分阈值进行比较,筛选出兴趣评分高于所述评分阈值的用户兴趣标签。
本步骤具体可选用标准化方法对兴趣评分进行标准化处理,采用离差标准化将兴趣得分进行标准化处理,意义在于对原始数据进行线性变换,将数据至映射到[0,1]之间,消除数据中最大值与最小值之间的相互影响,便于整体评估兴趣评分,Z-score方法的公式如下:
其中,x为兴趣评分,min为兴趣评分中的最小值,max为兴趣评分中的最大值,x'为标准化后的兴趣评分。
例如:假设一组兴趣标签M、N、T的兴趣评分分别为20,15,6,则
假设评分阈值为0.5,则M、T为最终获取的兴趣标签。
步骤S402,兴趣标签更新:将筛选的所述兴趣标签更新至用户标签库。
通过将以上得出的兴趣标签更新到用户标签库,可以定位到用户的兴趣及使用习惯。
本步骤通过标准化处理将兴趣评分的评价难度降低,便于统一处理,有利于筛选用户标签,对后续依据用户兴趣标签推荐用户感兴趣的内容具备实用参考价值。
本发明实施例对新闻信息中出现的关键词依据输入法词库对关键词的权重进行了计算,通过将兴趣标签进行量化处理,达到可以进一步准确判断用户兴趣标签的目的,为向用户推荐新闻内容,提供了更加可靠的参考依据,在对用户兴趣标签的确认过程中,主要依靠具体的计算过程,通过可靠的权重计算获取兴趣得分,具备较高的准确性。
在一个实施例中,提出了基于新闻应用软件的用户兴趣标签构建的装置,如图5所示,其包括:
信息获取模块,设置为获取用户在多类新闻应用软件上浏览、评论的新闻信息,生成多个独立句子;
权重计算模块,设置为调用预设的分词系统,以通过所述分词系统构建关键词词库,计算关键词权重;
评分计算模块,设置为从多个所述独立句子中筛选出用户兴趣标签,依据所述关键词权重,计算所述用户兴趣标签的兴趣评分;
标签更新模块,设置为将所述兴趣评分与预设的评分阈值进行比较,筛选出高于所述评分阈值的兴趣评分,将所述兴趣评分对应的用户兴趣标签更新至用户标签库。
在一个实施例中,提出了一种计算机设备,包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行计算机可读指令时实现上述各实施例里基于新闻应用软件的用户兴趣标签构建方法中的步骤。
在一个实施例中,提出了一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述各实施例里基于新闻应用软件的用户兴趣标签构建方法中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(ReA/D-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于新闻应用软件的用户兴趣标签构建方法,其特征在于,包括:
获取用户在多类新闻应用软件上浏览、评论的新闻信息,生成多个独立句子;
调用预设的分词系统,以通过所述分词系统构建关键词词库,计算关键词权重;
从多个所述独立句子中筛选出用户兴趣标签,依据所述关键词权重,计算所述用户兴趣标签的兴趣评分;
将所述兴趣评分与预设的评分阈值进行比较,筛选出高于所述评分阈值的兴趣评分,将所述兴趣评分对应的用户兴趣标签更新至用户标签库。
2.如权利要求1所述的基于新闻应用软件的用户兴趣标签构建方法,其特征在于,所述获取用户在多类新闻应用软件上浏览、评论的新闻信息,生成多个独立句子,包括:
通过爬虫系统爬取用户在多类新闻应用软件上浏览的新闻信息,所述新闻信息包括文章、图集、视频以及对应的类别、浏览记录、标题,通过所述爬虫系统爬取所述用户对所述新闻信息的评论内容;
将所述新闻信息和所述评论内容汇总到同一文本文件中,读取所述文本文件中的标点符号,以标点符号将所述文本文件切分成多个独立句子。
3.如权利要求1所述的基于新闻应用软件的用户兴趣标签构建方法,其特征在于,所述调用预设的分词系统,以通过所述分词系统构建关键词词库,包括:
获取原始词库,所述原始词库来源于输入法词库;
调用预设的分词系统,利用分词算法提取所述原始词库的关键词,将提取的所述关键词保存在预设的文本文件中,构建所述关键词词库。
4.如权利要求3所述的基于新闻应用软件的用户兴趣标签构建方法,其特征在于,所述调用预设的分词系统,利用分词算法提取所述原始词库的关键词,包括:
通过所述分词系统对所述原始词库进行词图扫描,生成所述原始词库中所有汉字可能成词的有向无环图;
所述分词系统依据所述有向无环图,获取多个词语,将多个所述词语定义为关键词。
5.如权利要求1所述的基于新闻应用软件的用户兴趣标签构建方法,其特征在于,所述计算关键词权重,包括:
利用关键词权重计算方法计算关键词权重,所述关键词权重计算公式如下:
TF-IDF=TF×IDF
修正所述关键词权重,修正计算公式如下:
TF-IDF′=(TF-IDF)×λ
其中,TF-IDF为所述关键词权重,TF-IDF′为修正后关键词权重,z为关键词,TF为词频,即关键词z在关键词词库文档中出现的频率,λ为调整系数,是一预设的常数。
6.如权利要求5所述的基于新闻应用软件的用户兴趣标签构建方法,其特征在于,所述从多个所述独立句子中筛选出用户兴趣标签,依据所述关键词权重,计算所述用户兴趣标签的兴趣评分,包括:
利用关键词提取算法筛选出多个所述独立句子中的关键词,将所述关键词定义为用户兴趣标签;
依据所述关键词对应的所述关键词权重,计算所述用户兴趣标签的兴趣评分,所述兴趣评分的计算公式如下:
Sum=(TF-IDF′)×ω×n
其中,Sum为所述兴趣评分,ω为权重系数,是一预设的常数,n为关键词出现的次数。
7.如权利要求1所述的基于新闻应用软件的用户兴趣标签构建方法,其特征在于,所述将所述兴趣评分与预设的评分阈值进行比较,筛选出高于所述评分阈值的兴趣评分,将所述兴趣评分对应的用户兴趣标签更新至用户标签库,包括:
将所述兴趣评分归一化到[0,1]的范围内,将所述兴趣评分与预设的评分阈值进行比较,筛选出兴趣评分高于所述评分阈值的用户兴趣标签;
将筛选的所述用户兴趣标签更新至用户标签库。
8.一种基于新闻应用软件的用户兴趣标签构建装置,其特征在于,包括:
信息获取模块,设置为获取用户在多类新闻应用软件上浏览、评论的新闻信息,生成多个独立句子;
权重计算模块,设置为调用预设的分词系统,以通过所述分词系统构建关键词词库,计算关键词权重;
评分计算模块,设置为从多个所述独立句子中筛选出用户兴趣标签,依据所述关键词权重,计算所述用户兴趣标签的兴趣评分;
标签更新模块,设置为将所述兴趣评分与预设的评分阈值进行比较,筛选出高于所述评分阈值的兴趣评分,将所述兴趣评分对应的用户兴趣标签更新至用户标签库。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一种基于新闻应用软件的用户兴趣标签构建方法的步骤。
10.一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至7中任一项权利要求所述一种基于新闻应用软件的用户兴趣标签构建方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910245276.9A CN110334202A (zh) | 2019-03-28 | 2019-03-28 | 基于新闻应用软件的用户兴趣标签构建方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910245276.9A CN110334202A (zh) | 2019-03-28 | 2019-03-28 | 基于新闻应用软件的用户兴趣标签构建方法及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110334202A true CN110334202A (zh) | 2019-10-15 |
Family
ID=68139248
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910245276.9A Pending CN110334202A (zh) | 2019-03-28 | 2019-03-28 | 基于新闻应用软件的用户兴趣标签构建方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110334202A (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111259259A (zh) * | 2020-03-11 | 2020-06-09 | 郑州工程技术学院 | 大学生新闻推荐方法、装置、设备及存储介质 |
CN111898043A (zh) * | 2020-07-02 | 2020-11-06 | 北京大学 | 一种城市旅行路线规划的方法 |
CN112101005A (zh) * | 2020-04-02 | 2020-12-18 | 上海迷因网络科技有限公司 | 一种快速表达力测试题目生成和动态调整方法 |
CN112328920A (zh) * | 2020-11-06 | 2021-02-05 | 支付宝(杭州)信息技术有限公司 | 标签认证方法、标注方法以及各自装置 |
CN112347254A (zh) * | 2020-11-05 | 2021-02-09 | 中国平安人寿保险股份有限公司 | 新闻文本的分类方法、装置、计算机设备和存储介质 |
CN113139705A (zh) * | 2020-01-17 | 2021-07-20 | 中国移动通信集团浙江有限公司 | 业务项目的风险识别方法及装置 |
CN113360753A (zh) * | 2021-05-26 | 2021-09-07 | 平安国际智慧城市科技股份有限公司 | 基于用户历史行为的信息推荐方法、装置、设备及介质 |
CN113407705A (zh) * | 2021-06-18 | 2021-09-17 | 广东电网有限责任公司广州供电局 | 一种电力用户画像生成方法、装置、电子设备及存储介质 |
CN113704501A (zh) * | 2021-08-10 | 2021-11-26 | 上海硬通网络科技有限公司 | 应用的标签获取方法、装置、电子设备及存储介质 |
CN114190951A (zh) * | 2021-12-31 | 2022-03-18 | 上海联影医疗科技股份有限公司 | Ecg信号处理方法、系统、装置及介质 |
CN114513575A (zh) * | 2020-10-29 | 2022-05-17 | 华为技术有限公司 | 一种收藏处理的方法及相关装置 |
CN115080867A (zh) * | 2022-08-23 | 2022-09-20 | 湖南正宇软件技术开发有限公司 | 一种提案主题的推荐方法、装置、计算机设备和存储介质 |
CN116186420A (zh) * | 2023-05-04 | 2023-05-30 | 南开大学 | 一种基于用户偏好的个性化新闻标题生成方法 |
CN116541432A (zh) * | 2023-05-22 | 2023-08-04 | 杭州精英在线教育科技股份有限公司 | 一种基于教育机器人的在线课堂智能推荐方法 |
CN116955833A (zh) * | 2023-09-20 | 2023-10-27 | 四川集鲜数智供应链科技有限公司 | 一种用户行为分析系统及方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462482A (zh) * | 2014-12-18 | 2015-03-25 | 百度在线网络技术(北京)有限公司 | 关于媒体展现的内容提供方法和系统 |
CN106156004A (zh) * | 2016-07-04 | 2016-11-23 | 中国传媒大学 | 基于词向量的针对电影评论信息的情感分析系统及方法 |
CN106897439A (zh) * | 2017-02-28 | 2017-06-27 | 百度在线网络技术(北京)有限公司 | 文本的情感识别方法、装置、服务器以及存储介质 |
CN107391493A (zh) * | 2017-08-04 | 2017-11-24 | 青木数字技术股份有限公司 | 一种舆情信息提取方法、装置、终端设备及存储介质 |
CN107992563A (zh) * | 2017-11-29 | 2018-05-04 | 江苏神州信源系统工程有限公司 | 一种用户浏览内容的推荐方法及系统 |
CN108288229A (zh) * | 2018-03-02 | 2018-07-17 | 北京邮电大学 | 一种用户画像构建方法 |
CN108829889A (zh) * | 2018-06-29 | 2018-11-16 | 国信优易数据有限公司 | 一种新闻文本分类方法以及装置 |
CN109522275A (zh) * | 2018-11-27 | 2019-03-26 | 掌阅科技股份有限公司 | 基于用户生产内容的标签挖掘方法、电子设备及存储介质 |
-
2019
- 2019-03-28 CN CN201910245276.9A patent/CN110334202A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462482A (zh) * | 2014-12-18 | 2015-03-25 | 百度在线网络技术(北京)有限公司 | 关于媒体展现的内容提供方法和系统 |
CN106156004A (zh) * | 2016-07-04 | 2016-11-23 | 中国传媒大学 | 基于词向量的针对电影评论信息的情感分析系统及方法 |
CN106897439A (zh) * | 2017-02-28 | 2017-06-27 | 百度在线网络技术(北京)有限公司 | 文本的情感识别方法、装置、服务器以及存储介质 |
CN107391493A (zh) * | 2017-08-04 | 2017-11-24 | 青木数字技术股份有限公司 | 一种舆情信息提取方法、装置、终端设备及存储介质 |
CN107992563A (zh) * | 2017-11-29 | 2018-05-04 | 江苏神州信源系统工程有限公司 | 一种用户浏览内容的推荐方法及系统 |
CN108288229A (zh) * | 2018-03-02 | 2018-07-17 | 北京邮电大学 | 一种用户画像构建方法 |
CN108829889A (zh) * | 2018-06-29 | 2018-11-16 | 国信优易数据有限公司 | 一种新闻文本分类方法以及装置 |
CN109522275A (zh) * | 2018-11-27 | 2019-03-26 | 掌阅科技股份有限公司 | 基于用户生产内容的标签挖掘方法、电子设备及存储介质 |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113139705A (zh) * | 2020-01-17 | 2021-07-20 | 中国移动通信集团浙江有限公司 | 业务项目的风险识别方法及装置 |
CN111259259A (zh) * | 2020-03-11 | 2020-06-09 | 郑州工程技术学院 | 大学生新闻推荐方法、装置、设备及存储介质 |
CN112101005A (zh) * | 2020-04-02 | 2020-12-18 | 上海迷因网络科技有限公司 | 一种快速表达力测试题目生成和动态调整方法 |
CN112101005B (zh) * | 2020-04-02 | 2022-08-30 | 上海迷因网络科技有限公司 | 一种快速表达力测试题目生成和动态调整方法 |
CN111898043A (zh) * | 2020-07-02 | 2020-11-06 | 北京大学 | 一种城市旅行路线规划的方法 |
CN111898043B (zh) * | 2020-07-02 | 2023-11-24 | 北京大学 | 一种城市旅行路线规划的方法 |
CN114513575A (zh) * | 2020-10-29 | 2022-05-17 | 华为技术有限公司 | 一种收藏处理的方法及相关装置 |
CN114513575B (zh) * | 2020-10-29 | 2023-06-06 | 华为技术有限公司 | 一种收藏处理的方法及相关装置 |
CN112347254A (zh) * | 2020-11-05 | 2021-02-09 | 中国平安人寿保险股份有限公司 | 新闻文本的分类方法、装置、计算机设备和存储介质 |
CN112347254B (zh) * | 2020-11-05 | 2024-02-13 | 中国平安人寿保险股份有限公司 | 新闻文本的分类方法、装置、计算机设备和存储介质 |
CN112328920A (zh) * | 2020-11-06 | 2021-02-05 | 支付宝(杭州)信息技术有限公司 | 标签认证方法、标注方法以及各自装置 |
CN113360753A (zh) * | 2021-05-26 | 2021-09-07 | 平安国际智慧城市科技股份有限公司 | 基于用户历史行为的信息推荐方法、装置、设备及介质 |
CN113407705A (zh) * | 2021-06-18 | 2021-09-17 | 广东电网有限责任公司广州供电局 | 一种电力用户画像生成方法、装置、电子设备及存储介质 |
CN113704501A (zh) * | 2021-08-10 | 2021-11-26 | 上海硬通网络科技有限公司 | 应用的标签获取方法、装置、电子设备及存储介质 |
CN114190951A (zh) * | 2021-12-31 | 2022-03-18 | 上海联影医疗科技股份有限公司 | Ecg信号处理方法、系统、装置及介质 |
CN114190951B (zh) * | 2021-12-31 | 2023-11-03 | 上海联影医疗科技股份有限公司 | Ecg信号处理方法、系统、装置及介质 |
CN115080867A (zh) * | 2022-08-23 | 2022-09-20 | 湖南正宇软件技术开发有限公司 | 一种提案主题的推荐方法、装置、计算机设备和存储介质 |
CN115080867B (zh) * | 2022-08-23 | 2022-11-15 | 湖南正宇软件技术开发有限公司 | 一种提案主题的推荐方法、装置、计算机设备和存储介质 |
CN116186420B (zh) * | 2023-05-04 | 2023-06-27 | 南开大学 | 一种基于用户偏好的个性化新闻标题生成方法 |
CN116186420A (zh) * | 2023-05-04 | 2023-05-30 | 南开大学 | 一种基于用户偏好的个性化新闻标题生成方法 |
CN116541432A (zh) * | 2023-05-22 | 2023-08-04 | 杭州精英在线教育科技股份有限公司 | 一种基于教育机器人的在线课堂智能推荐方法 |
CN116541432B (zh) * | 2023-05-22 | 2023-10-17 | 杭州精英在线教育科技股份有限公司 | 一种基于教育机器人的在线课堂智能推荐方法 |
CN116955833A (zh) * | 2023-09-20 | 2023-10-27 | 四川集鲜数智供应链科技有限公司 | 一种用户行为分析系统及方法 |
CN116955833B (zh) * | 2023-09-20 | 2023-11-28 | 四川集鲜数智供应链科技有限公司 | 一种用户行为分析系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110334202A (zh) | 基于新闻应用软件的用户兴趣标签构建方法及相关设备 | |
CN103914478B (zh) | 网页训练方法及系统、网页预测方法及系统 | |
CN107180045B (zh) | 一种互联网文本蕴含地理实体关系的抽取方法 | |
Shi et al. | Keyphrase extraction using knowledge graphs | |
CN105045875B (zh) | 个性化信息检索方法及装置 | |
US20080270384A1 (en) | System and method for intelligent ontology based knowledge search engine | |
TWI695277B (zh) | 自動化網站資料蒐集方法 | |
WO2015149533A1 (zh) | 一种基于网页内容分类进行分词处理的方法和装置 | |
CN106250513A (zh) | 一种基于事件建模的事件个性化分类方法及系统 | |
CN107506472B (zh) | 一种学生浏览网页分类方法 | |
CN112989208B (zh) | 一种信息推荐方法、装置、电子设备及存储介质 | |
Nandi et al. | Bangla news recommendation using doc2vec | |
JP5527845B2 (ja) | 文書情報の文章的特徴及び外形的特徴に基づく文書分類プログラム、サーバ及び方法 | |
Bansal et al. | User tweets based genre prediction and movie recommendation using LSI and SVD | |
Rathod | Extractive text summarization of Marathi news articles | |
Adek et al. | Online Newspaper Clustering in Aceh using the Agglomerative Hierarchical Clustering Method | |
CN107908749B (zh) | 一种基于搜索引擎的人物检索系统及方法 | |
Yehia et al. | Text mining and knowledge discovery from big data: challenges and promise | |
Qingyun et al. | Keyword extraction method for complex nodes based on TextRank algorithm | |
Konagala et al. | Fake news detection using deep learning: supervised fake news detection analysis in social media with semantic similarity method | |
Saravanan et al. | Extraction of Core Web Content from Web Pages using Noise Elimination. | |
Özyirmidokuz | Mining unstructured Turkish economy news articles | |
CN113934910A (zh) | 一种自动优化、更新的主题库构建方法,及热点事件实时更新方法 | |
Li et al. | Research on hot news discovery model based on user interest and topic discovery | |
Jiang et al. | Ontology-Based Information Extraction of Crop Diseases on Chinese Web Pages. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |