CN106997397A - 基于大数据的科技信息个性化定制推送系统 - Google Patents

基于大数据的科技信息个性化定制推送系统 Download PDF

Info

Publication number
CN106997397A
CN106997397A CN201710247797.9A CN201710247797A CN106997397A CN 106997397 A CN106997397 A CN 106997397A CN 201710247797 A CN201710247797 A CN 201710247797A CN 106997397 A CN106997397 A CN 106997397A
Authority
CN
China
Prior art keywords
information
scientific
user
module
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710247797.9A
Other languages
English (en)
Inventor
陈文海
霍英霞
冀鹏飞
丁平
黄美珍
陈劲峰
姚蕴
佘文文
马晓
贾旭
闫斌斌
柏道菲
张军
成华娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Huachen Science And Technology Information Co Ltd
Original Assignee
Shandong Huachen Science And Technology Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Huachen Science And Technology Information Co Ltd filed Critical Shandong Huachen Science And Technology Information Co Ltd
Priority to CN201710247797.9A priority Critical patent/CN106997397A/zh
Publication of CN106997397A publication Critical patent/CN106997397A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于大数据的科技信息个性化定制推送系统,包括以下模块:信息基础库模块、文本及特征的分析模块、文本及特征的处理模块、LDA算法模块、关联规则算法模块和推送API进行信息推送模块;所述信息基础库模块是将用户作为一个研究对象,通过用户的浏览记录,形成信息基础库,根据文本及特征进行分析和处理,利用LDA算法来分析科技信息的主题分布,利用关联规则算法来分析用户的主题分布,利用推送API进行信息推送,最终通过主题分析来得到用户的科技信息兴趣爱好来推送相应的科技信息;本发明能够根据用户自身特点及平时习惯给用户推送更符合其要求的科技信息,最大程度地满足用户的个性化需求,提高用户体验。

Description

基于大数据的科技信息个性化定制推送系统
技术领域
本发明属于互联网技术中个性化定制推送技术领域,具体涉及一种基于大数据的科技信息个性化定制推送系统。
背景技术
“定制”一词就起源于萨维尔街,意思是为个别客户量身剪裁;随着网络技术的高度发展,地球村成为现实;工业化大生产带来的负面影响日益明显,商品极大丰富,供大于求现象普遍严重,行业竞争压力巨大,寻求差异化竞争被迫成为企业生存发展的主旨;但正是基于这一点,从而让定制经济开始步入主殿堂;并作为历史上最具人性化的经济,成为备受人们推崇的新经济模式;随着网络的日益发展,基于网络的多媒体传输已经越来越普及,而且人们对多媒体通信内容的要求日益提高,人们不再满足于单一、被动的传统媒体娱乐方式,而需要更加个性化、互动化的多媒体通信方式;特别是随着移动网络通信技术的进一步发展和移动多媒体业务的普及,移动多媒体已经越来越显示其未来广泛和越趋成熟的用户认知以及接受度。
互联网经历了门户网站和搜索引擎的时代,迎来了社交网络的时代;我们面临新的挑战,信息碎片化,时间碎片化,用户体验的个性化需求,终端由PC转向手持智能终端等。信息推荐引擎试图通过以人为中心的社交网络数据分析,深度挖掘定位用户的喜好,关注用户的兴趣特点,最终将合适的信息推送到指定用户。本系统将用户作为一个研究对象,通过用户的历史的浏览记录,依托于相应的数据分析和数据挖掘的分析方式,致力于探索用户所感兴趣的信息的主题,最终通过主题分析来得到用户的兴趣爱好来推送相应的信息。
传统的信息推荐算法主要是依托于协同过滤算法,主要是利用item-based和used-based两种过滤方式来处理信息,这种方式主要思想是利用文本之间的相似性来突出用户之间的相似性,但是在信息推荐上并不能得到非常理想的推荐效果,主要原因主要有以下,第一,基于协同过滤的信息推荐算法主要是突出了文本的相似性,而这种相似性并不能完全代表用户的相似性;第二,基于协同过滤的信息推荐算法,并没有将用户作为一个研究对象,因此数据挖掘深度比较浅,并不能挖掘出用户的兴趣爱好。而本系统将用户作为一个研究对象,通过用户的历史的浏览记录,依托于相应的数据分析和数据挖掘的分析方式,利用LDA算法来分析新闻的主题分布,利用关联规则算法来分析用户的主题分布,利用推送API进行信息推送,最终通过主题分析来得到用户的兴趣爱好来推送相应的信息。
发明内容
为解决上述技术问题,本发明提供了一种基于大数据的科技信息个性化定制推送系统,包括以下模块:信息基础库模块、文本及特征的分析模块、文本及特征的处理模块、LDA算法模块、关联规则算法模块和推送API进行信息推送模块;所述信息基础库模块是将用户作为一个研究对象,通过用户的浏览记录,依托于相应的数据分析和数据挖掘的分析方式,形成信息基础库,根据文本及特征进行分析,再进行文本及特征进行处理,利用LDA算法来分析科技信息的主题分布,利用关联规则算法来分析用户的主题分布,利用推送API进行信息推送,最终通过主题分析来得到用户的科技信息兴趣爱好来推送相应的科技信息。
优选地,所述形成信息基础库,其数据来源于用户自身浏览信息,由于用户浏览的信息过多,因此需要过滤一些信息,形成最终的基础库;所述文本特征进行分析包括文本分析和语义分析;文本分析,是通过分词来完成,分词主要的目的是完成语义分析;语义分析主要有以下几种方式:①基于字符串匹配的分词方法,此方法按照不同的扫描方式,逐个查找词库进行分词;②全切分方法,它首先切分出与词库匹配的所有可能的词,再运用统计语言模型决定最优的切分结果;③由字构词的分词方法,可以理解为字的分类问题。
优选地,所述的文本及特征处理,所述的分词可以形成一定规模的信息基础,但是由于分词中有大量的分词是没有价值的,因此我们需要相应的技术手段或者是算法来得到我们需要的科技信息文本中的关键词。
优选地,所述的LDA算法,即隐含狄利克雷分布,英文为Latent DirichletAllocation,简称LDA,该算法的核心的思想是,可以用生成模型来看文档和主题这两件事;所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到的。
所述的关联规则的发现,第一个是相关性relevance,第二个是关联性association,两者都可以用来描述事件之间的关联程;而常用的关联规则算法有FP-Growth算法和Apriori算法;这两种算法都能很好完成关联规则的发现;在关联规则算法中主要有两种概念要值得注意,一个是置信度,一个是支持度;只有一个关联规则的置信度和支持度同时满足最小阀值的时候才能认可科技信息之间的关联规则。
优选地,所述用户为Android和IOS用户。
所述的推送API进行信息推送,推送服务层组件中的IOS推送服务统一将推送信息送入APNS,由APNS负责后续推送工作,Android则通过后台守护进程,和推送服务建立联系后获取推送科技信息内容。
本发明具有以下有益效果:
本发明基于大数据的科技信息个性化定制推送系统,通过用户的历史的浏览记录,获取用户相应的科技信息主题,并根据对应的科技信息主题计算出用户对应的需求科技信息,最后利用推送API给对应的用户发送相应的科技信息,满足用户的个性化需求,提高用户体验。
附图说明
图1是本发明系统结构示意图。
具体实施方式
下面将结合本发明的附图,对本发明的技术方案进行清楚、完整地描述。
基于大数据的科技信息个性化定制推送系统,包括以下模块:信息基础库模块、文本及特征的分析模块、文本及特征的处理模块、LDA算法模块、关联规则算法模块和推送API进行信息推送模块;所述信息基础库模块是将用户作为一个研究对象,通过用户的浏览记录,依托于相应的数据分析和数据挖掘的分析方式,形成信息基础库,根据文本及特征进行分析,再进行文本及特征进行处理,利用LDA算法来分析科技信息的主题分布,利用关联规则算法来分析用户的主题分布,利用推送API进行信息推送,最终通过主题分析来得到用户的科技信息兴趣爱好来推送相应的科技信息。
优选地,所述形成信息基础库,其数据来源于用户自身浏览信息,由于用户浏览的信息过多,因此需要过滤一些信息,形成最终的基础库;所述文本特征进行分析包括文本分析和语义分析;文本分析,是通过分词来完成,分词主要的目的来完成语义分析;语义分析主要有以下几种方式:①基于字符串匹配的分词方法,此方法按照不同的扫描方式,逐个查找词库进行分词;②全切分方法,它首先切分出与词库匹配的所有可能的词,再运用统计语言模型决定最优的切分结果;③由字构词的分词方法,可以理解为字的分类问题。
优选地,所述的文本及特征处理,所述的分词可以形成一定规模的信息基础,但是由于分词中有大量分词是没有价值的,因此我们需要相应的技术手段或者是算法来得到我们需要的科技信息文本中的关键词。
而找到我们文本中的特征词,主要我们用到的算法是最常用的文本挖掘方法TF-IDF;TF-IDF(term frequency–inverse document frequency)是一种信息挖掘以及信息搜索领域的常用加权技术,TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类;TF词频(Term Frequency),IDF反文档频率(Inverse Document Frequency);TF表示词条在文档d中出现的频率。
IDF的表达式为:
TF-IDF的表达式为:
优选地,所述的LDA算法,其核心的思想是用生成模型来看文档和主题这两件事;所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到的。
那么,如果我们要生成一篇文档,它里面的每个词语出现的概率为,概率表达式为:
优选地,所述的关联规则的发现,第一个是相关性relevance,第二个是关联性association,两者都可以用来描述事件之间的关联程度;而常用的关联规则算法有FP-Growth算法和Apriori算法;这两种算法都能很好完成关联规则的发现;在关联规则算法中主要有两种概念要值得注意,一个是置信度,一个支持度;只有一个关联规则的置信度和支持度同时满足最小阀值的时候才能认可事件之间的关联规则。
优选地,所述用户为Android和IOS用户。
所述的推送API进行信息推送,推送服务层组件中的IOS推送服务统一将推送信息送入APNS,由APNS负责后续推送工作,Android则通过后台守护进程,和推送服务建立联系后获取推送内容。
最终,通过用户的历史的浏览记录,获取用户相应的科技信息主题,并根据对应的科技信息主题计算出用户对应的需求科技信息,最后利用推送API给对应的用户发送相应的科技信息。

Claims (7)

1.基于大数据的科技信息个性化定制推送系统,包括以下模块:信息基础库模块、文本及特征的分析模块、文本及特征的处理模块、LDA算法模块、关联规则算法模块和推送API进行信息推送模块;所述信息基础库模块是将用户作为一个研究对象,通过用户的浏览记录,依托于相应的数据分析和数据挖掘的分析方式,形成信息基础库,根据文本及特征进行分析,再进行文本及特征进行处理,利用LDA算法来分析科技信息的主题分布,利用关联规则算法来分析用户的主题分布,利用推送API进行信息推送,最终通过主题分析来得到用户的科技信息兴趣爱好来推送相应的科技信息。
2.根据权利要求1所述的基于大数据的科技信息个性化定制推送系统,所述形成信息基础库,其数据来源于用户自身浏览信息,由于用户浏览的信息过多,因此需要过滤一些信息,形成最终的基础库;所述文本特征进行分析包括文本分析和语义分析;文本分析,是通过分词来完成,分词主要的目的来完成语义分析;语义分析主要有以下几种方式:①基于字符串匹配的分词方法,此方法按照不同的扫描方式,逐个查找词库进行分词;②全切分方法,它首先切分出与词库匹配的所有可能的词,再运用统计语言模型决定最优的切分结果;③由字构词的分词方法,可以理解为字的分类问题。
3.根据权利要求2所述的基于大数据的科技信息个性化定制推送系统,所述的文本及特征处理,所述的分词可以形成一定规模的信息基础,但是由于分词中有大量分词是没有价值的,因此我们需要相应的技术手段或者是算法来得到我们需要的科技信息的关键词。
4.根据权利要求1所述的基于大数据的科技信息个性化定制推送系统,所述的LDA算法,该算法的核心的思想是,可以用生成模型来看文档和主题这两件事;所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到的。
5.根据权利要求1所述的基于大数据的科技信息个性化定制推送系统,所述的关联规则算法,第一个是相关性,第二个是关联性,两者都可以用来描述事件之间的关联程度;关联规则算法包括FP-Growth算法和Apriori算法;这两种算法都能很好完成关联规则的发现;在关联规则算法中有置信度和支持度的两种概念;只有一个关联规则的置信度和支持度同时满足最小阀值的时候才能认可事件之间的关联规则。
6.根据权利要求1所述的基于大数据的科技信息个性化定制推送系统,所述用户为Android和IOS用户。
7.根据权利要求1所述的基于大数据的科技信息个性化定制推送系统,所述的推送API进行信息推送,推送服务层组件中的IOS推送服务统一将推送信息送入APNS,由APNS负责后续推送工作;Android则通过后台守护进程,和推送服务建立联系后获取推送科技信息内容。
CN201710247797.9A 2017-04-17 2017-04-17 基于大数据的科技信息个性化定制推送系统 Pending CN106997397A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710247797.9A CN106997397A (zh) 2017-04-17 2017-04-17 基于大数据的科技信息个性化定制推送系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710247797.9A CN106997397A (zh) 2017-04-17 2017-04-17 基于大数据的科技信息个性化定制推送系统

Publications (1)

Publication Number Publication Date
CN106997397A true CN106997397A (zh) 2017-08-01

Family

ID=59434093

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710247797.9A Pending CN106997397A (zh) 2017-04-17 2017-04-17 基于大数据的科技信息个性化定制推送系统

Country Status (1)

Country Link
CN (1) CN106997397A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107911453A (zh) * 2017-11-16 2018-04-13 北京锐安科技有限公司 一种定制化客户端的数据处理方法及装置
CN110020117A (zh) * 2017-09-29 2019-07-16 北京搜狗科技发展有限公司 一种兴趣信息获取方法、装置及电子设备
CN110727794A (zh) * 2018-06-28 2020-01-24 上海传漾广告有限公司 一种网络语义收集分析及内容概括分析系统及方法
CN111274331A (zh) * 2020-01-15 2020-06-12 中国建设银行股份有限公司 关系数据管理维护系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102215300A (zh) * 2011-05-24 2011-10-12 中国联合网络通信集团有限公司 电信业务推荐方法和系统
CN102929928A (zh) * 2012-09-21 2013-02-13 北京格致璞科技有限公司 基于多维相似度的个性化新闻推荐方法
CN103559262A (zh) * 2013-11-04 2014-02-05 北京邮电大学 基于社区的作者及其学术论文推荐系统和推荐方法
US20140331142A1 (en) * 2013-05-06 2014-11-06 Tencent Technology (Shenzhen) Company Limited Method and system for recommending contents
CN105701182A (zh) * 2016-01-07 2016-06-22 百度在线网络技术(北京)有限公司 信息推送方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102215300A (zh) * 2011-05-24 2011-10-12 中国联合网络通信集团有限公司 电信业务推荐方法和系统
CN102929928A (zh) * 2012-09-21 2013-02-13 北京格致璞科技有限公司 基于多维相似度的个性化新闻推荐方法
US20140331142A1 (en) * 2013-05-06 2014-11-06 Tencent Technology (Shenzhen) Company Limited Method and system for recommending contents
CN103559262A (zh) * 2013-11-04 2014-02-05 北京邮电大学 基于社区的作者及其学术论文推荐系统和推荐方法
CN105701182A (zh) * 2016-01-07 2016-06-22 百度在线网络技术(北京)有限公司 信息推送方法和装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020117A (zh) * 2017-09-29 2019-07-16 北京搜狗科技发展有限公司 一种兴趣信息获取方法、装置及电子设备
CN110020117B (zh) * 2017-09-29 2022-05-03 北京搜狗科技发展有限公司 一种兴趣信息获取方法、装置及电子设备
CN107911453A (zh) * 2017-11-16 2018-04-13 北京锐安科技有限公司 一种定制化客户端的数据处理方法及装置
CN110727794A (zh) * 2018-06-28 2020-01-24 上海传漾广告有限公司 一种网络语义收集分析及内容概括分析系统及方法
CN111274331A (zh) * 2020-01-15 2020-06-12 中国建设银行股份有限公司 关系数据管理维护系统及方法

Similar Documents

Publication Publication Date Title
CN106250513B (zh) 一种基于事件建模的事件个性化分类方法及系统
CN106202211B (zh) 一种基于微博类型的集成微博谣言识别方法
CN101593200B (zh) 基于关键词频度分析的中文网页分类方法
CN104462085B (zh) 检索关键词纠错方法及装置
CN106997397A (zh) 基于大数据的科技信息个性化定制推送系统
CN108363725B (zh) 一种用户评论观点提取和观点标签生成的方法
CN104035975B (zh) 一种利用中文在线资源实现远程监督人物关系抽取的方法
Diesner ConText: Software for the integrated analysis of text data and network data
CN103678684A (zh) 一种基于导航信息检索的中文分词方法
CN107273474A (zh) 基于潜在语义分析的自动摘要抽取方法及系统
KR101696499B1 (ko) 한국어 키워드 검색문 해석 장치 및 방법
CN104268130A (zh) 一种面向Twitter的社交广告可投放性分析方法
CN103186633A (zh) 一种结构化信息抽取方法、搜索方法和装置
Narr et al. Extracting semantic annotations from twitter
Huddar et al. An ensemble approach to utterance level multimodal sentiment analysis
CN113032557A (zh) 一种基于频繁词集与bert语义的微博热点话题发现方法
Zhao et al. Keyword extraction for social media short text
CN104346382A (zh) 使用语言查询的文本分析系统和方法
CN111414471A (zh) 用于输出信息的方法和装置
CN115033661A (zh) 一种基于垂直领域知识图谱的自然语言语义理解方法和装置
Wei et al. Online education recommendation model based on user behavior data analysis
Rezaei et al. Sentiment analysis on Twitter using McDiarmid tree algorithm
Walha et al. A Lexicon approach to multidimensional analysis of tweets opinion
CN102541935A (zh) 一种新的基于特征向量的中文Web文档表示方法
CN111046168A (zh) 用于生成专利概述信息的方法、装置、电子设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Chen Wenhai

Inventor after: Chen Jinfeng

Inventor after: She Wenwen

Inventor after: Ma Xiao

Inventor after: Bai Daofei

Inventor before: Chen Wenhai

Inventor before: Jia Xu

Inventor before: Yan Binbin

Inventor before: Bai Daofei

Inventor before: Zhang Jun

Inventor before: Cheng Huajuan

Inventor before: Huo Yingxia

Inventor before: Ji Pengfei

Inventor before: Ding Ping

Inventor before: Huang Meizhen

Inventor before: Chen Jinfeng

Inventor before: Yao Yun

Inventor before: She Wenwen

Inventor before: Ma Xiao

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170801