CN110413899B - 服务器存储新闻的存储资源优化方法及系统 - Google Patents
服务器存储新闻的存储资源优化方法及系统 Download PDFInfo
- Publication number
- CN110413899B CN110413899B CN201910593949.XA CN201910593949A CN110413899B CN 110413899 B CN110413899 B CN 110413899B CN 201910593949 A CN201910593949 A CN 201910593949A CN 110413899 B CN110413899 B CN 110413899B
- Authority
- CN
- China
- Prior art keywords
- news
- data
- server
- module
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000005457 optimization Methods 0.000 title claims abstract description 29
- 238000012545 processing Methods 0.000 claims abstract description 57
- 238000004458 analytical method Methods 0.000 claims abstract description 25
- 230000011218 segmentation Effects 0.000 claims abstract description 18
- 238000010206 sensitivity analysis Methods 0.000 claims abstract description 14
- 238000000605 extraction Methods 0.000 claims abstract description 6
- 238000011156 evaluation Methods 0.000 claims description 34
- 238000013527 convolutional neural network Methods 0.000 claims description 19
- 238000001914 filtration Methods 0.000 claims description 10
- 238000013075 data extraction Methods 0.000 claims description 6
- 235000019633 pungent taste Nutrition 0.000 claims description 6
- 230000001172 regenerating effect Effects 0.000 claims description 3
- 238000002372 labelling Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000008030 elimination Effects 0.000 description 3
- 238000003379 elimination reaction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 101100481876 Danio rerio pbk gene Proteins 0.000 description 1
- 101100481878 Mus musculus Pbk gene Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/986—Document structures and storage, e.g. HTML extensions
Abstract
本发明公开了一种服务器存储新闻的存储资源优化方法及系统,涉及服务器资源优化技术领域,用于优化服务器的存储资源,包括:对新闻数据分类,并将获取的新闻数据格式化;将格式化新闻进行分词标注处理生成新闻处理数据;对标注的动词及名词敏感性分析生成分析结果;若分析结果中有敏感性词汇,将新闻处理数据对应的新闻数据过滤并删除;若分析结果不具有敏感性词汇,提取新闻处理数据中标注的动词及名词生成提取数据;根据提取数据生成新闻主题;对新闻主题中概率最大的主题求和;若求和结果大于或等于阈值,保留新闻主题对应的新闻数据,若求和结果小于阈值,删除新闻主题对应的新闻数据;从而提高了新闻提供商的服务器调用有价值的新闻的效率。
Description
技术领域
本发明涉及服务器资源优化技术领域,尤其涉及一种服务器存储新闻的存储资源优化方法及系统。
背景技术
随着互联网技术的发展,人们逐渐习惯从互联网上读取新闻来了解天下事,然而由于种种原因,互联网上出现了一些无意义的文章、广告软文等无价值的新闻,而这些无价值的新闻若出现在新闻提供商提供的新闻处,站在用户的角度来看,读取无价值的新闻会浪费用户的时间,站在新闻提供商的角度来看,用户若读取了过多的无价值新闻,则会慢慢失去对该新闻提供商的信任,从而换一个新闻提供商,这对新闻提供商也是极为不利的。
而为了剔除互联网上无价值的新闻,新闻提供商中的编辑、记者等工作岗位的人会通过人工判断新闻的价值,从而剔除一些无价值的新闻。
然而,互联网时代的信息量是呈爆炸式增长的,通过人工来剔除无价值的新闻需要极其庞大的团队来完成,而显然,大多数新闻提供商无法组建庞大的团队来完成无价值新闻的剔除,这就造成了无价值新闻的剔除效率低下的后果,从而使得无价值的新闻占据了新闻提供商使用服务器的大量存储资源,久而久之会出现新闻提供商的服务器在调用有价值的新闻时,效率低下的问题。
发明内容
本发明的主要目的在于提供一种服务器存储新闻的存储资源优化方法及系统,旨在解决现有技术中新闻提供商的服务器在调用有价值的新闻时,效率低下的技术问题。
为实现上述目的,本发明第一方面提供一种服务器存储新闻的存储资源优化方法,包括:对新闻数据进行分类,生成新闻类别,并将获取的新闻数据进行格式化,生成格式化新闻;在所述新闻类别下,将所述格式化新闻进行分词标注处理,生成新闻处理数据;对所述新闻处理数据中标注的动词及名词进行敏感性分析,生成分析结果;判断所述分析结果,若所述分析结果表明所述新闻处理数据中具有敏感性词汇,则将新闻处理数据对应的新闻数据过滤并删除;若所述分析结果表明所述新闻处理数据中不具有敏感性词汇,则提取所述新闻处理数据中标注的动词及名词,生成提取数据;根据所述提取数据生成至少一个新闻主题;对所有所述新闻主题中概率最大的主题进行求和,得到求和结果;将所述求和结果与预先设定的阈值对比,若所述求和结果大于或等于所述阈值,则保留所述新闻主题对应的新闻数据,若所述求和结果小于所述阈值,则删除所述新闻主题对应的新闻数据。
进一步地,所述方法还包括:对新闻数据进行排序;所述对新闻数据进行排序包括:获取新闻数据的新闻信息,所述新闻信息包括新闻时间、信息源、相似新闻数量及热度词;根据所述新闻信息对新闻数据的价值进行评估,生成新闻数据的评估数值;根据所述评估数值的大小,根据从大到小的顺序为新闻数据进行排序。
进一步地,设置三个阶段数值,根据所述阶段数值的范围将所述评估数值分为评估数值高、评估数值中及评估数值低三个阶段;将三个阶段数值范围内对应的新闻数据按照范围不同分别存储至服务器的不同区域内。
进一步地,所述方法还包括:根据所述三个阶段数值内的数值调用对应的新闻数据,且优先调用所述评估数值高的范围内的新闻数据,将调用的新闻数据输出并推送至用户处。
进一步地,所述方法还包括:获取并记录用户点击新闻数据对应的所述三个阶段数值内的点击频率;优先调用用户点击所述三个阶段数值内的新闻数据点击频率最高的新闻数据为用户推送新闻数据。
进一步地,所述方法还包括:根据所述点击频率计算用户在所述三个阶段数值内点击新闻数据的点击比率;根据所述点击比率从服务器内调用与所述点击比率相同比率的新闻数据推送至用户处。
进一步地,所述方法还包括:获取新闻数据的时间信息;根据所述时间信息将所有新闻数据分为第一时间段新闻、第二时间段新闻、第三时间段新闻及第四时间段新闻,所述第一时间段新闻为当天新闻数据,所述第二时间段新闻为当天至三天内的新闻数据,所述第三时间段新闻为三天至一周内的新闻数据,所述第四时间段新闻为一周外的新闻数据;记录用户点击不同时间段新闻的时间比率;根据所述时间比率从服务器内调用相同比率的第一时间段新闻、第二时间段新闻、第三时间段新闻及第四时间段新闻推送至用户处。
进一步地,所述方法还包括:采集用户在一天内的不同时间点击新闻数据的所述时间比率,生成分时比率;根据所述分时比率在一天内的不同时间段调用服务器内的新闻数据推送至用户处。
进一步地,所述方法还包括:记录每次为用户推送新闻数据的推荐方案及用户点击推荐方案内新闻数据的推荐结果;将所述推荐方案作为样本数据的输入数据,将所述推荐结果作为样本数据的输出数据训练卷积神经网络;在新的推荐方案生成后,将推荐方案输入所述卷积神经网络,所述卷积神经网络生成新的推荐结果;将所述卷积神经网络生成的新的推荐结果中用户点击推荐方案中新闻数据的比率与预设的评估比率进行对比,生成对比结果;对所述对比结果的进行判断,若所述对比结果合格,则按照推荐方案在服务器中调用新闻数据推送至用户处,若所述对比结果不合格,则重新生成推荐方案。
本发明第二方面提供一种服务器存储新闻的存储资源优化系统,包括:格式化模块,用于对新闻数据进行分类,生成新闻类别,并将获取的新闻数据进行格式化,生成格式化新闻;分词标注模块,用于在所述格式化模块设置的新闻类别下,将格式化新闻进行分词标注处理,生成新闻处理数据;敏感性分析模块,用于对所述分词标注模块生成的新闻处理数据中标注的动词及名词进行敏感性分析,生成分析结果;过滤模块,用于在所述敏感性分析模块生成的分析结果表明新闻处理数据中具有敏感性词汇时,将新闻处理数据对应的新闻数据过滤并删除;新闻数据提取模块,用于在所述分析结果表明所述新闻处理数据中不具有敏感性词汇时,则提取所述新闻处理数据中标注的动词及名词,生成提取数据;新闻主题生成模块,用于根据所述新闻数据提取模块生成的提取数据生成至少一个新闻主题;求和模块,用于对所述新闻主题模块生成的所有新闻主题中概率最大的主题进行求和,生成求和结果;新闻数据处理模块,用于将所述求和模块生成的求和结果与预先设定的阈值对比,若所述求和结果大于或等于所述阈值,则保留所述新闻主题对应的新闻,若所述求和结果小于所述阈值,则删除所述新闻主题对应的新闻数据。
本发明提供一种服务器存储新闻的存储资源优化方法及系统,有益效果在于:通过删除具有敏感性词汇的新闻数据,能够降低新闻数据中无效新闻数据的几率,从而减少了新闻数据占用的存储资源,并且在删除求和结果小于预置的新闻数据后,表明删除了无价值或价值低的新闻数据,进一步地减少了新闻数据占用的存储资源,从而提高了新闻提供商的服务器调用有价值的新闻的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例服务器存储新闻的存储资源优化方法的流程示意框图;
图2为本发明实施例服务器存储新闻的存储资源优化系统的结构示意框图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,为一种服务器存储新闻的存储资源优化方法,包括:S1、对新闻数据进行分类,生成新闻类别,并将获取的新闻数据进行格式化,生成格式化新闻;S2、在新闻类别下,将格式化新闻进行分词标注处理,生成新闻处理数据;S3、对新闻处理数据中标注的动词及名词进行敏感性分析,生成分析结果;S4、判断分析结果,若分析结果表明新闻处理数据中具有敏感性词汇,则将新闻处理数据对应的新闻数据过滤并删除;S5、若分析结果表明新闻处理数据中不具有敏感性词汇,则提取新闻处理数据中标注的动词及名词,生成提取数据;S6、根据提取数据生成至少一个新闻主题;S7、对所有新闻主题中概率最大的主题进行求和,得到求和结果;S8、将求和结果与预先设定的阈值对比,若求和结果大于或等于阈值,则保留新闻主题对应的新闻数据,若求和结果小于阈值,则删除新闻主题对应的新闻数据。
在本实施例中,在将新闻格式化为公式后,格式化的公式具体为X=(X1,X2,……Xn)其中,X代表一条新闻,Xn代表新闻的特征,例如新闻标题、新闻日期、新闻内容等,X1,X2,……Xn所代表的具体特征则可根据实际需要设置。
在步骤S2中,通过将新闻X输入到预先训练的马尔可夫模型(HMM)中,进行分词及动词的标注处理,从而得到新闻处理数据。使得新闻处理数据中包含其对应的新闻数据中的动词及名词均进行了标注。
在步骤S5中,步骤S5还包括:将提取数据作为其对应新闻数据的敏感数据或核心数据,并将标注的名词及动词记为X’,此时由马尔可夫模型可知,X’=HMM_word_segmentation(x),从而得到具体公式化的提取数据。
在步骤S6中,步骤S6还包括:将步骤S5得到的X’作为输入数据输入预先训练好的文档主题生成模型(LDA)中,LDA的输出即为X’的主题分布,由LDA可知X’的主题分布可用Y=(Y1,Y2,……Ym)表示,其中,Y为X’的主题,m为X’的主题数量。
文档主题生成模型的训练方法步骤如下:从权威新闻源获取权威新闻,并将权威新闻格式化为公式,具体为:X=(X1,X2,……Xn)其中,X代表一条新闻,Xn代表新闻的特征,例如新闻标题、新闻日期、新闻内容等,X1,X2,……Xn所代表的具体特征则可根据实际需要设置;设定权威新闻的类别;在上述设定的权威新闻的类别下,将权威新闻X输入到马尔可夫模型(HMM)中,马尔可夫模型(HMM)对权威新闻进行分词标注处理,得到权威新闻处理数据,使得权威新闻处理数据中包含其对应的权威新闻数据中的动词及名词均进行了标注;提取权威新闻处理数据中的标注的名词及动词,得到词汇数据,并将词汇数据作为其对应权威新闻的敏感数据或核心数据,在将标注的名词及动词记为X’后,由马尔可夫模型(HMM)可知,X’=HMM_word_segmentation(x);将X’作为样本数据的输入数据,将X’对应的权威新闻的主题数据作为输出数据,对文档主题生成模型(LDA)进行训练,得到文档主题生成模型(LDA)。
在步骤S7中,步骤S7主要用于对新闻主题的鲜明度进行判断,其主要实现步骤如下:在步骤S6计算出的Y中得到概率最大的k个主题进行求和,得到求和结果,若求和结果大于预设的阈值,则说明k个主题中的主题代表的新闻具有价值,随后保留该条新闻;若求和结果小于预设的阈值,则说明k个主题中的主题代表的新闻不具有价值,将不具有价值的新闻作为无效新闻,随后放弃该条新闻,从而剔除了无效新闻。
在本实施例中,将求和结果小于阈值的新闻数据,以及分析结果中有敏感性词汇的新闻数据定义为不具备价值的新闻,因此其对应的新闻为无效新闻,在服务器中剔除了无效新闻后,能够释放服务器的存储资源,从而提高了服务器调用有价值的新闻时的效率。
服务器存储新闻的存储资源优化方法还包括:对新闻数据进行排序;对新闻数据进行排序包括:获取新闻数据的新闻信息,新闻信息包括新闻时间、信息源、相似新闻数量及热度词;根据新闻信息对新闻数据的价值进行评估,生成新闻数据的评估数值;根据评估数值的大小,根据从大到小的顺序为新闻数据进行排序。
在预定的时间内,根据以下四个特征:时间,信息源,相似新闻数量,以及热度词,最终输出k个新闻,使用新闻价值计算算法Valuable_news=TopK(time,source,similarityquantity,hot_words)对该条新闻进行价值评估,根据新闻价值的高低对新闻的先后顺序进行排序,其中,time代表新闻时间,source代表新闻信息源,similarityquantity代表相似新闻数量,hot_words代表新闻热度词。
通过在剔除无效新闻后对有价值的新闻数据进行排序,使得服务器在调用有价值的新闻数据时,根据新闻数据的价值型高低,直接锁定需要调取的新闻数据所在的价值范围,从而使得服务器能够更加快速地调用需要调用的新闻数据。
对新闻数据进行排序还包括:设置三个阶段数值,根据阶段数值的范围将评估数值分为评估数值高、评估数值中及评估数值低三个阶段;将三个阶段数值范围内对应的新闻数据按照范围不同分别存储至服务器的不同区域内。
通过根据新闻数据的价值不同而将新闻数据分为三个阶段数据的新闻数据,能够使得新闻所在的价值范围更加明确,从而在服务器调取有价值的新闻时,能够更加快速地锁定该新闻所在的价值范围,从而提高服务器调取新闻的速度。
服务器存储新闻的存储资源优化方法还包括:根据三个阶段数值内的数值调用对应的新闻数据,且优先调用评估数值高的范围内的新闻数据,将调用的新闻数据输出并推送至用户处。
在为用户推荐不同价值阶段的新闻时,服务器能够快速锁定新闻所在的价值范围,从而使得服务器能够更加快速地调用新闻数据为用户推荐新闻。
服务器存储新闻的存储资源优化方法还包括:获取并记录用户点击新闻数据对应的三个阶段数值内的点击频率;优先调用用户点击三个阶段数值内的新闻数据点击频率最高的新闻数据为用户推送新闻数据。
通过记录用户对不同价值阶段新闻的点击频率,根据点库频率最高的价值阶段内的新闻数据为用户推荐新闻,能够使得服务器在调取新闻数据而为用户推荐新闻时,更加丰富服务器调取新闻的数据方式,并且能够使得为用户推荐的新闻,更加符合用户的价值取向,从而在提升用户的体验度的基础上,提升服务器调取新闻数据为用户推荐新闻的速率。
服务器存储新闻的存储资源优化方法还包括:根据点击频率计算用户在三个阶段数值内点击新闻数据的点击比率;根据点击比率从服务器内调用与点击比率相同比率的新闻数据推送至用户处。
根据用户在不同阶段对新闻的点击比率为用户推送相同比率的新闻,能够根据用户的个人习惯而改变为用户调取并推荐不同价值阶段新闻的比率,从而更加规范化服务器调取新闻数据时的方式,从而提升了服务器调取新闻的速率。
服务器存储新闻的存储资源优化方法还包括:获取新闻数据的时间信息;根据时间信息将所有新闻数据分为第一时间段新闻、第二时间段新闻、第三时间段新闻及第四时间段新闻,第一时间段新闻为当天新闻数据,第二时间段新闻为当天至三天内的新闻数据,第三时间段新闻为三天至一周内的新闻数据,第四时间段新闻为一周外的新闻数据;记录用户点击不同时间段新闻的时间比率;根据时间比率从服务器内调用相同比率的第一时间段新闻、第二时间段新闻、第三时间段新闻及第四时间段新闻推送至用户处。
通过收集用户点击不同时间的时间比率内的新闻,能够使得服务器为用户推荐新闻时,能够推荐相同时间比率的新闻,从而使得服务器在调取新闻数据时,能够更加规范化,因此提升了服务器调取新闻的速率。
服务器存储新闻的存储资源优化方法还包括:采集用户在一天内的不同时间点击新闻数据的时间比率,生成分时比率;根据分时比率在一天内的不同时间段调用服务器内的新闻数据推送至用户处。
通过收集用户在一天的时间内的不同时间的点击新闻的分时比率,能够使得服务器为用户推荐新闻时,能够推荐相同分时比率的新闻,从而使得服务器在调取新闻数据时,能够更加规范化,因此提升了服务器调取新闻的速率。
服务器存储新闻的存储资源优化方法还包括:记录每次为用户推送新闻数据的推荐方案及用户点击推荐方案内新闻数据的推荐结果;将推荐方案作为样本数据的输入数据,将推荐结果作为样本数据的输出数据训练卷积神经网络;在新的推荐方案生成后,将推荐方案输入卷积神经网络,卷积神经网络生成新的推荐结果;将卷积神经网络生成的新的推荐结果中用户点击推荐方案中新闻数据的比率与预设的评估比率进行对比,生成对比结果;对对比结果的进行判断,若对比结果合格,则按照推荐方案在服务器中调用新闻数据推送至用户处,若对比结果不合格,则重新生成推荐方案。
在用户点击新闻的时间价值阶段、时间比率、分时比率等发生改变时,服务器为用户推荐新闻的推荐方案也应当相应做出改变,而通过不断使用推荐方案及推荐结果训练卷积神经网络,能够使得推荐方案无限接近于用户点击新闻的习惯,从而使得服务器能够更加准确地调取新闻数据,而随着服务器调取新闻数据准确性的提升,降低了误差较大的推荐方案的产生而使得服务器重新调取新闻数据的几率,从而提升了服务器调取新闻数据的速率。
请参阅图2,本发明实施例提供一种服务器存储新闻的存储资源优化系统,该系统包括:格式化模块、分词标注模块、敏感性分析模块、过滤模块、新闻数据提取模块、新闻主题生成模块、求和模块及新闻数据处理模块;格式化模块用于对新闻数据进行分类,生成新闻类别,并将获取的新闻数据进行格式化,生成格式化新闻;分词标注模块用于在格式化模块设置的新闻类别下,将格式化新闻进行分词标注处理,生成新闻处理数据;敏感性分析模块用于对分词标注模块生成的新闻处理数据中标注的动词及名词进行敏感性分析,生成分析结果;过滤模块用于在敏感性分析模块生成的分析结果表明新闻处理数据中具有敏感性词汇时,将新闻处理数据对应的新闻数据过滤并删除;新闻数据提取模块用于在分析结果表明新闻处理数据中不具有敏感性词汇时,则提取新闻处理数据中标注的动词及名词,生成提取数据;新闻主题生成模块用于根据新闻数据提取模块生成的提取数据生成至少一个新闻主题;求和模块用于对新闻主题模块生成的所有新闻主题中概率最大的主题进行求和,生成求和结果;新闻数据处理模块用于将求和模块生成的求和结果与预先设定的阈值对比,若求和结果大于或等于阈值,则保留新闻主题对应的新闻,若求和结果小于阈值,则删除新闻主题对应的新闻数据。
服务器存储新闻的存储资源优化系统还包括:排序模块,排序模块用于对新闻数据进行排序;排序模块包括:新闻信息获取单元、评估单元及排序单元;新闻信息获取单元用于获取新闻数据的新闻信息,新闻信息包括新闻事件、信息员、相似新闻数量及热度词;评估单元用于根据新闻信息获取单元获取的新闻信息对新闻数据的价值进行评估,生成新闻数据的评估数值;排序单元用于根据评估单元生成的评估数值的大小,并根据从小到达的顺序为新闻数据进行排序。
排序模块还包括:数值设置单元及分类存储单元;数值设置单元用于设置三个阶段数值,根据阶段数值的范围将评估数值范围评估数值高、评估数值中级评估范围低三个阶段;分类存储单元用于将数值设置单元设置的三个阶段数值范围内对应的新闻数据按照范围不同分别存储至服务器的不同区域内。
服务器存储新闻的存储资源优化系统还包括:第一推送模块;第一推送模块用于根据数值设置单元设置的三个阶段数值内的数值调用对应的新闻数据,且优先调用评估数值高的范围内的新闻数据,将调用的新闻数据输出并推动至用户处。
服务器存储新闻的存储资源优化系统还包括:点击频率获取模块及第二推送模块;点击频率获取模块用于获取并记录用户点击新闻数据对应的数值设置单元设置的三个阶段数值内的点击频率;第二推送模块用于优先调用用户点击数值设置单元设置的三个阶段数值内的新闻数据点击频率最高的新闻数据为用户推送新闻数据。
服务器存储新闻的存储资源优化系统还包括:点击比率获取模块及第三推送模块;点击比率获取模块用于根据点击频率获取模块获取的点击频率计算用户在数值设置单元设置的三个数值阶段内点击新闻数据的点击比率;第三推送模块用于根据点击比率获取模块获取的点击比率从服务器内调用与点击比率相同比率的新闻数据推送至用户处。
服务器存储新闻的存储资源优化系统还包括:时间信息获取模块、新闻数据分时模块、时间比率记录模块及第四推送模块;时间信息获取模块用于获取新闻数据的时间信息;新闻数据分时模块用于根据时间信息获取模块获取的时间信息将所有的新闻数据分为第一时间段新闻、第二时间段新闻、第三时间段新闻及第四时间段新闻,第一时间段新闻为当天新闻数据,第二时间段新闻为当天至三天内的新闻数据,第三时间段新闻为三天至一周内的新闻数据,第四时间段新闻为一周外的新闻数据;时间比率记录模块用于记录用户点击新闻数据分时模块划分的不同时间段新闻的时间比率;第四推送模块用于根据时间比率记录模块记录的时间比率从服务器内相同比率的第一时间段新闻、第二时间段新闻、第三时间段新闻及第四时间段新闻推送至用户处。
服务器存储新闻的存储资源优化系统还包括:分时比率获取模块及第五推送模块;分时比率获取模块用于采集用户在一天内的不同时间点击新闻数据的时间比率,生成分时比率;第五推送模块用于根据分时比率获取模块获取的分时比率在一天内的不同时间段调用服务器内的新闻数据推送至用户处。
服务器存储新闻的存储资源优化系统还包括:推荐结果记录模块、卷积神经网络训练模块、推荐结果生成模块、对比结果生成模块及对比结果判断模块;推荐结果记录模块用于记录每次为用户推送新闻数据的推荐方案及用户点击推荐方案内新闻数据的推荐结果;卷积神经网路训练模块用于将推介结果记录模块记录的推荐方案作为样本数据的输入数据,并将推荐结果作为样本数据的输出数据训练卷积神经网络;推荐结果生成模块用于在新的推荐方案生成后,将新的推荐方案输入卷积神经网络训练模块训练的卷积神经网络,卷积神经网络根据新的推荐方案生成新的推荐结果;对比结果生成模块用于将推荐结果生成模块生成的推荐结果中用户点击推荐方案中新闻数据的比率与预设的评估比率进行对比,生成对比结果;对比结果判断模块用于将对比结果生成模块生成的对比结果进行判断,若对比结果合格,则按照推荐方案在服务器中调用新闻数据推送至用户处,若对比结果不合格,则重新调用推荐结果生成模块而重新生成推荐方案。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上为对本发明所提供的一种服务器存储新闻的存储资源优化方法及系统的描述,对于本领域的技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种服务器存储新闻的存储资源优化方法,其特征在于,包括:
对新闻数据进行分类,生成新闻类别,并将获取的新闻数据进行格式化,生成格式化新闻;
在所述新闻类别下,将所述格式化新闻进行分词标注处理,生成新闻处理数据;
对所述新闻处理数据中标注的动词及名词进行敏感性分析,生成分析结果;
判断所述分析结果,若所述分析结果表明所述新闻处理数据中具有敏感性词汇,则将新闻处理数据对应的新闻数据过滤并删除;
若所述分析结果表明所述新闻处理数据中不具有敏感性词汇,则提取所述新闻处理数据中标注的动词及名词,生成提取数据;
将所述提取数据作为输入数据输入预先训练好的文档主题生成模型LDA,生成至少一个新闻主题的主题概率分布;
对所有所述新闻主题中概率最大的k个主题的概率进行求和,得到求和结果;
将所述求和结果与预先设定的阈值对比,若所述求和结果大于或等于所述阈值,则保留所述新闻主题对应的新闻数据,若所述求和结果小于所述阈值,则删除所述新闻主题对应的新闻数据。
2.根据权利要求1所述的服务器存储新闻的存储资源优化方法,其特征在于,所述方法还包括:对新闻数据进行排序;
所述对新闻数据进行排序包括:
获取新闻数据的新闻信息,所述新闻信息包括新闻时间、信息源、相似新闻数量及热度词;
根据所述新闻信息对新闻数据的价值进行评估,生成新闻数据的评估数值;
根据所述评估数值的大小,根据从大到小的顺序为新闻数据进行排序。
3.根据权利要求2所述的服务器存储新闻的存储资源优化方法,其特征在于,所述对新闻数据进行排序还包括:
设置三个阶段数值,根据所述阶段数值的范围将所述评估数值分为评估数值高、评估数值中及评估数值低三个阶段;
将三个阶段数值范围内对应的新闻数据按照范围不同分别存储至服务器的不同区域内。
4.根据权利要求3所述的服务器存储新闻的存储资源优化方法,其特征在于,所述方法还包括:
根据所述三个阶段数值内的数值调用对应的新闻数据,且优先调用所述评估数值高的范围内的新闻数据,将调用的新闻数据输出并推送至用户处。
5.根据权利要求3所述的服务器存储新闻的存储资源优化方法,其特征在于,所述方法还包括:
获取并记录用户点击新闻数据对应的所述三个阶段数值内的点击频率;
优先调用用户点击所述三个阶段数值内的新闻数据点击频率最高的新闻数据为用户推送新闻数据。
6.根据权利要求5所述的服务器存储新闻的存储资源优化方法,其特征在于,所述方法还包括:
根据所述点击频率计算用户在所述三个阶段数值内点击新闻数据的点击比率;
根据所述点击比率从服务器内调用与所述点击比率相同比率的新闻数据推送至用户处。
7.根据权利要求1所述的服务器存储新闻的存储资源优化方法,其特征在于,所述方法还包括:
获取新闻数据的时间信息;
根据所述时间信息将所有新闻数据分为第一时间段新闻、第二时间段新闻、第三时间段新闻及第四时间段新闻,所述第一时间段新闻为当天新闻数据,所述第二时间段新闻为当天至三天内的新闻数据,所述第三时间段新闻为三天至一周内的新闻数据,所述第四时间段新闻为一周外的新闻数据;
记录用户点击不同时间段新闻的时间比率;
根据所述时间比率从服务器内调用相同比率的第一时间段新闻、第二时间段新闻、第三时间段新闻及第四时间段新闻推送至用户处。
8.根据权利要求7所述的服务器存储新闻的存储资源优化方法,其特征在于,所述方法还包括:
采集用户在一天内的不同时间点击新闻数据的所述时间比率,生成分时比率;
根据所述分时比率在一天内的不同时间段调用服务器内的新闻数据推送至用户处。
9.根据权利要求8所述的服务器存储新闻的存储资源优化方法,其特征在于,所述方法还包括:
记录每次为用户推送新闻数据的推荐方案及用户点击推荐方案内新闻数据的推荐结果;
将所述推荐方案作为样本数据的输入数据,将所述推荐结果作为样本数据的输出数据训练卷积神经网络;
在新的推荐方案生成后,将推荐方案输入所述卷积神经网络,所述卷积神经网络生成新的推荐结果;
将所述卷积神经网络生成的新的推荐结果中用户点击推荐方案中新闻数据的比率与预设的评估比率进行对比,生成对比结果;
对所述对比结果的进行判断,若所述对比结果合格,则按照推荐方案在服务器中调用新闻数据推送至用户处,若所述对比结果不合格,则重新生成推荐方案。
10.一种服务器存储新闻的存储资源优化系统,其特征在于,包括:
格式化模块,用于对新闻数据进行分类,生成新闻类别,并将获取的新闻数据进行格式化,生成格式化新闻;
分词标注模块,用于在所述格式化模块设置的新闻类别下,将格式化新闻进行分词标注处理,生成新闻处理数据;
敏感性分析模块,用于对所述分词标注模块生成的新闻处理数据中标注的动词及名词进行敏感性分析,生成分析结果;
过滤模块,用于在所述敏感性分析模块生成的分析结果表明新闻处理数据中具有敏感性词汇时,将新闻处理数据对应的新闻数据过滤并删除;
新闻数据提取模块,用于在所述分析结果表明所述新闻处理数据中不具有敏感性词汇时,则提取所述新闻处理数据中标注的动词及名词,生成提取数据;
新闻主题生成模块,用于将所述提取数据作为输入数据输入预先训练好的文档主题生成模型LDA,生成至少一个新闻主题的主题概率分布;
求和模块,用于对所述新闻主题生成模块生成的所有新闻主题中概率最大的k个主题的概率进行求和,生成求和结果;
新闻数据处理模块,用于将所述求和模块生成的求和结果与预先设定的阈值对比,若所述求和结果大于或等于所述阈值,则保留所述新闻主题对应的新闻,若所述求和结果小于所述阈值,则删除所述新闻主题对应的新闻数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910593949.XA CN110413899B (zh) | 2019-07-03 | 2019-07-03 | 服务器存储新闻的存储资源优化方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910593949.XA CN110413899B (zh) | 2019-07-03 | 2019-07-03 | 服务器存储新闻的存储资源优化方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110413899A CN110413899A (zh) | 2019-11-05 |
CN110413899B true CN110413899B (zh) | 2024-03-08 |
Family
ID=68358736
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910593949.XA Active CN110413899B (zh) | 2019-07-03 | 2019-07-03 | 服务器存储新闻的存储资源优化方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110413899B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113010797B (zh) * | 2021-04-15 | 2022-04-12 | 贵州华泰智远大数据服务有限公司 | 一种基于云平台的智慧城市数据分享方法及其系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108460150A (zh) * | 2018-03-23 | 2018-08-28 | 北京奇虎科技有限公司 | 新闻标题的处理方法及装置 |
CN109344256A (zh) * | 2018-10-12 | 2019-02-15 | 中国科学院重庆绿色智能技术研究院 | 一种新闻稿件主题分类及审核方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014089570A (ja) * | 2012-10-30 | 2014-05-15 | Toshiba Corp | 感性検索装置、方法およびプログラム |
-
2019
- 2019-07-03 CN CN201910593949.XA patent/CN110413899B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108460150A (zh) * | 2018-03-23 | 2018-08-28 | 北京奇虎科技有限公司 | 新闻标题的处理方法及装置 |
CN109344256A (zh) * | 2018-10-12 | 2019-02-15 | 中国科学院重庆绿色智能技术研究院 | 一种新闻稿件主题分类及审核方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110413899A (zh) | 2019-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8868609B2 (en) | Tagging method and apparatus based on structured data set | |
CN105069102A (zh) | 信息推送方法和装置 | |
EP2339514A1 (en) | System and method for identifying topics for short text communications | |
US20120166438A1 (en) | System and method for recommending queries related to trending topics based on a received query | |
WO2022116536A1 (zh) | 信息服务提供方法、装置、电子设备和存储介质 | |
WO2008022581A1 (fr) | Procédé et dispositif d'obtention de mots nouveaux et système et procédé de saisie | |
JP2006293767A (ja) | 文章分類装置、文章分類方法および分類辞書作成装置 | |
CN109508448A (zh) | 基于长篇文章生成短资讯方法、介质、装置和计算设备 | |
CN113139141A (zh) | 用户标签扩展标注方法、装置、设备及存储介质 | |
CN114238573A (zh) | 基于文本对抗样例的信息推送方法及装置 | |
CN115795030A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN110717788A (zh) | 一种目标用户的筛选方法及装置 | |
CN110019763B (zh) | 文本过滤方法、系统、设备及计算机可读存储介质 | |
CN110413899B (zh) | 服务器存储新闻的存储资源优化方法及系统 | |
US20140013223A1 (en) | System and method for contextual visualization of content | |
CN113934834A (zh) | 一种问句匹配的方法、装置、设备和存储介质 | |
CN116882414B (zh) | 基于大规模语言模型的评语自动生成方法及相关装置 | |
CN112069803A (zh) | 文本备份方法、装置、设备及计算机可读存储介质 | |
CN111859079A (zh) | 信息搜索方法、装置、计算机设备及存储介质 | |
CN115510326A (zh) | 基于文本特征和情感倾向的网络论坛用户兴趣推荐算法 | |
JP2004341948A (ja) | 概念抽出システム、概念抽出方法、プログラム及び記憶媒体 | |
CN113515663A (zh) | 一种评论信息的显示方法、装置、电子设备及存储介质 | |
CN107577690B (zh) | 海量信息数据的推荐方法及推荐装置 | |
CN106776529B (zh) | 业务情感分析方法及装置 | |
Brewer et al. | Age-Suitability Prediction for Literature Using a Recurrent Neural Network Model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |