CN110413863A - 一种基于深度学习的舆情新闻去重与推送方法 - Google Patents
一种基于深度学习的舆情新闻去重与推送方法 Download PDFInfo
- Publication number
- CN110413863A CN110413863A CN201910707729.5A CN201910707729A CN110413863A CN 110413863 A CN110413863 A CN 110413863A CN 201910707729 A CN201910707729 A CN 201910707729A CN 110413863 A CN110413863 A CN 110413863A
- Authority
- CN
- China
- Prior art keywords
- news
- text
- data
- duplicate removal
- public sentiment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000013135 deep learning Methods 0.000 title claims abstract description 20
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 14
- 238000005194 fractionation Methods 0.000 claims description 8
- 238000013499 data model Methods 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 3
- 230000007423 decrease Effects 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 238000007619 statistical method Methods 0.000 claims description 3
- 241001269238 Data Species 0.000 abstract description 3
- 230000000694 effects Effects 0.000 abstract description 3
- 238000012216 screening Methods 0.000 abstract description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于深度学习的舆情新闻去重与推送方法,包括以下步骤,网络数据爬取,利用爬虫技术在各类新闻网站、政府公开网站爬取金融相关新闻信息文章,将爬取的新闻文本化,设一段时间内爬取的金融相关新闻信息为Fz,其中z代表周期,生成主题关键词,通过计算待处理文本的相同新闻实体的z周期内收集到的可能相似新闻数据,生成每篇新闻的主题关键词。本发明中,对公告、新闻等舆情数据,设计并实现文本去重算法方案,筛选描述同一事件的相似文本,避免信息损失重复资讯识别,算法简明,效果显著,可以大大提高业务人员的风险预警新闻阅读量。
Description
技术领域
本发明涉及自然语言处理的技术领域,尤其涉及一种基于深度学习的舆情新闻去重与推送方法。
背景技术
新闻情数据来自各大门户网站,因为对同一事件的报道各大网站可能会相互转载引用,也可能用不同的措辞描述同一事件,内容相似的概率很高,会给阅读,统计和分析带来较大噪声干扰,舆情预警也会出现重复预警信号。
在NLP领域,基于语义的去重,一直是个难题:同样一个意思,可以有很多种说法,这些说法在语义上是十分接近的,目前在相似新闻去重方面,有人工运营相似新闻去重技术方案,这种方法成本高昂,有遗漏风险,该发明针对公告、新闻等舆情数据,设计并实现文本去重算法方案,筛选描述同一事件的相似文本,避免信息损失。
发明内容
本发明的目的是为了解决现有技术中存在的缺点,而提出的一种基于深度学习的舆情新闻去重与推送方法。
为了实现上述目的,本发明采用了如下技术方案:一种基于深度学习的舆情新闻去重与推送方法,包括以下步骤:
S1:网络数据爬取,利用爬虫技术在各类新闻网站、政府公开网站爬取金融相关新闻信息文章,将爬取的新闻文本化,设一段时间内爬取的金融相关新闻信息为Fz,其中z代表周期;
S2:生成主题关键词,通过计算待处理文本的相同新闻实体的z周期内收集到的可能相似新闻数据,生成每篇新闻的主题关键词;
S3:舆情新闻去重,对新闻进行聚类,只将主信号新闻推送给用户,推送主信号的主题关键词;
S4:主题关键词推送,通过实时预测的新闻热点关键词与金融词库的关联度,并将主题关键词推送给用户。
作为上述技术方案的进一步描述:
所述网络爬虫技术是指一种按照一定的规则自动地抓取网站上发布的信息的程序或者脚本,且网络爬虫的爬行策略包括深度优先策略和广度优先策略。
作为上述技术方案的进一步描述:
所述网络爬虫技术的模式为基于目标数据模式,且目标数据模式的网络爬虫技术的爬虫针对的是网页上的数据,所抓取的数据符合一定的模式,且可以转化或映射为目标数据模式。
作为上述技术方案的进一步描述:
所述S2步骤中通过计算待处理文本的相同新闻实体的z周期内收集到的可能相似新闻数据,生成每篇新闻的主题关键词,包括以下步骤:
S2.1:对每篇新闻进行清洗预处理;
S2.2:文本向量化,算出基于TF-IDF算法获得的每篇新闻的每个词汇的TF-IDF值设置为A,同时查询该关键词在历史高风险新闻库的TF-IDF值设置为B;
S2.3:将A和B的共同的关键词设置为主题关键词。
作为上述技术方案的进一步描述:
所述TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度,字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降,TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。
作为上述技术方案的进一步描述:
所述S3步骤中对新闻进行聚类,只将主信号新闻推送给用户,在聚类过程中判断相似新闻数据标题和正文对中的处理文本的标题和正文主题的相似度包括以下步骤:
S3.1:判断相似新闻数据标题和正文对中的处理文本的标题和正文主题的相似度,设定相似度阈值T;
S3.2:如果判断相似新闻数据对中的预设文本主题不存在相似度阈值大于相似度阈值T的新闻,则保留待处理新闻文本为新闻舆情的主信号;
S3.3:如果存在多条相似新闻数据对中的预设文本主题相似度阈值大于相似度阈值T的新闻,则保留待处理新闻文本为更新时间和权威媒体的相似新闻数据的子信号。
作为上述技术方案的进一步描述:
所述S3步骤中对新闻进行聚类,只将主信号新闻推送给用户,在聚类过程中判断相似新闻数据标题和正文对中的处理文本的标题和正文的内容相似度包括以下步骤:
S3.4:判断相似新闻数据标题和正文对中的处理文本的标题和正文的内容相似度,设定相似度阈值P;
S3.5:如果判断所述相似新闻数据对中的预设文本内容不存在相似度阈值大于P的新闻,则保留待处理新闻文本为新闻舆情的主信号。
作为上述技术方案的进一步描述:
所述S3步骤中对新闻进行聚类,只将主信号新闻推送给用户,对主信号新闻推送包括以下步骤:
S3.6:目标新闻与对比新闻为相似新闻;
S3.7:对相似新闻进行去重处理,只推送主信号新闻以及主信号新闻的主题词和关键词给用户。
作为上述技术方案的进一步描述:
所述S3.2步骤中判断相似新闻数据标题和正文对中的处理文本的标题和正文主题的相似度阈值,包括以下步骤:
S3.2.1:根据标记对新闻分类;
S3.2.2:针对分类后的文本数据进行对每个类别下的数据文本集合中的每一条数据进行n-grams拆分,获得各个分类下的训练特征集;将正文的内容用词袋模型将训练特征集转换为词向量;
S3.2.3:将S3.2.2步骤中获得的词向量作为神经网络的输入进行训练,获得不同分类下的语义模型,计算待分类的文本与已经训练好的各个类别的语义模型之间的相似度值。
作为上述技术方案的进一步描述:
所述n-grams拆分用于针对分类后的文本数据进行多元组拆分,获得各个分类下的训练特征集,其中,n-grams拆分具体包括:对每个类别下的数据文本集合中的每一条数据进行n-grams拆分,拆分为由二元词组、三元词组和原文本组成的该类别下的训练特征集,并对训练特征集中的词组进行去重处理。
有益效果
本发明提供了一种基于深度学习的舆情新闻去重与推送方法。具备以下有益效果:
该基于深度学习的舆情新闻去重与推送方法对公告、新闻等舆情数据,设计并实现文本去重算法方案,筛选描述同一事件的相似文本,避免信息损失重复资讯识别,算法简明,效果显著,可以大大提高业务人员的风险预警新闻阅读量。
附图说明
图1为本发明提出的一种基于深度学习的舆情新闻去重与推送方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
参照图1,一种基于深度学习的舆情新闻去重与推送方法,包括以下步骤:
S1:网络数据爬取,利用爬虫技术在各类新闻网站、政府公开网站爬取金融相关新闻信息文章,将爬取的新闻文本化,设一段时间内爬取的金融相关新闻信息为Fz,其中z代表周期;
S2:生成主题关键词,通过计算待处理文本的相同新闻实体的z周期内收集到的可能相似新闻数据,生成每篇新闻的主题关键词;
S3:舆情新闻去重,对新闻进行聚类,只将主信号新闻推送给用户,推送主信号的主题关键词;
S4:主题关键词推送,通过实时预测的新闻热点关键词与金融词库的关联度,并将主题关键词推送给用户。
网络爬虫技术是指一种按照一定的规则自动地抓取网站上发布的信息的程序或者脚本,且网络爬虫的爬行策略包括深度优先策略和广度优先策略。
网络爬虫技术的模式为基于目标数据模式,且目标数据模式的网络爬虫技术的爬虫针对的是网页上的数据,所抓取的数据符合一定的模式,且可以转化或映射为目标数据模式。
S2步骤中通过计算待处理文本的相同新闻实体的z周期内收集到的可能相似新闻数据,生成每篇新闻的主题关键词,包括以下步骤:
S2.1:对每篇新闻进行清洗预处理;
S2.2:文本向量化,算出基于TF-IDF算法获得的每篇新闻的每个词汇的TF-IDF值设置为A,同时查询该关键词在历史高风险新闻库的TF-IDF值设置为B;
S2.3:将A和B的共同的关键词设置为主题关键词。
TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度,字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降,TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。
S3步骤中对新闻进行聚类,只将主信号新闻推送给用户,在聚类过程中判断相似新闻数据标题和正文对中的处理文本的标题和正文主题的相似度包括以下步骤:
S3.1:判断相似新闻数据标题和正文对中的处理文本的标题和正文主题的相似度,设定相似度阈值T;
S3.2:如果判断相似新闻数据对中的预设文本主题不存在相似度阈值大于相似度阈值T的新闻,则保留待处理新闻文本为新闻舆情的主信号;
S3.3:如果存在多条相似新闻数据对中的预设文本主题相似度阈值大于相似度阈值T的新闻,则保留待处理新闻文本为更新时间和权威媒体的相似新闻数据的子信号。
S3步骤中对新闻进行聚类,只将主信号新闻推送给用户,在聚类过程中判断相似新闻数据标题和正文对中的处理文本的标题和正文的内容相似度包括以下步骤:
S3.4:判断相似新闻数据标题和正文对中的处理文本的标题和正文的内容相似度,设定相似度阈值P;
S3.5:如果判断相似新闻数据对中的预设文本内容不存在相似度阈值大于P的新闻,则保留待处理新闻文本为新闻舆情的主信号。
S3步骤中对新闻进行聚类,只将主信号新闻推送给用户,对主信号新闻推送包括以下步骤:
S3.6:目标新闻与对比新闻为相似新闻;
S3.7:对相似新闻进行去重处理,只推送主信号新闻以及主信号新闻的主题词和关键词给用户。
S3.2步骤中判断相似新闻数据标题和正文对中的处理文本的标题和正文主题的相似度阈值包括以下步骤:
S3.2.1:根据标记对新闻分类;
S3.2.2:针对分类后的文本数据进行对每个类别下的数据文本集合中的每一条数据进行n-grams拆分,获得各个分类下的训练特征集;将正文的内容用词袋模型将训练特征集转换为词向量;
S3.2.3:将S3.2.2步骤中获得的词向量作为神经网络的输入进行训练,获得不同分类下的语义模型,计算待分类的文本与已经训练好的各个类别的语义模型之间的相似度值。
n-grams拆分用于针对分类后的文本数据进行多元组拆分,获得各个分类下的训练特征集,其中,n-grams拆分具体包括:对每个类别下的数据文本集合中的每一条数据进行n-grams拆分,拆分为由二元词组、三元词组和原文本组成的该类别下的训练特征集,并对训练特征集中的词组进行去重处理。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种基于深度学习的舆情新闻去重与推送方法,其特征在于,包括以下步骤:
S1:网络数据爬取,利用爬虫技术在各类新闻网站、政府公开网站爬取金融相关新闻信息文章,将爬取的新闻文本化,设一段时间内爬取的金融相关新闻信息为Fz,其中z代表周期;
S2:生成主题关键词,通过计算待处理文本的相同新闻实体的z周期内收集到的可能相似新闻数据,生成每篇新闻的主题关键词;
S3:舆情新闻去重,对新闻进行聚类,只将主信号新闻推送给用户,推送主信号的主题关键词;
S4:主题关键词推送,通过实时预测的新闻热点关键词与金融词库的关联度,并将主题关键词推送给用户。
2.根据权利要求1所述的一种基于深度学习的舆情新闻去重与推送方法,其特征在于,所述网络爬虫技术是指一种按照一定的规则自动地抓取网站上发布的信息的程序或者脚本,且网络爬虫的爬行策略包括深度优先策略和广度优先策略。
3.根据权利要求1所述的一种基于深度学习的舆情新闻去重与推送方法,其特征在于,所述网络爬虫技术的模式为基于目标数据模式,且目标数据模式的网络爬虫技术的爬虫针对的是网页上的数据,所抓取的数据符合一定的模式,且可以转化或映射为目标数据模式。
4.根据权利要求1所述的一种基于深度学习的舆情新闻去重与推送方法,其特征在于,所述S2步骤中通过计算待处理文本的相同新闻实体的z周期内收集到的可能相似新闻数据,生成每篇新闻的主题关键词,包括以下步骤:
S2.1:对每篇新闻进行清洗预处理;
S2.2:文本向量化,算出基于TF-IDF算法获得的每篇新闻的每个词汇的TF-IDF值设置为A,同时查询该关键词在历史高风险新闻库的TF-IDF值设置为B;
S2.3:将A和B的共同的关键词设置为主题关键词。
5.根据权利要求4所述的一种基于深度学习的舆情新闻去重与推送方法,其特征在于,所述TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度,字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降,TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。
6.根据权利要求1所述的一种基于深度学习的舆情新闻去重与推送方法,其特征在于,所述S3步骤中对新闻进行聚类,只将主信号新闻推送给用户,在聚类过程中判断相似新闻数据标题和正文对中的处理文本的标题和正文主题的相似度包括以下步骤:
S3.1:判断相似新闻数据标题和正文对中的处理文本的标题和正文主题的相似度,设定相似度阈值T;
S3.2:如果判断相似新闻数据对中的预设文本主题不存在相似度阈值大于相似度阈值T的新闻,则保留待处理新闻文本为新闻舆情的主信号;
S3.3:如果存在多条相似新闻数据对中的预设文本主题相似度阈值大于相似度阈值T的新闻,则保留待处理新闻文本为更新时间和权威媒体的相似新闻数据的子信号。
7.根据权利要求1所述的一种基于深度学习的舆情新闻去重与推送方法,其特征在于,所述S3步骤中对新闻进行聚类,只将主信号新闻推送给用户,在聚类过程中判断相似新闻数据标题和正文对中的处理文本的标题和正文的内容相似度包括以下步骤:
S3.4:判断相似新闻数据标题和正文对中的处理文本的标题和正文的内容相似度,设定相似度阈值P;
S3.5:如果判断所述相似新闻数据对中的预设文本内容不存在相似度阈值大于P的新闻,则保留待处理新闻文本为新闻舆情的主信号。
8.根据权利要求1所述的一种基于深度学习的舆情新闻去重与推送方法,其特征在于,所述S3步骤中对新闻进行聚类,只将主信号新闻推送给用户,对主信号新闻推送包括以下步骤:
S3.6:目标新闻与对比新闻为相似新闻;
S3.7:对相似新闻进行去重处理,只推送主信号新闻以及主信号新闻的主题词和关键词给用户。
9.根据权利要求6所述的一种基于深度学习的舆情新闻去重与推送方法,其特征在于,所述S3.2步骤中判断相似新闻数据标题和正文对中的处理文本的标题和正文主题的相似度阈值包括以下步骤:
S3.2.1:根据标记对新闻分类;
S3.2.2:针对分类后的文本数据进行对每个类别下的数据文本集合中的每一条数据进行n-grams拆分,获得各个分类下的训练特征集;将正文的内容用词袋模型将训练特征集转换为词向量;
S3.2.3:将S3.2.2步骤中获得的词向量作为神经网络的输入进行训练,获得不同分类下的语义模型,计算待分类的文本与已经训练好的各个类别的语义模型之间的相似度值。
10.根据权利要求9所述的一种基于深度学习的舆情新闻去重与推送方法,其特征在于,所述n-grams拆分用于针对分类后的文本数据进行多元组拆分,获得各个分类下的训练特征集,其中,n-grams拆分具体包括:对每个类别下的数据文本集合中的每一条数据进行n-grams拆分,拆分为由二元词组、三元词组和原文本组成的该类别下的训练特征集,并对训练特征集中的词组进行去重处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910707729.5A CN110413863A (zh) | 2019-08-01 | 2019-08-01 | 一种基于深度学习的舆情新闻去重与推送方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910707729.5A CN110413863A (zh) | 2019-08-01 | 2019-08-01 | 一种基于深度学习的舆情新闻去重与推送方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110413863A true CN110413863A (zh) | 2019-11-05 |
Family
ID=68365098
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910707729.5A Pending CN110413863A (zh) | 2019-08-01 | 2019-08-01 | 一种基于深度学习的舆情新闻去重与推送方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110413863A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111241077A (zh) * | 2020-01-03 | 2020-06-05 | 四川新网银行股份有限公司 | 基于互联网数据的金融欺诈行为的识别方法 |
CN111324753A (zh) * | 2020-01-22 | 2020-06-23 | 天窗智库文化传播(苏州)有限公司 | 一种媒体资讯发布管理方法及系统 |
CN111597328A (zh) * | 2020-05-27 | 2020-08-28 | 青岛大学 | 一种新事件主题提取方法 |
CN112533028A (zh) * | 2020-12-10 | 2021-03-19 | 杭州次元岛科技有限公司 | 一种用于直播广告的发布系统 |
CN112612867A (zh) * | 2020-11-24 | 2021-04-06 | 中国传媒大学 | 新闻稿件传播分析方法、计算机可读存储介质及电子设备 |
CN112749341A (zh) * | 2021-01-22 | 2021-05-04 | 南京莱斯网信技术研究院有限公司 | 重点舆情推荐方法、可读存储介质及数据处理装置 |
CN112926298A (zh) * | 2021-03-02 | 2021-06-08 | 北京百度网讯科技有限公司 | 新闻内容识别方法、相关装置及计算机程序产品 |
CN113378023A (zh) * | 2021-05-24 | 2021-09-10 | 华北科技学院(中国煤矿安全技术培训中心) | 民生舆情及新闻信息挖掘比对可视化系统 |
CN113449078A (zh) * | 2021-06-25 | 2021-09-28 | 完美世界控股集团有限公司 | 相似新闻识别方法、设备、系统及存储介质 |
CN113676527A (zh) * | 2021-08-10 | 2021-11-19 | 未鲲(上海)科技服务有限公司 | 信息推送方法、装置、设备及存储介质 |
CN116127321A (zh) * | 2023-02-16 | 2023-05-16 | 广东工业大学 | 一种船舶新闻推送模型的训练方法、推送方法及系统 |
CN116701729A (zh) * | 2023-08-01 | 2023-09-05 | 贵州融云信息技术有限公司 | 一种网络舆情检测系统及检测方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040139067A1 (en) * | 2002-12-19 | 2004-07-15 | International Business Machines Corporation | Computer system, method, and program product for generating a data structure for information retrieval, and an associated graphical user interface |
CN104778209A (zh) * | 2015-03-13 | 2015-07-15 | 国家计算机网络与信息安全管理中心 | 一种针对千万级规模新闻评论的观点挖掘方法 |
CN105447081A (zh) * | 2015-11-04 | 2016-03-30 | 国云科技股份有限公司 | 面向云平台的一种政务舆情监控方法 |
CN105989033A (zh) * | 2015-02-03 | 2016-10-05 | 北京中搜网络技术股份有限公司 | 一种基于资讯指纹的资讯去重方法 |
CN106446195A (zh) * | 2016-09-29 | 2017-02-22 | 北京百度网讯科技有限公司 | 基于人工智能的新闻推荐方法及装置 |
CN108763213A (zh) * | 2018-05-25 | 2018-11-06 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 主题特征文本关键词提取方法 |
CN109086355A (zh) * | 2018-07-18 | 2018-12-25 | 北京航天云路有限公司 | 基于新闻主题词的热点关联关系分析方法及系统 |
CN110008311A (zh) * | 2019-04-04 | 2019-07-12 | 北京邮电大学 | 一种基于语义分析的产品信息安全风险监测方法 |
-
2019
- 2019-08-01 CN CN201910707729.5A patent/CN110413863A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040139067A1 (en) * | 2002-12-19 | 2004-07-15 | International Business Machines Corporation | Computer system, method, and program product for generating a data structure for information retrieval, and an associated graphical user interface |
CN105989033A (zh) * | 2015-02-03 | 2016-10-05 | 北京中搜网络技术股份有限公司 | 一种基于资讯指纹的资讯去重方法 |
CN104778209A (zh) * | 2015-03-13 | 2015-07-15 | 国家计算机网络与信息安全管理中心 | 一种针对千万级规模新闻评论的观点挖掘方法 |
CN105447081A (zh) * | 2015-11-04 | 2016-03-30 | 国云科技股份有限公司 | 面向云平台的一种政务舆情监控方法 |
CN106446195A (zh) * | 2016-09-29 | 2017-02-22 | 北京百度网讯科技有限公司 | 基于人工智能的新闻推荐方法及装置 |
CN108763213A (zh) * | 2018-05-25 | 2018-11-06 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 主题特征文本关键词提取方法 |
CN109086355A (zh) * | 2018-07-18 | 2018-12-25 | 北京航天云路有限公司 | 基于新闻主题词的热点关联关系分析方法及系统 |
CN110008311A (zh) * | 2019-04-04 | 2019-07-12 | 北京邮电大学 | 一种基于语义分析的产品信息安全风险监测方法 |
Non-Patent Citations (1)
Title |
---|
沙芸等: "基于主题关键词的新闻去重算法", 《第四届全国信息检索与内容安全学术会议论文集(上)》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111241077A (zh) * | 2020-01-03 | 2020-06-05 | 四川新网银行股份有限公司 | 基于互联网数据的金融欺诈行为的识别方法 |
CN111324753A (zh) * | 2020-01-22 | 2020-06-23 | 天窗智库文化传播(苏州)有限公司 | 一种媒体资讯发布管理方法及系统 |
CN111324753B (zh) * | 2020-01-22 | 2021-09-03 | 天窗智库文化传播(苏州)有限公司 | 一种媒体资讯发布管理方法及系统 |
CN111597328A (zh) * | 2020-05-27 | 2020-08-28 | 青岛大学 | 一种新事件主题提取方法 |
CN112612867A (zh) * | 2020-11-24 | 2021-04-06 | 中国传媒大学 | 新闻稿件传播分析方法、计算机可读存储介质及电子设备 |
CN112533028B (zh) * | 2020-12-10 | 2022-04-08 | 杭州次元岛科技有限公司 | 一种用于直播广告的发布系统 |
CN112533028A (zh) * | 2020-12-10 | 2021-03-19 | 杭州次元岛科技有限公司 | 一种用于直播广告的发布系统 |
CN112749341A (zh) * | 2021-01-22 | 2021-05-04 | 南京莱斯网信技术研究院有限公司 | 重点舆情推荐方法、可读存储介质及数据处理装置 |
CN112749341B (zh) * | 2021-01-22 | 2024-03-29 | 南京莱斯网信技术研究院有限公司 | 重点舆情推荐方法、可读存储介质及数据处理装置 |
CN112926298A (zh) * | 2021-03-02 | 2021-06-08 | 北京百度网讯科技有限公司 | 新闻内容识别方法、相关装置及计算机程序产品 |
CN113378023A (zh) * | 2021-05-24 | 2021-09-10 | 华北科技学院(中国煤矿安全技术培训中心) | 民生舆情及新闻信息挖掘比对可视化系统 |
CN113378023B (zh) * | 2021-05-24 | 2023-05-23 | 华北科技学院(中国煤矿安全技术培训中心) | 民生舆情及新闻信息挖掘比对可视化系统 |
CN113449078A (zh) * | 2021-06-25 | 2021-09-28 | 完美世界控股集团有限公司 | 相似新闻识别方法、设备、系统及存储介质 |
CN113676527A (zh) * | 2021-08-10 | 2021-11-19 | 未鲲(上海)科技服务有限公司 | 信息推送方法、装置、设备及存储介质 |
CN116127321A (zh) * | 2023-02-16 | 2023-05-16 | 广东工业大学 | 一种船舶新闻推送模型的训练方法、推送方法及系统 |
CN116701729A (zh) * | 2023-08-01 | 2023-09-05 | 贵州融云信息技术有限公司 | 一种网络舆情检测系统及检测方法 |
CN116701729B (zh) * | 2023-08-01 | 2023-10-31 | 贵州融云信息技术有限公司 | 一种网络舆情检测系统及检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110413863A (zh) | 一种基于深度学习的舆情新闻去重与推送方法 | |
Khan et al. | A benchmark study of machine learning models for online fake news detection | |
CN104408148B (zh) | 一种基于通用百科网站的领域百科构建系统 | |
Venugopalan et al. | Exploring sentiment analysis on twitter data | |
Nguyen et al. | Advanced semantics for commonsense knowledge extraction | |
CN103177024A (zh) | 一种话题信息展现方法和装置 | |
AU2005201766A1 (en) | Method and system for classifying display pages using summaries | |
Bhattarai et al. | Characterizing comment spam in the blogosphere through content analysis | |
Goel et al. | Sentiment analysis of multilingual twitter data using natural language processing | |
Rashid et al. | Feature level opinion mining of educational student feedback data using sequential pattern mining and association rule mining | |
Pringle et al. | What is a tall poppy among web pages? | |
Escudero et al. | An empirical study of the domain dependence of supervised word disambiguation systems | |
CN101719129A (zh) | 一种采用人工智能技术自动提取关键字的方法 | |
Peng et al. | High quality information extraction and query-oriented summarization for automatic query-reply in social network | |
Huang et al. | Hyperpartisan news and articles detection using bert and elmo | |
CN113946687A (zh) | 一种标签一致的文本后门攻击方法 | |
CN109460477A (zh) | 信息收集分类系统和方法及其检索和集成方法 | |
Rajiv et al. | Keyword weight optimization using gradient strategies in event focused web crawling | |
Wang et al. | Automatic tagging of cyber threat intelligence unstructured data using semantics extraction | |
CN112966507A (zh) | 构建识别模型及攻击识别方法、装置、设备及存储介质 | |
Kulshrestha | Detection of organized activity in online escort advertisements | |
Savelka et al. | Learning to Rank Sentences for Explaining Statutory Terms. | |
Upadhayay et al. | Combating Human Trafficking via Automatic OSINT Collection, Validation and Fusion. | |
Kumar et al. | Word sense disambiguation using association rules: A survey | |
Maladkar | Content based hierarchical URL classification with Convolutional Neural Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: Xinyada technology building, 3888 Jiangnan Avenue, Binjiang District, Hangzhou City, Zhejiang Province 310000 Applicant after: Sinyada Technology Co.,Ltd. Address before: Xinyada technology building, 3888 Jiangnan Avenue, Binjiang District, Hangzhou City, Zhejiang Province 310000 Applicant before: SUNYARD SYSTEM ENGINEERING Co.,Ltd. |
|
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191105 |