CN111813936A - 基于深度学习的新闻资讯呈现方法及相关设备 - Google Patents

基于深度学习的新闻资讯呈现方法及相关设备 Download PDF

Info

Publication number
CN111813936A
CN111813936A CN202010601487.4A CN202010601487A CN111813936A CN 111813936 A CN111813936 A CN 111813936A CN 202010601487 A CN202010601487 A CN 202010601487A CN 111813936 A CN111813936 A CN 111813936A
Authority
CN
China
Prior art keywords
article
topic
model
articles
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010601487.4A
Other languages
English (en)
Inventor
王文浩
徐国强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Smart Technology Co Ltd
OneConnect Financial Technology Co Ltd Shanghai
Original Assignee
OneConnect Financial Technology Co Ltd Shanghai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Financial Technology Co Ltd Shanghai filed Critical OneConnect Financial Technology Co Ltd Shanghai
Priority to CN202010601487.4A priority Critical patent/CN111813936A/zh
Publication of CN111813936A publication Critical patent/CN111813936A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及人工智能技术领域,提供一种基于深度学习的新闻资讯呈现方法,包括:从网络上获取实时新闻资讯,并将实时新闻资讯按照话题进行分类;对话题下的每篇文章进行预处理,提取预处理后的每篇文章的词频‑逆文本频率指数TF‑IDF值,并确定文章中每个词的词向量;根据TF‑IDF值以及词向量,确定文章的特征向量;对每个话题下所有文章的特征向量进行聚类,获得话题下的多个子话题的细粒度聚类;使用BERTSUM模型,提取每个子话题下的多篇文章的代表性摘要;输出话题、话题对应的多个子话题以及每个子话题对应的代表性摘要。本发明还涉及区块链技术,BERTSUM模型存储在区块链上。

Description

基于深度学习的新闻资讯呈现方法及相关设备
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于深度学习的新闻资讯呈现方法及相关设备。
背景技术
随着互联网的快速发展,社会进入了信息极度爆炸的时代,每天将会产生大量的新闻,人们希望花费更少的时间去了解更多自己关注的资讯话题中的重要信息。
然而,目前的新闻资讯,通常是根据新闻的来源,将新闻资讯按照不同领域进行分类,比如财经、科技、国内、国外等,这种分类方式,很难抓取到用户想要关注的维度,新闻资讯的呈现效果较差。
发明内容
鉴于以上内容,有必要提供一种基于深度学习的新闻资讯呈现方法及相关设备,能够提高新闻资讯的呈现效果。
本发明的第一方面提供一种基于深度学习的新闻资讯呈现方法,所述方法包括:
通过爬虫技术,从网络上获取实时新闻资讯,并将所述实时新闻资讯按照话题进行分类;
针对每个话题,对所述话题下的每篇文章进行预处理;
利用关键词提取算法,提取预处理后的每篇文章的词频-逆文本频率指数 TF-IDF值,并确定所述文章中每个词的词向量;
根据所述TF-IDF值以及所述词向量,确定所述文章的特征向量;
使用DBSCAN聚类算法,对每个所述话题下所有文章的特征向量进行聚类,获得所述话题下的多个子话题的细粒度聚类;
使用预先训练好的BERTSUM模型,对每个所述子话题下的多篇文章进行摘要提取,获得代表性摘要,其中,所述BERTSUM模型是基于中文预训练模型RoBERTa框架训练得到的;
输出所述话题、所述话题对应的多个子话题以及每个所述子话题对应的代表性摘要。
在一种可能的实现方式中,所述使用预先训练好的BERTSUM模型,对每个所述子话题下的多篇文章进行摘要提取,获得代表性摘要包括:
使用预先训练好的BERTSUM模型,对每个所述子话题下的多篇文章进行摘要提取,获得多个文章摘要;
针对每篇所述文章中,计算文章篇幅长度与热点关键词数量的加权值,并将加权值最大的文章确定为目标文章;
从所述多个文章摘要中,将所述目标文章对应的文章摘要确定为代表性摘要。
在一种可能的实现方式中,所述通过爬虫技术,从网络上获取实时新闻资讯之前,所述方法还包括:
获取文章训练集;
对所述文章训练集中的每篇文章进行预处理,获得多个预处理文章;
使用预设标识符对每个所述预处理文章的语句以及段落进行衔接处理,获得多个训练文章,其中,每个所述训练文章的每个句子携带有摘要标识值;
将所述多个训练文章输入至中文预训练模型RoBERTa框架中,获得所述 RoBERTa框架的隐含层在目标位置处的句子特征;
将所述句子特征输入至全连接层,获得所述训练文章中每个句子的摘要预测概率值;
将所述摘要预测概率值以及所述摘要标识值输入至预设的损失函数中,计算损失值;
根据所述损失值,使用反向传播算法,更新所述RoBERTa框架的参数以及所述全连接层的参数,以最小化损失值,获得待验证模型;
获取测试集;
使用所述测试集对所述待验证模型进行测试,获得训练好的BERTSUM模型;
将所述BERTSUM模型上传至区块链上。
在一种可能的实现方式中,所述对所述文章训练集中的每篇文章进行预处理,获得多个预处理文章包括:
针对每篇所述文章的每个段落,按照所述段落的句子先后顺序,提取所述段落的预设数量的目标句子;
将所有所述段落的目标句子进行组合,获得预处理文章。
在一种可能的实现方式中,所述对所述文章训练集中的每篇文章进行预处理,获得多个预处理文章包括:
针对每篇所述文章的每个段落,根据关键字提取算法,确定所述段落的目标关键词;
提取所述目标关键词所在的目标句子;
将所有所述段落提取的目标句子进行组合,获得预处理文章。
在一种可能的实现方式中,所述使用预设标识符对每个所述预处理文章的语句以及段落进行衔接处理,获得多个训练文章包括:
在所述预处理文章的任意相邻的两个段落中间,插入段落标识符;
在每个句子之前,插入语句标识符;
将进行插入处理后的预处理文章确定为训练文章。
在一种可能的实现方式中,所述使用所述测试集对所述待验证模型进行测试,获得训练好的BERTSUM模型包括:
使用所述测试集中的每篇文章对所述待验证模型进行测试,获得所述文章下的每个句子的摘要测试概率值;
输出摘要测试概率值大于预设概率阈值的多个目标句子;
获取每个所述目标句子的词数量;
若所述词数量小于预设数量阈值,删除所述目标句子,并更新所述待验证模型的参数,获得训练好的BERTSUM模型。
本发明的第二方面提供一种新闻资讯呈现装置,所述装置包括:
获取模块,用于通过爬虫技术,从网络上获取实时新闻资讯;
划分模块,用于将所述实时新闻资讯按照话题进行分类;
处理模块,用于针对每个话题,对所述话题下的每篇文章进行预处理;
提取模块,用于利用关键词提取算法,提取预处理后的每篇文章的词频-逆文本频率指数TF-IDF值;
确定模块,用于确定所述文章中每个词的词向量;
所述确定模块,还用于根据所述TF-IDF值以及所述词向量,确定所述文章的特征向量;
所述划分模块,还用于使用DBSCAN聚类算法,对每个所述话题下所有文章的特征向量进行聚类,获得所述话题下的多个子话题的细粒度聚类;
所述提取模块,还用于使用预先训练好的BERTSUM模型,对每个所述子话题下的多篇文章进行摘要提取,获得代表性摘要,其中,所述BERTSUM模型是基于中文预训练模型RoBERTa框架训练得到的;
输出模块,用于输出所述话题、所述话题对应的多个子话题以及每个所述子话题对应的代表性摘要。
本发明的第三方面提供一种电子设备,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现所述的基于深度学习的新闻资讯呈现方法。
本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述的基于深度学习的新闻资讯呈现方法。
由以上技术方案,本发明中,在将实时新闻资讯按照话题进行分类的基础上,进一步地,本发明使用DBSCAN聚类算法,对每个话题下的多篇文章进行多个维度(子话题)的细粒度聚类,使得聚类的层次更加细,从而能够快速的抓取到用户想要关注的维度,同时,针对每个子话题,可以输出代表性摘要,使得用户无需翻阅子话题的内容,即可快速了解到该子话题的大致信息,通过改变新闻资讯的呈现效果,提升了用户精准得到所关注信息的效率,很大程度上减少了信息获取的时间成本。
附图说明
图1是本发明公开的一种基于深度学习的新闻资讯呈现方法的较佳实施例的流程图。
图2是本发明公开的一种新闻资讯呈现装置的较佳实施例的功能模块图。
图3是本发明实现基于深度学习的新闻资讯呈现方法的较佳实施例的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
所述电子设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路 (ASIC)、现场可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。所述电子设备还可包括网络设备和/或用户设备。其中,所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量主机或网络服务器构成的云。所述用户设备包括但不限于任何一种可与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理PDA等。
图1是本发明公开的一种基于深度学习的新闻资讯呈现方法的较佳实施例的流程图。其中,根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。
S11、通过爬虫技术,从网络上获取实时新闻资讯,并将所述实时新闻资讯按照话题进行分类。
其中,可以利用基于scrapy的爬虫技术,在公开的各类新闻网站(比如今日头条、腾讯新闻等)中实时、增量爬取每天的新闻资讯,并分别将这些资讯按照已有的话题存储。
S12、针对每个话题,对所述话题下的每篇文章进行预处理。
其中,预处理可以包括但不限于对每个话题下的每篇文章的词语进行分词、去除停用词、去除链接、去除特殊符号等操作。
S13、利用关键词提取算法,提取预处理后的每篇文章的词频-逆文本频率指数TF-IDF值,并确定所述文章中每个词的词向量。
其中,TF-IDF(term frequency–inverse document frequency,词频-逆文本频率指数)是一种统计方法,用于评估一个词对于一个文件集或一个语料库中的其中一份文件的重要程度。TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
具体的,可以利用腾讯开源词向量得到文章中每个词的词向量。
S14、根据所述TF-IDF值以及所述词向量,确定所述文章的特征向量。
具体的,可以将所述TF-IDF值作为权重,对所述文章中每个词的词向量进行加权求和,获得所述文章的特征向量。
S15、使用DBSCAN聚类算法,对每个所述话题下所有文章的特征向量进行聚类,获得所述话题下的多个子话题的细粒度聚类。
其中,该实时新闻资讯已经按照话题维度进行了分类,为了便于用户快速的获取到自己所需关注的维度的新闻,本发明可以进一步地使用DBSCAN 聚类算法,对每个话题下的文章进行细粒度的分类,即将每个话题进一步划分为多个子话题。
其中,该DBSCAN算法通过将紧密相连的多个文章划分为一类,将所有各组紧密相连的文章划分为各个不同的类别,从而得到最终聚类的类别结果。
S16、使用预先训练好的BERTSUM模型,对每个所述子话题下的多篇文章进行摘要提取,获得代表性摘要,其中,所述BERTSUM模型是基于中文预训练模型RoBERTa框架训练得到的。
具体的,所述使用预先训练好的BERTSUM模型,对每个所述子话题下的多篇文章进行摘要提取,获得代表性摘要包括:
使用预先训练好的BERTSUM模型,对每个所述子话题下的多篇文章进行摘要提取,获得多个文章摘要;
针对每篇所述文章中,计算文章篇幅长度与热点关键词数量的加权值,并将加权值最大的文章确定为目标文章;
从所述多个文章摘要中,将所述目标文章对应的文章摘要确定为代表性摘要。
其中,文章篇幅长度可以用文章的段落来表示,也可以用文章的总字数来表示,还可以用文章所占的内存来表示,本发明实施例不做限定。
其中,热点关键词即描述某个话题必不可少的关键词。通常,文章篇幅长度越长,热点关键词数量越多,表明该文章所要表达的信息量就越大,该文章能够代表该话题所要表达的内容,即该文章就越有代表性,该文章对应的文章摘要也即代表性摘要。
作为一种可选的实施方式,在步骤S11之前,所述方法还包括:
获取文章训练集;
对所述文章训练集中的每篇文章进行预处理,获得多个预处理文章;
使用预设标识符对每个所述预处理文章的语句以及段落进行衔接处理,获得多个训练文章,其中,每个所述训练文章的每个句子携带有摘要标识值;
将所述多个训练文章输入至中文预训练模型RoBERTa框架中,获得所述RoBERTa框架的隐含层在目标位置处的句子特征;
将所述句子特征输入至全连接层,获得所述训练文章中每个句子的摘要预测概率值;
将所述摘要预测概率值以及所述摘要标识值输入至预设的损失函数中,计算损失值;
根据所述损失值,使用反向传播算法,更新所述RoBERTa框架的参数以及所述全连接层的参数,以最小化损失值,获得待验证模型;
获取测试集;
使用所述测试集对所述待验证模型进行测试,获得训练好的BERTSUM 模型;
将所述BERTSUM模型上传至区块链上。
其中,训练好的BERTSUM模型为更新参数后的RoBERTa框架和全连接层,其中,预设标识符可以包括段落标识符[SEP和语句标识符[CLS],所述目标位置为隐含层中对应语句标识符[CLS]的位置。
具体的,对所述文章训练集中的每篇文章进行预处理,获得多个预处理文章包括:
针对每篇所述文章的每个段落,按照所述段落的句子先后顺序,提取所述段落的预设数量的目标句子;
将所有所述段落的目标句子进行组合,获得预处理文章。
其中,由于模型的长度是有限的,因此需要对文章的长度进行限制。举例来说,可以优选每个段落的前80%的句子,比如某段由10句话组成,则只选取前8句。
其中,为了确保模型的私密性和安全性,可以将BERTSUM模型上传至区块链上进行存储。
具体的,所述对所述文章训练集中的每篇文章进行预处理,获得多个预处理文章包括:
针对每篇所述文章的每个段落,根据关键字提取算法,确定所述段落的目标关键词;
提取所述目标关键词所在的目标句子;
将所有所述段落提取的目标句子进行组合,获得预处理文章。
其中,可以将目标关键词所在的句子确定为目标句子,在将所有的目标句子组合在歧义,构成预处理文章,即该预处理文章包括了该文章所要表达的关键内容的所有语句,而省略了无关或者内容不重要的语句,不仅可以减少预处理文章所占的内存,也可以使得预处理文章的内容更加简洁。
具体的,所述使用预设标识符对每个所述预处理文章的语句以及段落进行衔接处理,获得多个训练文章包括:
在所述预处理文章的任意相邻的两个段落中间,插入段落标识符;
在每个句子之前,插入语句标识符;
将进行插入处理后的预处理文章确定为训练文章。
其中,段与段间可以通过段落标识符[SEP]连接,每个段落的两个语句中间可以通过语句标识符[CLS]连接。
举例来说,按照上述的插入处理后,将某个文章表示为:
[CLS]+sent 1+[SEP]+[CLS]+sent 2+[SEP]+...+[CLS]+sent m+[SEP]
其中,sent 1、sent 2…sent m表示句子。
具体的,所述使用所述测试集对所述待验证模型进行测试,获得训练好的BERTSUM模型包括:
使用所述测试集中的每篇文章对所述待验证模型进行测试,获得所述文章下的每个句子的摘要测试概率值;
输出摘要测试概率值大于预设概率阈值的多个目标句子;
获取每个所述目标句子的词数量;
若所述词数量小于预设数量阈值,删除所述目标句子,并更新所述待验证模型的参数,获得训练好的BERTSUM模型。
其中,在测试阶段,摘要测试概率值大于预设概率阈值的句子通常被认为是属于摘要的句子,即目标句子。而这些目标句子只是待验证模型输出的,为了进一步验证,需要获取所述目标句子的词数量,如果所述词数量小于预设数量阈值,比如所述词数量为2,明显小于预设数量阈值5,这表明所述待验证模型将2个词数量的句子判定为属于摘要的句子是不合理的,即所述待验证模型判定失误,此时,可以对所述待验证模型输出的词数量小于预设数量阈值的目标句子删除,同时,不断更新所述待验证模型的参数,以使得更新后的待验证模型不再将词数量小于预设数量阈值的目标句子判定为属于摘要的句子,从而获得训练好的BERTSUM模型。其中,预设数量阈值比如512。
S17、输出所述话题、所述话题对应的多个子话题以及每个所述子话题对应的代表性摘要。
可选的,还可以输出文章的标识、文章的标题、来源、状态、发布时间以及操作。
具体呈现方式如下:
话题:伊朗问题
子话题一:
1.子话题一的代表性摘要:
石油矩阵咨询公司的负责人奥利维尔·雅各布在发给投资者的通报中说:“会NG指出,在过去一年中,石油市场在应对大规模石油供应中断和中东局势日益紧张方面表现相当不错”。这种态度似乎部分是由全球石油市场供需平衡良好所致。由于当前仍处在过剩的环境之中,这种趋势至少在 2020年上半年不会改变。
子话题二:
2.子话题二的代表性摘要:
过高的油价,不利于美国利益。一方面,高油价会增大沙特等一批国家的话语权,影响美国对他们的掌控力。另一方面,美国会忌惮俄罗斯等其他产油国从中获利。不过,咱们国家对石油的进口依赖度确实太高,大概有70%,其中,来自中东地区的进口占比超过40%,中东稳定对中国能源安全的重要性不容忽视。
在图1所描述的方法流程中,在将实时新闻资讯按照话题进行分类的基础上,进一步地,本发明使用DBSCAN聚类算法,对每个话题下的多篇文章进行多个维度(子话题)的细粒度聚类,使得聚类的层次更加细,从而能够快速的抓取到用户想要关注的维度,同时,针对每个子话题,可以输出代表性摘要,使得用户无需翻阅子话题的内容,即可快速了解到该子话题的大致信息,通过改变新闻资讯的呈现效果,提升了用户精准得到所关注信息的效率,很大程度上减少了信息获取的时间成本。
以上所述,仅是本发明的具体实施方式,但本发明的保护范围并不局限于此,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出改进,但这些均属于本发明的保护范围。
图2是本发明公开的一种新闻资讯呈现装置的较佳实施例的功能模块图。
在一些实施例中,所述新闻资讯呈现装置运行于电子设备中。所述新闻资讯呈现装置可以包括多个由程序代码段所组成的功能模块。所述新闻资讯呈现装置中的各个程序段的程序代码可以存储于存储器中,并由至少一个处理器所执行,以执行图1所描述的基于深度学习的新闻资讯呈现方法方法中的部分或全部步骤,具体可以参照图1中的相关描述,在此不再赘述。
本实施例中,所述新闻资讯呈现装置根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:获取模块201、划分模块202、处理模块203、提取模块204、确定模块205及输出模块206。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。
获取模块201,用于通过爬虫技术,从网络上获取实时新闻资讯。
划分模块202,用于将所述实时新闻资讯按照话题进行分类。
处理模块203,用于针对每个话题,对所述话题下的每篇文章进行预处理。
提取模块204,用于利用关键词提取算法,提取预处理后的每篇文章的词频-逆文本频率指数TF-IDF值。
确定模块205,用于确定所述文章中每个词的词向量。
所述确定模块205,还用于根据所述TF-IDF值以及所述词向量,确定所述文章的特征向量。
所述划分模块202,还用于使用DBSCAN聚类算法,对每个所述话题下所有文章的特征向量进行聚类,获得所述话题下的多个子话题的细粒度聚类。
所述提取模块204,还用于使用预先训练好的BERTSUM模型,对每个所述子话题下的多篇文章进行摘要提取,获得代表性摘要,其中,所述 BERTSUM模型是基于中文预训练模型RoBERTa框架训练得到的。
输出模块206,用于输出所述话题、所述话题对应的多个子话题以及每个所述子话题对应的代表性摘要。
在图2所描述的装置中,在将实时新闻资讯按照话题进行分类的基础上,进一步地,本发明使用DBSCAN聚类算法,对每个话题下的多篇文章进行多个维度(子话题)的细粒度聚类,使得聚类的层次更加细,从而能够快速的抓取到用户想要关注的维度,同时,针对每个子话题,可以输出代表性摘要,使得用户无需翻阅子话题的内容,即可快速了解到该子话题的大致信息,通过改变新闻资讯的呈现效果,提升了用户精准得到所关注信息的效率,很大程度上减少了信息获取的时间成本。
图3是本发明实现基于深度学习的新闻资讯呈现方法的较佳实施例的电子设备的结构示意图。所述电子设备3包括存储器31、至少一个处理器32、存储在所述存储器31中并可在所述至少一个处理器32上运行的计算机程序 33及至少一条通讯总线34。
本领域技术人员可以理解,图3所示的示意图仅仅是所述电子设备3的示例,并不构成对所述电子设备3的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述电子设备3还可以包括输入输出设备、网络接入设备等。
所述至少一个处理器32可以是中央处理单元(Central Processing Unit, CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor, DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。该处理器32可以是微处理器或者该处理器32也可以是任何常规的处理器等,所述处理器32是所述电子设备3 的控制中心,利用各种接口和线路连接整个电子设备3的各个部分。
所述存储器31可用于存储所述计算机程序33和/或模块/单元,所述处理器 32通过运行或执行存储在所述存储器31内的计算机程序和/或模块/单元,以及调用存储在存储器31内的数据,实现所述电子设备3的各种功能。所述存储器 31可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备3的使用所创建的数据(比如音频数据)等。此外,存储器31可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)、至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。
结合图1,所述电子设备3中的所述存储器31存储多个指令以实现一种基于深度学习的新闻资讯呈现方法,所述处理器32可执行所述多个指令从而实现:
通过爬虫技术,从网络上获取实时新闻资讯,并将所述实时新闻资讯按照话题进行分类;
针对每个话题,对所述话题下的每篇文章进行预处理;
利用关键词提取算法,提取预处理后的每篇文章的词频-逆文本频率指数 TF-IDF值,并确定所述文章中每个词的词向量;
根据所述TF-IDF值以及所述词向量,确定所述文章的特征向量;
使用DBSCAN聚类算法,对每个所述话题下所有文章的特征向量进行聚类,获得所述话题下的多个子话题的细粒度聚类;
使用预先训练好的BERTSUM模型,对每个所述子话题下的多篇文章进行摘要提取,获得代表性摘要,其中,所述BERTSUM模型是基于中文预训练模型RoBERTa框架训练得到的;
输出所述话题、所述话题对应的多个子话题以及每个所述子话题对应的代表性摘要。
具体地,所述处理器32对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
在图3所描述的电子设备3中,在将实时新闻资讯按照话题进行分类的基础上,进一步地,本发明使用DBSCAN聚类算法,对每个话题下的多篇文章进行多个维度(子话题)的细粒度聚类,使得聚类的层次更加细,从而能够快速的抓取到用户想要关注的维度,同时,针对每个子话题,可以输出代表性摘要,使得用户无需翻阅子话题的内容,即可快速了解到该子话题的大致信息,通过改变新闻资讯的呈现效果,提升了用户精准得到所关注信息的效率,很大程度上减少了信息获取的时间成本。
所述电子设备3集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器以及只读存储器(ROM,Read-Only Memory)。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种基于深度学习的新闻资讯呈现方法,其特征在于,所述方法包括:
通过爬虫技术,从网络上获取实时新闻资讯,并将所述实时新闻资讯按照话题进行分类;
针对每个话题,对所述话题下的每篇文章进行预处理;
利用关键词提取算法,提取预处理后的每篇文章的词频-逆文本频率指数TF-IDF值,并确定所述文章中每个词的词向量;
根据所述TF-IDF值以及所述词向量,确定所述文章的特征向量;
使用DBSCAN聚类算法,对每个所述话题下所有文章的特征向量进行聚类,获得所述话题下的多个子话题的细粒度聚类;
使用预先训练好的BERTSUM模型,对每个所述子话题下的多篇文章进行摘要提取,获得代表性摘要,其中,所述BERTSUM模型是基于中文预训练模型RoBERTa框架训练得到的;
输出所述话题、所述话题对应的多个子话题以及每个所述子话题对应的代表性摘要。
2.根据权利要求1所述的方法,其特征在于,所述使用预先训练好的BERTSUM模型,对每个所述子话题下的多篇文章进行摘要提取,获得代表性摘要包括:
使用预先训练好的BERTSUM模型,对每个所述子话题下的多篇文章进行摘要提取,获得多个文章摘要;
针对每篇所述文章中,计算文章篇幅长度与热点关键词数量的加权值,并将加权值最大的文章确定为目标文章;
从所述多个文章摘要中,将所述目标文章对应的文章摘要确定为代表性摘要。
3.根据权利要求1所述的方法,其特征在于,所述通过爬虫技术,从网络上获取实时新闻资讯之前,所述方法还包括:
获取文章训练集;
对所述文章训练集中的每篇文章进行预处理,获得多个预处理文章;
使用预设标识符对每个所述预处理文章的语句以及段落进行衔接处理,获得多个训练文章,其中,每个所述训练文章的每个句子携带有摘要标识值;
将所述多个训练文章输入至中文预训练模型RoBERTa框架中,获得所述RoBERTa框架的隐含层在目标位置处的句子特征;
将所述句子特征输入至全连接层,获得所述训练文章中每个句子的摘要预测概率值;
将所述摘要预测概率值以及所述摘要标识值输入至预设的损失函数中,计算损失值;
根据所述损失值,使用反向传播算法,更新所述RoBERTa框架的参数以及所述全连接层的参数,以最小化损失值,获得待验证模型;
获取测试集;
使用所述测试集对所述待验证模型进行测试,获得训练好的BERTSUM模型;
将所述BERTSUM模型上传至区块链上。
4.根据权利要求3所述的方法,其特征在于,所述对所述文章训练集中的每篇文章进行预处理,获得多个预处理文章包括:
针对每篇所述文章的每个段落,按照所述段落的句子先后顺序,提取所述段落的预设数量的目标句子;
将所有所述段落的目标句子进行组合,获得预处理文章。
5.根据权利要求3所述的方法,其特征在于,所述对所述文章训练集中的每篇文章进行预处理,获得多个预处理文章包括:
针对每篇所述文章的每个段落,根据关键字提取算法,确定所述段落的目标关键词;
提取所述目标关键词所在的目标句子;
将所有所述段落提取的目标句子进行组合,获得预处理文章。
6.根据权利要求3所述的方法,其特征在于,所述使用预设标识符对每个所述预处理文章的语句以及段落进行衔接处理,获得多个训练文章包括:
在所述预处理文章的任意相邻的两个段落中间,插入段落标识符;
在每个句子之前,插入语句标识符;
将进行插入处理后的预处理文章确定为训练文章。
7.根据权利要求3所述的方法,其特征在于,所述使用所述测试集对所述待验证模型进行测试,获得训练好的BERTSUM模型包括:
使用所述测试集中的每篇文章对所述待验证模型进行测试,获得所述文章下的每个句子的摘要测试概率值;
输出摘要测试概率值大于预设概率阈值的多个目标句子;
获取每个所述目标句子的词数量;
若所述词数量小于预设数量阈值,删除所述目标句子,并更新所述待验证模型的参数,获得训练好的BERTSUM模型。
8.一种新闻资讯呈现装置,其特征在于,所述装置包括:
获取模块,用于通过爬虫技术,从网络上获取实时新闻资讯;
划分模块,用于将所述实时新闻资讯按照话题进行分类;
处理模块,用于针对每个话题,对所述话题下的每篇文章进行预处理;
提取模块,用于利用关键词提取算法,提取预处理后的每篇文章的词频-逆文本频率指数TF-IDF值;
确定模块,用于确定所述文章中每个词的词向量;
所述确定模块,还用于根据所述TF-IDF值以及所述词向量,确定所述文章的特征向量;
所述划分模块,还用于使用DBSCAN聚类算法,对每个所述话题下所有文章的特征向量进行聚类,获得所述话题下的多个子话题的细粒度聚类;
所述提取模块,还用于使用预先训练好的BERTSUM模型,对每个所述子话题下的多篇文章进行摘要提取,获得代表性摘要,其中,所述BERTSUM模型是基于中文预训练模型RoBERTa框架训练得到的;
输出模块,用于输出所述话题、所述话题对应的多个子话题以及每个所述子话题对应的代表性摘要。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序以实现如权利要求1至7中任意一项所述的基于深度学习的新闻资讯呈现方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任意一项所述的基于深度学习的新闻资讯呈现方法。
CN202010601487.4A 2020-06-28 2020-06-28 基于深度学习的新闻资讯呈现方法及相关设备 Pending CN111813936A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010601487.4A CN111813936A (zh) 2020-06-28 2020-06-28 基于深度学习的新闻资讯呈现方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010601487.4A CN111813936A (zh) 2020-06-28 2020-06-28 基于深度学习的新闻资讯呈现方法及相关设备

Publications (1)

Publication Number Publication Date
CN111813936A true CN111813936A (zh) 2020-10-23

Family

ID=72855142

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010601487.4A Pending CN111813936A (zh) 2020-06-28 2020-06-28 基于深度学习的新闻资讯呈现方法及相关设备

Country Status (1)

Country Link
CN (1) CN111813936A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112667815A (zh) * 2020-12-30 2021-04-16 北京捷通华声科技股份有限公司 文本处理方法、装置、计算机可读存储介质及处理器

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112667815A (zh) * 2020-12-30 2021-04-16 北京捷通华声科技股份有限公司 文本处理方法、装置、计算机可读存储介质及处理器

Similar Documents

Publication Publication Date Title
AU2018383346B2 (en) Domain-specific natural language understanding of customer intent in self-help
CN111177569B (zh) 基于人工智能的推荐处理方法、装置及设备
CN110569361B (zh) 一种文本识别方法及设备
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN111190997B (zh) 一种使用神经网络和机器学习排序算法的问答系统实现方法
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
CN102033880A (zh) 基于结构化数据集合的标注方法和装置
Riadi Detection of cyberbullying on social media using data mining techniques
WO2019133506A1 (en) Intelligent routing services and systems
CN104077415A (zh) 搜索方法及装置
CN113434636B (zh) 基于语义的近似文本搜索方法、装置、计算机设备及介质
US11640420B2 (en) System and method for automatic summarization of content with event based analysis
CN112307336B (zh) 热点资讯挖掘与预览方法、装置、计算机设备及存储介质
CN112328857B (zh) 一种产品知识聚合方法、装置、计算机设备及存储介质
CN112911326A (zh) 弹幕信息处理方法、装置、电子设备和存储介质
CN110110218A (zh) 一种身份关联方法及终端
Wei et al. Online education recommendation model based on user behavior data analysis
CN116402166B (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN111813936A (zh) 基于深度学习的新闻资讯呈现方法及相关设备
CN116955591A (zh) 用于内容推荐的推荐语生成方法、相关装置和介质
CN115221954A (zh) 用户画像方法、装置、电子设备以及存储介质
KR20230059364A (ko) 언어 모델을 이용한 여론조사 시스템 및 운영 방법
CN114330296A (zh) 新词发现方法、装置、设备以及存储介质
CN115130453A (zh) 互动信息生成方法和装置
CN113761123A (zh) 关键词获取的方法、装置、计算设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination