CN114780712A - 一种基于质量评价的新闻专题生成方法及装置 - Google Patents

一种基于质量评价的新闻专题生成方法及装置 Download PDF

Info

Publication number
CN114780712A
CN114780712A CN202210353040.9A CN202210353040A CN114780712A CN 114780712 A CN114780712 A CN 114780712A CN 202210353040 A CN202210353040 A CN 202210353040A CN 114780712 A CN114780712 A CN 114780712A
Authority
CN
China
Prior art keywords
news
quality
quality score
similarity
embedding vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210353040.9A
Other languages
English (en)
Other versions
CN114780712B (zh
Inventor
石聪
邵德奇
关培培
冯超
段治平
李腾飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Science And Technology Daily
Original Assignee
Science And Technology Daily
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Science And Technology Daily filed Critical Science And Technology Daily
Priority to CN202210353040.9A priority Critical patent/CN114780712B/zh
Publication of CN114780712A publication Critical patent/CN114780712A/zh
Application granted granted Critical
Publication of CN114780712B publication Critical patent/CN114780712B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Abstract

本公开涉及媒体数据处理技术领域,提供了一种基于质量评价的新闻专题生成方法及装置。该方法包括:获取第一新闻集合,第一新闻集合包括基于用户输入条件检索到的多条新闻;计算第一新闻集合中每条新闻的质量分;基于质量分对第一新闻集合中的新闻进行去重处理,得到第二新闻集合;按质量分由高到低的顺序输出第二新闻集合中的新闻至用户,作为输入条件的新闻专题检索结果。本公开能够自动对检索直接获得的第一新闻集合中相似新闻的去重,以及新闻质量筛选,省去了人工检索用时,提升了新闻检索结果的质量。

Description

一种基于质量评价的新闻专题生成方法及装置
技术领域
本公开涉及媒体数据处理技术领域,尤其涉及一种基于质量评价的新闻专题生成方法及装置。
背景技术
现有媒体工作者在通过内容、事件来生成新闻专题时,又有每个媒体平台有多个渠道发布的新闻数据,以此同一个事件会被各种媒体分别报道,虽然内容是同一个事件,但新闻报道的质量参差不齐。因此,往往根据条件来检索生成相应新闻专题时,会得到大量内容重复和质量较低的新闻,导致用户需要花费大量时间对检索到的新闻专题结果进行去重和排除质量较低的新闻处理,使得工作效率非常低。
发明内容
有鉴于此,本公开实施例提供了一种基于质量评价的新闻专题生成方法及装置,以解决现有技术中用户需要花费大量时间对检索到的新闻专题结果进行去重和排除质量较低的新闻处理,使得工作效率非常低的问题。
本公开实施例的第一方面,提供了一种基于质量评价的新闻专题生成方法,包括:获取第一新闻集合,第一新闻集合包括基于用户输入条件检索到的多条新闻;计算第一新闻集合中每条新闻的质量分;基于质量分对第一新闻集合中的新闻进行去重处理,得到第二新闻集合;按质量分由高到低的顺序输出第二新闻集合中的新闻至用户,作为输入条件的新闻专题检索结果。
本公开实施例的第二方面,提供了一种基于质量评价的新闻专题生成装置,包括:检索模块,被配置为获取第一新闻集合,第一新闻集合包括基于用户输入条件检索到的多条新闻;评分模块,被配置为计算第一新闻集合中每条新闻的质量分;去重模块,被配置为基于质量分对第一新闻集合中的新闻进行去重处理,得到第二新闻集合;输出模块,被配置为按质量分由高到低的顺序输出第二新闻集合中的新闻至用户,作为输入条件的新闻专题检索结果。
本公开实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可以在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
本公开实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
本公开实施例与现有技术相比存在的有益效果是:通过获取第一新闻集合,第一新闻集合包括基于用户输入条件检索到的多条新闻;计算第一新闻集合中每条新闻的质量分,基于质量分对第一新闻集合中的新闻进行去重处理,得到第二新闻集合;按质量分由高到低的顺序输出第二新闻集合中的新闻至用户,作为输入条件的新闻专题检索结果,由此实现了自动对检索直接获得的第一新闻集合中相似新闻的去重,以及新闻质量筛选,避免了新闻专题检索结果中出现大量相似的新闻和低质量新闻的情形,省去了人工检索用时,提升了新闻检索结果的质量。
附图说明
为了更清楚地说明本公开实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本公开实施例的应用场景的场景示意图;
图2是本公开实施例提供的一种基于质量评价的新闻专题生成方法的流程示意图;
图3是本公开实施例提供的一种基于质量评价的新闻专题生成装置的结构示意图;
图4是本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本公开实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本公开的描述。
下面将结合附图详细说明根据本公开实施例的一种基于质量评价的新闻专题生成方法和装置。
图1是本公开实施例的应用场景的场景示意图。该应用场景可以包括终端设备1、服务器2以及网络3。
终端设备1可以是硬件,也可以是软件。当终端设备1为硬件时,其可以是具有显示屏且支持与服务器2通信的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等;当终端设备1为软件时,其可以安装在如上的电子设备中。终端设备1可以实现为多个软件或软件模块,也可以实现为单个软件或软件模块,本公开实施例对此不作限制。进一步地,终端设备1上可以安装有各种应用,例如数据处理应用、文本识别应用、搜索引擎应用等。
服务器2可以是提供各种新闻服务的数据库服务器。服务器2可以是一台服务器,也可以是由若干台服务器组成的服务器集群,本公开实施例对此不作限制。
需要说明的是,服务器2可以是硬件,也可以是软件。当服务器2为硬件时,其可以是为终端设备1提供各种服务的各种电子设备。当服务器2为软件时,其可以是为终端设备1提供各种服务的多个软件或软件模块,也可以是为终端设备1提供各种服务的单个软件或软件模块,本公开实施例对此不作限制。
网络3可以是采用同轴电缆、双绞线和光纤连接的有线网络,也可以是无需布线就能实现各种通信设备互联的无线网络,例如,WIFI、移动通信网络等,本公开实施例对此不作限制。
用户可以通过终端设备1经由网络3与服务器2建立通信连接,以接收或发送信息等。具体地,用户在终端设备上输入检索条件,然后从服务器中检索出与该检索条件匹配的多条新闻,并对该多条新闻进行去重后生成该检索条件的检索结果返回给终端设备。
需要说明的是,终端设备1、服务器2以及网络3的具体类型、数量和组合可以根据应用场景的实际需求进行调整,本公开实施例对此不作限制。
图2是本公开实施例提供的一种基于质量评价的新闻专题生成方法的流程示意图。图2的基于质量评价的新闻专题生成方法可以由图1的终端设备或服务器执行。如图2所示,该基于质量评价的新闻专题生成方法包括:
S201,获取第一新闻集合,第一新闻集合包括基于用户输入条件检索到的多条新闻;
S202,计算第一新闻集合中每条新闻的质量分;
S203,基于质量分对第一新闻集合中的新闻进行去重处理,得到第二新闻集合;
S204,按质量分由高到低的顺序输出第二新闻集合中的新闻至用户,作为输入条件的新闻专题检索结果。
这里,新闻主要是媒体发布的以文字为内容的报道,媒体一般会以数字化的方式将这些新闻保存在数据库中,并允许外部对这些新闻进行访问或读取等。
具体地,该输入条件为用户想要生成新闻专题的检索条件,该检索条件包括但不限于检索关键词、类别标签、来源和日期。用户可以输入一个或多个检索关键词,或者输入类别标签、来源或日期中的任一个,也可以是输入检索关键词、类别标签、来源和日期中的多个,进行组合检索,本公开实施例对此不作限制。
具体地,该检索可以是基于输入条件在各个不同的媒体平台数据库中查询相关的新闻报道,也可以是基于输入条件在指定的一个或多个数据库中查询相关的新闻报道,本公开实施例对此不作限制。
具体地,该质量分可以是按照设定的评价标准来对新闻进行分析评价,然后得到新闻在每个标准中的分值,最后依据每个评价标准的权重来对全部分值计算加权和,以此来得到新闻的质量分;也可以是利用机器学习算法来对大量的样本数据进行学习,以得到能够对新闻进行评价的模型,只需将新闻作为该模型的输入,该模型便能输出该新闻对应的质量分。当然,实际中也可能是采用其他方式来给新闻打质量分,本公开实施例对此不作限制。
具体地,该相似度是指一条新闻与另一条新闻之间的文本相似度,所谓的两两之间的相似度是指每一条新闻分别与其他新闻之间的相似度。例如,第一新闻集合一共有5条新闻(当然实际数量肯定远大于5),分别表示为W1、W2、W3、W4和W5,那么,该5条新闻两两之间的相似度是指W1与W2,W1与W3,W1与W4,W1与W5,W2与W3,W2与W4,W2与W5,W3与W4,W3与W5,W4与W5之间的相似度。
根据本公开实施例提供的技术方案,通过获取第一新闻集合,第一新闻集合包括基于用户输入条件检索到的多条新闻;计算第一新闻集合中每条新闻的质量分,基于质量分对第一新闻集合中的新闻进行去重处理,得到第二新闻集合;按质量分由高到低的顺序输出第二新闻集合中的新闻至用户,作为输入条件的新闻专题检索结果,由此实现了自动对检索直接获得的第一新闻集合中相似新闻的去重,以及新闻质量筛选,避免了新闻专题检索结果中出现大量相似的新闻和低质量新闻的情形,省去了人工检索用时,提升了新闻检索结果的质量。
在一些实施例中,计算第一新闻集合中每条新闻的质量分,包括:利用预先基于回归算法建立的质量评价模型对第一新闻集合中的每条新闻进行识别,得到每条新闻的质量分。
具体地,该回归算法可以包括但不限于线性回归、逻辑回归、多项式回归、逐步回归、岭回归或套索回归等任一种机器学习算法,或者也可以采用其他类似的算法,本公开实施例对此不作限制。在本公开实施例中,可以使用足够数量的人工标注质量分的新闻样本对选定一个回归算法模型进行训练,以建立得到的该质量评价模型。
例如,选取一条新闻样本A,获取该新闻样本A的特征为x,以及人工标注的质量分y,那么,该新闻样本A可以表示为A=(x,y)。其中,该特征x可以是一个特征,也可以是多个特征。例如,当x为多个特征的情况下,新闻样本A的特征可以包括但不限于新闻的摘要embedding向量、关键词embeding向量、新闻文章摘要,以及专题关键词相似度、文章来源、稿件长度、作者水平分、文本长度、分类标签中的至少一个。其中,embedding就是用一个低维的向量表示一个物体,这个物体可以是一个词,或是一个商品,或是一个电影等,而这个embedding向量的性质是能使距离相近的向量对应的物体有相近的含义。
根据本公开实施例提供的技术方案,通过回归算法建立质量评价模型来对新闻进行质量评价,生成每条新闻的质量分,能够在更多维度上来对新闻的质量进行评价,使得对新闻的评价更为全面,并且随着模型的不断优化,模型对新闻进行质量打分的可靠度也会随之提升。
在一些实施例中,利用预先基于回归算法建立的质量评价模型对第一新闻集合中的每条新闻进行识别,得到每条新闻的质量分,包括:获取第一新闻集合中每条新闻的质量特征信息;根据质量特征信息,构建第一新闻集合的特征向量集合;将特征向量集合输入预先基于回归算法建立的质量评价模型中,得到第一新闻集合中每条新闻的质量分。
具体地,质量特征信息就是训练模型时的样本特征,也就是说,这里获取的质量特征信息是与模型训练时样本所包含的特征相一致的。例如,建立质量评价模型所使用的新闻样本包括新闻的摘要embedding向量、关键词embeding向量、新闻文章摘要,以及专题关键词相似度、文章来源、稿件长度、作者水平分、文本长度、分类标签中的至少一个特征,那么,在利用建立好的质量评价模型对新闻进行质量打分时,该质量特征信息也包括特征:新闻的摘要embedding向量、关键词embeding向量、新闻文章摘要,以及专题关键词相似度、文章来源、稿件长度、作者水平分、文本长度、分类标签中的至少一个特征。
在一些应用场景中,假设第一新闻集合包括n条新闻,n为整数,每条新闻的质量特征信息为X,假设质量特征信息是一个m维特征,即有m个特征。那么,可以构建该第一新闻集合的特征向量集合为Si=(Xi1,Xi2,…Xim),其中,i和m取非负整数,初始值为0,i<n,Si表示n条新闻中第i条新闻的特征向量,Xim表示该第i条新闻的特征向量中的第m个质量特征信息,假设质量特征信息包括新闻的摘要embedding向量、关键词embeding向量、新闻文章摘要,以及专题关键词相似度、文章来源、稿件长度、作者水平分、文本长度、分类标签,则m取值为9。
具体地,在本公开实施例中,可以采用bert(Bidirectional EncoderRepresentation from Transformers的缩写,即预训练的语言表征模型)预训练模型来获取新闻文章摘要和新闻的摘要embedding向量、关键词embeding向量。
例如,在实际应用中,利用上述质量特征信息计算质量分时,本公开实施例使用了但不限于GBDT(英文全文为Gradient Boosting Decision Tree,即梯度提升决策树)+LR(英文全文为Logistic regression,即逻辑回归模型)模型。具体步骤如下:
1)使用GBDT模型,输入新闻的摘要embedding向量、关键词embeding向量、新闻文章摘要与专题关键词相似度、文章来源、稿件长度、作者水平分、文本长度、分类标签的质量特征信息,对应输出得到N个转换特征Y1、Y2、Y3…YN(相当于这里N=9)。
2)使用LR模型对N个转换特征进行线性计算,公式如下:
Output = m1*Y1+m2*Y2+…+mN*YN;
其中,m1,m2,…,mN为转换特征系数。
使用此模型架构的原因是本质量分计算涉及到了embedding向量这种稠密特征,特征数量多会导致直接使用线性模型LR容易欠拟合。而GBDT树状模型可以很好的对特征进行筛选和归类,进一步为LR提取了有助于质量评价的特征信息,降低了特征维度。
与此同时,在计算关键词相似度时,由于即使对于bert这种模型对于输入的文本长度有限,没法对一个长文本直接取向量计算与关键词的相似度。此时本公开的做法为先提取出新闻的摘要,再通过该摘要的入新闻的摘要embedding向量、关键词embeding向量、新闻文章摘要与其它质量特征信息计算相似度。
例如,新闻的摘要的计算过程为:
1.每个句子随机分配初始权重;
2.计算每个句子的权重,句子权重为句子的文本向量与周围多个句子的向量的相似度乘以每个句子自己本身的权重;
3.重复步骤2,直到句子权重的变化程度低于预设的阈值q;
4.对文章句子按照权重进行倒排,选取前M个句子作为文章摘要。
其中,句子的文本向量和句子的向量可以为句子的embedding向量。
另外,除新闻的摘要embedding向量、关键词embeding向量、新闻文章摘要之外,对于新闻的专题关键词相似度、文章来源、稿件长度、作者水平分、文本长度、分类标签等质量特征信息可以是采用预先训练完成的分类算法模型来获取新闻的类别标签;也可以是采用语法错误检查程序、字词错误检查程序、文本字数统计程序、文本信息查询程序来对应获取新闻的语法错误数量、字词错误数量、稿件长度、稿件来源和作者。考虑到这些实现方式可以通过本领域的常用技术手段来实现,故这里不作赘述。
例如,可以采用文本识别算法、自然语言处理算法、预先建立的机器学习模型或者程序等其他方式来进行自动提取上述专题关键词相似度、文章来源、稿件长度、作者水平分、文本长度、分类标签等质量特征信息,本公开实施例对此不作限制。
根据本公开实施例提供的技术方案,通过获取第一新闻集合中的每条新闻的质量特征信息来建立特征向量集合,并将该特征向量集合输入质量评价模型中,便可以直接得到第一新闻信息中全部新闻的质量分,从而可以高效获取新闻的质量分。
在一些实施例中,基于质量分对第一新闻集合中的新闻进行去重处理,得到第二新闻集合,包括:计算第一新闻集合中多条新闻两两之间的相似度;在两条新闻的相似度高于预设的阈值的情况下,删除两条新闻中质量分较低的一条新闻,得到第二新闻集合。
具体地,阈值可以是用户根据经验设置的预设值,也可以是用户对已经设置的阈值进行调整后得到的新的预设值,本公开实施例对此不作限制。
其中,两条新闻的相似度越高,则说明两条新闻越相似,反之,若两条新闻的相似度越低,则说明两条新闻越不相似。对于相似度达到阈值的两条新闻,则认为该两条新闻具有很高的相似度,为此,根据两条新闻的质量分,删除其中质量分较低的一条新闻,而保留另外一条新闻,从而得到该第二新闻集合。
示例地,假设有新闻A1、A2和A3,分别计算A1和A2,A1和A3,以及A2和A3的余弦相似度,若A1和A2相似,并且A1与A2的余弦相似度高于阈值,A1的质量分小于A2的质量分,则删除A1;同时,若A1和A3相似,并且A1与A3的余弦相似度高于阈值,A1的质量分大于A3的质量分,则删除A3;若A2和A3相似,并且A2和A3的余弦相似度高于阈值,A2的质量分大于A3的质量分,则删除A2。可见,经过上述去重处理以后,新闻A1、A2和A3中仅剩下了A2,删除了A1和A2。
根据本公开实施例提供的技术方案,通过设置阈值来选取重合度较高的两条新闻,在结合两条新闻的质量分来删除其中一条分值低的新闻,实现了对第一新闻集合中新闻的去重,以及对高质量分新闻的筛选。
在一些实施例中,计算第一新闻集合中多条新闻两两之间的相似度,包括:
获取每条新闻的embedding向量,embedding向量包括新闻的摘要embedding向量或/和关键词embeding向量;
基于摘要embedding向量或/和关键词embeding向量,计算第一新闻集合中多条新闻两两之间的余弦相似度。
具体地,余弦相似度是通过两个新闻的embedding向量的夹角的余弦值来度量它们之间的相似性,如果两个向量的夹角越大代表相似度越低,相反,如果两个向量的夹角越小,则代表相似度越高。当然,实际应用中,也可以采用其他的方式来计算两个文本之间的相似度,本公开实施例对此不作限制。
例如,假设新闻W1的摘要embedding向量和关键词embeding向量分别为E11和E12,假设新闻W2的摘要embedding向量和关键词embeding向量分别为E21和E22,那么,新闻W1与新闻W2之间的余弦相似度可以是向量E11与E21之间的余弦相似度,也可以是向量E21与E22之间的余弦相似度,或者也可以是向量E11与E21之间的余弦相似度和向量E21与E22之间的余弦相似度的余弦相似度平均值;另外,还可以是基于E11和E12,将新闻W1的embedding向量表示为向量(E11,E12),基于E21和E22,将新闻W2的embedding向量表示为向量(E21,E22),然后根据向量(E11,E12)与向量(E21,E22)计算新闻W1与W2之间的余弦相似度,这里,E21、E22、E11和E12可以分别为各个向量自身的向量绝对值,采用这种多个embedding向量标识计算余弦相似度的向量的方式,可以进一步提高新闻之间相似度的准确度。
根据本公开实施例提供的技术方案,通过新闻的embedding向量来计算两两新闻之间的相似度,可以简单且快速得到第一新闻集合中各新闻之间的相似度,尤其是在计算新闻的质量分时能够同时输出得到embedding向量的情况下,能够省却获取新闻对应的向量的步骤,从而进一步提高相似度计算的速度与效率。
在一些实施例中,基于质量分对第一新闻集合中的新闻进行去重处理,得到第二新闻集合,包括:对第一新闻集合中的全部新闻进行聚类,得到多个不同的簇,每个簇内包括至少一条新闻;分别选取出每个簇内质量分最高的新闻,得到第二新闻集合。
具体地,聚类是按照某个特定标准(如距离)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。也即聚类后同一类的数据尽可能聚集到一起,不同类数据尽量分离。在本公开实施例中,可以预先利用新闻样本来对聚类算法进行训练,来得到相应的聚类分析模型,并且本公开实施例对聚类算法的具体架构不作限制。
示例地,假设第一新闻集合中一共有1000条新闻,通过聚类将该1000条新闻分为25个簇,根据每条新闻的质量分,将每个簇内质量分最高的新闻选出来构成第二新闻集合,那么第二新闻集合中则至少有25条新闻;如果一个簇内质量分最高的新闻数据不止一个,可以任选其一或全部选出,本公开对此不作限制。可见,第二新闻集合的新闻数量要明显少于第一新闻集合的新闻数量。
根据本公开实施例提供的技术方案,通过对第一新闻集合中的新闻进行聚类可以将相似的新闻聚集到一起,而不相似的新闻则尽量分开,从而实现新闻相似程度的快速分类,并利用每个簇内新闻的质量分来选出质量分最高的一条新闻来作为第二新闻集合,不需要进行大量的复杂运算,有利于快速获取到第二新闻集合。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。
图3是本公开实施例提供的一种基于质量评价的新闻专题生成装置的结构示意图。如图3所示,该基于质量评价的新闻专题生成装置包括:
检索模块301,被配置为获取第一新闻集合,第一新闻集合包括基于用户输入条件检索到的多条新闻;
评分模块302,被配置为计算第一新闻集合中每条新闻的质量分;
去重模块303,被配置为基于质量分对第一新闻集合中的新闻进行去重处理,得到第二新闻集合;
输出模块304,被配置为按质量分由高到低的顺序输出第二新闻集合中的新闻至用户,作为输入条件的新闻专题检索结果。
根据本公开实施例提供的技术方案,通过获取第一新闻集合,第一新闻集合包括基于用户输入条件检索到的多条新闻;计算第一新闻集合中每条新闻的质量分,基于质量分对第一新闻集合中的新闻进行去重处理,得到第二新闻集合;按质量分由高到低的顺序输出第二新闻集合中的新闻至用户,作为输入条件的新闻专题检索结果,由此实现了自动对检索直接获得的第一新闻集合中相似新闻的去重,以及新闻质量筛选,避免了新闻专题检索结果中出现大量相似的新闻和低质量新闻的情形,省去了人工检索用时,提升了新闻检索结果的质量。
在一些实施例中,图3中的评分模块302利用预先基于回归算法建立的质量评价模型对第一新闻集合中的每条新闻进行识别,得到每条新闻的质量分。
在一些实施例中,图3中的评分模块302获取第一新闻集合中每条新闻的质量特征信息;根据质量特征信息,构建第一新闻集合的特征向量集合;将特征向量集合输入预先基于回归算法建立的质量评价模型中,得到第一新闻集合中每条新闻的质量分。
在一些实施例中,质量特征信息包括新闻的以下至少一个特征:新闻的摘要embedding向量、关键词embeding向量、新闻文章摘要,以及专题关键词相似度、文章来源、稿件长度、作者水平分、文本长度、分类标签。
在一些实施例中,该基于质量评价的新闻专题生成装置,还包括:计算模块305,被配置为计算第一新闻集合中多条新闻两两之间的相似度;图3中的去重模块303在两条新闻的相似度高于预设的阈值的情况下,删除两条新闻中质量分较低的一条新闻,得到第二新闻集合。
在一些实施例中,图3中的去重模块303获取每条新闻的embedding向量,该新闻的摘要embedding向量或/和关键词embeding向量;基于该摘要embedding向量或/和关键词embeding向量,计算第一新闻集合中多条新闻两两之间的余弦相似度。
在一些实施例中,在一些实施例中,该基于质量评价的新闻专题生成装置,还包括:聚类模块306,被配置为对第一新闻集合中的全部新闻进行聚类,得到多个不同的簇,每个簇内包括至少一条新闻;图3中的去重模块303分别选取出每个簇内质量分最高的新闻,得到第二新闻集合。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本公开实施例的实施过程构成任何限定。
图4是本公开实施例提供的电子设备4的示意图。如图4所示,该实施例的电子设备4包括:处理器401、存储器402以及存储在该存储器402中并且可以在处理器401上运行的计算机程序403。处理器401执行计算机程序403时实现上述各个方法实施例中的步骤。或者,处理器401执行计算机程序403时实现上述各装置实施例中各模块/单元的功能。
示例性地,计算机程序403可以被分割成一个或多个模块/单元,一个或多个模块/单元被存储在存储器402中,并由处理器401执行,以完成本公开。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序403在电子设备4中的执行过程。
电子设备4可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备4可以包括但不仅限于处理器401和存储器402。本领域技术人员可以理解,图4仅仅是电子设备4的示例,并不构成对电子设备4的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如,电子设备还可以包括输入输出设备、网络接入设备、总线等。
处理器401可以是中央处理单元(Central Processing Unit,CPU),也可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器402可以是电子设备4的内部存储单元,例如,电子设备4的硬盘或内存。存储器402也可以是电子设备4的外部存储设备,例如,电子设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器402还可以既包括电子设备4的内部存储单元也包括外部存储设备。存储器402用于存储计算机程序以及电子设备所需的其它程序和数据。存储器402还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开的范围。
在本公开所提供的实施例中,应该理解到,所揭露的装置/电子设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/电子设备实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本公开实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可以存储在计算机可读存储介质中,该计算机程序在被处理器执行时,可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如,在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围,均应包含在本公开的保护范围之内。

Claims (10)

1.一种基于质量评价的新闻专题生成方法,其特征在于,包括:
获取第一新闻集合,所述第一新闻集合包括基于用户输入条件检索到的多条新闻;
计算所述第一新闻集合中每条新闻的质量分;
基于所述质量分对所述第一新闻集合中的新闻进行去重处理,得到第二新闻集合;
按质量分由高到低的顺序输出所述第二新闻集合中的新闻至所述用户,作为所述输入条件的新闻专题检索结果。
2.根据权利要求1所述的方法,其特征在于,所述计算所述第一新闻集合中每条新闻的质量分,包括:
利用预先基于回归算法建立的质量评价模型对所述第一新闻集合中的每条新闻进行识别,得到所述每条新闻的质量分。
3.根据权利要求2所述的方法,其特征在于,所述利用预先基于回归算法建立的质量评价模型对所述第一新闻集合中的每条新闻进行识别,得到所述每条新闻的质量分,包括:
获取所述第一新闻集合中每条新闻的质量特征信息;
根据所述质量特征信息,构建所述第一新闻集合的特征向量集合;
将所述特征向量集合输入预先基于回归算法建立的质量评价模型中,得到所述第一新闻集合中每条新闻的质量分。
4.根据权利要求3所述的方法,其特征在于,所述质量特征信息包括新闻的以下至少一个特征:新闻的摘要embedding向量、关键词embeding向量、新闻文章摘要,以及专题关键词相似度、文章来源、稿件长度、作者水平分、文本长度、分类标签。
5.根据权利要求1-4任一所述的方法,其特征在于,所述基于所述质量分对所述第一新闻集合中的新闻进行去重处理,得到第二新闻集合,包括:
计算所述第一新闻集合中多条新闻两两之间的相似度;
在两条新闻的所述相似度高于预设的阈值的情况下,删除所述两条新闻中质量分较低的一条新闻,得到第二新闻集合。
6.根据权利要求5所述的方法,其特征在于,所述计算所述第一新闻集合中多条新闻两两之间的相似度,包括:
获取每条新闻的embedding向量,所述embedding向量包括新闻的摘要embedding向量或/和关键词embeding向量;
基于所述摘要embedding向量或/和关键词embeding向量,计算所述第一新闻集合中多条新闻两两之间的余弦相似度。
7.根据权利要求1-4任一所述的方法,其特征在于,所述基于所述质量分对所述第一新闻集合中的新闻进行去重处理,得到第二新闻集合,包括:
对所述第一新闻集合中的全部新闻进行聚类,得到多个不同的簇,每个所述簇内包括至少一条新闻;
分别选取出每个所述簇内质量分最高的新闻,得到第二新闻集合。
8.一种基于质量评价的新闻专题生成装置,其特征在于,包括:
检索模块,被配置为获取第一新闻集合,所述第一新闻集合包括基于用户输入条件检索到的多条新闻;
评分模块,被配置为计算所述第一新闻集合中每条新闻的质量分;
去重模块,被配置为基于所述质量分对所述第一新闻集合中的新闻进行去重处理,得到第二新闻集合;
输出模块,被配置为按质量分由高到低的顺序输出所述第二新闻集合中的新闻至所述用户,作为所述输入条件的新闻专题检索结果。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并且可以在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。
CN202210353040.9A 2022-04-06 2022-04-06 一种基于质量评价的新闻专题生成方法及装置 Active CN114780712B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210353040.9A CN114780712B (zh) 2022-04-06 2022-04-06 一种基于质量评价的新闻专题生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210353040.9A CN114780712B (zh) 2022-04-06 2022-04-06 一种基于质量评价的新闻专题生成方法及装置

Publications (2)

Publication Number Publication Date
CN114780712A true CN114780712A (zh) 2022-07-22
CN114780712B CN114780712B (zh) 2023-07-04

Family

ID=82427204

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210353040.9A Active CN114780712B (zh) 2022-04-06 2022-04-06 一种基于质量评价的新闻专题生成方法及装置

Country Status (1)

Country Link
CN (1) CN114780712B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115687628A (zh) * 2022-12-30 2023-02-03 北京搜狐新媒体信息技术有限公司 一种新闻质量评判方法、系统、计算机设备和存储介质

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831234A (zh) * 2012-08-31 2012-12-19 北京邮电大学 基于新闻内容和主题特征的个性化新闻推荐装置和方法
CN103136359A (zh) * 2013-03-07 2013-06-05 宁波成电泰克电子信息技术发展有限公司 单文档摘要生成方法
CN108062389A (zh) * 2017-12-15 2018-05-22 北京百度网讯科技有限公司 简报生成方法和装置
JP2018081394A (ja) * 2016-11-15 2018-05-24 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム
CN110162632A (zh) * 2019-05-17 2019-08-23 北京百分点信息科技有限公司 一种新闻专题事件发现的方法
CN110162796A (zh) * 2019-05-31 2019-08-23 阿里巴巴集团控股有限公司 新闻专题创建方法和装置
CN110377808A (zh) * 2019-06-14 2019-10-25 北京达佳互联信息技术有限公司 文档处理方法、装置、电子设备及存储介质
CN110442679A (zh) * 2019-08-01 2019-11-12 信雅达系统工程股份有限公司 一种基于融合模型算法的文本去重方法
CN110532556A (zh) * 2019-08-29 2019-12-03 苏州朗动网络科技有限公司 文本新闻的处理方法、设备和存储介质
CN110895586A (zh) * 2018-08-22 2020-03-20 腾讯科技(深圳)有限公司 生成新闻页面的方法、装置、计算机设备及存储介质
CN112231569A (zh) * 2020-10-23 2021-01-15 中国平安人寿保险股份有限公司 新闻推荐方法、装置、计算机设备及存储介质
US20210109954A1 (en) * 2019-10-11 2021-04-15 S&P Global Deep learning-based two-phase clustering algorithm
CN112926298A (zh) * 2021-03-02 2021-06-08 北京百度网讯科技有限公司 新闻内容识别方法、相关装置及计算机程序产品
WO2021246812A1 (ko) * 2020-06-04 2021-12-09 주식회사 웨이커 딥러닝 nlp 모델을 활용한 뉴스 긍정도 분석 솔루션 및 장치
KR102368043B1 (ko) * 2021-01-06 2022-02-24 한전케이디엔주식회사 사용자 정의 토픽 모델링을 활용한 사용자 관심 뉴스 추천 장치 및 그 방법

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831234A (zh) * 2012-08-31 2012-12-19 北京邮电大学 基于新闻内容和主题特征的个性化新闻推荐装置和方法
CN103136359A (zh) * 2013-03-07 2013-06-05 宁波成电泰克电子信息技术发展有限公司 单文档摘要生成方法
JP2018081394A (ja) * 2016-11-15 2018-05-24 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム
CN108062389A (zh) * 2017-12-15 2018-05-22 北京百度网讯科技有限公司 简报生成方法和装置
US20190188329A1 (en) * 2017-12-15 2019-06-20 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and device for generating briefing
CN110895586A (zh) * 2018-08-22 2020-03-20 腾讯科技(深圳)有限公司 生成新闻页面的方法、装置、计算机设备及存储介质
CN110162632A (zh) * 2019-05-17 2019-08-23 北京百分点信息科技有限公司 一种新闻专题事件发现的方法
CN110162796A (zh) * 2019-05-31 2019-08-23 阿里巴巴集团控股有限公司 新闻专题创建方法和装置
CN110377808A (zh) * 2019-06-14 2019-10-25 北京达佳互联信息技术有限公司 文档处理方法、装置、电子设备及存储介质
CN110442679A (zh) * 2019-08-01 2019-11-12 信雅达系统工程股份有限公司 一种基于融合模型算法的文本去重方法
CN110532556A (zh) * 2019-08-29 2019-12-03 苏州朗动网络科技有限公司 文本新闻的处理方法、设备和存储介质
US20210109954A1 (en) * 2019-10-11 2021-04-15 S&P Global Deep learning-based two-phase clustering algorithm
US20210110475A1 (en) * 2019-10-11 2021-04-15 S&P Global Subscription-enabled news recommendation system
WO2021246812A1 (ko) * 2020-06-04 2021-12-09 주식회사 웨이커 딥러닝 nlp 모델을 활용한 뉴스 긍정도 분석 솔루션 및 장치
CN112231569A (zh) * 2020-10-23 2021-01-15 中国平安人寿保险股份有限公司 新闻推荐方法、装置、计算机设备及存储介质
KR102368043B1 (ko) * 2021-01-06 2022-02-24 한전케이디엔주식회사 사용자 정의 토픽 모델링을 활용한 사용자 관심 뉴스 추천 장치 및 그 방법
CN112926298A (zh) * 2021-03-02 2021-06-08 北京百度网讯科技有限公司 新闻内容识别方法、相关装置及计算机程序产品

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115687628A (zh) * 2022-12-30 2023-02-03 北京搜狐新媒体信息技术有限公司 一种新闻质量评判方法、系统、计算机设备和存储介质

Also Published As

Publication number Publication date
CN114780712B (zh) 2023-07-04

Similar Documents

Publication Publication Date Title
US9418144B2 (en) Similar document detection and electronic discovery
US9589208B2 (en) Retrieval of similar images to a query image
CN109885773B (zh) 一种文章个性化推荐方法、系统、介质及设备
KR101508260B1 (ko) 문서 특징을 반영하는 요약문 생성 장치 및 방법
CN110647614A (zh) 智能问答方法、装置、介质及电子设备
US20160034512A1 (en) Context-based metadata generation and automatic annotation of electronic media in a computer network
CN106844341B (zh) 基于人工智能的新闻摘要提取方法及装置
CN104573054A (zh) 一种信息推送方法和设备
CN110968695A (zh) 基于弱监督技术主动学习的智能标注方法、装置及平台
CN112035599B (zh) 基于垂直搜索的查询方法、装置、计算机设备及存储介质
CN111753048B (zh) 文档检索方法、装置、设备及存储介质
CN112257419A (zh) 一种基于词频和语义计算专利文献相似度的智能检索方法、装置、电子设备及其存储介质
CN110210038B (zh) 核心实体确定方法及其系统、服务器和计算机可读介质
CN111444304A (zh) 搜索排序的方法和装置
CN108228612B (zh) 一种提取网络事件关键词以及情绪倾向的方法及装置
CN114357117A (zh) 事务信息查询方法、装置、计算机设备及存储介质
CN112100396A (zh) 一种数据处理方法和装置
CN112148701A (zh) 一种文件检索的方法及设备
CN114398473A (zh) 企业画像生成方法、装置、服务器及存储介质
CN112307303A (zh) 基于云计算的网络页面高效精准去重系统
CN112988784B (zh) 数据查询方法、查询语句生成方法及其装置
CN114780712B (zh) 一种基于质量评价的新闻专题生成方法及装置
CN112506864B (zh) 文件检索的方法、装置、电子设备及可读存储介质
CN111538903B (zh) 搜索推荐词确定方法、装置、电子设备及计算机可读介质
CN105512270B (zh) 一种确定相关对象的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant