CN108287821B - 一种高质量文本筛选方法、装置及电子设备 - Google Patents

一种高质量文本筛选方法、装置及电子设备 Download PDF

Info

Publication number
CN108287821B
CN108287821B CN201810063337.5A CN201810063337A CN108287821B CN 108287821 B CN108287821 B CN 108287821B CN 201810063337 A CN201810063337 A CN 201810063337A CN 108287821 B CN108287821 B CN 108287821B
Authority
CN
China
Prior art keywords
text
screened
preset
characteristic
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810063337.5A
Other languages
English (en)
Other versions
CN108287821A (zh
Inventor
都金涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201810063337.5A priority Critical patent/CN108287821B/zh
Publication of CN108287821A publication Critical patent/CN108287821A/zh
Application granted granted Critical
Publication of CN108287821B publication Critical patent/CN108287821B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种高质量文本筛选方法、装置及电子设备。方法包括:获取待筛选文本的预设特征的特征值,所述预设特征,包括:用于表示所述待筛选文本语义的语义特征,和/或,用于表示所述待筛选文本结构的结构特征;基于所述待筛选文本的预设特征的特征值,利用预设的映射关系,计算所述待筛选文本的质量分数;将所述待筛选文本按照所述质量分数的顺序重新进行排序。本发明实施例,可以根据文本特征对文本质量进行评估,并按照文本质量的高低对文本重新排序,从而可以更客观、准确地将高质量文本筛选出来并置于排序结果中的前列。

Description

一种高质量文本筛选方法、装置及电子设备
技术领域
本发明涉及大数据分析技术领域,特别是涉及一种高质量文本筛选方法、装置及电子设备。
背景技术
随着互联网用户的增加,互联网中UGC(用户原创内容,User Generated Content)也以爆炸式的速度增长。其中包括了大量以文字为主体的UGC,诸如评论、弹幕,这些文本的内容质量不同,为了让用户获得更好的阅读体验,需要对这些文本进行筛选,将其中高质量的文本优先呈现给用户。现有技术中,在筛选高质量的文本时,将文本按照点赞数进行排序,将排名靠前的文本作为高质量的文本。
发明人在实现本发明的过程中发现,现有技术至少存在如下问题:
点赞是一种用户行为,不可避免的带有主观性,因此根据文本点赞数的排名对文本进行筛选不够客观、准确。
发明内容
本发明实施例的目的在于提供一种高质量文本筛选方法,用以解决现有技术中存在的按照质量高低对文本进行排序的准确性较低的问题。具体技术方案如下:
在本发明实施例的第一方面,提供了一种高质量文本筛选方法,所述方法包括:
获取待筛选文本的预设特征的特征值,所述预设特征,包括:用于表示所述待筛选文本语义的语义特征,和/或,用于表示所述待筛选文本结构的结构特征;
基于所述待筛选文本的所述预设特征的特征值,利用预设的映射关系,计算所述待筛选文本的质量分数;
将所述待筛选文本按照所述质量分数进行排序。
进一步的,所述获取待筛选文本的预设特征的特征值,包括:
实时读取消息队列中的增量文本数据,得到待筛选文本的预设特征的特征值;或,
周期性地读取存量数据库中的存量文本数据,得到待筛选文本的预设特征的特征值。
进一步的,所述语义特征包括:用于表示所述待筛选文本的语义情感色彩的语义情感特征;
所述结构特征,至少包括语句结构特征、文本长度、中文字符占比中的一个。
进一步的,所述预设特征,还包括:
用于表示所述待筛选文本时间效力的时效特征。
进一步的,所述根据待筛选文本的预设特征的特征值,利用预设的映射关系,计算所述待筛选文本的质量分数,包括:
对所述预设特征的特征值进行加权求和,得到所述待筛选文本的特征累加值;
将所述特征累加值输入预设的映射关系中,得到所述特征累加值的映射结果,作为所述待筛选文本的质量分数。
进一步的,在所述基于所述待筛选文本的所述预设特征的特征值,利用预设的映射关系,计算所述待筛选文本的质量分数之前,还包括:
确定所述待筛选文本的所述预设特征的特征值是否低于预设筛选阈值;
如果所述预设特征的特征值低于预设筛选阈值,则删除该待筛选文本;
或者,如果所述预设特征的特征值不低于预设筛选阈值,则执行所述基于所述待筛选文本的所述预设特征的特征值,利用预设的映射关系,计算所述待筛选文本的质量分数的步骤。
进一步的,在所述将所述待筛选文本按照所述质量分数进行排序之前,还包括:
确定所述待筛选文本的所述质量分数是否低于预设分数阈值;
如果所述质量分数低于预设分数阈值,则删除该待筛选文本;
或者,如果所述质量分数不低于所述预设分数阈值,则执行所述将所述待筛选文本按照所述质量分数进行排序的步骤。
在本发明实施例的第二方面,提供了一种高质量文本筛选装置,所述装置包括:
数据读取模块,用于获取待筛选文本的预设特征的特征值,所述预设特征,包括:用于表示所述待筛选文本语义的语义特征,和/或,用于表示所述待筛选文本结构的结构特征;
计分模块,用于基于所述待筛选文本的预设特征的特征值,利用预设的映射关系,计算所述待筛选文本的质量分数;
排序模块,用于将所述待筛选文本按照所述质量分数的顺序重新进行排序。
进一步的,所述数据读取模块具体用于所述数据读取模块用于实时读取消息队列中的增量文本数据得到待筛选文本的预设特征的特征值;和,
周期性地读取存量数据库中的存量文本数据得到待筛选文本的预设特征的特征值。
进一步的,所述语义特征包括:用于表示所述待筛选文本的语义情感色彩的语义情感特征;
所述结构特征,至少包括语句结构特征、文本长度、中文字符占比中的一个。
进一步的,所述预设特征,还包括:
用于表示所述待筛选文本时间效力的时校特征。
进一步的,所述计分模块,具体用于:
对所述预设特征的特征值进行加权求和,得到所述待筛选文本的特征累加值;
将所述特征累加值输入预设的映射关系中,得到所述特征累加值的映射结果,作为所述待筛选文本的质量分数。
进一步的,还包括第一筛选模块;
所述第一筛选模块,用于在所述基于所述待筛选文本的所述预设特征的特征值,利用预设的映射关系,计算所述待筛选文本的质量分数之前,确定所述待筛选文本的所述预设特征的特征值是否低于预设筛选阈值;并且如果所述预设特征的特征值低于预设筛选阈值,则删除该待筛选文本;
所述计分模块,还用于如果所述预设特征的特征值不低于预设筛选阈值,则执行所述基于所述待筛选文本的所述预设特征的特征值,利用预设的映射关系,计算所述待筛选文本的质量分数的步骤。
进一步的,还包括第二筛选模块;
所述第二筛选模块,用于在所述将所述待筛选文本按照所述质量分数进行排序之前,确定所述待筛选文本的所述质量分数是否低于预设分数阈值;并且如果所述质量分数低于预设分数阈值,则删除该待筛选文本;
所述排序模块,还用于如果所述质量分数不低于预设分数阈值,则执行所述将所述待筛选文本按照所述质量分数进行排序的步骤。
在本发明实施例的第三方面,提供了一种高质量文本筛选电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一所述的高质量文本筛选方法。
在本发明实施例的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的高质量文本筛选方法。
在本发明实施例的第五方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的高质量文本筛选方法。
本发明实施例提供的高质量文本筛选方法、装置、电子设备、计算机可读存储介质及计算机程序产品,可以根据文本特征对文本质量进行评估,并按照文本质量的高低对文本重新排序,从而可以更客观、准确地将高质量文本筛选出来并置于排序结果中的前列。当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例提供的高质量文本筛选方法的一种流程示意图;
图2为本发明实施例提供的高质量文本筛选方法的另一种流程示意图;
图3为本发明实施例提供的高质量文本筛选方法的另一种流程示意图;
图4为本发明实施例提供的高质量文本筛选方法的另一种流程示意图;
图5为本发明实施例提供的高质量文本筛选方法的另一种流程示意图;
图6a为本发明实施例提供的高质量文本筛选装置的一种结构示意图;
图6b为本发明实施例提供的高质量文本筛选装置的另一种结构示意图;
图6c为本发明实施例提供的高质量文本筛选装置的另一种结构示意图;
图7为本发明实施例提供的高质量文本筛选电子设备的一种结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
参见图1,图1所示为本发明实施例提供的高质量文本筛选方法的一种流程示意图,可以包括以下步骤:
S101,获取待筛选文本的预设特征值,预设特征,包括:用于表示待筛选文本语义的语义特征,和/或,用于表示待筛选文本结构的结构特征。
示例性的,待筛选文本可以是视频弹幕,也可以是用户对于某条新闻的评论,还可以是发表在网络社区中的原创文章。对于不同类型的待筛选文本,预设特征可以不同。可以理解的是,预设特征可以包括情感色彩特征而不包括语义含量特征,也可以包括语义含量特征而不包括情感特征,还可以同时包括情感特征和语义含量特征。
S102,基于待筛选文本的预设特征的特征值,利用预设的映射关系,计算待筛选文本的质量分数。
具体的,可以是将待筛选文本的预设特征的特征值,作为预设的映射关系的输入进行运算,将得到的输出结果作为该待筛选文本的质量分数。在本实施例中,预设的映射关系可以是逻辑斯谛函数,也可以是其他函数。
S103,将待筛选文本按照质量分数的顺序重新进行排序。
具体的,本实施例中可以是按照质量分数由高到低的顺序,将待筛选文本重新进行排序。
选用该实施例可以根据文本特征对文本质量进行评估,并按照文本质量的高低对文本重新排序,从而可以更客观、准确地将高质量文本筛选出来并置于排序结果中的前列。
参见图2,图2所示为本发明实施例提供的高质量文本筛选方法的另一种流程示意图,可包括以下步骤:
S201,获取待筛选文本的预设特征值,预设特征,包括:用于表示待筛选文本语义的语义特征,和/或,用于表示待筛选文本结构的结构特征。
在一种可选的实施例中,可以是实时读取消息队列中的增量文本数据,得到待筛选文本的预设特征的特征值。
选用该实施例,可以对消息队列中的文本实时排序,将高质量文本放置于消息队列前端,使得消息队列中的文本不再只是按照时间进行排序。
在一种可选的实施例中,可以是周期性地赌气存量数据库中的存量文本数据,得到待筛选文本的预设特征的特征值。
具体的,可以是周期性地读取存量数据库中所有的存量文本数据,也可以是周期性地读取存量数据库中部分的存量文本数据。例如,只读取存量数据库中,近一个月内新增的存量文本数据。在其他实施例中,也可以是当存在重新排序需求时,读取存量数据库中的存量文本数据,得到待筛选文本的预设特征的特征值。选用该实施例,可以实现周期性的自动更新存量数据库中的文本的排序。
在一种可选的实施例中语义特征包括:用于表示待筛选文本的语义情感色彩的语义情感特征。
本实施例中,情感特征的特征值可以由下式计算得到:
Figure BDA0001555985490000071
其中xop为情感特征的特征值,npos为待筛选文本中正面情感词的数量,nneg为待筛选文本中负面情感词的数量。本实施例中,可以是通过将待筛选文本分别与预设的正面情感词库和负面情感词库进行匹配,得到npos和nneg
可以理解的是,待筛选文本中正面情感词比负面情感词多出的数量越多,则该待筛选文本的表达出的情感色彩是积极、正面的可信度越高。而一个表达了积极、正面的情感色彩的文本,比一个表达了消极、负面的情感色彩的文本,质量更高的可信度更高。
在一种可选的实施例中结构特征,至少包括语句结构特征、文本长度、中文字符占比中的一个。
其中,待筛选文本的语句结构特征可以包括待筛选文本的分词结果中的名词占比和/或动词占比。可以理解的是,一个句子的主干应该是该句子的主语、谓语、宾语。而主语、谓语、宾语大部分由名词和动词组成,因此待筛选文本的分词结果中,名词占比或动词占比越高,则该待筛选文本中内容丰富的可信度越高。另外,中文字符是待筛选文本中表达意义的主要载体,因此待筛选文本中的中文字符占比越高,该待筛选文本中内容丰富的可信度越高。而内容丰富的文本往往是高质量文本。
本实施例中,待筛选文本的文本长度的特征值可以由下式计算得到:
Figure BDA0001555985490000081
其中,xlen是文本长度的特征值,len为该待筛选文本的字符数,lentot为所有待筛选文本的总字符数。待筛选文本的字符数可以是包含标点符号的字符数,也可以是不计标点符号的字符数,本实施例对此不作限制。可以理解的是,待筛选文本越长,说明该文本中可能包含更多的内容,因此该待筛选文本时高质量文本的可能性越高。
本实施例中,由于名词占比、动词占比、中文字符占比的取值范围在[0,1]中,无需进行归一化,可以直接将待筛选文本的名词占比、动词占比、中文字符占比的数值作为对应特征的特征值。
在一种可选的实施例中,预设特征还可以包括,用于表示待筛选文本时间效力的时效特征。
本实施例中,待筛选文本的时效特征的特征值,可以由下式计算的得到:
Figure BDA0001555985490000082
其中,d为待筛选文本的超过预设的失效日期的天数,dtot为所有待筛选文本的超过对应的预设的失效日期的天数总和。可以理解的是,随着时间推移,待筛选文本的内容的时间效力可能下降,导致待筛选文本质量下降。因此待筛选文本的超过预设的过期日期的天数越短,则该待筛选文本是一个高质量文本的可信度越高。
在其他实施例中,预设特征,还可以包括用户对该待筛选文本内的用户行为,例如,用户对该待筛选文本的点赞数、回复数等。
S202,对预设特征的特征值进行加权求和,得到待筛选文本的特征累加值。
本实施例中,每个预设特征的特征值的权重可以是通过机器学习的方法确定的。具体的,可以是利用预设的初始权重对多个已知质量分数的样本文本的预设特征的特征值进行加权求和,并将得到的结果分别输入预设的映射关系中,得到各个样本文本的基于初始权重的关于质量分数的计算值。按照下式计算初始权重的得分:
Figure BDA0001555985490000091
其中,P为初始权重的得分,fi为第i个样本文本的质量分数,本实施例该质量分数可以是由人工审核确定的,也可以是由计算机根据预设的评分规则确定的,gi为基于初始权重的关于第i个样本文本的质量分数的计算值。根据初始权重的得分,对权重进行优化,并计算优化后的权重的得分,根据该得分,再次对权重进行优化,依次类推,直至优化后的权重的得分超过预设的得分阈值,将该权重作为加权求和时使用的权重。
S203,将特征累加值输入预设的映射关系中,得到特征累加值的映射结果,作为待筛选文本的质量分数。
本实施例中,预设的映射关系可以是如下所示的逻辑斯谛函数:
Figure BDA0001555985490000092
其中,t为待筛选文本的特征累加值,rank_score为待筛选文本的质量分数。可以理解的是,选用如上所示的逻辑斯谛函数可以使得待筛选文本的质量分数的取值范围在[-1,1]上,由于取值范围相对较小,降低了后续步骤中将待筛选文本按照质量分数的顺序进行排序所需要的计算量。
S204,将待筛选文本按照质量分数进行排序。
具体的,本实施例中按照质量分数由高到低的顺序,将待筛选文本重新进行排序。
可以理解的是,在本实施例中,预设特征中包含的特征越多,则能够从更多的方面计算待筛选文本的质量分数,使得计算结果更加准确。
参见图3,图3所示为本发明实施例提供的高质量文本筛选方法的另一种流程示意图,可以包括以下步骤:
S301,获取待筛选文本的预设特征的特征值,预设特征,包括:用于表示待筛选文本语义的语义特征,和/或,用于表示待筛选文本结构的结构特征。
该步骤与S101相同,可以参见前述关于S101的描述,在此不再赘述。
S302,确定待筛选文本的预设特征的特征值是否低于预设筛选阈值,如果预设特征的特征值低于预设筛选阈值,则执行S303,如果预设特征的特征值不低于预设筛选阈值,则执行S304。
示例性的,假设预设特征包括语义情感特征和文本长度,可以是分别确定语义情感特征的特征值是否低于0.3,和文本长度的特征值是否低于0.5,如果语义情感特征的特征值低于0,3,或者文本长度的特征值低于0.5,则执行S303,如果语义情感特征的特征值不低于0.3,并且文本长度的特征值不低于0.5,则执行S304。
当包括多个预设特征时,可以是确定所有预设特征的特征值是否低于预设筛选阈值,也可以是确定部分预设特征的特征值是否低于预设筛选阈值,进一步的,可以由用户根据实际需求来决定,具体确定哪些预设特征的特征值是否低于预设筛选阈值。
S303,删除该待筛选文本。
可以理解的是,如果待筛选文本的预设特征的特征值低于预设筛选阈值,说明该待筛选文本在某一方面很可能不符合预设的要求。示例性的,假设待筛选文本的语义情感特征的特征值低于预设筛选阈值,说明该待筛选文本中很可能表达了很负面的情绪,而当用户阅读到该文本时,可能会因为该文本所表达的负面情绪,导致阅读体验下降,为避免这种情况发生,可以删除该待删选文本。
S304,基于待筛选文本的预设特征的特征值,利用预设的映射关系,计算待筛选文本的质量分数。
此步骤与S102相同,可以参见前述关于S102的描述,在此不再赘述。
S305,将待筛选文本按照质量分数的顺序重新进行排序。
此步骤与S103相同,可以参见前述关于S103的描述,在此不再赘述。
选用该实施例,可以从待筛选文本中删除不符合预期要求的待筛选文本,能够有效避免因阅读到低质量的文本造成的用户体验下降。
参见图4,图4所示为本发明实施例提供的高质量文本筛选方法的另一种流程示意图,可以包括以下步骤:
S401,获取待筛选文本的预设特征的特征值,预设特征,包括:用于表示待筛选文本语义的语义特征,和/或,用于表示待筛选文本结构的结构特征。
此步骤与S101相同,可以参见前述关于S101的描述,在此不再赘述。
S402,基于待筛选文本的预设特征的特征值,利用预设的映射关系,计算待筛选文本的质量分数。
此步骤与S102相同,可以参见前述关于S102的描述,在此不再赘述。
S403,确定待筛选文本的质量分数是否低于预设分数阈值,如果质量分数低于预设分数阈值,则执行S404,如果质量分数不低于预设分数阈值,则执行S405。
可以理解的是,待筛选文本的质量分数越高,则该待筛选文本是高质量文本的可信度越高,而待筛选文本的质量分数越低,则该待筛选文本是低质量文本的可信度越高
S404,删除该待筛选文本。
当待筛选文本的质量分数低于预设分数阈值时,可以认为该待筛选文本有很大概率是低质量文本,因此可以删除该待筛选文本以避免用户阅读到低质量文本。
S405,将待筛选文本按照质量分数的顺序重新进行排序。
此步骤与S103相同,可以参见前述关于S103的描述,在此不再赘述。
选用该实施例,可以根据质量分数的高低,来判断待筛选文本是否为低质量文本,并删除待筛选文本中的低质量文本,能够有效的避免因用户阅读到质量较差的文本造成的用户体验下降。
在其他可选的实施例中,可以进一步删除待筛选文本中的和其他文本相似度较高的重复文本,也可以进一步删除待筛选文本中被文本反垃圾服务确定为广告或者不通顺文本的待筛选文本。
参见图5,图5所示为本发明实施例提供的高质量文本筛选方法的另一种流程示意图,可以包括以下步骤:
S501,获取待筛选文本的预设特征的特征值,预设特征,包括:用于表示待筛选文本语义的语义特征,和/或,用于表示待筛选文本结构的结构特征。
此步骤与S101相同,可以参见前述关于S101的描述,在此不再赘述。
S502,确定待筛选文本的预设特征的特征值是否低于预设筛选阈值,如果预设特征的特征值低于预设筛选阈值,则执行S503,如果预设特征的特征值不低于预设筛选阈值,则执行S504。
此步骤与S302相同,可以参见前述关于S302的描述,在此不再赘述。
S503,删除该待筛选文本。
此步骤与S303相同,可以参见前述关于S303的描述,在此不再赘述。
S504,对预设特征的特征值进行加权求和,得到待筛选文本的特征累加值。
此步骤与S202相同,可以参见前述关于S203的描述,在此不再赘述。
S505,将特征累加值输入预设的映射关系中,得到特征累加值的映射结果,作为待筛选文本的质量分数。
此步骤与S203相同,可以参见前述关于S203的描述,在此不再赘述。
S506,确定待筛选文本的质量分数是否低于预设分数阈值,如果质量分数低于预设分数阈值,则执行S503,如果质量分数不低于预设分数阈值,则执行S507。
此步骤与S403相同,可以参见前述关于S403的描述,在此不再赘述。
S507,将待筛选文本按照质量分数的顺序重新进行排序。
此步骤与S103相同,可以参见前述关于S103的描述,在此不再赘述。
选用该实施例,选用该实施例可以根据文本特征对文本质量进行评估,并按照文本质量的高低对文本重新排序,从而可以更客观、准确地将高质量文本筛选出来并置于排序结果中的前列,同时可以从待筛选文本中删除不符合预期要求以及低质量的待筛选文本,能够有效避免因阅读到低质量的文本造成的用户体验下降。
参见图6a,图6a所示为本发明实施例提供的高质量文本筛选装置的一种结构示意图,可以包括:
数据读取模块601,用于获取待筛选文本的预设特征的特征值,预设特征,包括:用于表示待筛选文本语义的语义特征,和/或,用于表示待筛选文本结构的结构特征。
计分模块602,用于基于待筛选文本的预设特征的特征值,利用预设的映射关系,计算待筛选文本的质量分数;
排序模块603,用于将待筛选文本按照质量分数的顺序重新进行排序。
在一种可选的实施例中,数据读取模块601可以具体用于;实时读取消息队列中的增量文本数据,得到待筛选文本的预设特征的特征值;和,
周期性地读取存量数据库中的存量文本数据得到待筛选文本的预设特征的特征值。
在一种可选的实施例中,语义特征可以包括:用于表示待筛选文本的语义情感色彩的语义情感特征;
结构特征可以至少包括语句结构特征、文本长度、中文字符占比中的一个。
在一种可选的实施例中,预设特征还可以包括:
用于表示待筛选文本时间效力的时效特征。
在一种可选的实施例中,计分模块602,可以具体用于:
对预设特征的特征值进行加权求和,得到待筛选文本的特征累加值;
将特征累加值输入预设的映射关系中,得到特征累加值的映射结果,作为待筛选文本的质量分数。、
在一种可选的实施例中,参见图6b,还可以包括第一筛选模块604;
第一筛选模块604,可以用于删除预设特征的特征值低于预设筛选阈值的待筛选文本。在基于待筛选文本的预设特征的特征值,利用预设的映射关系,计算待筛选文本的质量分数之前,确定待筛选文本的预设特征的特征值是否低于预设筛选阈值;并且如果预设特征的特征值低于预设筛选阈值,则删除该待筛选文本;
计算模块602,还可以用于如果预设特征的特征值不低于预设筛选阈值,则执行基于待筛选文本的预设特征的特征值,利用预设的映射关系,计算待筛选文本的质量分数的步骤。
在一种可选的实施例中,参见图6c,还可以包括第二筛选模块605;
第二筛选模块605,可以用于在将待筛选文本按照质量分数进行排序之前,确定待筛选文本的质量分数是否低于预设分数阈值;并且如果质量分数低于预设分数阈值,则删除该待筛选文本;
排序模块603,还可以用于如果质量分数不低于预设分数阈值,则执行将待筛选文本按照质量分数进行排序的步骤。
本发明实施例还提供了一种电子设备,如图7所示,包括处理器701、通信接口702、存储器703和通信总线704,其中,处理器701,通信接口702,存储器703通过通信总线704完成相互间的通信,
存储器703,用于存放计算机程序;
处理器701,用于执行存储器703上所存放的程序时,实现如下步骤:
获取待筛选文本的预设特征的特征值,预设特征包括:用于表示待筛选文本语义的语义特征,和/或,用于表示待筛选文本结构的结构特征;
基于待筛选文本的预设特征的特征值,利用预设的映射关系,计算待筛选文本的质量分数;
将待筛选文本按照质量分数的顺序重新进行排序。
进一步的,获取待筛选文本的预设特征的特征值,可以包括:
实时读取消息队列中的增量文本数据,得到待筛选文本的预设特征的特征值;或,
周期性地读取存量数据库中的存量文本数据,得到待筛选文本的预设特征的特征值。
进一步的,语义含量特征可以包括:用于表示待筛选文本的语义情感色彩的语义情感特征;
结构特征,可以至少包括句法语句结构特征、文本长度、中文字符占比中的一个。
进一步的,预设特征,还可以包括:
用于表示待筛选文本时间效力的时效特征。
进一步的,根据待筛选文本的预设特征的特征值,利用预设的映射关系,计算待筛选文本的质量分数,可以包括:
对预设特征的特征值进行加权求和,得到待筛选文本的特征累加值;
将特征累加值输入预设的映射关系中,得到特征累加值的映射结果,作为待筛选文本的质量分数。
进一步的,在基于待筛选文本的预设特征的特征值,利用预设的映射关系,计算待筛选文本的质量分数之前,还可以包括:
确定待筛选文本的预设特征的特征值是否低于预设筛选阈值;
如果预设特征的特征值低于预设筛选阈值,则删除该待筛选文本;
或者,如果预设特征的特征值不低于预设筛选阈值,则执行基于待筛选文本的预设特征的特征值,利用预设的映射关系,计算待筛选文本的质量分数的步骤。
进一步的,在将待筛选文本按照质量分数进行排序之前,还包括:
确定待筛选文本的质量分数是否低于预设分数阈值;
如果质量分数低于预设分数阈值,则删除该待筛选文本;
或者,如果质量分数不低于预设分数阈值,则执行将待筛选文本按照质量分数进行排序的步骤。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一的高质量文本筛选方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一高质量文本筛选方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、计算机可读存储介质及计算机程序产品的实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (13)

1.一种高质量文本筛选方法,其特征在于,所述方法包括:
获取待筛选文本的预设特征的特征值,所述预设特征,包括:用于表示所述待筛选文本语义的语义特征和用于表示所述待筛选文本结构的结构特征,或者,所述预设特征,包括:用于表示所述待筛选文本结构的结构特征;其中,所述待筛选文本的结构特征,包括:所述待筛选文本的分词结果中的名词占比和/或动词占比;
基于所述待筛选文本的所述预设特征的特征值,利用预设的映射关系,计算所述待筛选文本的质量分数;
将所述待筛选文本按照所述质量分数进行排序;
所述基于所述待筛选文本的所述预设特征的特征值,利用预设的映射关系,计算所述待筛选文本的质量分数之前,包括:
确定所述待筛选文本的所述预设特征的特征值是否低于预设筛选阈值;
如果所述预设特征的特征值低于预设筛选阈值,则删除该待筛选文本。
2.根据权利要求1所述的方法,其特征在于,所述获取待筛选文本的预设特征的特征值,包括:
实时读取消息队列中的增量文本数据,得到待筛选文本的预设特征的特征值;或,
周期性地读取存量数据库中的存量文本数据,得到待筛选文本的预设特征的特征值。
3.根据权利要求1所述的方法,其特征在于,所述语义特征包括:用于表示所述待筛选文本的语义情感色彩的语义情感特征;
所述结构特征,至少包括语句结构特征、文本长度、中文字符占比中的一个。
4.根据权利要求1所述的方法,其特征在于,所述预设特征,还包括:
用于表示所述待筛选文本时间效力的时效特征。
5.根据权利要求1所述的方法,其特征在于,所述根据待筛选文本的预设特征的特征值,利用预设的映射关系,计算所述待筛选文本的质量分数,包括:
对所述预设特征的特征值进行加权求和,得到所述待筛选文本的特征累加值;
将所述特征累加值输入预设的映射关系中,得到所述特征累加值的映射结果,作为所述待筛选文本的质量分数。
6.根据权利要求1所述的方法,其特征在于,在所述将所述待筛选文本按照所述质量分数进行排序之前,还包括:
确定所述待筛选文本的所述质量分数是否低于预设分数阈值;
如果所述质量分数低于预设分数阈值,则删除该待筛选文本;
或者,如果所述质量分数不低于预设分数阈值,则执行所述将所述待筛选文本按照所述质量分数进行排序的步骤。
7.一种高质量文本筛选装置,其特征在于,所述装置包括:
数据读取模块,用于获取待筛选文本的预设特征的特征值,所述预设特征,包括:用于表示所述待筛选文本语义的语义特征和用于表示所述待筛选文本结构的结构特征,或者,所述预设特征,包括:用于表示所述待筛选文本结构的结构特征;其中,所述待筛选文本的结构特征,包括:所述待筛选文本的分词结果中的名词占比和/或动词占比;
计分模块,用于基于所述待筛选文本的预设特征的特征值,利用预设的映射关系,计算所述待筛选文本的质量分数;
排序模块,用于将所述待筛选文本按照所述质量分数的顺序重新进行排序;
第一筛选模块,用于在所述基于所述待筛选文本的所述预设特征的特征值,利用预设的映射关系,计算所述待筛选文本的质量分数之前,确定所述待筛选文本的所述预设特征的特征值是否低于预设筛选阈值;并且如果所述预设特征的特征值低于预设筛选阈值,则删除该待筛选文本。
8.根据权利要求7所述的装置,其特征在于,所述数据读取模块具体用于所述数据读取模块用于实时读取消息队列中的增量文本数据得到待筛选文本的预设特征的特征值;和,
周期性地读取存量数据库中的存量文本数据得到待筛选文本的预设特征的特征值。
9.根据权利要求7所述的装置,其特征在于,所述语义特征包括:用于表示所述待筛选文本的语义情感色彩的语义情感特征;
所述结构特征,至少包括语句结构特征、文本长度、中文字符占比中的一个。
10.根据权利要求7所述的装置,其特征在于,所述预设特征,还包括:
用于表示所述待筛选文本时间效力的时效特征。
11.根据权利要求7所述的装置,其特征在于,所述计分模块,具体用于:
对所述预设特征的特征值进行加权求和,得到所述待筛选文本的特征累加值;
将所述特征累加值输入预设的映射关系中,得到所述特征累加值的映射结果,作为所述待筛选文本的质量分数。
12.根据权利要求7所述的装置,其特征在于,还包括第二筛选模块;
所述第二筛选模块,用于在所述将所述待筛选文本按照所述质量分数进行排序之前,确定所述待筛选文本的所述质量分数是否低于预设分数阈值;并且如果所述质量分数低于预设分数阈值,则删除该待筛选文本;
所述排序模块,还用于如果所述质量分数不低于预设分数阈值,则执行所述将所述待筛选文本按照所述质量分数进行排序的步骤。
13.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-6任一所述的方法步骤。
CN201810063337.5A 2018-01-23 2018-01-23 一种高质量文本筛选方法、装置及电子设备 Active CN108287821B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810063337.5A CN108287821B (zh) 2018-01-23 2018-01-23 一种高质量文本筛选方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810063337.5A CN108287821B (zh) 2018-01-23 2018-01-23 一种高质量文本筛选方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN108287821A CN108287821A (zh) 2018-07-17
CN108287821B true CN108287821B (zh) 2021-12-17

Family

ID=62835679

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810063337.5A Active CN108287821B (zh) 2018-01-23 2018-01-23 一种高质量文本筛选方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN108287821B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063054A (zh) * 2018-07-19 2018-12-21 天津迈基生物科技有限公司 一种机器学习和大数据处理系统
CN110866389B (zh) * 2018-08-17 2021-12-17 北大方正集团有限公司 信息价值评估方法、装置、设备及计算机可读存储介质
CN109710840B (zh) * 2018-12-17 2020-12-11 北京百度网讯科技有限公司 文章内容深度的评估方法及装置
CN110263146A (zh) * 2019-05-22 2019-09-20 阿里巴巴集团控股有限公司 文本排序方法、装置及计算机可读存储介质
CN110298310A (zh) * 2019-06-28 2019-10-01 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质
CN111581975B (zh) * 2020-05-09 2023-06-20 北京明朝万达科技股份有限公司 案件的笔录文本的处理方法、装置、存储介质和处理器
CN111754984B (zh) * 2020-06-23 2023-08-08 抖音视界有限公司 文本选取的方法、装置、设备和计算机可读介质
CN113360742A (zh) * 2021-05-19 2021-09-07 维沃移动通信有限公司 推荐信息确定方法、装置及电子设备
CN113254709B (zh) * 2021-06-30 2021-12-28 北京达佳互联信息技术有限公司 内容数据的处理方法及装置、存储介质
CN114298033A (zh) * 2021-12-22 2022-04-08 郑州云海信息技术有限公司 一种文本的质量清洗方法、装置及介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102096680A (zh) * 2009-12-15 2011-06-15 北京大学 信息有效性分析的方法和装置
CN103699521B (zh) * 2012-09-27 2017-11-14 腾讯科技(深圳)有限公司 文本分析方法及装置
CN103914491B (zh) * 2013-01-09 2017-11-17 腾讯科技(北京)有限公司 对优质用户生成内容的数据挖掘方法和系统
US10572524B2 (en) * 2016-02-29 2020-02-25 Microsoft Technology Licensing, Llc Content categorization

Also Published As

Publication number Publication date
CN108287821A (zh) 2018-07-17

Similar Documents

Publication Publication Date Title
CN108287821B (zh) 一种高质量文本筛选方法、装置及电子设备
CN102576358B (zh) 单词对取得装置、单词对取得方法及其程序
US20220147023A1 (en) Method and device for identifying industry classification of enterprise and particular pollutants of enterprise
US10073839B2 (en) Electronically based thesaurus querying documents while leveraging context sensitivity
CN111159557B (zh) 一种热点信息获取方法、装置、服务器及介质
US20110219299A1 (en) Method and system of providing completion suggestion to a partial linguistic element
Aralikatte et al. Fault in your stars: an analysis of android app reviews
CN113204953A (zh) 基于语义识别的文本匹配方法、设备及设备可读存储介质
CN108021713B (zh) 一种文档聚类的方法和装置
CN111930949B (zh) 搜索串处理方法、装置、计算机可读介质及电子设备
CN110837732B (zh) 目标人物间亲密度识别方法、装置、电子设备及存储介质
CN110717008B (zh) 基于语意识别的搜索结果排序方法及相关装置
CN111832266A (zh) 专利申请文件撰写质量的在线分析方法及系统
CN109670183B (zh) 一种文本重要性的计算方法、装置、设备和存储介质
CN109063015B (zh) 热点内容的提取方法、装置及设备
CN109933775B (zh) Ugc内容处理方法及装置
CN109511000A (zh) 弹幕类别确定方法、装置、设备及存储介质
CN110826310B (zh) 一种应用内容质量分析方法及应用内容质量分析装置
CN111159526B (zh) 查询语句处理方法、装置、设备及存储介质
CN112115300A (zh) 文本处理方法、装置、电子设备及可读存储介质
CN113656575A (zh) 训练数据的生成方法、装置、电子设备及可读介质
KR101987301B1 (ko) 소셜 미디어 데이터 및 증시 관련 웹데이터 분석을 통한 감성레벨산출시스템 및 그 제어방법
CN112785095A (zh) 贷款预测方法、装置、电子设备和计算机可读存储介质
CN111984867A (zh) 一种网络资源确定方法及装置
US11593565B2 (en) System and method for generating subjective wellbeing analytics score

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant