CN108959329B - 一种文本分类方法、装置、介质及设备 - Google Patents
一种文本分类方法、装置、介质及设备 Download PDFInfo
- Publication number
- CN108959329B CN108959329B CN201710393687.3A CN201710393687A CN108959329B CN 108959329 B CN108959329 B CN 108959329B CN 201710393687 A CN201710393687 A CN 201710393687A CN 108959329 B CN108959329 B CN 108959329B
- Authority
- CN
- China
- Prior art keywords
- text
- sample
- classified
- word vector
- sample text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种文本分类方法、装置、介质及设备,该方法包括:针对确定的每个待分类文本,计算存储的该待分类文本的标识词向量与存储的各个样本文本的标识词向量的距离;提取与该待分类文本的标识词向量的距离符合预设条件的样本文本的标识词向量;根据存储的样本文本与类别的对应关系,将提取的样本文本的标识词向量对应的样本文本所属的类别,作为该待分类文本所属的类别。本发明可以提高确定出的待分类文本所属类别的准确性。
Description
技术领域
本发明涉及文本处理技术领域,尤其涉及一种文本分类方法、装置、介质及设备。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
随着互联网技术的高速发展,新闻网页的种类和数量也越来越多,如何对新闻网页进行准确分类,对于网站自身规划以及个性化为偏好各不相同的网民推荐相应新闻网页等均具有重要意义。
目前常用的对新闻网页对应的文本进行分类的方式为:
预先根据样本文本的内容训练多分类模型;对待分类文本进行分词预处理,去除待分类文本中的停顿词、标点符号等词语,得到待分类文本中的特证词;将待分类文本中的特征词输入训练得到的多分类模型,得到待分类文本所属的类别,其中,待分类文本中的字数越少,对待分类文本的分类结果的准确性越差,类别可以包括财经、体育、娱乐等。
发明人发现,目前一些新闻网页对应的文本为短文本,短文本中的字数较少,而利用上述分类方式对短文进行分类时,会由于短文本中的字数较少,导致针对短文本的分类结果准确性差的问题。
发明内容
本发明提供一种文本分类方法、装置、介质及设备,用于提高针对待分类文本的分类结果的准确性。
第一方面,本发明实施例提供一种文本分类方法,包括:
针对确定的每个待分类文本,计算存储的该待分类文本的标识词向量与存储的各个样本文本的标识词向量的距离;
提取与该待分类文本的标识词向量的距离符合预设条件的样本文本的标识词向量;
根据存储的样本文本与类别的对应关系,将提取的样本文本的标识词向量对应的样本文本所属的类别,作为该待分类文本所属的类别。
可选地,所述方法中,提取与该待分类文本的标识词向量的距离符合预设条件的样本文本的标识词向量,具体包括:
提取与该待分类文本的标识词向量的距离小于设定距离阈值的样本文本的标识词向量;或者
提取与该待分类文本的标识词向量的距离最小的样本文本的标识词向量。
可选地,所述方法中,确定待分类文本,具体包括:
确定所述用户在设定时间段内查看的非样本文本中的非热点文本,并将所述非热点文本作为待分类文本;或者
将所述用户在设定时间段内查看的非样本文本中的第一类文本,作为待分类文本,其中,所述第一类文本为查看时长超过预设时长阈值,和/或,获得所述用户正面评论的文本;或者
将所述第一类文本中的所述非热点文本,作为待分类文本。
可选地,所述方法中,确定所述用户在设定时间段内查看的非样本文本中的非热点文本,具体包括:
针对所述用户在设定时间段内查看的每个非样本文本,统计查看过该非样本文本的用户数,作为该非样本文本的查看次数;
若该非样本文本的查看次数小于预设次数阈值,将该非样本文本作为非热点文本。
可选地,本发明实施例提供的文本分类方法,进一步包括:
针对所述用户在设定时间段内查看的非样本文本中,查看次数不小于预设次数阈值的非样本文本,确定查看次数不小于预设次数阈值的各个非样本文本中的关键词;
根据预先训练的热点文本聚类模型以及查看次数不小于预设次数阈值的各个非样本文本中的关键词,对查看次数不小于预设次数阈值的各个非样本文本进行热点文本聚类;
根据对查看次数不小于预设次数阈值的各个非样本文本的热点文本聚类结果,确定对应非样本文本是否为非热点文本。
可选地,所述方法中,所述待分类文本的字数不大于设定字数阈值,所述样本文本的字数大于所述设定字数阈值。
第二方面,本发明实施例提供一种文本分类装置,包括:
计算模块,用于针对确定的每个待分类文本,计算存储的该待分类文本的标识词向量与存储的各个样本文本的标识词向量的距离;
提取模块,用于提取与该待分类文本的标识词向量的距离符合预设条件的样本文本的标识词向量;
类别确定模块,用于根据存储的样本文本与类别的对应关系,将提取的样本文本的标识词向量对应的样本文本所属的类别,作为该待分类文本所属的类别。
可选地,所述装置中,所述提取模块,具体用于:
提取与该待分类文本的标识词向量的距离小于设定距离阈值的样本文本的标识词向量;或者
提取与该待分类文本的标识词向量的距离最小的样本文本的标识词向量。
可选地,本发明实施例提供的文本分类装置,还包括:
文本确定模块,用于确定所述用户在设定时间段内查看的非样本文本中的非热点文本,并将所述非热点文本作为待分类文本;或者,将所述用户在设定时间段内查看的非样本文本中的第一类文本,作为待分类文本,其中,所述第一类文本为查看时长超过预设时长阈值,和/或,获得所述用户正面评论的文本;或者,将所述第一类文本中的所述非热点文本,作为待分类文本。
可选地,所述装置中,所述文本确定模块在确定所述用户在设定时间段内查看的非样本文本中的非热点文本时,具体用于:
针对所述用户在设定时间段内查看的每个非样本文本,统计查看过该非样本文本的用户数,作为该非样本文本的查看次数;
若该非样本文本的查看次数小于预设次数阈值,将该非样本文本作为非热点文本。
可选地,所述装置中,所述文本确定模块,进一步用于:
针对所述用户在设定时间段内查看的非样本文本中,查看次数不小于预设次数阈值的非样本文本,确定查看次数不小于预设次数阈值的各个非样本文本中的关键词;
根据预先训练的热点文本聚类模型以及查看次数不小于预设次数阈值的各个非样本文本中的关键词,对查看次数不小于预设次数阈值的各个非样本文本进行热点文本聚类;
根据对查看次数不小于预设次数阈值的各个非样本文本的热点文本聚类结果,确定对应非样本文本是否为非热点文本。
可选地,所述装置中,所述待分类文本的字数不大于设定字数阈值,所述样本文本的字数大于所述设定字数阈值。
第三方面,本发明实施例提供一种非易失性计算机存储介质,所述计算机存储介质存储有可执行程序,该可执行程序被处理器执行实现上述任一实施例的文本分类方法的步骤。
第四方面,本发明实施例提供一种文本分类设备,包括存储器、处理器及存储在存储器上的计算机程序,该可执行程序被处理器执行实现上述任一实施例的文本分类方法的步骤。
利用本发明实施例提供的文本分类方法、装置、介质及设备,具有以下有益效果:使用待分类文本的标识词向量表征整个待分类文本,以及使用样本文本的标识词向量表征整个样本文本,并使用待分类文本的标识词向量与样本文本的标识词向量的距离表征待分类文本与样本文本之间的相似度,并根据待分类文本与样本文本的相似度以及样本文本对应的类别,确定待分类文本所属的类别,可基于多维度综合考虑确定待分类文本所属的类别,无需基于待分类文本的内容确定待分类文本所属的类别,从而能够避免由于待分类文本中的字数较少,而导致的针对待分类文本的分类结果准确性差问题,可在一定程度上提高分类结果的准确性。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施例的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1为本发明实施例一提供的文本分类方法的流程示意图;
图2为本发明实施例一提供的第一种确定待分类文本的方法流程示意图;
图3为本发明实施例一提供的第二种确定待分类文本的方法流程示意图;
图4为本发明实施例一提供的第三种确定待分类文本的方法流程示意图;
图5为本发明实施例一提供的第一种确定非热点文本的方法流程示意图;
图6为本发明实施例一提供的第二种确定非热点文本的方法流程示意图;
图7为本发明实施例二提供的文本分类装置的结构示意图;
图8为本发明实施例四提供的文本分类设备的硬件结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明可能的实施方式作进一步描述。
实施例一
本发明实施例提供一种文本分类方法,如图1所示,包括:
步骤101,针对确定的每个待分类文本,计算存储的该待分类文本的标识词向量与存储的各个样本文本的标识词向量的距离。
具体实施时,可预先按照以下方式确定待分类文本的标识词向量以及样本文本的标识词向量并存储确定的标识词向量:针对每个用户,预先获取该用户在设定时间段内查看的待分类文本的标识和样本文本的标识,得到该用户对应的查看序列,查看序列中包括待分类文本的标识以及样本文本的标识;将得到的各个用户对应的查看序列输入待训练词向量模型,得到各个待分类文本的标识词向量以及各个样本文本的标识词向量,其中,将同一查看序列中的每个标识作为该查看序列中的一个词,从而根据词向量模型得到该标识的词向量,作为标识词向量。
查看序列中标识的排序方式为:按照在设定时间段内查看文本的时间的先后顺序对查看序列中的标识进行排序,其中,查看时间最早的文本的标识排在第一位,比如,任一用户对应的查看序列为[a,b,c],其中,a为待分类文本的标识,b和c为样本文本的标识,其中,该用户查看a对应的待分类文本的时间比该用户查看b对应的样本文本的时间早,该用户查看b对应的样本文本的时间比该用户查看c对应的样本文本的时间早。需要说明的是,同一用户在设定时间段内查看的文本所属同一类别的可能性较大。
其中,待训练词向量模型具体可以为深度学习词向量计算模型,比如word2vec。得到的待分类文本的标识词向量以及各个样本文本的标识词向量均为K维的实数向量,更具体的,均为K维的实数行向量,或者,均为K维的实数列向量。其中,任一待分类文本的标识词向量用于表征唯一的待分类文本。任一样本文本的标识词向量用于表征唯一的样本文本,并且,任一样本文本的标识词向量与任一待分类文本的标识词向量不同。
待分类文本与标识一一对应,即不同的待分类文本对应不同的标识,样本文本与标识一一对应,即不同的样本文本对应不同的标识,并且,任一样本文本的标识与任一待分类文本的标识不同。需要说明的是,按照同一种规则生成待分类文本的标识以及样本文本的标识,比如,按照连续编号的规则,生成各个待分类文本的标识以及样本文本的标识,即,使用不同的编号标识不同的待分类文本和样本文本,再比如,使用不同的URL(UniformResoure Locator,统一资源定位符)地址标识不同的待分类文本和样本文本。
需要说明的是,标识用于表征该标识对应的文本的内容,更具体的,用于表征该标识对应的文本中的所有关键词组成的集合。得到的标识词向量中的不同维度用于表征对应的该标识词向量对应的文本在不同方面的特征。其中,待分类文本的标识词向量与样本文本的标识词向量的距离用于表征待分类文本与样本文本之间的相似度,样本文本的标识词向量与待分类文本的标识词向量的距离越小,该样本文本的标识词向量对应的样本文本与该待分类文本的标识词向量对应的待分类文本之间的相似度越高。
本发明实施例,可应用到任意一种需要进行文本分类的场景中,比如,可应用到对新闻对应的文本进行分类的场景。
步骤102,提取与该待分类文本的标识词向量的距离符合预设条件的样本文本的标识词向量。
具体实施时,预先存储样本文本与类别的对应关系,即,样本文本为已分类的文本,更具体的,预先存储样本文本的标识与类别的对应关系。需要说明的是,样本文本所属的类别可以人工划分,也可以根据现有的多分类算法训练得到多分类模型(比如支持向量机分类模型、最大熵分类模型),并根据多分类模型以及样本文本中的关键词对样本文本进行自动化类别划分。
本步骤中,提取各个样本文本的标识词向量中,与待分类文本的标识词向量的距离符合预设条件的样本文本的标识词向量。
步骤103,根据存储的样本文本与类别的对应关系,将提取的样本文本的标识词向量对应的样本文本所属的类别,作为该待分类文本所属的类别。
本发明实施例应用于不同的场景时,对应划分的类别不同,比如,应用于对新闻对应的文本进行分类的场景下,可将类别划分为科技、娱乐、财经、生活、房产等,即有些新闻属于科技类,有些新闻属于财经类。其中,样本文本对应的类别即为该样本文本所述的类别。
本发明实施例,使用待分类文本的标识词向量表征整个待分类文本,以及使用样本文本的标识词向量表征整个样本文本,并使用待分类文本的标识词向量与样本文本的标识词向量的距离表征待分类文本与样本文本之间的相似度,并根据待分类文本与样本文本的相似度以及样本文本对应的类别,确定待分类文本所属的类别,可基于多维度综合考虑确定待分类文本所属的类别,无需基于待分类文本的内容确定待分类文本所属的类别,从而能够避免由于待分类文本中的字数较少,而导致的针对待分类文本的分类结果准确性差问题,可在一定程度上提高分类结果的准确性。
可选地,所述待分类文本的字数不大于设定字数阈值,所述样本文本的字数大于所述设定字数阈值。具体实施时,设定字数阈值可根据实际应用场景设定,比如,设定字数阈值可以为60、70或其它数值。具体可将包含字数不大于设定字数阈值的文本称为短文本,更具体的,将包含字数大于设定字数阈值且不大于长文本阈值的文本称为中文本,将包含字数大于长文本阈值的文本称为长文本,其中,设定字数阈值小于长文本阈值,样本文本包括中文本和长文本。比如,一些新闻网页的内容主要为图集或者视频,该新闻网页对应的文本的字数相对较少,此时,将该新闻网页对应的文本成为短文本。
采用背景技术部分的分类方式对中文本和长文本进行分类的分类结果较准确,而对短文本的分类结果准确性较差,本发明实施例中,待分类文本为短文本,样本文本包括中文本和长文本,将与短文本的标识词向量的距离满足一定条件的中文本的标识词向量对应的中文本所属的类别以及长文本的标识词向量对应的长文本所属的类别,作为短文本所属的类别,从而在对短文本进行分类时,能够避免基于短文本的内容对短文本进行分类的方式所带来的文本分类结果准确性差的问题,可在一定程度上提高分类结果的准确性。
可选地,按照以下方式提取与该待分类文本的标识词向量的距离符合预设条件的样本文本的标识词向量:
提取与该待分类文本的标识词向量的距离小于设定距离阈值的样本文本的标识词向量;或者提取与该待分类文本的标识词向量的距离最小的样本文本的标识词向量。
具体实施时,统计并提取各个样本文本的标识词向量中,与待分类文本的标识词向量的距离小于设定距离阈值的样本文本的标识词向量,并将与待分类文本的标识词向量的距离小于设定距离阈值的样本文本的标识词向量对应样本文本所属的类别,作为所述待分类文本所属的类别。举例说明,假设样本文本的标识词向量包括A1、A2以及A3,待分类文本的标识词向量为B1,B1与A1的距离为D1、B1与A2的距离为D2、B1与A3的距离为D3,如果D1和D3均小于预设距离阈值,则提取A1和A3,并将A1对应的样本文本所属的类别1,以及,A3对应的样本文本所属的类别2,分别作为B1对应的待分类文本所属的类别,即该待分类文本所属的类别既为类别1又为类别2,比如,一个待分类文本所属的类别既为房产类又为财经类,再比如,一个待分类文本所属的类别既为娱乐类又为生活类,如果仅有D1小于预设距离阈值,则提取A1,并将A1对应的样本文本所属的类别1作为B1对应的待分类文本所属的类别。或者,
统计并提取各个样本文本的标识词向量中,与待分类文本的标识词向量的距离最小的样本文本的标识词向量,并将与待分类文本的标识词向量的距离最小的样本文本的标识词向量对应的样本文本所属的类别,作为所述待分类文本所属的类别。举例说明,假设样本文本的标识词向量包括A1、A2以及A3,待分类文本的标识词向量为B1,B1与A1的距离为D1、B1与A2的距离为D2、B1与A3的距离为D3,如果D1小于D2,且D1小于D3,则将A1对应的样本文本所属的类别1作为B1对应的待分类文本所属的类别,即该待分类文本所属的类别为类别1。
可选地,按照以下方式确定待分类文本:
确定所述用户在设定时间段内查看的非样本文本中的非热点文本,并将所述非热点文本作为待分类文本;或者
将所述用户在设定时间段内查看的非样本文本中的第一类文本,作为待分类文本,其中,所述第一类文本为查看时长超过预设时长阈值,和/或,获得所述用户正面评论的文本;或者
将所述第一类文本中的所述非热点文本,作为待分类文本。
其中,设定时间段对应的时长可根据实际应用进行设定,比如设定时间段对应的时长为半小时。
具体实施时,用户在设定时间段内查看的非样本文本中可能有热点文本也可能有用户不感兴趣的文本,本发明实施例通过将热点文本以及用户不感兴趣的文本过滤掉,留下非热点文本和/或用户感兴趣的文本作为待分类文本,更具体的实施方式将在下文介绍。本发明实施例通过提高针对用户查看过的非样本文本的分类结果的准确性,能够提高向用户推荐的文本为该用户感兴趣的类别中的文本的概率。
具体的,也可将用户在设定时间段内查看过的所有非样本文本作为待分类文本。
下面对确定待分类文本的三种方式进行详细介绍:
作为第一种可选地实施方式,按照图2提供的内容,确定待分类文本:
步骤201,确定所述用户在设定时间段内查看的非样本文本中的第一类文本,所述第一类文本为查看时长超过预设时长阈值,和/或,获得所述用户正面评论的文本。
具体实施时,将用户在设定时间段内查看的非样本文本中,查看时长超过预设时长阈值的文本,和/或,获得所述用户正面评论的文本确定为第一类文本。
步骤202,将确定的第一类文本作为待分类文本。
实际场景中,用户针对其不感兴趣的文本的查看时长相对较短和/或用户针对其不感兴趣的文本的评论为负面评论;用户针对其感兴趣的文本的查看时长较长和/或用户针对其感兴趣的文本的评论为正面评论。本发明实施例,提取查看时长超过预设时长阈值和/或具有用户的正面评论的非样本文本作为待分类文本,从而针对用户感兴趣的非样本文本进行分类,提高对用户感兴趣的非样本文本的分类结果的准确性。
利用本发明实施例,确定用户感兴趣的文本所属的类别后,可认为该用户对该类别的文本感兴趣,此时可个性化的根据用户的兴趣向该用户推荐其感兴趣的类别下的文本,从而提高用户体验,比如,用户对娱乐类新闻比较感兴趣,那么向用户推荐娱乐类新闻,针对用户感兴趣的文本的分类结果可应用于任意一种需要使用用户感兴趣的文本的分类结果的场景下,这里不做限定。
需要说明的是,可利用爬虫技术爬取用户针对其查看过的非样本文本的评论内容,如果评论内容为喜欢、点赞等正面评论,则认为该用户对该非样本文本感兴趣,如果评论内容为踩、不喜欢等负面评论,则认为该用户对该非样本文本不感兴趣。
作为第二种可选地实施方式,按照3提供的内容,确定待分类文本:
步骤301,确定所述用户在设定时间段内查看的非样本文本中的非热点文本。
其中,热点文本为在设定时间段内关注度较高的文本,比如热点文本为设定时间段内的热点新闻对应的文本。用户在设定时间段内查看的热点文本之外的非样本文本为非热点文本。
步骤302,将确定的非热点文本作为待分类文本。
由于热点文本的关注度较高,用户可能出于好奇等原因会查看热点文本,但热点文本不一定是该用户感兴趣的文本;用户出于兴趣爱好考虑查看的文本为非热点文本的可能性较大,即,非热点文本为用户感兴趣的文本的可能性较大。因此,本发明实施例将用户在设定时间段内查看非样本文本中的热点文本删除,将用户查看的非热点文本作为待分类文本。
利用本发明实施例,确定用户感兴趣的文本所属的类别后,可认为该用户对该类别的文本感兴趣,此时可个性化的根据用户的兴趣向该用户推荐其感兴趣的类别下的文本,从而提高用户体验,比如,用户对娱乐类新闻比较感兴趣,那么向用户推荐娱乐类新闻,针对用户感兴趣的文本的分类结果可应用于任意一种需要使用用户感兴趣的文本的分类结果的场景下,这里不做限定。
作为第三种可能的实施方式,按照图4提供的内容,确定待分类文本:
步骤401,确定所述用户在设定时间段内查看的非样本文本中的非热点文本和第一类文本,所述第一类文本为查看时长超过预设时长阈值,和/或,获得所述用户正面评论的文本。
本步骤中关于确定用户在设定时间段内查看的非样本文本中的非热点文本的解释说明与图3提供的实施例中关于确定用户在设定时间段内查看的非样本文本中的非热点文本的解释说明相同,关于确定用户在设定时间段内查看的非样本文本中的第一类文本的解释说明与图2提供的实施例中关于确定用户在设定时间段内查看的非样本文本中的第一类文本的解释说明相同,这里不做赘述。
步骤402,将所述第一类文本中的非热点文本,作为待分类文本。
具体实施时,取第一类文本对应的文本集合与非热点文本对应的文本集合的交集,该交集中的文本即第一类文本中的非热点文本,即,将用户在设定时间段内查看的非样本文本中的非热点文本与第一类文本中,共同包含的文本作为待分类文本。
本发明实施例,第一类文本中的非热点文本为用户感兴趣的文本的可能性相较于第一类文本为用户感兴趣的文本的可能性大,相应地,第一类文本中的非热点文本为用户感兴趣的文本的可能性相较于非热点文本为用户感兴趣的文本的可能性大。
作为第一种可选地实施方式,按照图5提供的内容,确定所述用户在设定时间段内查看的非样本文本中的非热点文本:
步骤501,针对所述用户在设定时间段内查看的每个非样本文本,统计查看过该非样本文本的用户数,作为该非样本文本的查看次数。
具体实施时,文本的查看次数为在设定时间段内所有查看过该文本的用户数。
步骤502,判断该非样本文本的查看次数是否小于预设次数阈值。
在该非样本文本的查看次数小于预设次数阈值的情况下,执行步骤503,在该非样本文本的查看次数不小于预设次数阈值的情况下,执行步骤504。预设次数阈值可根据实际应用场景设定。
步骤503,将该非样本文本作为非热点文本。
步骤504,将该非样本文本作为热点文本。
实际应用中,查看次数较多的非样本文本为热点文本的可能性较大,因此,本发明实施例将查看次数小于预设次数阈值的非样本文本作为非热点文本。
作为第二种可选地实施方式,按照图6提供的内容,确定所述用户在设定时间段内查看的非样本文本中的非热点文本:
步骤601,针对所述用户在设定时间段内查看的非样本文本,统计查看过各个非样本文本的用户数,作为对应非样本文本的查看次数。
具体的,针对每个各个非样本,统计查看该非样本文本的用户数,作为该非样本文本的查看次数。
步骤602,统计查看次数不小于预设次数阈值的非样本文本,并确定查看次数不小于预设次数阈值的各个非样本文本中的关键词。
具体的,针对每个查看次数不小于预设次数阈值的非样本文本,提取该文本中的关键词,作为该非样本文本对应的关键词。
步骤603,根据预先训练的热点文本聚类模型以及查看次数不小于预设次数阈值的各个非样本文本中的关键词,对查看次数不小于预设次数阈值的各个非样本文本进行热点文本聚类。
步骤604,根据对查看次数不小于预设次数阈值的各个非样本文本的热点文本聚类结果,确定对应非样本文本是否为非热点文本。
具体实施时,预先按照第一数量个训练文本中的关键词,训练得到热点文本聚类模型,比如利用LightLDA算法以及第一数量个训练文本中的关键词,训练得到热点文本聚类模型。将用户在设定时间段内查看的非样本文本中,查看次数不小于预设次数阈值的各个非样本文本的关键词一同作为训练好的热点文本聚类模型的输入,得到各个非样本文本所属的聚类,若非样本文本所属的聚类包含的文本个数大于热点阈值,则将该非样本文本作为热点文本,若非样本文本所属的聚类包含的文本个数不大于热点阈值,则将该非样本文本作为非热点文本。其中,热点文本聚类模型的训练方式以及利用训练好的热点文本聚类模型进行热点文本聚类的方式具有现有技术,这里不做详述。
出于查看次数较多的非样本文本也可能为非热点文本的考虑,本发明实施例中,针对用户在设定时间段内查看的非样本文本中,查看次数不小于预设次数阈值的每个非样本文本,通过热点聚类分析,确定该非样本文本是否为非热点文本,使得确定的非热点文本的准确性更高。
实施例二
本发明实施例提供一种文本分类装置,如图7所示,包括:
计算模块701,用于针对确定的每个待分类文本,计算存储的该待分类文本的标识词向量与存储的各个样本文本的标识词向量的距离;
提取模块702,用于提取与该待分类文本的标识词向量的距离符合预设条件的样本文本的标识词向量;
类别确定模块703,用于根据存储的样本文本与类别的对应关系,将提取的样本文本的标识词向量对应的样本文本所属的类别,作为该待分类文本所属的类别。
可选地,所述装置中,所述提取模块,具体用于:
提取与该待分类文本的标识词向量的距离小于设定距离阈值的样本文本的标识词向量;或者
提取与该待分类文本的标识词向量的距离最小的样本文本的标识词向量。
可选地,本发明实施例提供的文本分类装置,还包括:
文本确定模块704,用于确定所述用户在设定时间段内查看的非样本文本中的非热点文本,并将所述非热点文本作为待分类文本;或者,将所述用户在设定时间段内查看的非样本文本中的第一类文本,作为待分类文本,其中,所述第一类文本为查看时长超过预设时长阈值,和/或,获得所述用户正面评论的文本;或者,将所述第一类文本中的所述非热点文本,作为待分类文本。
可选地,所述装置中,所述文本确定模块在确定所述用户在设定时间段内查看的非样本文本中的非热点文本时,具体用于:
针对所述用户在设定时间段内查看的每个非样本文本,统计查看过该非样本文本的用户数,作为该非样本文本的查看次数;
若该非样本文本的查看次数小于预设次数阈值,将该非样本文本作为非热点文本。
可选地,所述装置中,所述文本确定模块,进一步用于:
针对所述用户在设定时间段内查看的非样本文本中,查看次数不小于预设次数阈值的非样本文本,确定查看次数不小于预设次数阈值的各个非样本文本中的关键词;
根据预先训练的热点文本聚类模型以及查看次数不小于预设次数阈值的各个非样本文本中的关键词,对查看次数不小于预设次数阈值的各个非样本文本进行热点文本聚类;
根据对查看次数不小于预设次数阈值的各个非样本文本的热点文本聚类结果,确定对应非样本文本是否为非热点文本。
可选地,所述装置中,所述待分类文本的字数不大于设定字数阈值,所述样本文本的字数大于所述设定字数阈值。
实施例三
本发明实施例提供一种非易失性计算机存储介质,所述计算机存储介质存储有可执行程序,该可执行程序被处理器执行实现上述实施例一种的任一文本分类方法的步骤。
实施例四
本发明实施例提供一种文本分类设备,用于执行实施例一中的任一文本分类方法,如图8所示,为本发明实施四中所述的文本分类设备的硬件结构示意图,该文本分类设备具体可以为桌面计算机、便携式计算机、智能手机、平板电脑等。具体地,该文本分类设备可以包括存储器801、处理器802及存储在存储器上的计算机程序,所述处理器执行所述程序时实现实施例一的任一文本分类方法的步骤。其中,存储器801可以包括只读存储器(ROM)和随机存取存储器(RAM),并向处理器802提供存储器801中存储的程序指令和数据。
进一步地,本发明实施例四中所述的文本分类设备还可以包括输入装置803以及输出装置804等。输入装置803可以包括键盘、鼠标、触摸屏等;输出装置804可以包括显示设备,如液晶显示器(Liquid Crystal Display,LCD)、阴极射线管(Cathode Ray Tube,CRT)等。存储器801,处理器802、输入装置803和输出装置804可以通过总线或者其他方式连接,图8中以通过总线连接为例。
处理器802调用存储器801存储的程序指令并按照获得的程序指令执行实施例一提供的文本分类方法。
利用本发明实施例提供的文本分类方法、装置、介质及设备,具有以下有益效果:
使用待分类文本的标识词向量表征整个待分类文本,以及使用样本文本的标识词向量表征整个样本文本,并使用待分类文本的标识词向量与样本文本的标识词向量的距离表征待分类文本与样本文本之间的相似度,并根据待分类文本与样本文本的相似度以及样本文本对应的类别,确定待分类文本所属的类别,可基于多维度综合考虑确定待分类文本所属的类别,无需基于待分类文本的内容确定待分类文本所属的类别,从而能够避免由于待分类文本中的字数较少,而导致的针对待分类文本的分类结果准确性差问题,可在一定程度上提高分类结果的准确性。
应当注意,尽管在上文详细描述中提及了文本分类装置的若干模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之,上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种文本分类方法,其特征在于,包括:
针对确定的每个待分类文本,计算存储的该待分类文本的标识词向量与存储的各个样本文本的标识词向量的距离,其中,所述待分类文本的字数不大于设定字数阈值,所述样本文本的字数大于所述设定字数阈值;所述待分类文本包括用户在设定时间段内查看的非样本文本中的非热点文本,所述非热点文本是通过以下方式确定的:针对所述用户在设定时间段内查看次数不小于预设次数阈值的非样本文本,确定各非样本文本各自的关键词,根据预先训练的热点文本聚类模型以及提取的各关键词,对所述各非样本文本进行热点文本聚类,将热点文本聚类结果包含的文本个数不大于热点阈值,且归属于所述聚类结果的非样本文本,确定为所述非热点文本;
提取与该待分类文本的标识词向量的距离符合预设条件的样本文本的标识词向量;
根据存储的样本文本与类别的对应关系,将提取的样本文本的标识词向量对应的样本文本所属的类别,作为该待分类文本所属的类别。
2.根据权利要求1所述的方法,其特征在于,提取与该待分类文本的标识词向量的距离符合预设条件的样本文本的标识词向量,具体包括:
提取与该待分类文本的标识词向量的距离小于设定距离阈值的样本文本的标识词向量;或者
提取与该待分类文本的标识词向量的距离最小的样本文本的标识词向量。
3.根据权利要求1所述的方法,其特征在于,确定待分类文本,还包括:
将所述用户在设定时间段内查看的非样本文本中的第一类文本,作为待分类文本,其中,所述第一类文本为查看时长超过预设时长阈值,和/或,获得所述用户正面评论的文本;或者
将所述第一类文本中的所述非热点文本,作为待分类文本。
4.根据权利要求1所述的方法,其特征在于,所述非热点文本还通过以下方式确定:
针对所述用户在设定时间段内查看的每个非样本文本,统计查看过该非样本文本的用户数,作为该非样本文本的查看次数;
若该非样本文本的查看次数小于预设次数阈值,将该非样本文本作为非热点文本。
5.一种文本分类装置,其特征在于,包括:
计算模块,用于针对确定的每个待分类文本,计算存储的该待分类文本的标识词向量与存储的各个样本文本的标识词向量的距离,其中,所述待分类文本的字数不大于设定字数阈值,所述样本文本的字数大于所述设定字数阈值;所述待分类文本包括用户在设定时间段内查看的非样本文本中的非热点文本,所述非热点文本是通过以下方式确定的:针对所述用户在设定时间段内查看次数不小于预设次数阈值的非样本文本,确定各非样本文本各自的关键词,根据预先训练的热点文本聚类模型以及提取的各关键词,对所述各非样本文本进行热点文本聚类,将热点文本聚类结果包含的文本个数不大于热点阈值,且归属于所述热点文本聚类结果的非样本文本,确定为所述非热点文本;
提取模块,用于提取与该待分类文本的标识词向量的距离符合预设条件的样本文本的标识词向量;
类别确定模块,用于根据存储的样本文本与类别的对应关系,将提取的样本文本的标识词向量对应的样本文本所属的类别,作为该待分类文本所属的类别。
6.根据权利要求5所述的装置,其特征在于,所述提取模块,具体用于:
提取与该待分类文本的标识词向量的距离小于设定距离阈值的样本文本的标识词向量;或者
提取与该待分类文本的标识词向量的距离最小的样本文本的标识词向量。
7.根据权利要求5所述的装置,其特征在于,还包括:
文本确定模块,用于将所述用户在设定时间段内查看的非样本文本中的第一类文本,作为待分类文本,其中,所述第一类文本为查看时长超过预设时长阈值,和/或,获得所述用户正面评论的文本;或者,将所述第一类文本中的所述非热点文本,作为待分类文本。
8.根据权利要求5所述的装置,其特征在于,所述文本确定模块还用于:
针对所述用户在设定时间段内查看的每个非样本文本,统计查看过该非样本文本的用户数,作为该非样本文本的查看次数;
若该非样本文本的查看次数小于预设次数阈值,将该非样本文本作为非热点文本。
9.一种非易失性计算机存储介质,其特征在于,所述计算机存储介质存储有可执行程序,该可执行程序被处理器执行实现权利要求1-4任一所述方法的步骤。
10.一种文本分类设备,其特征在于,包括存储器、处理器及存储在存储器上的计算机程序,所述处理器执行所述程序时实现权利要求1-4任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710393687.3A CN108959329B (zh) | 2017-05-27 | 2017-05-27 | 一种文本分类方法、装置、介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710393687.3A CN108959329B (zh) | 2017-05-27 | 2017-05-27 | 一种文本分类方法、装置、介质及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108959329A CN108959329A (zh) | 2018-12-07 |
CN108959329B true CN108959329B (zh) | 2023-05-16 |
Family
ID=64494761
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710393687.3A Active CN108959329B (zh) | 2017-05-27 | 2017-05-27 | 一种文本分类方法、装置、介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108959329B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109636055A (zh) * | 2018-12-21 | 2019-04-16 | 中国安全生产科学研究院 | 一种非煤矿山安全生产风险预测预警平台 |
CN110555211A (zh) * | 2019-09-03 | 2019-12-10 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置以及计算机可读存储介质 |
CN111276126A (zh) * | 2020-02-20 | 2020-06-12 | 湖南芒果听见科技有限公司 | 一种时政要闻语音合成的方法及其终端 |
CN111369969A (zh) * | 2020-02-20 | 2020-07-03 | 湖南芒果听见科技有限公司 | 一种新闻资讯编播的方法及其终端 |
CN111507400B (zh) * | 2020-04-16 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 应用分类方法、装置、电子设备以及存储介质 |
CN111259118B (zh) * | 2020-05-06 | 2020-09-01 | 广东电网有限责任公司 | 一种文本数据检索方法及装置 |
CN113342980B (zh) * | 2021-06-29 | 2024-05-17 | 中国平安人寿保险股份有限公司 | Ppt文本挖掘的方法、装置、计算机设备及存储介质 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102289522A (zh) * | 2011-09-19 | 2011-12-21 | 北京金和软件股份有限公司 | 一种对于文本智能分类的方法 |
CN102411583A (zh) * | 2010-09-20 | 2012-04-11 | 阿里巴巴集团控股有限公司 | 一种文本匹配方法及装置 |
CN102436512A (zh) * | 2012-01-17 | 2012-05-02 | 电子科技大学 | 一种基于偏好度的网页文本内容管控方法 |
CN102622445A (zh) * | 2012-03-15 | 2012-08-01 | 华南理工大学 | 一种基于用户兴趣感知的网页推送系统及方法 |
CN102831234A (zh) * | 2012-08-31 | 2012-12-19 | 北京邮电大学 | 基于新闻内容和主题特征的个性化新闻推荐装置和方法 |
CN103235824A (zh) * | 2013-05-06 | 2013-08-07 | 上海河广信息科技有限公司 | 根据浏览网页确定用户感兴趣的网页文本的方法和系统 |
CN104615779A (zh) * | 2015-02-28 | 2015-05-13 | 云南大学 | 一种Web文本个性化推荐方法 |
CN104933074A (zh) * | 2014-03-20 | 2015-09-23 | 华为技术有限公司 | 新闻排序方法、装置和终端设备 |
CN105095223A (zh) * | 2014-04-25 | 2015-11-25 | 阿里巴巴集团控股有限公司 | 文本分类方法及服务器 |
CN106202380A (zh) * | 2016-07-08 | 2016-12-07 | 中国科学院上海高等研究院 | 一种分类语料库的构建方法、系统及具有该系统的服务器 |
CN106294684A (zh) * | 2016-08-06 | 2017-01-04 | 上海高欣计算机系统有限公司 | 词向量的文本分类方法及终端设备 |
CN106383887A (zh) * | 2016-09-22 | 2017-02-08 | 深圳市博安达信息技术股份有限公司 | 一种环保新闻数据采集和推荐展示的方法及系统 |
CN106549965A (zh) * | 2016-11-07 | 2017-03-29 | 安徽味唯网络科技有限公司 | 一种智能过滤信息的方法 |
CN106687952A (zh) * | 2014-09-26 | 2017-05-17 | 甲骨文国际公司 | 利用知识源进行相似性分析和数据丰富化的技术 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160170982A1 (en) * | 2014-12-16 | 2016-06-16 | Yahoo! Inc. | Method and System for Joint Representations of Related Concepts |
-
2017
- 2017-05-27 CN CN201710393687.3A patent/CN108959329B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102411583A (zh) * | 2010-09-20 | 2012-04-11 | 阿里巴巴集团控股有限公司 | 一种文本匹配方法及装置 |
CN102289522A (zh) * | 2011-09-19 | 2011-12-21 | 北京金和软件股份有限公司 | 一种对于文本智能分类的方法 |
CN102436512A (zh) * | 2012-01-17 | 2012-05-02 | 电子科技大学 | 一种基于偏好度的网页文本内容管控方法 |
CN102622445A (zh) * | 2012-03-15 | 2012-08-01 | 华南理工大学 | 一种基于用户兴趣感知的网页推送系统及方法 |
CN102831234A (zh) * | 2012-08-31 | 2012-12-19 | 北京邮电大学 | 基于新闻内容和主题特征的个性化新闻推荐装置和方法 |
CN103235824A (zh) * | 2013-05-06 | 2013-08-07 | 上海河广信息科技有限公司 | 根据浏览网页确定用户感兴趣的网页文本的方法和系统 |
CN104933074A (zh) * | 2014-03-20 | 2015-09-23 | 华为技术有限公司 | 新闻排序方法、装置和终端设备 |
CN105095223A (zh) * | 2014-04-25 | 2015-11-25 | 阿里巴巴集团控股有限公司 | 文本分类方法及服务器 |
CN106687952A (zh) * | 2014-09-26 | 2017-05-17 | 甲骨文国际公司 | 利用知识源进行相似性分析和数据丰富化的技术 |
CN104615779A (zh) * | 2015-02-28 | 2015-05-13 | 云南大学 | 一种Web文本个性化推荐方法 |
CN106202380A (zh) * | 2016-07-08 | 2016-12-07 | 中国科学院上海高等研究院 | 一种分类语料库的构建方法、系统及具有该系统的服务器 |
CN106294684A (zh) * | 2016-08-06 | 2017-01-04 | 上海高欣计算机系统有限公司 | 词向量的文本分类方法及终端设备 |
CN106383887A (zh) * | 2016-09-22 | 2017-02-08 | 深圳市博安达信息技术股份有限公司 | 一种环保新闻数据采集和推荐展示的方法及系统 |
CN106549965A (zh) * | 2016-11-07 | 2017-03-29 | 安徽味唯网络科技有限公司 | 一种智能过滤信息的方法 |
Non-Patent Citations (4)
Title |
---|
"From Word Embeddings To Document Distances";Matt J. Kusner ET.AL;《Proceedings of the 32 nd International Conference on Machine Learning, Lille, France, 2015》;20150131;第37卷;第1-10页 * |
"个性化新闻推荐系统关键技术研究与实现";樊兆欣;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160315(第03期);第I138-7663 * |
"大数据背景下新闻客户端的发展模式研究 ——以"今日头条"为例";马妍;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170215(第02期);第I141-418页 * |
Matt J. Kusner ET.AL."From Word Embeddings To Document Distances".《Proceedings of the 32 nd International Conference on Machine Learning, Lille, France, 2015》.2015,第37卷第1-10页. * |
Also Published As
Publication number | Publication date |
---|---|
CN108959329A (zh) | 2018-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108959329B (zh) | 一种文本分类方法、装置、介质及设备 | |
CN109325165B (zh) | 网络舆情分析方法、装置及存储介质 | |
WO2022141861A1 (zh) | 情感分类方法、装置、电子设备及存储介质 | |
CN106250513B (zh) | 一种基于事件建模的事件个性化分类方法及系统 | |
US11645517B2 (en) | Information processing method and terminal, and computer storage medium | |
WO2019227710A1 (zh) | 网络舆情的分析方法、装置及计算机可读存储介质 | |
CN108287864B (zh) | 一种兴趣群组划分方法、装置、介质及计算设备 | |
US20180365574A1 (en) | Method and apparatus for recognizing a low-quality article based on artificial intelligence, device and medium | |
CN109145216A (zh) | 网络舆情监控方法、装置及存储介质 | |
CN107862022B (zh) | 文化资源推荐系统 | |
CN106874314B (zh) | 信息推荐的方法和装置 | |
CN107193974B (zh) | 基于人工智能的地域性信息确定方法和装置 | |
CN111460221B (zh) | 评论信息处理方法、装置及电子设备 | |
EP3035210A1 (en) | Method and device for obtaining web page category standards, and method and device for categorizing web page categories | |
CN103336766A (zh) | 短文本垃圾识别以及建模方法和装置 | |
CN108269122B (zh) | 广告的相似度处理方法和装置 | |
CN111597446B (zh) | 基于人工智能的内容推送方法、装置、服务器和存储介质 | |
CN104850617A (zh) | 短文本处理方法及装置 | |
CN112989824A (zh) | 信息推送方法及装置、电子设备及存储介质 | |
CN112948575B (zh) | 文本数据处理方法、装置和计算机可读存储介质 | |
CN113282754A (zh) | 针对新闻事件的舆情检测方法、装置、设备和存储介质 | |
CN110019556B (zh) | 一种话题新闻获取方法、装置及其设备 | |
CN108959289B (zh) | 网站类别获取方法和装置 | |
CN104408036A (zh) | 关联话题的识别方法和装置 | |
CN106570003B (zh) | 数据推送方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |