CN114443847A - 文本分类、文本处理方法、装置、计算机设备及存储介质 - Google Patents

文本分类、文本处理方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN114443847A
CN114443847A CN202210102790.9A CN202210102790A CN114443847A CN 114443847 A CN114443847 A CN 114443847A CN 202210102790 A CN202210102790 A CN 202210102790A CN 114443847 A CN114443847 A CN 114443847A
Authority
CN
China
Prior art keywords
text
topic
label
target
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210102790.9A
Other languages
English (en)
Inventor
黄骏键
潘桂波
李彦辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Priority to CN202210102790.9A priority Critical patent/CN114443847A/zh
Publication of CN114443847A publication Critical patent/CN114443847A/zh
Priority to PCT/CN2022/141171 priority patent/WO2023142809A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本公开提供了一种文本分类、文本处理方法、装置、计算机设备及存储介质,其中,该方法包括:获取待分类话题文本和至少一个待预测话题标签的标签描述信息;提取所述待分类话题文本的目标文本特征,并提取每个所述待预测话题标签的标签描述信息的标签描述特征;确定所述目标文本特征和每个所述标签描述特征之间的标签相关性,得到至少一个标签相关性;基于所述至少一个标签相关性,在所述至少一个待预测话题标签中确定与所述待分类话题文本相匹配的目标话题标签。

Description

文本分类、文本处理方法、装置、计算机设备及存储介质
技术领域
本公开涉及计算机的技术领域,具体而言,涉及一种文本分类、文本处理方法、装置、计算机设备及存储介质。
背景技术
在用户使用书籍或者文章阅读类软件时,一方面会浏览阅读类软件中感兴趣的与书籍推荐相关的推书话题,从而在推书话题中查找喜欢的书籍或者文章进行阅读。此时,用户需要对每个推书话题一一进行浏览,通过该一一浏览的方式降低了用户在各个推书话题中查找喜欢书籍的效率。另一个方面,用户可以在该阅读类软件中搜索喜欢的书籍,但是现有的搜索方案所召回的内容为与搜索关键词相匹配的推书话题;然而,该推书话题中所推荐的书籍可能与搜索关键词所希望搜索的书籍不相关,或者,所召回的内容中漏掉了部分推书话题,从而造成用户无法搜索到满意的书籍,进而降低了用户对该阅读类软件的阅读体验。
发明内容
本公开实施例至少提供一种文本分类、文本处理方法、装置、计算机设备及存储介质。
第一方面,本公开实施例提供了一种文本分类方法,应用于服务器,包括:
获取待分类话题文本和至少一个待预测话题标签的标签描述信息;提取所述待分类话题文本的目标文本特征,并提取每个所述待预测话题标签的标签描述信息的标签描述特征;确定所述目标文本特征和每个所述标签描述特征之间的标签相关性,得到至少一个标签相关性;基于所述至少一个标签相关性,在所述至少一个待预测话题标签中确定与所述待分类话题文本相匹配的目标话题标签。
一种可选的实施方式中,所述目标文本特征中包含多个子文本特征,每个子文本特征对应所述待分类话题文本中每个第一单位文本;所述确定所述目标文本特征和每个所述标签描述特征之间的标签相关性,包括:
基于所述目标文本特征和所述标签描述特征,确定每个所述第一单位文本的相关系数,其中,所述相关系数用于表征该第一单位文本与对应待预测话题标签之间的标签相关程度;基于每个所述第一单位文本的相关系数,对各个所述第一单位文本的子文本特征进行加权求和计算,并根据计算结果确定所述标签相关性。
一种可选的实施方式中,所述基于所述目标文本特征和所述标签描述特征,确定每个所述第一单位文本的相关系数,包括:
基于每个所述第一单位文本的子文本特征,确定该第一单位文本的第一子相关系数;基于所述目标文本特征和所述标签描述特征确定第二子相关系数;基于所述第一子相关系数和所述第二子相关系数之间的比值确定所述相关系数。
一种可选的实施方式中,所述基于每个所述第一单位文本的子文本特征,确定该第一单位文本的第一子相关系数,包括:
基于每个所述第一单位文本的子文本特征和预设权重矩阵,确定该第一单位文本的第一权重;基于所述第一权重确定所述第一子相关系数。
一种可选的实施方式中,所述标签描述特征中包含多个第二单位文本;所述基于所述目标文本特征和所述标签描述特征确定第二子相关系数,包括:
基于所述目标文本特征和预设权重矩阵确定各个第一单位文本的第二权重;基于所述标签描述特征和所述预设权重矩阵确定各个第二单位文本的第三权重;基于所述第二权重和所述第三权重确定所述第二子相关系数。
一种可选的实施方式中,所述获取待分类话题文本和至少一个待预测话题标签的标签描述信息,包括:
获取待处理的原始文本数据,并确定所述原始文本数据中所包含的文本类型标识;基于所述文本类型标识确定所述原始文本数据的数据分割位置,并基于所述数据分割位置对所述原始文本数据进行分割处理,得到所述待分类话题文本和所述标签描述信息。
一种可选的实施方式中,所述提取所述待分类话题文本的目标文本特征,包括:
确定所述待分类话题文本中每个第一单位文本的目标向量,其中,所述目标向量中的元素用于指示该第一单位文本和每个预设单位文本之间的映射关系;在所述待分类话题文本中全部第一单位文本的目标向量中提取所述待分类话题文本的关键特征向量,并将所述关键特征向量确定为所述目标文本特征。
一种可选的实施方式中,所述待分类话题文本包括以下至少之一:话题标题文本、话题摘要文本、话题标签描述文本。
一种可选的实施方式中,所述提取所述待分类话题文本的目标文本特征,并提取每个所述待预测话题标签的标签描述信息的标签描述特征,包括:通过文本分类模型中的特征提取层提取所述待分类话题文本的目标文本特征,并提取每个所述待预测话题标签的标签描述信息的标签描述特征;所述确定所述目标文本特征和每个所述标签描述特征之间的标签相关性,得到至少一个标签相关性,包括:
通过文本分类模型中的相关性确定层确定所述目标文本特征和每个所述标签描述特征之间的标签相关性,得到至少一个标签相关性;所述基于所述至少一个标签相关性,在所述至少一个待预测话题标签中确定与所述待分类话题文本相匹配的目标话题标签,包括:通过文本分类模型中的分类层基于所述至少一个标签相关性,在所述至少一个待预测话题标签中确定与所述待分类话题文本相匹配的目标话题标签。
一种可选的实施方式中,所述方法还包括:
确定多个训练样本;其中,每个训练样本中包含待预测话题标签和待训练话题文本,每个所述训练样本包含匹配标签,所述匹配标签用于指示所述待预测话题标签和待训练话题文本之间的匹配性;通过所述多个训练样本对待训练的文本分类模型进行训练,得到所述文本分类模型。
一种可选的实施方式中,所述通过所述多个训练样本对待训练的文本分类模型进行训练,得到所述文本分类模型,包括:
确定所述多个训练样本中所包含待预测话题标签的第一标签数量,并确定所述待预测话题标签中与所述待训练话题文本相匹配的目标分类标签的第二标签数量;基于所述第一标签数量、所述第二标签数量、所述匹配标签和所述待训练的文本分类模型对所述多个训练样本的预测结果,确定所述待训练的文本分类模型的目标损失函数值;根据所述目标损失函数值,调整所述待训练的文本分类模型的模型参数,得到所述文本分类模型。
第二方面,本公开实施例还提供一种文本处理方法,应用于终端设备,包括:
展示话题文本的操作页面;接收用户在所述操作页面输入的目标数据,其中,所述目标数据包括:待发布话题文本,或者,感兴趣话题标签;获取服务器基于所述目标数据确定的筛选结果,其中,所述筛选结果为所述服务器基于上述第一方面中任一项所述的文本分类方法对基于所述目标数据确定的待筛选数据进行筛选之后的结果;在所述操作页面展示所述目标数据和/或所述目标数据的筛选结果。
一种可选的实施方式中,所述目标数据包含所述待发布话题文本;所述在所述操作页面展示所述目标数据和/或所述目标数据的筛选结果,包括:
在所述操作页面的第一展示位置展示所述待发布话题文本;在所述操作页面的第二展示位置展示所述待发布话题文本的发布类型和/或与所述待发布话题文本相匹配的至少一个目标话题标签。
一种可选的实施方式中,所述方法还包括:
检测用户针对所述操作页面中所展示的所述目标话题标签的标签修改标识的触发操作,对所述目标话题标签执行与用户所触发的标签修改标识相匹配的修改操作,并在所述操作页面中展示修改之后的目标话题标签,其中,所述修改操作包括以下至少之一:新增、删除、修改。
一种可选的实施方式中,所述目标数据包含所述感兴趣话题标签;所述方法还包括:
在接收用户在所述操作页面输入的感兴趣话题标签之后,检测所述感兴趣话题标签的标签数量是否超过预设数量;在所述标签数量超过所述预设数量的情况下,展示提示信息;所述提示信息用于指示所述感兴趣话题标签的数量已达到所述预设数量。
一种可选的实施方式中,所述目标数据包括感兴趣话题标签;所述展示话题文本的操作页面,包括:
响应于用户的话题筛选请求,获取所属于至少一个目标话题类别的预设话题标签;在所述操作页面中确定每个所述目标话题类别的类别展示区域,并在所述类别展示区域中展示对应目标话题类别和所属于该目标话题类别的预设话题标签。
一种可选的实施方式中,所述目标数据包括所述感兴趣话题标签;所述在所述操作页面展示所述目标数据和/或所述目标数据的筛选结果,包括:
在所述操作页面的标题展示区域中展示所述感兴趣话题标签;在所述操作页面的文本展示区域中展示与每个所述感兴趣话题标签相匹配的已发布话题文本的关键话题内容。
一种可选的实施方式中,所述方法还包括:
响应于针对所述感兴趣话题标签的选择操作,确定用户所选择的目标话题标签,并获取与所述目标话题标签相匹配的已发布话题文本;在话题筛选页面的文本展示区域中展示与所述目标话题标签相匹配的已发布话题文本的关键话题内容。
第三方面,本公开实施例还提供一种文本分类装置,应用于服务器,包括:
第一获取单元,用于获取待分类话题文本和至少一个待预测话题标签的标签描述信息;提取单元,用于提取所述待分类话题文本的目标文本特征,并提取每个所述待预测话题标签的标签描述信息的标签描述特征;第一确定单元,用于确定所述目标文本特征和每个所述标签描述特征之间的标签相关性,得到至少一个标签相关性;第二确定单元,用于基于所述至少一个标签相关性,在所述至少一个待预测话题标签中确定与所述待分类话题文本相匹配的目标话题标签。
第四方面,本公开实施例还提供一种文本处理装置,应用于终端设备,包括:
第一展示单元,用于展示话题文本的操作页面;接收单元,用于接收用户在所述操作页面输入的目标数据,其中,所述目标数据包括:待发布话题文本,或者,感兴趣话题标签;第二获取单元,用于获取服务器基于所述目标数据确定的筛选结果,其中,所述筛选结果为所述服务器基于上述第一方面中任一项所述的文本分类方法对基于所述目标数据确定的待筛选数据进行筛选之后的结果;第二展示单元,用于在所述操作页面展示所述目标数据和/或所述目标数据的筛选结果。
第五方面,本公开实施例还提供一种计算机设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面至第二方面中任一种可能的实施方式中的步骤。
第六方面,本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面至第二方面中任一种可能的实施方式中的步骤。
本公开实施例提供了一种文本分类、文本处理方法、装置、计算机设备及存储介质。在本公开实施例中,首先可以获取待分类话题文本和对应的至少一个待预测话题标签的标签描述信息,并提取待分类话题文本的目标文本特征,并提取每个待预测话题标签的标签描述信息的标签描述特征;之后,就可以确定目标文本特征和标签描述特征之间的标签相关性;最后,就可以基于该标签相关性在至少一个待预测话题标签中确定与待分类话题文本相匹配的目标话题标签。
上述实施方式中,通过确定标签描述特征和目标文本特征之间的标签相关性在待预测话题标签中确定目标话题标签的方式,可以更加准确的为待分类话题文本确定对应的话题标签,从而提高待分类话题文本的话题分类的准确度。在待分类话题文本为与书籍推荐相关联的推书话题的情况下,通过上述处理方式,可以更加准确的确定推书话题的话题标签,提高推书话题的分类精度,从而能够更加准确的为用户推送出满意的书籍,进而提高用户的阅读体验。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本公开实施例所提供的一种文本分类方法的流程图;
图2示出了本公开实施例所提供的基于数据分割位置对该原始文本数据进行分割处理的示意图;
图3示出了本公开实施例所提供的文本分类方法所对应的文本分类模型的框架结构图;
图4示出了本公开实施例所提供的一种文本处理方法的流程图;
图5示出了本公开实施例所提供的话题文本的操作页面的示意图;
图6示出了本公开实施例所提供的待选话题标签页面的示意图;
图7示出了本公开实施例所提供的展示目标数据时的展示页面的示意图;
图8示出了本公开实施例所提供的一种文本分类装置的示意图;
图9示出了本公开实施例所提供的一种文本处理装置的示意图;
图10示出了本公开实施例所提供的一种计算机设备的示意图;
图11示出了本公开实施例所提供的另一种计算机设备的示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
本文中术语“和/或”,仅仅是描述一种关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
经研究发现,在用户使用书籍或者文章阅读类软件时,一方面会浏览阅读类软件中感兴趣的与书籍推荐相关的推书话题,从而在推书话题中查找喜欢的书籍或者文章进行阅读。此时,用户需要对每个推书话题一一进行浏览,通过该一一浏览的方式降低了用户在各个推书话题中查找喜欢书籍的效率。另一个方面,用户可以在该阅读类软件中搜索喜欢的书籍,但是现有的搜索方案所召回的内容为与搜索关键词相匹配的推书话题;然而,该推书话题中所推荐的书籍可能与搜索关键词所希望搜索的书籍不相关,或者,所召回的内容中漏掉了部分推书话题,从而造成用户无法搜索到满意的书籍,进而降低了用户对该阅读类软件的阅读体验。
基于上述研究,本公开提供了一种文本分类、文本处理方法、装置、计算机设备及存储介质。在本公开实施例中,首先可以获取待分类话题文本和对应的至少一个待预测话题标签的标签描述信息,并提取待分类话题文本的目标文本特征,并提取每个待预测话题标签的标签描述信息的标签描述特征;之后,就可以确定目标文本特征和标签描述特征之间的标签相关性;最后,就可以基于该标签相关性在至少一个待预测话题标签中确定与待分类话题文本相匹配的目标话题标签。
上述实施方式中,通过确定标签描述特征和目标文本特征之间的标签相关性在待预测话题标签中确定目标话题标签的方式,可以更加准确的为待分类话题文本确定对应的话题标签,从而提高待分类话题文本的话题分类的准确度。在待分类话题文本为与书籍推荐相关联的推书话题的情况下,通过上述处理方式,可以更加准确的确定推书话题的话题标签,提高推书话题的分类精度,从而能够更加准确的为用户推送出满意的书籍,进而提高用户的阅读体验。
为便于对本实施例进行理解,首先对本公开实施例所公开的一种文本分类、文本处理方法进行详细介绍,本公开实施例所提供的文本分类、文本处理方法的执行主体一般为具有一定计算能力的计算机设备,该计算机设备例如包括:终端设备或服务器或其它处理设备。在一些可能的实现方式中,该文本分类、文本处理方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
参见图1所示,为本公开实施例提供的一种文本分类方法的流程图,该方法应用于服务器,该方法包括步骤S101~S107,其中:
S101:获取待分类话题文本和至少一个待预测话题标签的标签描述信息。
本公开实施例所提供的文本分类方法可以应用在书籍或者文章阅读类软件的服务器中。例如,用户在使用该阅读类软件时,可以通过发帖的方式获取想要浏览的书籍以及文章等,或者通过发帖和其他用户进行交流。
在本公开实施例中,待分类话题文本可以为当前用户通过阅读类软件编辑的文本,还可以为其他用户通过阅读类软件编辑的文本。举例来说,上述待分类话题文本可以为用户通过阅读类软件输入的帖子内容。
在获取到用户输入的待分类话题文本后,就可以为该待分类话题文本确定对应的至少一个待预测话题标签的标签描述信息。
具体实施时,可以预先设定多个话题标签(即,预设话题标签);然后,可以将全部预设话题标签确定为上述至少一个待预测话题标签。除此之外,还可以对预设话题标签进行初步筛选,得到至少一个待预测话题标签。具体筛选原则可以为:筛选预设话题标签中包含待分类话题文本的特征信息的话题标签为至少一个待预测话题标签。此时,该至少一个待预测话题标签就可以包含该待分类话题文本所对应的特征信息。
举例来说,上述待分类话题文本为:求高质量言情小说,那么,该待分类话题文本所对应的特征信息可以“言情”和“小说”。在此情况下,该待分类话题文本所对应的至少一个待预测话题标签就可以包含“言情”和/或“小说”。
在本公开实施例中,每个待预测话题标签还可以包含用于对该待预测话题标签进行注释的标签描述信息。例如,当上述待预测话题标签为“体育”时,该待预测话题标签所对应的标签描述信息可以包括:体育,运动,拳击,竞技,篮球,足球等文本。
S103:提取所述待分类话题文本的目标文本特征,并提取每个所述待预测话题标签的标签描述信息的标签描述特征。
在本公开实施例中,在获取到上述待分类话题文本和至少一个待预测话题标签的标签描述信息后,就可以通过文本分类模型中的特征提取层对待分类话题文本进行特征提取,得到对应的目标文本特征,以及对每个标签描述信息进行特征提取,得到对应的标签描述特征。其中,提取到的目标文本特征和标签描述特征的数据格式可以为向量,例如,可以为文本表示向量和标签表示向量。在得到文本表示向量和标签表示向量之后,就可以基于文本表示向量和标签表示向量确定标签相关性,通过向量形式的数据确定标签相关性的方式,可以简化便于对目标文本特征和标签描述特征之间的相关性进行对比的过程。
在本公开实施例中,该文本分类模型包括:输入层、嵌入层、特征提取层,其中,输入层、嵌入层、特征提取层串联连接。
具体实施时,输入层在获取到待分类话题文本和标签描述信息之后,可以将上述待分类话题文本和标签描述信息中的文本分别转换为one-hot编码(独热编码)。嵌入层可以将上述待分类话题文本所对应的one-hot编码和标签描述特征所对应的one-hot编码转换成词向量。特征提取层在得到上述词向量后,就可以对词向量进行向量提取,得到该待分类话题文本的目标文本特征和标签描述信息的标签描述特征。
S105:确定所述目标文本特征和每个所述标签描述特征之间的标签相关性,得到至少一个标签相关性。
在本公开实施例中,可以通过相关性计算,分别计算目标文本特征和每个标签描述特征之间的标签相关性。具体实施时,可以通过文本分类模型中的融合层将目标文本特征分别和标签描述特征进行融合运算,从而根据融合运算结果确定目标文本特征和该标签描述特征之间的标签相关性。其中,融合层的输入与文本分类模型的特征提取层的输出相连接。
这里,上述标签相关性可以表示为相关性表示向量;其中,相关性表示向量用于表征待分类话题文本和对应待预测话题标签之间的标签相关性。在得到相关性表示向量之后,就可以对相关性表示向量进行归一化处理,从而归一化后得到0至1范围内的数值。其中,该数值用于表征待分类话题文本和对应待预测话题标签之间的相关概率。
具体实施时,可以将相关性表示向量输入至文本分类模型中的二分类层进行映射处理,从而将相关性表示向量映射为0至1范围内的数值。其中,二分类层包含全连接层和Sigmod层,且全连接层和Sigmod层依次连接。这里,可以通过全连接层和Sigmod层对相关性表示向量依次进行处理,从而得到归一化后的相关概率。这里,文本分类模型中的二分类层的输入与融合层的输出相连接。
S107:基于所述至少一个标签相关性,在所述至少一个待预测话题标签中确定与所述待分类话题文本相匹配的目标话题标签。
通过上述描述可知,针对待预测话题标签,待分类话题文本和每个待预测话题标签均可以确定出对应的相关性表示向量。此时,就可以分别对每个相关性表示向量进行归一化处理,得到至少一个相关概率,其中,该相关概率可以为0到1的概率值。这里,每个相关概率用于表征待分类话题文本与对应待预测话题标签之间的相关程度(或者相似程度)。
这里,在得到至少一个相关概率后,就可以对该至少一个相关概率进行筛选,从而确定出满足概率要求的相关概率。具体的,该概率要求可以理解为大于或者等于预设概率阈值。在此情况下,就可以在该至少一个相关概率中确定大于或者等于预设概率阈值的相关概率作为满足概率要求的相关概率。
在确定出满足概率要求的相关概率后,就可以确定该满足概率要求的相关概率所对应的待预测话题标签,并确定出的所对应的待预测话题标签确定为目标话题标签。
在本公开实施例中,通过确定标签描述特征和目标文本特征之间的标签相关性在待预测话题标签中确定目标话题标签的方式,可以更加准确的为待分类话题文本确定对应的话题标签,从而提高待分类话题文本的话题分类的准确度。在待分类话题文本为与书籍推荐相关联的推书话题的情况下,通过上述处理方式,可以更加准确的确定推书话题的话题标签,提高推书话题的分类精度,从而能够更加准确的为用户推送出满意的书籍,进而提高用户的阅读体验。
在一个可选的实施方式中,上述步骤S101,获取待分类话题文本和至少一个待预测话题标签的标签描述信息,具体包括如下过程:
(1)、获取待处理的原始文本数据,并确定所述原始文本数据中所包含的文本类型标识;
(2)、基于所述文本类型标识确定所述原始文本数据的数据分割位置,并基于所述数据分割位置对所述原始文本数据进行分割处理,得到所述待分类话题文本和所述标签描述信息。
在本公开实施例中,上述待处理的原始文本数据可以由多个部分组成,例如,该待处理的原始文本数据可以包含:待分类话题文本,至少一个待预测话题标签的标签描述信息。其中,该原始文本数据的每个部分可以对应着不同的文本类型标识。
在原始文本数据中包含多个文本块,每个文本块包含对应的数据标识位segmentid,其中,该数据标识位用于指示对应文本块的文本类型标识。具体实施时,可以分别对原始文本数据中每个文本块的数据标识位segment id进行识别,得到该segment id所指示的文本类型标识。
这里,在上述原始文本数据中,待分类话题文本所属文本块的数据标识位segmentid所指示的文本类型标识的标识值可以设置为0,标签描述信息所属文本块的数据标识为segment id所指示的文本类型标识的值可以设置为1。
在本公开实施例中,可以基于文本类型标识的标识值确定原始文本数据的数据分割位置,并基于数据分割位置对该原始文本数据进行分割处理。
具体的,如图2所示,在对原始文本数据进行分割时,首先可以根据上述文本类型标识进行分割,得到待分类话题文本和标签描述信息。
这里,可以根据文本类型标识的标识值,在原始文本数据中插入第一分隔符[SEP],并基于第一分隔符对原始文本数据进行分割。具体实施时,在检测到任意两个连续文本类型标识的标识值不相同的情况下,在这两个连续文本类型标识中间插入第一分隔符[SEP],进而通过第一分隔符[SEP]对原始文本数据进行分割。
这里,还可以预先在待分类话题文本的各个不同类型的文本块之间插入第二分隔符,进而通过上述第二分隔符对待分类话题文本进行进一步分割,具体的,上述原始文本数据包括:待分类话题文本和标签描述信息(也可以记为description)。其中,待分类话题文本包括以下至少之一:话题标题文本(也可以记为title)、话题摘要文本(也可以记为abstract),话题标题文本可以为该待分类话题文本的标题,话题摘要文本可以为该待分类话题文本的内容简介。此时,待分类话题文本的各个不同类型的文本块可以理解为:所属于话题标题文本的文本块、所属于话题摘要文的文本块。
通过上述描述可知,原始文本数据可以划分为不同的文本块(每个文本块也可以记为token),从而便于BERT模型(Bidirectional Encoder Representations fromTransformer模型,即,特征提取层)对该原始文本数据进行处理。其中,该BERT模型能够对该原始文本数据进行特征提取,从而分别得到该待分类话题文本所对应的目标文本特征,以及和标签描述特征所对应的标签描述特征。
这里,上述目标文本特征可以记为topix vector(文本表示向量),上述标签描述特征可以记为description vector(标签表示向量),其中,如图2所示,目标文本特征和标签描述特征分别由各自的子向量组成。
通过上述描述可知,通过根据文本类型标识对待处理的原始文本数据进行分割,得到待分类话题文本和标签描述信息的方式,能够快速的对待分类话题文本的目标文本特征和待预测话题标签的标签描述特征进行划分,从而提高待分类话题文本和待预测话题标签的标签相关性的确定效率。
在一个可选的实施方式中,上述步骤S103,提取所述待分类话题文本的目标文本特征,具体包括如下过程:
(1)、确定所述待分类话题文本中每个第一单位文本的目标向量,其中,所述目标向量中的元素用于指示该第一单位文本和每个预设单位文本之间的映射关系;
(2)、在所述待分类话题文本中全部第一单位文本的目标向量中提取所述待分类话题文本的关键特征向量,并将所述关键特征向量确定为所述目标文本特征。
在本公开实施例中,首先可以对该待分类话题文本进行划分,得到多个第一单位文本。其中,每个第一单位文本所对应的目标向量的长度可以由该第一单位文本所包含的文本长度决定,该待分类话题文本的多个第一单位文本所包含的文本长度可以是不同的。例如,该第一单位文本中包含的文本长度可以分为:字、词、句、段四种类型。
这里,上述预设单位文本可以为预先设定的用于对第一单位文本进行筛选的文本,其中,该预设单位文本的数量可以为多个。在通过该预设单位文本对上述第一单位文本进行筛选时,首先可以确定各个第一单位文本所对应的目标向量,并分别确定该目标向量和每个预设单位文本之间的映射关系。
在本公开实施例中,在确定出上述映射关系后,就可以基于该映射关系,确定出该目标向量中和预设单位文本相匹配的子向量(即,图2中目标文本特征的子向量)为上述关键特征向量,然后就可以根据确定出的关键特征向量确定目标文本特征。
举例来说,假设上述预设单位文本为“科幻”,那么,在目标向量中确定出的和该预设单位文本相匹配的子向量所对应的第一单位文本也可以为“科幻”。或者,目标向量中的子向量和该预设单位文本也可以是不完全匹配的,例如,当第一单位文本为“科技”时,该第一单位文本所对应的子向量和预设单位文本的匹配度较高,此时,仍可以将该第一单位文本“科技”所对应的文本特征确定为目标文本特征。
通过上述描述可知,可以对目标向量中的关键特征向量进行提取,可以实现对不相关内容的过滤,从而减少运算量,进而提高确定目标文本特征的效率。
在一个可选的实施方式中,在目标文本特征中包含多个子文本特征,每个子文本特征对应所述待分类话题文本中每个第一单位文本的情况下,上述步骤S105:确定所述目标文本特征和每个所述标签描述特征之间的标签相关性,具体包括如下过程:
(1)、基于所述目标文本特征和所述标签描述特征,确定每个所述第一单位文本的相关系数,其中,所述相关系数用于表征该第一单位文本与对应待预测话题标签之间的标签相关程度;
(2)、基于每个所述第一单位文本的相关系数,对各个所述第一单位文本的子文本特征进行加权求和计算,并根据计算结果确定所述标签相关性。
在本公开实施例中,首先可以根据目标文本特征中每个第一单位文本的子文本特征的融合权重,对目标文本特征和标签描述特征进行融合运算,从而得到该标签相关性。
具体实施时,首先可以确定待分类话题文本中的每个第一单位文本的相关系数,其中,该相关系数可以用于表征每个第一单位文本和对应的待预测话题标签之间的标签相关程度。
具体的,以待分类话题文本中的第i个第一单位文本的子文本特征Xi为例,可以确定该第i个第一单位文本的相关系数,例如,该第一单位文本的相关系数可以记为:
Figure BDA0003492804920000101
其中,
Figure BDA0003492804920000102
D为文本分类模型的训练过程学习得到的权重抽取矩阵。
在确定出每个第一单位文本的相关系数之后,就可以基于该相关系数对各个第一单位文本的子文本特征进行加权求和计算,从而得到标签相关性。
具体实施时,可以将相关系数和对应的子文本特征进行相乘之后,对全部第一单位文本的乘积进行求和运算,从而得到标签相关性,其中,上述标签相关性可以记为R,基于该相关系数和各个第一单位文本的子文本特征进行加权求和计算的过程可以记为:
Figure BDA0003492804920000103
通过上述描述可知,通过计算目标文本特征中每个第一单位文本和标签描述特征的相关系数并对该相关系数进行加权求和得到标签相关性的方式,可以提高标签相关性的准确性。
在一个可选的实施方式中,上述步骤:基于所述目标文本特征和所述标签描述特征,确定每个所述第一单位文本的相关系数,具体包括如下过程:
(1)、基于每个所述第一单位文本的子文本特征,确定该第一单位文本的第一子相关系数;
(2)、基于所述目标文本特征和所述标签描述特征确定第二子相关系数;
(3)、基于所述第一子相关系数和所述第二子相关系数之间的比值确定所述相关系数。
在本公开实施例中,首先可以确定该第i个第一单位文本的子文本特征的转置结果
Figure BDA0003492804920000104
其中,T为针对该第一单位文本的子文本特征Xi进行转置。在确定出该第一单位文本的子文本特征的转置结果后,就可以基于该转置结果确定出上述第一子相关系数
Figure BDA0003492804920000105
其中,
Figure BDA0003492804920000106
D为文本分类模型的训练过程学习得到的权重抽取矩阵(即,下述预设权重矩阵)。
之后,就可以确定上述第二子相关系数,具体实施时,可以基于目标文本特征和标签描述特征确定第二子相关系数
Figure BDA0003492804920000107
其中,j=i+k,i表示第一单位文本的数量,k表示标签描述信息中第二单位文本的数量k。其中,
Figure BDA0003492804920000111
Figure BDA0003492804920000112
表示为目标文本特征的子文本特征和标签描述特征的子文本特征。
在本公开实施例中,在确定出上述第一子相关系数以及第二子相关系数之后,就可以基于该第一子相关系数以及第二子相关系数的比值确定出每个第一单位文本的相关系数。
通过上述描述可知,通过第一子相关系数和第二子相关系数确定上述相关系数的方式,可以提高标签相关性的准确性。
在一个可选的实施方式中,上述步骤:基于每个所述第一单位文本的子文本特征,确定该第一单位文本的第一子相关系数,具体包括如下过程:
(1)、基于每个所述第一单位文本的子文本特征和预设权重矩阵,确定该第一单位文本的第一权重;
(2)、基于所述第一权重确定所述第一子相关系数。
在本公开实施例中,首先可以确定上述第一单位文本的第一权重wi,其中,该第一权重wi可以用于表征该第一单位文本的子文本特征在目标文本特征中的融合权重。在计算出上述第一权重wi之后,就可以基于第一权重确定第一子相关系数。
具体实施时,可以获取预设权重矩阵D,之后就可以根据计算公式
Figure BDA0003492804920000113
确定每个第一单位文本的第一权重wi
在本公开实施例中,在确定出上述第一权重后,就可以基于该第一权重确定出上述第一单位文本所对应的第一子相关系数
Figure BDA0003492804920000114
通过上述描述可知,通过确定目标文本特征中每个第一单位文本的第一权重确定每个第一单位文本的第一子相关系数的方式,从而提高相关系数的准确性。
在一个可选的实施方式中,在上述标签描述特征中包含多个第二单位文本的情况下,上述步骤:基于所述目标文本特征和所述标签描述特征确定第二子相关系数,具体包括如下过程:
(1)、基于所述目标文本特征和预设权重矩阵确定各个第一单位文本的第二权重;
(2)、基于所述标签描述特征和所述预设权重矩阵确定各个第二单位文本的第三权重;
(3)、基于所述第二权重和所述第三权重确定所述第二子相关系数。
在本公开实施例中,首先可以基于目标文本特征中的子文本特征和预设权重矩阵D确定第二权重。具体地,可以通过公式
Figure BDA0003492804920000115
确定第二权重。之后,还可以基于标签描述特征和预设权重矩阵确定第三权重,具体的,可以通过公式
Figure BDA0003492804920000116
确定第三权重。
在确定第二权重以及第三权重之后,就可以基于第二权重和第三权重确定第二子相关系数
Figure BDA0003492804920000117
具体实施时,若上述第一单位文本的数量为i,第二单位文本的数量为k,且i+k=j。那么,该第二子相关系数可以表示为对基于各个第一单位文本的第二权重确定的
Figure BDA0003492804920000121
和基于各个第二单位文本的第三权重确定的
Figure BDA0003492804920000122
进行求和运算,从而得到
Figure BDA0003492804920000123
通过上述描述可知,通过确定第二权重以及第三权重,进而根据第二权重以及第三权重确定第二子相关系数的方式,可以提高相关系数的准确性。
在一个可选的实施方式中,在如图1所示实施例的基础上,上述步骤S103:所述提取所述待分类话题文本的目标文本特征,并提取每个所述待预测话题标签的标签描述信息的标签描述特征,包括:通过文本分类模型中的特征提取层提取所述待分类话题文本的目标文本特征,并提取每个所述待预测话题标签的标签描述信息的标签描述特征。
在本公开实施例中,如图3所示为本公开实施例所提供的文本分类方法中文本分类模型的框架结构图。如图3所示,该文本分类模型包括:特征提取网络,融合层和分类层(也即,二分类层);其中,特征提取网络包括:输入层、嵌入层和特征提取层。
在本公开实施例中,首先需要通过特征提取网络来分别提取待分类话题文本的目标文本特征和标签描述信息的标签描述特征。其中,如图3所示,上述特征提取网络包括:输入层、嵌入层以及特征提取层。
以待分类话题文本为例,特征提取网络提取目标文本特征的提取过程如下:
(1)、输入层:在获取到上述待分类话题文本后,将待分类话题文本输入至该输入层进行处理。之后,输入层就可以将该待分类话题文本转换为one-hot编码。在将待分类话题文本转换为one-hot编码后,待分类话题文本中的各个单位文本可以转化为由0,1组成的固定维度的向量。
(2)嵌入层:在获取到上述待分类话题文本的one-hot编码后,就可以将该one-hot编码转换为该待分类话题文本所对应的词向量,以及将标签描述信息的one-hot编码转换为该标签描述信息所对应的词向量。这里,可以通过word2vec模型将该one-hot编码转换为对应的词向量。
(3)特征提取层:在获取到上述待分类话题文本所对应的词向量和标签描述信息所对应的词向量后,就可以对词向量进行特征提取,从而得到用于表征该待分类话题文本的所表达内容的文本表示向量,以及标签描述信息所对应的标签表示向量。
应理解的是,该特征提取层在进行特征提取时,可以根据词向量的语义进行提取,从而使得得到的文本表示向量通顺且能准确表达待分类话题文本的内容。这里,该特征提取层可以通过CNN模型(卷积神经网络Convolutional Neural Networks,卷积神经网络),或者RNN模型(Recurrent Neural Networks,循环神经网络)等进行文本表示向量的提取。
需要说明的是,上述标签描述信息的标签表示向量的提取过程和上述文本表示向量的提取过程相同,此处不再进行赘述。
在一个可选的实施方式中,在如图1所示实施例的基础上,上述步骤S105:所述确定所述目标文本特征和每个所述标签描述特征之间的标签相关性,得到至少一个标签相关性,包括:通过文本分类模型中的相关性确定层确定所述目标文本特征和每个所述标签描述特征之间的标签相关性,得到至少一个标签相关性。
在本公开实施例中,如图3所示,可以通过融合层(即相关性确定层)对目标文本特征和标签描述特征进行融合运算,从而得到目标文本特征和标签描述特征之间的标签相关性。
这里,可以将上述目标文本特征分为各个第一单位文本的子文本特征,再分别计算每个第一单位文本的子文本特征和标签描述特征之间的相关性,从而根据全部第一单位文本的子文本特征和标签描述特征之间的相关性,确定出目标文本特征和标签描述特征之间的标签相关性。
具体的,该融合层首先可以通过公式
Figure BDA0003492804920000131
来计算第一权重wi。然后,就可以基于该第一权重wi,计算第一单位文本的和目标文本特征之间的相关性R,其中,
Figure BDA0003492804920000132
需要说明的是,在待预测话题标签的数量为多个的情况下,待分类话题文本和每个待预测话题标签的标签描述信息之间都对应着一个标签相关性。
在一个可选的实施方式中,在如图1所示实施例的基础上,上述步骤S107:所述基于所述至少一个标签相关性,在所述至少一个待预测话题标签中确定与所述待分类话题文本相匹配的目标话题标签,包括:通过文本分类模型中的分类层基于所述至少一个标签相关性,在所述至少一个待预测话题标签中确定与所述待分类话题文本相匹配的目标话题标签。
在本公开实施例中,上述分类层可以由全连接层和归一化层组成,其中,该全连接层可以包含矩阵W。具体的,该分类层在获取到上述标签相关性后,就可以通过该全连接层和归一化层,将该标签相关性的向量映射为相关概率,其中,该相关概率用于表征待预测话题标签和待分类话题文本之间的相关程度。
这里,具体的映射过程如下:logit=sigmoid(RTW)。
其中,logit的表达形式可以为百分数形式的概率值,例如,60%,R为上述标签描述特征和目标文本特征之间的标签相关性。上述sigmoid为归一化函数,该sigmoid的计算方式如下:
Figure BDA0003492804920000133
通过上述描述可知,通过确定标签描述特征和目标文本特征之间的标签相关性在待预测话题标签中确定目标话题标签的方式,可以更加准确的为待分类话题文本确定对应的话题标签,从而提高待分类话题文本的话题分类的准确度。在待分类话题文本为与书籍推荐相关联的推书话题的情况下,通过上述处理方式,可以更加准确的确定推书话题的话题标签,提高推书话题的分类精度,从而能够更加准确的为用户推送出满意的书籍,进而提高用户的阅读体验。
在一个可选的实施方式中,所述方法还包括针对待训练的文本分类模型进行训练的过程:
(1)、确定多个训练样本;其中,每个训练样本中包含待预测话题标签和待训练话题文本,每个所述训练样本包含匹配标签,所述匹配标签用于指示所述待预测话题标签和待训练话题文本之间的匹配性;
(2)、通过所述多个训练样本对待训练的文本分类模型进行训练,得到所述文本分类模型。
在本公开实施例中,首先可以确定多个包含待预测话题标签和待训练话题文本的训练样本,其中,每个训练样本中包含一个待训练话题文本和至少一个待预测话题标签,每个待预测话题标签对应着一个匹配标签,该匹配标签用于表征该待预测话题标签和待分类话题文本之间的匹配性。
这里,上述匹配标签为“1”时,可以表示待预测话题标签和待训练话题文本之间为匹配的;当匹配标签为“0”时,可以表示待预测话题标签和待训练话题文本之间为不匹配的。
在本公开实施例中,通过所述多个训练样本对待训练的文本分类模型进行训练,得到所述文本分类模型,具体包括如下过程:
(1)、确定所述多个训练样本中所包含待预测话题标签的第一标签数量,并确定所述待预测话题标签中与所述待训练话题文本相匹配的目标分类标签的第二标签数量;
(2)、基于所述第一标签数量、所述第二标签数量、所述匹配标签和所述待训练的文本分类模型对所述多个训练样本的预测结果,确定所述待训练的文本分类模型的目标损失函数值;
(3)、根据所述目标损失函数值,调整所述待训练的文本分类模型的模型参数,得到所述文本分类模型。
在本公开实施例中,首先需要确定该待训练的文本分类模型的目标损失函数loss,具体的,该目标损失函数loss的计算过程如下:
Figure BDA0003492804920000141
其中,Ntags为多个训练样本中所包含待预测话题标签的第一标签数量。ytrue为符号函数,即上述匹配标签。在待预测话题标签和待训练话题文本匹配时,ytrue=1;在待预测话题标签和待训练话题文本不匹配时,ytrue=0。其中,可以根据符号函数确定上述第二标签数量。ypred为该待训练的文本分类模型针对该待预测话题标签输出的相关概率的预测值(即,待训练的文本分类模型对多个训练样本的预测结果)。σ为超参数,一般为每个训练样本中包含的第一标签数量的平均数。
通过上述描述可知,可以基于第一标签数量、第二标签数量、匹配标签和待训练的文本分类模型对多个训练样本的预测结果,确定待训练的文本分类模型的目标损失函数值,并根据该目标损失函数值调整待训练的文本分类模型的模型参数,从而提高文本分类模型的预测精确度。
参见图4所示,为本公开实施例提供的一种文本处理方法的流程图,该方法应用于终端设备,在该终端设备中预先安装了阅读类软件,所述方法包括步骤S401~S407,其中:
S401:展示话题文本的操作页面。
在本公开实施例中,上述话题文本的操作页面如图5所示,其中,图5中所展示的用户在上述阅读类软件中进行发帖操作的发帖页面,用户可以在该操作页面中输入目标数据。
S403:接收用户在所述操作页面输入的目标数据,其中,所述目标数据包括:待发布话题文本,或者,感兴趣话题标签。
假设,目标数据为待发布话题文本。在此情况下,用户可以如图5所示的界面输入待发布话题文本;之后,终端设备就可以向服务器发送该待发布话题文本,服务器就可以根据上述实施例中所描述的文本分类方法确定与待发布话题文本相匹配的话题标签,并将该话题标签展示在如图5所示的第二展示位置。
S405:获取服务器基于所述目标数据确定的筛选结果,其中,所述筛选结果为所述服务器基于上述任一实施例所述的文本分类方法对基于所述目标数据确定的待筛选数据进行筛选之后的结果。
在本公开实施例中,针对不同类型的目标数据,服务器返回的筛选结果也是不同的。
举例来说,如果目标数据为待发布话题文本,那么服务器就可以根据上述实施例中所描述的文本分类方法确定与待发布话题文本相匹配的话题标签。如果目标数据为感兴趣话题标签,那么服务器就可以根据上述实施例中所描述的文本分类方法确定与该感兴趣话题标签相匹配的已发布话题文本。
S407:在所述操作页面展示所述目标数据和/或所述目标数据的筛选结果。
在本公开实施例中,在上述目标数据为感兴趣话题标签的情况下,目标数据的筛选结果可以为与感兴趣标签相匹配的已发布话题文本。例如,在上述目标数据为“科技”时,在操作页面展示的可以为该目标数据以及和该感兴趣标签相关的书籍或者文章的推荐话题,其中,该推荐话题可以为用于推荐书籍或者文章的已发布话题文本。
通过上述处理方式,可以更加准确的确定推书话题的话题标签,提高推书话题的分类精度,从而能够更加准确的为用户推送出满意的书籍,进而提高用户的阅读体验。
在一个可选的实施方式中,上述目标数据包含所述待发布话题文本;上述在所述操作页面展示所述目标数据和/或所述目标数据的筛选结果,具体包括如下过程:
(1)、在所述操作页面的第一展示位置展示所述待发布话题文本;
(2)、在所述操作页面的第二展示位置展示所述待发布话题文本的发布类型和/或与所述待发布话题文本相匹配的至少一个目标话题标签。
在本公开实施例中,如图5所示,上述第一展示位置用于展示用户输入的待发布话题文本,其中,该第一展示位置中的第一子展示位置用于展示该待发布话题文本的文本标题,该第一展示位置中的第二子展示位置用于展示该待发布话题文本的文本内容。
另外的,如图5所示,第二展示区域包含与待发布话题文本相匹配的至少一个目标话题标签。
通过上述描述可知,可以分别通过第一展示位置以及第二展示位置展示目标数据的不同内容,从而使得操作界面的布局更美观,更合理,提高了用户的操作体验。
在一个可选的实施方式中,在如图4所示实施例的基础上,所述方法还包括:
检测用户针对所述操作页面中所展示的所述目标话题标签的标签修改标识的触发操作,对所述目标话题标签执行与用户所触发的标签修改标识相匹配的修改操作,并在所述操作页面中展示修改之后的目标话题标签,其中,所述修改操作包括以下至少之一:新增、删除、修改。
在本公开实施例中,如图5所示,用户还可以通过标签修改标识对目标话题标签进行修改操作,其中,在检测到用户针对“+点击添加”按钮(即标签修改标识)的触发操作后,就可以确定与“+点击添加”按钮相匹配的修改操作为新增操作,并响应于该新增操作,在第二展示位置增加对应的新增话题标签。
另外的,如图5所示,每个目标话题标签内还可以包含“×”标签修改标识,其中,在检测到用户该“×”标签修改标识的触发操作后,就可以确定和该“×”标签修改标识相匹配的修改操作为删除操作,并响应于该删除操作删除对应的目标话题标签。
另外的,用户还可以通过触发该第二展示位置的目标话题标签,直接修改该目标话题标签中的标签内容,例如,在检测到用户针对“科技”目标话题标签的触发操作后,获取用户针对该“科技”目标话题中的修改内容,在该修改内容命中标签库中的话题标签后,将该修改内容所对应的话题标签确定为目标话题标签。
通过上述描述可知,可以通过修改操作对目标话题标签进行修改操作从而使得用户在添加目标话题标签时更灵活、更便捷,提高了用户的使用体验。
在一个可选的实施方式中,在目标数据包含所述感兴趣话题标签的情况下,所述方法还包括如下过程:
(1)、在接收用户在所述操作页面输入的感兴趣话题标签之后,检测所述感兴趣话题标签的标签数量是否超过预设数量;
(2)、在所述标签数量超过所述预设数量的情况下,展示提示信息;所述提示信息用于指示所述感兴趣话题标签的数量已达到所述预设数量。
在本公开实施例中,在检测到上述目标话题标签的新增操作后,就可以在显示界面上展示如图6所示的待选话题标签页面,其中,用户可以通过选择该待选话题标签页面中的待选话题标签来确定感兴趣话题标签。
另外,在用户选择感兴趣标签时,还可以检测用户选择的感兴趣标签是否超过预设数量,并在标签数量超过预设数量的情况下,展示提示信息,提示信息用于指示所述感兴趣话题标签的数量已达到所述预设数量。
在本公开实施例中,上述感兴趣标签可以对应着不同的类别维度,其中,如图6所示,该感兴趣标签对应的类别维度包括:话题类型、性别偏好、推书类型。
因此,上述预设数量可以为针对全部类别维度的感兴趣标签设置的,也可以为针对至少部分类别维度的感兴趣标签设置的。这里,以该预设数量是针对“推书类型”的类别维度设置为例,具体的,若该预设数量为3,在检测到用户在“推书类型”的类别维度下选择的感兴趣标签超过3个时,则如图6所示,在显示界面上展示提示信息:“最多可选3个推书类型”。
通过上述描述可知,可以通过预设数量限制用户选择的感兴趣标签的数量,从而减少由于感兴趣标签的数量过多造成的筛选效率降低,提高用户的使用体验。
在一个可选的实施方式中,在目标数据包括感兴趣话题标签的情况下;上述展示话题文本的操作页面,具体包括如下过程:
(1)、响应于用户的话题筛选请求,获取所属于至少一个目标话题类别的预设话题标签;
(2)、在所述操作页面中确定每个所述目标话题类别的类别展示区域,并在所述类别展示区域中展示对应目标话题类别和所属于该目标话题类别的预设话题标签。
在本公开实施例中,如图6所示,目标话题类别分为“话题类型”、“性别偏好”和“推书类型”。
在本公开实施例中,在确定出所属于至少一个目标话题类别的预设话题标签之后,就可以在操作页面中确定每个所述目标话题类别的类别展示区域。例如,确定“话题类型”的类别展示区域,“性别偏好”的类别展示区域,以及“推书类型”的类别展示区域。
在确定出对应的类别展示区域之后,就可以在类别展示区域中展示对应目标话题类别和所属于该目标话题类别的预设话题标签。
例如,针对目标话题类别“话题类型”,所属于该“话题类型”的预设话题标签可以包含“按情节”、“按角色”、“按品类”。例如,针对目标话题类别“性别偏好”,所属于该“性别偏好”的预设话题标签可以包含“男生向”和“女生向”。
通过上述描述可知,可以根据目标话题类别分别确定对应的预设话题标签,并通过每个目标话题类别所对应的类别展示区域进行展示,从而提高了确定目标话题标签的效率,并且使得界面布局更加美观,提高用户的浏览体验。
在一个可选的实施方式中,在目标数据包括所述感兴趣话题标签的情况下,上述在所述操作页面展示所述目标数据和/或所述目标数据的筛选结果,具体包括如下过程:
(1)、在所述操作页面的标题展示区域中展示所述感兴趣话题标签;
(2)、在所述操作页面的文本展示区域中展示与每个所述感兴趣话题标签相匹配的已发布话题文本的关键话题内容。
在本公开实施例中,在展示上述目标数据时的展示页面如图7所示,其中,该展示页面中包含标题展示区域以及文本展示区域,其中,该标题展示区域用于展示感兴趣话题标签,文本展示区域用于展示和感兴趣话题标签相匹配的已发布话题文本的关键话题内容。
具体的,该关键话题内容可以包含已发布话题文本的文本标题以及浏览标识,其中,该浏览标识用于表征该已发布话题文本的被浏览次数、推荐数书籍被采纳次数(该被采纳次数可以为如图7所示的“拯救了15.3w人的书荒”的形式)等数据。
通过上述描述可知,可以分别通过标签展示区域以及文本展示区域对感兴趣话题标签和已发布话题文本的关键话题内容进行展示,使得页面布局更加合理,并且,通过展示已发布话题文本的关键话题内容的方式,实现了对已发布话题文本的提炼,进一步提高了页面布局的合理性,使得展示界面可以同事展示更多的实质性内容,方便用户观看。
在一个可选的实施方式中,所述方法还包括:
(1)、响应于针对所述感兴趣话题标签的选择操作,确定用户所选择的目标话题标签,并获取与所述目标话题标签相匹配的已发布话题文本;
(2)、在话题筛选页面的文本展示区域中展示与所述目标话题标签相匹配的已发布话题文本的关键话题内容。
在本公开实施例中,用户可以通过针对上述感兴趣话题标签的选择操作,确定想要查看的目标话题标签所对应的已发布话题文本。具体的,在检测到用户选择的目标话题标签后,就可以对话题筛选页面所展示已发布话题文本进行筛选,从而确定出和该目标话题文本相匹配的已发布话题文本,并在文本展示区域展示和该目标话题文本相匹配的已发布话题文本的关键话题内容。
通过上述描述可知,可以通过感兴趣话题标签对话题筛选页面中展示的已发布话题文本的关键话题内容进行筛选,从而更好的适用于用户的使用需求,提高用户的使用体验。
综上,在本公开实施例中,通过确定标签描述特征和目标文本特征之间的标签相关性在待预测话题标签中确定目标话题标签的方式,可以更加准确的为待分类话题文本确定对应的话题标签,从而提高待分类话题文本的话题分类的准确度。在待分类话题文本为与书籍推荐相关联的推书话题的情况下,通过上述处理方式,可以更加准确的确定推书话题的话题标签,提高推书话题的分类精度,从而能够更加准确的为用户推送出满意的书籍,进而提高用户的阅读体验。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
基于同一发明构思,本公开实施例中还提供了与文本分类方法对应的文本分类装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述文本分类方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参照图8所示,为本公开实施例提供的一种文本分类装置的示意图,所述装置包括:第一获取单元81、提取单元82、第一确定单元83、第二确定单元84;其中,
第一获取单元81,用于获取待分类话题文本和至少一个待预测话题标签的标签描述信息;
提取单元82,用于:提取所述待分类话题文本的目标文本特征,并提取每个所述待预测话题标签的标签描述信息的标签描述特征;
第一确定单元83,用于:确定所述目标文本特征和每个所述标签描述特征之间的标签相关性,得到至少一个标签相关性;
第二确定单元84,用于:基于所述至少一个标签相关性,在所述至少一个待预测话题标签中确定与所述待分类话题文本相匹配的目标话题标签。
本公开实施例中,通过确定标签描述特征和目标文本特征之间的标签相关性在待预测话题标签中确定目标话题标签的方式,可以更加准确的为待分类话题文本确定对应的话题标签,从而提高待分类话题文本的话题分类的准确度。在待分类话题文本为与书籍推荐相关联的推书话题的情况下,通过上述处理方式,可以更加准确的确定推书话题的话题标签,提高推书话题的分类精度,从而能够更加准确的为用户推送出满意的书籍,进而提高用户的阅读体验。
一种可能的实施方式中,所述目标文本特征中包含多个子文本特征,每个子文本特征对应所述待分类话题文本中每个第一单位文本,第一确定单元83,还用于:
基于所述目标文本特征和所述标签描述特征,确定每个所述第一单位文本的相关系数,其中,所述相关系数用于表征该第一单位文本与对应待预测话题标签之间的标签相关程度;基于每个所述第一单位文本的相关系数,对各个所述第一单位文本的子文本特征进行加权求和计算,并根据计算结果确定所述标签相关性。
一种可能的实施方式中,第一确定单元83,还用于:
基于每个所述第一单位文本的子文本特征,确定该第一单位文本的第一子相关系数;基于所述目标文本特征和所述标签描述特征确定第二子相关系数;基于所述第一子相关系数和所述第二子相关系数之间的比值确定所述相关系数。
一种可能的实施方式中,第一确定单元83,还用于:
基于每个所述第一单位文本的子文本特征和预设权重矩阵,确定该第一单位文本的第一权重;基于所述第一权重确定所述第一子相关系数。
一种可能的实施方式中,所述标签描述特征中包含多个第二单位文本;第一确定单元83,还用于:
基于所述目标文本特征和预设权重矩阵确定各个第一单位文本的第二权重;基于所述标签描述特征和所述预设权重矩阵确定各个第二单位文本的第三权重;基于所述第二权重和所述第三权重确定所述第二子相关系数。
一种可能的实施方式中,第一获取单元81,还用于:
获取待处理的原始文本数据,并确定所述原始文本数据中所包含的文本类型标识;基于所述文本类型标识确定所述原始文本数据的数据分割位置,并基于所述数据分割位置对所述原始文本数据进行分割处理,得到所述待分类话题文本和所述标签描述信息。
一种可能的实施方式中,提取单元82,还用于:
确定所述待分类话题文本中每个第一单位文本的目标向量,其中,所述目标向量中的元素用于指示该第一单位文本和每个预设单位文本之间的映射关系;在所述待分类话题文本中全部第一单位文本的目标向量中提取所述待分类话题文本的关键特征向量,并将所述关键特征向量确定为所述目标文本特征。
一种可能的实施方式中,所述待分类话题文本包括以下至少之一:话题标题文本、话题摘要文本、话题标签描述文本。
一种可能的实施方式中,该装置还用于:
所述提取所述待分类话题文本的目标文本特征,并提取每个所述待预测话题标签的标签描述信息的标签描述特征,包括:通过文本分类模型中的特征提取层提取所述待分类话题文本的目标文本特征,并提取每个所述待预测话题标签的标签描述信息的标签描述特征;所述确定所述目标文本特征和每个所述标签描述特征之间的标签相关性,得到至少一个标签相关性,包括:通过文本分类模型中的相关性确定层确定所述目标文本特征和每个所述标签描述特征之间的标签相关性,得到至少一个标签相关性;所述基于所述至少一个标签相关性,在所述至少一个待预测话题标签中确定与所述待分类话题文本相匹配的目标话题标签,包括:通过文本分类模型中的分类层基于所述至少一个标签相关性,在所述至少一个待预测话题标签中确定与所述待分类话题文本相匹配的目标话题标签。
一种可能的实施方式中,该装置还用于:
确定多个训练样本;其中,每个训练样本中包含待预测话题标签和待训练话题文本,每个所述训练样本包含匹配标签,所述匹配标签用于指示所述待预测话题标签和待训练话题文本之间的匹配性;通过所述多个训练样本对待训练的文本分类模型进行训练,得到所述文本分类模型。
一种可能的实施方式中,该装置还用于:
确定所述多个训练样本中所包含待预测话题标签的第一标签数量,并确定所述待预测话题标签中与所述待训练话题文本相匹配的目标分类标签的第二标签数量;基于所述第一标签数量、所述第二标签数量、所述匹配标签和所述待训练的文本分类模型对所述多个训练样本的预测结果,确定所述待训练的文本分类模型的目标损失函数值;根据所述目标损失函数值,调整所述待训练的文本分类模型的模型参数,得到所述文本分类模型。
参照图9所示,为本公开实施例提供的一种文本处理装置的示意图,所述装置包括:第一展示单元91、接收单元92、第二获取单元93、第二展示单元94;其中,
第一展示单元91,用于:展示话题文本的操作页面;
接收单元92,用于:接收用户在所述操作页面输入的目标数据,其中,所述目标数据包括:待发布话题文本,或者,感兴趣话题标签;
第二获取单元93,用于:获取服务器基于所述目标数据确定的筛选结果,其中,所述筛选结果为所述服务器基于上述实施例所述的文本分类方法对基于所述目标数据确定的待筛选数据进行筛选之后的结果;
第二展示单元94,用于:在所述操作页面展示所述目标数据和/或所述目标数据的筛选结果。
通过上述处理方式,可以更加准确的确定推书话题的话题标签,提高推书话题的分类精度,从而能够更加准确的为用户推送出满意的书籍,进而提高用户的阅读体验。
一种可能的实施方式中,所述目标数据包含所述待发布话题文本,第二展示单元94,还用于:
在所述操作页面的第一展示位置展示所述待发布话题文本;在所述操作页面的第二展示位置展示所述待发布话题文本的发布类型和/或与所述待发布话题文本相匹配的至少一个目标话题标签。
一种可能的实施方式中,第二展示单元94,还用于:
检测用户针对所述操作页面中所展示的所述目标话题标签的标签修改标识的触发操作,对所述目标话题标签执行与用户所触发的标签修改标识相匹配的修改操作,并在所述操作页面中展示修改之后的目标话题标签,其中,所述修改操作包括以下至少之一:新增、删除、修改。
一种可能的实施方式中,所述目标数据包含所述感兴趣话题标签,该装置还用于:
在接收用户在所述操作页面输入的感兴趣话题标签之后,检测所述感兴趣话题标签的标签数量是否超过预设数量;在所述标签数量超过所述预设数量的情况下,展示提示信息;所述提示信息用于指示所述感兴趣话题标签的数量已达到所述预设数量。
一种可能的实施方式中,所述目标数据包括感兴趣话题标签,第一展示单元91,还用于:
响应于用户的话题筛选请求,获取所属于至少一个目标话题类别的预设话题标签;在所述操作页面中确定每个所述目标话题类别的类别展示区域,并在所述类别展示区域中展示对应目标话题类别和所属于该目标话题类别的预设话题标签。
一种可能的实施方式中,所述目标数据包括所述感兴趣话题标签;第二展示单元94,还用于:
在所述操作页面的标题展示区域中展示所述感兴趣话题标签;在所述操作页面的文本展示区域中展示与每个所述感兴趣话题标签相匹配的已发布话题文本的关键话题内容。
一种可能的实施方式中,第二展示单元94,还用于:
响应于针对所述感兴趣话题标签的选择操作,确定用户所选择的目标话题标签,并获取与所述目标话题标签相匹配的已发布话题文本;在话题筛选页面的文本展示区域中展示与所述目标话题标签相匹配的已发布话题文本的关键话题内容。
关于装置中的各单元的处理流程、以及各单元之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
对应于图1中的文本分类方法,本公开实施例还提供了另一种计算机设备1000,如图10所示,为本公开实施例提供的计算机设备1000结构示意图,包括:
处理器101、存储器102、和总线103;存储器102用于存储执行指令,包括内存1021和外部存储器1022;这里的内存1021也称内存储器,用于暂时存放处理器101中的运算数据,以及与硬盘等外部存储器1022交换的数据,处理器101通过内存1021与外部存储器1022进行数据交换,当所述计算机设备1000运行时,所述处理器101与所述存储器102之间通过总线103通信,使得所述处理器101执行以下指令:
获取待分类话题文本和至少一个待预测话题标签的标签描述信息;
提取所述待分类话题文本的目标文本特征,并提取每个所述待预测话题标签的标签描述信息的标签描述特征;
确定所述目标文本特征和每个所述标签描述特征之间的标签相关性,得到至少一个标签相关性;
基于所述至少一个标签相关性,在所述至少一个待预测话题标签中确定与所述待分类话题文本相匹配的目标话题标签。
对应于图1中的文本处理方法,本公开实施例还提供了一种计算机设备1100,如图11所示,为本公开实施例提供的计算机设备1100结构示意图,包括:
处理器111、存储器112、和总线113;存储器112用于存储执行指令,包括内存1121和外部存储器1122;这里的内存1121也称内存储器,用于暂时存放处理器111中的运算数据,以及与硬盘等外部存储器1122交换的数据,处理器111通过内存1121与外部存储器1122进行数据交换,当所述计算机设备1100运行时,所述处理器111与所述存储器112之间通过总线113通信,使得所述处理器111执行以下指令:
展示话题文本的操作页面;
接收用户在所述操作页面输入的目标数据,其中,所述目标数据包括:待发布话题文本,或者,感兴趣话题标签;
获取服务器基于所述目标数据确定的筛选结果,其中,所述筛选结果为所述服务器基于上述实施例中所述的文本分类方法对基于所述目标数据确定的待筛选数据进行筛选之后的结果;
在所述操作页面展示所述目标数据和/或所述目标数据的筛选结果。
本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的文本分类、文本处理方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。
本公开实施例还提供一种计算机程序产品,该计算机程序产品承载有程序代码,所述程序代码包括的指令可用于执行上述方法实施例中所述的文本分类、文本处理方法的步骤,具体可参见上述方法实施例,在此不再赘述。
其中,上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应所述以权利要求的保护范围为准。

Claims (22)

1.一种文本分类方法,其特征在于,应用于服务器,包括:
获取待分类话题文本和至少一个待预测话题标签的标签描述信息;
提取所述待分类话题文本的目标文本特征,并提取每个所述待预测话题标签的标签描述信息的标签描述特征;
确定所述目标文本特征和每个所述标签描述特征之间的标签相关性,得到至少一个标签相关性;
基于所述至少一个标签相关性,在所述至少一个待预测话题标签中确定与所述待分类话题文本相匹配的目标话题标签。
2.根据权利要求1所述的方法,其特征在于,所述目标文本特征中包含多个子文本特征,每个子文本特征对应所述待分类话题文本中每个第一单位文本;
所述确定所述目标文本特征和每个所述标签描述特征之间的标签相关性,包括:
基于所述目标文本特征和所述标签描述特征,确定每个所述第一单位文本的相关系数,其中,所述相关系数用于表征该第一单位文本与对应待预测话题标签之间的标签相关程度;
基于每个所述第一单位文本的相关系数,对各个所述第一单位文本的子文本特征进行加权求和计算,并根据计算结果确定所述标签相关性。
3.根据权利要求2所述的方法,其特征在于,所述基于所述目标文本特征和所述标签描述特征,确定每个所述第一单位文本的相关系数,包括:
基于每个所述第一单位文本的子文本特征,确定该第一单位文本的第一子相关系数;
基于所述目标文本特征和所述标签描述特征确定第二子相关系数;
基于所述第一子相关系数和所述第二子相关系数之间的比值确定所述相关系数。
4.根据权利要求3所述的方法,其特征在于,所述基于每个所述第一单位文本的子文本特征,确定该第一单位文本的第一子相关系数,包括:
基于每个所述第一单位文本的子文本特征和预设权重矩阵,确定该第一单位文本的第一权重;
基于所述第一权重确定所述第一子相关系数。
5.根据权利要求3所述的方法,其特征在于,所述标签描述特征中包含多个第二单位文本;
所述基于所述目标文本特征和所述标签描述特征确定第二子相关系数,包括:
基于所述目标文本特征和预设权重矩阵确定各个第一单位文本的第二权重;
基于所述标签描述特征和所述预设权重矩阵确定各个第二单位文本的第三权重;
基于所述第二权重和所述第三权重确定所述第二子相关系数。
6.根据权利要求1所述的方法,其特征在于,所述获取待分类话题文本和至少一个待预测话题标签的标签描述信息,包括:
获取待处理的原始文本数据,并确定所述原始文本数据中所包含的文本类型标识;
基于所述文本类型标识确定所述原始文本数据的数据分割位置,并基于所述数据分割位置对所述原始文本数据进行分割处理,得到所述待分类话题文本和所述标签描述信息。
7.根据权利要求1所述的方法,其特征在于,所述提取所述待分类话题文本的目标文本特征,包括:
确定所述待分类话题文本中每个第一单位文本的目标向量,其中,所述目标向量中的元素用于指示该第一单位文本和每个预设单位文本之间的映射关系;
在所述待分类话题文本中全部第一单位文本的目标向量中提取所述待分类话题文本的关键特征向量,并将所述关键特征向量确定为所述目标文本特征。
8.根据权利要求1所述的方法,其特征在于,所述待分类话题文本包括以下至少之一:话题标题文本、话题摘要文本、话题标签描述文本。
9.根据权利要求1所述的方法,其特征在于,
所述提取所述待分类话题文本的目标文本特征,并提取每个所述待预测话题标签的标签描述信息的标签描述特征,包括:通过文本分类模型中的特征提取层提取所述待分类话题文本的目标文本特征,并提取每个所述待预测话题标签的标签描述信息的标签描述特征;
所述确定所述目标文本特征和每个所述标签描述特征之间的标签相关性,得到至少一个标签相关性,包括:通过文本分类模型中的相关性确定层确定所述目标文本特征和每个所述标签描述特征之间的标签相关性,得到至少一个标签相关性;
所述基于所述至少一个标签相关性,在所述至少一个待预测话题标签中确定与所述待分类话题文本相匹配的目标话题标签,包括:通过文本分类模型中的分类层基于所述至少一个标签相关性,在所述至少一个待预测话题标签中确定与所述待分类话题文本相匹配的目标话题标签。
10.根据权利要求9所述的方法,其特征在于,所述方法还包括:
确定多个训练样本;其中,每个训练样本中包含待预测话题标签和待训练话题文本,每个所述训练样本包含匹配标签,所述匹配标签用于指示所述待预测话题标签和待训练话题文本之间的匹配性;
通过所述多个训练样本对待训练的文本分类模型进行训练,得到所述文本分类模型。
11.根据权利要求10所述的方法,其特征在于,所述通过所述多个训练样本对待训练的文本分类模型进行训练,得到所述文本分类模型,包括:
确定所述多个训练样本中所包含待预测话题标签的第一标签数量,并确定所述待预测话题标签中与所述待训练话题文本相匹配的目标分类标签的第二标签数量;
基于所述第一标签数量、所述第二标签数量、所述匹配标签和所述待训练的文本分类模型对所述多个训练样本的预测结果,确定所述待训练的文本分类模型的目标损失函数值;
根据所述目标损失函数值,调整所述待训练的文本分类模型的模型参数,得到所述文本分类模型。
12.一种文本处理方法,其特征在于,应用于终端设备,包括:
展示话题文本的操作页面;
接收用户在所述操作页面输入的目标数据,其中,所述目标数据包括:待发布话题文本,或者,感兴趣话题标签;
获取服务器基于所述目标数据确定的筛选结果,其中,所述筛选结果为所述服务器基于上述权利要求1至11中任一项所述的文本分类方法对基于所述目标数据确定的待筛选数据进行筛选之后的结果;
在所述操作页面展示所述目标数据和/或所述目标数据的筛选结果。
13.根据权利要求12所述的方法,其特征在于,所述目标数据包含所述待发布话题文本;
所述在所述操作页面展示所述目标数据和/或所述目标数据的筛选结果,包括:
在所述操作页面的第一展示位置展示所述待发布话题文本;
在所述操作页面的第二展示位置展示所述待发布话题文本的发布类型和/或与所述待发布话题文本相匹配的至少一个目标话题标签。
14.根据权利要求13所述的方法,其特征在于,所述方法还包括:
检测用户针对所述操作页面中所展示的所述目标话题标签的标签修改标识的触发操作,对所述目标话题标签执行与用户所触发的标签修改标识相匹配的修改操作,并在所述操作页面中展示修改之后的目标话题标签,其中,所述修改操作包括以下至少之一:新增、删除、修改。
15.根据权利要求12所述的方法,其特征在于,所述目标数据包含所述感兴趣话题标签;所述方法还包括:
在接收用户在所述操作页面输入的感兴趣话题标签之后,检测所述感兴趣话题标签的标签数量是否超过预设数量;
在所述标签数量超过所述预设数量的情况下,展示提示信息;所述提示信息用于指示所述感兴趣话题标签的数量已达到所述预设数量。
16.根据权利要求12所述的方法,其特征在于,所述目标数据包括感兴趣话题标签;所述展示话题文本的操作页面,包括:
响应于用户的话题筛选请求,获取所属于至少一个目标话题类别的预设话题标签;
在所述操作页面中确定每个所述目标话题类别的类别展示区域,并在所述类别展示区域中展示对应目标话题类别和所属于该目标话题类别的预设话题标签。
17.根据权利要求12所述的方法,其特征在于,所述目标数据包括所述感兴趣话题标签;
所述在所述操作页面展示所述目标数据和/或所述目标数据的筛选结果,包括:
在所述操作页面的标题展示区域中展示所述感兴趣话题标签;
在所述操作页面的文本展示区域中展示与每个所述感兴趣话题标签相匹配的已发布话题文本的关键话题内容。
18.根据权利要求17所述的方法,其特征在于,所述方法还包括:
响应于针对所述感兴趣话题标签的选择操作,确定用户所选择的目标话题标签,并获取与所述目标话题标签相匹配的已发布话题文本;
在话题筛选页面的文本展示区域中展示与所述目标话题标签相匹配的已发布话题文本的关键话题内容。
19.一种文本分类装置,其特征在于,应用于服务器,包括:
第一获取单元,用于获取待分类话题文本和至少一个待预测话题标签的标签描述信息;
提取单元,用于提取所述待分类话题文本的目标文本特征,并提取每个所述待预测话题标签的标签描述信息的标签描述特征;
第一确定单元,用于确定所述目标文本特征和每个所述标签描述特征之间的标签相关性,得到至少一个标签相关性;
第二确定单元,用于基于所述至少一个标签相关性,在所述至少一个待预测话题标签中确定与所述待分类话题文本相匹配的目标话题标签。
20.一种文本处理装置,其特征在于,应用于终端设备,包括:
第一展示单元,用于展示话题文本的操作页面;
接收单元,用于接收用户在所述操作页面输入的目标数据,其中,所述目标数据包括:待发布话题文本,或者,感兴趣话题标签;
第二获取单元,用于获取服务器基于所述目标数据确定的筛选结果,其中,所述筛选结果为所述服务器基于上述权利要求1至11中任一项所述的文本分类方法对基于所述目标数据确定的待筛选数据进行筛选之后的结果;
第二展示单元,用于在所述操作页面展示所述目标数据和/或所述目标数据的筛选结果。
21.一种计算机设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至18任意一项所述的文本分类、文本处理方法的步骤。
22.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至18任意一项所述的文本分类、文本处理方法的步骤。
CN202210102790.9A 2022-01-27 2022-01-27 文本分类、文本处理方法、装置、计算机设备及存储介质 Pending CN114443847A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210102790.9A CN114443847A (zh) 2022-01-27 2022-01-27 文本分类、文本处理方法、装置、计算机设备及存储介质
PCT/CN2022/141171 WO2023142809A1 (zh) 2022-01-27 2022-12-22 文本分类、文本处理方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210102790.9A CN114443847A (zh) 2022-01-27 2022-01-27 文本分类、文本处理方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN114443847A true CN114443847A (zh) 2022-05-06

Family

ID=81369779

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210102790.9A Pending CN114443847A (zh) 2022-01-27 2022-01-27 文本分类、文本处理方法、装置、计算机设备及存储介质

Country Status (2)

Country Link
CN (1) CN114443847A (zh)
WO (1) WO2023142809A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116304745A (zh) * 2023-03-27 2023-06-23 济南大学 基于深层次语义信息的文本话题匹配方法及系统
WO2023142809A1 (zh) * 2022-01-27 2023-08-03 北京字节跳动网络技术有限公司 文本分类、文本处理方法、装置、计算机设备及存储介质
CN116992031A (zh) * 2023-08-29 2023-11-03 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备、存储介质及程序产品

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110046231A (zh) * 2018-12-21 2019-07-23 阿里巴巴集团控股有限公司 一种客服信息处理方法、服务器和系统
CN113627447A (zh) * 2021-10-13 2021-11-09 腾讯科技(深圳)有限公司 标签识别方法、装置、计算机设备、存储介质及程序产品
CN113626589A (zh) * 2021-06-18 2021-11-09 电子科技大学 一种基于混合注意力机制的多标签文本分类方法
CN113821589A (zh) * 2021-06-10 2021-12-21 腾讯科技(深圳)有限公司 一种文本标签的确定方法及装置、计算机设备和存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165344A (zh) * 2018-08-06 2019-01-08 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN109918653B (zh) * 2019-02-21 2020-08-18 腾讯科技(深圳)有限公司 确定文本数据的关联话题及模型的训练方法、装置和设备
CN113064964A (zh) * 2021-03-22 2021-07-02 广东博智林机器人有限公司 文本分类方法、模型训练方法、装置、设备以及存储介质
CN113778295B (zh) * 2021-09-28 2023-08-08 北京字跳网络技术有限公司 一种书籍推荐方法、装置、计算机设备及存储介质
CN114443847A (zh) * 2022-01-27 2022-05-06 北京字节跳动网络技术有限公司 文本分类、文本处理方法、装置、计算机设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110046231A (zh) * 2018-12-21 2019-07-23 阿里巴巴集团控股有限公司 一种客服信息处理方法、服务器和系统
CN113821589A (zh) * 2021-06-10 2021-12-21 腾讯科技(深圳)有限公司 一种文本标签的确定方法及装置、计算机设备和存储介质
CN113626589A (zh) * 2021-06-18 2021-11-09 电子科技大学 一种基于混合注意力机制的多标签文本分类方法
CN113627447A (zh) * 2021-10-13 2021-11-09 腾讯科技(深圳)有限公司 标签识别方法、装置、计算机设备、存储介质及程序产品

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023142809A1 (zh) * 2022-01-27 2023-08-03 北京字节跳动网络技术有限公司 文本分类、文本处理方法、装置、计算机设备及存储介质
CN116304745A (zh) * 2023-03-27 2023-06-23 济南大学 基于深层次语义信息的文本话题匹配方法及系统
CN116304745B (zh) * 2023-03-27 2024-04-12 济南大学 基于深层次语义信息的文本话题匹配方法及系统
CN116992031A (zh) * 2023-08-29 2023-11-03 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备、存储介质及程序产品
CN116992031B (zh) * 2023-08-29 2024-01-09 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备、存储介质及程序产品

Also Published As

Publication number Publication date
WO2023142809A1 (zh) 2023-08-03

Similar Documents

Publication Publication Date Title
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN105824959B (zh) 舆情监控方法及系统
CN103678335B (zh) 商品标识标签的方法、装置及商品导航的方法
CN109740152B (zh) 文本类目的确定方法、装置、存储介质和计算机设备
CN110188197B (zh) 一种用于标注平台的主动学习方法及装置
CN114443847A (zh) 文本分类、文本处理方法、装置、计算机设备及存储介质
CN112395506A (zh) 一种资讯推荐方法、装置、电子设备和存储介质
CN111324771B (zh) 视频标签的确定方法、装置、电子设备及存储介质
CN106651696B (zh) 一种近似题推送方法及系统
CN111259173B (zh) 一种搜索信息推荐方法及装置
CN107357793A (zh) 信息推荐方法和装置
WO2023108980A1 (zh) 基于文本对抗样例的信息推送方法及装置
CN111191112A (zh) 一种电子读物数据处理方法、装置及存储介质
CN111666766A (zh) 数据处理方法、装置和设备
CN114971730A (zh) 文案素材提取方法及其装置、设备、介质、产品
CN111859967A (zh) 实体识别方法、装置,电子设备
CN103853797B (zh) 一种基于n元图片索引结构的图片检索方法与系统
CN114328798B (zh) 搜索文本的处理方法、装置、设备、存储介质和程序产品
CN108345694B (zh) 一种基于主题数据库的文献检索方法及系统
CN116629258B (zh) 基于复杂信息项数据的司法文书的结构化分析方法及系统
CN115270790A (zh) 一种基于大数据的样本标识方法、设备及介质
CN111831884B (zh) 一种基于信息查找的匹配系统与方法
CN112989811B (zh) 一种基于BiLSTM-CRF的历史典籍阅读辅助系统及其控制方法
CN115269846A (zh) 文本处理方法、装置、电子设备及存储介质
CN111831885B (zh) 一种互联网信息检索系统与方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Applicant after: Douyin Vision Co.,Ltd.

Address before: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Applicant before: Tiktok vision (Beijing) Co.,Ltd.

Address after: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Applicant after: Tiktok vision (Beijing) Co.,Ltd.

Address before: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Applicant before: BEIJING BYTEDANCE NETWORK TECHNOLOGY Co.,Ltd.