CN112100385A - 单标签文本分类方法、计算设备和计算机可读存储介质 - Google Patents
单标签文本分类方法、计算设备和计算机可读存储介质 Download PDFInfo
- Publication number
- CN112100385A CN112100385A CN202011249791.3A CN202011249791A CN112100385A CN 112100385 A CN112100385 A CN 112100385A CN 202011249791 A CN202011249791 A CN 202011249791A CN 112100385 A CN112100385 A CN 112100385A
- Authority
- CN
- China
- Prior art keywords
- word
- samples
- sample
- field
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0623—Item investigation
- G06Q30/0625—Directed, with specific intent or strategy
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Databases & Information Systems (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Development Economics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种单标签文本分类方法、计算设备和计算机可读存储介质。该方法包括:基于用户行为数据和商品数据构建样本集合,其中所述样本集合包括多个样本,每个样本包括指示文本的第一字段和指示单个标签的第二字段;对每个样本的第一字段进行分词,以获得至少一个特征词,并且基于所述第二字段和所述至少一个特征词获取所述样本的格式化样本;基于所述多个样本的多个格式化样本训练第一神经网络模型;基于所述第二字段将所述多个格式化样本分成多个分组;以及对于每个分组,基于所述分组中的至少一个特征词的平均词向量确定第二神经网络模型。利用多个来源的数据构建大数据量的训练样本集并且利用组合模型降低了对线上系统的性能损耗。
Description
技术领域
本公开概括而言涉及机器学习领域,更具体地,涉及一种单标签文本分类方法、计算设备和计算机可读存储介质。
背景技术
当前,已经提出了各种基于机器学习的方法对诸如文本、图片之类的对象进行分类。这些分类方法通常需要大数据量对神经网络模型进行训练,以将各种对象分为多个类别。然而,在一些情况下,例如在电商搜索场景下,待分类文本(搜索词)通常是单标签文本,常常面临数据体量不足,数据噪声过大等问题。特别是在系统冷启动等场景下,用户行为数据不足。在这种条件下,如何去构建一个有效的数据集是产出有效模型,达到精准文本分类的基石。
此外,常规的分类方法通常采用深度网络模型,由于网络层次过深,结构复杂,参数繁多,导致模型部署到线上会造成一定程度的性能损耗,这部分损耗对于响应时间敏感的系统(比如搜索、推荐系统等)带来的负面影响是不可忽视的。
进一步地,在数据体量小的场景下,单模型的分类方案使整个分类算法完全依赖单个模型的质量,缺乏健壮性。
发明内容
针对上述问题中的至少一个,本公开提供了一种单标签文本分类方案,通过利用多个来源的数据构建大数据量的训练样本集来对网络模型进行训练,并且利用浅层神经网络模型或其与传统神经网络模型的组合来降低模型对线上系统的性能损耗并提高模型的健壮性。
根据本公开的一个方面,提供了一种单标签文本分类方法。该方法包括:基于用户行为数据和商品数据构建样本集合,其中所述样本集合包括多个样本,每个样本包括指示文本的第一字段和指示单个标签的第二字段;对每个样本的第一字段进行分词,以获得至少一个特征词,并且基于所述第二字段和所述至少一个特征词获取所述样本的格式化样本;基于所述多个样本的多个格式化样本训练第一神经网络模型;基于所述第二字段将所述多个格式化样本分成多个分组;以及对于每个分组,基于所述分组中的至少一个特征词的平均词向量确定第二神经网络模型。利用多个来源的数据构建大数据量的训练样本集并且利用组合模型降低了对线上系统的性能损耗。
根据本公开的另一个方面,提供了一种计算设备。该计算设备包括:至少一个处理器;以及至少一个存储器,该至少一个存储器被耦合到该至少一个处理器并且存储用于由该至少一个处理器执行的指令,该指令当由该至少一个处理器执行时,使得该计算设备执行根据上述方法的步骤。
根据本公开的再一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序代码,该计算机程序代码在被运行时执行如上所述的方法。
附图说明
通过参考下列附图所给出的本公开的具体实施方式的描述,将更好地理解本公开,并且本公开的其他目的、细节、特点和优点将变得更加显而易见。
图1示出了用于实现根据本公开的实施例的单标签分类方法的系统的示意图。
图2示出了根据本公开的一些实施例的单标签文本分类方法的流程图。
图3示出了根据本发明实施例的用于构建样本集合的步骤的流程图。
图4示出了根据本发明实施例的获取格式化样本的步骤的流程图。
图5示出了对第一神经网络模型进行训练的步骤的流程图。
图6示出了FastText模型的示意图。
图7示出了对第二神经网络模型进行训练的步骤的流程图。
图8示出了根据本发明实施例的利用训练后的神经网络模型对待分类文本进行分类的步骤的流程图。
图9示出了适合实现本公开的实施例的计算设备的结构方框图。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整的传达给本领域的技术人员。
在下文的描述中,出于说明各种发明的实施例的目的阐述了某些具体细节以提供对各种发明实施例的透彻理解。但是,相关领域技术人员将认识到可在无这些具体细节中的一个或多个细节的情况来实践实施例。在其它情形下,与本申请相关联的熟知的装置、结构和技术可能并未详细地示出或描述从而避免不必要地混淆实施例的描述。
除非语境有其它需要,在整个说明书和权利要求中,词语“包括”和其变型,诸如“包含”和“具有”应被理解为开放的、包含的含义,即应解释为“包括,但不限于”。
在整个说明书中对“一个实施例”或“一些实施例”的提及表示结合实施例所描述的特定特点、结构或特征包括于至少一个实施例中。因此,在整个说明书的各个位置“在一个实施例中”或“在一些实施例”中的出现不一定全都指相同实施例。另外,特定特点、结构或特征可在一个或多个实施例中以任何方式组合。
此外,说明书和权利要求中所用的第一、第二等术语,仅仅出于描述清楚起见来区分各个对象,而并不限定其所描述的对象的大小或其他顺序等。
图1示出了用于实现根据本公开的实施例的单标签分类方法的系统1的示意图。如图1中所示,系统1包括用户终端10、计算设备20、服务器30和网络40。用户终端10、计算设备20和服务器30可以通过网络40进行数据交互。这里,每个用户终端10可以是终端用户的移动或固定终端,如手机、平板电脑、台式机等。用户终端10例如可以通过其上安装的电商企业应用程序或特定搜索引擎与电商企业的服务器30通信,以向服务器30发送信息和/或从服务器30接收信息。计算设备20基于来自用户终端10和/或服务器30的数据执行相应的操作。计算设备20可以包括至少一个处理器210和与该至少一个处理器210耦合的至少一个存储器220,该存储器220中存储有可由该至少一个处理器210执行的指令230,该指令230在被该至少一个处理器210执行时执行如下所述的方法100的至少一部分。注意,在本文中,计算设备20可以是服务器30的一部分或者可以独立于服务器30。计算设备20或服务器30的具体结构例如可以如下结合图8所述。
图2示出了根据本公开的一些实施例的单标签文本分类方法100的流程图。方法100例如可以由图1中所示的系统1中的计算设备20或服务器30执行。以下以在计算设备20中执行为例,结合图1至图8对方法100进行描述。
如图2中所示,方法100包括步骤110,其中计算设备20基于用户行为数据和商品数据构建样本集合。该样本集合可以包括多个样本,每个样本包括指示文本的第一字段和指示单个标签的第二字段。更具体地,该样本集合可以包括基于用户行为数据的第一样本集合和基于商品数据的第二样本集合。
图3示出了根据本发明实施例的用于构建样本集合的步骤110的流程图。
如图3中所示,步骤110可以包括子步骤112,其中计算设备20基于用户行为数据构建第一样本集合Duser。这里,用户行为是指用户通过特定搜索引擎在服务器30中执行搜索的行为,用户行为数据包括用户进行搜索时输入的搜索词和基于该搜索词得到的搜索结果。
第一样本集合Duser包括多个第一样本duser,每个第一样本duser的第一字段包括用户搜索词,第二字段包括与基于该用户搜索词的搜索结果相关的商品的类别。
在一些实施例中,基于该用户搜索词的搜索结果相关的商品的类别可以包括以下各项中的任一项:
基于该用户搜索词的搜索结果中被用户点击的商品的类别;
基于该用户搜索词的搜索结果中被用户加入购物车的商品的类别;以及
基于该用户搜索词的搜索结果中被用户购买的商品的类别。
例如,假设用户输入搜索词“开关”,浏览器返回大量商品的列表作为搜索结果。当用户发现这些商品中明显没有命中的商品时,他可能不会点击列表中的任何商品而是重新更换搜索词。在这种情况下,对于该搜索词“开关”,将不会产生第一样本。
另一方面,当用户发现这些商品中存在着可能命中的商品时,他可能点击某个商品以查看其详情。在这种情况下,将产生一个第一样本duser,其中该第一样本duser的第一字段包括用户搜索词“开关”,第二字段包括用户点击的商品的类别(如利用产线表示的类别“电气低压配电”)。
进一步地,当用户发现所点击的商品符合其需求从而将其加入购物车或者进一步购买时,可以产生另一个第一样本duser,其中该第一样本duser的第一字段包括用户搜索词“开关”,第二字段包括用户加入购物车或者购买的商品的类别(如利用产线表示的类别“电气低压配电”)。
也就是说,基于用户的一次搜索操作后的不同行为,可能产生一个或多个第一样本duser,也可能不产生第一样本duser。例如,假设用户输入某个检索词之后返回100个商品的列表,用户对其中的5个商品执行了“点击”行为以查看其详情,则将产生5个第一样本duser。如果用户进一步将5个商品中的3个商品加入了购物车,则将进一步产生3个第一样本duser。继而,如果用户最终购买了这3个商品中的1个商品,则将进一步产生1个第一样本duser。对于用户的这一次搜索过程,产生了9(=5+3+1)个第一样本duser。
步骤110还包括子步骤114,其中计算设备20基于商品数据构建第二样本集合Ddoc。这里,商品数据是指服务器30中存储的商品数据库中的与商品有关的数据,例如商品的类别(产线)、商品的标题(Title)、商品的描述(Description)、商品的品牌(Brand)等中的至少一些。
与第一样本集合Duser类似,第二样本集合Ddoc可以包括多个第二样本ddoc,其中每个第二样本ddoc的第一字段包括商品信息,第二字段包括该第一字段中的商品的类别。也就是说,将商品数据库中的商品数据中的商品的类别单独拆分出来作为第二字段,将其他商品数据中的至少一部分(本文中为区分起见也称为商品信息)作为第一字段。
在一些实施例中,商品信息可以包括以下各项中的任一项:
商品的标题;
商品的标题和描述的组合;
商品的标题和品牌的组合;以及
商品的标题、品牌与描述的组合。
类似地,对于一个商品来说,基于可获得的商品信息的不同,可能产生一个或多个第二样本ddoc。这里,由于商品数据库中记载的商品数据通常至少包含商品的标题和类别,因此对于一个商品将产生至少一个第二样本ddoc。
接下来,在子步骤116,计算设备20组合子步骤112得到的第一样本集合Duser和子步骤114得到的第二样本集合Ddoc以构建完整的样本集合Dall。例如,计算设备可以将第一样本集合Duser中的所有第一样本duser和第二样本集合Ddoc中的所有第二样本ddoc随机排列(例如使用shuffle函数)以产生所需的样本集合Dall。
此外,还可以对样本集合Dall中的所有样本进行预处理,例如将所有英文字母都统一为大写或小写字母、将所有汉字都统一为简体汉字、将所有符号都统一为半角符号等,以方便后续的进一步处理。
对于本发明所述的单标签文本分类方法,在用户行为数据有限的情况下,通过利用商品数据库中预先存储的商品数据来扩充样本集合,能够得到相对大数据量的训练和测试数据。
接下来,在步骤120,计算设备20对样本集合Dall中的每个样本的第一字段进行分词,以获得至少一个特征词,并且基于该第二字段和该至少一个特征词获取该样本的格式化样本。
图4示出了根据本发明实施例的获取格式化样本的步骤120的流程图。
如图4中所示,步骤120可以包括子步骤122,其中计算设备20对一个样本的第一字段进行分词,以获得一个或多个特征词Token1、Token2、……。
分词是指将连续的中文字序列按照一定的规范重新组合成词序列的过程。在一种实施例中,在子步骤122中,可以基于定制化分词器对样本的第一字段进行分词,其中该定制化分词器与商品的领域相关联。也就是说,对于不同的文本分类领域,可以使用与商品领域相关的不同的分词器。对于一个中文字序列来说,其分词方式可能有多种,如果选择任意分词器对其进行分词,获得的分词结果可能会差别很大,甚至完全不符合商品信息逻辑。因此,这里利用定制化的分词器对样本的第一字段进行分词,能够得到更加准确的分词结果。
接下来,在子步骤124,计算设备20可以确定子步骤122分词得到的一个或多个特征词中Token1、Token2、……是否包含指示商品型号的特征词。
如果确定子步骤122分词得到的一个或多个特征词中包含指示商品型号的特征词(子步骤124的判断为“是”),则在子步骤126,从子步骤122分词得到一个或多个特征词中去除指示商品型号的特征词,从而获取所需的至少一个特征词(子步骤128)。
另一方面,如果确定子步骤122分词得到的一个或多个特征词中不包含指示商品型号的特征词(子步骤124的判断为“否”),则直接将子步骤122分词得到一个或多个特征词作为所需的至少一个特征词(子步骤128)。
在电商搜索领域,尤其是工业品电商搜索领域,商品信息中可能包含大量关于商品型号的文本,这些文本通常由字母和数字组成,这些商品型号的文本通常仅用于商品生产者或销售者记录或区分商品之用,包含的语义信息很少,因此可以移除特征词中的商品型号(如数字英文组合,如YG-415或YG415等)。
表1示出了根据本发明一些实施例的格式化样本的列表(仅示例性地列出了16个样本)。如表1中所示,每个格式化样本的第二字段指示该样本的商品的类别,其仅包含单个标签,每个格式化样本的第一字段包括该样本的多个特征词Token1、Token2……Token6。注意,表1中示例性地示出了最多6个特征词,但是在实际使用中,每个样本可以包含更多的特征词。或者,在步骤120分词得到的特征词超过最大值(如6个)的情况下,可以对这些特征词进一步筛选(如删除表示计量单位或数量的特征词等),以保留最多6个特征词。
继续方法100,在步骤130,计算设备20基于步骤120获取的多个样本的格式化样本训练第一神经网络模型。
具体地,在本发明的一些实施例中,第一神经网络模型可以包括FastText模型,其是一个浅层网络模型,网络层次少,结构简单,模型部署比较容易。
图5示出了对第一神经网络模型进行训练的步骤130的流程图。图6示出了FastText模型600的示意图。
如图5中所示,步骤130可以包括子步骤132,其中将步骤120得到的每个格式化样本的第二字段和至少一个特征词的词向量输入FastText模型。如图6中所示,每个格式化样本的第二字段(即商品的类别)和每个特征词的词向量Vi(i=1, 2, ……, N,其中N等于该格式化样本的特征词的数量)输入FastText模型600的输入层610。
这里,一个特征词的词向量是基于该特征词和预定的N-gram特征得到。词向量(word embedding)是指将一个自然语言的词(或短语)转换为一个实数空间的向量。这里,通过以预定的N-gram特征对该特征词进行转换得到该特征词的词向量。这里,N-gram特征是指以特征词中的N个相邻字作为集合对整个特征词进行切分。例如,对于N=2,是对该特征词中的2个相邻字依次对特征词(可以包括开始符和结束符)进行切分,以计算该特征词的词向量。
接下来,在子步骤134,在FastText模型600的Hidden层620,对该格式化样本的至少一个特征词的词向量进行累加平均以获得每个格式化样本的平均词向量。一个格式化样本的平均词向量可以表示为:
在子步骤136,在FastText模型600的输出层630,利用分层函数(HierarchicalSoftmax)对该格式化样本的平均词向量hidden进行运算以产生训练后的FastText模型600和一个词向量字典。
通过利用多个样本对原始的FastText模型600进行训练,得到了训练后的FastText模型600,并且该训练过程还产生了指示样本的特征词和该特征词的词向量的列表作为一个词向量字典。
如前所述,该第一神经网络模型是一个浅层网络,其可以使用较少的数据量进行训练。然而,在一些情况下,这样训练得到的神经网络模型的预测准确度不能得到保证。在这种情况下,本发明的方案还引入第二神经网络模型以进一步增强预测准确度。
为此,在方法100的步骤140,计算设备20基于第二字段(即商品的类别)将多个格式化样本分成多个分组。例如,如表1所示的格式化字段的示例中,格式化样本5、6、7的商品类别均为紧固密封件,因此这些样本被分为一个分组。对于其他商品类别,由于每个商品类别仅包含一个样本,因此每个样本分别构成一个分组。因此,对于表1所列出的特定实例,16个格式化样本被划分成14个分组。注意,在表1的示例中,由于样本数量较少且比较分散,因此分组数量与样本数量相差不大,但在实际的更多样本(如几百个或几千个样本)的情况下,分组数量会大大小于样本数量。
接下来,在步骤150,对于每个分组,基于该分组中的至少一个特征词的平均词向量确定第二神经网络模型。
具体地,在本发明的一些实施例中,第二神经网络模型可以包括KNN(K- NearestNeighbor,K近邻)模型,其是一个传统模型,其分类原理是对于任意一个新的样本,将其分类为与该样本距离最近的K个样本中类别最多的那个类别。
图7示出了对第二神经网络模型进行训练的步骤150的流程图。
如图7中所示,步骤150可以包括子步骤152,其中计算设备20确定每个分组所包含的格式化样本的第一字段的多个特征词集合。如前所述,每个格式化样本的第一字段可以包括一个或多个特征词。如表1中所示,对于格式化样本1,其第一字段包括5个特征词:碳素、穿线管、内、带、铁丝,这5个特征词构成一个特征词集合S1——{碳素 穿线管 内 带 铁丝}。对于格式化样本2,其第一字段包括两个特征词:螺纹、车刀,这2个特征词构成一个特征词集合S2——{螺纹 车刀}。……对于格式化样本15,其第一字段包括5个特征词:穿线管、碳素、内、带、铁丝,这5个特征词构成的特征词集合同样为S1{碳素 穿线管 内 带 铁丝}。
接下来,在子步骤154,确定子步骤152所确定的多个特征词集合的出现频次。例如,对于上述特征词集合S1{碳素 穿线管 内 带 铁丝},其在多个格式化样本中出现了2次,因此其频次为2。也就是说,特征词集合的频次是指所有格式化样本中的每个特征词集合分别出现的次数。这里,根据集合的概念,包含相同元素但是元素顺序不同的集合被视为一个特征词集合。
接下来,在子步骤156,计算设备20选择多个特征词集合中出现频次最高的一定数量的特征词集合,并且在子步骤158,确定所选择的若干个特征词集合中的每个特征词集合的平均词向量。例如,可以选择出现频次最高的32个特征词集合,并且确定这32个特征词集合中的每个特征词集合的平均词向量。
这里,如上面子步骤134中所述,每个特征词集合的平均词向量是通过对该特征词集合中的所有特征词的词向量求平均得到。每个特征词的词向量可以通过上述子步骤132中的方式得到,也可以通过查询第一神经网络模型训练产生的词向量字典得到。
这样计算得到的特征词集合的平均词向量被存储作为KNN模型的参数以供后续使用。
通过上述步骤110至150,构建了合适数量的样本集合,并且对两个神经网络模型分别进行了训练,产生了训练后的神经网络模型。方法100还可以包括步骤160(图2中未示出),其中计算设备20利用该训练后的神经网络模型,对任何待分类的文本进行处理以得到该文本的正确分类。
图8示出了根据本发明实施例的利用训练后的神经网络模型对待分类文本进行分类的步骤160的流程图。
如图8中所示,在步骤160的子步骤161,计算设备20获取待分类文本。这里,在本发明所针对的电商搜索环境下,待分类文本可以指示用户输入的搜索词。该搜索词可以是一个或多个词语或短语的组合。
接下来,在子步骤162,计算设备20对待分类文本进行分词以获得待分类文本的特征词。这里,对待分类文本进行分词的方法与上述结合步骤120所述的相同,在此不再赘述。
在子步骤163,计算设备20基于待分类文本的特征词和训练后的第一神经网络模型600确定该待分类文本的第一预测分类和相应的置信度。
与上述结合图5所述的步骤130类似,在子步骤163中,可以将待分类的文本的特征词的词向量Vi输入训练后的FastText模型600的输入层610。接下来,在FastText模型600的Hidden层620,对该待分类文本的特征词的词向量进行累加平均以获得待分类文本的平均词向量。在FastText模型600的输出层630,利用分层函数对该待分类文本的平均词向量进行运算得到待分类文本的分类标签(第一预测分类)和对应的置信度。
在一些情况下,由于第一神经网络是浅层网络以及训练样本数量不足,可能使得得到的第一预测分类不够准确。在这种情况下,步骤160还可以包括子步骤164,其中确定该第一预测分类的置信度是否大于置信度阈值。假设置信度阈值为0.3,这表示置信度大于0.3的预测分类被认为是准确的,而置信度小于0.3的预测分类被认为是不准确的。
如果该第一预测分类的置信度大于该置信度阈值(子步骤164的判断为“是”),则在子步骤165,计算设备20确定待分类文本的分类为该第一预测分类。
另一方面,如果该第一预测分类的置信度小于或等于该置信度阈值(子步骤164的判断为“否”),则在子步骤166,计算设备20基于该第一神经网络模型确定待分类文本的特征词的词向量平均值Qtokens。如前所述,在对第一神经网络模型进行训练之后,还将产生一个词向量字典。因此,在子步骤166,可以查询该词向量字典得到每个特征词的词向量,并对待分类文本的所有特征词的词向量求平均来得到其词向量平均值Qtokens。或者,也可以按照上述子步骤132中所述的方式得到每个特征词的词向量并对所有特征词的词向量求平均来得到其词向量平均值Qtokens。
接下来,在子步骤167,基于待分类文本的特征词的词向量平均值Qtokens和训练后的第二神经网络模型确定待分类文本与训练后的第二神经网络模型中的各个分组的得分。具体地,如上结合步骤150所述,可以确定待分类文本的特征词的词向量平均值Qtokens与第二神经网络模型KNN中的每个分组的各个特征词的余弦距离,并且从每个分组的各个特征词的余弦距离中选择最小的余弦距离作为该分组的得分Scorei。
在子步骤168,选择各个分组的得分Scorei中的最小值对应的分组,作为该待分类文本的第二预测分类。
图9示出了适合实现本公开的实施例的计算设备900的结构方框图。计算设备900例如可以是如上所述的计算设备20或服务器30。
如图9中所示,计算设备900可以包括一个或多个中央处理单元(CPU)910(图中仅示意性地示出了一个),其可以根据存储在只读存储器(ROM)920中的计算机程序指令或者从存储单元980加载到随机访问存储器(RAM)930中的计算机程序指令,来执行各种适当的动作和处理。在随机访问存储器(RAM)930中,还可存储计算设备900操作所需的各种程序和数据。中央处理单元(CPU)910、只读存储器(ROM)920以及随机访问存储器(RAM)930通过总线940彼此相连。输入/输出(I/O)接口950也连接至总线940。
计算设备900中的多个部件连接至输入/输出(I/O)接口950,包括:输入单元960,例如键盘、鼠标等;输出单元970,例如各种类型的显示器、扬声器等;存储单元980,例如磁盘、光盘等;以及通信单元990,例如网卡、调制解调器、无线通信收发机等。通信单元990允许计算设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
上文所描述的方法100例如可由计算设备900(如计算设备20或服务器30)的中央处理单元(CPU)910执行。例如,在一些实施例中,方法100可被实现为计算机软件程序,其被有形地包括于机器可读介质,例如存储单元980。在一些实施例中,计算机程序的部分或者全部可以经由只读存储器(ROM)920和/或通信单元990而被载入和/或安装到计算设备900上。当计算机程序被加载到随机访问存储器(RAM)930并由中央处理单元(CPU)910执行时,可以执行上文描述的方法100的一个或多个操作。此外,通信单元990可以支持有线或无线通信功能。
本领域技术人员可以理解,图9所示的计算设备900仅是示意性的。在一些实施例中,计算设备20或服务器30可以包含比计算设备900更多或更少的部件。
实验结果:
本发明的发明人分别以仅包含用户行为数据的第一样本集合和包含用户行为数据和商品数据组合的样本集合作为数据来源,其中训练样本数据量为8904290,测试样本的数据量为2226072。以仅第一神经网络模型FastText和第一神经网络模型FastText与第二神经网络模型KNN结合对多个测试样本进行了测试,测试结果如下表2所示。
根据该测试结果可以看出,通过使用商品数据扩充样本集合,分类准确率提升了8%左右,通过将FastText模型与KNN模型结合,与仅使用FastText模型相比,分类准确率也有至少3%的提升,因此最佳方案(数据来源包括用户行为数据和商品数据,使用FastText模型与KNN模型结合)的分类准确率将有11%的提升。
以上结合附图对根据本发明的单标签文本分类方法100以及可用作计算设备20或服务器30的计算设备900进行了描述。然而本领域技术人员可以理解,方法100的步骤的执行并不局限于图中所示和以上所述的顺序,而是可以以任何其他合理的顺序来执行。此外,计算设备900也不必须包括图9中所示的所有组件,其可以仅仅包括执行本发明中所述的功能所必须的其中一些组件,并且这些组件的连接方式也不局限于图中所示的形式。
本公开可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本公开的各个方面的计算机可读程序指令。
在一个或多个示例性设计中,可以用硬件、软件、固件或它们的任意组合来实现本公开所述的功能。例如,如果用软件来实现,则可以将所述功能作为一个或多个指令或代码存储在计算机可读介质上,或者作为计算机可读介质上的一个或多个指令或代码来传输。
本文公开的装置的各个单元可以使用分立硬件组件来实现,也可以集成地实现在一个硬件组件,如处理器上。例如,可以用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或者晶体管逻辑、分立硬件组件或用于执行本文所述的功能的任意组合来实现或执行结合本公开所描述的各种示例性的逻辑块、模块和电路。
本领域普通技术人员还应当理解,结合本公开的实施例描述的各种示例性的逻辑块、模块、电路和算法步骤可以实现成电子硬件、计算机软件或二者的组合。
本公开的以上描述用于使本领域的任何普通技术人员能够实现或使用本公开。对于本领域普通技术人员来说,本公开的各种修改都是显而易见的,并且本文定义的一般性原理也可以在不脱离本公开的精神和保护范围的情况下应用于其它变形。因此,本公开并不限于本文所述的实例和设计,而是与本文公开的原理和新颖性特性的最广范围相一致。
Claims (13)
1.一种单标签文本分类方法,包括:
基于用户行为数据和商品数据构建样本集合,其中所述样本集合包括多个样本,每个样本包括指示文本的第一字段和指示单个标签的第二字段;
对每个样本的第一字段进行分词,以获得至少一个特征词,并且基于所述第二字段和所述至少一个特征词获取所述样本的格式化样本;
基于所述多个样本的多个格式化样本训练第一神经网络模型;
基于所述第二字段将所述多个格式化样本分成多个分组;以及
对于每个分组,基于所述分组中的至少一个特征词的平均词向量确定第二神经网络模型。
2.如权利要求1所述的方法,其中所述样本集合包括第一样本集合和第二样本集合,并且其中基于用户行为数据和商品数据构建样本集合包括:
基于所述用户行为数据构建所述第一样本集合,其中所述第一样本集合包括多个第一样本,每个第一样本的第一字段包括用户搜索词,所述第一样本的第二字段包括与基于所述用户搜索词的搜索结果相关的商品的类别;
基于所述商品数据构建第二样本集合,其中所述第二样本集合包括多个第二样本,每个第二样本的第一字段包括商品信息,所述第二样本的第二字段包括所述第一字段中的商品的类别;以及
组合所述第一样本集合和所述第二样本集合以构建所述样本集合。
3.如权利要求2所述的方法,其中所述第一样本的第二字段包括以下各项中的任一项:
基于所述用户搜索词的搜索结果中被用户点击的商品的类别;
基于所述用户搜索词的搜索结果中被用户加入购物车的商品的类别;以及
基于所述用户搜索词的搜索结果中被用户购买的商品的类别。
4.如权利要求2所述的方法,其中每个第二样本的第一字段包括以下各项中的任一项:
所述商品的标题;
所述商品的标题和描述的组合;
所述商品的标题和品牌的组合;以及
所述商品的标题、品牌与描述的组合。
5.如权利要求1所述的方法,其中对每个样本的第一字段进行分词,以获得至少一个特征词包括:
对所述样本的第一字段进行分词,以获得一个或多个特征词;
确定所述一个或多个特征词中是否包含指示商品型号的特征词;以及
如果确定所述一个或多个特征词中包含指示商品型号的特征词,从所述一个或多个特征词中去除指示商品型号的特征词以获取所述至少一个特征词。
6.如权利要求5所述的方法,其中对所述样本的第一字段进行分词包括:
基于定制化分词器对所述第一字段进行分词,其中所述定制化分词器与所述商品的领域相关联。
7.如权利要求1所述的方法,其中所述第一神经网络模型包括FastText模型,并且其中基于所述多个样本的多个格式化样本训练第一神经网络模型包括:
将每个格式化样本的所述第二字段和所述至少一个特征词的词向量输入所述FastText模型,其中所述词向量基于所述特征词和预定的N-gram特征得到;
对所述至少一个特征词的词向量进行累加平均以获得每个格式化样本的平均词向量;以及
利用分层函数对所述格式化样本的平均词向量进行运算以产生训练的FastText模型和一个词向量字典。
8.如权利要求1所述的方法,其中所述第二神经网络模型包括KNN模型,并且其中基于所述分组中的至少一个特征词的平均词向量确定第二神经网络模型包括:
确定每个分组所包含的格式化样本的第一字段的多个特征词集合;
确定所述多个特征词集合的出现频次;
选择所述多个特征词集合中出现频次最高的若干个特征词集合;以及
确定所述若干个特征词集合中的每个特征词集合的平均词向量,其中每个特征词集合的平均词向量通过对所述特征词集合中的特征词的词向量求平均得到。
9.如权利要求1所述的方法,还包括:
获取待分类文本,所述待分类文本指示用户输入的搜索词;
对所述待分类文本进行分词以获得所述待分类文本的特征词;以及
基于所述待分类文本的特征词和所述第一神经网络模型确定所述待分类文本的第一预测分类和所述第一预测分类的置信度。
10.如权利要求9所述的方法,还包括:
确定所述第一预测分类的置信度是否大于置信度阈值;
响应于所述第一预测分类的置信度小于或等于所述置信度阈值,基于所述第一神经网络模型确定所述待分类文本的特征词的词向量平均值;
基于所述待分类文本的特征词的词向量平均值和所述第二神经网络模型确定所述待分类文本与所述第二神经网络模型中的各个分组的得分;以及
选择所述各个分组的得分中的最小值对应的分组,作为所述待分类文本的第二预测分类。
11.如权利要求10所述的方法,其中基于所述待分类文本的特征词的词向量平均值和所述第二神经网络模型确定所述待分类文本与所述第二神经网络模型中的各个分组的得分包括:
确定所述待分类文本与所述第二神经网络模型中的每个分组的各个特征词的余弦距离;以及
从每个分组的各个特征词的余弦距离中选择最小的余弦距离作为所述分组的得分。
12.一种计算设备,包括:
至少一个处理器;以及
至少一个存储器,所述至少一个存储器被耦合到所述至少一个处理器并且存储用于由所述至少一个处理器执行的指令,所述指令当由所述至少一个处理器执行时,使得所述计算设备执行根据权利要求1至11中任一项所述的方法的步骤。
13.一种计算机可读存储介质,其上存储有计算机程序代码,所述计算机程序代码在被运行时执行如权利要求1至11中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011249791.3A CN112100385B (zh) | 2020-11-11 | 2020-11-11 | 单标签文本分类方法、计算设备和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011249791.3A CN112100385B (zh) | 2020-11-11 | 2020-11-11 | 单标签文本分类方法、计算设备和计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112100385A true CN112100385A (zh) | 2020-12-18 |
CN112100385B CN112100385B (zh) | 2021-02-09 |
Family
ID=73785082
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011249791.3A Active CN112100385B (zh) | 2020-11-11 | 2020-11-11 | 单标签文本分类方法、计算设备和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112100385B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113220801A (zh) * | 2021-05-17 | 2021-08-06 | 支付宝(杭州)信息技术有限公司 | 一种结构化数据分类方法、装置、设备及介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11869015B1 (en) | 2022-12-09 | 2024-01-09 | Northern Trust Corporation | Computing technologies for benchmarking |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102938123A (zh) * | 2012-10-24 | 2013-02-20 | 江苏乐买到网络科技有限公司 | 一种向用户推荐商品信息的方法 |
CN110135463A (zh) * | 2019-04-18 | 2019-08-16 | 微梦创科网络科技(中国)有限公司 | 一种商品推送方法及装置 |
CN110717039A (zh) * | 2019-09-17 | 2020-01-21 | 平安科技(深圳)有限公司 | 文本分类方法和装置、电子设备、计算机可读存储介质 |
CN110781307A (zh) * | 2019-11-06 | 2020-02-11 | 北京沃东天骏信息技术有限公司 | 目标物品关键词和标题生成方法、搜索方法以及相关设备 |
CN111078887A (zh) * | 2019-12-20 | 2020-04-28 | 厦门市美亚柏科信息股份有限公司 | 文本分类方法和装置 |
CN111538766A (zh) * | 2020-05-19 | 2020-08-14 | 支付宝(杭州)信息技术有限公司 | 一种文本分类方法、装置、处理设备和票据分类系统 |
-
2020
- 2020-11-11 CN CN202011249791.3A patent/CN112100385B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102938123A (zh) * | 2012-10-24 | 2013-02-20 | 江苏乐买到网络科技有限公司 | 一种向用户推荐商品信息的方法 |
CN110135463A (zh) * | 2019-04-18 | 2019-08-16 | 微梦创科网络科技(中国)有限公司 | 一种商品推送方法及装置 |
CN110717039A (zh) * | 2019-09-17 | 2020-01-21 | 平安科技(深圳)有限公司 | 文本分类方法和装置、电子设备、计算机可读存储介质 |
CN110781307A (zh) * | 2019-11-06 | 2020-02-11 | 北京沃东天骏信息技术有限公司 | 目标物品关键词和标题生成方法、搜索方法以及相关设备 |
CN111078887A (zh) * | 2019-12-20 | 2020-04-28 | 厦门市美亚柏科信息股份有限公司 | 文本分类方法和装置 |
CN111538766A (zh) * | 2020-05-19 | 2020-08-14 | 支付宝(杭州)信息技术有限公司 | 一种文本分类方法、装置、处理设备和票据分类系统 |
Non-Patent Citations (1)
Title |
---|
包友军: "基于多维度特征评论分类的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113220801A (zh) * | 2021-05-17 | 2021-08-06 | 支付宝(杭州)信息技术有限公司 | 一种结构化数据分类方法、装置、设备及介质 |
CN113220801B (zh) * | 2021-05-17 | 2022-07-29 | 支付宝(杭州)信息技术有限公司 | 一种结构化数据分类方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112100385B (zh) | 2021-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7599926B2 (en) | Reputation information processing program, method, and apparatus | |
Rain | Sentiment analysis in amazon reviews using probabilistic machine learning | |
US8412650B2 (en) | Device and method and program of text analysis based on change points of time-series signals | |
CN112100385B (zh) | 单标签文本分类方法、计算设备和计算机可读存储介质 | |
CN105825396B (zh) | 一种基于共现的广告标签聚类的方法及系统 | |
CN108596637B (zh) | 一种电商服务问题自动发现系统 | |
JP5442401B2 (ja) | 行動情報抽出システム及び抽出方法 | |
CN111666757A (zh) | 商品评论情感倾向分析方法、装置、设备和可读存储介质 | |
CN115374845A (zh) | 商品信息推理方法和装置 | |
CN108470065B (zh) | 一种异常评论文本的确定方法及装置 | |
CN117391824B (zh) | 基于大语言模型和搜索引擎推荐物品的方法及装置 | |
CN114610914A (zh) | 一种信息处理方法、装置及电子设备 | |
Yao et al. | Online deception detection refueled by real world data collection | |
CN111523311B (zh) | 一种搜索意图识别方法及装置 | |
CN107291686B (zh) | 情感标识的辨识方法和情感标识的辨识系统 | |
CN111143515B (zh) | 文本匹配方法及装置 | |
CN112016324A (zh) | 一种基于网络评论文本与图片的电商服装缺陷评估方法 | |
CN109284384B (zh) | 文本分析方法、装置、电子设备及可读存储介质 | |
CN111737523A (zh) | 一种视频标签、搜索内容的生成方法及服务器 | |
CN112463966B (zh) | 虚假评论检测模型训练方法、检测方法及装置 | |
Darnoto et al. | Deep Learning for Native Advertisement Detection in Electronic News: A Comparative Study | |
Naresh et al. | Comparative Study of Machine Learning Algorithms for Fake Review Detection with Emphasis on SVM | |
CN113722487A (zh) | 用户情感分析方法、装置、设备及存储介质 | |
CN112307298B (zh) | 个人品牌标签的生成方法及其装置 | |
CN112559685A (zh) | 汽车论坛垃圾评论识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |