CN113761184A - 文本数据的分类方法、设备及存储介质 - Google Patents
文本数据的分类方法、设备及存储介质 Download PDFInfo
- Publication number
- CN113761184A CN113761184A CN202011045862.8A CN202011045862A CN113761184A CN 113761184 A CN113761184 A CN 113761184A CN 202011045862 A CN202011045862 A CN 202011045862A CN 113761184 A CN113761184 A CN 113761184A
- Authority
- CN
- China
- Prior art keywords
- word
- text data
- classification
- vector
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 239000013598 vector Substances 0.000 claims abstract description 315
- 238000011156 evaluation Methods 0.000 claims abstract description 148
- 238000013145 classification model Methods 0.000 claims abstract description 75
- 239000011159 matrix material Substances 0.000 claims abstract description 66
- 230000004927 fusion Effects 0.000 claims abstract description 42
- 238000001914 filtration Methods 0.000 claims abstract description 27
- 230000008569 process Effects 0.000 claims abstract description 21
- 238000012545 processing Methods 0.000 claims abstract description 20
- 238000002372 labelling Methods 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 22
- 230000011218 segmentation Effects 0.000 claims description 13
- 238000012935 Averaging Methods 0.000 claims description 7
- 239000000463 material Substances 0.000 claims description 3
- 238000012423 maintenance Methods 0.000 abstract description 9
- 238000013473 artificial intelligence Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000013441 quality evaluation Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000008570 general process Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 239000012466 permeate Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供一种文本数据的分类方法、设备及存储介质,通过获取待分类的目标物品的评价文本数据,输入预设的分类模型;通过分类模型,获取评价文本数据对应的文本词序列的词向量矩阵,对词向量矩阵分别以不同的滤波单元处理获取第一特征向量和第二特征向量,并融合得到融合特征向量,根据融合特征向量确定评价文本数据的分类结果;根据分类结果对目标物品进行标注和/或将分类结果发送给目标终端设备。本发明实施例通过分类模型实现对评价文本数据的分类,且在分类过程中通过提取评价文本数据的融合特征向量,考虑更多评价文本数据的特征信息,提高对评价文本数据分类的准确率和召回率,降低维护难度,也无需配置繁琐的逻辑规则,便于实施。
Description
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种文本数据的分类方法、设备及存储介质。
背景技术
随着电商平台的发展,网络购物逐渐成为当下流行的元素,商品的售后服务,也由线下向线上转移。消费者可通过电商网络平台进行退换修操作,并将商品质量问题点以文本形式反馈给商家,例如评价文本。由于退换修操作也多种多样,商品质量问题点更是五花八门。电商平台将这些质量问题点归类,再呈现给商家,对于质量问题较多且质量问题严重的商品,取消活动提报、搜索降权,从而驱动商家改良商品质量,为消费者提供高质量商品。
现有技术中,对于目标物品的评价文本数据,通常通过关键词命中的方式进行评价文本数据质量问题分类,主要判断评价文本数据命中某些关键词,从而找到关键词对应的问题类型,进而对评价文本数据进行商品质量问题归类。
现有技术通过关键词命中的方式进行评价文本数据质量问题分类,维护成本高,召回率低,准确率低,并且需要繁琐的逻辑规则才能实现,不便于实施。
发明内容
本发明实施例提供一种文本数据的分类方法、设备及存储介质,用以提高评价文本数据的分类的准确率和召回率,降低维护难度,便于实施。
第一方面,本发明实施例提供一种文本数据的分类方法,包括:
获取待分类的目标物品的评价文本数据,并将所述评价文本数据输入预设的分类模型;
通过所述分类模型,获取所述评价文本数据对应的文本词序列的词向量矩阵,对所述词向量矩阵分别以不同的滤波单元处理获取第一特征向量和第二特征向量,并融合所述第一特征向量和所述第二特征向量得到融合特征向量,根据所述融合特征向量确定所述评价文本数据的分类结果;
根据所述分类结果对所述目标物品进行标注和/或将所述分类结果发送给目标终端设备。
第二方面,本发明实施例提供一种评价文本数据的分类设备,包括:
获取模块,用于获取待分类的目标物品的评价文本数据,并将所述评价文本数据输入预设的分类模型;
分类模块,用于通过所述分类模型,获取所述评价文本数据对应的文本词序列的词向量矩阵,对所述词向量矩阵分别以不同的滤波单元处理获取第一特征向量和第二特征向量,并融合所述第一特征向量和所述第二特征向量得到融合特征向量,根据所述融合特征向量确定所述评价文本数据的分类结果;
输出模块,用于根据所述分类结果对所述目标物品进行标注和/或将所述分类结果发送给目标终端设备。
第三方面,本发明实施例提供一种计算机设备,包括:
存储器,用于存储计算机执行指令;
处理器,用于运行所述存储器中存储的所述计算机执行指令以实现如第一方面所述的方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如第一方面所述的方法。
本发明实施例提供的文本数据的分类方法、设备及存储介质,通过获取待分类的目标物品的评价文本数据,并将所述评价文本数据输入预设的分类模型;通过所述分类模型,获取所述评价文本数据对应的文本词序列的词向量矩阵,对所述词向量矩阵分别以不同的滤波单元处理获取第一特征向量和第二特征向量,并融合所述第一特征向量和所述第二特征向量得到融合特征向量,根据所述融合特征向量确定所述评价文本数据的分类结果;根据所述分类结果对所述目标物品进行标注和/或将所述分类结果发送给目标终端设备。本发明实施例通过分类模型实现对评价文本数据的分类,并且在分类过程中通过提取评价文本数据的融合特征向量,考虑更多的评价文本数据的特征信息,从而提高了对评价文本数据分类的准确率和召回率,并且相对于通过关键词命中的方式进行评价文本数据质量问题分类,不需要维护关键词库,降低维护难度,也无需配置繁琐的逻辑规则,便于实施。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1为本发明实施例提供的文本数据的分类方法的应用场景图;
图2为本发明一实施例提供的文本数据的分类方法的流程图;
图3为本发明另一实施例提供的文本数据的分类方法的流程图;
图4为本发明一实施例提供的分类模型的架构图;
图5为本发明一实施例提供的文本数据的分类设备的结构图;
图6为本发明一实施例提供的执行文本数据的分类方法的计算机设备的结构图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
现有技术中,对于评价文本数据,主要判断评价文本数据命中某些关键词,从而找到关键词对应的问题类型,以对评价文本数据进行商品质量问题归类。通过关键词命中的方式进行评价文本数据质量问题分类,存在一些问题:
首先,关键词库维护成本高,召回率低,电商平台每天都会有大批量的数据流入,商品质量问题的场景也是不断变化,需要耗费大量人力资源从历史文本里提取描述商品质量问题的关键词,并且由于关键词无法穷举,只能覆盖部分场景,造成召回率偏低;其次,该方法准确率低,对于涉及上下文语境语义的场景,单纯使用关键词匹配,将可能导致将质量问题类型分类错误,如将商品的包装问题分为商品的功能问题,甚至会将没有质量问题的商品错判为有质量问题的商品,如由消费者自身原因而非商品质量问题造成的退换修。此外,从开发角度来看,需要写繁琐的逻辑规则实现该方法,最后可能规则爆炸,同样不利于方法迭代。
近些年来人工智能技术有了突破性的进展,已经开始渗透在各个领域,如智能客服、刷脸支付等等,其核心主要通过神经网络模型实现。通过神经网络模型来实现文本分类、情感分析、图像识别等是当下研究的热点问题。因此针对上述技术问题,本实施例中考虑通过文本分类模型实现对评价文本数据的分类,只需要预先训练好分类模型即可,不需要维护关键词库,可降低维护难度,也无需配置繁琐的逻辑规则,便于实施。
其中,考虑到FastText模型作为一种常用的文本分类模型,可以在保持高精度的情况下加快训练速度和测试速度,其通常过程主要包括三步:第一步,对输入文本的词语进行Embedding,获取词向量;第二步,对Embedding得到的词向量求平均值作为特征向量;第三步,将得到的特征向量经过全连接层后转换成类别的概率分布。但是上述的第二步的处理过程过于简单,会丢失一些重要的特征信息,从而降低模型分类的准确率和召回率。
本发明实施例中在通过文本分类模型实现对评价文本数据的分类时,考虑采用FastText模型对目标物品的评价文本数据分类,但由于FastText的第二步仅采用单一的特征向量,会导致丢失评价文本数据的一些重要信息,降低分类模型的精度,因此本发明实施例中对FastText模型进行了改进,在第二步中对评价文本数据获取融合特征向量,其中融合特征向为至少两种以上的特征向量通过特定的融合方式融合而成,例如采用不同的滤波单元分别对评价文本数据对应的文本词序列的词向量矩阵提取不同的特征向量并融合,得到融合特征向量,可以提取出评价文本数据的更多特征信息,进而分类模型可以基于评价文本数据对应的融合特征向量确定评价文本数据的分类结果,从而可以使得得到的分类结果更加准确,提高分类模型的准确率和召回率。
本发明实施例具体的应用场景如图1所示,该应用场景中可包括消费者的终端设备101、电商平台服务器102、商家和/或电商平台管理员的终端设备103,消费者终端设备101可以在对目标物品的退换修过程中或者在其他任意情况下向服务器102反馈对目标物品的评价文本数据;服务端102在获取到待分类的目标物品的评价文本数据后,将评价文本数据输入预设的分类模型;通过分类模型,获取评价文本数据对应的融合特征向量,并根据融合特征向量确定评价文本数据的分类结果;进一步可输出评价文本数据的分类结果,例如根据分类结果对目标物品进行标注,以便于商家或电商平台了解目标物品的质量情况,和/或向商家和/或电商平台管理员的终端设备103输出评价文本数据的分类结果,例如发送给商家的终端设备,以由商家进行相应的处理,例如对于质量问题比较多或质量问题比较严重的商品取消活动提报搜索降权等,或者也可发送给电商平台的管理人员的终端设备,由管理人员对商家或对应的商品进行相应的处理。
下面以具体地实施例对本发明的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本发明的实施例进行描述。
图2为本发明实施例提供的文本数据的分类方法流程图。本实施例提供了一种文本数据的分类方法,其执行主体可以为电商平台的服务器等计算机设备,该文本数据的分类方法具体步骤如下:
S201、获取待分类的目标物品的评价文本数据,并将所述评价文本数据输入预设的分类模型;
S202、通过所述分类模型,获取所述评价文本数据对应的文本词序列的词向量矩阵,对所述词向量矩阵分别以不同的滤波单元处理获取第一特征向量和第二特征向量,并融合所述第一特征向量和所述第二特征向量得到融合特征向量,根据所述融合特征向量确定所述评价文本数据的分类结果;
S203、根据所述分类结果对所述目标物品进行标注和/或将所述分类结果发送给目标终端设备。
在本实施例中,待分类的评价文本数据可以是用户在电商平台上对目标物品进行退换修操作时电商平台服务器生成的评价文本数据,或者用户在退换修操作时或者其他任意时刻发布的对目标物品的评价文本数据,当然也可以是通过其他途径获取到的评价文本数据,然后将评价文本数据输入到预设的分类模型。
在本实施例中,所述分类模型为文本分类模型,通过输入评价文本数据,即可输出评价文本数据的分类结果。在分类模型的应用过程中,对评价文本数据提取特征向量,为了避免单一的特征向量过于简单、丢失评价文本数据的一些重要信息,降低分类模型的精度,因此本实施例中通过分类模型对评价文本数据获取融合特征向量,其中融合特征向为至少两种以上的特征向量通过特定的融合方式融合而成,可选的,本实施例中可先获取所述评价文本数据对应的文本词序列的词向量矩阵,再采用不同的滤波单元分别对词向量矩阵提取不同的特征向量并融合,得到融合特征向量,从而可以提取出评价文本数据的更多特征信息,进而分类模型可以基于评价文本数据对应的融合特征向量确定评价文本数据的分类结果,从而可以使得得到的分类结果更加准确,提高分类模型的准确率和召回率,并且相对于通过关键词命中的方式进行评价文本数据质量问题分类,不需要维护关键词库,降低维护难度,也无需配置繁琐的逻辑规则,便于实施。
本实施例提供的文本数据的分类方法,通过获取待分类的目标物品的评价文本数据,并将所述评价文本数据输入预设的分类模型;通过所述分类模型,获取所述评价文本数据对应的文本词序列的词向量矩阵,对所述词向量矩阵分别以不同的滤波单元处理获取第一特征向量和第二特征向量,并融合所述第一特征向量和所述第二特征向量得到融合特征向量,根据所述融合特征向量确定所述评价文本数据的分类结果;根据所述分类结果对所述目标物品进行标注和/或将所述分类结果发送给目标终端设备。本实施例通过分类模型实现对评价文本数据的分类,并且在分类过程中通过提取评价文本数据的融合特征向量,考虑更多的评价文本数据的特征信息,从而提高了对评价文本数据分类的准确率和召回率,并且相对于通过关键词命中的方式进行评价文本数据质量问题分类,不需要维护关键词库,降低维护难度,也无需配置繁琐的逻辑规则,便于实施。
在上述任一实施例的基础上,在S202中获取所述评价文本数据对应的文本词序列的词向量矩阵时,可首先将评价文本数据中以自然语言表述的词语转换成计算机设备可以理解的稠密向量,也即词向量,而由于评价文本数据中一般包括多个词语,因此可先获取评价文本数据对应的文本词序列,进而将文本词序列中每一词语转换为词向量,并根据每一个词语的词向量构成词向量矩阵,以作为获取评价文本数据对应的融合特征向量的依据。
可选的,本实施例中在获取评价文本数据对应的文本词序列的词向量矩阵时,可首先通过所述分类模型的分词工具,对所述评价文本数据进行分词,得到文本词序列;再通过所述分类模型的嵌入层,获取所述文本词序列的词向量矩阵。
在本实施例中,可以在分类模型中配置有分词工具,例如结巴分词工具,通过分词工具对评价文本数据进行分词,从而得到文本词序列,其中包括对评价文本数据分词得到的词语,当然本实施例中也可采用其他的分词工具,例如HanLP、LTP分词工具等等,此处可不做限定。在分词前,可选的,可以对评价文本数据进行数据清洗,删除评价文本数据中的标点符号、特殊符号等非文本符号,当然还可删除一些停用词等,减少词语的冗余。
进一步的,分类模型中还可配置有嵌入层(Embedding),通过嵌入层可以获取文本词序列中每一词语对应的词向量,进而构成词向量矩阵,例如每个词向量的维度为300,具有丰富的语义,而文本词序列中包括S个词语,因此可构成一个S*300的词向量矩阵。
可选的,在通过所述分类模型的嵌入层,获取所述文本词序列的词向量矩阵时,可根据预设词向量集合的索引信息,从所述预设词向量集合中获取所述文本词序列中每一词语对应的预设词向量;根据所述文本词序列中每一词语对应的预设词向量,获取所述文本词序列的词向量矩阵。
在本实施例中,可预先获取预设词向量集合,其中该词向量集合中包括词语与预设词向量之间的对应关系,并建立索引信息,也即在需要获取某一词语的词向量时,可通过索引信息查询预设词向量集合,从而可快速得到该词语对应的预设词向量。本实施例中将评价文本数据对应的文本词序列输入到嵌入层,由嵌入层通过索引信息获取文本词序列中每一词语对应的预设词向量,进而词向量拼接得到文本词序列的词向量矩阵。
需要说明的是,本实施例中的预设词向量集合也可预先学习得到,或者也可采用一些通用的词向量集合或者词向量词典,或者通过其他途径获取的词向量集合。
其中,通过预先学习获取预设词向量集合,具体可包括:获取语料库,并对所述语料库中的语料文本进行分词;并通过半监督学习模型,对语料文本的每一词语获取对应的词向量;根据每一词语对应的词向量,构建所述预设词向量集合,并获取词语与对应词向量之间的索引信息。本实施例中,考虑到电商平台退换修场景下的评价文本数据数量有限,训练的词向量表征的语义比较单一,本实施例中采用了开源的经过百度百科语料训练的预训练词向量,包含542多万个词,每个词向量的维度为300,具有丰富的语义。当然本实施例中并不限于采用上述学习方式获取预设词向量,此处不再赘述。
在上述实施例中,在一种情况中,由于文本词序列中可能存在某一个词语无法从预设词向量集合中获取到对应的预设词向量,可采用预设的特定词向量作为该词语的词向量,在实际实现过程中,可在文本词序列中将该词语替换为某一特定字符,该特定字符与上述的特定词向量对应,在根据文本词序列中每一词语对应的预设词向量获取文本词序列的词向量矩阵时,可用以特定词向量添加到词向量矩阵中该特定字符对应的位置处。在另一种情况中,由于后续的特征向量的获取过程中,输入的词向量矩阵通常需要满足特定的长度,也即文本词序列中词语数量需要满足预设数量,当文本词序列中词语数量少于预设数量时,则可以通过预设的空词向量进行补全,至词向量矩阵达到所需长度。
在上述任一实施例的基础上,在获取到评价文本数据对应的文本词序列的词向量矩阵后,即可进行特征向量的提取,本实施例中可在分类模型中配置滤波层(Filter),通过Filter层基于文本词序列的词向量矩阵,提取特征向量。可选的,为了得到所述融合特征向量,本实施例中通过Filter层,获取至少两种特征向量。
具体的,Filter层可包括第一滤波单元和第二滤波单元;进一步的,S302中在对所述词向量矩阵分别以不同的滤波单元处理获取第一特征向量和第二特征向量,具体可包括:
通过分类模型的第一滤波单元和第二滤波单元,分别对所述词向量矩阵进行信息提取,以分别获取所述第一特征向量和所述第二特征向量;其中第一特征向量为对词向量矩阵各维度求平均值得到的向量,第二特征向量为对词向量矩阵各维度取最大值得到的向量。
在本实施例中,假设词向量矩阵E大小为S*300,也即由S个词语,每个词语的词向量有300个维度,拼接而成。第一滤波单元为Mean Filter,用于对词向量矩阵的各维度取平均值,也即对E中每一列取一个平均值,最终得到第一特征向量F1,其大小为1*300;而第二滤波单元为Max Filter,用于对词向量矩阵的各维度取最大值,也即对E中每一列取最大值,最终得到第二特征向量F2,其大小为1*300。
需要说明的是,本实施例中滤波层也可不限于上述的第一滤波单元和第二滤波单元,也可以为其他的滤波单元,相应的特征向量也可不限于上述特征向量,此处不再一一赘述。
在上述任一实施例的基础上,S202中融合所述第一特征向量和所述第二特征向量得到融合特征向量,具体的融合过程可包括:
对所述第一特征向量和所述第二特征向量进行拼接,将拼接所得的向量作为所述融合特征向量;或者
将所述第一特征向量和所述第二特征向量对应维度进行加权平均处理,将加权平均结果作为所述融合特征向量。
在本实施例中,第一种融合方式中,直接将第一特征向量和第二特征向量进行拼接,例如上述举例中,第一特征向量F1大小为1*300,第二特征向量F2大小为1*300,将第一特征向量F1和第二特征向量F2直接拼接可得到融合特征向量F,大小为1*600。
在第二种融合方式中,也可将第一特征向量和第二特征向量对应维度进行加权平均,其中一种特殊的方式为将第一特征向量和第二特征向量对应维度进行算术平均,也即可将第一特征向量和第二特征向量再次经过MeanFilter,从而得到融合特征向量,例如上述举例中,第一特征向量F1大小为1*300,第二特征向量F2大小为1*300,将第一特征向量F1和第二特征向量F2再次经过Mean Filter进行对应维度的算术平均,可得到融合特征向量F,大小为1*300。
在上述任一实施例的基础上,如图3所示,S202所述的根据所述融合特征向量确定所述评价文本数据的分类结果,具体可包括:
S301、所述通过所述分类模型的第一全连接层,根据所述融合特征向量对所述评价文本数据进行二分类,判断所述评价文本数据的类别是否为存在质量问题的类别;
S302、若为存在质量问题的类别,则通过所述分类模型的第二全连接层,根据所述融合特征向量对所述评价文本数据进行多分类,确定所述评价文本数据所属的质量问题类别。
在本实施例中,首先通过第一全连接层进行二分类,判断评价文本数据的类别是否为存在质量问题的类别,若评价文本数据的类别不是存在质量问题的类别,则结束分类方法的流程,无需通过第二全连接层进行后续的多分类,避免对占用运算资源;若评价文本数据的类别为存在质量问题的类别,才通过第二全连接层进行后续的多分类,确定评价文本数据具体属于哪一种质量问题类别,在多分类过程中集中的、有针对性的进行质量问题分类,可提高质量问题分类的准确性。
更具体的,本实施例中第一全连接层为用于质量命中的全连接层,将上述的融合特征向量F输入给第一全连接层做二分类,可将输出结果转成质量命中的概率分布,通过设定概率值的阈值作为物品含有质量问题的基线,也即确定评价文本数据的类别是否为存在质量问题的类别。第一全连接层的计算公式如下:
本实施例中的第二全连接层为用于质量分类的全连接层,对于第一全连接层确定为存在质量问题的情况,将融合特征向量F输入给第二全连接层进行多分类。将输出结果转成质量问题类别的概率分布,其中哪种质量问题类别对应的概率值最大,就把该评价文本数据归为此质量问题类别,说明该评价文本数据对应的物品存在此质量问题。本实施例了中相当于做了模型串联,将前一个模型(第一全连接层)判断有质量问题的评价文本数据,才将融合特征向量F输入下一个模型(第二全连接层),对于没有质量问题的评价文本数据,则不输入下一个模型(第二全连接层),只对有质量问题的评价文本数据做质量分类,使得分类更加有针对性更加集中,提高质量分类的准确率。第二全连接层的计算公式如下:
P=f(W2FT+b2)
其中,输出函数f采用softmaxt函数,W2为全连接层矩阵,大小为k*300,k为分类的类别数,b2为全连接层偏置向量,P为质量分类的概率分布。其中,softmax是一种常用的将全连接层的输出值转成概率分布的函数,其具体形式此处不再赘述。
在上述任一实施例的基础上,所述方法还可包括所述分类模型的训练过程,训练过程具体可包括:
获取训练数据,所述训练数据为经过标注的评价文本数据;
根据所述训练数据对所述分类模型进行训练,并获取损失函数值;
根据所述损失函数值进行反向传播,在反向传播过程中对所述预设词向量集合中的预设词向量进行调整。
在本实施例中,可首先获取一些评价文本数据,通过人工标注或者其他标注方式,标注该些评价文本数据是否为存在质量问题的类别,以及具体的质量问题类别,作为训练数据,并基于训练数据进行模型训练,在训练过程中,通过获取损失函数值进行反向传播,从而优化分类模型,其中,可选的,损失函数值可以为交叉熵损失函数值,采用随机梯度下降法对分类模型进行优化,从而得到分类模型的参数。另外在更新模型参数的过程中,可以对预设词向量集合中的预设词向量进行调整,通过调整预设词向量,相较于固定词向量,分类模型可以取得更好的效果。此外,本实施例中还可将词向量矩阵作为分类模型的参数进行微调。
可选的,本实施例中第一全连接层的交叉熵损失函数公式如下:
其中,loss1为第一全连接层的交叉熵损失函数,y为样本的标签,N为样本数量。
可选的,第二全连接层的交叉熵损失函数公式如下:
其中,loss2为第二全连接层的交叉熵损失函数,Yi为样本是否为第i个类别的标签,Pi预测为第i个类别的概率,N为样本数量。
图4为本发明一实施例提供的分类模型的架构图,目标物品的评价文本数据输入分类模型,先经过分词工具分词,得到文本词序列,在基于嵌入层,根据预设词向量集合得到文本词序列的词向量矩阵,通过滤波层的第一滤波单元和第二滤波单元,分别对词向量矩阵进行信息提取,以分别获取第一特征向量和第二特征向量,并进行融合,得到融合特征向量,融合特征向量通过的第一全连接层,根据融合特征向量进行二分类,判断评价文本数据的类别是否为存在质量问题的类别;若为存在质量问题的类别,则通过第二全连接层,根据融合特征向量进行多分类,确定评价文本数据所属的质量问题类别,并输出质量问题类别。
图5为本发明实施例提供的评价文本数据的分类设备的结构图。本实施例提供的评价文本数据的分类设备可以执行方法实施例提供的处理流程,如图5所示,所述评价文本数据的分类设备500包括以及获取模块501、分类模块502以及输出模块503。
获取模块501,用于获取待分类的目标物品的评价文本数据,并将所述评价文本数据输入预设的分类模型;
分类模块502,用于通过所述分类模型,获取所述评价文本数据对应的文本词序列的词向量矩阵,对所述词向量矩阵分别以不同的滤波单元处理获取第一特征向量和第二特征向量,并融合所述第一特征向量和所述第二特征向量得到融合特征向量,根据所述融合特征向量确定所述评价文本数据的分类结果;
输出模块503,用于根据所述分类结果对所述目标物品进行标注和/或将所述分类结果发送给目标终端设备。
在上述任一实施例的基础上,所述分类模块502在对所述词向量矩阵分别以不同的滤波单元处理获取第一特征向量和第二特征向量时,用于:
通过所述分类模型的第一滤波单元和第二滤波单元,分别对所述词向量矩阵进行信息提取,以分别获取所述第一特征向量和所述第二特征向量;
其中所述第一特征向量为对所述词向量矩阵各维度求平均值得到的向量,所述第二特征向量为对所述词向量矩阵各维度取最大值得到的向量。
在上述任一实施例的基础上,所述分类模块502在融合所述第一特征向量和所述第二特征向量得到融合特征向量时,用于:
对所述第一特征向量和所述第二特征向量进行拼接,将拼接所得的向量作为所述融合特征向量;或者
将所述第一特征向量和所述第二特征向量对应维度进行加权平均处理,将加权平均结果作为所述融合特征向量。
在上述任一实施例的基础上,所述分类模块502在根据所述融合特征向量确定所述评价文本数据的分类结果时,用于:
所述通过所述分类模型的第一全连接层,根据所述融合特征向量对所述评价文本数据进行二分类,判断所述评价文本数据的类别是否为存在质量问题的类别;
若为存在质量问题的类别,则通过所述分类模型的第二全连接层,根据所述融合特征向量对所述评价文本数据进行多分类,确定所述评价文本数据所属的质量问题类别。
在上述任一实施例的基础上,所述分类模块502在通过所述分类模型,获取所述评价文本数据对应的文本词序列的词向量矩阵时,用于:
通过所述分类模型的分词工具,对所述评价文本数据进行分词,得到文本词序列;
通过所述分类模型的嵌入层,获取所述文本词序列的词向量矩阵。
在上述任一实施例的基础上,所述分类模块502在通过所述分类模型的嵌入层,获取所述文本词序列的词向量矩阵时,用于:
根据预设词向量集合的索引信息,从所述预设词向量集合中获取所述文本词序列中每一词语对应的预设词向量;
根据所述文本词序列中每一词语对应的预设词向量,获取所述文本词序列的词向量矩阵。
在上述任一实施例的基础上,所述分类模块502在从所述预设词向量集合中获取所述文本词序列中每一词语对应的预设词向量时,还用于:
若所述文本词序列中任一词语无法从所述预设词向量集合中获取到对应的预设词向量,则以预设的特定词向量作为该词语对应的词向量;和/或
若所述文本词序列中词语数量少于预设数量,则以预设的空词向量进行补全。
在上述任一实施例的基础上,所述设备还包括预设词向量集合获取模块501,用于:
获取语料库,并对所述语料库中的语料文本进行分词;
并通过半监督学习模型,对语料文本的每一词语获取对应的词向量;
根据每一词语对应的词向量,构建所述预设词向量集合,并获取词语与对应词向量之间的索引信息。
在上述任一实施例的基础上,所述设备还包括训练模块,用于:
获取训练数据,所述训练数据为经过标注的评价文本数据;
根据所述训练数据对所述分类模型进行训练,并获取损失函数值;
根据所述损失函数值进行反向传播,在反向传播过程中对所述预设词向量集合中的预设词向量进行调整。
本发明实施例提供的评价文本数据的分类设备可以具体用于执行上述图2-3所提供的方法实施例,具体功能此处不再赘述。
本发明实施例提供的评价文本数据的分类设备,通过获取待分类的目标物品的评价文本数据,并将所述评价文本数据输入预设的分类模型;通过所述分类模型,获取所述评价文本数据对应的文本词序列的词向量矩阵,对所述词向量矩阵分别以不同的滤波单元处理获取第一特征向量和第二特征向量,并融合所述第一特征向量和所述第二特征向量得到融合特征向量,根据所述融合特征向量确定所述评价文本数据的分类结果;根据所述分类结果对所述目标物品进行标注和/或将所述分类结果发送给目标终端设备。本实施例通过分类模型实现对评价文本数据的分类,并且在分类过程中通过提取评价文本数据的融合特征向量,考虑更多的评价文本数据的特征信息,从而提高了对评价文本数据分类的准确率和召回率,并且相对于通过关键词命中的方式进行评价文本数据质量问题分类,不需要维护关键词库,降低维护难度,也无需配置繁琐的逻辑规则,便于实施。
图6为本发明实施例提供的计算机设备的结构示意图。本发明实施例提供的计算机设备可以执行文本数据的分类方法实施例提供的处理流程,如图6所示,计算机设备60包括存储器61、处理器62、计算机程序;其中,计算机程序存储在存储器61中,并被配置为由处理器62执行以上实施例所述的物品推荐方法。此外,计算机设备60还可具有通讯接口63,用于接收控制指令。
图6所示实施例的计算机设备可用于执行上述文本数据的分类方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
另外,本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现上述实施例所述的文本数据的分类方法。
另外,本发明实施例还提供一种人工智能芯片,所述人工智能芯片能够实现上述实施例所述的文本数据的分类方法。
另外,本发明实施例还提供一种板卡,所述板卡包括:存储器件、接口装置和控制器件以及如上所述的人工智能芯片;其中,所述人工智能芯片与所述存储器件、所述控制器件以及所述接口装置分别连接;所述存储器件用于存储数据;所述接口装置用于实现所述人工智能芯片与外部设备之间的数据传输;所述控制器件用于对所述人工智能芯片的状态进行监控。
在本发明实施例所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明实施例各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明实施例各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
最后应说明的是:以上各实施例仅用以说明本发明实施例的技术方案,而非对其限制;尽管参照前述各实施例对本发明实施例进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例各实施例技术方案的范围。
Claims (12)
1.一种文本数据的分类方法,其特征在于,包括:
获取待分类的目标物品的评价文本数据,并将所述评价文本数据输入预设的分类模型;
通过所述分类模型,获取所述评价文本数据对应的文本词序列的词向量矩阵,对所述词向量矩阵分别以不同的滤波单元处理获取第一特征向量和第二特征向量,并融合所述第一特征向量和所述第二特征向量得到融合特征向量,根据所述融合特征向量确定所述评价文本数据的分类结果;
根据所述分类结果对所述目标物品进行标注和/或将所述分类结果发送给目标终端设备。
2.根据权利要求1所述的方法,其特征在于,所述对所述词向量矩阵分别以不同的滤波单元处理获取第一特征向量和第二特征向量,包括:
通过所述分类模型的第一滤波单元和第二滤波单元,分别对所述词向量矩阵进行信息提取,以分别获取所述第一特征向量和所述第二特征向量;
其中所述第一特征向量为对所述词向量矩阵各维度求平均值得到的向量,所述第二特征向量为对所述词向量矩阵各维度取最大值得到的向量。
3.根据权利要求1所述的方法,其特征在于,所述融合所述第一特征向量和所述第二特征向量得到融合特征向量,包括:
对所述第一特征向量和所述第二特征向量进行拼接,将拼接所得的向量作为所述融合特征向量;或者
将所述第一特征向量和所述第二特征向量对应维度进行加权平均处理,将加权平均结果作为所述融合特征向量。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述根据所述融合特征向量确定所述评价文本数据的分类结果,包括:
所述通过所述分类模型的第一全连接层,根据所述融合特征向量对所述评价文本数据进行二分类,判断所述评价文本数据的类别是否为存在质量问题的类别;
若为存在质量问题的类别,则通过所述分类模型的第二全连接层,根据所述融合特征向量对所述评价文本数据进行多分类,确定所述评价文本数据所属的质量问题类别。
5.根据权利要求1-3任一项所述的方法,其特征在于,所述获取所述评价文本数据对应的文本词序列的词向量矩阵,包括:
通过所述分类模型的分词工具,对所述评价文本数据进行分词,得到文本词序列;
通过所述分类模型的嵌入层,获取所述文本词序列的词向量矩阵。
6.根据权利要求5所述的方法,其特征在于,所述通过所述分类模型的嵌入层,获取所述文本词序列的词向量矩阵,包括:
根据预设词向量集合的索引信息,从所述预设词向量集合中获取所述文本词序列中每一词语对应的预设词向量;
根据所述文本词序列中每一词语对应的预设词向量,获取所述文本词序列的词向量矩阵。
7.根据权利要求6所述的方法,其特征在于,在所述从所述预设词向量集合中获取所述文本词序列中每一词语对应的预设词向量时,还包括:
若所述文本词序列中任一词语无法从所述预设词向量集合中获取到对应的预设词向量,则以预设的特定词向量作为该词语对应的词向量;和/或
若所述文本词序列中词语数量少于预设数量,则以预设的空词向量进行补全。
8.根据权利要求6所述的方法,其特征在于,还包括:
获取语料库,并对所述语料库中的语料文本进行分词;
并通过半监督学习模型,对语料文本的每一词语获取对应的词向量;
根据每一词语对应的词向量,构建所述预设词向量集合,并获取词语与对应词向量之间的索引信息。
9.根据权利要求6所述的方法,其特征在于,还包括所述分类模型的训练过程,包括:
获取训练数据,所述训练数据为经过标注的评价文本数据;
根据所述训练数据对所述分类模型进行训练,并获取损失函数值;
根据所述损失函数值进行反向传播,在反向传播过程中对所述预设词向量集合中的预设词向量进行调整。
10.一种文本数据的分类设备,其特征在于,包括:
获取模块,用于获取待分类的目标物品的评价文本数据,并将所述评价文本数据输入预设的分类模型;
分类模块,用于通过所述分类模型,获取所述评价文本数据对应的文本词序列的词向量矩阵,对所述词向量矩阵分别以不同的滤波单元处理获取第一特征向量和第二特征向量,并融合所述第一特征向量和所述第二特征向量得到融合特征向量,根据所述融合特征向量确定所述评价文本数据的分类结果;
输出模块,用于根据所述分类结果对所述目标物品进行标注和/或将所述分类结果发送给目标终端设备。
11.一种计算机设备,其特征在于,包括:
存储器,用于存储计算机执行指令;
处理器,用于运行所述存储器中存储的所述计算机执行指令以实现如权利要求1-9中任一项所述的方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1-9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011045862.8A CN113761184A (zh) | 2020-09-29 | 2020-09-29 | 文本数据的分类方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011045862.8A CN113761184A (zh) | 2020-09-29 | 2020-09-29 | 文本数据的分类方法、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113761184A true CN113761184A (zh) | 2021-12-07 |
Family
ID=78785819
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011045862.8A Pending CN113761184A (zh) | 2020-09-29 | 2020-09-29 | 文本数据的分类方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113761184A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117686691A (zh) * | 2024-02-01 | 2024-03-12 | 江苏嘉通能源有限公司 | 一种基于张力分析的涤锦复合丝质量检测方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107688604A (zh) * | 2017-07-26 | 2018-02-13 | 阿里巴巴集团控股有限公司 | 数据应答处理方法、装置及服务器 |
CN108595634A (zh) * | 2018-04-25 | 2018-09-28 | 腾讯科技(深圳)有限公司 | 短信管理方法、装置及电子设备 |
CN110717039A (zh) * | 2019-09-17 | 2020-01-21 | 平安科技(深圳)有限公司 | 文本分类方法和装置、电子设备、计算机可读存储介质 |
-
2020
- 2020-09-29 CN CN202011045862.8A patent/CN113761184A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107688604A (zh) * | 2017-07-26 | 2018-02-13 | 阿里巴巴集团控股有限公司 | 数据应答处理方法、装置及服务器 |
CN108595634A (zh) * | 2018-04-25 | 2018-09-28 | 腾讯科技(深圳)有限公司 | 短信管理方法、装置及电子设备 |
CN110717039A (zh) * | 2019-09-17 | 2020-01-21 | 平安科技(深圳)有限公司 | 文本分类方法和装置、电子设备、计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
周冠雄: "《计算机模式识别 统计方法》", 30 April 1986, pages: 94 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117686691A (zh) * | 2024-02-01 | 2024-03-12 | 江苏嘉通能源有限公司 | 一种基于张力分析的涤锦复合丝质量检测方法及系统 |
CN117686691B (zh) * | 2024-02-01 | 2024-04-26 | 江苏嘉通能源有限公司 | 一种基于张力分析的涤锦复合丝质量检测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110069709B (zh) | 意图识别方法、装置、计算机可读介质及电子设备 | |
CN110196982B (zh) | 上下位关系抽取方法、装置及计算机设备 | |
CN113011186B (zh) | 命名实体识别方法、装置、设备及计算机可读存储介质 | |
CN110188195B (zh) | 一种基于深度学习的文本意图识别方法、装置及设备 | |
Ilmania et al. | Aspect detection and sentiment classification using deep neural network for Indonesian aspect-based sentiment analysis | |
CN109598517B (zh) | 商品通关处理、对象的处理及其类别预测方法和装置 | |
CN111858843B (zh) | 一种文本分类方法及装置 | |
CN111651601B (zh) | 用于电力信息系统的故障分类模型的训练方法及分类方法 | |
CN110879938A (zh) | 文本情感分类方法、装置、设备和存储介质 | |
CN112199536A (zh) | 一种基于跨模态的快速多标签图像分类方法和系统 | |
CN110968725B (zh) | 图像内容描述信息生成方法、电子设备及存储介质 | |
CN111339260A (zh) | 一种基于bert和qa思想的细粒度情感分析方法 | |
CN107341143A (zh) | 一种句子连贯性判断方法及装置和电子设备 | |
CN112287672A (zh) | 文本意图识别方法及装置、电子设备、存储介质 | |
CN115544240B (zh) | 文本类敏感信息识别方法、装置、电子设备和存储介质 | |
CN112749274A (zh) | 基于注意力机制和干扰词删除的中文文本分类方法 | |
CN111738807A (zh) | 用于推荐目标对象的方法、计算设备和计算机存储介质 | |
CN115147130A (zh) | 问题预测方法、设备、存储介质及程序产品 | |
CN114818718A (zh) | 合同文本识别方法及装置 | |
CN112905787B (zh) | 文本信息处理方法、短信处理方法、电子设备及可读介质 | |
CN113761184A (zh) | 文本数据的分类方法、设备及存储介质 | |
CN112380861A (zh) | 模型训练方法、装置及意图识别方法、装置 | |
CN114119191A (zh) | 风控方法、逾期预测方法、模型训练方法及相关设备 | |
US20220164705A1 (en) | Method and apparatus for providing information based on machine learning | |
CN114529191A (zh) | 用于风险识别的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |