CN115687617B - 一种数据处理方法和数据处理装置 - Google Patents

一种数据处理方法和数据处理装置 Download PDF

Info

Publication number
CN115687617B
CN115687617B CN202211261924.8A CN202211261924A CN115687617B CN 115687617 B CN115687617 B CN 115687617B CN 202211261924 A CN202211261924 A CN 202211261924A CN 115687617 B CN115687617 B CN 115687617B
Authority
CN
China
Prior art keywords
text
viewpoint
vector
training
data processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211261924.8A
Other languages
English (en)
Other versions
CN115687617A (zh
Inventor
卢志超
李胜超
汤泳
余强
潘君秋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honor Device Co Ltd
Original Assignee
Honor Device Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honor Device Co Ltd filed Critical Honor Device Co Ltd
Priority to CN202211261924.8A priority Critical patent/CN115687617B/zh
Publication of CN115687617A publication Critical patent/CN115687617A/zh
Application granted granted Critical
Publication of CN115687617B publication Critical patent/CN115687617B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本申请实施例公开了一种数据处理方法和数据处理装置,涉及数据处理领域,可以通过预设的观点层级树,实现快速准确的观点标签分类。具体方案为:获取第一输入文本,该第一输入文本包括用户对该目标设备的评价信息。根据该第一输入文本,以及观点分析模型,确定至少一个观点标签,该至少一个观点标签与该第一输入文本对应。其中,该观点分析模型预设在该数据处理装置中,该观点分析模型包括观点层级树,该观点层级树具有多叉树结构。基于该观点层级树的设置,引入了多叉树的快速准确的判断机制,从而能够实现对第一输入文本的快速分类。

Description

一种数据处理方法和数据处理装置
技术领域
本申请实施例涉及数据处理领域,尤其涉及一种数据处理方法和数据处理装置。
背景技术
观点标签分类技术常用于对目标设备的舆情评价中。采用该观点标签分类技术,可以通过获取不同用户对目标产品的评价信息进行分析,获取用户在使用目标设备过程中的评价状况。其中,采集用户的评价信息以划分的观点标签数量越多,对应的分析结果越准确。
而在评价信息和/或观点标签越来越多时,现有的观点标签分类技术会出现准确度下降、耗时较长的问题。
发明内容
本申请实施例提供一种数据处理方法和数据处理装置,可以通过预设的观点层级树,实现快速准确的观点标签分类。
为了达到上述目的,本申请实施例采用如下技术方案:
第一方面,提供一种数据处理方法,该方法应用于数据处理装置中,该数据处理装置用于确定目标设备的观点标签,该方法包括:获取第一输入文本,该第一输入文本包括用户对该目标设备的评价信息。根据该第一输入文本,以及观点分析模型,确定至少一个观点标签,该至少一个观点标签与该第一输入文本对应。该观点分析模型预设在该数据处理装置中,该观点分析模型包括观点层级树,以及每层对应的召回条件;该观点层级树具有多叉树结构,该召回条件包括注意力参数,线性匹配参数以及线性排序参数标识。在该召回条件中,该注意力参数可以为注意力模型中的参数,线性匹配参数以及线性排序参数可以包括在多叉树结构对应的神经网络模型参数中。基于该观点层级树的设置,引入了多叉树的快速准确的判断机制,从而能够实现对第一输入文本的快速分类。
可选的,该方法还包括:根据该第一输入文本,以及该观点分析模型,确定该至少一个观点标签中任一个观点标签与该第一输入文本的相似度概率。这样,在输出观点标签的同时,还可以输出该观点标签的相似度概率。由此使得观点标签的输出形式更加多样化,也能够提升观点标签输出的准确性。作为一种示例,基于多叉树结构的观点层级树,每个观点标签的相似度概率可以根据对应流转链路上各个节点的判断概率综合决定。
可选的,该根据该第一输入文本,以及观点分析模型,确定至少一个观点标签,包括:确定该第一输入文本的文本向量,将该文本向量输入该观点分析模型,以便于该观点分析模型输出该至少一个观点标签。
可选的,该确定该第一输入文本的文本向量,包括:对该第一输入文本进行标准化处理以获取标准化文本。对该第一输入文本进行词频特征提取,以获取该第一输入文本对应的至少一个词频特征。根据该标准化文本以及该至少一个词频特征,确定该第一输入文本的文本向量。
可选的,根据预设的词频逆文本频率指数TFIDF模型,对该第一输入文本进行词频特征提取。
可选的,该观点分析模型是该数据处理装置通过如下方法训练获取的:获取训练数据集,该训练数据集包括多个训练样本,每个该训练样本包括至少一个用户对该目标设备的评价信息。根据该多个训练样本,执行聚类处理,获取观点层级树。使用该训练数据集,对该观点层级树各层对应的判断参数进行优化训练,获取该观点分析模型。
由此,通过该示例提供的训练方案获取的观点分析模型,可以结合观点层级树以及多分辨率学习的优化策略,能够支持在推理过程中获取更加准确快速的观点标签分类效果。
可选的,该方法还包括:对该训练数据集中的每个训练样本进行预标记,该每个训练样本对应于至少一个预标记标签。
可选的,在根据该多个训练样本,执行聚类处理之前,该方法还包括:确定每个训练样本的词频特征。确定每个预标记标签对应的第一向量,该第一向量根据该预标记标签对应的训练样本的词频特征确定。确定每个预标记标签对应的第二向量,该第二向量根据该预标记标签对应的训练样本的注意力向量确定。根据该第一向量和该第二向量,确定每个预标记标签对应的文本向量。由此,通过将多个训练样本,根据预标记过程的标签,转换为每个标签对应的文本向量。可以使得多个样本被划归到以标签为单位的向量中。其中,文本向量可以是基于注意力机制转换获取的。由此使得该文本向量与样本的对应可以更加准确。
可选的,该根据该多个训练样本,执行聚类处理,获取观点层级树,包括:对该每个预标记标签对应的文本向量进行聚类处理,获取该观点层级树。由此,通过对与标签一一对应的多个文本向量进行聚类,使得相似标签的文本向量可以被聚类到一起,获取更高层的节点。对应的,在更底层的节点中,可以将该相似的标签进行进一步细化,从而实现粒度逐渐减小的效果。由此使得该观点层级树应用到推理过程中,可以更加快速有效地实现观点标签的分类。
可选的,该使用该训练数据集,对该观点层级树各层对应的判断参数进行优化训练,获取该观点分析模型,包括:基于多分辨率学习机制,设置交叉熵损失函数作为损失函数,采用随机梯度下降法对该观点层级树中各层的召回条件进行优化训练。
可选的,该聚类处理包括:基于Kmeans的聚类处理。例如,K可以为2,或其他大于2的整数。
第二方面,提供一种数据处理装置,该数据处理装置中预设有观点分析模型,该观点分析模型包括观点层级树,该观点层级树具有多叉树结构。该装置用于根据如第一方面及其任一种可能的设计提供的技术方案确定目标设备的观点标签。
第三方面,提供一种电子设备,该电子设备可以用于实现第一方面及其任一种可能的设计中的电子设备的功能。示例性的,电子设备包括一个或多个处理器和一个或多个存储器;一个或多个存储器与一个或多个处理器耦合,一个或多个存储器存储有计算机指令;当一个或多个处理器执行计算机指令时,使得电子设备执行如上述第一方面及其任一种可能的设计中提供的方法。
第四方面,提供一种芯片系统,芯片系统包括接口电路和处理器;接口电路和处理器通过线路互联;接口电路用于从存储器接收信号,并向处理器发送信号,信号包括存储器中存储的计算机指令;当处理器执行计算机指令时,设置在电子设备中的芯片系统执行如上述第一方面及其任一种可能的设计中提供的方法。
第五方面,提供一种计算机可读存储介质,计算机可读存储介质包括计算机指令,当计算机指令运行时,执行如上述第一方面及其任一种可能的设计中提供的方法。
第六方面,提供一种计算机程序产品,计算机程序产品中包括指令,当计算机程序产品在计算机上运行时,使得计算机可以根据指令执行如上述第一方面及其任一种可能的设计中提供的方法。
应当理解的是,上述第二方面至第六方面提供的技术方案,其技术特征均可对应到第一方面及其可能的设计中提供的方法,因此能够达到的有益效果类似,此处不再赘述。
附图说明
图1为一种观点标签的分类逻辑示意图;
图2为本申请实施例提供的一种观点标签的分类逻辑示意图;
图3为本申请实施例提供的一种数据处理装置的组成示意图;
图4为本申请实施例提供的一种数据处理方法的示意图;
图5为本申请实施例提供的一种观点分析模型的工作逻辑示意图;
图6为本申请实施例提供的一种数据处理方法的示意图;
图7为本申请实施例提供的一种样本预标记的示意图;
图8为本申请实施例提供的一种样本的词频特征提取示意图;
图9为本申请实施例提供的一种确定标签对应的词频特征的示意图;
图10为本申请实施例提供的一种确定标签对应的注意力向量的示意图;
图11为本申请实施例提供的一种标签与文本向量的对应示意图;
图12为本申请实施例提供的一种聚类处理的示意图;
图13为本申请实施例提供的一种聚类处理的示意图;
图14为本申请实施例提供的一种观点层级树的示意图;
图15为本申请实施例提供的一种商品推荐场景下该数据处理方法的应用逻辑示意图。
具体实施方式
目前,多标签观点体系在用户舆情分析中的应用越来越普遍。
示例性的,多标签处理装置可以在开发人员的控制下,从网络获取用户对于目标产品的相关评价信息。
以目标产品为手机为例。多标签处理装置可以从网络自行获取大量用户对手机的使用评价信息。比如,与拍照相关的:后摄拍摄清晰,前摄拍摄模糊等评价信息。又如,与手机外观相关的:手机真好看,手机真轻薄等评价信息。又如,与手机通话相关的:通话有时断断续续,通话质量很好等评价信息。
可以理解的是,由于不同用户之间语言习惯以及使用体验差异,即使不同用户都对该目标产品的外观较为满意,评价信息也可能有较大差异。因此,多标签处理装置可以基于上述获取的大量评价信息,获取各个用户的评价信息相应的观点标签。从而根据观点标签标识当前用户对于目标产品(如手机)的舆情评价状况。根据该舆情评价状况,开发人员就可以对目标产品进行软件/硬件的对应优化,由此提升用户体验。
示例性的,多标签处理装置获取当前用户对于目标产品(如手机)的舆情评价状况,具体可以包括:多标签处理装置对评价信息进行智能化的判断划分,并将海量的评价信息中的每个评价信息对应到一个或多个观点标签。通过观点标签来表示大量用户对于当前目标产品的舆情评价。
作为一种可能的实现,参考图1,为一种多标签处理装置进行观点分类的处理逻辑示意图。
如图1所示,多标签处理装置可以将输入文本转换为文本向量。其中,输入文本可以为前述示例中,根据目标产品相关的关键字从网络等途径获取的目标产品的评价信息。其中,输入文本可以包括中文评价信息、英文评价信息等。为了便于对输入文本进行处理,多标签处理装置可以将输入文本转换为以向量形式表现的文本向量。一个输入文本对应于一个文本向量。输入文本不同时,文本向量不同。
多标签处理装置可以将文本向量分别输入到已经训练好的神经网络模型中。示例性的,该神经网络模型可以是基于全连接机制的神经网络模型。该神经网络模型可以以文本向量为输入,经过已经训练好的参数进行判断分类,输出当前文本向量相对应的观点标签。
例如,输入文本A对应于文本向量A,文本向量A在通过神经网络模型处理之后可以转换为观点1和观点3。也就是说,通过如图1所示的处理机制,输入文本A被转换为归一化的观点1和观点3。类似的,输入文本B可以被转换为观点2。以此类推。其中的观点1、观点2和观点3各不相同。
由此,高度个人化的输入文本被转换为归一化的至少一个观点标签。那么,通过分析多个输入文本对应的观点标签,即可实现对舆情的分析。
然而,这种方法存在一些问题。例如,基于如图1所示的技术方案,输出的各个观点标签各不相同,但是在观点标签种类较多时,必然存在一些观点标签存在关联性。那么,基于如图1所示的扁平化处理,由于没有考虑到各个观点标签之间的关联性,每次转换过程都需要在海量的观点标签中查找与当前的文本向量相对应的观点标签。这样就不可避免的出现精度下降,耗时较长的问题。又如,为了能够更加准确地进行收集用户对目标产品的评价情况,需要尽可能多地收集评价信息,因此输入文本的数量是巨大的。此外,还需要将观点标签尽量进行细致的划分,那么最终输出的观点标签种类也是巨大的。比如,在极限多标签场景下,标签数量达到上万甚至上百万。同时,观点标签相对于大量用户的不同需求,具有统计学的长尾效应。也即存在大量的观点标签仅仅有少量的样本关联。这也会使得对海量输入文本进行观点标签转换的过程出现精度下降,耗时较长的问题。
为了解决上述问题,本申请实施例提供一种数据处理方法,应用于数据处理装置中。该数据处理装置中可以设置有基于注意力机制以及多分辨率学习的分层的划分机制。由此使得在将文本向量转换为观点标签的过程中,可以将文本向量通过多叉观点树进行逐层分类。这样在推理过程中就可以逐渐减小需要筛选对象的数量,由此提升精度,并具有更低耗时。
作为一种示例,图2示出了本申请实施例提供的一种数据处理方法的执行逻辑。如图2所示,基于本申请实施例提供的技术方案,采集获取的用户的评价信息可以构成输入文本。将输入文本转换为能够进行机器处理的文本向量。该文本向量可以被输入到预设的观点分析模型中,以便对该文本向量进行分析。由此即可获取该输入文本相对应的观点标签。在本申请实施例中,该获取观点标签的过程也可以称为观点召回。
如图2所示,本申请实施例提供的方案中,观点分析模型可以是基于对训练集中包括的多个输入文本进行基于观点层级树以及多分辨率学习训练获取的。该观点分析模型在对输入文本进行推理的过程中,可以逐层将该输入文本划分到对应的节点上。这样,每向下划分一层,需要筛选的观点标签范围就会对应缩小。由此使得不需要在所有观点标签空间中的观点标签中选取与当前文本向量对应的观点标签,进而获得提升精度以及降低耗时的效果。
以下将结合附图对本申请实施例提供的技术方案进行详细说明。
需要说明的是,以下说明中,以将该数据处理方案应用于极限多标签观点体系中为例,即对海量的输入文本进行观点标签的转换处理中。在另一些场景中,如根据用户画像进行商品推荐、广告推送等场景,也可以使用本申请实施例提供的数据处理方案实现更加准确快速的处理。
本申请实施例提供的数据处理方案,可以应用于数据处理装置中。
作为一种示例,请参考图3,为本申请实施例提供的一种数据处理装置的组成示意图。
如图3所示,本申请实施例提供的数据处理装置可以具有分层架构。不同层用于支持该装置的不同功能。各个层互相连接,共同支持该装置实现本申请实施例提供的数据处理方法。
示例性的,该数据处理装置中可以包括应用层、文本信息层、文本嵌入层以及召回层。
以该如图3所示的数据处理装置应用于观点标签召回的推理场景为例。应用层可以用于获取新采集的输入文本。示例性的,该输入文本可以是从网络中根据与目标产品相关的关键字获取的。在一些实现中,该新采集的输入文本也可以称为源声或者源声文本。
文本信息层可以用于对源声文本进行文本标准化处理。示例性的,该标准化处理可以包括针对中文的中文分词,和/或去除停用词等处理。
文本信息层还可以用于根据标准化处理之后的源声文本,获取该输入文本对应的词频特征。示例性的,该获取词频特征的过程可以是,基于预先设置在文本信息层中的词频(Term Frequency,TF)逆文本频率指数(Inverse Document Frequency,IDF)对应的TFIDF模型进行的。例如,将标准化处理之后的源声文本输入到TFIDF模型中,从而获取该输入原生文本对应的至少一个词频特征。
文本嵌入层可以用于对源声文本进行编码,由此获取与源声文本的文字信息对应的代码信息。文本嵌入层还可以根据与源声文本的文字信息对应的代码信息,以及文本信息层中获取的词频特征,获取该源声文本对应的文本向量。可以理解的是,该文本向量可以与源声文本一一对应。
召回层也可以称为观点召回层。该召回层中可以设置有预先训练好的观点分析模型。在一些实施例中,该观点分析模型可以具有多叉树的特征。例如,该观点分析模型可以具有多层结构。每层包括至少一个节点。随着层数的增加,节点数量逐渐增加。相邻的下一层中可以包括至少一个节点与上一层中的一个节点相关。每个节点处均配置有对应的召回条件。在对数据进行推理的过程中,根据在各个节点的判断结果的不同,推理将流转到下一层中对应的节点中继续进行判断,直至达到最底层节点。该最次层的任一个节点都可以对应于一个观点标签。基于该观点分析模型,召回层可以基于文本向量,自顶向下进行基于观点分析模型的匹配筛选,由此最终获取迭代到底层输出的一个或多个观点候选集。该观点候选集即可对应于当前源声文本相应的召回观点。
需要说明的是,在本申请实施例中,该观点分析模型在训练的过程中,可以是基于观点层级树以及多分辨率学习训练获取的。后续将对该观点分析模型的训练获取过程进行详细说明,此处不做赘述。
基于如图3所示的数据处理装置,能够快速准确地对输入文本(即源声文本)进行观点标签的分类筛选。可以理解的是,在一些实现中,如图3所示的各个层划分中可以设置有对应的模块以便实现该层的功能。示例性的,应用层可以设置有应用模块,用于实现上述示例中应用层的功能。类似的,文本信息层中可以设置有文本信息模块,用于实现上述示例中文本信息层的功能。文本嵌入层中可以设置有文本嵌入模块,用于实现上述示例中文本嵌入层的功能。召回层中可以设置有召回模块,用于实现上述示例中召回层的功能。
以下结合图4,基于如图3中各个层的模块设置,对本申请实施例提供的数据处理方法进行详细说明。该如图4所示的数据处理方法可以应用于获取输入文本后的实时推理过程中。
作为一种示例,如图4所示,该方法可以包括:
S401、应用模块获取输入文本。
示例性的,该应用模块可以从网络和/或其他方式获取用户对于目标产品的评价信息。一个评价信息可以对应于一个输入文本。来自不同用户的多个评价信息可以构成输入文本集。针对该输入文本集中的任意一个输入文本,可以执行本示例中所示的数据处理方法,由此获取该输入文本对应的观点标签。
S402、应用模块将输入文本传输给文本信息模块。
S403、文本信息模块对输入文本进行标准化处理。
示例性的,本示例中的标准化处理可以包括中文分词和/或去除停用词,由此使得中文文本信息更便于后续处理。
文本信息模块对于输入文本进行标准化处理后即可获取与该输入文本相对应的标准化文本。
在一些实施例中,如图4所示,文本信息模块可以将该标准化文本传输给文本嵌入模块进行后续处理。
S404、文本信息模块获取输入文本对应的词频特征向量。
示例性的,文本信息模块可以通过前来示例中的TFIDF模型,获取与输入文本对应的词频特征。其中,一个输入文本可以对应一个词频特征,也可以对应于多个词频特征。在本示例中,基于TFIDF的词频特征也可以表示为对应的向量数据。
在一些实施例中,文本信息模块可以将来自应用模块的输入文本作为输入,通过TFIDF模型的处理,获取对应的词频特征向量。
在另一些实施例中,文本信息模块可以将经过如S403处理后获取的标准化文本作为输入,通过TFIDF模型的处理,获取对应的词频特征向量。
类似于标准化文本的处理机制,在获取该词频特征向量后,文本信息模块可以将该词频特征向量传输给文本嵌入模块进行后续处理。
S405、文本嵌入模块根据标准化文本以及词频特征向量,获取输入文本对应的文本向量。
示例性的,文本嵌入模块可以对标准化文本进行编码,从而获取该标准化文本对应的向量信息。该过程可以实现文字信息到向量信息的转换,由此使得机器可以更快速便捷地对标准化文本进行处理。
文本嵌入模块可以对向量信息以及词频特征向量进行拼接处理,从而获取该输入文本对应的文本向量。
该文本向量可以被传输给召回模块,以便支持后续的观点召回操作。
S406、召回模块基于观点分析模型对文本向量进行分析,获取对应的观点候选集。
其中,观点候选集可以包括至少一个与文本向量相对应的观点标签。参考图5,示出了一种召回模块将文本向量输入到观点分析模型中的示意。在如图5的示例中,观点分析模型可以包括4层,分别为L1、L2、L3以及L4。L1到L4中的节点逐渐增加。例如,L1中包括一个节点,L2中包括2个节点,L3中包括4个节点,L4中包括6个节点。在文本向量被输入到观点分析模型中后,在L1的节点进行判断后,流转到L2中的对应节点。依次类推集合实现该分析过程。
作为一种示例,在召回模块中可以设置有匹配器用于支持对文本向量的分析。
例如,召回模块可以将文本向量作为输入,输入到已经训练好的观点分析模型中。在分析过程中,文本向量可以在观点分析模型的观点层级树上,通过匹配器自顶向下进行匹配。例如,对于观点层级树中的任一个节点,匹配器可以提取文本向量中,与该节点的召回条件相关的特征。匹配器可以采用该特征进行节点中召回条件的判断选择,由此选取匹配到下一层的节点路径。以此类推,直至流转到最底层节点,输出该文本向量对应的观点标签。
通过该示例的实现,可以筛选获取与该文本向量相对应的一个观点标签输出。
在另一些实施例中,匹配器在任一层的多个节点的匹配过程中,可以输出文本向量在当前层中的各个节点的相似度得分。本示例中,召回模块中还可以设置有排序器。排序器可以用于根据相似度得分,对当前层中的各个节点进行排序,并确定排序后的前K个节点。其中,K可以为预设的节点数量。这样,可以将文本向量分别输入到该K个节点对应在下一层中的多个节点继续进行匹配,获取下一层中多个节点中符合要求的多个节点继续向下流转。以此类推,在完成最底层节点的匹配后,就可以获取该文本向量对应的多个观点标签,以及各个观点标签与文本向量的相似度概率。其中,观点标签与文本向量的相似度概率可以根据该观点标签对应的最顶层到最底层的流转链路上各个节点的相似度得分确定。
由此,即可获取包括多个观点标签的观点候选集。
召回模块可以将观点候选集回调给应用模块。
S407、应用模块根据观点候选集,确定召回的观点。
示例性的,在一些实施例中,应用模块可以将观点候选集中的一个或多个观点标签作为当前输入文本对应的召回观点。
在另一些实施例中,应用模块可以将观点候选集中,相似度概率大于预设的相似度阈值的观点标签作为召回观点。
在另一些实施例中,应用模块还可以将所有的观点标签以及各自对应的相似度概率呈现给开发者,以便于开发者自行选取对应的观点标签。
由此,通过如图4所示的方案实现,即可对一个输入文本进行准确快速的观点标签分析。结合如图5的示例,由于该观点分析模型中设置有多叉树结构,使得在极限观点标签环境下,即使最底层包括海量的观点标签,通过上层的判断筛选,使得不需要对最低成中的所有观点标签进行选择。这样即可获取更加快速准确的标签分析的效果。同时,同样基于多叉树结构,在上层的判断选择过程中,相当于对底层标签中具有相关性的标签进行了联合选择,因此可以进一步提升筛选获取观点标签的准确性。
基于如图4的方案说明,本申请实施例提供的数据处理方法在执行中,可以根据预先训练获取的观点分析模型实现。以下将结合附图,对于该观点分析模型的训练获取方式,进行详细说明。
作为一种示例,请参考图6,为本申请实施例提供的又一种数据处理方法的流程示意图。该方案可以用于实现对前述示例中涉及的观点分析模型的训练获取。如图6所示,该方案可以包括:
S601、应用模块获取训练数据集,并对训练数据集中的样本进行预标记。
示例性的,训练数据集中可以包括多个输入文本。该多个输入文本中的任一个可以对应于前述示例中,目标产品的评价信息。在一些实现中,该训练过程中使用的输入文本也可以称为训练样本,或者简称为样本。
本示例中,该应用模块可以对训练数据集中的多个样本可以进行预标记处理。每个样本根据其要表达的意思,可以被标记一个或多个预标记标签。
示例性的,结合图7,以训练数据集中包括样本1-样本m为例。预标记标签可以包括n类,如标签1-标签n。那么,针对该样本1-样本m中的每个样本,可以根据其要表达的意思,通过预标记为每个样本打上对应的标签。
例如,在如图7的示例中,样本1可以被预标记为标签1、标签3以及标签n。样本2可以被预标记为标签2、标签3。样本m可以被预标记为标签4。
应用模块可以将该训练数据集中的多个样本传输给文本信息模块进行后续处理。
S602、文本信息模块根据训练数据集,确定各个样本对应的词频特征向量。
示例性的,文本信息模块可以分别针对每个样本,输入到TFIDF模型,以获取每个样本对应的词频特征向量。
例如,如图8所示,文本信息模块可以将样本1输入到TFIDF模型,获取对应的词频特征向量1。文本信息模块可以将样本2输入到TFIDF模型,获取对应的词特征频向量2。以此类推,文本信息模块可以将样本m输入到TFIDF模型,获取对应的词频特征向量m。由此可以获取m个样本分别对应的m个词频特征向量。
文本信息模块可以在完成上述词频特征提取操作之后,将m个词频特征向量发送给文本嵌入模块进行后续处理。
S603、文本嵌入模块获取每个预标记标签对应的文本向量。
在本示例中,文本嵌入模块可以基于注意力机制,获取训练样本集对应的多个预标记标签各自对应的文本向量。
示例性的,文本嵌入模块可以确定每个预标记标签对应的词频特征向量。
作为一种实现,在预标记标签对应于一个样本时,则该预标记标签就可以对应于该样本的词频特征向量。在一个预标记标签对应于多个样本时,则该预标记标签就可以对应于该将多个样本的词频特征向量的平均词频向量。
例如,结合图7的示例,参考图9。标签1对应有样本1,那么,标签1可以对应于样本1的词频特征向量1;标签2对应有样本2,那么,标签2可以对应于样本2的词频特征向量2;标签3对应有样本1和样本2,那么,标签3可以对应于词频特征向量1和词频特征向量2的平均词频向量;标签n对应有样本1,那么,标签n可以对应于样本1的词频特征向量1。
由此,即可确定n个标签分别对应的词频特征。
预标记标签还可以根据注意力机制,确定每个预标记标签对应的注意力向量。其中,预标记标签对应的注意力向量可以包括:预标记标签对应的至少一个样本经过注意力模型处理获取的向量。
例如,参考图10。标签1对应于样本1,则通过注意力模型处理,就可以获取该标签1对应的注意力向量1。标签2对应于样本2,则通过注意力模型处理,就可以获取该标签2对应的注意力向量2。标签3对应于样本1和样本2,则通过注意力模型处理,就可以获取该标签1对应的注意力向量1和注意力向量2。标签n对应于样本1,则通过注意力模型处理,就可以获取该标签n对应的注意力向量1。
在如上述如图9以及图10的方案,获取每个标签对应的词频向量以及注意力向量后,文本嵌入模块可以确定每个标签对应的一个文本向量。
示例性的,在一些实施例中,可以将词频特征向量与注意力向量进行拼接处理,获取该标签对应的文本向量。例如,以如图9和图10中的标签1为例。标签1对应的文本向量1可以通过词频特征向量1与注意力向量1的拼接获取。
在另一些实施例中,标签对应于多个注意力向量的情况下。作为一种实现,可以将该多个注意力向量进行平均计算,获取对应的平均注意力向量。基于该平均注意力向量,结合对应的词频特征向量,即可获取该标签对应的文本向量。例如,以如图9和图10中的标签3为例。标签3对应的文本向量3可以根据词频特征向量1与词频特征向量2的平均词频向量,以及注意力向量1与注意力向量2的平均注意力向量,拼接获取。作为另一种实现,可以直接将每个样本的注意向量与对应的词频特征向量进行拼接获取该标签对应的文本向量。例如,以如图9和图10中的标签3为例。标签3对应的文本向量3可以根据词频特征向量1与词频特征向量2的平均词频向量,以及注意力向量1和注意力向量2首尾拼接获取。
这样,如图11所示,文本嵌入模块就可以获取n个标签对应的n个文本向量。
S604、文本嵌入模块根据文本向量构建观点层级树。
在本示例中,文本嵌入模块可以通过聚类的方式,实现从文本向量到观点层级树的构建。示例性的,该聚类的方式可以包括Kmeans的聚类方式。也即,如图12所示的,文本嵌入模块可以对文本向量1到文本向量n进行基于Kmeans的聚类处理,从而获取该观点层级树。
作为一种示例,以k等于2,即进行基于两个聚类中心的Kmeans处理为例。
文本嵌入模块可以计算获取文本向量1到文本向量m中,任意两个文本向量之间的相似度,基于该不同文本向量之间的相似度,进行Kmeans聚类。例如,该相似度可以通过两个文本向量在二维空间中的余弦夹角标识。那么,该相似度可以包括在0到1的范围内。其中,相似度越接近1,则对应的两个文本向量越相似。
图13示出了一种执行Kmeans聚类处理的示意。以n等于10,即包括10个文本向量为例。那么,在二维空间中就可以分布有10个分别对应一个文本向量的点。该示例中,一个文本向量也可以称为一个聚类样本。在该10个聚类样本中,可以随机抽取两个作为聚类中心,并计算其他聚类样本到该两个聚类中心的距离(即对应到前述示例中的相似度)。例如,聚类中心选取为聚类样本11以及聚类样本21时,聚类样本31到聚类样本11的距离小于聚类样本21。那么,聚类样本31就可以被划分到聚类样本11对应的区域(如区域1)中。依次类推,就可以将所有10个聚类样本划分到区域1以及区域2的两个区域中。也即,将所有10个聚类样本划分为两组中。
文本嵌入模块可以重复随机选取聚类中心并划分其他聚类样本的过程,直至找到聚类样本的两个稳定的划分结果。由此完成一次聚类操作。
可以理解的是,在完成一次聚类操作之后,所有的文本向量被划分为两组。每组中的多个文本向量之间的相似度均较高。也就是说,每组中的多个文本向量可以对应到相同或相近的观点标签(即上述预标记标签)上。
那么,该聚类操作之前的所有10个样本对应的观点(即更加模糊上位的观点)就可以构成观点层级树上的一个节点,如图13所示的L1中的一个节点。而通过聚类后获取的两个分组各自对应的观点(即较为下位准确的观点)就可以构成与该L1中的节点相连接的L2中的两个节点。
如此针对各个节点反复进行上述聚类处理,即可确定各个节点的上层节点以及下层节点,进而获取完整的观点层级树。其中,观点层级树的层数,可以是根据实际情况设置的。例如,在观点层级树的层数设置为4时,即可通过该步骤,构建如图5所示的包括L1到L4的观点层级树。
作为一种具体的示例,结合前述S601-S604的说明,请参考图14,以训练数据集中的输入文本包括待机时间短/功耗体验感受好/自拍拍照清晰/后摄拍摄模糊/信号不稳定/使用卡顿为例。那么,L1中的节点1101就可以包括上述全量观点。通过一次聚类处理,可以将待机时间短/功耗体验感受好/信号不稳定划分到L2中的一个节点中(如节点1102),将自拍拍照清晰/后摄拍摄模糊/使用卡顿划分到L2的另一个节点中(如节点1103)。针对节点1102继续进行聚类处理,就可以将待机时间短/功耗体验感受好划分到L3中的节点1104,将信号不稳定划分到L3中的节点1105。类似的,针对L2中的节点1103继续进行聚类处理,就可以将使用卡顿划分到L3中的节点1106,将自拍拍照清晰/后摄拍摄模糊分到L3中的节点1107。在设置为4层树状结构的情况下,文本嵌入模块可以继续执行对L3中节点的聚类处理。例如,针对L3中的节点1104进行聚类,可以将待机时间短以及功耗体验感受好分别划分到L4中的节点1108以及节点1109中。而L3中的节点1105中只包括一个观点标签,那么在L4中就可以包括与该节点1105唯一连接的节点1110。类似的,针对L3中的节点1107进行聚类,可以将自拍拍照清晰以及后摄拍摄模糊分别划分到L4中的节点1112以及节点1113中。而L3中的节点1106中只包括一个观点标签,那么在L4中就可以包括与该节点1106唯一连接的节点1111。
可以理解的是,基于上述操作,实现自底向上建立的观点层级树。通过该聚类的方式,相似的观点会被分到同一个节点中。由此,在推理过程中,结合观点的层级关系来预测,能够有效提升模型的泛化性能。
本示例中,文本嵌入模块根据文本向量构建观点层级树后,确定各个节点上的观点标签。那么,文本嵌入模块可以将该观点层级树发送给召回模块,以便于召回模块进行后续处理。
S605、召回模块对观点层级树每层的召回条件进行优化训练。
其中,召回条件可以通过与观点层级树上,每层对应的注意力参数,以及神经网络参数标识。其中,神经网络参数可以包括线性匹配参数和线性排序参数。
示例性的,召回模块可以采用多分辨率机制,将训练数据集中的每个样本以及对应的预标记标签作为输入,对召回条件进行逐层的优化训练。
例如,在优化处理过程中,将该训练样本输入到观点层级树,获取每一层的正/负例节点。其中,如果一个节点的某个子节点为正例,则记为正例。反之,如果一个节点的所有子节点都为负例,则记为负例。基于此,结合公式(1),通过设置交叉熵损失函数作为损失函数,采用随机梯度下降的方法,对观点层级树中各层中的召回条件进行优化训练。
公式(1):
其中,L为损失的值。N为样本量,例如样本量为1000时,则N对应设置为1000。M为样本的类别数。在本示例中,M可以为观点树一层的节点数量。yic为符号函数,可以设置为0或1。例如,样本i的真实类别等于c,则yic为1。反之,样本i的真实类别不等于c,则yic为0。log(pic)为样本i预测为属于类别c的概率。
这样,过上述优化训练的处理,能够使得基于S601-S604获取的观点层级树中,各个节点的注意力机制的相关参数,线性匹配和线性排序神经网络的参数的准确性得到显著提升。由此使得基于优化训练后的观点层级树的推理效果可以达到更加准确的效果。
在完成上述S605的训练操作后,如S606所示,召回模块可以将该优化训练后的观点层级树以及召回条件作为观点分析模型进行存储,以便于支持如图4所示的推理实现。
由此,结合上述图2-图14的说明,本领域技术人员应当能够对本申请实施例提供的技术方案有了详细的了解。
作为一种效果的对比,以下从准确性(Accuracy)、精度(Precision)以及召回(Recall)的角度,对基于上述图4以及图6的数据处理方法获取的观点标签的效果进行示例说明。
示例性的,结合如下公式(2)从准确性的角度进行评估。
公式(2):/>
其中,m为样本数量,y为真实观点集合。为预测观点集合。
结合如下公式(3)从精度的角度进行评估。
公式(3):
其中,Precision@k为TOP-K结果中预测正确的相关结果占返回的所有结果的比例。样本数量,y为真实观点集合。为预测观点集合。
结合如下公式(4)从精度的角度进行评估。
公式(4):
其中,Recall@k为top-k结果中预测正确的相关结果占所有相关结果的比例。
基于上述公式(2)-公式(4)对比基于本申请实施例提供的方案进行的观点标签的判决结果与现有技术(如图1所示的技术方案)中对观点标签的判决结果的对比情况如表1所示。
表1
本申请 现有技术
Accuracy 0.73 0.63
Precision@1 0.84 0.74
Precision@2 0.59 0.52
Precision@3 0.43 0.39
Recall@1 0.64 0.46
Recall@2 0.82 0.65
Recall@3 0.87 0.72
如表1所示,基于本申请,采用了注意力机制以及多分辨率学习机制后,相比于现有技术的方案,在各个维度的观点标签的判决效果都得到了显著的提升。
上述示例中,是以将本申请实施例提供的数据处理方法应用于观点标签筛选场景下为例进行说明的。在另一些实施例中,该数据处理方法还可以应用于其他场景。
示例性的,参考图15的示例。以本申请提供的数据处理方法应用于商品推荐场景为例。在对应于前述示例中的观点分析模型,该示例中可以设置有商品推荐模型。该商品推荐模型可以是基于商品推荐层级树以及多分辨率学习优化训练获取的。这样,在进行商品推荐场景下的推理时,通过对用户特征数据进行嵌入处理(Embedding)获取对应的嵌入信息。将该嵌入信息输入到商品推荐模型中,即可快速准确的获取对应用户的推荐商品清单。
需要说明的是,在上述实施例中的功能或动作或操作或步骤等,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时,可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包括一个或多个可以用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带),光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solidstate disk,SSD))等。
尽管结合具体特征及其实施例对本申请进行了描述,显而易见的,在不脱离本申请的精神和范围的情况下,可对其进行各种修改和组合。相应地,本说明书和附图仅仅是所附权利要求所界定的本申请的示例性说明,且视为已覆盖本申请范围内的任意和所有修改、变化、组合或等同物。显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包括这些改动和变型在内。

Claims (9)

1.一种数据处理方法,其特征在于,所述方法应用于数据处理装置中,所述数据处理装置用于确定目标设备的观点标签,所述方法包括:
获取第一输入文本,所述第一输入文本包括用户对所述目标设备的评价信息;
对所述第一输入文本进行标准化处理以获取标准化文本;所述标准化处理包括中文分词和/或去除停用词;
预设的词频逆文本频率指数TFIDF模型,对所述第一输入文本进行词频特征提取,以获取所述第一输入文本对应的至少一个词频特征;
拼接所述标准化文本以及所述至少一个词频特征,以获取所述第一输入文本的文本向量;
将所述文本向量输入观点分析模型,以便于所述观点分析模型输出所述至少一个观点标签;
其中,所述观点分析模型预设在所述数据处理装置中,所述观点分析模型包括观点层级树,以及每层对应的召回条件;所述观点层级树具有多叉树结构,所述召回条件包括注意力参数,线性匹配参数以及线性排序参数标识。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述第一输入文本,以及所述观点分析模型,确定所述至少一个观点标签中任一个观点标签与所述第一输入文本的相似度概率。
3.根据权利要求1或2所述的方法,其特征在于,所述观点分析模型是所述数据处理装置通过如下方法训练获取的:
获取训练数据集,所述训练数据集包括多个训练样本,每个所述训练样本包括至少一个用户对所述目标设备的评价信息;
根据所述多个训练样本,执行聚类处理,获取观点层级树;
使用所述训练数据集,对所述观点层级树各层对应的判断参数进行优化训练,获取所述观点分析模型。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
对所述训练数据集中的每个训练样本进行预标记,所述每个训练样本对应于至少一个预标记标签。
5.根据权利要求4所述的方法,其特征在于,在根据所述多个训练样本,执行聚类处理之前,所述方法还包括:
确定每个训练样本的词频特征;
确定每个预标记标签对应的第一向量,所述第一向量根据所述预标记标签对应的训练样本的词频特征确定;
确定每个预标记标签对应的第二向量,所述第二向量根据所述预标记标签对应的训练样本的注意力向量确定;
根据所述第一向量和所述第二向量,确定每个预标记标签对应的文本向量。
6.根据权利要求5所述的方法,其特征在于,所述根据所述多个训练样本,执行聚类处理,获取观点层级树,包括:
对所述每个预标记标签对应的文本向量进行聚类处理,获取所述观点层级树。
7.根据权利要求3所述的方法,其特征在于,所述使用所述训练数据集,对所述观点层级树各层对应的判断参数进行优化训练,获取所述观点分析模型,包括:
基于多分辨率学习机制,设置交叉熵损失函数作为损失函数,采用随机梯度下降法对所述观点层级树中各层的召回条件进行优化训练。
8.根据权利要求3所述的方法,其特征在于,所述聚类处理包括:基于Kmeans的聚类处理。
9.一种数据处理装置,其特征在于,所述数据处理装置中预设有观点分析模型,所述观点分析模型包括观点层级树,所述观点层级树具有多叉树结构;
所述装置用于根据权利要求1-8中任一项所述的方法确定目标设备的观点标签。
CN202211261924.8A 2022-10-14 2022-10-14 一种数据处理方法和数据处理装置 Active CN115687617B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211261924.8A CN115687617B (zh) 2022-10-14 2022-10-14 一种数据处理方法和数据处理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211261924.8A CN115687617B (zh) 2022-10-14 2022-10-14 一种数据处理方法和数据处理装置

Publications (2)

Publication Number Publication Date
CN115687617A CN115687617A (zh) 2023-02-03
CN115687617B true CN115687617B (zh) 2023-10-27

Family

ID=85067278

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211261924.8A Active CN115687617B (zh) 2022-10-14 2022-10-14 一种数据处理方法和数据处理装置

Country Status (1)

Country Link
CN (1) CN115687617B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103761264A (zh) * 2013-12-31 2014-04-30 浙江大学 基于商品评论文档集的概念层次创建方法
CN106649260A (zh) * 2016-10-19 2017-05-10 中国计量大学 基于评论文本挖掘的产品特征结构树构建方法
CN108363725A (zh) * 2018-01-08 2018-08-03 浙江大学 一种用户评论观点提取和观点标签生成的方法
CN110727796A (zh) * 2019-09-17 2020-01-24 华南理工大学 面向分级读物的多尺度难度向量分类方法
CN113220893A (zh) * 2021-07-09 2021-08-06 北京邮电大学 基于情感分析的产品反馈分析系统及方法
CN113688212A (zh) * 2021-10-27 2021-11-23 华南师范大学 句子情感分析方法、装置以及设备
CN114077836A (zh) * 2021-11-19 2022-02-22 中国电信集团系统集成有限责任公司 一种基于异构神经网络的文本分类方法及装置
CN114254110A (zh) * 2021-12-16 2022-03-29 胜斗士(上海)科技技术发展有限公司 用于确定文本数据的标签的方法和设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021227059A1 (zh) * 2020-05-15 2021-11-18 深圳市世强元件网络有限公司 一种基于多叉树的搜索词推荐方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103761264A (zh) * 2013-12-31 2014-04-30 浙江大学 基于商品评论文档集的概念层次创建方法
CN106649260A (zh) * 2016-10-19 2017-05-10 中国计量大学 基于评论文本挖掘的产品特征结构树构建方法
CN108363725A (zh) * 2018-01-08 2018-08-03 浙江大学 一种用户评论观点提取和观点标签生成的方法
CN110727796A (zh) * 2019-09-17 2020-01-24 华南理工大学 面向分级读物的多尺度难度向量分类方法
CN113220893A (zh) * 2021-07-09 2021-08-06 北京邮电大学 基于情感分析的产品反馈分析系统及方法
CN113688212A (zh) * 2021-10-27 2021-11-23 华南师范大学 句子情感分析方法、装置以及设备
CN114077836A (zh) * 2021-11-19 2022-02-22 中国电信集团系统集成有限责任公司 一种基于异构神经网络的文本分类方法及装置
CN114254110A (zh) * 2021-12-16 2022-03-29 胜斗士(上海)科技技术发展有限公司 用于确定文本数据的标签的方法和设备

Also Published As

Publication number Publication date
CN115687617A (zh) 2023-02-03

Similar Documents

Publication Publication Date Title
US20200285903A1 (en) System for time-efficient assignment of data to ontological classes
CN111126396B (zh) 图像识别方法、装置、计算机设备以及存储介质
US9256617B2 (en) Apparatus and method for performing visual search
CN110636445B (zh) 基于wifi的室内定位方法、装置、设备及介质
CN110990576B (zh) 基于主动学习的意图分类方法、计算机设备和存储介质
CN111582409A (zh) 图像标签分类网络的训练方法、图像标签分类方法及设备
CN112015898B (zh) 基于标签树的模型训练、文本标签确定方法及装置
CN111080551B (zh) 基于深度卷积特征和语义近邻的多标签图像补全方法
CN112015928A (zh) 多媒体资源的信息提取方法、装置、电子设备及存储介质
CN113656373A (zh) 构建检索数据库的方法、装置、设备以及存储介质
CN113298197A (zh) 数据聚类方法、装置、设备及可读存储介质
CN113806582A (zh) 图像检索方法、装置、电子设备和存储介质
CN115168590A (zh) 文本特征提取方法、模型训练方法、装置、设备及介质
CN114494709A (zh) 特征提取模型的生成方法、图像特征提取方法和装置
CN114492601A (zh) 资源分类模型的训练方法、装置、电子设备及存储介质
CN115687617B (zh) 一种数据处理方法和数据处理装置
Liyanage et al. Automating the classification of urban issue reports: an optimal stopping approach
CN112860759B (zh) 基于区块链安全认证的大数据挖掘方法及云认证服务系统
CN115146103A (zh) 图像检索方法、装置、计算机设备、存储介质和程序产品
CN114691875A (zh) 一种数据分类分级处理方法及装置
US20150186797A1 (en) Data reduction in nearest neighbor classification
CN115269998A (zh) 信息推荐方法、装置、电子设备及存储介质
CN114610953A (zh) 一种数据分类方法、装置、设备及存储介质
CN114625967A (zh) 基于大数据业务优化的用户信息挖掘方法及人工智能系统
CN113821657A (zh) 基于人工智能的图像处理模型训练方法及图像处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant