CN111858923A

CN111858923A - 一种文本分类方法、系统、装置及存储介质

Info

Publication number: CN111858923A
Application number: CN201911352244.5A
Authority: CN
Inventors: 程浩; 杨晓庆; 李奘
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2020-10-30

Abstract

本说明书实施例公开了一种文本分类方法、系统、装置及存储介质。所述文本分类方法包括：获取第一原始文本；所述第一原始文本通过第一处理模型进行向量化处理，确定所述第一原始文本的第一语义向量；通过第二处理模型，确定第二语义向量；所述第二处理模型的输入包括所述第一语义向量；通过第三处理模型，确定所述第一原始文本的一个或多个分类标记；所述第三处理模型的输入包括所述第二语义向量。本说明书实施例提供的方法可以更有效的对文本进行分类，提高分类的准确率。

Description

一种文本分类方法、系统、装置及存储介质

技术领域

本说明书实施例涉及自然语言处理领域，特别涉及一种文本分类方法、系统、装置及存储介质。

背景技术

自然语言处理(NLP，Natural Language Processing)作为研究人与计算机交互的语言问题的基础，融合了语言学、计算机科学、数学等学科为一体，也是人工智能的核心课题之一。而在例如语义分析、情感分类等具体的自然语言处理任务中，往往需要先将海量的输入文本进行分类。通过人工手段对这些文本进行分类，工作量巨大，而且准确率难以保证。基于词典的文本分类，利用权威的词典，依照经验人工构造特征，模型准确率较高，但由于词典覆盖率低，导致模型召回率较低。

因此，希望提供一种更有效的对文本进行分类的方案。

发明内容

本说明书实施例的一个方面提供一种对文本进行分类的方法。所述方法包括：获取第一原始文本；所述第一原始文本通过第一处理模型进行向量化处理，确定所述第一原始文本的第一语义向量；通过第二处理模型，确定第二语义向量；所述第二处理模型的输入包括所述第一语义向量；通过第三处理模型，确定所述第一原始文本的一个或多个分类标记；所述第三处理模型的输入包括所述第二语义向量。

本说明书实施例的另一个方面提供一种对文本进行分类的系统。所述系统包括：数据获取模块，用于获取第一原始文本；语义向量模块，用于所述第一原始文本通过第一处理模型进行向量化处理，确定所述第一文本的第一语义向量；以及用于通过第二处理模型，确定第二语义向量；所述第二处理模型的输入包括所述第一语义向量；分类标记模块，用于通过第三处理模型，确定所述第一原始文本的一个或多个分类标记；所述第三处理模型的输入包括所述第二语义向量。

本说明书实施例的另一个方面提供一种对文本进行分类的装置。所述装置包括处理器以及存储器；所述存储器用于存储指令，其特征在于，所述指令被所述处理器执行时，导致所述装置实现对文本进行分类的方法对应的操作。

本说明书实施例的另一个方面提供一种计算机可读存储介质。所述存储介质存储计算机指令，当计算机读取存储介质中的计算机指令后，计算机运行对文本进行分类的方法。

附图说明

图1为根据本说明书一些实施例所示的文本进行分类的方法的示例性流程图。

图2为根据本说明书一些实施例所示的第二处理模型训练的方法的示例性流程图。

图3为根据本说明书一些实施例所示的结合对应评估人的特征和对应车辆的出行特征对用车评价文本进行分类的方法的示例性流程图。

图4为根据本说明书一些实施例所示的结合历史评估分类对用车评价文本进行分类的方法的示例性流程图。

图5为根据本说明书一些实施例所示的结合第三语义向量的文本进行分类的方法的示例性流程图。

具体实施方式

为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其它类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构或操作。

应当理解，本文使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换所述词语。

如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。

本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

自然语言处理(NLP，Natural Language Processing)作为研究人与计算机交互的语言问题的基础，融合了语言学、计算机科学、数学等学科为一体，也是人工智能的核心课题之一。在例如语义分析、情感分类等具体的自然语言处理任务中，往往需要先将海量的输入文本进行分类。但是，在有些分类任务中，文本对应的类别较多，某些类别对应的文本数量较少，如果机器学习方法无法获得足够的训练样本，从而难以实现有效的分类。

本说明书提供了一种能够更有效进行文本分类的方法。

首先说明本说明书的应用场景。

在业务应用中，有大量的文本需要进行分类。通过一个计算系统，可以自动地进行分类，最终得到分类的结果。

计算系统是指具有计算能力的系统，可以包括各种计算机，比如服务器、个人计算机，也可以是由多台计算机以各种结构连接组成的计算平台。

计算系统中可以包括处理器，处理器可以执行程序指令。处理器可以包括各种常见的通用中央处理器(central processing unit，CPU)，图形处理器(GraphicsProcessing Unit，GPU)，微处理器，特殊应用集成电路(application-specificintegrated circuit，ASIC)，或其他类型的集成电路。

计算系统中可以包括存储介质，存储介质可以存储指令，也可以存储数据。存储介质可包括大容量存储器、可移动存储器、易失性读写存储器、只读存储器(ROM)等或其任意组合。

计算系统还可以包括用于内部连接和与外部连接的网络。也可以包括用于输入或输出的终端。网络可以是有线网络或无线网络中的任意一种或多种。终端可以包括各类具有信息接收和/或发送功能的设备，如计算机、手机、文字扫描设备、显示设备、打印机等。

计算系统可以从存储介质，或者通过网络从外部获得待分类的文本，由处理器执行指令，对文本进行分类。对于分类结果，可以通过终端输出，可以保存至存储介质，也可以通过网络或各种接口向外部输出，还可以直接由处理器执行后续指令进行应用。

例如，可以由网约车平台的若干服务器，获取用车评价系统所获得的用车评价文本，执行程序进行分类，并将分类结果另外保存到某个数据库中。

在上述计算系统中，所使用的程序指令和/或数据，可能是通过其他过程生成的，比如机器学习模型的训练过程。这些训练过程可以是在上述计算系统中进行，也可以是在其他系统中进行，并将指令和/或数据迁移到上述计算系统中。

例如，在对用车评价文本进行分类时，执行的程序包括机器学习模型。使用的机器学习模型可以是在另外的服务器中训练好，然后迁移至进行分类的服务器中。

本说明书所述系统，可以由数据获取模块、数据输出模块及若干个数据处理模块组成。这些数据处理模块可以包括语义向量模块、分类标记模块、训练模块。上述模块均在应用场景所介绍的计算系统中执行，各模块包括各自的指令，指令可存储在存储介质上，指令可在处理器中执行。不同的模块可以位于相同的设备上，也可以位于不同的设备上。它们之间可以通过程序接口、网络等进行数据的传输，可以从存储设备中读取数据或者将数据写入到存储设备中。

数据获取模块可以用于获取第一原始文本。其中，第一原始文本是指需要进行分类的文本。在一些实施例中，可以从数据库或其他存储装置中，或者通过其他接口，获取第一原始文本。具体可参见图1的步骤110。

在一些实施例中，数据获取模块还可以用于获取用车评价文本作为原始文本，获取其他用车评价原始数据。在一些实施例中，所述其他用车评价原始数据包括对应评估人的特征。其中，对应评估人是做出对用车评价的用户，对应人的评估特征是指对应评估人至少一种及以上的属性的特征向量，可以从对应评估人注册信息的数据库中获取。在该实施例下，第三处理模型的输入包括评估人的特征。具体可参见图3的步骤340。在一些实施例中，所述其他用车评价原始数据包括对应车辆的出行特征。其中，对应车辆是用车评价所对应的车辆。对应车辆的出行特征，是指出行情况至少一种及以上属性的特征向量。具体地，出行特征可以包括各出行时间段、各出行区域和各出行里程长度。在该实施例下，第三处理模型的输入包括出行特征。具体可参见图3的步骤350。在一些实施例中，所述其他用车评价原始数据包括对应评估人的历史评估分类，以及对应车辆的历史评估分类。其中对应评估人的历史评估分类，是指根据对应评估人曾经做过的一次或多次评价内容，进行处理得出的一个或多个分类。对应车辆的历史评估分类，是指已做出的对车辆的评估分类。在一些实施例中，通过第五处理模型对历史评估分类处理得出历史评估向量。其中，第五处理模型可以是经过数据训练的RNN模型。在该实施例下，第三处理模型的输入包括历史评估向量。具体可参见图4的步骤440。

语义向量模块可以用于所述第一原始文本通过第一处理模型进行向量化处理，确定所述第一文本的第一语义向量。在一些实施例中，第一处理模型可以是Word2Vec模型、EIMo模型、词袋模型等。向量化处理是将文本输入第一处理模型，输出对应的一个或一组向量。具体可参见图1的步骤120。

语义向量模块还可用于通过第二处理模型，确定第二语义向量，所述第二处理模型的输入包括所述第一语义向量。第二处理模型是一个向量到向量的转换模型，所得到的向量在更大程度上代表了对应内容在分类上的意义。具体可参见图1的步骤130。

在一些实施例中，语义向量模块还可以用于所述第一原始文本通过第六处理模型进行向量化处理，确定所述第一文本的第三语义向量。所述第六处理模型是和第一处理模型不同的向量化处理模型。在一些实施例中，第六处理模型为ELMO模型。具体可参见图5的步骤540。

在一些实施例中，语义向量模块还可以用于通过第二处理模型，确定第四语义向量；所述第二处理模型的输入包括所述第三语义向量。具体可参见图5的步骤550。

分类标记模块可以用于通过第三处理模型，确定所述第一原始文本的一个或多个分类标记；所述第三处理模型的输入包括所述第二语义向量。其中，第三处理模型是一个分类模型。第三处理模型的输出为相应的一个或多个分类的评估值，根据一个或多个分类的评估值来确定第一原始文本的一个或多个分类标记。具体可参见图1的步骤140。

在一些实施例中，分类标记模块还可以用于通过第三处理模型，确定所述第一原始文本的一个或多个分类标记；所述第三处理模型的输入包括所述第四语义向量。具体可参见图5的步骤560。

训练模块可以用于基于第二原始文本，确定第一训练数据。在所述第一训练数据中，每一样本包括一对第三语义向量，以及一个同类标识；所述第三语义向量由所述第二原始文本通过所述第一处理模型进行向量化处理获得；所述同类标识表示所述一对第三语义向量所对应的所述第二原始文本是否属于同一分类；将所述第一训练数据的每一所述样本输入第四处理模型；所述第四处理模型包括两个使用相同参数的所述第二处理模型；所述一对第三语义向量分别作为两个所述第二处理模型的输入；所述第四处理模型基于所述两个第二处理模型的输出向量以及所述样本中的所述同类标识确定损失函数；所述第四处理模型基于所述损失函数通过训练确定所包含的所述第二处理模型的参数。具体可参见步骤2的步骤230。

图1是根据本说明书的一些实施例所示的示例性一种文本分类方法的流程图。如图1所示，文本分类方法100可以包括以下步骤：

步骤110，获取第一原始文本。具体地，步骤110可以由数据获取模块执行。

在步骤110中，可以从数据库或其他存储装置中，或者通过其他接口，获取第一原始文本。

第一原始文本是指需要进行分类的文本。例如，可以是用户对于使用网约车的评价文本，可以是专利说明书的摘要，等等。

以下为用户对网约车的评价文本示例：“我觉得安全可靠”、“家人非常满意”、“司机态度差”、“一般”、“还行”。

步骤120，对所述第一原始文本通过第一处理模型进行向量化处理，确定所述第一原始文本的第一语义向量。具体地，步骤120可以由语义向量模块执行。

在步骤120中，对所述第一原始文本通过第一处理模型进行向量化处理，得到向量。在本说明书中对所得到的向量称为第一语义向量。

向量化处理是将文本输入第一处理模型，输出对应的一个或一组向量。输出的向量是文本语义的数字化代表。在一些实施例中，第一处理模型可以是Word2Vec模型、EIMo模型、词袋模型等等，本说明书对此不作限制。

优选地，在一些实施例中，第一处理模型可以使用BERT模型。BERT的本质上是通过在海量的语料的基础上运行自监督学习方法为文本学习一个好的特征表示，我们可以直接使用BERT模型生成的特征表示作为一项任务的嵌入特征。所以BERT提供的是一个供其它任务迁移学习的模型，可以直接调用使用。

例如：“我觉得安全可靠”在步骤120中经过BERT模型所得到的第一语义向量为：

步骤130，通过第二处理模型，确定第二语义向量；所述第二处理模型的输入包括所述第一语义向量。具体地，步骤130可以由语义向量模块执行。

第二处理模型是一个向量到向量的转换模型，所得到的向量在更大程度上代表了对应内容在分类上的意义。

第二处理模型的输入是步骤120所确定的第一语义向量。第二处理模型的输出称为第二语义向量。

在一些实施例中，第二处理模型可以使用机器学习模型，该机器学习模型的训练方法参见图2的说明。所使用的机器学习模型可以是神经网络(NN)、卷积神经网络(CNN)、长短期记忆网络(LSTM)等。优选地，在一些实施例中可以使用长短期记忆网络(LSTM)。

例如，步骤120得到的第一语义向量经过长短期记忆网络(LSTM)处理后得到的第二语义向量为：

在一些实施例中，第二处理模型可以使用基于规则或统计的方式进行计算。

步骤140，通过第三处理模型，确定所述第一原始文本的一个或多个分类；所述第三处理模型的输入包括所述第二语义向量。具体地，步骤140可以由分类标记模块执行。

第三处理模型是一个分类模型。

第三处理模型的输入是步骤130所确定的第二语义向量。第三处理模型的输出为相应的一个或多个分类的评估值。

输出的评估值可以保存至存储设备，或者通过接口传输给其他设备，或者用其他常见方式输出。输出可通过数据输出模块进行。

由于输入的向量是由第一原始文本通过前述步骤得到，因此可以根据输出的评估值确定所述第一原始文本的分类。

在一些实施例中，输出为一个分类的评估值，可以根据该值的大小判断第一原始文本是否属于该分类。判断的依据可以为一个阈值，该阈值可以根据需要设定。

例如，分类为：是否属于“积极评价”，设置阈值为0.5，第一原始文本的输出值大于0.5，则属于“积极评价”，否则不属于“积极评价”。

在一些实施例中，输出为多个分类的评估值，可以确定第一原始文本属于评估值最大的分类。

例如，分类有：“积极评价”、“消极评价”、“中性评价”，第一原始文本在各个分类的评估值分别是0.3、0.6、0.9，第一原始文本则属于评估值最大的“中性评价”。

在一些实施例中，输出为多个分类的评估值，可以根据这些值的大小确定第一原始文本属于其中一个或多个分类。判断的依据可以为一个阈值，该阈值可以根据需要设定。

例如，分类有：“道路熟悉情况”、“服务态度”、“车内环境”，设置阈值为0.5，第一原始文本“司机技术还可以，就是态度差”的输出值大于设置的阈值则属于对应的分类。如第一原始文本在所述分类的评估值分别是0.6、0.9、0.3，第一原始文本则属于“道路熟悉情况”和“服务态度”。

在一些实施例中，第三处理模型可以是支持向量机(SVM)，可以是神经网络。

优选地，在一些实施例中，第三处理模型可以使用逻辑回归模型。该逻辑回归模型可以通过样本数据训练得到。

在训练第三处理模型时，通过原始文本获得训练数据，包括训练文本及对应的分类。将训练文本依次通过第一处理模型和第二处理模型进行处理，得到训练样本中的向量。将这些向量作为训练样本的输入，将对应的分类作为标识，可以对第三处理模型进行训练。

依次通过第一处理模型和第二处理模型进行处理的过程与前文相似，这里不再重复。

上述方式的关键是通过第二处理模型得到了第二语义向量，第二语义向量相比第一语义向量更能代表原始文本的分类意义，从而可以使第三处理模型更有效地进行分类。相比直接通过原始文本训练第三处理模型，本说明书所提供的方法可以更好地解决某些分类训练样本不足的问题。

图2是根据本说明书的一些实施例所示的第二处理模型训练方法的流程图。如图2所示，第二处理模型的训练方法200可以包括以下步骤：

在步骤210中，可以从数据库或其他存储装置中，或者通过其他接口，获取第二原始文本。具体地，步骤210可以由数据获取模块执行。

第二原始文本是指用于对第二处理模型进行训练的文本，第二原始文本的来源和类型和第一原始文本可以相同，参见步骤110。

在步骤220中，基于第二原始文本，确定第一训练数据。所述第一训练数据的每一样本包括一对第三语义向量，以及一个同类标识；所述第三语义向量由所述第二原始文本通过所述第一处理模型进行向量化处理获得；所述同类标识表示所述一对第三语义向量所对应的所述第二原始文本是否属于同一分类。具体地，步骤220可以由训练模块执行。

第一训练数据的每一样本包括一对第三语义向量，以及一个同类标识。

第三语义向量由所述第二原始文本通过所述第一处理模型进行向量化处理获得，向量化处理方法与步骤120类似。

同类标识表示所述一对第三语义向量所对应的所述第二原始文本是否属于同一分类。

在一些实施例中，若一对第三语义向量所对应的所述第二原始文本属于同一分类则同类标识为0，否则为1。

以下为从第二类原始文本“用户对网约车的评价文本”中获取的第一训练数据的样本示例：

在一些实施例中，用户对网约车的评价文本可以包括“我觉得安全可靠”、“家人非常满意”、“司机态度差”。

例如，可以选取“我觉得安全可靠”和“司机态度差”获得一对第三语义向量，用“V1”和“V2”表示。“我觉得安全可靠”是积极评价，“司机态度差”是消极评价，可以看作不属于同一分类，同类标识为1。因此可以获取训练样本S1：(V1，V2，1)。

又例如，可以选取“我觉得安全可靠”和“家人非常满意”获得一对第三语义向量，用“V1”和“V3”表示。“我觉得安全可靠”和“家人非常满意”都是积极评价，可以看作属于同一分类，同类标识为0。因此可以获取训练样本S2：(V1，V3，0)。

训练数据的同类标识可以通过对第二原始文本进行人工筛选和标注获得，可以根据第二原始文本的分类数据计算获得，也可以通过其他方式获得。

在步骤230中，将所述第一训练数据的每一所述样本输入第四处理模型进行训练；所述第四处理模型包括两个使用相同参数的所述第二处理模型；所述第四处理模型基于所述两个第二处理模型的输出向量以及所述样本中的所述同类标识确定损失函数；所述第四处理模型基于所述损失函数通过训练确定所包含的所述第二处理模型的参数。具体地，步骤230可以由训练模块执行。

所述第四处理模型包括使用两个相同的参数的第二处理模型。所述第二处理模型的介绍参见步骤130。

将所述第一训练数据的每一样本中的一对所述第三语义向量分别作为两个所述第二处理模型的输入。例如，将训练样本S1中的“V1”和“V2”分别作为两个第二处理模型的输入。

在一些实施例中，每一样本中的一对语义向量可以是带有相同标识的语义向量，也可以是带有不同标识的语义向量。例如，一对语义向量可以是标识均为积极评价的“我觉得安全可靠”和“家人非常满意”。又例如，一对语义向量可以是标识为积极评价的“我觉得安全可靠”和标识为消极评价的“司机态度差”。

两个第二处理模型的输出各为一个向量。通过这两个第二处理模型的输出向量计算可以确定第四处理模型的输出向量。

在一些实施例中，可以通过对两个第二处理模型的输出向量计算余弦距离确定第四处理模型的输出向量。

例如，如果将两个第二处理模型的输出向量用a、b表示，则

在一些实施例中，可以通过对两个第二处理模型的输出向量计算欧式距离确定第四处理模型的输出向量。

例如，如果将两个第二处理模型的输出向量用a、b表示，则：

在其他实施例中，还可以使用其他公式确定第四处理模型的输出向量。

损失函数是一个函数，用来估量模型的预测值与真实值的不一致程度。它的输入是机器学习模型各样本的预测值与相应样本的真实值(标识的值)，它的输出可以是一个非负实值。

在一些实施例中，第四处理模型的损失函数可以基于第四处理模型的输出向量及相应样本的同类标识确定。由前述说明可知，由于通过这两个第二处理模型的输出向量计算可以确定第四处理模型的输出向量，因此基于两个第二处理模型的输出向量和相应样本的同类标识可以确定损失函数。

在一些实施例中，损失函数可以是平方损失函数、绝对值损失函数、对数损失函数等等，本说明书对此不作限制。

在一些实施例中，损失函数可以表示为：

公式：

其中，y_i代表训练样本Si中的同类标识，f(x_i)代表第四处理模型的输出向量，L(Y，f(x))为损失函数值，表示第四模型的预测值“输出向量f(x_i)”与真实值“同类标识y_i”的不一致程度。

以步骤230中的训练样本S1、S2举例说明：

例如，以a、b分别表示输入样本S1后两个第二处理模型的输出，即第四处理模型的输入x₁＝[a，b]，可以计算欧式距离确定的

以c、d分别表示为输入样本S2后两个第二处理模型的输出，即第四处理模型的输入x₂＝[c，d]，可以计算欧式距离确定的

那么损失函数

所述第四处理模型的输出向量是通过第二处理模型的参数计算获得，那么所述损失函数中也包含第二处理模型的参数。

例如，第二处理模型可以是卷积神经网络(CNN)分类模型，参数可以包括卷积神经网络卷积层的卷积核，即卷积层提取特征向量时的权重。

又例如，第二处理模型可以是长短期记忆网络(LSTM)分类模型，参数可以包括长短期记忆网络中的输入门(input gate)、输出门(output gate)和遗忘门(forget gate)的权重。

可以通过最小化损失函数来优化损失函数中所包含的第二处理模型的参数，进行模型的训练。

最小化损失函数的方法可以是梯度下降法，也可以是其他模型训练方法。

在一些实施例中，通过训练，可以同步更新两个第二处理模型的参数，得到两个训练好的第二处理模型，在步骤130中应用。

上述实施例至少具备以下之一的技术效果：(1)利用第四处理模型的输出来评价和训练第二处理模型，第四处理模型不被第二处理模型的种类局限，适用性广。(2)选取大量样本对第四处理模型进行训练，可以进一步优化第二处理模型的参数，从而提高第三处理模型(分类模型)的精确性。本实施例采用大量样本对基于CNN和LSTM的分类模型进行训练，效果均显示出明显提升。

图3是根据本说明书的一些实施例所示的示例性流程图，说明结合评估人特征和出行特征进行文本分类的方法。

如图3所示，在一些实施例中，用车评价文本分类方法可以包括以下步骤：

步骤310，获取用车评价文本。本步骤可参见步骤110的说明。

步骤320，对所述用车评价文本通过第一处理模型进行向量化处理，确定所述用车评价文本的第一语义向量。本步骤可参见步骤120的说明。

步骤330，通过第二处理模型，确定第二语义向量；所述第二处理模型的输入包括所述第一语义向量。本步骤可参见步骤130的说明。

步骤340，获取对应评估人的特征，详见后文说明。

步骤350，获取对应车辆出行特征，详见后文说明。

步骤330、步骤340和步骤350可以按任意次序执行，也可以同时执行。

步骤360，通过第三处理模型，确定所述用车评价文本的一个或多个分类；所述第三处理模型的输入包括所述第二语义向量、对应评估人的特征和/或出行特征。详见后文说明。

步骤340，可以从数据库或其他存储装置中，或者通过其他接口，获取对应评估人的特征。步骤340可以由数据获取模块执行。

对应评估人是做出对用车评价的用户。对应评估人的特征，是指对应评估人至少一种或多种属性的特征向量。

例如，对应评估人的属性可以包括年龄。例如，对应评估人甲的年龄属性是“18”。

可以通过对所述对应评估人的属性进行向量化处理，获取对应评估人的特征。

所述向量化处理可以通过常规的处理方法进行。例如，对应评估人甲的特征为X1＝(18)。

在一些实施例中，对应评估人的特征可以从对应评估人注册信息的数据库中获取。本说明书对此不作限制。

步骤350，可以从数据库或其他存储装置中，或者通过其他接口，获取对应车辆的出行特征。步骤350可以由数据获取模块执行。

对应车辆是用车评价所对应的车辆。对应车辆的出行特征，是指出行情况至少一种及以上属性的特征向量。

例如，出行情况的属性可以包括车辆各出行时间段(“7点至9点”、“9点至17点”、“17点至19点”、“19点至23点”、“23点至4点”和“4点至7点”)出行所对应的权重。例如，对应车辆A的出行时间段属性是(t₁，t₂，t₃，t₄，t₅，t₆)。

例如，出行情况的属性还可以包括车辆在各出行区域(“一环内”、“一环至二环”、“二环至三环”、“三环外”和“跨区域”)行驶里程所对应的权重。例如，对应车辆A的出行区域属性是(r₁，r₂，r₃，r₄，r₅)。

例如，出行情况的属性还可以包括车辆每次出行在各出行里程长度(“5公里以内”、“5至10公里”、“10至20公里”和“20公里以外”)对应的权重。例如，对应车辆A的出行里程长度属性是(d₁，d₂，d₃，d₄)。

可以通过对所述出行情况的属性进行向量化处理，获取对应车辆的出行特征。

例如，对应车辆A的属性(t₁，t₂，t₃，t₄，t₅，t₆)、(r₁，r₂，r₃，r₄，r₅)和(d₁，d₂，d₃，d₄)分别进行向量化处理后得到对应车辆的特征Y1、Y2和Y3。

所述向量化处理可以通过常规的处理方法进行。

步骤360，通过第三处理模型，确定所述用车评价文本的一个或多个分类；所述第三处理模型的输入包括所述第二语义向量、对应评估人的特征和/或出行特征。步骤360可以由分类标记模块执行。

第三处理模型的输入数据可以通过对第二语义向量、对应评估人的特征和/或出行特征进行处理获得。

在一些实施例中，可以将第二语义向量、对应评估人的特征和/或出行特征组合成一个矩阵，例如：步骤340中的对应评估人甲对步骤350的对应车辆A做出用车评价：“我觉得安全可靠”。其中用车评价文本“我觉得安全可靠”的第二语义向量V1是一个1×4的向量，对应评估人的特征向量(X1)是一个1×1的向量，出行特征向量(Y1，Y2，Y3)是一个1×3的向量，可以用“0”对维度低的向量进行补位，得到X＝(X1，0，0，0)，Y＝(Y1，Y2，Y3，0)，获得组合矩阵B＝(V1 X Y)。

在一些实施例中，可以给组合矩阵B中的向量设置权重，并根据第三处理模型的训练对权重进行调整，例如：组合成矩阵B＝(w₁y1 w₂X w₃Y)，对权重w₁、w₂和w₃可以进行预先人为设定。

本说明书对于将多个特征合并表示的具体方法不做限定。

第三处理模型的训练方法与步骤140中所说明的训练方法类似，只是需要在样本数据中除使用第二语义向量外，增加对应评估人的特征和/或出行特征，在此不再赘述。

第三处理模型的输出及模型选择可参见步骤140。

上述方式对比图1，增加了对应评估人的特征、对应车辆出行特征作为第三处理模型的输入，至少具备以下之一的技术效果：(1)为用车评价文本提供了语境，使第三处理模型对情感倾向类的文本判断不局限于文本字面含义，从而提高第三处理模型的准确性。(2)第三处理模型能够集成多种词向量，减少了数据稀疏问题，从而有效地构建上下文信息，准确地表达用车评价文本的意思。

图4是根据本说明书的一些实施例所示的示例性流程图，说明结合历史评估分类进行文本分类的方法。

如图4所示，在一些实施例中，文本分类方法可以包括以下步骤：

步骤410，获取用车评价文本。本步骤可参见步骤110的说明。

步骤440，获取对应评估人的历史评估分类，和/或对应车辆的历史评估分类，详见后文说明。

步骤410和步骤440可以按任意次序执行，也可以同时执行。

步骤420，对所述用车评价文本通过第一处理模型进行向量化处理，确定所述用车评价文本的第一语义向量。本步骤可参见步骤120的说明。

步骤430，通过第二处理模型，确定第二语义向量；所述第二处理模型的输入包括所述第一语义向量。本步骤可参见步骤130的说明。

步骤450，通过第五处理模型对历史评估分类处理得出历史评估向量，详见后文说明。

步骤450与步骤420、步骤430的执行次序不受限制。

步骤460，通过第三处理模型，确定所述用车评价文本的一个或多个分类；所述第三处理模型的输入包括所述第二语义向量，以及步骤450得出的历史评估向量。详见后文说明。

在步骤440中，可以从数据库或其他存储装置中，或者通过其他接口，获取对应评估人的历史评估分类，和/或对应车辆的历史评估分类。具体地，步骤440可以由数据获取模块执行。

对应评估人是做出对用车评价的用户。对应评估人的历史评估分类，是指根据对应评估人曾经做过的一次或多次评价内容，进行处理得出的一个或多个分类。此分类可以通过本说明书所述的方法做出，也可以通过其他方法做出。

例如，评估人甲历史上对车辆A的评估1：“司机抄近路把我准时送到了机场”，对应分类为“道路熟悉情况”；评估人甲历史上对车辆B的评估2：“车内的异味把我搞晕车了”，对应分类为“车内环境”。

对应车辆是用车评价所对应的车辆。对应车辆的历史评估分类，是指已做出的对车辆的评估分类。此分类可以通过本说明书所述的方法做出，也可以通过其他方法做出。

例如，对应车辆C历史上由评估人张三的评估1：“司机态度差”，对应分类为“服务态度”；对应车辆C历史上由评估人李四的评估2：“车内整洁”，对应分类为“车内环境”。

在步骤450中，通过第五模型对历史评估分类处理得出历史评估向量。步骤450可以由数据获取模块执行。

分类值可使用上述分类转化为标量值、向量或矩阵进行表示。

本说明书对于如何得出此分类值不做限定。

可以将步骤440获取的每一个分类进行处理，表示为与向量类似的形式。由此得到一个或多个矩阵。

例如：分类值为标量时，上面例子中的“道路熟悉情况”和“车内环境”可以分别对应分类号1和2，然后可以用向量[1，2]表示评估人甲的历史评估分类值，由此可以得到矩阵A0＝(1，2)。

例如：分类值为词向量时，对应车辆A历史上的评估分类“服务态度”、“车内环境”的分类值分别为W1，W2，由此可以得到矩阵A1＝(W1 W2)。

又例如，分类值为概率分布时，对应车辆A历史上的评估1的分类值为向量α1＝(0.2，0.8，0.3)，评估2的分类值为向量α2＝(0.4，0.2，0.9)，由此可以得到矩阵A2＝(α1 α2)。

可以对矩阵进行必要的对齐处理。

将上述矩阵输入第五模型，输出历史评估向量。历史评估向量可以为一个向量值，表示该用户历史评价的总体倾向。例如：H＝(P1，P2，P3)。历史评估向量也可以用其他的形式表示。

历史评估向量中每一维度所对应的分类值，可以与属于对应分类的概率相同，也可以与属于对应分类的概率不同。

在一些实施例中，第五模型可以是统计模型，CNN模型、RNN模型等等。

优选地，在一些实施例中，第五模型可以使用RNN模型。该RNN模型可以通过训练得到。

在使用RNN模型时，可以将历史上的多次评估值作为一个序列输入。

在上述各类模型中，训练时的样本数据可以通过对若干用户的历史评估分类进行预处理得到。

样本数据的标注可以通过多种方式获得，例如人工分析对应用户的历史评价文本并结合用户画像数据确定，本说明书对此不做限制。

在步骤460中，通过第三处理模型，确定所述第一原始文本的一个或多个分类；所述第三处理模型的输入包括所述第二语义向量，以及步骤450得出的历史评估向量。步骤460可以由分类标记模块执行。

第三处理模型的输入数据可以通过对第二语义向量和历史评估向量进行处理获得。

在一些实施例中，可以将第二语义向量和历史评估向量组合成一个矩阵，例如：将第二语义向量V2和历史评估向量H组合成一个矩阵。如果V2和H维度相同，则可以得到组合矩阵C＝(V2 H)；如果V2和H维度不同，可以用“0”对维度低的向量进行补位，参见步骤360。

在一些实施例中，可以给组合矩阵C中的向量设置权重，参见步骤360。

本说明书对于将多个特征合并表示的具体方法不做限定。

第三处理模型的训练方法与步骤130的训练方法类似，只是需要在样本数据中增加历史评估向量，在此不再赘述。

第三处理模型的输出及模型选择可参见步骤140。

上述方式的对比图1，增加了对应评估人的特征、对应车辆出行特征作为第三处理模型的输入，至少具备以下之一的技术效果：(1)为第三处理模型提供了时间维度的向量，避免了不同评估人和不同车辆的个体差异性产生的误差，从而提高第三处理模型的准确性；(2)丰富了第三处理模型的词向量类别，减少数据稀疏问题，更准确地表达用车评价文本的意思。

在一些实施例中，通过优选地使用RNN模型作为第五模型，可以结合用户评价的前后关系来生成模型的输入向量，使用模型计算过程中更多地考虑历史评估的前后关系和趋势，从而更好地代表用户评价的分类倾向。

图5是根据本说明书的一些实施例所示的示例性流程图，说明结合第三语义向量进行文本分类的方法500。

步骤510，获取第一原始文本。本步骤可参见步骤110的说明。

步骤520，对所述第一原始文本通过第一处理模型进行向量化处理，确定所述第一原始文本的第一语义向量。本步骤可参见步骤120的说明。

步骤540，对所述第一原始文本通过第六处理模型进行向量化处理，确定所述第一原始文本的第三语义向量，所述第六处理模型可以是ELMO模型，详见后文说明。

步骤530，通过第二处理模型，确定第二语义向量；所述第二处理模型的输入包括所述第一语义向量。本步骤可参见步骤130的说明。

步骤550，通过第二处理模型，确定第四语义向量；所述第二处理模型的输入包括所述第三语义向量。本步骤可参见步骤130的说明。

步骤560，通过第三处理模型，确定所述第一原始文本的一个或多个分类；所述第三处理模型的输入包括所述第二语义向量、第四语义向量。

步骤540，对所述第一原始文本通过第六处理模型进行向量化处理，确定所述第一原始文本的第三语义向量，所述第六处理模型可以是ELMO模型。步骤540可以由语义向量模块执行。

所述第六处理模型是和第一处理模型不同的向量化处理模型。在一些实施例中，第六理模型可以是Word2Vec模型、EIMo模型、词袋模型等等，本说明书对此不作限制。

在一些实施例中，可以设置第三处理模型中第一处理模型和第六处理模型向量化处理结果的输入权重。

在一些实施例中，第三处理模型还可以学习针对不同的原始文本自动调整第一处理模型和第六处理模型向量化处理结果的输入权重。

上述方式的实施例对比图1，增加了第六处理模型来获取第三语义向量，作为第三处理模型的输入，至少具备以下之一的技术效果：(1)不同类型的向量化模型可以构建不同方面的语义信息，使第三处理模型的分类更加全面；(2)由于原始文本类型的不同，两种不同类型的向量化模型对某一特定的分类任务贡献不同，第三处理模型可以通过调整权重具备区分能力，避免某一类型处理模型的负面影响，从而提高第三处理模型的准确性。

ELMO的本质是事先用语言模型在一个大的语料库上学习好词的向量化，然后用去除标签的训练数据来微调预训练好的ELMO模型，这样利用训练数据的上下文信息就可以获得词在当前语境下的向量化。ELMO模型可以解决语境问题，动态地去更新词的向量化。

例如：“我觉得安全可靠”在步骤540中经过ELMO模型得到的第三语义向量为：

步骤560，通过第三处理模型，确定所述第一原始文本的一个或多个分类；所述第三处理模型的输入包括所述第二语义向量、第四语义向量。步骤560可以由分类标记模块执行。

第三处理模型的输入数据可以通过对第二语义向量、第四语义向量进行处理获得。

在一些实施例中，可以将第二语义向量、第四语义向量组合成一个矩阵，例如：用车评价文本“我觉得安全可靠”的第二语义向量为V2，第四语义向量为V3，按照步骤360的方法使V2和V3维度相同，组合成矩阵D＝(V2 V3)。

在一些实施例中，可以给组合矩阵D中的向量设置权重，参见步骤360。

在一些实施例中，第三处理模型可以学习针对不同的原始文本自动调整矩阵D中的向量权重。

本说明书对于将多个特征合并表示的具体方法不做限定。

第三处理模型的训练方法与步骤130的训练方法类似，只是需要在样本数据中增加第四语义向量，在此不再赘述。

第三处理模型的输出及模型选择可参见步骤140。

本申请实施例可能带来的有益效果包括但不限于：(1)结合应用场景，可以通过输入不同类型的数据信息来提高分类模型的准确性。(2)可以集成多种词向量，有效构建上下文信息，减少数据稀疏问题。(3)分类模型的训练方法适用性广，不被分类模型的类型局限。需要说明的是，不同实施例可能产生的有益效果不同，在不同的实施例里，可能产生的有益效果可以是以上任意一种或几种的组合，也可以是其他任何可能获得的有益效果。

上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述详细披露仅仅作为示例，而并不构成对本申请的限定。虽然此处并没有明确说明，本领域技术人员可能会对本申请进行各种修改、改进和修正。该类修改、改进和修正在本申请中被建议，所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。

同时，本申请使用了特定词语来描述本申请的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外，本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域技术人员可以理解，本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外，本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。

计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号，例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式，包括电磁形式、光形式等，或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤电缆、RF、或类似介质，或任何上述介质的组合。

本申请各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写，包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等，常规程序化编程语言如C语言、Visual Basic、Fortran 2003、Perl、COBOL 2002、PHP、ABAP，动态编程语言如Python、Ruby和Groovy，或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网(LAN)或广域网(WAN)，或连接至外部计算机(例如通过因特网)，或在云计算环境中，或作为服务使用如软件即服务(SaaS)。

此外，除非权利要求中明确说明，本申请所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本申请流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如，虽然以上所描述的系统组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的服务器或移动设备上安装所描述的系统。

同理，应当注意的是，为了简化本申请披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本申请实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本申请对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

一些实施例中使用了描述成分、属性数量的数字，应当理解的是，此类用于实施例描述的数字，在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明，“大约”、“近似”或“大体上”表明所述数字允许有±20％的变化。相应地，在一些实施例中，说明书和权利要求中使用的数值参数均为近似值，该近似值根据个别实施例所需特点可以发生改变。在一些实施例中，数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本申请一些实施例中用于确认其范围广度的数值域和参数为近似值，在具体实施例中，此类数值的设定在可行范围内尽可能精确。

针对本申请引用的每个专利、专利申请、专利申请公开物和其他材料，如文章、书籍、说明书、出版物、文档等，特此将其全部内容并入本申请作为参考。与本申请内容不一致或产生冲突的申请历史文件除外，对本申请权利要求最广范围有限制的文件(当前或之后附加于本申请中的)也除外。需要说明的是，如果本申请附属材料中的描述、定义、和/或术语的使用与本申请所述内容有不一致或冲突的地方，以本申请的描述、定义和/或术语的使用为准。

最后，应当理解的是，本申请中所述实施例仅用以说明本申请实施例的原则。其他的变形也可能属于本申请的范围。因此，作为示例而非限制，本申请实施例的替代配置可视为与本申请的教导一致。相应地，本申请的实施例不仅限于本申请明确介绍和描述的实施例。

Claims

1.一种对文本进行分类的方法，包括：

获取第一原始文本；

所述第一原始文本通过第一处理模型进行向量化处理，确定所述第一原始文本的第一语义向量；

通过第二处理模型，确定第二语义向量；所述第二处理模型的输入包括所述第一语义向量；

通过第三处理模型，确定所述第一原始文本的一个或多个分类标记；所述第三处理模型的输入包括所述第二语义向量。

2.如权利要求1所述的对文本进行分类的方法，其特征在于，还包括所述第二处理模型通过以下训练方法获得：

基于第二原始文本，确定第一训练数据；在所述第一训练数据中，每一样本包括一对第三语义向量，以及一个同类标识；

所述第三语义向量由所述第二原始文本通过所述第一处理模型进行向量化处理获得；

所述同类标识表示所述一对第三语义向量所对应的所述第二原始文本是否属于同一分类；

将所述第一训练数据的每一所述样本输入第四处理模型；

所述第四处理模型包括两个使用相同参数的所述第二处理模型；所述一对第三语义向量分别作为两个所述第二处理模型的输入；所述第四处理模型基于所述两个第二处理模型的输出向量以及所述样本中的所述同类标识确定损失函数；所述第四处理模型基于所述损失函数通过训练确定所包含的所述第二处理模型的参数。

3.如权利要求1所述的对文本进行分类的方法，其特征在于，还包括：

所述原始文本为用车评价文本；

获取其他用车评价原始数据，

所述其他用车评价原始数据包括对应评估人的特征；

所述第三处理模型的输入包括所述评估人的特征。

4.如权利要求1所述的对文本进行分类的方法，其特征在于，还包括：

所述原始文本为用车评价文本；

获取其他用车评价原始数据，

所述其他用车评价原始数据包括对应的出行特征；

所述出行特征包括以下信息的至少一种：出行时间段、出行区域、出行里程长度；

所述第三处理模型的输入包括所述出行特征。

5.如权利要求1所述的对文本进行分类的方法，其特征在于，还包括：

所述原始文本为用车评价文本；

获取其他用车评价原始数据，

所述其他用车评价原始数据包括对应评估人的历史评估分类，以及对应车辆的历史评估分类；

通过第五处理模型对所述历史评估分类处理得出历史评估向量；

所述第三处理模型的输入包括所述历史评估向量。

6.如权利要求5所述的对文本进行分类的方法，其特征在于，所述第五处理模型可以是经过数据训练的RNN模型。

7.如权利要求1所述的对文本进行分类的方法，其特征在于，还包括：

获取第一原始文本；

所述第一原始文本通过第六处理模型进行向量化处理，确定所述第一原始文本的第三语义向量；

通过第二处理模型，确定第四语义向量；所述第二处理模型的输入包括所述第三语义向量；

通过第三处理模型，确定所述第一原始文本的一个或多个分类标记；所述第三处理模型的输入包括所述第四语义向量。

8.如权利要求7所述的对文本进行分类的方法，其特征在于，所述第六处理模型为ELMO模型。

9.一种对文本进行分类的系统，包括：

数据获取模块，用于获取第一原始文本；

语义向量模块，用于所述第一原始文本通过第一处理模型进行向量化处理，确定所述第一文本的第一语义向量；以及用于通过第二处理模型，确定第二语义向量；所述第二处理模型的输入包括所述第一语义向量；

分类标记模块，用于通过第三处理模型，确定所述第一原始文本的一个或多个分类标记；所述第三处理模型的输入包括所述第二语义向量。

10.如权利要求9所述的对文本进行分类的系统，其特征在于，还包括训练模块，所述训练模块用于：

将所述第一训练数据的每一所述样本输入第四处理模型；

11.如权利要求9所述的对文本进行分类的系统，其特征在于，所述数据获取模块还用于：

获取用车评价文本作为原始文本；

获取其他用车评价原始数据，

所述其他用车评价原始数据包括对应评估人的特征；

所述第三处理模型的输入包括所述评估人的特征。

12.如权利要求9所述的对文本进行分类的系统，其特征在于，所述数据获取模块还用于：

获取用车评价文本作为原始文本；

获取其他用车评价原始数据，

所述其他用车评价原始数据包括对应的出行特征；

所述第三处理模型的输入包括所述出行特征。

13.如权利要求9所述的对文本进行分类的系统，其特征在于，所述数据获取模块还用于：

获取用车评价文本作为原始文本；

获取其他用车评价原始数据，

所述第三处理模型的输入包括所述历史评估向量。

14.如权利要求13所述的对文本进行分类的系统，其特征在于，

所述第五处理模型是经过数据训练的RNN模型。

15.如权利要求9所述的对文本进行分类的系统，其特征在于，

所述语义向量模块还用于：所述第一原始文本通过第六处理模型进行向量化处理，确定所述第一文本的第三语义向量；通过第二处理模型，确定第四语义向量；所述第二处理模型的输入包括所述第三语义向量；

所述分类标记模块还用于：通过第三处理模型，确定所述第一原始文本的一个或多个分类标记；所述第三处理模型的输入包括所述第四语义向量。

16.如权利要求15所述的对文本进行分类的系统，其特征在于，所述第六处理模型为ELMO模型。

17.一种对文本进行分类的装置，所述装置包括处理器以及存储器；所述存储器用于存储指令，其特征在于，所述指令被所述处理器执行时，导致所述装置实现如权利要求1至8中任一项所述对文本进行分类的方法对应的操作。

18.一种计算机可读存储介质，其特征在于，所述存储介质存储计算机指令，当计算机读取存储介质中的计算机指令后，计算机运行如权利要求1至8中任意一项所述对文本进行分类的方法。