CN112906386B

CN112906386B - 一种确定文本特征的方法及装置

Info

Publication number: CN112906386B
Application number: CN201911223218.2A
Authority: CN
Inventors: 林建明; 代宇
Original assignee: Shenzhen Wuyu Technology Co ltd
Current assignee: Shenzhen Wuyu Technology Co ltd
Priority date: 2019-12-03
Filing date: 2019-12-03
Publication date: 2023-08-11
Anticipated expiration: 2039-12-03
Also published as: CN112906386A

Abstract

本发明提供了一种确定文本特征的方法及装置，属于计算机技术领域。该方法包括：确定样本文本对应的分词集合、以及分词集合中每个分词的词向量；基于预设的分词合并规则和分词集合包含的分词，确定分词组合，并根据各分词组合包含的分词的词向量，确定各分词组合的词向量；根据确定出的分词组合的词向量，计算分词组合之间的相关度、以及各分词组合的区分度；在分词组合中，确定与其他分词组合不满足预设相关度条件、且区分度大于第一预设阈值的目标分词组合；根据确定出的分词的词向量、目标分词组合的词向量，确定各样本文本对应的特征向量。采用本发明，可以提高模型的训练效果。

Description

一种确定文本特征的方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种确定文本特征的方法及装置。

背景技术

目前，在移动互联网时代，我们的生活、学习和工作会产生海量的数据，人们通常会通过机器学习等分类模型对这些数据进行分析，以便为用户提供更好的服务。这些数据通常为非结构数据(即文本数据)，在建立分类模型时，需要将非结构化数据进行结构化(即将文本数据转为数值型数据)，得到这些数据对应的特征，然后通过得到的特征训练分类模型。

相关技术中，在处理非结构化数据(可称为样本文本)时，一般是先对这些数据进行分词，通过One-Hot编码方式得到每个分词对应的词向量，其中，词向量的维数可以为样本文本的总数，用于表示该分词在各样本文本中是否出现。各分词的词向量可以构成一个高维稀疏矩阵，通过预设的分类算法对分词进行分类，然后分别针对每个分类中的分词进行筛选，从而对高维稀疏矩阵进行降维处理，得到非结构化数据对应的特征向量。

基于上述方案，仅通过降维的方式提高特征向量包含信息的有效性，而降维过程中，分类的准确性会对降维效果产生很大的影响，当一些分词无法确定分类时，则无法对该分词进行降维，从而使特征向量包含的无效信息较多，模型的训练效果较差。

发明内容

本发明实施例的目的在于提供一种确定文本特征的方法及装置，以解决使特征向量包含的无效信息较多、模型的训练效果较差问题。具体技术方案如下：

第一方面，提供了一种确定文本特征的方法，所述方法包括：

确定样本文本对应的分词集合、以及所述分词集合中每个分词的词向量；

基于预设的分词合并规则和所述分词集合包含的分词，确定分词组合，并根据各分词组合包含的分词的词向量，确定所述各分词组合的词向量；

根据确定出的分词组合的词向量，计算所述分词组合之间的相关度、以及各分词组合的区分度；

在所述分词组合中，确定与其他分词组合不满足预设相关度条件、且区分度大于第一预设阈值的目标分词组合；

根据确定出的分词的词向量、所述目标分词组合的词向量，确定所述各样本文本对应的特征向量。

可选的，所述方法还包括：

计算各分词的稳定度，并确定稳定度大于第二预设阈值的分词，作为满足预设筛选条件的分词；

所述基于预设的分词合并规则和所述分词集合包含的分词，确定分词组合，包括：

基于预设的分词合并规则和满足所述预设筛选条件的分词，确定分词组合。

可选的，所述计算各分词的稳定度，包括：

将所述样本文本分为预设数目个样本组；

针对每个分词，计算该分词在每个样本组中的区分度，得到所述预设数目个区分度；

确定大于所述第一预设阈值的目标区分度，并根据所述目标区分度的数目确定该分词的稳定度。

可选的，所述区分度至少包括信息值、信息增益、信息增益率、GINI指数、特征重要性和区分倍数中的一种或多种。

可选的，所述区分倍数的计算过程为：

针对每个分词，根据该分词的词向量，确定包含该分词的第一样本文本的第一数目，并确定所述第一样本文本中分类结果为预设类别的第一样本文本的第二数目、所述样本文本的总数、以及所述样本文本中分类结果为所述预设类别的第二样本文本的第三数目；

计算所述第二数目与所述第一数目的第一比值、以及所述第三数目与所述总数的第二比值；

将所述第一比值与所述第二比值的比值作为区分倍数。

可选的，所述确定稳定度大于第二预设阈值的分词，作为满足预设筛选条件的分词之后，还包括：

根据满足所述预设筛选条件的分词的数目确定复杂度，所述复杂度表示由所述分词构成的分词组合的最大数目，所述分词组合包含至少两个分词；

如果所述复杂度大于第三预设阈值，则根据预设的阈值增大规则，增大所述第一预设阈值和所述第二预设阈值；

根据增大后的第一预设阈值和第二预设阈值，重新确定满足预设筛选条件的分词。

可选的，所述基于预设的分词合并规则和所述分词集合包含的分词，确定分词组合，包括：

在所述分词中，提取K个分词构成分词组合，其中，所述K为大于2的正整数；

计算该分词组合的区分度，并判断已提取出的包含所述K个分词的分词组合的区分度是否满足预设收敛条件；

如果不满足，则继续提取所述K个分词构成分词组合，并返回所述计算该分词组合的区分度的步骤；

如果满足，则将K的当前取值加1，并返回在所述分词中，提取K个分词构成分词组合的步骤。

第二方面，提供了一种确定文本特征的装置，所述装置包括：

第一确定模块，用于确定样本文本对应的分词集合、以及所述分词集合中每个分词的词向量；

第二确定模块，用于基于预设的分词合并规则和所述分词集合包含的分词，确定分词组合，并根据各分词组合包含的分词的词向量，确定所述各分词组合的词向量；

第一计算模块，用于根据确定出的分词组合的词向量，计算所述分词组合之间的相关度、以及各分词组合的区分度；

第三确定模块，用于在所述分词组合中，确定与其他分词组合不满足预设相关度条件、且区分度大于第一预设阈值的目标分词组合；

第四确定模块，用于根据确定出的分词的词向量、所述目标分词组合的词向量，确定所述各样本文本对应的特征向量。

可选的，所述装置还包括：

第二计算模块，用于计算各分词的稳定度，并确定稳定度大于第二预设阈值的分词，作为满足预设筛选条件的分词；

所述第二确定模块，具体用于：

可选的，所述第二计算模块，具体用于：

将所述样本文本分为预设数目个样本组；

可选的，所述装置还包括：

复杂度计算模块，用于根据满足所述预设筛选条件的分词的数目确定复杂度，所述复杂度表示由所述分词构成的分词组合的最大数目，所述分词组合包含至少两个分词；

增大模块，用于如果所述复杂度大于第三预设阈值，则根据预设的阈值增大规则，增大所述第一预设阈值和所述第二预设阈值；

筛选模块，用于根据增大后的第一预设阈值和第二预设阈值，重新确定满足预设筛选条件的分词。

可选的，所述第二确定模块，具体用于：

第三方面，提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第一方面的任一方法步骤。

第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面的任一方法步骤。

第五方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面的任一方法步骤。

本发明实施例有益效果：

本发明实施例提供了一种确定文本特征的方法及装置，可以在确定样本文本对应的分词集合、以及分词集合中每个分词的词向量后，基于预设的分词合并规则和分词集合包含的分词，确定分词组合，并根据各分词组合包含的分词的词向量，确定各分词组合的词向量。然后，根据确定出的分词组合的词向量，计算分词组合之间的相关度、以及各分词组合的区分度，进而在分词组合中，确定与其他分词组合不满足预设相关度条件、且区分度大于第一预设阈值的目标分词组合，根据确定出的分词的词向量、目标分词组合的词向量，确定各样本文本对应的特征向量。通过本方案，可以通过扩展维度与降维结合的方式，提高特征向量包含信息的有效性，并且，在降维的过程中无需进行分类，避免了分类的准确性对降维效果的影响，从而能够保留有效信息，剔除无效信息，从而提高模型的训练效果。

当然，实施本发明的任一产品或方法并不一定需要同时达到以上的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种确定文本特征的方法的流程图；

图2为本发明实施例提供的一种区分倍数的计算过程的流程图；

图3为本发明实施例提供的一种稳定度的计算过程的流程图；

图4为本发明实施例提供的另一种确定文本特征的方法的流程图；

图5为本发明实施例提供的确定分词组合的过程的流程图；

图6为本发明实施例提供的一种确定文本特征的方法示例的流程图；

图7为本发明实施例提供的一种确定文本特征的装置的结构示意图；

图8为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种确定文本特征的方法，可以应用于电子设备，该电子设备可以是具有数据处理功能的设备。下面将结合具体实施方式，对本发明实施例提供的确定文本特征的方法进行详细的说明，如图1所示，具体步骤如下：

步骤101，确定样本文本对应的分词集合、以及分词集合中每个分词的词向量。

本发明实施例中，电子设备可以获取多个样本文本。在一个示例中，在对某些对象(比如用户、客户或目标人群)等进行分类的场景下，样本文本的内容可以是某对象的对象信息(比如用户信息或客户信息等)，或者，也可以是某对象发布的评论信息。样本文本可以为一个对象的对象信息。电子设备获取到样本文本后，可以确定各样本文本对应的分词集合、以及分词集合中每个分词的词向量。其中，该分词集合可以是通过分词得到的初始集合，也可以是对初始集合进行降维处理后得到的分词集合。其中，降维处理的过程可以采用现有降维过程，或者，也可以采用本发明实施例提供的降维过程。

在一种实现方式中，电子设备可以通过预设的分词算法，对样本文本进行分词处理，从而将样本文本划分成多个分词，其中，每个分词可以包含一个或多个文字。以每个分词可以包含一个文字为例，如果样本文本为中文文本，则划分出的分词为一个汉字，如果样本文本为英文文本，则划分出的分词为一个单词。这样，可以得到每个样本文本对应的分词集合。然后，电子设备可以确定各分词集合的并集，得到各样本文本对应的分词集合，可记为A。其中，分词集合中不包含标点符号。例如，A＝{将，文，本，分，字，…}。

电子设备得到分词集合A后，可以对分词集合A中的分词进行One-Hot编码，从而得到每个分词对应的词向量。其中，词向量的维数为样本文本的总数，用于表示该分词在各样本文本中是否出现。

在一个示例中，针对每个分词，可以分别确定该分词在各样本文本中是否存在，如果存在，则可以标记为1，如果不存在，可以标记为0。这样，可以得到该分词对应的词向量，该词向量是由0和1构成的向量。基于上述处理，针对每个分词，都可以确定出该分词对应的词向量，并且，各词向量中，相同位置的元素所对应的样本文本相同。这样，假设分词集合A包含N个分词，样本文本的总数为M，则可以得到一个M×N的矩阵，如下所示。

其中，每个分词对应的列为该分词的词向量，每一行构成一个样本文本的初始特征向量。

步骤102，基于预设的分词合并规则和分词集合包含的分词，确定分词组合，并根据各分词组合包含的分词的词向量，确定各分词组合的词向量。

本发明实施例中，电子设备可以基于预设的分词合并规则和分词集合包含的分词，确定分词组合。例如，可以随机选择N个分词进行组合，N为大于或等于2的整数。然后，针对选取的每个分词组合，可以获取该分词组合包含的分词的词向量，然后将这些向量相加，得到该分词组合的词向量。例如，分词“将”对应的词向量为(1,0,1)，分词“文”对应的词向量为(0,1,1)，分词组合“将文”对应的词向量为(1,1,2)。

可选的，对于分词集合是通过分词得到的初始集合的情况，可以先进行降维处理，然后再确定分词组合，具体的处理过程为：计算各分词的稳定度，并确定稳定度大于第二预设阈值的分词，作为满足预设筛选条件的分词；基于预设的分词合并规则和满足预设筛选条件的分词，确定分词组合。

本发明实施例中，一份样本文本中通常有成百上千个字，即N非常大。同时，一些字只会出现在少数样本的文本数据中，因此上述M×N的矩阵是一个高维稀疏矩阵。在初始集合包含的分词中，出现次数较低的分词属于噪音，若直接用N维变量建立分类模型，会导致分类模型复杂度高、效果差。因此，本发明实施例中，可以先对初始集合中的分词进行降维处理，然后再进行分词组合。

具体的，可以通过稳定度对分词进行筛选，从而实现降维的目的。其中，稳定度用于衡量对预设类别区分能力的稳定性。预设类别是需要通过分类模型进行识别的类别，比如性别、职业等。针对每个分词，电子设备可以计算该分词的区分度，进而根据区分度计算稳定度，然后判断该分词的稳定度是否大于第二预设阈值。如果大于，则保留该分词(该分词可称为目标分词)，如果不满足，则可以剔除该分词。然后，电子设备基于预设的分词合并规则和确定出的目标分词，确定分词组合。其中，区分度和稳定度的计算过程后续会进行详细说明。

这样，可以确定出能够有效区分预设类别、且对预设类别区分能力的比较稳定的分词。通过这些分词的词向量确定出的文本特征，能够减少特征向量包含的无效信息，从而提高模型的训练效果。

步骤103，根据确定出的分词组合的词向量，计算分词组合之间的相关度、以及各分词组合的区分度。

本发明实施例中，电子设备可以根据确定出的分词组合的词向量，计算分词组合之间的相关度、以及各分词组合的区分度。其中，相关度可以表示两个分词组合的接近程度，分词组合的相关度可以采用向量相关度的计算方法进行计算。在一个示例中，可以将两个词向量的余弦距离作为这两个词向量的相关度。

步骤104，在分词组合中，确定与其他分词组合不满足预设相关度条件、且区分度大于第一预设阈值的目标分词组合。

本发明实施例中，电子设备计算出分词组合的相关度和区分度后，可以确定词向量的相关度大于预设相关度阈值的分词组合，进而可以在这些分词组合中，选择区分度较大的分词组合，比如可以选择区分度最大的预设数目个分词组合。然后，电子设备可以在选择出的分词组合中，进一步确定区分度大于第一预设阈值的分词组合，作为目标分词组合。可选的，也可以先确定区分度大于第一预设阈值的分词组合，然后再从中选择与其他分词组合不满足预设相关度条件的目标分词组合，本发明实施例不做限定。

步骤105，根据确定出的分词的词向量、目标分词组合的词向量，确定各样本文本对应的特征向量。

本发明实施例中，电子设备确定出分词的词向量、以及目标分词组合的词向量后，可以得到各样本文本对应的特征向量。例如，分词的词向量、以及目标分词组合的词向量构成的矩阵可以如下。

其中，第一行为确定出的分词和目标分词组合，其余四行依次对应样本1、样本2、样本3和样本4，则样本1的特征向量为(1,1,1,1,0,2)、样本2的特征向量为(0,1,1,0,1,2)、样本3的特征向量为(0,0,0,1,0,0)、样本4的特征向量为(1,1,0,0,1,1)。

可选的，本发明实施例中，区分度至少可以包括信息值、信息增益、信息增益率、GINI指数、特征重要性和区分倍数中的一种或多种。

在实际应用中，有监督的分类模型主要是二分类模型，为了方便描述本方案的实施方式，本发明实施例以二分类模型为例，对各区分度的计算过程进行说明，具体内容如下。

该示例中，需要通过二分类模型进行识别的类别为预设类别，可以预先标注各样本文本对应的分类结果(即是否属于该预设类别)，分类结果可以以目标变量Y表示，Y的取值集合为{1,0}。其中，1表示属于预设类别，0表示不属于预设类别。

其中，信息值的计算过程为：假设每个分词对应一个变量X，变量X的取值为x_i，{x_i|i＝1,2,…,n}。x_i表示该分词的词向量包含的元素的取值，例如，对于单字，词向量由0和1构成，则i的值为1和2，x₁对应0，x₂对应1。每个取值对应的样本数为{s_i|i＝1,2,…,n}，即，s_i表示变量值为x_i的样本个数。例如，分词“文本”词向量中，取值为2的数目是2，取值为0的数目为1，取值为1的数目为1，则s₁为1，s₂为1，s₃为2。

可以记目标变量的个数为{(t_i0,t_i1)|i＝1,2,…,n}，其中，t_i0表示该分词对应的词向量中，变量值为x_i的样本文本中目标变量Y＝0的样本数，t_i1表示该分词对应的词向量中，变量值为x_i的样本中目标变量Y＝1的样本数。

则可以得到该分词对应的信息值

区分倍数的计算过程可以如图2所示，具体包括以下步骤。

步骤201，针对每个分词，根据该分词的词向量，确定包含该分词的第一样本文本的第一数目，并确定第一样本文本中分类结果为预设类别的第一样本文本的第二数目、样本文本的总数、以及样本文本中分类结果为预设类别的第二样本文本的第三数目。

本发明实施例中，针对每个分词，电子设备可以根据该分词的词向量，统计包含该分词的第一样本文本的第一数目，例如，词向量为由0和1，其中，0表示样本文本中不包含该分词，1表示样本文本中包含该分词，则可以在该词向量中，确定1对应的样本文本，作为第一样本文本，并统计第一样本文本的数目(即第一数目，可记为h)。另外，电子设备还可以统计第一样本文本中分类结果为预设类别的第一样本文本的第二数目(可记为k)、样本文本的总数(可记为s)、以及样本文本中分类结果为预设类别的第二样本文本的第三数目(可记为t)。

步骤202，计算第二数目与第一数目的第一比值、以及第三数目与总数的第二比值。

步骤203，将第一比值与第二比值的比值作为区分倍数。

设区分倍数为B，则B＝(k/h)/(t/s)。

信息增益、信息增益率、GINI指数的计算过程可以参照现有的决策树ID3、C4.5、CART算法中的计算过程。特征重要性的计算过程可以参照随机森林、XGBOOST中的计算过程，本发明实施例不再赘述。

在一种实现方式中，可以设置区分度的阈值(即第一预设阈值，可记为α)。当B>α时，说明变量X(即该分词)能区分目标变量Y＝1的样本文本，另外，还可以设置用于区分目标变量Y＝0的样本文本的阈值，可记为α’，当B<α’时，说明变量X能区分目标变量Y＝0的样本，α>α’。对于每个分词，|B-1|的值越大，说明该分词对目标变量的区分能力越强。

可选的，在降维时，可以选择一种或多种区分度，相应的，可以分别针对每个区分度设置阈值，得到多个过滤条件，此时，分词的区分度需要满足全部区分度的过滤条件。

可选的，本发明实施例还提供了稳定度的计算过程，如图3所示，具体步骤包括：

步骤301，将样本文本分为预设数目个样本组。

本发明实施例中，可以将样本文本分为预设数目个样本组。其中，预设数目可以根据样本文本的总数确定，例如，预设数目可以与样本文本的总数成正相关。电子设备可以根据该预设数目，将样本文本等分成多个样本组。

步骤302，分别计算该分词在每个样本组中的区分度，得到预设数目个区分度。

其中，区分度的计算过程可以参照上述说明，此次不再赘述。

步骤303，确定大于第一预设阈值的目标区分度，并根据目标区分度的数目确定该分词的稳定度。

本发明实施例中，假设样本文本分为P个样本组，P为正整数，则可以分别计算变量X在每个样本组中的区分度，然后，可以确定大于第一预设阈值的目标区分度，并统计目标区分度的数目，可记为Q。在一种实现方式中，可以将Q作为该分词的稳定度，在另一种实现方式中，可以计算Q与P的比值，作为该分词的稳定度。稳定度越大，说明变量X对目标变量的区分能力越稳定。

可选的，还可以计算复杂度，并根据复杂度降低筛选出的分词数量，如图4所示，具体的处理为：

步骤401，根据满足预设筛选条件的分词的数目确定复杂度。

本发明实施例中，电子设备可以统计满足预设筛选条件的分词的数目，然后，根据该数目确定复杂度。该复杂度表示由分词构成的分词组合的最大数目，每个分词组合包含至少两个分词。假设满足预设筛选条件的分词的数目为m，则复杂度为2<＝n<m，i为分词组合中包含的分词的个数，n为满足预设筛选条件的分词的数目。由于分词组合的数目越多，扩展维度就越复杂，所以用分词组合的数目表示复杂度。

步骤402，如果复杂度大于第三预设阈值，则根据预设的阈值增大规则，增大第一预设阈值和第二预设阈值。

本发明实施例中，如果复杂度大于第三预设阈值，则说明扩展维度比较复杂，需要减少筛选出的分词的数目。电子设备可以根据预设的阈值增大规则，增大第一预设阈值和第二预设阈值。以第一预设阈值为例，可以将第一预设阈值增大预设数值，可以将第一预设阈值增大预设百分比，或者，也可以根据当前筛选出的分词的数目，确定需要增大的数值。阈值增大规则可以由技术人员根据实际需求确定，本发明实施例不做限定。

步骤403，根据增大后的第一预设阈值和第二预设阈值，重新确定满足预设筛选条件的分词。

本发明实施例中，电子设备可以根据增大后的第一预设阈值和第二预设阈值，重新确定满足预设筛选条件的分词，由于增大了第一预设阈值和第二预设阈值，所以重新确定出的分词的数目会降低，从而降低扩展维度的复杂度。另外，可以重新确定出的分词对应的复杂度仍大于第三预设阈值，则可以继续增大第一预设阈值和第二预设阈值，直到复杂度小于或等于第三预设阈值为止。

可选的，本发明实施例还提供了确定分词组合的过程，如图5所示，具体包括以下步骤。

步骤501，在分词中，提取K个分词构成分词组合。

其中，K为大于2的正整数，且K的初始值为2。

本发明实施例中，电子设备可以从分词中随机提取包含K个分词，作为一个分词组合，或者，电子设备也可以按照分词的在矩阵中对应的排列顺序，依次提取K个分词，作为一个分词组合。基于上述说明可知，分词提取的范围可以是初始分词集合，也可以是降维后的目标分词。

步骤502，计算该分词组合的区分度，并判断已提取出的包含K个分词的分词组合的区分度是否满足预设收敛条件。

本发明实施例中，电子设备可以计算当前提取出的分词组合的区分度，并可以判断已提取出的包含K个分词的分词组合的区分度是否满足预设收敛条件(即是否收敛)。

步骤503，如果不满足，则继续提取K个分词构成分词组合，并返回计算该分词组合的区分度的步骤。

本发明实施例中，如果不满足，则保持当前K的数值不变，继续提取K个分词以构成分词组合，并返回计算该分词组合的区分度的步骤，直到提取出的包含K个分词的分词组合的区分度收敛为止。

步骤504，如果满足，则将K的当前取值加1，并返回在分词中，提取K个分词构成分词组合的步骤。

在一个示例中，每个分词对应一个变量，假设分词的数目为T，则从T个变量中随机抽取K个变量，K＝2,3,…,T，每个变量被抽到的概率为{p₁,p₂,…,p_t}，p_i可以根据每个变量对应的字的频率赋值，也可以令p_i＝1/T，将抽到的K个变量相加得到新变量V，变量V的取值集合为{v|0<＝v<＝K,v∈N⁺}。其中，在提取出新变量后，可以将新变量加入到矩阵中，N⁺即为更新后的矩阵。

本发明实施例中，可以在确定样本文本对应的分词集合、以及分词集合中每个分词的词向量后，基于预设的分词合并规则和分词集合包含的分词，确定分词组合，并根据各分词组合包含的分词的词向量，确定各分词组合的词向量。然后，根据确定出的分词组合的词向量，计算分词组合之间的相关度、以及各分词组合的区分度，进而在分词组合中，确定与其他分词组合不满足预设相关度条件、且区分度大于第一预设阈值的目标分词组合，根据确定出的分词的词向量、目标分词组合的词向量，确定各样本文本对应的特征向量。通过本方案，可以通过扩展维度与降维结合的方式，提高特征向量包含信息的有效性。本方案中，可以先降维-扩展维度-再降维，也可以先扩展维度-降维-再扩展维度-再降维，具体过程可以由技术人员根据需求确定。本方案在降维过程中，无需对分词进行分类，避免了分类的准确性对降维效果的影响，从而能够保留有效信息，剔除无效信息，从而提高模型的训练效果。

本发明实施例还提供了一种确定文本特征的方法示例，如图6所示，具体包括以下步骤。

步骤601，获取样本集合，该样本集合包含M个样本文本。

步骤602，确定样本集合对应的分词集合。

其中，可以分别对每个样本文本进行分词处理，得到每个样本文本对应的分词集合。然后，确定各分词集合的并集，得到样本集合对应的分词集合。分词集合包含的分词数可记为N。

步骤603，通过one-hot编码确定分词集合中每个分词的词向量。

步骤604，输出M×N的0-1矩阵。

步骤605，将样本集合中的样本文本分为P个样本组。

步骤606，计算各分词在各样本组中的区分度。

步骤607，根据各分词的区分度和α，计算各分词的稳定度。

其中，α为第一预设阈值。

步骤608，确定稳定度大于β的分词。

其中，β为第二预设阈值。

步骤609，计算复杂度，并判断复杂度是否大于γ。

其中，γ为第三预设阈值。

如果复杂度大于或等于γ，则执行步骤610。

如果复杂度小于γ，则执行步骤611。

步骤610，增大α和β，并返回步骤607。

步骤611，输出降维后的M*T矩阵。

其中，T为降维后的目标分词的数目。

步骤612，在目标分词中，第i次提取K个分词构成分词组合。

其中，K为大于2的正整数，K的初始值为2，i为正整数，i的初始值为1。

步骤613，判断已提取出的包含K个分词的分词组合的区分度是否收敛。

如果是，则执行步骤614。否则，则执行步骤616。

步骤614，判断K是否等于T。

如果是，则执行步骤617，否则，执行步骤615。

步骤615，将K的当前取值加1，i的取值置为1，并返回步骤612。

步骤616，将i的取值加1，并返回步骤612。

步骤617，输出扩展维度后的矩阵。

步骤618，计算各分词组合的相关度和区分度。

步骤619，在分词组合中，剔除相关性高、或者区分度低的分词组合。

步骤620，根据剩余的分词组合的词向量和目标分词的词向量，确定特征向量。

基于相同的技术构思，本发明实施例还提供了一种确定文本特征的装置，如图7所示，该装置包括：

第一确定模块710，用于确定样本文本对应的分词集合、以及所述分词集合中每个分词的词向量；

第二确定模块720，用于基于预设的分词合并规则和所述分词集合包含的分词，确定分词组合，并根据各分词组合包含的分词的词向量，确定所述各分词组合的词向量；

第一计算模块730，用于根据确定出的分词组合的词向量，计算所述分词组合之间的相关度、以及各分词组合的区分度；

第三确定模块740，用于在所述分词组合中，确定与其他分词组合不满足预设相关度条件、且区分度大于第一预设阈值的目标分词组合；

第四确定模块750，用于根据确定出的分词的词向量、所述目标分词组合的词向量，确定所述各样本文本对应的特征向量。

可选的，所述装置还包括：

所述第二确定模块，具体用于：

可选的，所述第二计算模块，具体用于：

将所述样本文本分为预设数目个样本组；

可选的，所述装置还包括：

可选的，所述第二确定模块，具体用于：

本发明实施例中，可以在确定样本文本对应的分词集合、以及分词集合中每个分词的词向量后，基于预设的分词合并规则和分词集合包含的分词，确定分词组合，并根据各分词组合包含的分词的词向量，确定各分词组合的词向量。然后，根据确定出的分词组合的词向量，计算分词组合之间的相关度、以及各分词组合的区分度，进而在分词组合中，确定与其他分词组合不满足预设相关度条件、且区分度大于第一预设阈值的目标分词组合，根据确定出的分词的词向量、目标分词组合的词向量，确定各样本文本对应的特征向量。通过本方案，可以通过扩展维度与降维结合的方式，提高特征向量包含信息的有效性，并且，在降维的过程中，无需进行分类，避免了分类的准确性对降维效果的影响，从而能够保留有效信息，剔除无效信息，从而提高模型的训练效果。

基于相同的技术构思，本发明实施例还提供了一种电子设备，如图8所示，包括处理器801、通信接口802、存储器803和通信总线804，其中，处理器801，通信接口802，存储器803通过通信总线804完成相互间的通信，

存储器803，用于存放计算机程序；

处理器801，用于执行存储器803上所存放的程序时，实现如下步骤：

可选的，所述方法还包括：

可选的，所述计算各分词的稳定度，包括：

将所述样本文本分为预设数目个样本组；

可选的，所述区分倍数的计算过程为：

将所述第一比值与所述第二比值的比值作为区分倍数。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一确定文本特征的方法步骤。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一确定文本特征的方法步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种确定文本特征的方法，其特征在于，所述方法包括：

根据确定出的分词的词向量、所述目标分词组合的词向量，确定所述样本文本对应的特征向量；

其中，所述基于预设的分词合并规则和所述分词集合包含的分词，确定分词组合，包括：

在所述分词中，提取K个分词构成分词组合，其中，所述K为大于等于2的正整数，K的初始值等于2；

如果满足，则将K的当前取值加1，并返回在所述分词中，提取K个分词构成分词组合的步骤；

所述方法还包括：

根据增大后的第一预设阈值和第二预设阈值，重新确定满足预设筛选条件的分词；

2.根据权利要求1所述的方法，其特征在于，所述计算各分词的稳定度，包括：

将所述样本文本分为预设数目个样本组；

3.根据权利要求1-2任一所述的方法，其特征在于，所述区分度至少包括信息值、信息增益、信息增益率、GINI指数、特征重要性和区分倍数中的一种或多种。

4.根据权利要求3所述的方法，其特征在于，所述区分倍数的计算过程为：

将所述第一比值与所述第二比值的比值作为区分倍数。

5.一种确定文本特征的装置，其特征在于，所述装置包括：

第四确定模块，用于根据确定出的分词的词向量、所述目标分词组合的词向量，确定所述样本文本对应的特征向量；

所述第二确定模块，具体用于：

所述装置还包括：

筛选模块，用于根据增大后的第一预设阈值和第二预设阈值，重新确定满足预设筛选条件的分词；

所述第二确定模块，具体用于：

6.根据权利要求5所述的装置，其特征在于，所述第二计算模块，具体用于：

将所述样本文本分为预设数目个样本组；

7.根据权利要求5-6任一所述的装置，其特征在于，所述区分度至少包括信息值、信息增益、信息增益率、GINI指数、特征重要性和区分倍数中的一种或多种。

8.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-4任一所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-4任一所述的方法。