CN107301248B

CN107301248B - 文本的词向量构建方法和装置、计算机设备、存储介质

Info

Publication number: CN107301248B
Application number: CN201710590498.5A
Authority: CN
Inventors: 王超
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2017-07-19
Filing date: 2017-07-19
Publication date: 2020-07-21
Anticipated expiration: 2037-07-19
Also published as: CN107301248A

Abstract

本发明实施例公开了一种文本的词向量构建方法和装置、计算机设备、存储介质，该方法包括：依据文本类别标注数据构建全局词典，该全局词典中的每个词对应有各自所属的文本类别；依据全局词典中每个词在其所属的文本类别中出现的概率，计算每个词的词向量；根据所述文本类别的个数、全局词典中词的总个数和词向量，构建目标文本中每个词的目标词向量。本发明实施例依据全局词典中每个词在其所属的文本类别中出现的概率来计算并构建每个词的词向量，从而能够区分文本在不同类别中的差异信息，将这种文本的差异化信息带入词向量空间，使得分类性能优异，在数据倾斜比较严重的情况下也有良好的性能，提高分类的召回率和准确率。

Description

文本的词向量构建方法和装置、计算机设备、存储介质

技术领域

本发明实施例涉及文本分类技术，尤其涉及一种文本的词向量构建方法和装置、计算机设备、存储介质。

背景技术

文本分类技术大量的应用于各种文本处理系统，例如自动新闻推荐、搜索引擎和自动文本分析系统等，是各种文本挖掘和处理系统的基础，是一种极其重要的数据挖掘技术。

文本分类技术通常都需要将文本转化为词向量空间，在词向量空间的基础上进行文本分类。例如，经典的文本自动分类方法主要是通过词频逆文档频率将文本转化为词向量空间，然后利用svm(Support Vector Machine，支持向量机)或者逻辑回归来训练自动文本分类模型。然而，基于通过词频逆文档频率转化的词向量空间而训练出的文本分类模型，在数据倾斜比较严重的情况下，分类的召回率和准确率低。

发明内容

本发明实施例提供一种文本的词向量构建方法和装置、计算机设备、存储介质，以解决现有技术中基于通过词频逆文档频率转化的词向量空间而训练出的文本分类模型，在数据倾斜比较严重的情况下，分类的召回率和准确率低的问题。

第一方面，本发明实施例提供了一种方文本的词向量构建法，该方法包括：

依据文本类别标注数据构建全局词典，该全局词典中的每个词对应有各自所属的文本类别；

依据全局词典中每个词在其所属的文本类别中出现的概率，计算每个词的词向量；

根据所述文本类别的个数、全局词典中词的总个数和词向量，构建目标文本中每个词的目标词向量。

第二方面，本发明实施例还提供了一种文本的词向量构建装置，该装置包括：

全局词典构建模块，用于依据文本类别标注数据构建全局词典，该全局词典中的每个词对应有各自所属的文本类别；

词向量计算模块，用于依据全局词典中每个词在其所属的文本类别中出现的概率，计算每个词的词向量；

目标词向量构建模块，用于根据所述文本类别的个数、全局词典中词的总个数和词向量，构建目标文本中每个词的目标词向量。

第三方面，本发明实施例还提供了一种计算机设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上所述的文本的词向量构建方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的文本的词向量构建方法。

本发明实施例先构建全局词典，并且全局词典中每个词都对应有各自所述的文本类别，然后依据全局词典中每个词在其所属的文本类别中出现的概率来计算并构建每个词的词向量，从而能够区分文本在不同类别中的差异信息，将这种文本的差异化信息带入词向量空间，使得分类性能优异，在数据倾斜比较严重的情况下也有良好的性能，提高分类的召回率和准确率。

附图说明

图1为本发明实施例一中的文本的词向量构建方法的流程图；

图2是本发明实施例二中的文本的词向量构建方法的流程图；

图3是本发明实施例三中的文本的词向量构建装置的结构示意图；

图4是本发明实施例四中的计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的文本的词向量构建方法的流程图，本实施例可适用于构建文本的词向量的情况，构建的词向量用于训练文本分类模型。该方法可以由文本的词向量构建装置来执行，该装置可以采用软件和/或硬件的方式实现。如图1所示，该方法具体包括：

S101、依据文本类别标注数据构建全局词典，该全局词典中的每个词对应有各自所属的文本类别。

具体的，文本类别标注数据是指文本中带有标注其所属文本类别的标注文本。可以通过多种途径获得文本类别标注数据，例如，从各大新闻网站自动抓取不同栏目和行业的新闻数据，也可以通过人工的方式给每条文本打上相应的类别标签。

由于每条标注文本都有其所属的文本类别，自然地，这些文本中包含的每个词也对应所属这些文本类别。依据文本类别标注数据构建全局词典，全局词典由标注文本中出现过的词构成，每个词在全局词典中对应有各自的位置。

S102、依据全局词典中每个词在其所属的文本类别中出现的概率，计算每个词的词向量。

具体的，文本类别标注数据所属的文本类别通常是多个，那么全局词典中每个词的词向量的长度与文本类别的个数有关，即，词向量中元素的个数等于文本类别的个数，而其中每个元素的值与词在其所属的各个不同的文本类别中出现的概率有关，从而能够区分文本在不同类别中的差异信息，并将这种文本的差异化信息带入词向量空间，

优选的，依据全局词典中每个词在其所属的文本类别中出现的概率，计算每个词的词向量，包括：

计算全局词典中每个词在其所属的文本类别中出现的概率与该词在全局词典中出现的概率的比值，并计算该比值的对数，得到每个词对应的对数值，对数值的个数与所述文本类别的个数相同；

将所述每个词对应的对数值作为该词的词向量中的元素。

S103、根据所述文本类别的个数、全局词典中词的总个数和词向量，构建目标文本中每个词的目标词向量。

优选的，S103具体包括：

初始化目标词向量为全零向量，其中，目标词向量的长度为文本类别的个数与全局词典中词的总个数的乘积；

查找目标文本中每个词在所述全局词典中的位置，依据该位置和文本类别的个数计算出目标文本中每个词在其目标词向量中的目标位置；

将目标文本中每个词在其目标词向量中的目标位置对应的元素，替换为该词在所述全局词典中对应的词向量。

具体的，目标词向量的长度与文本类别的个数和全局词典中词的总个数有关，具体是二者的乘积，并在初始化时将目标词向量中的这些元素全部初始化为零，然后就可以将目标文本中的每个词在全局词典中对应的词向量的元素替换其目标词向量中相应位置的元素，从而得到最终的目标词向量。

实施例二

图2为本发明实施例二提供的文本的词向量构建方法的流程图，本实施例二在实施例一的基础上进行进一步地优化。如图2所示，所述方法包括：

S201、获取文本类别标注数据。

需要说明的是，构建词向量的目的是用于训练文本分类模型，因此，这些文本类别标注数据也可以称作训练数据。若训练数据所属的文本类别的个数为N，则训练数据的文本标签列表为label_list＝(L_1，L_2…,L_N)，其中，N为大于等于2的自然数。

S202、依据文本类别标注数据构建全局词典，该全局词典中的每个词对应有各自所属的文本类别。

由于全局词典(global_dict)由训练文本中出现过的词构成，每个词在global_dict中都有一个与位置对应的下标k，例如，w_k表示global_dict中的第k个词，k为自然数。

S203、计算全局词典中每个词在其所属的文本类别中出现的概率与该词在全局词典中出现的概率的比值，并计算该比值的对数，得到每个词对应的对数值，对数值的个数与所述文本类别的个数相同；将所述每个词对应的对数值作为该词的词向量中的元素。

具体的，global_dict中第k个词w_k的词向量Word_vec_k可以表示为Word_vec_k＝(v_k_L_1,v_k_L_2,…,v_k_L_N)，其长度与文本类别的个数N有关。其中，v_k_L_m与词word_k在L_m类文本中出现的概率相关，1≤m≤N。

优选的，可以采用如下两种方式计算全局词典中每个词的词向量，其中v_m_k即表示全局词典中第k个词的词向量中，与文本类别m对应位置的元素值。

公式一：

其中，appearance(w_k,L_m)为L_m类文本中含有词w_k的文本数，1为平滑系数，避免出现零值，document_count(L_m)为标注数据中L_m类文本的个数，两者的比值即为L_m类文本包含词w_k的概率的估计值。appearance(w_k,all_document)为所有的标注文本中含有词w_k的文本数，document_count(all_document)为标注文本的个数，两者的比值即为所有标注文本包含词w_k的概率的估计值。

公式二：

其中，word_count(w_k,L_m)为词w_k在L_m类文本中出现的次数，1为平滑系数，避免出现零值，

为带平滑的L_m类文本中所有词出现的总次数，两者的比值为在L_m类文本中词w_k出现的概率。word_count(w_k,all_document)为词w_k在所有的标注文本中出现的次数，

为所有的标注文本中所有词出现的次数的平滑值的和，两者的比值为在所有标注文本中词w_k出现的概率。

S204、初始化目标词向量为全零向量，其中，目标词向量的长度为文本类别的个数与全局词典中词的总个数的乘积。

例如，若要构建任意指定文本D的目标词向量vec(D)，那么vec(D)的长度为文本类别的个数即标签列表的长度Len(label_list)乘以全局词典global_dict中词的个数Len(global_dict)。并将目标词向量中各个元素初始化为零。

S205、查找目标文本中每个词在所述全局词典中的位置，依据该位置和文本类别的个数计算出目标文本中每个词在其目标词向量中的目标位置。

S206、将目标文本中每个词在其目标词向量中的目标位置对应的元素，替换为该词在所述全局词典中对应的词向量。

具体的，对文本D中出现的每个词，查找其在global_dict中的下标k，那么该词在其目标词向量中的目标位置则可以根据k和文本类别的个数，即标签列表的长度Len(label_list)计算出来。

例如，若k是大于等于0的自然数，则该词在其目标词向量中的目标位置为k*Len(label_list)+1到(k+1)*Len(label_list)。举例来说，若Len(label_list)为2，Len(global_dict)为4，那么文本D的目标词向量vec(D)的长度为2*4＝8，若global_dict中词的位置分别为0～3，vec(D)中对应的位置分别为0～7。若文本D中当前要计算的词在global_dict中的位置即下标k为3，则该词在其目标词向量中的目标位置为3*2+1＝7到(3+1)*2＝8。于是，将vec(D)中第7、8位置对应的元素替换为该词在global_dict中对应的词向量Word_vec_3。

需要说明的是，构建出全部标注文本的词向量之后，则可以结合这些文本的标签信息构建训练数据集，然后可以利用诸如svm、逻辑回归、决策树(包含基于决策树的集成分类算法，例如random forest(随机森林)、GBDT(梯度提升决策树))或神经网络等分类算法训练文本自动分类器，以便利用该文本自动分类器进行文本分类。

本发明实施例依据全局词典中每个词在其所属的文本类别中出现的概率来计算并构建每个词的词向量，从而能够区分文本在不同类别中的差异信息，将这种文本的差异化信息带入词向量空间，使得分类性能优异，尤其是在短文本自动分类中性能优异，在数据倾斜比较严重的情况下也有良好的性能，提高分类的召回率和准确率。

实施例三

图3是本发明实施例三中的文本的词向量构建装置的结构示意图。如图3所示，文本的词向量构建装置包括：

全局词典构建模块310，用于依据文本类别标注数据构建全局词典，该全局词典中的每个词对应有各自所属的文本类别；

词向量计算模块320，用于依据全局词典中每个词在其所属的文本类别中出现的概率，计算每个词的词向量；

目标词向量构建模块330，用于根据所述文本类别的个数、全局词典中词的总个数和词向量，构建目标文本中每个词的目标词向量。

优选的，词向量计算模块320包括：

第一计算单元，用于计算全局词典中每个词在其所属的文本类别中出现的概率与该词在全局词典中出现的概率的比值；

第二计算单元，用于计算所述比值的对数，得到每个词对应的对数值，对数值的个数与所述文本类别的个数相同；

确定单元，用于将所述每个词对应的对数值作为该词的词向量中的元素。

优选的，所述词向量计算模块还用于在计算全局词典中每个词的词向量时，设置有平滑系数。

优选的，目标词向量构建模块330包括：

初始化单元，用于初始化目标词向量为全零向量，其中，目标词向量的长度为文本类别的个数与全局词典中词的总个数的乘积；

目标位置计算单元，用于查找目标文本中每个词在所述全局词典中的位置，依据该位置和文本类别的个数计算出目标文本中每个词在其目标词向量中的目标位置；

替换单元，用于将目标文本中每个词在其目标词向量中的目标位置对应的元素，替换为该词在所述全局词典中对应的词向量。

本发明实施例所提供的文本的词向量构建装置可执行本发明任意实施例所提供的文本的词向量构建方法，具备执行方法相应的功能模块和有益效果。

实施例四

图4为本发明实施例四提供的一种计算机设备的结构示意图。图4示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图4显示的计算机设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图4未显示，通常称为“硬盘驱动器”)。尽管图4中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的文本的词向量构建方法：

实施例五

本发明实施例五还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例所提供的文本的词向量构建方法：

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种文本的词向量构建方法，其特征在于，包括：

依据全局词典中每个词在其所属的文本类别中出现的概率，计算每个词的词向量，其中，所述每个词的词向量中元素的个数等于文本类别的个数，每个元素的值与该词在其所属的各个不同的文本类别中出现的概率有关；

2.根据权利要求1所述的方法，其特征在于，所述依据全局词典中每个词在其所属的文本类别中出现的概率，计算每个词的词向量，包括：

将所述每个词对应的对数值作为该词的词向量中的元素。

3.根据权利要求2所述的方法，其特征在于，所述依据全局词典中每个词在其所属的文本类别中出现的概率，计算每个词的词向量，还包括：

在计算全局词典中每个词的词向量时，设置有平滑系数。

4.根据权利要求1所述的方法，其特征在于，所述根据所述文本类别的个数、全局词典中词的总个数和词向量，构建目标文本中每个词的目标词向量，包括：

5.一种文本的词向量构建装置，其特征在于，包括：

词向量计算模块，用于依据全局词典中每个词在其所属的文本类别中出现的概率，计算每个词的词向量，其中，所述每个词的词向量中元素的个数等于文本类别的个数，每个元素的值与该词在其所属的各个不同的文本类别中出现的概率有关；

6.根据权利要求5所述的装置，其特征在于，所述词向量计算模块包括：

7.根据权利要求6所述的装置，其特征在于，所述词向量计算模块还用于在计算全局词典中每个词的词向量时，设置有平滑系数。

8.根据权利要求5所述的装置，其特征在于，所述目标词向量构建模块包括：

9.一种计算机设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-4中任一所述的文本的词向量构建方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4中任一所述的文本的词向量构建方法。