CN108595416A

CN108595416A - 字符序列处理方法及设备

Info

Publication number: CN108595416A
Application number: CN201810257040.2A
Authority: CN
Inventors: 陆晨昱; 武拥珍; 何永; 李传丰; 刘杰汉
Original assignee: Yi Language Intelligent Technology (shanghai) Co Ltd
Current assignee: Yi Language Intelligent Technology (shanghai) Co Ltd
Priority date: 2018-03-27
Filing date: 2018-03-27
Publication date: 2018-09-28

Abstract

本发明的目的是提供一种字符序列处理方法及设备，提出一种结合利用词向量和字向量的方案，提供所述连续词向量序列中的词向量个数与所述连续字向量序列中的字向量个数一致，所述连续字向量序列中的每一个字向量与所述连续词向量序列中的一个词向量对应，可以实现依序将所述连续字向量序列中的每一个字向量与所述连续词向量序列中对应的一个词向量拼接，得到字词混合的连续向量序列。在本发明中，因为同时使用了词向量和字向量，使得得到的字词混合的连续向量序列可以包含对应的词向量和字向量的语义信息。

Description

字符序列处理方法及设备

技术领域

本发明涉及计算机领域，尤其涉及一种字符序列处理方法及设备。

背景技术

近几年，随着深度学习领域的飞速发展，越来越多的自然语言处理相关的任务也逐渐从传统的做法转向使用深度学习的方法，在效果上也有明显的提升。这些任务中比较典型的有：机器翻译，文本生成，情感分类，智能问答等。

在用深度学习的方法去做自然语言处理相关任务时，不同的任务我们会使用不同的模型，比如用Seq2Seq模型来做机器翻译，用CNN分类器来做情感分类等。但几乎所有任务都有共通的一步，那就是首先要将离散的字符序列转为一个连续向量的序列。

现有的自然语言处理任务中，在将离散的中文字符序列转为连续向量序列的任务中，有两种方案：

一是采用字向量，具体做法是将中文字符序列中的每个字通过事先训练好的字向量矩阵映射到一个连续向量值；

另一种方案是采用词向量，具体做法是先将中文字符序列做分词，再用事先训练好的词向量矩阵将每个词映射到一个连续向量值。

这两种方案都有各自的缺点。字向量的方案由于省略了分词的步骤，直接以字为单位做映射，因而缺失了词的语义信息；词向量的方案则因为在分词后可能产生一些词表外的词(oov),这些oov词因为无法在词向量矩阵中找到对应项，因而最终得到的向量值无法准确表征其语义。同时，由于分词这一步骤不可避免的存在一定的错误率，导致根据错误分词得到的词向量包含了错误的语义信息。

发明内容

本发明的一个目的是提供一种字符序列处理方法及设备，能够解决现有的字向量的方案缺失了词的语义信息，而现有的词向量的方最终得到的向量值在某些情况下无法准确表征其语义的问题。

根据本发明的一个方面，提供了一种字符序列处理方法，该方法包括：

获取字向量矩阵和词向量矩阵；

根据所述字向量矩阵，将待转换字符序列中的每个字依序转换为对应的字向量，根据依次转换得到的各字向量得到连续字向量序列；

将所述待转换字符序列依序进行分词，以得到对应的词语序列；

根据所述词向量矩阵，依序将所述词语序列中的每个词，转换为对应的词向量，根据转换得到的各词向量得到连续词向量序列，其中，所述连续词向量序列中的词向量个数与所述连续字向量序列中的字向量个数一致，所述连续字向量序列中的每一个字向量与所述连续词向量序列中的一个词向量对应；

依序将所述连续字向量序列中的每一个字向量与所述连续词向量序列中对应的一个词向量拼接，得到字词混合的连续向量序列。

进一步的，上述方法中，根据所述词向量矩阵，依序将所述词语序列中的每个词，转换为对应的词向量，根据转换得到的各词向量得到连续词向量序列，包括：

根据所述词向量矩阵，依序将所述词语序列中的每个词中的每个字映射到该字所属的词的词向量。

进一步的，上述方法中，根据所述词向量矩阵，依序将所述词语序列中的每个词中的每个字映射到该字所属的词的词向量中，

若某个词的字无法根据所述词向量矩阵映射得到该字所属的词对应的词向量，则将该字转换为预设的词向量。

进一步的，上述方法中，根据所述字向量矩阵，将待转换字符序列中的每个字依序转换为对应的字向量中，

若某个字在所述字向量矩阵中未找到对应的字向量，则将该字转换为预设的字向量。

进一步的，上述方法中，所述字向量矩阵和词向量矩阵的训练方法包括但不限于CBOW，skip-gram和glove等中的一种或任意组合。

根据本发明的另一方面，还提供了一种字符序列处理设备，该设备包括：

获取装置，用于获取字向量矩阵和词向量矩阵；

字向量转换装置，用于根据所述字向量矩阵，将待转换字符序列中的每个字依序转换为对应的字向量，根据依次转换得到的各字向量得到连续字向量序列；

词向量转换装置，用于将所述待转换字符序列依序进行分词，以得到对应的词语序列，根据所述词向量矩阵，依序将所述词语序列中的每个词，转换为对应的词向量，根据转换得到的各词向量得到连续词向量序列，其中，所述连续词向量序列中的词向量个数与所述连续字向量序列中的字向量个数一致，所述连续字向量序列中的每一个字向量与所述连续词向量序列中的一个词向量对应；

拼接装置，用于依序将所述连续字向量序列中的每一个字向量与所述连续词向量序列中对应的一个词向量拼接，得到字词混合的连续向量序列。

进一步的，上述设备中，所述词向量转换装置，用于根据所述词向量矩阵，依序将所述词语序列中的每个词中的每个字映射到该字所属的词的词向量。

进一步的，上述设备中，所述词向量转换装置，用于若某个词的字无法根据所述词向量矩阵映射得到该字所属的词对应的词向量，则将该字转换为预设的词向量。

进一步的，上述设备中，所述字向量转换装置，用于若某个字在所述字向量矩阵中未找到对应的字向量，则将该字转换为预设的字向量。

进一步的，上述设备中，所述字向量矩阵和词向量矩阵的训练方法包括CBOW，skip-gram和glove等中的一种或任意组合。

根据本发明的另一面，还提供一种基于计算的设备，其中，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器：

获取字向量矩阵和词向量矩阵；

根据本发明的另一面，还提供一种计算机可读存储介质，其上存储有计算机可执行指令，其中，该计算机可执行指令被处理器执行时使得该处理器：

获取字向量矩阵和词向量矩阵；

与现有技术相比，本发明提出一种结合利用词向量和字向量的方案，提供所述连续词向量序列中的词向量个数与所述连续字向量序列中的字向量个数一致，所述连续字向量序列中的每一个字向量与所述连续词向量序列中的一个词向量对应，可以实现依序将所述连续字向量序列中的每一个字向量与所述连续词向量序列中对应的一个词向量拼接，得到字词混合的连续向量序列。在本发明中，因为同时使用了词向量和字向量，使得得到的字词混合的连续向量序列可以包含对应的词向量和字向量的语义信息。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1示出根据本发明一实施例的一种字符序列处理方法的流程图；

图2示出本发明一实施例的原理图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本发明作进一步详细描述。

在本申请一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

如图1所示，本发明提供一种字符序列处理方法，包括：

步骤S1，获取字向量矩阵和词向量矩阵；

在此，可以首先准备好所需的字向量矩阵和词向量矩阵，这里既可以用文本语料自行训练得到字向量矩阵和词向量矩阵，也可以直接使用已经预训练好的字向量矩阵和词向量矩阵；

步骤S2，根据所述字向量矩阵，将待转换字符序列中的每个字依序转换为对应的字向量，根据依次转换得到的各字向量得到连续字向量序列；

例如，如图2所示，待转换字符序列为：今天天气很不错；

依序转换为对应的字向量为：“今”字向量、“天”字向量、“天”字向量、“气”字向量、“很”字向量、“不”字向量、“错”字向量；

得到连续字向量序列为：今”字向量+“天”字向量+“天”字向量+“气”字向量+“很”字向量+“不”字向量+“错”字向量，共7个字向量；

步骤S3，将所述待转换字符序列依序进行分词，以得到对应的词语序列；

例如，如图2所示，待转换字符序列为：今天天气很不错；

得到对应的词语序列为：“今天”+“天气”+“很”+“不错”，共4个词；

步骤S4，根据所述词向量矩阵，依序将所述词语序列中的每个词，转换为对应的词向量，根据转换得到的各词向量得到连续词向量序列，其中，所述连续词向量序列中的词向量个数与所述连续字向量序列中的字向量个数一致，所述连续字向量序列中的每一个字向量与所述连续词向量序列中的一个词向量对应；

例如，如图2所示，得到连续词向量序列为：“今天”词向量+“今天”词向量+“天气”词向量+“天气”词向量+“很”词向量+“不错”词向量+“不错”词向量，共7个词向量，7个词向量与7个字向量的个数保持一致；

其中，第一个“今天”词向量对应第一个“今”字向量；

第二个“今天”词向量对应第二个“天”字向量；

第三个“天气”词向量对应第三个“天”字向量；

第四个“天气”词向量对应第四个“气”字向量；

第五个“很”词向量对应第五个“很”字向量；

第六个“不错”词向量对应第六个“不”字向量；

第七个“不错”词向量对应第七个“错”字向量；

步骤S5，依序将所述连续字向量序列中的每一个字向量与所述连续词向量序列中对应的一个词向量拼接，得到字词混合的连续向量序列。

在此，针对背景技术里的这些缺点，本发明提出一种结合利用词向量和字向量的方案，提供所述连续词向量序列中的词向量个数与所述连续字向量序列中的字向量个数一致，所述连续字向量序列中的每一个字向量与所述连续词向量序列中的一个词向量对应，可以实现依序将所述连续字向量序列中的每一个字向量与所述连续词向量序列中对应的一个词向量拼接，得到字词混合的连续向量序列。在本发明中，因为同时使用了词向量和字向量，使得得到的字词混合的连续向量序列可以包含对应的词向量和字向量的语义信息。

本发明的字符序列处理方法一实施例中，步骤S4，根据所述词向量矩阵，依序将所述词语序列中的每个词，转换为对应的词向量，根据转换得到的各词向量得到连续词向量序列，包括：

根据所述词向量矩阵，依序将所述词语序列中的每个词中的每个字映射到该字所属的词的词向量，以使映射得到的词向量个数与所述连续字向量序列中的字向量个数一致，从而根据依次映射得到的各词向量得到连续词向量序列，保证所述连续字向量序列中的每一个字向量与所述连续词向量序列中的一个词向量对应，便于后续每一个字向量与对应的词向量的拼接。

例如，如图2所示，词语序列为：“今天”+“天气”+“很”+“不错”，共4个词，需要将4个词扩充至7个词，以保证后续得到的连续词向量序列中的词向量个数与所述连续字向量序列中的字向量个数一致；

词“今天”中的两个字“今”和“天”分别对应的词为“今天”和“今天”；

词“天气”中的两个字“天”和“气”分别对应的词为“天气”和“天气”；

词“不错”中的两个字“不”和“错”分别对应的词为“不错”和“不错”；

所以得到连续词向量序列为：“今天”词向量+“今天”词向量+“天气”词向量+“天气”词向量+“很”词向量+“不错”词向量+“不错”词向量，共7个词向量，7个词向量与7个字向量的个数保持一致。

本发明的字符序列处理方法一实施例中，根据所述词向量矩阵，依序将所述词语序列中的每个词中的每个字映射到该字所属的词的词向量中，

若某个词的字无法根据所述词向量矩阵映射得到该字所属的词对应的词向量，则将该字转换为预设的词向量，例如零向量，从而仍旧可以根据转换得到的各词向量得到连续词向量序列，以保证所述连续词向量序列中的词向量个数与所述连续字向量序列中的字向量个数一致，所述连续字向量序列中的每一个字向量与所述连续词向量序列中的一个词向量对应，便于后续每一个字向量与对应的词向量的拼接。

本实施例可以实现一部分词表外的词(oov)也可以在缺失对应词向量信息的情况下，仍包含对应字向量的信息。

本发明的字符序列处理方法一实施例中，步骤S2，根据所述字向量矩阵，将待转换字符序列中的每个字依序转换为对应的字向量中，

若某个字在所述字向量矩阵中未找到对应的字向量，则将该字转换为预设的字向量，例如零向量，从而仍旧可以根据依次转换得到的各字向量得到连续字向量序列，以保证所述连续词向量序列中的词向量个数与所述连续字向量序列中的字向量个数一致，所述连续字向量序列中的每一个字向量与所述连续词向量序列中的一个词向量对应，便于后续每一个字向量与对应的词向量的拼接。

本实施例可以实现一部分字表外的词也可以在缺失对应字向量信息的情况下，仍包含对应词向量的信息。

本发明的字符序列处理方法一实施例中，所述字向量矩阵和词向量矩阵的训练方法包括但不限于CBOW，skip-gram和glove等中的一种或任意组合，从而保证获取到准确的字向量矩阵和词向量矩阵。

获取装置，用于获取字向量矩阵和词向量矩阵；

处理器；以及

获取字向量矩阵和词向量矩阵；

本发明的设备和计算机可读存储介质各实施例的详细内容具体可参见各方法实施例的对应部分，在此不再赘述。

综上所述，本发明提出一种结合利用词向量和字向量的方案，提供所述连续词向量序列中的词向量个数与所述连续字向量序列中的字向量个数一致，所述连续字向量序列中的每一个字向量与所述连续词向量序列中的一个词向量对应，可以实现依序将所述连续字向量序列中的每一个字向量与所述连续词向量序列中对应的一个词向量拼接，得到字词混合的连续向量序列。在本发明中，因为同时使用了词向量和字向量，使得得到的字词混合的连续向量序列可以包含对应的词向量和字向量的语义信息。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

需要注意的是，本发明可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本发明的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本发明的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本发明的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种字符序列处理方法，其中，该方法包括：

获取字向量矩阵和词向量矩阵；

2.根据权利要求1所述的方法，其中，根据所述词向量矩阵，依序将所述词语序列中的每个词，转换为对应的词向量，根据转换得到的各词向量得到连续词向量序列，包括：

3.根据权利要求2所述的方法，其中，根据所述词向量矩阵，依序将所述词语序列中的每个词中的每个字映射到该字所属的词的词向量中，

4.根据权利要求1所述的方法，其中，根据所述字向量矩阵，将待转换字符序列中的每个字依序转换为对应的字向量中，

5.根据权利要求1至4任一项所述的方法，其中，所述字向量矩阵和词向量矩阵的训练方法包括CBOW，skip-gram和glove等中的一种或任意组合。

6.一种字符序列处理设备，其中，该设备包括：

获取装置，用于获取字向量矩阵和词向量矩阵；

7.根据权利要求1所述的设备，其中，所述词向量转换装置，用于根据所述词向量矩阵，依序将所述词语序列中的每个词中的每个字映射到该字所属的词的词向量。

8.根据权利要求7所述的设备，其中，所述词向量转换装置，用于若某个词的字无法根据所述词向量矩阵映射得到该字所属的词对应的词向量，则将该字转换为预设的词向量。

9.根据权利要求1所述的设备，其中，所述字向量转换装置，用于若某个字在所述字向量矩阵中未找到对应的字向量，则将该字转换为预设的字向量。

10.根据权利要求6至9任一项所述的设备，其中，所述字向量矩阵和词向量矩阵的训练方法包括CBOW，skip-gram和glove等中的一种或任意组合。

11.一种基于计算的设备，其中，包括：

处理器；以及

获取字向量矩阵和词向量矩阵；

12.一种计算机可读存储介质，其上存储有计算机可执行指令，其中，该计算机可执行指令被处理器执行时使得该处理器：

获取字向量矩阵和词向量矩阵；