CN113961664A

CN113961664A - 基于深度学习的数值词处理方法、系统、终端及介质

Info

Publication number: CN113961664A
Application number: CN202010680740.XA
Authority: CN
Inventors: 沈李斌; 屠可伟; 蒋承越; 奚宁; 李波
Original assignee: Shanghai Leyan Information Technology Co ltd; ShanghaiTech University
Current assignee: Shanghai Leyan Information Technology Co ltd; ShanghaiTech University
Priority date: 2020-07-15
Filing date: 2020-07-15
Publication date: 2022-01-21

Abstract

本发明公开了基于深度学习的数值词处理系统，包括：原型词确定模块从语料中找到具有代表性的原型词集合；训练模块包括判断单元、差值单元和数值词训练单元；判断单元判断原型词集合中的词是否为数值词；差值单元用于从原型词集合中采用差值方法来表示任意数值词的词向量；所述数值词训练单元将该数值词利用原型词集合以及插值函数进行插值，得到数值词表示；将得到的数值词表示输入SkipGram训练模块进行训练，训练得到原型数值词词向量。通过在语料中找到具有代表性的原型词集合，利用差值方法从有限的原型词表示任意的数值词，将数值词输入SkipGram训练模块训练，输出高质量的原型数值词词向量。

Description

基于深度学习的数值词处理方法、系统、终端及介质

技术领域

本发明涉及软件技术领域，具体涉及基于深度学习的数值词处理方法、系统、终端及介质。

背景技术

词向量(Word Embedding)是近几年人工智能领域中的自然语言处理分支的基础技术，对于词语、句子的表示一直是自然语言处理研究的重中之重。好的词向量包含了语义的相似信息，例如”king“和“queen”在词向量空间中就有着比较大的余弦相似度。高质量的词语向量表示对下游任务有着明显的提升。

词向量的训练主要使用深度学习方法，同时依赖于提前统计好的有限大的词表。数值词，例如：“1.83”，也是组成文本的重要词汇，特别是在一些特定的领域，例如金融、电商，数值词涵盖的信息甚至比非数值词更加重要。例如：在电商数据中，数字包含的鞋码、高度等信息，可能决定了用户文本的意图(买多大的鞋、买什么码数的衣服)。然而，目前已知的方法并不能很好地处理数值词，原因主要有：

1、很多主流的词向量方法会忽略大部分数值词。

2、数值词在主流常用的训练词向量表示的语料中不经常出现。

3、可能的数值词词表大小理论上是无限大的，难以被有限的词表统计、表示，并且很难经过充分的训练。

发明内容

针对现有技术中的缺陷，本发明实施例提供一种基于深度学习的数值词处理系统、方法、终端及介质，通过对数值词向量的训练，使得模型能够产生高质量的数值词和非数值词词向量，可应用于多种应用场景，提高了数值词识别的准确率。

第一方面，本发明实施例提供的一种基于深度学习的数值词处理系统，包括：语料获取模块、确定原型词模块和训练模块，

所述语料获取模块用于获取语料信息；

所述原型词确定模块从语料中找到具有代表性的原型词集合；

所述训练模块包括判断单元、差值单元和数值词训练单元；

所述判断单元判断原型词集合中的词是否为数值词；

所述差值单元用于从原型词集合中采用差值方法来表示任意数值词的词向量；

所述数值词训练单元将该数值词利用原型词集合以及插值函数进行插值，得到数值词表示；将得到的数值词表示输入SkipGram训练模块进行训练，训练得到原型数值词词向量。

第二方面，本发明实施例提供的一种基于深度学习的数值词处理方法，包括：

获取语料信息；

从语料中找到具有代表性的原型词集合；

判断原型词集合中的词是否为数值词；

若是数值词，将该数值词利用原型词集合以及插值函数进行插值，得到数值词表示；将得到的数值词表示输入SkipGram训练模块进行训练，训练得到原型数值词词向量。

第三方面，本发明实施例提供的一种智能终端，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行上述实施例描述的方法。

第四方面，本发明实施例提供的一种计算机可读存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述实施例描述的方法。

本发明的有益效果：

本发明实施例提供的一种基于深度学习的数值词处理系统、方法、终端及介质，通过在语料中找到具有代表性的原型词集合，利用差值方法从有限的原型词表示任意的数值词，将数值词表示输入SkipGram训练模块训练，输出高质量的原型数值词词向量。通过差值单元能够为任意的数值词提供合理的词表示。

本发明实施例提供的一种基于深度学习的数值词处理系统、方法、终端及介质，还实现了完整词向量的处理，既可以处理任意数值词的词向量，还可以处理非数值词词向量。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1示出了本发明第一实施例所提供的一种基于深度学习的数值词处理方法系统的结构框图；

图2示出了本发明另一实施例所提供的一种基于深度学习的数值词处理方法的流程图；

图3示出了本发明另一实施例所提供的一种智能终端的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

图1示出了本发明第一实施例所提供的一种基于深度学习的数值词处理系统的结构框图，该系统包括：语料获取模块101、确定原型词模块102和训练模块103，语料获取模块用于获取语料信息；原型词确定模块101从语料中找到具有代表性的原型词集合；训练模块103包括判断单元、差值单元和数值词训练单元，所述判断单元判断原型词集合中的词是否为数值词；差值单元用于从原型词集合中采用差值方法来表示任意数值词的词向量；数值词训练单元将该数值词利用原型词集合以及插值函数进行插值，得到数值词表示；将得到的数值词表示输入SkipGram训练模块进行训练，训练得到原型数值词词向量。

在本发明实施例中，原型词确定模块102包括自组织映射单元，所述自组织映射单元用于从语料中找出分布均匀的原型词集合。自组织映射是一种用于降维的人工神经网络，也可以用于聚类，可以找到语料中比较具有代表性的数值词，自组织映射相比其他聚类方法的优势是，自组织映射可以找到数轴上分布更加均匀的原型词集合。利用自组织映射方法得到的原型词的差值方法，假设原型词集合为P，对于任意的一个数值n，定义数值n和每个原型词p∈P之间的相似度为：sim＝(|f(p)-f(n)|)^-1，即通过变换f之后的绝对差值的倒数，这个变换的作用是将一个数进行压缩到指数坐标系上。如果数值之间的差值越小，那么这个相似度就越高。利用这个相似度，将新的数值n的数值词嵌入表示为每个原型词词向量的加权平均，其中权重为定义的相似度，由此，可以利用原型词的词向量的加权平均来表示任意数值词的词向量。

训练模块103包括非数值词训练单元，非数值词训练单元用于从初始化好的词向量矩阵中取出非数值词，得到非数值词词表示；将得到的非数值词输入SkipGram训练模块进行训练，训练得到非数值词词向量矩阵。

本发明实施例提供的一种基于深度学习的数值词处理系统，通过在语料中找到具有代表性的原型词集合，通过差值单元能够为任意的数值词提供合理的词表示，利用差值方法从有限的原型词表示任意的数值词，将数值词输入SkipGram训练模块训练，输出高质量的原型数值词词向量。

在本发明的另一实施例中，本实施例的基于深度学习的数值词处理系统与上述第一实施例不同之处在于：原型词确定模块包括高斯混合模型，高斯混合模型对整个数据集上的数值的分布进行建模，用高斯分量的平均值来表示得到的原型词集合。根据高斯混合模型得到的原型词嵌入的差值方法更加自然，给定数值词，对于高斯混合模型的每一个高斯分量作为加权平均的权重，由此，可以利用原型词的词向量的加权平均来表示任意数值词的词向量。

在本发明的另一实施例中，本实施例的基于深度学习的数值词处理系统与上述第一实施例不同之处在于：训练模块103还包括非数值词训练单元，所述非数值词训练单元用于从初始化好的词向量矩阵中取出非数值词，得到非数值词词表示；将得到的非数值词输入SkipGram训练模块进行训练，训练得到非数值词词向量矩阵。通过非数值词训练单元从语料中提取非数值词词向量，输入SkipGram训练模块进行训练，得到非数值词词向量矩阵。本实施例的系统实现了完整词向量的处理，既可以处理任意数值词的词向量，还可以处理非数值词词向量。

词向量可以应用在多种自然语言处理任务中，主要将其应用在槽填充上。槽填充是一种序列标注问题，对于一句话中的一些特殊词语，我们需要给它打上相应的标签。在电商的应用场景中，用户经常会问：请问我176,57穿什么样的尺码合适？槽填充可以帮助我们找到176的含义为(/身高)，类似地，57为(/体重)。而针对这类数值词，一个好的词向量表示就尤为重要。采用上述实施例描述的方法应用到这个场景中。使用当前表现优异的开源槽填充模型NCRFpp，使用传统的神经网络与条件随机场(CRF)结合的结构。我们首先在电商语料上利用上述实施例描述的方法训练词向量，接着将得到的词向量作为槽填充模型的输入，并且训练模型。

经过试验发现，用上述实施例得到的词向量作为输入的槽填充效果相比普通的词向量方法(Skip-Gram)在精确率、召回率、准确率、F1值上均有了明显的提升。其中，F1值从90.32提升至90.83，同时在少数据的情况下提升更加明显，在百分之十的数据上，F1值从75.81提升至78.51，说明通过本实施例所描述的系统能产生高质量的数值词词向量和非数值词词向量，将得到的数值词向量应用到具体的应用场景中，比基线模型有更好的效果。

本发明的第一实施例提供了一种基于深度学习的数值词处理系统，与之相对应的，本发明另一实施例还提供一种基于深度学习的数值词处理方法。请参考图2，其为本发明另一实施例提供的一种基于深度学习的数值词处理方法的流程图。由于方法实施例基本相似于装置实施例，所以描述得比较简单，相关之处参见装置实施例的部分说明即可。下述描述的方法实施例仅仅是示意性的。

如图2所示，示出了本发明另一实施例提供的一种基于深度学习的数值词处理方法的流程图，该方法包括以下步骤：

S201：获取语料信息。

S202：从语料信息中找到具有代表性的原型词集合。

具体地，采用自组织映射方法或高斯混合模型从语料信息中找到具有代表性的原型词集合。自组织映射是一种用于降维的人工神经网络，也可以用于聚类，可以找到语料中比较具有代表性的数值词，自组织映射相比其他聚类方法的优势是，自组织映射可以找到数轴上分布更加均匀的原型词集合。

利用自组织映射方法得到的原型词的差值方法，假设原型词集合为P，对于任意的一个数值n，定义数值n和每个原型词p∈P之间的相似度为：sim＝(|f(p)-f(n)|)^-1，即通过变换f之后的绝对差值的倒数，这个变换的作用是将一个数进行压缩到指数坐标系上。如果数值之间的差值越小，那么这个相似度就越高。利用这个相似度，将新的数值n的数值词嵌入表示为每个原型词词向量的加权平均，其中权重为定义的相似度，由此，可以利用原型词的词向量的加权平均来表示任意数值词的词向量。

高斯混合模型对整个数据集上的数值的分布进行建模，用高斯分量的平均值来表示得到的原型词集合。根据高斯混合模型得到的原型词嵌入的差值方法更加自然，给定数值词，将其对于高斯混合模型的每一个高斯分量的后验概率作为加权平均的权重。

S203：判断原型词集合中的词是否为数值词。

S204：若是数值词，将该数值词利用原型词集合以及插值函数进行插值，得到数值词表示；将得到的数值词表示输入SkipGram训练模块进行训练，训练得到原型数值词词向量。

上述步骤S201-S204,通过在语料中找到具有代表性的原型词集合，利用差值方法从有限的原型词表示任意的数值词，对数值词采用SkipGram训练模块进行训练，输出高质量的原型数值词词向量。通过差值方法能够为任意的数值词提供合理的词表示。通过对原型数值词词向量进行差值表示所有的数值词。

还包括步骤S205：将非数值词从初始化好的词向量矩阵中取出，获得非数值词词表示；将得到的非数值词输入SkipGram训练模块进行训练，训练得到非数值词词向量矩阵。

本发明实施例提供的一种基于深度学习的数值词处理方法，通过上述步骤S201-S205,通过从初始化好的词向量矩阵单元中提取非数值词词表示，将非数值词词表示输入SkipGram训练模型进行训练，训练得到非数值词词向量矩阵。本实施例的系统实现了完整词向量的处理，既可以处理任意数值词的词向量，还可以处理非数值词词向量。

在本发明另一实施例还提供一种智能终端，如图3所示，示出了智能终端的结构框图，该终端包括处理器301、输入设备302、输出设备303和存储器304，处理器301、输入设备302、输出设备303和存储器304相互连接，存储器304用于存储计算机程序，计算机程序包括程序指令，处理器301被配置用于调用程序指令，执行上述实施例描述的方法。

应当理解，在本发明实施例中，所称处理器301可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

输入设备302可以包括触控板、麦克风等，输出设备303可以包括显示器(LCD等)、扬声器等。

该存储器304可以包括只读存储器和随机存取存储器，并向处理器301提供指令和数据。存储器304的一部分还可以包括非易失性随机存取存储器。例如，存储器304还可以存储设备类型的信息。

具体实现中，本发明实施例中所描述的处理器301、输入设备302、输出设备303可执行本发明实施例提供的方法实施例所描述的实现方式，也可执行本发明实施例所描述的系统实施例的实现方式，在此不再赘述。

在本发明还提供一种计算机可读存储介质的实施例，计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述实施例描述的方法。

所述计算机可读存储介质可以是前述实施例所述的终端的内部存储单元，例如终端的硬盘或内存。所述计算机可读存储介质也可以是所述终端的外部存储设备，例如所述终端上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)等。进一步地，所述计算机可读存储介质还可以既包括所述终端的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述终端所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的终端和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露终端和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种基于深度学习的数值词处理系统，其特征在于，包括：语料获取模块、确定原型词模块和训练模块，

所述语料获取模块用于获取语料信息；

所述训练模块包括判断单元、差值单元和数值词训练单元；

所述判断单元判断原型词集合中的词是否为数值词；

2.如权利要求1所述的基于深度学习的数值词处理系统，其特征在于，所述训练模块还包括非数值词训练单元，所述非数值词训练单元用于从初始化好的词向量矩阵中取出非数值词，得到非数值词词表示；将得到的非数值词输入SkipGram训练模块进行训练，训练得到非数值词词向量矩阵。

3.如权利要求1所述的基于深度学习的数值词处理系统，其特征在于，所述原型词确定模块包括自组织映射单元，所述自组织映射单元用于从语料中找出分布均匀的原型词集合。

4.如权利要求1所述的基于深度学习的数值词处理系统，其特征在于，所述原型词确定模块包括高斯混合模型，所述高斯混合模型对整个数据集上的数值的分布进行建模，用高斯分量的平均值来表示得到的原型词集合。

5.一种基于深度学习的数值词处理方法，其特征在于，包括：

获取语料信息；

从语料中找到具有代表性的原型词集合；

判断原型词集合中的词是否为数值词；

6.如权利要求5所述的基于深度学习的数值词处理方法，其特征在于，还包括：若不是数值词，将非数值词从初始化好的词向量矩阵中取出，获得非数值词词表示；将得到的非数值词输入SkipGram训练模块进行训练，训练得到非数值词词向量矩阵。

7.如权利要求5所述的基于深度学习的数值词处理方法，其特征在于，所述从语料中找到具有代表性的原型词集合的具体方法包括：采用自组织映射方法从语料中找出分布均匀的原型词集合。

8.如权利要求5所述的基于深度学习的数值词处理方法，其特征在于，所述从语料中找到具有代表性的原型词集合的具体方法包括：采用高斯混合模型对数据集上的数值的分布进行建模，用高斯分量的平均值来表示得到原型词集合。

9.一种智能终端，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，其特征在于，所述处理器被配置用于调用所述程序指令，执行如权利要求5-8任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求5-8任一项所述的方法。