CN110442683A

CN110442683A - 文本信息的处理方法及装置、存储介质、电子装置

Info

Publication number: CN110442683A
Application number: CN201910745484.5A
Authority: CN
Inventors: 王道广; 于政
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Beijing Mininglamp Software System Co ltd
Priority date: 2019-08-13
Filing date: 2019-08-13
Publication date: 2019-11-12

Abstract

本发明提供了一种文本信息的处理方法及装置、存储介质、电子装置，包括：将确定的文本信息转换为文本向量；对文本向量进行加噪声和/或降维处理，得到目标文本向量。通过本发明，解决了相关技术中在对数据进行处理的过程中，数据隐私容易泄露的问题。

Description

文本信息的处理方法及装置、存储介质、电子装置

技术领域

本发明涉及信息处理领域，具体而言，涉及一种文本信息的处理方法及装置、存储介质、电子装置。

背景技术

随着机器学习技术的发展，其在生产生活中的应用越来越广泛。在一些应用场景中，会涉及到用户隐私数据。如何既能利用数据进行模型的训练或预测，又能保护用户隐私数据，成为亟待解决的问题。

针对上述技术问题，相关技术中尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种文本信息的处理方法及装置、存储介质、电子装置，以至少解决相关技术中在对数据进行处理的过程中，数据隐私容易泄露的问题。

根据本发明的一个实施例，提供了一种文本信息的处理方法，包括：将确定的文本信息转换为文本向量；对上述文本向量进行加噪声和/或降维，得到目标文本向量，其中，目标文本向量中包括所述文本向量、与文本向量对应的随机噪声向量，目标文本向量用于加密文本信息。

可选地，将确定的文本信息转换为上述文本向量，包括：从待处理文本信息中提取出上述文本信息，其中，上述文本信息中包括上述待处理文本信息中的特征信息，上述特征信息用于标识上述待处理文本信息；确定出每个上述文本信息中的每个字在预设向量字典中的向量，得到多个词向量；将上述多个词向量按照上述文本信息的语序组成上述文本信息的文本向量。

可选地，对上述文本向量进行加噪处理，得到目标文本向量，包括：随机生成与上述文本向量格式相同的噪声向量；将上述噪声向量与上述文本向量相加，得到上述目标文本向量。

可选地，对上述文本向量进行降维处理，得到上述目标文本向量，包括：确定上述文本向量的向量维度；对上述向量维度进行降维处理，得到上述目标文本向量。

可选地，对上述文本向量进行加噪声和/或降维，得到上述目标文本向量之后，上述方法还包括：将上述目标文本向量输入至目标模型中，得到上述目标模型输出的上述目标文件向量的文本类别；查找与上述文本类别对应的文本内容，以将文本内容推荐给用户。

可选地，将上述目标文本向量输入至目标模型中，得到上述目标模型输出的上述目标文件向量的文本类别，包括：将上述目标文本向量依次输入至上述目标模型中的依次连接的M个卷积层和N个全连接层，得到上述目标模型输出的上述目标文件向量的文本类别，其中，上述M与上述N均为大于1的自然数。

可选地，将上述目标文本向量输入至目标模型中，得到上述目标模型输出的上述目标文件向量的文本类别之前，上述方法还包括：获取多个样本文本向量、以及与上述多个样本文本信息对应的文本类别，其中，上述多个样本文本向量对应于多个样本文本信息，上述多个样本文本向量是经过加噪和/或降维处理后的样本文本向量；使用上述多个样本文本向量对上述原始模型进行训练，得到上述目标模型，其中，上述多个样本文本向量为上述原始模型的输入，上述目标模型输出的上述多个样本文本信息对应的文本类别与每个样本文本向量对应的实际文本类别对应。

根据本发明的另一个实施例，提供了一种文本信息的处理装置，包括：第一转换模块，用于将确定的文本信息转换为文本向量；第一确定模块，用于对上述文本向量进行加噪声和/或降维，得到目标文本向量，其中，目标文本向量中包括文本向量、与文本向量对应的随机噪声向量，目标文本向量用于加密所述文本信息。

根据本发明的又一个实施例，还提供了一种存储介质，上述存储介质中存储有计算机程序，其中，上述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为运行上述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明，由于将确定的文本信息转换为文本向量；对文本向量进行加噪声和/或降维，得到目标文本向量，目标文本向量中包括文本向量、与文本向量对应的随机噪声向量，目标文本向量用于加密文本信息。通过将文本信息转化为文本向量对数据进行处理，实现了在数据处理过程中对数据隐私的保护。因此，可以解决相关技术中在对数据进行处理的过程中，数据隐私容易泄露的问题，达到保护数据隐私的效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例的一种文本信息的处理方法的移动终端的硬件结构框图；

图2是根据本发明实施例的文本信息的处理方法的流程图；

图3是根据本发明实施例的文本信息的处理装置的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的一种文本信息的处理方法的移动终端的硬件结构框图。如图1所示，移动终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，可选地，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的文本信息的处理方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种文本信息的处理方法，图2是根据本发明实施例的文本信息的处理方法的流程图，如图2所示，该流程包括如下步骤：

步骤S202，将确定的文本信息转换为文本向量；

步骤S204，对文本向量进行加噪声和/或降维，得到目标文本向量，其中，目标文本向量中包括文本向量、与文本向量对应的随机噪声向量，目标文本向量用于加密文本信息。

通过上述步骤，由于将确定的文本信息转换为文本向量；对文本向量进行加噪声和/或降维，得到目标文本向量，目标文本向量中包括文本向量、与文本向量对应的随机噪声向量，目标文本向量用于加密文本信息。通过将文本信息转化为文本向量对数据进行处理，实现了在数据处理过程中对数据隐私的保护。因此，可以解决相关技术中在对数据进行处理的过程中，数据隐私容易泄露的问题，达到保护数据隐私的效果。

可选地，上述步骤的执行主体可以为终端等，但不限于此。

可选地，本实施例包括但不限于应用于对文本信息进行处理的场景中。例如，对短信的处理。

在一个可选的实施例中，将确定的文本信息转换为文本向量，包括：

S1，从待处理文本信息中提取出文本信息，其中，文本信息中包括待处理文本信息中的特征信息，特征信息用于标识待处理文本信息所属的文本类别；

S2，确定出每个文本信息中的每个字在预设向量字典中的向量，得到多个词向量；

S3，将多个词向量按照文本信息的语序组成文本信息的文本向量。

可选地，例如，在待处理文本信息是短信的情况下，从短信中提取出该短信所属于的类别。如果短信中包括有景点的信息，则短信的类别是旅游信息。确定出每个特征信息的特征向量，则待处理文本信息的向量就可以确定。

通过本实施例，通过从待处理文件信息中提取出的特征信息确定出待处理文本的类别。可以高效的确定出文本信息的向量。

在一个可选的实施例中，对文本向量进行加噪处理，得到目标文本向量，包括：

S1，随机生成与文本向量格式相同的噪声向量；

S2，将噪声向量与文本向量相加，得到目标文本向量。

可选地，在本实施例中，随机生成的与文本向量格式相同的噪声向量，是为了实现对数据的加噪处理。将生成的向量添加到文本向量中，得到目标文本向量。

通过本实施例，通过对文本向量进行加噪处理，可以防止通过穷举尝试的方法，探测出原始文本。

在一个可选的实施例中，对文本向量进行文本处理，得到目标文本向量，包括：

S1，确定文本向量的向量维度；

S2，对向量维度进行降维处理，得到目标文本向量。

可选地，在本实施例中，降维处理包括：

对向量维度进行降维处理，得到目标文本向量，包括：V′＝V×W+B，其中，V′是目标文本向量，V是文本向量，W＝d×d′的矩阵，d是与V对应的向量维度，d′是与目标文本向量对应的向量维度，d′小于d，M中的第k行矩阵的秩r_M>k，1<＝k<＝d，B是随机产生的矩阵。

可选地，W，B可以随机产生，也可以使用已有数据训练产生，如神经网络两层间的权重矩阵和截距向量。

上述中的加噪和降维处理可组合使用，也可单独使用。在组合使用时，可适当降低降维步骤中对W的要求，即，W为d×d′的矩阵，要求其任k行组成的矩阵M的秩r_M>k，p<＝k<＝d，1<p<d。将转换后的特征上传到模型端，用于模型训练或预测。

在一个可选的实施例中，对文本向量进行文本处理，得到目标文本向量之后，方法还包括：

S1，将目标文本向量输入至目标模型中，得到目标模型输出的目标文件向量的文本类别；

S2，查找与文本类别对应的文本内容，以将文本内容推荐给用户。

可选地，目标模型包括但不限于神经网络模型。文本类别包括但不限于是文本的属性，例如，短信属于旅游类的信息、美食类的信息。将文本类别对应的文本内容推荐给用户。

在一个可选的实施例中，将目标文本向量输入至目标模型中，得到目标模型输出的目标文件向量的文本类别，包括：

S1，将目标文本向量依次输入至目标模型中的依次连接的M个卷积层和N个全连接层，得到目标模型输出的目标文件向量的文本类别，其中，M与N均为大于1的自然数。

可选地，在本实施例中，目标模型输出的也可以是目标文件向量所属的类别的概率，从多个概率中确定出概率最大的类别作为目标文件向量的类别。

通过本实施例，通过对目标文件的预测，可以准确的确定出目标文件所属的类别，而且可以增加目标文件传输的安全性。

在一个可选的实施例中，将目标文本向量输入至目标模型中，得到目标模型输出的目标文件向量的文本类别之前，方法还包括：

S1，获取多个样本文本向量、以及与多个样本文本信息对应的文本类别，其中，多个样本文本向量对应于多个样本文本信息，多个样本文本向量是经过加噪和/或降维处理后的样本文本向量；

S2，使用多个样本文本向量对原始模型进行训练，得到目标模型，其中，多个样本文本向量为原始模型的输入，目标模型输出的多个样本文本信息对应的文本类别与每个样本文本向量对应的实际文本类别对应。

可选地，在本实施例中，通过对文本特征进行降维和加适当噪声的处理，对模型进行训练，对模型效果影响不大。经过降维或加噪后的特征，不能简单直接得到用户隐私数据，保护的数据安全。降维和加噪操作运算量较小，不占用设备端过多资源。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

在本实施例中还提供了一种文本信息的处理装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图3是根据本发明实施例的文本信息的处理装置的结构框图，如图3所示，该装置包括：

第一转换模块32，用于将确定的文本信息转换为文本向量；

第一确定模块34，用于对文本向量进行加噪声和/或降维，得到目标文本向量，其中，目标文本向量中包括文本向量、与文本向量对应的随机噪声向量，目标文本向量用于加密文本信息。

通过本发明，由于将确定的文本信息转换为文本向量；对文本向量进行文本处理，得到目标文本向量，目标文本向量中包括文本向量、与文本向量对应的随机噪声向量，目标文本向量用于加密文本信息。通过将文本信息转化为文本向量对数据进行处理，实现了在数据处理过程中对数据隐私的保护。因此，可以解决相关技术中在对数据进行处理的过程中，数据隐私容易泄露的问题，达到保护数据隐私的效果。

在一个可选的实施例中，第一转换模块，包括：

提取单元，用于从待处理文本信息中提取出文本信息，其中，文本信息中包括待处理文本信息中的特征信息，特征信息用于标识待处理文本信息所属的文本类别；

第一确定单元，用于确定出每个文本信息中的每个字在预设向量字典中的向量，得到多个词向量；

第二确定单元，用于将多个词向量按照文本信息的语序组成文本信息的文本向量。

在一个可选的实施例中，第一确定模块34，包括：

第一生成单元，用于随机生成与文本向量格式相同的噪声向量；

第三确定单元，用于将向量与文本向量相加，得到目标文本向量。

可选地，在本实施例中，随机生成的与文本向量格式相同的向量，是为了实现对数据的加噪处理。将生成的向量添加到文本向量中，得到目标文本向量。

在一个可选的实施例中，第一确定模块34，包括：

第四确定单元，用于确定文本向量的向量维度；

第五确定单元，用于对向量维度进行降维处理，得到目标文本向量。

可选地，在本实施例中，降维处理包括：

在一个可选的实施例中，上述装置还包括：

第二确定模块，用于对文本向量进行文本处理，得到目标文本向量之后，将目标文本向量输入至目标模型中，得到目标模型输出的目标文件向量的文本类别；

查找模块，用于查找与文本类别对应的文本内容，以将文本内容推荐给用户。

在一个可选的实施例中，第二确定模块，包括：

第六确定单元，用于将目标文本向量依次输入至目标模型中的依次连接的M个卷积层和N个全连接层，得到目标模型输出的目标文件向量的文本类别，其中，M与N均为大于1的自然数。

在一个可选的实施例中，上述装置还包括：获取模块，用于将目标文本向量输入至目标模型中，得到目标模型输出的目标文件向量的文本类别之前，获取多个样本文本向量、以及与多个样本文本信息对应的文本类别，其中，多个样本文本向量对应于多个样本文本信息，多个样本文本向量是经过加噪和/或降维处理后的样本文本向量；

第三确定模块，使用多个样本文本向量对原始模型进行训练，得到目标模型，其中，多个样本文本向量为原始模型的输入，目标模型输出的多个样本文本信息对应的文本类别与每个样本文本向量对应的实际文本类别对应。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

本发明的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，将确定的文本信息转换为文本向量；

S2，对文本向量进行文本处理，得到目标文本向量。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，将确定的文本信息转换为文本向量；

S2，对文本向量进行加噪声和/或降维，得到目标文本向量。

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文本信息的处理方法，其特征在于，包括：

将确定的文本信息转换为文本向量；

对所述文本向量进行加噪声和/或降维，得到目标文本向量，其中，所述目标文本向量中包括所述文本向量、与所述文本向量对应的随机噪声向量，所述目标文本向量用于加密所述文本信息。

2.根据权利要求1所述的方法，其特征在于，将确定的文本信息转换为所述文本向量，包括：

从待处理文本信息中提取出所述文本信息，其中，所述文本信息中包括所述待处理文本信息中的特征信息，所述特征信息用于标识所述待处理文本信息；

确定出每个所述文本信息中的每个字在预设向量字典中的向量，得到多个词向量；

将所述多个词向量按照所述文本信息的语序组成所述文本信息的文本向量。

3.根据权利要求1所述的方法，其特征在于，对所述文本向量进行加噪声处理，得到目标文本向量，包括：

随机生成与所述文本向量格式相同的噪声向量；

将所述噪声向量与所述文本向量相加，得到所述目标文本向量。

4.根据权利要求1或2所述的方法，其特征在于，对所述文本向量进行降维处理，得到所述目标文本向量，包括：

确定所述文本向量的向量维度；

对所述向量维度进行降维处理，得到所述目标文本向量。

5.根据权利要求1所述的方法，其特征在于，对所述文本向量进行加噪声和/或降维，得到所述目标文本向量之后，所述方法还包括：

将所述目标文本向量输入至目标模型中，得到所述目标模型输出的所述目标文件向量的文本类别；

查找与所述文本类别对应的文本内容，以将文本内容推荐给用户。

6.根据权利要求5所述的方法，其特征在于，将所述目标文本向量输入至目标模型中，得到所述目标模型输出的所述目标文件向量的文本类别，包括：

将所述目标文本向量依次输入至所述目标模型中的依次连接的M个卷积层和N个全连接层，得到所述目标模型输出的所述目标文件向量的文本类别，其中，所述M与所述N均为大于1的自然数。

7.根据权利要求5所述的方法，其特征在于，将所述目标文本向量输入至目标模型中，得到所述目标模型输出的所述目标文件向量的文本类别之前，所述方法还包括：

获取多个样本文本向量、以及与所述多个样本文本信息对应的文本类别，其中，所述多个样本文本向量对应于多个样本文本信息，所述多个样本文本向量是经过加噪和/或降维处理后的样本文本向量；

使用所述多个样本文本向量对原始模型进行训练，得到所述目标模型，其中，所述多个样本文本向量为所述原始模型的输入，所述目标模型输出的所述多个样本文本信息对应的文本类别与每个样本文本向量对应的实际文本类别对应。

8.一种文本信息的处理装置，其特征在于，包括：

第一转换模块，用于将确定的文本信息转换为文本向量；

第一确定模块，用于对所述文本向量进行加噪声和/或降维，得到目标文本向量，其中，所述目标文本向量中包括所述文本向量、与所述文本向量对应的随机噪声向量，所述目标文本向量用于加密所述文本信息。

9.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至7任一项中所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7任一项中所述的方法。