CN108874754A - 语言模型压缩方法和系统 - Google Patents

语言模型压缩方法和系统 Download PDF

Info

Publication number
CN108874754A
CN108874754A CN201810539084.4A CN201810539084A CN108874754A CN 108874754 A CN108874754 A CN 108874754A CN 201810539084 A CN201810539084 A CN 201810539084A CN 108874754 A CN108874754 A CN 108874754A
Authority
CN
China
Prior art keywords
binaryzation
net network
network layers
model
language model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810539084.4A
Other languages
English (en)
Inventor
俞凯
刘轩
曹迪
石开宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AI Speech Ltd
Original Assignee
Shanghai Jiaotong University
AI Speech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University, AI Speech Ltd filed Critical Shanghai Jiaotong University
Priority to CN201810539084.4A priority Critical patent/CN108874754A/zh
Publication of CN108874754A publication Critical patent/CN108874754A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开语言模型压缩方法和系统,方法包括:响应于获取的输入参数,查找与所述输入参数对应的二值化向量;至少将所述二值化向量经过二值化的循环网络层,以得到二值化的循环网络层输出;至少将所述循环网络层输出经过二值化的线性层并输出结果。通过使用二值化向量来编码词嵌入以及LSTM的参数,从而达到较高的内存压缩率。开创性地探索了二值化LSTM在大词表语言模型中的应用。进一步地,通过实验表明,本申请提出的模型在中文和英文数据集上达到了11.3的无损压缩比,在损失小部分性能的情况下,可以达到31.6的压缩比。

Description

语言模型压缩方法和系统
技术领域
本发明属于语言模型压缩技术领域,尤其涉及语言模型的压缩方法和 系统。
背景技术
语言模型(LM,Language Mode)在自然语言处理(NLP,Natural LanguageProcessing)任务中发挥重要作用。N-gram语言模型曾经是最流 行的语言模型。考虑到前面的N-1个单词,N-gram语言模型预测下一个 单词。但是,这会导致长时依赖关系的丧失。随着N的增长,样本空间大 小呈指数增长,这导致数据稀疏。
神经网络(NN,Neural Networks)模型在2003年被首次引入语言建 模。给定具有固定大小的上下文,该模型可以计算下一个单词的概率分布。 但是,长时依赖关系的问题仍然存在,因为上下文窗口是固定的。目前, 基于递归神经网络(RNN,Recurrent NeuralNetworks)的模型被广泛用于 NLP任务以获得优异的性能。神经网络中的递归结构可以在很大程度上解 决长期依赖问题。一些基于门的结构,如长短时记忆(LSTM,Long Short-Term Memory)和门控循环单元(GRU,Gated Recurrent Unit)改善 了循环结构并实现了最新技术大多数NLP任务的性能。
然而,神经网络模型占用了巨大的内存空间,因此几乎不可能将模型 放入低资源设备。在实践中,由于词表通常非常大。所以内存消耗主要来 自嵌入层。而且,词嵌入通常由单精度浮点数表示,这增加了内存消耗。
目前,随着深度学习的发展,神经网络在许多领域取得了良好的效果。 然而,神经网络可能需要巨大的内存空间,这使得在低资源设备上运行这 种模型变得困难。因此,有必要压缩神经网络。
近年来,已经提出了许多压缩神经网络的方法。剪枝方法通过移除权 重低于阈值的所有连接来减少神经网络的参数数目。量化方法将权重聚 类,只使用几个位的内存来表示神经元,然后通过索引的方式来得到对应 的浮点值。
二值化也是一种压缩神经网络的方法。BNNs(Binarized Neural Networks,二值化神经网络)是二元化的深度神经网络。权重和激活限制 为1或-1。BNNs可以大幅减少内存大小,并可以逐位操作替换大多数算 术运算。发明人在实现本发明的过程中发现,与剪枝和量化不同,二值化 不一定需要预先训练,并且可以实现很大的压缩比。现有技术已经提出了 许多二值化方法。然而,只有少数工作与递归神经网络有关,且没有对二 值化的大型词汇量LSTM语言模型进行全面的研究。
发明内容
本发明实施例提供一种语言模型压缩方法、系统及电子设备,用于至 少解决上述技术问题之一。
第一方面,本发明实施例提供一种语言模型压缩方法,包括:响应于 获取的输入参数,查找与所述输入参数对应的二值化向量;至少将所述二 值化向量经过二值化的循环网络层,以得到二值化的循环网络层输出;至 少将所述循环网络层输出经过二值化的线性层并输出结果
第二方面,本发明实施例提供一种语言模型压缩系统,包括:输入二 值化单元,配置为响应于获取的输入参数,查找与所述输入参数对应的二 值化向量;循环结构二值化单元,配置为至少将所述二值化向量经过二值 化的循环网络层,以得到二值化的循环网络层输出;以及结果二值化单元, 配置为至少将所述循环网络层输出经过二值化的线性层并输出结果。
第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所 述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述 至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使 所述至少一个处理器能够执行本发明任一实施例的语言模型压缩方法的 步骤。
第四方面,本发明实施例还提供一种计算机程序产品,所述计算机程 序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计 算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机 执行本发明任一实施例的语言模型压缩方法的步骤。
本申请的方法和系统提出了一种新颖的二值化LSTM LM,用以解决 语言模型在压缩的同时保证性能不受太多影响。通过使用二值化向量来编 码词嵌入以及LSTM的参数,从而达到较高的内存压缩率。开创性地探索 了二值化LSTM在大词表语言模型中的应用。进一步地,通过实验表明, 本申请提出的模型在中文和英文数据集上达到了11.3的无损压缩比,在损 失小部分性能的情况下,可以达到31.6的压缩比。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中 所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动 的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种语言模型压缩方法的流程图;
图2和图3为本发明一实施例提供的算法1和算法2;
图4为本发明一实施例提供二值化嵌入的可视化表示图;
图5为本发明一实施例提供的一种语言模型压缩系统的框图;
图6是本发明一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本 发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描 述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。 基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提 下所获得的所有其他实施例,都属于本发明保护的范围。
下面,先介绍本申请的实施方式,之后将用实验数据证实本申请的方 案与现有技术相比有什么不同,能实现什么有益效果。
请参考图1,其示出了本发明的语言模型压缩方法一实施例的流程图, 本实施例的语言模型压缩方法可以适用于将神经网络语言模型用于存储 空间较小的设备。
如图1所示,在步骤101中,响应于获取的输入参数,查找与输入参 数对应的二值化向量;
在步骤102中,至少将二值化向量经过二值化的循环网络层,以得到 二值化的循环网络层输出;
在步骤103中,至少将循环网络层输出经过二值化的线性层并输出结 果。
在本实施例中,对于步骤101,语言模型压缩装置接收到输入参数之 后,例如输入一个词之后,就可以从嵌入层中查找对应的二值化向量,以 前是实数向量,本申请是二值化之后的向量。之后,对于步骤102,语言 模型压缩装置至少将二值化向量经过一个已经被二值化的循环网络层,得 到这个二值化循环网络层输出,在这之前还可以经过一个普通的线性层, 本申请在此没有限制。进一步的,该循环网络层例如可以是长短时记忆层 或者是其他循环网络层,本申请在此没有限制。之后,对于步骤103,至 少将步骤102中的循环网络层输出经过一个二值化的线性层并输出最终结 果。进一步地,在此之前可以先经过一个普通的线性层。从而可以实现对 语言模型的输入输出以及中间处理过程都进行压缩。
在一些可选的实施例中,二值化的循环网络层包括对循环网络层的参 数和实现细节进行二值化后的循环网络层。例如可以对长短时记忆层的参 数和计算过程都进行二值化。计算过程二值化例如包括对线性层正向传播 过程和线性层反向传播过程均二值化。从而可以进一步压缩语言模型。除 了参数,还可以将计算过程二值化,使用更加高效的popcnt指令进行向量 内积的计算,提高效率。进一步地,二值化的过程可以包括:训练时参数 保存为普通的浮点数;前向过程中将浮点参数进行二值化,然后使用对应 的运算进行前向计算;后向过程中对浮点的参数进行更新;训练完成之后 即把浮点数二值化,这样达到压缩的效果;推理(使用模型)时直接使用 保存的二值数和二值的运算进行推理。
在一些可选的实施例中,对循环网络层的参数进行二值化包括基于高 斯分布N(0,)随机地初始化每个权重w:
在另一些可选的实施例中,对循环网络层的实现进行二值化包括使用 预设操作二值化循环网络层的实现细节。该预设操作包括shift操作。
在另一些可选的实施例中,二值化的线性层为在原有的线性层的基础 上增加了二值化权重和偏差的线性层,原有的线性层表示为:et=Wext,二 值化的线性层表示为:et=WTe(We bxt)+bTe,其中,WTe表示额外的线性 转移,We b表示二值化的We,bTe表示偏差。
在另一些可选的实施例中,语言模型为长短时记忆语言模型,长短时 记忆语言模型在第t时刻的词概率分布通过下式计算:
P(yt|x1,...,xt)=pt=softmax(Wyht),
其中,xt表示第t个时刻的输入,yt表示第t时刻的输出,Wy表示输 出权重,ht表示为第t时刻的隐藏向量;
根据以上任一实施例的方法的改进后的长短时记忆语言模型在第t时 刻的词概率分布通过下式计算:
其中,Wy b表示二值化的Wy,WTy和bTy表示二值化输出线性层的权 重和偏差。从而可以实现对语言模型的全方位压缩。
需要说明的是,对于前述各方法实施例,为了简单描述,故将其都表 述为一系列的动作合并,但是本领域技术人员应该知悉,本发明并不受所 描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或 者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施 例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没 有详述的部分,可以参见其他实施例的相关描述。
长短时记忆(LSTM)语言模型(LM)广泛应用于自动语音识别(ASR, AutomaticSpeech Recognition)和自然语言处理(NLP)。虽然大词表任务取 得了很好的性能,但是伴随着的巨大的内存消耗让LSTM语言模型在端侧 的应用受限,而其中大部分的内存都被词嵌入层占用。在长短时记忆模型 中,每个参数由浮点数来表示,需要32bit来存储。由于大词表的语言模 型词表很大,这导致长短时记忆模型需要大量的模型参数。保存这些参数需要大量的内存。而移动设备往往内存有限,这限制了基于长短时记忆模 型的语言模型在移动设备上的应用。
一方面,本领域技术人员在面对上述技术问题时,往往会使用效果比 较差、比较原始的基于n-gram的语言模型。这种方法虽然避免了基于长 短时记忆模型需要大量内存的问题,但模型性能不如长短时记忆模型,导 致语音识别系统性能的下降。
而另一方面,训练二值化的神经网络比较难,简单的直接将参数变为 二值的话,模型效果会很差。本申请的发明人也尝试过直接将语言模型的 词嵌入二值化,用二值化后的词嵌入去训练语言模型。这种方法比较直接, 但在实际训练的过程中,直接将词嵌入二值化导致词嵌入丢失太多的信 息,结果比较差。所以放弃了这种思路。
本申请提出了全新的二值化LSTM语言模型来解决这个问题。在训练 的时候,我们保留一个浮点数版本的参数,但在实际使用时,将会使用对 应的二值化版本。根据语言模型的特点,我们在模型的结构上做了一些改 进,使得模型既能够大量减少内存消耗,在模型性能上也几乎没有损失。 本申请中,我们用二值化向量来编码词嵌入以及LSTM的参数,从而达到 较高的内存压缩率。本申请开创性地探索了二值化LSTM在大词表语言模 型中的应用。训练时保留浮点数版本,二值化后进行正向传播,用二值对 应的梯度给浮点数版本的梯度更新。在词嵌入层,加入额外的线性层。并 在二值化循环网络中,加入shift操作。实验表明,提出的模型在中文和英 文数据集上达到了11.3的无损压缩比,在损失小部分性能的情况下,可以 达到31.6的压缩比。
本申请的方案能够应用于各种终端和服务器。例如,对于一种服务器 高效数据处理方法的方案,所能够直接达到的效果就是提高了数据的处理 效率,但是更深层次的,由于其提升了数据处理效率,所以使得服务器在 单位时间内所能够处理数据的吞吐量更大,从而避免造成数据拥塞宕机, 提升了服务器的稳定性。减少了运行基于长短时记忆模型的语言模型所需 要的内存,使在低内存设备上运行语音识别成为可能。
接下来,以一个具体的示例来论述本申请的实现过程和效果。
现有技术提出了RNN语言模型来处理顺序数据。但是由于梯度消失 和爆炸问题,RNN语言模型难以学习长时依赖关系。LSTM通过门控机制 增强了递归神经模型,解决了这个问题,并广泛应用于自然语言处理任务。
语言模型的目标是计算句子(x1,...,xN)的概率。一种典型的方法 是逐字分解这个概率。
现有技术中提出了一个长短时记忆网络,它可以用于序列处理任务。 考虑一个单层LSTM网络,其中N是句子的长度,xt是第t个时刻的输入。 yt是第t时刻的输出,它等于语言模型中的xt+1。将ht和ct表示为第t时 刻的隐藏矢量和单元矢量,用于表示(x1,...,xt-1)的历史。h0和c0用零 初始化。给定xt,ht-1和ct-1,模型计算输出yt的概率。
LSTM语言模型的第一步是从词嵌入中提取输入xt的表示et。由于xt是一个单独的向量,所以这个操作可以通过索引而不是乘法来实现。
et=Wext (2)
之后,将et与ht-1和ct-1一起送入LSTM细胞。隐藏向量ht和单元向 量ct可以按照下式计算:
ft=sigmlid(Wf{ht-1,et}+bf)
it=sigmoid(Wi{ht-1,et}+bi)
ot=sigmoid(Wo{ht-1,et}+bo)
ht=ot·tanh(ct) (3)
第t时刻的词概率分布可以通过下式计算:
P(yt|x1,...,xt)=pt=softmax(Wyht) (4)
在第t时刻将yt作为输出的概率为:
二值化嵌入语言模型(BELM,Binarized Embedding Language Model) 是一种具有二值化输入嵌入和输出嵌入的新型LSTM语言模型。对于词汇 量为V的单层LSTM语言模型,H的嵌入和隐藏层大小。输入嵌入层,输 出嵌入层和LSTM层的参数大小(字节)分别为4VH,4V H和32H 2+ 16H。当V远大于语言模型常见的H时,输入嵌入和输出嵌入的参数占据 了大部分空间。如果输入层和输出层的嵌入是二值化的,输入层和输出层 仅占原始内存消耗的1/32,这可以大大减少运行神经语言模型的内存消 耗。
找到好的二值化嵌入非常重要。发明人发现,直接二值化化预训练的 词嵌入不能得到良好的二值化表示。相反,我们从头开始训练良好的二值 化嵌入。在运行时,输入嵌入和输出嵌入是二值化矩阵。然而,在训练时 间,用于计算嵌入的二值化版本的嵌入的浮点版本仍然保持。在正向传播 步骤中,使用确定性函数符号对嵌入的浮点版本进行二值化。在反向传播 步骤中,根据二值化嵌入的梯度更新嵌入的浮点版本。
符号函数的导数几乎在任何地方都是零,并且不可能通过此函数进行 反向传播。可以使用直通估计器来获得梯度。假设已经获得了二值化权 重的梯度,浮点版本权重的梯度为:
典型的权重初始化方法从高斯分布N(0,)中随机地初始化每 个神经元的权重。这种初始化方法可以使梯度最大化并减轻消失梯度问 题。从这个角度来看,1或-1太大了。所以,在实践中,我们将嵌入二值 化为更小规模。虽然权重被二值化为浮点数,但矩阵也可以每个神经元保 存一位,只要固定浮点值分开存储。
由于直接对输入嵌入进行二值化,输入嵌入We和输出嵌入Wy将限制 嵌入的比例,因此在输入嵌入层后面和输出嵌入层前添加额外的线性层 (未激活)以增强模型。将We b和Wy b表示为We和Wy对应的二值化权重。 将WTe和bTe,WTy和bTy表示为第一和第二线性层的权重和偏差。根据以 下公式计算LSTM et的输入和二值化嵌入语言模型的概率pt
输出嵌入层之前的附加线性层对于二值化嵌入语言模型非常重要,特 别是对于低维模型。去除此图层会导致性能明显下降。
对于二值化LSTM语言模型,前面解释了如何二值化嵌入层,但发明 人发现LSTM网络也可以被二值化。在二值化LSTM语言模型中,参数中 的所有矩阵都被二值化,这可以节省更多的存储空间。实现二值化线性层 对于设计二值化LSTM语言模型(BLLM,BinarizedLSTM Language Model)很重要。在二值化线性层中,有三个参数W,γ和b。W是矩阵, γ和b是矢量。占据线性层中大部分空间的矩阵W被二值化。γ和b保持 浮点值。b是线性层的偏差,引入γ来解决二元矩阵的尺度问题。
前向和后向传播算法如图2中的算法1和图3中的算法2所示。其中, 在算法1中的s.exp()即为本申请在线性层所新增的shift操作,用于二 值化LSTM层的实现细节。算法1(algorithm1)和算法2(algorithm2) 里面的二值化的过程可以描述为:训练时参数保存为普通的浮点数;前向 过程中将浮点参数进行二值化,然后使用对应的运算进行前向计算;后向 过程中对浮点的参数进行更新;训练完成之后即把浮点数二值化,这样达 到压缩的效果;推理(使用模型)时直接使用保存的二值数和二值的运算 进行推理。
该线性层的结构与批量归一化的结构非常相似,批次不规范。由于对 整个序列的依赖性,批量归一化很难应用于递归神经网络。但是,批量归 一化的结构非常有用。由于二值化的W会限制权重的取值范围,因此需 要额外的自由度来解决这个问题。放缩操作可以将输出重新调整到合理的 范围。
二值化LSTM语言模型的输入嵌入和输出嵌入的结构类似于二值化 嵌入语言模型。嵌入是二值化的,并且可以在输入嵌入层之后及在输出嵌 入层之前添加附加的线性层。然而,根据算法1和算法2,附加线性层也 能够被二值化。
本申请实施例中将词汇表的大小表示为V,将嵌入和隐藏层的大小表 示为H.单层LSTM语言模型BELM和BLLM的内存消耗列于表1中。
表1内存要求
对于语言模型,词汇大小通常远大于隐藏层大小。主要的内存消耗来 自嵌入层,对于LSTM语言模型需要8V H字节。二值化嵌入可以将此项 减少到0.25V H字节。LSTM的进一步压缩可以将H2的系数从32降至 1.25。
本申请实施例的模型在英国宾州TreeBank(PTB),中文短消息(SMS) 和SWB-Fisher(SWB)上评估。Penn TreeBank语料库是一个着名的英语 数据集,词汇量为10K,词汇量(OOV)为4.8%,广泛用于评估语言模 型的性能。训练集包含大约42K句子和887K字。中文短信语料库是从短 信中收集的。该语料库的词汇量大约为40K。训练集包含380K句子,1931K 词。SWB-Fisher语料库是一个包含大约2.5M句子和24.9M个单词的英语 语料库。语料库的词汇量大约为30K。hub5e是SWB ASR任务的数据集。
本申请还评估了由两个词相似性数据集上的模型生成的单词嵌入。在 Text8语料库上训练模型以提取词嵌入。Text8语料库由Google出版并从 维基百科收集。Text8包含大约17M字,词汇大小约为47k。 WordSimilarity-353(WS-353)测试集合包含两组英文单词对以及人类指 定的相似性判断。该集合可用于训练和测试实现语义相似性度量的计算机 算法。提供了组合,其包含所有353个单词的列表以及它们的平均相似性 分数。MEN数据集由3,000个字对组成,这些字对从随机可用的ukWaC 和Wackypedia语料库中分别至少出现700次的词语中随机选取(大小分 别为1.9B和820M标记),并且至少ESP游戏数据集的开源子集中有50 次(作为标签)。为了避免只选择不相关的对,根据基于文本的语义评分 对这些对进行采样,以便它们表示相关性水平的平衡范围。
首先,分别对PTB,SWB和Text8语料库进行实验,以评估语言建模 性能。本申请使用困惑度(PPL,perplexity)作为评估不同尺寸模型的度 量。然后,模型在ASR重打分任务上进行评估。对由加权有限状态转换 器(WFST,Weighted Finite State Transducer)产生的100个最佳句子进行 重打分,该模型由字错误率(WER,Word Error Rate)评估。最后,我们 对单词相似性任务进行实验,以评估我们模型生成的单词嵌入是否会丢失 任何信息。
本申请进行了一系列的语言建模实验。对于传统的RNN语言模型, 内存消耗主要来自嵌入层(输入层和输出层)。但是,当隐藏层大小增加 时,RNN模块的内存消耗也会变大。所以总的内存使用量与词汇大小和隐 藏层大小都有关,如前所述。
实验在语言建模中进行,分别评估PTB,SWB和SMS语料库的模型。 在语言建模任务中,我们使用退出来调整网络。我们使用随机梯度下降 (SGD,Stochastic GradientDescent)进行优化。批量大小设置为64。对 于PTB语料库,将针对不同的培训设置调整退出率。对于SWB语料库, 我们不使用丢失技术。对于SMS语料库,丢失率(dropout)设置为0.25。我们在三个语料库上训练不同大小的模型,并记录训练模型的内存使用情 况。所有设置的初始学习率均设为1.0。由于PTB是一个相对较小的数据 集,并且BELM和BLLM的收敛速度比LSTM语言模型慢,所以如果验 证集的困惑性没有降低,我们将学习速率每三个时期减少一半。对于其他 实验,如果验证集合上的困惑不减少,则学习率总是每个时期减少一半。 如第3节介绍的,输出嵌入层的偏置被省略。在输出嵌入层中添加偏置项 会导致BELM和BLLM模型性能下降较小,但它会导致LSTM模型的小 幅改进。这种现象可能与优化问题有关。
表2英语PTB语料库的表现
表3语SWB语料库的表现
表4中文短信语料库的表现
由于总内存使用量与词汇大小和隐藏层大小相关,因此各语料库的内 存减少量相差很大。对于我们的BELM模型,浮点嵌入参数被替换为单个 位,这可以显着减少内存使用量。在PTB语料库中,BELM模型甚至胜过 基线LSTM LM。小模型(500个LSTM单元)相对PPL改进4.1%,压缩 比达到4.3,大型模型(1000个LSTM单元)相对PPL改进4.1%,压缩 比达到2.6。在SWB语料库上,BELM模型与基线模型相比仍然表现良好, 并且分别为小型和大型模型实现了9.4和5.8的压缩比。在短信语料库上, BELMs模型也获得了0.2%和1.9%的相对PPL改进,并分别实现了11.3 和7.1的压缩比。总之,BELM模型与英文和中文语料库的基线模型一样 好,并且在很大程度上减少了内存消耗。
然而,BLLM模型并没有超越基线模型,但仍然有可接受的结果,但 性能损失较小。由于LSTM模型和嵌入都是二值化的,因此总压缩比非常 重要。平均压缩比约为32.0,因此语言模型的内存消耗明显减少。
我们还研究了修剪LSTM语言模型的性能。我们分别用各种修剪率修 剪每个参数矩阵和嵌入层,并用各种丢失率对模型进行微调。在我们的实 验中,修剪75%的参数节点几乎不影响性能。但是,如果我们尝试修剪更 多的参数节点,困惑度会迅速增加。例如,对于英文PTB数据集,当我们 修剪LSTM语言模型(500个LSTM单元)的嵌入层的95%参数节点时, 优势将从91.8增加到112.3。当我们修剪LSTM语言模型(500个LSTM 单元)的95%参数节点时,困惑度将从91.8增加到132.3。因此,语言建 模任务的修剪效果不如二值化效果好。
二值化可以认为是量化的一个特例,它将参数量化为相反数字对。因 此,与正常量化相比,二值化可以实现更好的压缩比。另外,对于二值化, 我们不需要预先确定每个唯一值的位置。因此,二值化比量化更灵活。
然后我们研究BLLM中额外的二元线性层的影响。在输入嵌入层之后 的附加二值化线性层和在输出嵌入层之前的附加二值化线性层分别在该 实验中被去除。我们使用训练有素的嵌入来初始化相应的嵌入层,并使用 去除附加的二元线性层的方法进行二值化。表5中列出了这些困惑。No-i 表示在输入嵌入层之后没有额外的二值化线性层。No-o意味着输出嵌入 层前面没有额外的二值化线性层。No-io意味着没有额外的二值化线性 层。该实验在PTB语料库上进行。
表5英语PTB语料库的表现
如果删除输入嵌入层之后的附加二值化线性层,则性能不会下降,并 且在隐藏层大小为1000时甚至会变得更好。尽管在输入嵌入层之后的附 加二值化层被删除,但浮点版本BLLM no-i的输入嵌入使用训练有素的嵌 入进行初始化,而BLLM未使用训练有素的嵌入进行初始化。我们认为初 始化是BLLM没有执行BLLM的原因。如果输入的嵌入未经过预先训练 (未在表格中列出),我们还观察到BLLM no-i的PPL增加1-2分。这种 现象促使我们预嵌嵌入,这是我们留给未来的工作。一旦输出嵌入层前面 的附加二值化线性层被移除,性能下降就很严重。这表明语言模型的输出 嵌入不应直接二值化;应该插入额外的二值化线性层来增强模型的容量, 特别是对于低维模型。
本申请还在ASR重打分任务上进行了实验,以评估hub5e和SMS语 料库上的模型。Hub5e是我们用于ASR重打分任务的SWB语料库的测试 数据集。对于hub5e日期集,在300小时任务中的VDCNN(非常深的CNN) 模型被用作声学模型。对于中文SMS数据集,声学模型是CD-DNNHMM (Context Dependent Deep Neural Network Hidden Markov Model,上下文相关 深度神经网络隐马尔科夫模型)模型。加权有限状态转换器(WFST)由 4元(4-gram)语言模型生成。然后我们的语言模型被用来重新评估100 个最佳候选句。模型通过字错误率(WER)的度量来评估。
表6ASR重打分任务的性能
表6显示了ASR重打分任务的结果。BELM模型和BLLM模型在英 文和中文数据集上均表现良好。在三个实验中,BELM模型与基线模型相 比实现了绝对0.2%的WER改善。BLLM模型也有很好的结果,尽管它 在语言建模方面表现不佳。结果表明,我们的语言模型即使在内存消耗较 少的情况下也能很好地在ASR重新调整任务上运行。
上面的实验显示了我们模型的良好性能。我们也想调查二值化嵌入是 否会丢失任何信息。因此,嵌入是评估两个词相似任务。实验是在WS-353 和MEN任务上进行的。我们已经在Text8语料库上训练了基线LSTM模 型,中等大小的BELM模型和BLLM模型。我们对训练的基线LSTM模 型的嵌入进行二值化,以通过简单的二值化方法(下表中标记为 LSTM-bin)来调查是否存在任何信息丢失。对于每个维度,我们计算均值, 如果它大于均值,则将值设置为1,否则,我们将其设置为-1。
嵌入大小和隐藏层大小设置为500。我们使用随机梯度下降(SGD) 来优化我们的模型。我们使用余弦距离来评估单词对的相似性。Spearman 的等级相关系数计算来评估我们的模型和领域专家给出的两个分数之间 的相关性。
表7Text8语料库上的语言建模性能
表8单词相似性任务的表现
表7显示了我们的模型在Text8语料库的语言建模中表现良好。表8 总结了单词嵌入在相似性任务中的表现。简单的二值化方法生成的嵌入表 现明显比其他嵌入更差,这表明很多信息丢失。BELM模型在MEN任务 上的性能优于基线模型,虽然它的性能不如WS-353任务的基准模型。然 而,MEN数据集包含更多的单词对,这使得该数据集的结果更具说服力。 BLLM模型在两项任务上明显优于基准模型。结果表明,BLLM的二值化 嵌入不会丢失任何语义信息,尽管参数仅由-1和1表示。
我们怀疑二值化在正则化中扮演着一个角色,并产生更强大的向量。 我们还给出了一些词向量的例子。TSNE减少了BLLM嵌入的尺寸。
图4为二值化嵌入的可视化表示图,其中,king、father、mother、 grandfather、grandmother、birthplace等都是英文数据集上面的词。在图4 中示出了最接近father的单词(根据单词向量的余弦距离)。
在这个图中,mother和parents是最接近father的词语,这是可以理 解的。husband、wife、grandfather和grandmother的词语也聚集在一起, 图中的大部分词语都与father有关,表明嵌入确实带有语义信息。
综上,本申请提出了一种新的语言模型-二值化嵌入语言模型 (BELM),以解决神经网络语言模型占据巨大空间的问题。对于传统的 RNN语言模型,内存消耗主要来自嵌入层(输入层和输出层)。但是,当 隐藏层大小增加时,RNN模块的内存消耗也会变大。因此,总内存使用量 与词汇大小和隐藏层大小都有关。在BELM模型中,单词以二值化向量的 形式表示,其中只包含-1或1的参数。为了进一步压缩,我们对与二值化 嵌入相结合的长期短期记忆语言模型进行二值化。因此,总内存使用量可 以显着减少。在各种语料库上进行语言建模和ASR重打分任务的实验。 结果表明,BELM模型在2.6到11.3的压缩比下性能没有任何损失,这取 决于隐藏和词汇大小。BLLM模型能达到约32倍的压缩率,而性能略有 下降。我们还评估嵌入词相似任务。结果显示二值化嵌入甚至比基线嵌入 表现得更好。
请参考图5,其示出了本发明一实施例提供的语言模型压缩系统框图。
如图5所示,本发明的语言模型压缩系统500,包括输入二值化单元 510、循环结构二值化单元520和结果二值化单元530。
其中,输入二值化单元510,配置为响应于获取的输入参数,查找与 所述输入参数对应的二值化向量;循环结构二值化单元520,配置为至少 将所述二值化向量经过二值化的循环网络层,以得到二值化的循环网络层 输出;以及结果二值化单元530,配置为至少将所述循环网络层输出经过 二值化的线性层并输出结果。
应当理解,图5中记载的诸模块与参考图1中描述的方法中的各个步 骤相对应。由此,上文针对方法描述的操作和特征以及相应的技术效果同 样适用于图5中的诸模块,在此不再赘述。
值得注意的是,本公开的实施例中的模块并不用于限制本公开的方 案,例如输入二值化单元可以描述为响应于获取的输入参数,查找与所述 输入参数对应的二值化向量的单元。另外,还可以通过硬件处理器来实现 相关单元,例如输入二值化单元也可以用处理器实现,在此不再赘述。
在另一些实施例中,本发明实施例还提供了一种非易失性计算机存储 介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可 执行上述任意方法实施例中的语言模型压缩方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机 可执行指令,计算机可执行指令设置为:
响应于获取的输入参数,查找与所述输入参数对应的二值化向量;
至少将所述二值化向量经过二值化的循环网络层,以得到二值化的循 环网络层输出;
至少将所述循环网络层输出经过二值化的线性层并输出结果。
作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程 序、非易失性计算机可执行程序以及模块,如本发明实施例中的语言模型 压缩方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计 算机可读存储介质中,当被处理器执行时,执行上述任意方法实施例中的 语言模型压缩方法。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其 中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储 数据区可存储根据语言模型压缩装置的使用所创建的数据等。此外,非易 失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易 失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固 态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相 对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至语言 模型压缩装置。上述网络的实例包括但不限于互联网、企业内部网、局域 网、移动通信网及其组合。
本发明实施例还提供一种计算机程序产品,计算机程序产品包括存储 在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指 令,当程序指令被计算机执行时,使计算机执行上述任一项语言模型压缩 方法。
图6是本发明实施例提供的电子设备的结构示意图,如图6所示,该 设备包括:一个或多个处理器610以及存储器620,图6中以一个处理器 610为例。语言模型压缩方法的设备还可以包括:输入装置630和输出装 置640。处理器610、存储器620、输入装置630和输出装置640可以通过 总线或者其他方式连接,图6中以通过总线连接为例。存储器620为上述的非易失性计算机可读存储介质。处理器610通过运行存储在存储器620 中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用 以及数据处理,即实现上述方法实施例语言模型压缩方法。输入装置630 可接收输入的数字或字符信息,以及产生与信息投放装置的用户设置以及 功能控制有关的键信号输入。输出装置640可包括显示屏等显示设备。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功 能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明 实施例所提供的方法。
作为一种实施方式,上述电子设备应用于神经网络语言模型中,包括: 至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存 储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执 行,以使至少一个处理器能够:
响应于获取的输入参数,查找与所述输入参数对应的二值化向量;
至少将所述二值化向量经过二值化的循环网络层,以得到二值化的循 环网络层输出;
至少将所述循环网络层输出经过二值化的线性层并输出结果。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供 话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒 体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算 和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和 UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备 包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具 和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、 内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供 高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、 可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单 元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也 可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元 上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案 的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解 并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实 施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬 件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部 分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可 读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台 计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施 例或者实施例的某些部分的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其 限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术 人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或 者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技 术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种语言模型压缩方法,包括:
响应于获取的输入参数,查找与所述输入参数对应的二值化向量;
至少将所述二值化向量经过二值化的循环网络层,以得到二值化的循环网络层输出;
至少将所述循环网络层输出经过二值化的线性层并输出结果。
2.根据权利要求1所述的方法,其中,所述二值化的循环网络层包括对循环网络层的参数和计算过程进行二值化后的循环网络层。
3.根据权利要求2所述的方法,其中,对循环网络层的参数进行二值化包括基于高斯分布随机地初始化每个权重w:
4.根据权利要求2所述的方法,其中,对循环网络层的计算过程进行二值化包括使用shift操作二值化循环网络层的实现细节。
5.根据权利要求1-4中任一项所述的方法,其中,所述二值化的线性层为在原有的线性层的基础上增加了二值化权重和偏差的线性层,原有的线性层表示为:et=Wext,所述二值化的线性层表示为:et=WTe(We bxt)+bTe,其中,WTe表示额外的线性转移,We b表示二值化的We,bTe表示偏差。
6.根据权利要求5所述的方法,其中,所述语言模型为长短时记忆语言模型,所述长短时记忆语言模型在第t时刻的词概率分布通过下式计算:
P(yt|x1,...,xt)=pt=softmax(Wyht),
其中,xt表示第t时刻的输入,yt表示第t时刻的输出,Wy表示输出权重,ht表示为第t时刻的隐藏向量;
根据权利要求1-4中任一项所述的方法改进后的长短时记忆语言模型在第t时刻的词概率分布通过下式计算:
其中,Wy b表示二值化的Wy,WTy和bTy表示二值化输出线性层的权重和偏差。
7.一种语言模型压缩系统,包括:
输入二值化单元,配置为响应于获取的输入参数,查找与所述输入参数对应的二值化向量;
循环结构二值化单元,配置为至少将所述二值化向量经过二值化的循环网络层,以得到二值化的循环网络层输出;
结果二值化单元,配置为至少将所述循环网络层输出经过二值化的线性层并输出结果。
8.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至6任一项所述方法的步骤。
9.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至6任一项所述方法的步骤。
CN201810539084.4A 2018-05-30 2018-05-30 语言模型压缩方法和系统 Pending CN108874754A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810539084.4A CN108874754A (zh) 2018-05-30 2018-05-30 语言模型压缩方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810539084.4A CN108874754A (zh) 2018-05-30 2018-05-30 语言模型压缩方法和系统

Publications (1)

Publication Number Publication Date
CN108874754A true CN108874754A (zh) 2018-11-23

Family

ID=64335642

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810539084.4A Pending CN108874754A (zh) 2018-05-30 2018-05-30 语言模型压缩方法和系统

Country Status (1)

Country Link
CN (1) CN108874754A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109448706A (zh) * 2018-12-12 2019-03-08 苏州思必驰信息科技有限公司 神经网络语言模型压缩方法及系统
CN110046350A (zh) * 2019-04-12 2019-07-23 百度在线网络技术(北京)有限公司 文法错误识别方法、装置、计算机设备及存储介质
CN110070119A (zh) * 2019-04-11 2019-07-30 北京工业大学 一种基于二值化深度神经网络的手写数字图像识别分类方法
CN111507100A (zh) * 2020-01-14 2020-08-07 上海勃池信息技术有限公司 一种卷积自编码器及基于该编码器的词嵌入向量压缩方法
WO2021151324A1 (zh) * 2020-09-09 2021-08-05 平安科技(深圳)有限公司 基于迁移学习的医疗数据处理方法、装置、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915386A (zh) * 2015-05-25 2015-09-16 中国科学院自动化研究所 一种基于深度语义特征学习的短文本聚类方法
CN106816147A (zh) * 2017-01-25 2017-06-09 上海交通大学 基于二值神经网络声学模型的语音识别系统
US20170286830A1 (en) * 2016-04-04 2017-10-05 Technion Research & Development Foundation Limited Quantized neural network training and inference

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915386A (zh) * 2015-05-25 2015-09-16 中国科学院自动化研究所 一种基于深度语义特征学习的短文本聚类方法
US20170286830A1 (en) * 2016-04-04 2017-10-05 Technion Research & Development Foundation Limited Quantized neural network training and inference
CN106816147A (zh) * 2017-01-25 2017-06-09 上海交通大学 基于二值神经网络声学模型的语音识别系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DI CAO等: "Deep Attentive Structured Language Model Based on LSTM", 《ISCIDE 2017》 *
MARCUS EDEL等: "Binarized-BLSTM-RNN based Human Activity Recognition", 《2016 INTERNATIONAL CONFERENCE ON INDOOR POSITIONING AND INDOOR NAVIGATION》 *
张桂珠主编: "《JAVA面向对象程序设计 第4版》", 31 January 2015, 北京邮电大学出版社 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109448706A (zh) * 2018-12-12 2019-03-08 苏州思必驰信息科技有限公司 神经网络语言模型压缩方法及系统
CN110070119A (zh) * 2019-04-11 2019-07-30 北京工业大学 一种基于二值化深度神经网络的手写数字图像识别分类方法
CN110070119B (zh) * 2019-04-11 2021-11-26 北京工业大学 一种基于二值化深度神经网络的手写数字图像识别分类方法
CN110046350A (zh) * 2019-04-12 2019-07-23 百度在线网络技术(北京)有限公司 文法错误识别方法、装置、计算机设备及存储介质
CN111507100A (zh) * 2020-01-14 2020-08-07 上海勃池信息技术有限公司 一种卷积自编码器及基于该编码器的词嵌入向量压缩方法
CN111507100B (zh) * 2020-01-14 2023-05-05 上海勃池信息技术有限公司 一种卷积自编码器及基于该编码器的词嵌入向量压缩方法
WO2021151324A1 (zh) * 2020-09-09 2021-08-05 平安科技(深圳)有限公司 基于迁移学习的医疗数据处理方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN108874754A (zh) 语言模型压缩方法和系统
CN111312245B (zh) 一种语音应答方法、装置和存储介质
CN112487807B (zh) 一种基于膨胀门卷积神经网络的文本关系抽取方法
Berglund et al. Bidirectional recurrent neural networks as generative models
CN111914067A (zh) 中文文本匹配方法及系统
CN110991290B (zh) 基于语义指导与记忆机制的视频描述方法
Shin et al. Fixed-point optimization of deep neural networks with adaptive step size retraining
CN112926322A (zh) 融合自注意力机制和深度学习的文本分类方法及系统
CN114596844B (zh) 声学模型的训练方法、语音识别方法及相关设备
CN113609284B (zh) 一种融合多元语义的文本摘要自动生成方法及装置
JP2019159058A (ja) 音声認識システム、音声認識方法、学習済モデル
Deng et al. Foundations and trends in signal processing: Deep learning–methods and applications
CN110807069B (zh) 一种基于强化学习算法的实体关系联合抽取模型构建方法
Tang et al. Modelling student behavior using granular large scale action data from a MOOC
CN111382231A (zh) 意图识别系统及方法
CN111653275A (zh) 基于lstm-ctc尾部卷积的语音识别模型的构建方法及装置、语音识别方法
CN112307048B (zh) 语义匹配模型训练方法、匹配方法、装置、设备及存储介质
Zhou et al. ICRC-HIT: A deep learning based comment sequence labeling system for answer selection challenge
Räsänen Generating Hyperdimensional Distributed Representations from Continuous-Valued Multivariate Sensory Input.
CN111477220A (zh) 一种面向家居口语环境的神经网络语音识别方法及系统
CN115408494A (zh) 一种融合多头注意力对齐的文本匹配方法
CN117980915A (zh) 用于端到端自监督预训练的对比学习和掩蔽建模
CN115186147A (zh) 对话内容的生成方法及装置、存储介质、终端
Berglund et al. Bidirectional recurrent neural networks as generative models-reconstructing gaps in time series
CN116863920B (zh) 基于双流自监督网络的语音识别方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200622

Address after: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Applicant after: AI SPEECH Ltd.

Applicant after: Shanghai Jiaotong University Intellectual Property Management Co.,Ltd.

Address before: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Applicant before: AI SPEECH Ltd.

Applicant before: SHANGHAI JIAO TONG University

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20201026

Address after: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Applicant after: AI SPEECH Ltd.

Address before: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Applicant before: AI SPEECH Ltd.

Applicant before: Shanghai Jiaotong University Intellectual Property Management Co.,Ltd.

TA01 Transfer of patent application right
CB02 Change of applicant information

Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant after: Sipic Technology Co.,Ltd.

Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant before: AI SPEECH Ltd.

CB02 Change of applicant information