CN114817513B - 一种文本答案的确定方法、装置、设备和介质 - Google Patents

一种文本答案的确定方法、装置、设备和介质 Download PDF

Info

Publication number
CN114817513B
CN114817513B CN202210745454.6A CN202210745454A CN114817513B CN 114817513 B CN114817513 B CN 114817513B CN 202210745454 A CN202210745454 A CN 202210745454A CN 114817513 B CN114817513 B CN 114817513B
Authority
CN
China
Prior art keywords
text
analyzed
offset
neural network
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210745454.6A
Other languages
English (en)
Other versions
CN114817513A (zh
Inventor
尹文枫
董刚
赵雅倩
李仁刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN202210745454.6A priority Critical patent/CN114817513B/zh
Publication of CN114817513A publication Critical patent/CN114817513A/zh
Application granted granted Critical
Publication of CN114817513B publication Critical patent/CN114817513B/zh
Priority to PCT/CN2022/141520 priority patent/WO2024001108A1/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及深度学习技术领域,公开了一种文本答案的确定方法、装置、设备和介质,获取包括文章文本和问题文本的待分析文本。基于待分析文本与设定的偏移量的相似度,确定出与待分析文本匹配的目标偏移量;依据目标偏移量,对神经网络模型以及待分析文本进行压缩处理。利用压缩后的神经网络模型对压缩后的待分析文本进行分析,以从文章文本中提取出与问题文本匹配的答案。基于待分析文本的文本特征选取匹配的偏移量,利用偏移量实现对神经网络模型以及待分析文本的压缩,减少了所需分析的文本数据量和神经网络模型的计算量,提升了文本的处理效率。根据不同类型的输入数据的特征灵活地选择偏移量,实现了神经网络模型的灵活调整和应用。

Description

一种文本答案的确定方法、装置、设备和介质
技术领域
本申请涉及深度学习技术领域,特别是涉及一种文本答案的确定方法、装置、设备和计算机可读存储介质。
背景技术
神经网络压缩技术能够减少神经网络的参数量并加速推理,解决神经网络过参数化对深度学习在资源受限场景或设备应用的阻碍。卷积神经网络(Convolutional NeuralNetworks,CNN)和循环神经网络(Recurrent Neural Network,RNN)是目前常使用的神经网络。
CNN对于输入数据的维度具有较为严格的约束,这个约束在图像识别方面具有较好的适配性,因此CNN常用于图像的分析处理。RNN更多的考虑了神经元之间的联系,比如训练一个翻译系统,那么对于一个短语的翻译一定要考虑前因后果,这就需要模型对于数据输入的前后因素都要考虑,因此RNN常用于文本的分析处理。
目前动态神经网络剪枝算法主要集中于CNN,缺乏面向RNN的动态剪枝方案。RNN通常包含十几层甚至几十层的网络,通常需要非常大的计算代价和存储空间。当采用未执行剪枝的RNN对文本进行分析处理时,需要对文本进行大量的运算分析才能输出结果,导致文本的处理效率偏低。
可见,如何提升文本的处理效率,是本领域技术人员需要解决的问题。
发明内容
本申请实施例的目的是提供一种文本答案的确定方法、装置、设备和计算机可读存储介质,可以快速准确的确定出文本答案。
为解决上述技术问题,本申请实施例提供一种文本答案的确定方法,包括:
获取待分析文本;其中,所述待分析文本包括文章文本和问题文本;
基于所述待分析文本与设定的偏移量的相似度,确定出与所述待分析文本匹配的目标偏移量;
依据所述目标偏移量,对神经网络模型以及所述待分析文本进行压缩处理;
利用压缩后的神经网络模型对压缩后的待分析文本进行分析,以从所述文章文本中提取出与所述问题文本匹配的答案。
可选地,所述基于所述待分析文本与设定的偏移量的相似度,确定出与所述待分析文本匹配的目标偏移量包括:
调用设定的决策模型对所述待分析文本进行处理,以得到各偏移量与所述待分析文本的匹配率;
基于各所述偏移量对应的匹配率、偏移量总个数以及设定的温度参数和随机变量,构建独热向量;
依据所述独热向量,从各所述偏移量中选取出与所述待分析文本匹配的目标偏移量。
可选地,所述基于各所述偏移量对应的匹配率、偏移量总个数以及设定的温度参数和随机变量,构建独热向量包括:
调用匹配率转化公式,将各所述偏移量对应的匹配率转化为独热向量;其中,所述匹配率转化公式的表达式为:
Figure 341268DEST_PATH_IMAGE001
其中,I i 表示独热向量的第i个元素,1<i<mm表示偏移量总个数,p i 表示第i个偏移量对应的匹配率,τ表示设定的温度参数,g i 表示随机变量。
可选地,所述依据所述目标偏移量,对神经网络模型以及所述待分析文本进行压缩处理包括:
利用所述目标偏移量对所述神经网络模型的初始门向量进行调整,得到调整后的门向量;其中,所述门向量包括用于剪枝神经元的第一门向量和用于压缩数据的第二门向量;
依据所述第一门向量对所述神经网络模型进行压缩处理,得到压缩后的神经网络模型;
依据所述第二门向量对所述待分析文本进行压缩处理,得到压缩后的待分析文本。
可选地,针对于所述初始门向量的确定过程,所述方法包括:
利用训练好的二值分布参数,确定出所述神经网络模型的初始门向量。
可选地,所述利用所述目标偏移量对所述神经网络模型的初始门向量进行调整,得到调整后的门向量包括:
调用网络剪枝公式对所述神经网络模型的第一初始门向量进行调整,得到所述第一门向量;其中,网络剪枝公式的表达式为:
Figure 529673DEST_PATH_IMAGE002
其中,R s 表示第一门向量,loga表示构造第一初始门向量的第一位置参数,
Figure 197415DEST_PATH_IMAGE003
表示目标偏移量,σ表示sibmoid激活函数,ργ均为常数,ρ<0,γ>1;
调用数据压缩公式对所述神经网络模型的第二初始门向量进行调整,得到所述第二门向量;其中,数据压缩公式的表达式为:
Figure 757971DEST_PATH_IMAGE004
其中,R z 表示第二门向量,logb表示构造第二初始门向量的第二位置参数,
Figure 220177DEST_PATH_IMAGE003
表示目标偏移量,σ表示sibmoid激活函数,ργ均为常数,ρ<0,γ>1。
可选地,针对于所述神经网络模型的第一个隐藏层构造对应的第一初始门向量和第二初始门向量,对于剩余隐藏层将当前隐藏层的第一门向量作为与其相邻的下一隐藏层的第二门向量。
可选地,所述神经网络模型包括多个隐藏层;每个隐藏层有其各自对应的第一门向量,所述第一门向量的维度与所述隐藏层包含的神经元个数相同;
所述依据所述第一门向量对所述神经网络模型进行压缩处理,得到压缩后的神经网络模型包括:
将所述第一门向量中取值为零的元素所对应的神经元进行剪枝,得到压缩后的隐藏层。
可选地,所述第二门向量的维度与所述待分析文本的数据维度相同;
所述依据所述第二门向量对所述待分析文本进行压缩处理,得到压缩后的待分析文本包括:
将所述第二门向量中取值为零的元素所对应的文本数据进行删除,得到压缩后的待分析文本。
可选地,针对于所述偏移量的设定过程,所述方法包括:
基于所述第一位置参数在各隐藏层的标准差,构建各隐藏层对应的偏移量。
可选地,针对于所述偏移量的设定过程,所述方法包括:
基于预定义的比例数和所述神经网络模型训练得到的学习变量,构建所述神经网络模型中各隐藏层对应的偏移量。
可选地,针对于所述第一位置参数、所述第二位置参数以及所述偏移量的确定过程,所述方法包括:
获取训练文本;其中,所述训练文本包括待训练的文章文本、待训练的问题文本和答案文本;
在将所述训练文本输入所述神经网络模型后,遍历偏移量列表中包含的各偏移量,逐层计算各隐藏层的第一初始门向量和第二初始门向量;
基于所述第一初始门向量和所述第二初始门向量,确定出所述神经网络模型的误差参数;
利用所述误差参数对所述神经网络模型的第一初始位置参数和第二初始位置参数进行调整,得到第一位置参数和第二位置参数;
依据所述第一位置参数调整所述偏移量列表中包含的各偏移量。
本申请实施例还提供了一种文本答案的确定装置,包括获取单元、确定单元、压缩单元和提取单元;
所述获取单元,用于获取待分析文本;其中,所述待分析文本包括文章文本和问题文本;
所述确定单元,用于基于所述待分析文本与设定的偏移量的相似度,确定出与所述待分析文本匹配的目标偏移量;
所述压缩单元,用于依据所述目标偏移量,对神经网络模型以及所述待分析文本进行压缩处理;
所述提取单元,用于利用压缩后的神经网络模型对压缩后的待分析文本进行分析,以从所述文章文本中提取出与所述问题文本匹配的答案。
可选地,所述确定单元包括调用子单元、构建子单元和选取子单元;
所述调用子单元,用于调用设定的决策模型对所述待分析文本进行处理,以得到各偏移量与所述待分析文本的匹配率;
所述构建子单元,用于基于各所述偏移量对应的匹配率、偏移量总个数以及设定的温度参数和随机变量,构建独热向量;
所述选取子单元,用于依据所述独热向量,从各所述偏移量中选取出与所述待分析文本匹配的目标偏移量。
可选地,所述构建子单元用于调用匹配率转化公式,将各所述偏移量对应的匹配率转化为独热向量;其中,所述匹配率转化公式的表达式为:
Figure 833561DEST_PATH_IMAGE001
其中,I i 表示独热向量的第i个元素,1<i<mm表示偏移量总个数,p i 表示第i个偏移量对应的匹配率,τ表示设定的温度参数,g i 表示随机变量。
可选地,所述压缩单元包括调整子单元、模型压缩子单元和数据压缩子单元;
所述调整子单元,用于利用所述目标偏移量对所述神经网络模型的初始门向量进行调整,得到调整后的门向量;其中,所述门向量包括用于剪枝神经元的第一门向量和用于压缩数据的第二门向量;
所述模型压缩子单元,用于依据所述第一门向量对所述神经网络模型进行压缩处理,得到压缩后的神经网络模型;
所述数据压缩子单元,用于依据所述第二门向量对所述待分析文本进行压缩处理,得到压缩后的待分析文本。
可选地,针对于所述初始门向量的确定过程,所述装置包括向量确定单元;
所述向量确定单元,用于利用训练好的二值分布参数,确定出所述神经网络模型的初始门向量。
可选地,所述调整子单元用于调用网络剪枝公式对所述神经网络模型的第一初始门向量进行调整,得到所述第一门向量;其中,网络剪枝公式的表达式为:
Figure 773835DEST_PATH_IMAGE002
其中,R s 表示第一门向量,loga表示构造第一初始门向量的第一位置参数,
Figure 156275DEST_PATH_IMAGE003
表示目标偏移量,σ表示sibmoid激活函数,ργ均为常数,ρ<0,γ>1;
调用数据压缩公式对所述神经网络模型的第二初始门向量进行调整,得到所述第二门向量;其中,数据压缩公式的表达式为:
Figure 683989DEST_PATH_IMAGE004
其中,R z 表示第二门向量,logb表示构造第二初始门向量的第二位置参数,
Figure 738664DEST_PATH_IMAGE003
表示目标偏移量,σ表示sibmoid激活函数,ργ均为常数,ρ<0,γ>1。
可选地,针对于所述神经网络模型的第一个隐藏层构造对应的第一初始门向量和第二初始门向量,对于剩余隐藏层将当前隐藏层的第一门向量作为与其相邻的下一隐藏层的第二门向量。
可选地,所述神经网络模型包括多个隐藏层;每个隐藏层有其各自对应的第一门向量,所述第一门向量的维度与所述隐藏层包含的神经元个数相同;
所述模型压缩子单元用于将所述第一门向量中取值为零的元素所对应的神经元进行剪枝,得到压缩后的隐藏层。
可选地,所述第二门向量的维度与所述待分析文本的数据维度相同;
所述数据压缩子单元用于将所述第二门向量中取值为零的元素所对应的文本数据进行删除,得到压缩后的待分析文本。
可选地,针对于所述偏移量的设定过程,所述装置包括构建单元;
所述构建单元,用于基于所述第一位置参数在各隐藏层的标准差,构建各隐藏层对应的偏移量。
可选地,针对于所述偏移量的设定过程,所述装置包括构建单元;
所述构建单元,用于基于预定义的比例数和所述神经网络模型训练得到的学习变量,构建所述神经网络模型中各隐藏层对应的偏移量。
可选地,针对于所述第一位置参数、所述第二位置参数以及所述偏移量的确定过程,所述装置包括计算单元、误差确定单元、位置参数调整单元和偏移量调整单元;
所述获取单元,用于获取训练文本;其中,所述训练文本包括待训练的文章文本、待训练的问题文本和答案文本;
所述计算单元,用于在将所述训练文本输入所述神经网络模型后,遍历偏移量列表中包含的各偏移量,逐层计算各隐藏层的第一初始门向量和第二初始门向量;
所述误差确定单元,用于基于所述第一初始门向量和所述第二初始门向量,确定出所述神经网络模型的误差参数;
所述位置参数调整单元,用于利用所述误差参数对所述神经网络模型的第一初始位置参数和第二初始位置参数进行调整,得到第一位置参数和第二位置参数;
所述偏移量调整单元,用于依据所述第一位置参数调整所述偏移量列表中包含的各偏移量。
本申请实施例还提供了一种终端设备,包括处理器、输入部件和显示屏;
所述处理器分别与所述输入部件以及所述显示屏连接,用于接收所述输入部件传输的待分析文本;其中,所述待分析文本包括文章文本和问题文本;基于所述待分析文本与设定的偏移量的相似度,确定出与所述待分析文本匹配的目标偏移量;依据所述目标偏移量,对神经网络模型以及所述待分析文本进行压缩处理;利用压缩后的神经网络模型对压缩后的待分析文本进行分析,以从所述文章文本中提取出与所述问题文本匹配的答案;通过所述显示屏展示所述答案。
本申请实施例还提供了一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如上述文本答案的确定方法的步骤。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述文本答案的确定方法的步骤。
由上述技术方案可以看出,获取待分析文本;其中,所述待分析文本包括文章文本和问题文本;利用神经网络模型可以从文章文本中提取出与问题文本对应的答案。目前神经网络模型的架构较为复杂,需要大量的运算分析,为了提升对待分析文本的处理效率,可以基于待分析文本与设定的偏移量的相似度,确定出与待分析文本匹配的目标偏移量;依据目标偏移量,对神经网络模型以及待分析文本进行压缩处理。利用压缩后的神经网络模型对压缩后的待分析文本进行分析,可以以从文章文本中提取出与问题文本匹配的答案。在该技术方案中,基于待分析文本的文本特征可以选取匹配的偏移量,利用偏移量可以实现对神经网络模型以及待分析文本的压缩,有效的减少了所需分析的文本数据量,缩减了神经网络模型的计算量,从而有效的提升了文本的处理效率。并且可以根据不同类型的输入数据的特征灵活地选择偏移量,使得神经网络模型的压缩可以更加贴合输入数据的实际需求,可以达到为较难的样本分配更多的计算量,为简单的样本分配较少的计算量的目的,实现了神经网络模型的灵活调整和应用。
附图说明
为了更清楚地说明本申请实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种确定文本答案的应用环境示意图;
图2为本申请实施例提供的一种文本答案的确定方法的流程图;
图3为本申请实施例提供的一种应答终端的结构示意图;
图4为本申请实施例提供的一种对神经网络模型和待分析文本进行压缩处理的方法的流程图;
图5为本申请实施例提供的一种文本答案的确定装置的结构示意图;
图6为本申请实施例提供的一种电子设备的结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本申请保护范围。
本申请的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。
传统方式中,常采用基于RNN构造的神经网络模型对文本进行分析处理。神经网络模型具有较为复杂的架构,通常需要非常大的计算代价和存储空间。如果可以基于输入文本的特性,对神经网络模型进行动态剪枝,达到压缩神经网络模型的目的,将极大的提升神经网络模型的对文本的处理效率。
故此,本申请实施例提供了一种文本答案的确定方法、装置、设备和计算机可读存储介质,基于待分析文本的文本特征灵活地选择偏移量,利用偏移量可以实现对神经网络模型以及待分析文本的压缩,有效的减少了所需分析的文本数据量,缩减了神经网络模型的计算量,从而有效的提升了文本的处理效率。
图1为本申请实施例提供的一种确定文本答案的应用环境示意图,图1左侧设备为终端设备,右侧设备为服务器,用户可以在终端设备上执行操作,终端设备通过网络实现与服务器的交互。以确定文本答案为例,服务器可以部署基于RNN的神经网络模型,为了使得神经网络模型可以实现从文章文本中提取出与问题文本匹配的答案的功能,需要对神经网络模型进行训练。本申请实施例中神经网络模型指的是基于RNN的神经网络模型。
训练过程可以由终端设备向服务器传输训练文本,训练文本包含有待训练的文章文本、待训练的问题文本和答案文本,以便于服务器可以基于训练文本完成对神经网络模型的训练。为了便于后续结合输入文本的文本特征,实现对神经网络模型和待分析文本的压缩,在神经网络模型训练时可以设置用于压缩神经网络模型以及待分析文本的偏移量。
当终端设备接收到包含有文章文本和问题文本的待分析文本时,可以将待分析文本输入至服务器,服务器可以基于待分析文本与设定的偏移量的相似度,确定出与待分析文本匹配的目标偏移量,依据目标偏移量,对神经网络模型以及待分析文本进行压缩处理,利用压缩后的神经网络模型对压缩后的待分析文本进行分析,可以从文章文本中提取出与问题文本匹配的答案,服务器可以将提取出的答案反馈至终端设备,终端设备可以通过显示屏向用户展示与问题文本匹配的答案。为了使本技术领域的人员更好地理解本申请方案,下面结合附图和具体实施方式对本申请作进一步的详细说明。
接下来,详细介绍本申请实施例所提供的一种文本答案的确定方法。图2为本申请实施例提供的一种文本答案的确定方法的流程图,该方法包括:
S201:获取待分析文本。
其中,待分析文本可以包括文章文本和问题文本。
在实际应用中,需要从文章文本中提取出与问题文本匹配的答案。可以采用神经网络模型对待分析文本进行分析,从而提取出与问题文本匹配的答案。
文章文本可以是一篇新闻报告、一篇作文或者一篇期刊文章等,在本申请实施例中,对于文章文本的具体形式不做限定。问题文本可以是基于文章文本所设置的问题。
S202:基于待分析文本与设定的偏移量的相似度,确定出与待分析文本匹配的目标偏移量。
在本申请实施例中,为了提升待分析文本的处理效率,可以对待分析文本以及神经网络模型进行压缩。在实际应用中,可以设置用于实现模型压缩和文本压缩的门向量。
本申请实施例通过自适应的偏移量调整二值Concrete随机变量的分布,进而在推理时动态的为不同类型的数据生成不同的门向量,实现神经网络模型的动态剪枝。利用偏移量可以实现对门向量的调整。偏移量可以基于神经网络模型的训练得到。
本申请实施例采用的门向量的元素是由服从二值Concrete分布的随机变量v生成的,二值Concrete分布的参数为
Figure 76104DEST_PATH_IMAGE005
,其中loga是位置参数,β代表温度。将Concrete变量
Figure 14848DEST_PATH_IMAGE006
取值范围由(0,1)扩展至(ρ,γ),随后经硬sigmoid(hard-sigmoid)激活函数得到门向量的元素,具体计算公式如下
Figure 412331DEST_PATH_IMAGE007
Figure 203570DEST_PATH_IMAGE008
Figure 875859DEST_PATH_IMAGE009
其中,σ是sigmoid激活函数,u是服从
Figure 639416DEST_PATH_IMAGE010
均匀分布的随机噪声,常数ρ<0
Figure 178107DEST_PATH_IMAGE011
>1。在训练时,β取值2/3,
Figure 722221DEST_PATH_IMAGE012
是需要学习的变量。在推理时,门向量中各元素的计算可以简化为下式。
Figure 73568DEST_PATH_IMAGE013
通过引入偏移量,可以得到如下公式
Figure 253750DEST_PATH_IMAGE014
Figure 55352DEST_PATH_IMAGE015
偏移量可以设置有多个,为了更好的匹配当前的待分析文件,可以计算待分析文本和各偏移量的相似度,从而选取出相似度最高的一个偏移量作为与待分析文本匹配的偏移量。为了便于区分,可以将与待分析文本匹配的偏移量称作目标偏移量。
对于相似度的分析,可以调用设定的决策模型对待分析文本进行处理,以得到各偏移量与待分析文本的匹配率;基于各偏移量对应的匹配率、偏移量总个数以及设定的温度参数和随机变量,可以构建出独热向量。依据独热向量,从各偏移量中选取出与待分析文本匹配的目标偏移量。
本方法通过自适应的偏移量d shift 调整二值Concrete随机变量v的分布,进而在推理时动态的为不同批次的数据生成不同的门向量,实现动态剪枝。为了实现神经元的剪枝,考虑不同LSTM层间关联性将第l-1层LSTM的隐状态门向量
Figure 43687DEST_PATH_IMAGE016
作为第l层LSTM的输入门向量
Figure 854517DEST_PATH_IMAGE017
,在双向LSTM中采用相同的门向量约束前向和反向权值矩阵。
本申请实施例中决策模型可以包含一个动作头(action head)网络,该网络负责预测偏移量d shift ;将不同时间步的输入数据x求平均值作为action head网络的输入;动作头网络由一个激活层和一个全连接层组成;动作头网络输出每个偏移量被选择的概率p i ,采用基于gumbel分布的重参数化技巧并结合softmax函数来生成独热(one-hot)向量I。进而依据独热向量I从预定义的偏移量列表中选择最佳的偏移量作用于隐状态门向量
Figure 156447DEST_PATH_IMAGE018
,动态改变隐状态门向量
Figure 332214DEST_PATH_IMAGE018
偏移量列表中包含的偏移量是自适应的值,而不是固定的值,会在训练过程中随着第一位置参数loga的更新而变化;最终按照隐状态门向量
Figure 647657DEST_PATH_IMAGE018
选择第l层的神经元用于当前批次输入数据的前向推理。
在具体实现中,可以调用匹配率转化公式,将各偏移量对应的匹配率转化为独热向量;其中,匹配率转化公式的表达式为:
Figure 619768DEST_PATH_IMAGE019
其中,I i 表示独热向量的第i个元素,1<i<mm表示偏移量总个数,p i 表示第i个偏移量对应的匹配率,τ表示设定的温度参数,g i 表示随机变量。g i =-log(-log(u)) ,u~U(0,1)。在训练过程中τ的取值可以随训练迭代数增长而在预设范围内减小。
S203:依据目标偏移量,对神经网络模型以及待分析文本进行压缩处理。
在确定出目标偏移量之后,可以基于目标偏移量调整二值Concrete随机变量的分布,从而得到与当前待分析文本匹配的门向量,基于门向量实现对神经网络模型以及待分析文本的压缩处理。
S204:利用压缩后的神经网络模型对压缩后的待分析文本进行分析,以从文章文本中提取出与问题文本匹配的答案。
基于前期的模型训练,神经网络模型已经具备了从文章文本中提取出与问题文本匹配的答案的功能。
通过对神经网络模型进行压缩,可以降低神经网络模型的运算量。通过对待分析文本进行压缩,有效的缩短了所需分析的数据量。通过压缩处理,可以降低不必要的运算,并不会影响到模型分析的准确性,并且可以提升模型的处理效率。
在本申请实施例中,除了将待分析文本传输至服务器进行解析外,也可以将训练好的神经网络模型应用到问答终端。问答终端可以包括处理器、输入部件和显示屏。处理器分别与输入部件以及显示屏连接,处理器可以接收输入部件传输的待分析文本。基于待分析文本与设定的偏移量的相似度,确定出与待分析文本匹配的目标偏移量;依据目标偏移量,对神经网络模型以及待分析文本进行压缩处理;利用压缩后的神经网络模型对压缩后的待分析文本进行分析,以从文章文本中提取出与问题文本匹配的答案。在得到答案之后,可以通过显示屏展示答案。
在实际应用中,输入部件可以包括输入接口和输入键盘。输入接口可以实现与外部设备的连接,输入键盘可以便于用户向问答终端输入相关的指令或数据等。为了降低布线难度,满足数据传输需求,在问答终端上还可以设置无线传输模块。其中,无线传输模块可以为蓝牙模块或者wifi模块等。
图3为本申请实施例提供的一种问答终端的结构示意图,问答终端可以包括处理器、显示屏31、输入接口32、输入键盘33、无线传输模块34。当显示屏31为触摸屏时,输入键盘33可以是在显示屏31上呈现的软键盘。输入接口32可以用于实现与外部设备的连接。输入接口可以有多个,图3中以一个输入接口为例。处理器内嵌于问答终端的内部,因此未在图3中示出。
问答终端可以为智能手机、平板电脑、笔记本电脑或台式电脑等,在本申请实施例中,对于问答终端的形式不做限定。当问答终端为智能手机或平板电脑时,输入接口32可以通过数据线实现与外部设备的连接,输入键盘33可以为显示界面上呈现的软键盘。当问答终端为笔记本电脑或台式电脑时,输入接口32可以为USB接口,用于连接U盘等外部设备,输入键盘33可以为硬键盘。
以台式电脑为例,在实际应用中,用户可以通过输入键盘33向问答终端输入待分析文本,也可以将待分析文本写入U盘,将U盘插入问答终端的输入接口32。问答终端在获取到待分析文本后,可以基于待分析文本与设定的偏移量的相似度,确定出与待分析文本匹配的目标偏移量;依据目标偏移量,对神经网络模型以及待分析文本进行压缩处理;利用压缩后的神经网络模型对压缩后的待分析文本进行分析,以得到与问题文本匹配的答案,通过显示屏31展示答案。需要说明的是,图3中问答终端包含的显示屏31、输入接口32、输入键盘33、无线传输模块34等功能模块仅是举例说明,在实际应用中,基于实际需求问答终端也可以包含更多或更少的功能模块,对此不做限定。
本申请实施例提供的文本答案的确定方法可以部署于基于FPGA(FieldProgrammable Gate Array,现场可编程门阵列)的神经网络加速应用或者AI(ArtificialIntelligence,人工智能)加速芯片的软件平台中。需要说明的是,本申请实施例依据偏移量,对神经网络模型进行压缩处理的方式,除了应用于文本答案的确定外,也可以应用于基于LSTM(Long Short-Term Memory,长短期记忆网络)的时序数据处理,例如多目标跟踪等场景。
由上述技术方案可以看出,获取待分析文本;其中,所述待分析文本包括文章文本和问题文本;利用神经网络模型可以从文章文本中提取出与问题文本对应的答案。目前神经网络模型的架构较为复杂,需要大量的运算分析,为了提升对待分析文本的处理效率,可以基于待分析文本与设定的偏移量的相似度,确定出与待分析文本匹配的目标偏移量;依据目标偏移量,对神经网络模型以及待分析文本进行压缩处理。利用压缩后的神经网络模型对压缩后的待分析文本进行分析,可以以从文章文本中提取出与问题文本匹配的答案。在该技术方案中,基于待分析文本的文本特征可以选取匹配的偏移量,利用偏移量可以实现对神经网络模型以及待分析文本的压缩,有效的减少了所需分析的文本数据量,缩减了神经网络模型的计算量,从而有效的提升了文本的处理效率。并且可以根据不同类型的输入数据的特征灵活地选择偏移量,使得神经网络模型的压缩可以更加贴合输入数据的实际需求,可以达到为较难的样本分配更多的计算量,为简单的样本分配较少的计算量的目的,实现了神经网络模型的灵活调整和应用。
图4为本申请实施例提供的一种对神经网络模型和待分析文本进行压缩处理的方法的流程图,方法包括:
S401:利用目标偏移量对神经网络模型的初始门向量进行调整,得到调整后的门向量。
其中,门向量可以包括用于剪枝神经元的第一门向量和用于压缩数据的第二门向量。在本申请实施例中,可以采用R s 表示第一门向量,采用R l 表示第二门向量。
在实际应用中,可以利用训练好的二值分布参数,确定出神经网络模型的初始门向量。
调用网络剪枝公式对神经网络模型的第一初始门向量进行调整,得到第一门向量;其中,网络剪枝公式的表达式为:
Figure 245047DEST_PATH_IMAGE002
其中,R s 表示第一门向量,loga表示构造第一初始门向量的第一位置参数,
Figure 919611DEST_PATH_IMAGE003
表示目标偏移量,σ表示sibmoid激活函数,ργ均为常数,ρ<0,γ>1;
调用数据压缩公式对神经网络模型的第二初始门向量进行调整,得到第二门向量;其中,数据压缩公式的表达式为:
Figure 66558DEST_PATH_IMAGE004
其中,R z 表示第二门向量,logb表示构造第二初始门向量的第二位置参数,
Figure 688032DEST_PATH_IMAGE003
表示目标偏移量,σ表示sibmoid激活函数,ργ均为常数,ρ<0,γ>1。
S402:依据第一门向量对神经网络模型进行压缩处理,得到压缩后的神经网络模型。
神经网络模型包含有多个隐藏层即LSTM层。在实际应用中,可以针对于神经网络模型的第一个隐藏层构造对应的第一初始门向量和第二初始门向量。对于剩余隐藏层将当前隐藏层的第一门向量作为与其相邻的下一隐藏层的第二门向量,即
Figure 627870DEST_PATH_IMAGE020
每个隐藏层有其各自对应的第一门向量,第一门向量的维度与隐藏层包含的神经元个数相同。
在实际应用中,可以将第一门向量中取值为零的元素所对应的神经元进行剪枝,得到压缩后的隐藏层。
S403:依据第二门向量对待分析文本进行压缩处理,得到压缩后的待分析文本。
第二门向量的维度与待分析文本的数据维度相同。在实际应用中,可以将第二门向量中取值为零的元素所对应的文本数据进行删除,得到压缩后的待分析文本。
在神经网络模型训练时,第一门向量和第二门向量均可以设置为二值向量,取值为零表示执行删除操作。在具体实现中,可以直接将第一门向量与其对应的隐藏层的神经元相乘。将第二门向量与待分析文本的文本向量相乘。例如,第一门向量中第三个元素为0,则需要将当前隐藏层的第3个神经元删除,从而实现对当前隐藏层的剪枝。
第一位置参数和偏移量是构建第一初始门向量的重要参数,第二位置参数和偏移量是构建第二初始门向量的重要参数。通过对神经网络模型的训练,可以得到第一位置参数、第二位置参数和偏移量。
接下来将对神经网络模型的训练过程展开介绍。训练过程包括获取训练文本;其中,训练文本可以包括待训练的文章文本、待训练的问题文本和答案文本。针对于神经网络模型可以预先设置其对应的偏移量列表,偏移量列表中包含设定的多个偏移量。
在将训练文本输入神经网络模型后,可以遍历偏移量列表中包含的各偏移量,逐层计算各隐藏层的第一初始门向量和第二初始门向量;基于第一初始门向量和第二初始门向量,确定出神经网络模型的误差参数;利用误差参数对神经网络模型的第一初始位置参数和第二初始位置参数进行调整,得到第一位置参数和第二位置参数;依据第一位置参数调整偏移量列表中包含的各偏移量。
其中,误差参数可以包括不同偏移量下神经网络模型的损失、正则化项和梯度。
在实际应用中,可以累加不同偏移量条件下神经网络模型的损失、正则化项和梯度。将累加后的得到的数据作为神经网路模型的误差参数。
本申请实施例在训练门向量的一个迭代中遍历偏移量列表,以不同的偏移量选择神经元进行前向推理,累积不同偏移量产生的损失、正则化项和梯度,在遍历完偏移量列表后才进行LSTM网络参数更新。
针对于偏移量的设定过程,在具体实现中,可以基于第一位置参数在各隐藏层的标准差,构建各隐藏层对应的偏移量。也可以基于预定义的比例数和神经网络模型训练得到的学习变量,构建神经网络模型中各隐藏层对应的偏移量。
门向量和动作头网络交替训练,在每次迭代时首先不使用动作头网络只训练门向量和LSTM,再固定门向量和LSTM进行动作头网络的学习。其中各层的门向量由基于累积分布函数的正则化项
Figure 83122DEST_PATH_IMAGE021
指导学习。
在进行神经网络模型的训练时,(1)首先要初始化神经网络。初始化过程可以包括初始化各个LSTM层的权重和偏置量,假设神经网络由L个LSTM层组成,第l个LSTM层有K个神经元,输入数据即训练文本的维度为N
还包括以下初始化操作:
(a)为神经网络的第一个LSTM层初始化一个包含K个位置变量的向量,即
Figure 779683DEST_PATH_IMAGE022
,和一个包含N个位置变量的向量,即
Figure 939269DEST_PATH_IMAGE023
,其余LSTM层只初始化
Figure 303254DEST_PATH_IMAGE024
Figure 227610DEST_PATH_IMAGE025
表示第l个LSTM层对应的第一位置参数。
Figure 83570DEST_PATH_IMAGE026
表示第l个LSTM层对应的第二位置参数。
(b)逐一为神经网络的各个LSTM层初始化一个偏移量列表d shift
Figure 718951DEST_PATH_IMAGE027
,其中std
Figure 406284DEST_PATH_IMAGE025
的标准差。
在本申请实施例中可以采
Figure 796814DEST_PATH_IMAGE028
表示第i个LSTM层对应的偏移量列表,采用
Figure 874492DEST_PATH_IMAGE018
表示第i个LSTM层对应的第一门向量,采用
Figure 467891DEST_PATH_IMAGE017
表示第i个LSTM层对应的第二门向量。结合实际应用中,各门向量所起的作用,也可以将
Figure 540889DEST_PATH_IMAGE018
称作隐状态门
Figure 305583DEST_PATH_IMAGE018
Figure 136135DEST_PATH_IMAGE017
可以称作输入门
Figure 441215DEST_PATH_IMAGE017
(c)逐一为神经网络的各个LSTM层构造一个动作头网络作为一个决策模型,并对动作头网络进行初始化,动作头网络的结构包含一个激活层和一个全连接层。
(2)在第n次迭代中,执行以下步骤来训练网络各层的门向量:
(a)遍历预设偏移量列表,以偏移量列表中包含四个偏移量为例,在某一偏移量d m (1≤m≤4)约束下,逐层计算各层的隐状态门
Figure 775244DEST_PATH_IMAGE018
和输入门
Figure 602517DEST_PATH_IMAGE017
,隐状态门
Figure 779420DEST_PATH_IMAGE018
中各元素采用
Figure 497978DEST_PATH_IMAGE029
表示,输入门
Figure 80923DEST_PATH_IMAGE017
中各元素采用
Figure 718578DEST_PATH_IMAGE030
表示,
按照如下公式可以计算各层的隐状态门
Figure 54881DEST_PATH_IMAGE018
和输入门
Figure 701763DEST_PATH_IMAGE017
Figure 164712DEST_PATH_IMAGE031
Figure 724000DEST_PATH_IMAGE032
Figure 78758DEST_PATH_IMAGE033
Figure 502567DEST_PATH_IMAGE034
u~U(0,1);β表示温度参数,取值为2/3;σ是sigmoid激活函数。
得到隐状态门
Figure 400116DEST_PATH_IMAGE035
和输入门
Figure 645153DEST_PATH_IMAGE036
,并进行前向推理。
(b)计算神经网络的损失,计算各层约束门向量的正则化项
Figure 752786DEST_PATH_IMAGE037
并累加,第l层正则化项的具体计算公式为
Figure 475891DEST_PATH_IMAGE038
Figure 493526DEST_PATH_IMAGE039
Figure 676508DEST_PATH_IMAGE040
其中, 下标s代表与隐状态门向量相关,下标z代表与输入门向量相关,
Figure 740279DEST_PATH_IMAGE041
是第l层的隐状态门
Figure 267075DEST_PATH_IMAGE018
中某元素
Figure 873637DEST_PATH_IMAGE029
不为零的概率,
Figure 726055DEST_PATH_IMAGE042
是生成第l层隐状态门向量的二值Concrete变量
Figure 214805DEST_PATH_IMAGE043
的累积分布函数,μ 1 μ 2 是惩罚参数。
Figure 247090DEST_PATH_IMAGE044
是第l层的输入门
Figure 832792DEST_PATH_IMAGE017
中某元素
Figure 856112DEST_PATH_IMAGE030
不为零的概率,
Figure 97737DEST_PATH_IMAGE045
是生成第l层输入门向量的二值Concrete变量
Figure 700757DEST_PATH_IMAGE046
的累积分布函数。
(c)累加不同偏移量条件下神经网络的损失、正则化项和梯度;
(d)遍历结束后,进行神经网络参数以及各层门向量的位置变量loga l logb l 的更新;
(e)更新各层的偏移量列表
Figure 813070DEST_PATH_IMAGE047
步骤(c)至(e)的具体实现方式属于模型训练中的常规操作,在此不再赘述。
(3)在第n次迭代中,逐层执行以下步骤来训练网络各层的决策模型:
(a)计算当前层的输入数据x沿不同时间步的均值并输入动作头网络;
(b)动作头网络输出偏移量列表中各项偏移量的选择概率p m
(c)采用基于gumbel分布的重参数化技巧并结合softmax函数来生成独热(one-hot)向量I
(d)将独热向量I与预设偏移量列表
Figure 243176DEST_PATH_IMAGE047
相乘,用所得乘积计算新的隐状态门向量
Figure 768835DEST_PATH_IMAGE018
,并进行神经网络前向推理;
(e)在后向传播中梯度更新时只更新各层动作头网络的参数,不更新门向量的位置变量
Figure 582071DEST_PATH_IMAGE048
Figure 142365DEST_PATH_IMAGE048
以及神经网络参数;
(f)调整温度参数τ的取值,使其随训练迭代次数n增加而在预设范围内减少。
(4)重复步骤(2)和(3)直至预设的训练迭代次数。
需要说明的是,在本申请实施例中,除了依据第一位置参数a的标准差设置迁移量列表外,也可以依据预定义比例由一个可学习变量d来生成迁移量列表,
Figure 445170DEST_PATH_IMAGE049
,其中,可学习变量d的训练与决策模型中动作头网络的训练一起进行。
本申请实施例所提供的神经网络压缩的方法即RNN动态剪枝方法是一种端到端的压缩方法,除稀疏RNN模型之外还输出一组可动态调整的门向量和一组偏移量选择决策模型,可在推理时根据不同批次输入数据的特征灵活地选择偏移量,进而动态的调整门向量的取值,也就是动态的逐层选择神经元参与前向推理,动态的改变网络的压缩比,为较难的样本分配更多的计算量,为简单的样本分配较少的计算量。
图5为本申请实施例提供的一种文本答案的确定装置的结构示意图,包括获取单元51、确定单元52、压缩单元53和提取单元54;
获取单元51,用于获取待分析文本;其中,待分析文本包括文章文本和问题文本;
确定单元52,用于基于待分析文本与设定的偏移量的相似度,确定出与待分析文本匹配的目标偏移量;
压缩单元53,用于依据目标偏移量,对神经网络模型以及待分析文本进行压缩处理;
提取单元54,用于利用压缩后的神经网络模型对压缩后的待分析文本进行分析,以从文章文本中提取出与问题文本匹配的答案。
可选地,确定单元包括调用子单元、构建子单元和选取子单元;
调用子单元,用于调用设定的决策模型对待分析文本进行处理,以得到各偏移量与待分析文本的匹配率;
构建子单元,用于基于各偏移量对应的匹配率、偏移量总个数以及设定的温度参数和随机变量,构建独热向量;
选取子单元,用于依据独热向量,从各偏移量中选取出与待分析文本匹配的目标偏移量。
可选地,构建子单元用于调用匹配率转化公式,将各偏移量对应的匹配率转化为独热向量;其中,匹配率转化公式的表达式为:
Figure 481960DEST_PATH_IMAGE001
其中,I i 表示独热向量的第i个元素,1<i<mm表示偏移量总个数,p i 表示第i个偏移量对应的匹配率,τ表示设定的温度参数,g i 表示随机变量。
可选地,压缩单元包括调整子单元、模型压缩子单元和数据压缩子单元;
调整子单元,用于利用目标偏移量对神经网络模型的初始门向量进行调整,得到调整后的门向量;其中,门向量包括用于剪枝神经元的第一门向量和用于压缩数据的第二门向量;
模型压缩子单元,用于依据第一门向量对神经网络模型进行压缩处理,得到压缩后的神经网络模型;
数据压缩子单元,用于依据第二门向量对待分析文本进行压缩处理,得到压缩后的待分析文本。
可选地,针对于初始门向量的确定过程,装置包括向量确定单元;
向量确定单元,用于利用训练好的二值分布参数,确定出神经网络模型的初始门向量。
可选地,调整子单元用于调用网络剪枝公式对神经网络模型的第一初始门向量进行调整,得到第一门向量;其中,网络剪枝公式的表达式为:
Figure 957941DEST_PATH_IMAGE002
其中,R s 表示第一门向量,loga表示构造第一初始门向量的第一位置参数,
Figure 779266DEST_PATH_IMAGE003
表示目标偏移量,σ表示sibmoid激活函数,ργ均为常数,ρ<0,γ>1;
调用数据压缩公式对神经网络模型的第二初始门向量进行调整,得到第二门向量;其中,数据压缩公式的表达式为:
Figure 315290DEST_PATH_IMAGE004
其中,R z 表示第二门向量,logb表示构造第二初始门向量的第二位置参数,
Figure 284383DEST_PATH_IMAGE003
表示目标偏移量,σ表示sibmoid激活函数,ργ均为常数,ρ<0,γ>1。
可选地,针对于神经网络模型的第一个隐藏层构造对应的第一初始门向量和第二初始门向量,对于剩余隐藏层将当前隐藏层的第一门向量作为与其相邻的下一隐藏层的第二门向量。
可选地,神经网络模型包括多个隐藏层;每个隐藏层有其各自对应的第一门向量,第一门向量的维度与隐藏层包含的神经元个数相同;
模型压缩子单元用于将第一门向量中取值为零的元素所对应的神经元进行剪枝,得到压缩后的隐藏层。
可选地,第二门向量的维度与待分析文本的数据维度相同;
数据压缩子单元用于将第二门向量中取值为零的元素所对应的文本数据进行删除,得到压缩后的待分析文本。
可选地,针对于偏移量的设定过程,装置包括构建单元;
构建单元,用于基于第一位置参数在各隐藏层的标准差,构建各隐藏层对应的偏移量。
可选地,针对于偏移量的设定过程,装置包括构建单元;
构建单元,用于基于预定义的比例数和神经网络模型训练得到的学习变量,构建神经网络模型中各隐藏层对应的偏移量。
可选地,针对于第一位置参数、第二位置参数以及偏移量的确定过程,装置包括计算单元、误差确定单元、位置参数调整单元和偏移量调整单元;
获取单元,用于获取训练文本;其中,训练文本包括待训练的文章文本、待训练的问题文本和答案文本;
计算单元,用于在将训练文本输入神经网络模型后,遍历偏移量列表中包含的各偏移量,逐层计算各隐藏层的第一初始门向量和第二初始门向量;
误差确定单元,用于基于第一初始门向量和第二初始门向量,确定出神经网络模型的误差参数;
位置参数调整单元,用于利用误差参数对神经网络模型的第一初始位置参数和第二初始位置参数进行调整,得到第一位置参数和第二位置参数;
偏移量调整单元,用于依据第一位置参数调整偏移量列表中包含的各偏移量。
图5所对应实施例中特征的说明可以参见图2和图4所对应实施例的相关说明,这里不再一一赘述。
由上述技术方案可以看出,获取待分析文本;其中,所述待分析文本包括文章文本和问题文本;利用神经网络模型可以从文章文本中提取出与问题文本对应的答案。目前神经网络模型的架构较为复杂,需要大量的运算分析,为了提升对待分析文本的处理效率,可以基于待分析文本与设定的偏移量的相似度,确定出与待分析文本匹配的目标偏移量;依据目标偏移量,对神经网络模型以及待分析文本进行压缩处理。利用压缩后的神经网络模型对压缩后的待分析文本进行分析,可以以从文章文本中提取出与问题文本匹配的答案。在该技术方案中,基于待分析文本的文本特征可以选取匹配的偏移量,利用偏移量可以实现对神经网络模型以及待分析文本的压缩,有效的减少了所需分析的文本数据量,缩减了神经网络模型的计算量,从而有效的提升了文本的处理效率。并且可以根据不同类型的输入数据的特征灵活地选择偏移量,使得神经网络模型的压缩可以更加贴合输入数据的实际需求,可以达到为较难的样本分配更多的计算量,为简单的样本分配较少的计算量的目的,实现了神经网络模型的灵活调整和应用。
图6为本申请实施例提供的一种电子设备的结构图,如图6所示,电子设备包括:存储器20,用于存储计算机程序;
处理器21,用于执行计算机程序时实现如上述实施例文本答案的确定方法的步骤。
本实施例提供的电子设备可以包括但不限于智能手机、平板电脑、笔记本电脑或台式电脑等。
其中,处理器21可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器21可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器21也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器21可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器21还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器20可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器20还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器20至少用于存储以下计算机程序201,其中,该计算机程序被处理器21加载并执行之后,能够实现前述任一实施例公开的文本答案的确定方法的相关步骤。另外,存储器20所存储的资源还可以包括操作系统202和数据203等,存储方式可以是短暂存储或者永久存储。其中,操作系统202可以包括Windows、Unix、Linux等。数据203可以包括但不限于设定的偏移量等。
在一些实施例中,电子设备还可包括有显示屏22、输入输出接口23、通信接口24、电源25以及通信总线26。
本领域技术人员可以理解,图6中示出的结构并不构成对电子设备的限定,可以包括比图示更多或更少的组件。
可以理解的是,如果上述实施例中的文本答案的确定方法以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、磁碟或者光盘等各种可以存储程序代码的介质。
基于此,本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述文本答案的确定方法的步骤。
以上对本申请实施例所提供的一种文本答案的确定方法、装置、设备和计算机可读存储介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
以上对本申请所提供的一种文本答案的确定方法、装置、设备和计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。

Claims (15)

1.一种文本答案的确定方法,其特征在于,包括:
获取待分析文本;其中,所述待分析文本包括文章文本和问题文本;
基于所述待分析文本与设定的偏移量的相似度,确定出与所述待分析文本匹配的目标偏移量;
依据所述目标偏移量,对神经网络模型以及所述待分析文本进行压缩处理;
利用压缩后的神经网络模型对压缩后的待分析文本进行分析,以从所述文章文本中提取出与所述问题文本匹配的答案;
所述基于所述待分析文本与设定的偏移量的相似度,确定出与所述待分析文本匹配的目标偏移量包括:
调用设定的决策模型对所述待分析文本进行处理,以得到各偏移量与所述待分析文本的匹配率;
基于各所述偏移量对应的匹配率、偏移量总个数以及设定的温度参数和随机变量,构建独热向量;
依据所述独热向量,从各所述偏移量中选取出与所述待分析文本匹配的目标偏移量。
2.根据权利要求1所述的文本答案的确定方法,其特征在于,所述基于各所述偏移量对应的匹配率、偏移量总个数以及设定的温度参数和随机变量,构建独热向量包括:
调用匹配率转化公式,将各所述偏移量对应的匹配率转化为独热向量;其中,所述匹配率转化公式的表达式为:
Figure DEST_PATH_IMAGE001
其中,I i 表示独热向量的第i个元素,1<i<mm表示偏移量总个数,p i 表示第i个偏移量对应的匹配率,τ表示设定的温度参数,g i 表示随机变量。
3.根据权利要求1所述的文本答案的确定方法,其特征在于,所述依据所述目标偏移量,对神经网络模型以及所述待分析文本进行压缩处理包括:
利用所述目标偏移量对所述神经网络模型的初始门向量进行调整,得到调整后的门向量;其中,所述门向量包括用于剪枝神经元的第一门向量和用于压缩数据的第二门向量;
依据所述第一门向量对所述神经网络模型进行压缩处理,得到压缩后的神经网络模型;
依据所述第二门向量对所述待分析文本进行压缩处理,得到压缩后的待分析文本。
4.根据权利要求3所述的文本答案的确定方法,其特征在于,针对于所述初始门向量的确定过程,所述方法包括:
利用训练好的二值分布参数,确定出所述神经网络模型的初始门向量。
5.根据权利要求4所述的文本答案的确定方法,其特征在于,所述利用所述目标偏移量对所述神经网络模型的初始门向量进行调整,得到调整后的门向量包括:
调用网络剪枝公式对所述神经网络模型的第一初始门向量进行调整,得到所述第一门向量;其中,网络剪枝公式的表达式为:
Figure 779853DEST_PATH_IMAGE002
其中,R s 表示第一门向量,loga表示构造第一初始门向量的第一位置参数,
Figure DEST_PATH_IMAGE003
表示目标偏移量,σ表示sigmoid激活函数,ργ均为常数,ρ<0,γ>1;
调用数据压缩公式对所述神经网络模型的第二初始门向量进行调整,得到所述第二门向量;其中,数据压缩公式的表达式为:
Figure 391881DEST_PATH_IMAGE004
其中,R z 表示第二门向量,logb表示构造第二初始门向量的第二位置参数,
Figure 380566DEST_PATH_IMAGE003
表示目标偏移量,σ表示sigmoid激活函数,ργ均为常数,ρ<0,γ>1。
6.根据权利要求5所述的文本答案的确定方法,其特征在于,针对于所述神经网络模型的第一个隐藏层构造对应的第一初始门向量和第二初始门向量,对于剩余隐藏层将当前隐藏层的第一门向量作为与其相邻的下一隐藏层的第二门向量。
7.根据权利要求3所述的文本答案的确定方法,其特征在于,所述神经网络模型包括多个隐藏层;每个隐藏层有其各自对应的第一门向量,所述第一门向量的维度与所述隐藏层包含的神经元个数相同;
所述依据所述第一门向量对所述神经网络模型进行压缩处理,得到压缩后的神经网络模型包括:
将所述第一门向量中取值为零的元素所对应的神经元进行剪枝,得到压缩后的隐藏层。
8.根据权利要求3所述的文本答案的确定方法,其特征在于,所述第二门向量的维度与所述待分析文本的数据维度相同;
所述依据所述第二门向量对所述待分析文本进行压缩处理,得到压缩后的待分析文本包括:
将所述第二门向量中取值为零的元素所对应的文本数据进行删除,得到压缩后的待分析文本。
9.根据权利要求5所述的文本答案的确定方法,其特征在于,针对于所述偏移量的设定过程,所述方法包括:
基于所述第一位置参数在各隐藏层的标准差,构建各隐藏层对应的偏移量。
10.根据权利要求5所述的文本答案的确定方法,其特征在于,针对于所述偏移量的设定过程,所述方法包括:
基于预定义的比例数和所述神经网络模型训练得到的学习变量,构建所述神经网络模型中各隐藏层对应的偏移量。
11.根据权利要求5所述的文本答案的确定方法,其特征在于,针对于所述第一位置参数、所述第二位置参数以及所述偏移量的确定过程,所述方法包括:
获取训练文本;其中,所述训练文本包括待训练的文章文本、待训练的问题文本和答案文本;
在将所述训练文本输入所述神经网络模型后,遍历偏移量列表中包含的各偏移量,逐层计算各隐藏层的第一初始门向量和第二初始门向量;
基于所述第一初始门向量和所述第二初始门向量,确定出所述神经网络模型的误差参数;
利用所述误差参数对所述神经网络模型的第一初始位置参数和第二初始位置参数进行调整,得到第一位置参数和第二位置参数;
依据所述第一位置参数调整所述偏移量列表中包含的各偏移量。
12.一种文本答案的确定装置,其特征在于,包括获取单元、确定单元、压缩单元和提取单元;
所述获取单元,用于获取待分析文本;其中,所述待分析文本包括文章文本和问题文本;
所述确定单元,用于基于所述待分析文本与设定的偏移量的相似度,确定出与所述待分析文本匹配的目标偏移量;
所述压缩单元,用于依据所述目标偏移量,对神经网络模型以及所述待分析文本进行压缩处理;
所述提取单元,用于利用压缩后的神经网络模型对压缩后的待分析文本进行分析,以从所述文章文本中提取出与所述问题文本匹配的答案;
所述确定单元包括调用子单元、构建子单元和选取子单元;所述调用子单元,用于调用设定的决策模型对所述待分析文本进行处理,以得到各偏移量与所述待分析文本的匹配率;所述构建子单元,用于基于各所述偏移量对应的匹配率、偏移量总个数以及设定的温度参数和随机变量,构建独热向量;所述选取子单元,用于依据所述独热向量,从各所述偏移量中选取出与所述待分析文本匹配的目标偏移量。
13.一种终端设备,其特征在于,包括处理器、输入部件和显示屏;
所述处理器分别与所述输入部件以及所述显示屏连接,用于接收所述输入部件传输的待分析文本;其中,所述待分析文本包括文章文本和问题文本;基于所述待分析文本与设定的偏移量的相似度,确定出与所述待分析文本匹配的目标偏移量;依据所述目标偏移量,对神经网络模型以及所述待分析文本进行压缩处理;利用压缩后的神经网络模型对压缩后的待分析文本进行分析,以从所述文章文本中提取出与所述问题文本匹配的答案;通过所述显示屏展示所述答案;所述基于所述待分析文本与设定的偏移量的相似度,确定出与所述待分析文本匹配的目标偏移量包括:调用设定的决策模型对所述待分析文本进行处理,以得到各偏移量与所述待分析文本的匹配率;基于各所述偏移量对应的匹配率、偏移量总个数以及设定的温度参数和随机变量,构建独热向量;依据所述独热向量,从各所述偏移量中选取出与所述待分析文本匹配的目标偏移量。
14.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如权利要求1至11任意一项所述文本答案的确定方法的步骤。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至11任意一项所述文本答案的确定方法的步骤。
CN202210745454.6A 2022-06-29 2022-06-29 一种文本答案的确定方法、装置、设备和介质 Active CN114817513B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210745454.6A CN114817513B (zh) 2022-06-29 2022-06-29 一种文本答案的确定方法、装置、设备和介质
PCT/CN2022/141520 WO2024001108A1 (zh) 2022-06-29 2022-12-23 一种文本答案的确定方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210745454.6A CN114817513B (zh) 2022-06-29 2022-06-29 一种文本答案的确定方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN114817513A CN114817513A (zh) 2022-07-29
CN114817513B true CN114817513B (zh) 2022-11-15

Family

ID=82522317

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210745454.6A Active CN114817513B (zh) 2022-06-29 2022-06-29 一种文本答案的确定方法、装置、设备和介质

Country Status (2)

Country Link
CN (1) CN114817513B (zh)
WO (1) WO2024001108A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114817513B (zh) * 2022-06-29 2022-11-15 浪潮电子信息产业股份有限公司 一种文本答案的确定方法、装置、设备和介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106447034A (zh) * 2016-10-27 2017-02-22 中国科学院计算技术研究所 一种基于数据压缩的神经网络处理器、设计方法、芯片
CN107491811A (zh) * 2017-09-01 2017-12-19 中国科学院计算技术研究所 用于加速神经网络处理器的方法和系统及神经网络处理器

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108090560A (zh) * 2018-01-05 2018-05-29 中国科学技术大学苏州研究院 基于fpga的lstm递归神经网络硬件加速器的设计方法
CN109460821A (zh) * 2018-10-29 2019-03-12 重庆中科云丛科技有限公司 一种神经网络压缩方法、装置、电子设备及存储介质
CN109977394B (zh) * 2018-12-10 2023-11-07 平安科技(深圳)有限公司 文本模型训练方法、文本分析方法、装置、设备及介质
CN109448706A (zh) * 2018-12-12 2019-03-08 苏州思必驰信息科技有限公司 神经网络语言模型压缩方法及系统
CN110428846A (zh) * 2019-07-08 2019-11-08 清华大学 基于双向循环神经网络的网络语音流隐写分析方法及装置
KR20220013164A (ko) * 2020-07-24 2022-02-04 주식회사 엔씨소프트 비디오 질의 응답 학습 장치, 비디오 질의 응답 학습 방법, 비디오 질의 응답 장치 및 비디오 질의 응답 방법
CN114239599A (zh) * 2021-12-17 2022-03-25 深圳壹账通智能科技有限公司 一种机器阅读理解的实现方法、系统、设备及介质
CN114817513B (zh) * 2022-06-29 2022-11-15 浪潮电子信息产业股份有限公司 一种文本答案的确定方法、装置、设备和介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106447034A (zh) * 2016-10-27 2017-02-22 中国科学院计算技术研究所 一种基于数据压缩的神经网络处理器、设计方法、芯片
CN107491811A (zh) * 2017-09-01 2017-12-19 中国科学院计算技术研究所 用于加速神经网络处理器的方法和系统及神经网络处理器

Also Published As

Publication number Publication date
WO2024001108A1 (zh) 2024-01-04
CN114817513A (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
KR102602195B1 (ko) 트레이닝된 장단기 메모리 신경망 양자화
US20200349450A1 (en) Projection neural networks
CN110366734B (zh) 优化神经网络架构
US20200265301A1 (en) Incremental training of machine learning tools
US10984319B2 (en) Neural architecture search
CN111741330B (zh) 一种视频内容评估方法、装置、存储介质及计算机设备
CN111507521A (zh) 台区电力负荷预测方法及预测装置
CN111709493B (zh) 对象分类方法、训练方法、装置、设备及存储介质
CN111275780B (zh) 人物图像的生成方法及装置
CN114817513B (zh) 一种文本答案的确定方法、装置、设备和介质
CN113852432A (zh) 基于rcs-gru模型的频谱预测感知方法
CN112200296A (zh) 网络模型量化方法、装置、存储介质及电子设备
CN115017178A (zh) 数据到文本生成模型的训练方法和装置
CN113726545A (zh) 基于知识增强生成对抗网络的网络流量生成方法及装置
CN111178082A (zh) 一种句向量生成方法、装置及电子设备
KR20220134627A (ko) 하드웨어-최적화된 신경 아키텍처 검색
KR20220018633A (ko) 이미지 검색 방법 및 장치
CN112561050A (zh) 一种神经网络模型训练方法及装置
CN113408702B (zh) 音乐神经网络模型预训练方法及电子设备和存储介质
CN115795025A (zh) 一种摘要生成方法及其相关设备
CN111310794B (zh) 目标对象的分类方法、装置和电子设备
CN114037772A (zh) 一种图像生成器的训练方法、图像生成方法及装置
CN113570044A (zh) 客户流失分析模型训练方法及装置
CN115017321A (zh) 一种知识点预测方法、装置、存储介质以及计算机设备
CN112446461A (zh) 一种神经网络模型训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant