CN112035649B - 问答模型处理方法、装置、计算机设备及存储介质 - Google Patents
问答模型处理方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN112035649B CN112035649B CN202010910820.XA CN202010910820A CN112035649B CN 112035649 B CN112035649 B CN 112035649B CN 202010910820 A CN202010910820 A CN 202010910820A CN 112035649 B CN112035649 B CN 112035649B
- Authority
- CN
- China
- Prior art keywords
- neuron
- question
- neurons
- target
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 26
- 210000002569 neuron Anatomy 0.000 claims abstract description 405
- 238000000034 method Methods 0.000 claims abstract description 58
- 238000012545 processing Methods 0.000 claims abstract description 49
- 239000011159 matrix material Substances 0.000 claims description 88
- 230000004913 activation Effects 0.000 claims description 78
- 239000013598 vector Substances 0.000 claims description 45
- 238000013507 mapping Methods 0.000 claims description 32
- 238000010219 correlation analysis Methods 0.000 claims description 24
- 238000013528 artificial neural network Methods 0.000 claims description 15
- 230000015654 memory Effects 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 13
- 238000000354 decomposition reaction Methods 0.000 claims description 11
- 238000012163 sequencing technique Methods 0.000 claims description 6
- KJONHKAYOJNZEC-UHFFFAOYSA-N nitrazepam Chemical compound C12=CC([N+](=O)[O-])=CC=C2NC(=O)CN=C1C1=CC=CC=C1 KJONHKAYOJNZEC-UHFFFAOYSA-N 0.000 claims description 2
- 238000010801 machine learning Methods 0.000 abstract description 9
- 238000013473 artificial intelligence Methods 0.000 description 20
- 238000012549 training Methods 0.000 description 18
- 238000004891 communication Methods 0.000 description 12
- 238000004590 computer program Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 230000002093 peripheral effect Effects 0.000 description 10
- 230000001133 acceleration Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 238000013459 approach Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 241000282414 Homo sapiens Species 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 239000000919 ceramic Substances 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/061—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using biological neurons, e.g. biological neurons connected to an integrated circuit
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Neurology (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Microelectronics & Electronic Packaging (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种问答模型处理方法、装置、计算机设备及存储介质,属于机器学习技术领域。该方法包括:获取至少一个问答模型,该至少一个问答模型与待处理的目标问答模型用于执行不同问答任务;获取多个相关参数,该相关参数用于表示一个该问答模型的神经元与该目标问答模型的神经元之间的相关性;根据该多个相关参数,确定该目标问答模型中待处理的至少一个神经元;对该至少一个神经元的参数进行更新,得到更新后的目标问答模型,该更新后的目标问答模型中该至少一个神经元的输出为零。上述方案能够确定目标问答模型中与其他问答模型之间相关性较高的神经元,通过更新这些神经元的参数,更新目标问答模型,能够提高目标问答模型的泛化性能。
Description
技术领域
本申请涉及机器学习技术领域,特别涉及一种问答模型处理方法、装置、计算机设备及存储介质。
背景技术
在机器学习领域,不同的数据集之间的统计分布存在一定的差异,通常将分布一致的数据看作是一个领域,这些数据构成一个数据集,如对于机器问答任务,根据问题的意图不同,有关于任务的数据集、关于时间的数据集以及关于地点的数据集等。通过一个领域的数据集训练得到的模型,直接应用于另一个领域的数据集时,会导致该模型的性能下降,也即该模型的泛化性能较低。
目前,通常是通过增加额外的归一化层来消除模型中神经元在不同分布上的差异,从而提升模型的泛化性能,如批归一化、层归一化以及权重归一化等。
上述技术方案存在的问题是,增加归一化层需要对已有的模型结构进行改进,并且模型也需要重新训练才能提高泛化性能,提升模型的泛化性能的效率较低,无法有效的将已有模型应用到其他领域。
发明内容
本申请实施例提供了一种问答模型处理方法、装置、计算机设备及存储介质,能够确定目标问答模型中与其他问答模型之间相关性较高的神经元,也即泛化能力较好的神经元,而泛化能力较差的神经元即为目标问答模型中需要进行处理的神经元,通过更新泛化能力差的神经元的参数,使得在更新后的目标问答模型中这些神经元的输出为零,从而能够提高目标问答模型的泛化性能。所述技术方案如下:
一方面,提供了一种问答模型处理方法,方法包括:
获取至少一个问答模型,所述至少一个问答模型与待处理的目标问答模型用于执行不同问答任务;
获取多个相关参数,所述相关参数用于表示一个所述问答模型的神经元与所述目标问答模型的神经元之间的相关性;
根据所述多个相关参数,确定所述目标问答模型中待处理的至少一个神经元;
对所述至少一个神经元的参数进行更新,得到更新后的目标问答模型,所述更新后的目标问答模型中所述至少一个神经元的输出为零。
另一方面,提供了一种问答模型处理装置,装置包括:
模型获取模块,用于获取至少一个问答模型,所述至少一个问答模型与待处理的目标问答模型用于执行不同问答任务;
参数获取模块,用于获取多个相关参数,所述相关参数用于表示一个所述问答模型的神经元与所述目标问答模型的神经元之间的相关性;
确定模块,用于根据所述多个相关参数,确定所述目标问答模型中待处理的至少一个神经元;
参数更新模块,用于对所述至少一个神经元的参数进行更新,得到更新后的目标问答模型,所述更新后的目标问答模型中所述至少一个神经元的输出为零。
在一种可选的实现方式中,所述参数获取模块,包括:
第一确定子模块,用于从所述目标问答模型包括的多个神经网络层中,确定待处理的目标网络层,所述目标网络层包括至少两个神经元;
第一参数获取子模块,用于分别获取所述至少两个神经元与所述至少一个问答模型中对应网络层包括的神经元之间的相关参数,得到多个相关参数,一个相关参数对应一对神经元。
在一种可选的实现方式中,参数获取子模块,包括:
第一确定单元,用于将所述至少两神经元中的任一神经元作为第一神经元,确定所述第一神经元的第一神经元参数;
第二确定单元,用于将所述至少一个问答模型中对应网络层包括的任一神经元作为第二神经元,确定所述第二神经元的第二神经元参数;
第三确定单元,用于将所述第一神经元参数与所述第二神经元参数之间的皮尔逊线性相关系数,确定为所述第一神经元与所述第二神经元之间的相关参数。
在一种可选的实现方式中,所述第一确定单元,用于将所述至少两个神经元中的任一神经元作为第一神经元,获取所述第一神经元的权重向量和偏差标量;根据所述权重向量和所述偏差标量,确定所述第一神经元的第一神经元参数。
在一种可选的实现方式中,参数获取模块,包括:
第二确定子模块,用于从所述目标问答模型包括的多个神经网络层中,确定待处理的目标网络层,所述目标网络层包括至少两个神经元;
第三确定子模块,用于根据所述至少两个神经元,确定第一激活矩阵,所述第一激活矩阵用于指示所述目标问答模型在对目标样本数据处理时所述至少两个神经元的输出;
第四确定子模块,用于根据所述至少一个问答模型和所述目标样本数据,确定第二激活矩阵,所述第二激活矩阵由所述至少一个问答模型对应的至少一个激活矩阵拼接得到,一个激活矩阵用于指示一个问答模型在对所述目标样本数据处理时与所述目标网络层对应的网络层的输出;
第二参数获取子模块,用于根据所述第一激活矩阵和所述第二激活矩阵进行奇异向量正则相关分析,获取多个相关参数。
在一种可选的实现方式中,所述第二参数获取子模块,包括:
奇异值分解单元,用于对所述第一激活矩阵和所述第二激活矩阵进行奇异值分解,得到第一特征空间和第二特征空间;
正则相关分析单元,用于对所述第一特征空间和所述第二特征空间进行正则相关分析,得到第三特征空间和第四特征空间,所述正则相关分析用于从所述第一特征空间和所述第二特征空间中确定两个线性映射矩阵,将所述两个线性映射矩阵分别映射至所述第三特征空间和所述第四特征空间,使得所述第三特征空间和所述第四特征空间对应的特征矩阵之间的相关性最大;
第四确定单元,用于根据所述第三特征空间和所述第四特征空间,确定多个相关系数。
在一种可选的实现方式中,所述第四确定单元,用于根据所述第三特征空间和所述第四特征空间,确定多个特征方向上的皮尔逊线性相关系数,一个特征方向上的皮尔逊线性相关系数对应一个相关参数。
在一种可选的实现方式中,所述确定模块,包括:
第一获取子模块,用于根据所述多个相关参数,获取所述目标问答模型中神经元的第一排序权重,所述第一排序权重为所述神经元对应的多个相关参数中的最大值;
第一排序子模块,用于根据所述第一排序权重对神经元进行降序排序;
第二获取子模块,用于获取排序靠后的至少一个神经元作为待处理的神经元。
在一种可选的实现方式中,所述多个相关参数根据所述目标问答模型中目标网络层包括的至少两个神经元确定;所述第一获取子模块,用于获取调整比例,所述调整比例用于指示待处理的神经元在所述目标网络层包括的至少两个神经元中所占的比例;根据所述调整比例,获取排序靠后的至少一个神经元作为待处理的神经元。
在一种可选的实现方式中,所述确定模块,包括:
第三获取子模块,用于获取所述目标问答模型中神经元对应的线性映射矩阵;
第四获取子模块,用于根据所述多个相关参数,获取所述线性映射矩阵中元素行的第二排序权重,所述第二排序权重为所述元素行在对应的特征方向上的皮尔逊线性相关系数,一个元素行表示一个神经元;
第二排序子模块,用于根据所述第二排序权重对元素行进行降序排序;
第五获取子模块,用于获取排序靠后的至少一个元素行对应的神经元作为待处理的神经元。
在一种可选的实现方式中,所述参数更新模块,用于更新所述至少一个神经元的内部参数,得到更新后的目标问答模型,所述内部参数用于确定神经元输出的激活值。
在一种可选的实现方式中,所述参数更新模块,用于更新所述至少一个神经元所在的目标网络层的外部参数,得到更新后的目标问答模型,所述外部参数用于对所述目标网络层输出的特征向量进行处理,使得所述至少一个神经元的输出为零。
另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器用于存储至少一段程序代码,所述至少一段程序代码由所述处理器加载并执行以实现本申请实施例中的问答模型处理方法中所执行的操作。
另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一段程序代码,所述至少一段程序代码由处理器加载并执行以实现如本申请实施例中问答模型处理方法中所执行的操作。
另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机程序代码,该计算机程序代码存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序代码,处理器执行该计算机程序代码,使得该计算机设备执行上述各方面或者各方面的各种可选实现方式中提供的问答模型处理方法。
本申请实施例提供的技术方案带来的有益效果是:
本申请实施例中提供了一种对问答模型进行处理的方式,通过基于执行不同问答任务的问答模型,获取表示不同问答模型中神经元之间的相关性的相关参数,从而能够确定目标问答模型中与其他问答模型之间相关性较高的神经元,也即泛化能力较好的神经元,而泛化能力较差的神经元即为目标问答模型中需要进行处理的神经元,通过更新泛化能力差的神经元的参数,使得在更新后的目标问答模型中这些神经元的输出为零,从而能够提高目标问答模型的泛化性能。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本申请实施例提供的问答模型处理方法的实施环境示意图;
图2是根据本申请实施例提供的一种问答模型处理方法的流程图;
图3是根据本申请实施例提供的另一种问答模型处理方法的流程图;
图4是根据本申请实施例提供的一种目标网络层的示意图;
图5是根据本申请实施例提供的另一种问答模型处理方法的流程图;
图6是根据本申请实施例提供的一种问答模型处理装置的框图;
图7是根据本申请实施例提供的一种终端的结构框图;
图8是根据本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
下面简单介绍一下本申请实施例可能用到的技术。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能云服务,一般也被称作是AIaaS(AI as a Service,中文为“AI即服务”)。这是目前主流的一种人工智能平台的服务方式,具体来说AIaaS平台会把几类常见的AI服务进行拆分,并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城:所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务,部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。
自然语言处理(Nature Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
奇异向量正则相关分析(Singular Vector Canonical Correlation Analysis,SVCCA),是一种简单、可扩展的工具,可以帮助开发者获知各类深度神经网络在训练过程中模型内部的表征。如若干组神经元的激活向量能够组成输出矩阵,对于两组位于不同特征空间的矩阵,使用奇异值分解以及线性映射将其转换到新的相关性最大的特征空间,在该空间内比较新的激活向量之间的相关性。
领域(Domain),机器学习问题中不同的数据集/采样样本之间的统计分布会有所差异,一般把分布一致的一批数据看作一个领域(实际应用中通常是一个数据集),而模型在一个领域上训练后直接用于另一个领域通常会出现性能下降。
模型泛化性能(Model Generalization),指模型在某一个/几个领域上训练后直接应用于其他未知的领域上的性能。
皮尔逊线性相关系数(Pearson Correlation Coefficient,PCC),是用来衡量两个数据集合是否在一条线上面,它用来衡量定距变量间的线性关系。
下面介绍一下本申请实施例提供的问答模型处理方法的实施环境,图1是根据本申请实施例提供的问答模型处理方法的实施环境示意图。该实施环境包括:终端101和服务器102。
终端101和服务器102能够通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。可选的,终端101是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端101能够安装和运行有应用程序。可选的,该应用程序是问答类应用程序、社交类应用程序、购物类应用程序或者搜索类应用程序等。示意性的,终端101是用户使用的终端,终端101中运行的应用程序内登录有用户的用户账号。
服务器102能够是独立的物理服务器,也能够是多个物理服务器构成的服务器集群或者分布式系统,还能够是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器102用于为终端101运行的应用程序提供后台服务。
可选的,在对问答模型进行泛化处理过程中,服务器102承担主要计算工作,终端101承担次要计算工作;或者,服务器102承担次要计算工作,终端101承担主要计算工作;或者,服务器102或终端101分别能够单独承担计算工作。
可选的,服务器102包括:接入服务器、模型泛化处理服务器和数据库。接入服务器用于提供终端的接入服务。模型泛化处理服务器用于提供问答模型的泛化服务,还用于提供其他模型的泛化服务器。模型泛化处理服务器可以是一台或多台。当模型泛化处理服务器是多台时,存在至少两台模型泛化处理服务器用于提供不同的服务,和/或,存在至少两台模型泛化处理服务器用于提供相同的服务,比如以负载均衡方式提供同一种服务,本申请实施例对此不加以限定。数据库用于存储模型泛化过程中产生的数据以及泛化后得到的模型。
可选的,终端101泛指多个终端中的一个,本实施例仅以终端101来举例说明。本领域技术人员能够知晓,上述终端101的数量能够更多。比如上述终端101为几十个或几百个,或者更多数量,此时上述问答模型处理方法的实施环境还包括其他终端。本申请实施例对终端的数量和设备类型不加以限定。
可选的,上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也能够是任何网络,包括但不限于局域网(Local Area Network,LAN)、城域网(Metropolitan Area Network,MAN)、广域网(Wide Area Network,WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合)。在一些实施例中,使用包括超文本标记语言(Hyper Text Mark-up Language,HTML)、可扩展标记语言(Extensible MarkupLanguage,XML)等的技术和/或格式来代表通过网络交换的数据。此外还能够使用诸如安全套接字层(Secure Socket Layer,SSL)、传输层安全(Transport Layer Security,TLS)、虚拟专用网络(Virtual Private Network,VPN)、网际协议安全(Internet ProtocolSecurity,IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中,还能够使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。
图2是根据本申请实施例提供的一种问答模型处理方法的流程图,如图2所示,在本申请实施例中以应用于计算机设备为例进行说明。该问答模型处理方法包括以下步骤:
201、计算机设备获取至少一个问答模型,该至少一个问答模型与待处理的目标问答模型用于执行不同问答任务。
在本申请实施例中,通过不同领域的数据集能够训练得到用于执行不同问答任务的问答模型,如通过人物数据集训练得到人物问答模型,该人物问答模型能够根据输入的人物名称,输出该人物的相关信息。再如,通过事物数据集训练得到事物问答模型,该事物问答模型能够根据输入的事物名称,输出该事物的相关信息。
202、计算机设备获取多个相关参数,该相关参数用于表示一个问答模型的神经元与目标问答模型的神经元之间的相关性。
在本申请实施例中,不同问答模型之间的神经元具有一定的相关性,计算机设备能够通过神经元的神经元参数之间的相关性,来确定目标问答模型中神经元的相关参数;计算机设备还能够通过SCVVA来确定特征空间的各特征方向之间的相关参数,来间接表示目标问答模型中神经元的相关性。
203、计算机设备根据该多个相关参数,确定该目标问答模型中待处理的至少一个神经元。
在本申请实施例中,不同模型间相关性越高的神经元,越倾向于学习到更加通用性的知识,该神经元对于泛化性能的贡献也就越大;相对的,相关性越小的神经元,越倾向于过拟合于训练该模型时的数据集所属的领域,该神经元对于泛化性能的贡献也就越小。通过确定不同问答模型中神经元之间的相关性,能够对待处理的目标问答模型中目标网络层包括的各神经元对于泛化性能的重要性的影响进行排序。
204、计算机设备对该至少一个神经元的参数进行更新,得到更新后的目标问答模型,该更新后的目标问答模型中该至少一个神经元的输出为零。
在本申请实施例中,通过获取目标网络层包括的至少两个神经元的相关参数,能够确定各神经元对于泛化性能的重要性的影响。通过保留泛化学习较好的神经元的输出,而将泛化学习较差的神经元的输出调整为零,能够增加泛化性能好的神经元的作用,有利于提升泛化性能,且这种方式对目标问答模型进行了更新,而不需要重新训练该目标问答模型,即可是更新后的目标问答模型具有较好的泛化性能。
本申请实施例提供了一种对问答模型进行处理的方式,通过基于执行不同问答任务的问答模型,获取表示不同问答模型中神经元之间的相关性的相关参数,从而能够确定目标问答模型中与其他问答模型之间相关性较高的神经元,也即泛化能力较好的神经元,而泛化能力较差的神经元即为目标问答模型中需要进行处理的神经元,通过更新泛化能力差的神经元的参数,使得在更新后的目标问答模型中这些神经元的输出为零,从而能够提高目标问答模型的泛化性能。
在本申请实施例中,通过控制特定神经元(对泛化性能贡献小的神经元)的输出,能够提升问答模型在不同问答意图,以及不同问答任务之间的泛化性能。其中,对于上述特定神经元的选择可以通过两种方式实现:一种是通过神经元参数之间的最大相关性来对神经元进行排序,从而确定特定神经元;另一种是通过SVCCA获取新的特征空间的特征方向的相关参数,来表征各神经元的相关性,从而确定特定神经元。
图3是根据本申请实施例提供的另一种问答模型处理方法的流程图,如图3所示,在本申请实施例中以应用于服务器,采用根据不同神经元之间的最大相关性对神经元进行排序,从而确定特定神经元的方式为例进行说明。该问答模型处理方法包括以下步骤:
301、服务器获取至少一个问答模型,该至少一个问答模型与待处理的目标问答模型用于执行不同问答任务。
在本申请实施例中,不同问答模型具有不同的问题意图,也即用于执行不同问答任务,这是在训练问答模型的训练目标。为了使训练得到的问答模型能够满足期望的问题意图,也即能够较好的执行问答任务,通常在训练问答模型时,会针对该问答意图获取相应的训练数据。可选的,该训练数据为数据集或者采样样本数据,该训练数据所属的领域与该问题意图所属的领域一致。服务器能够获取已训练完毕的至少一个问答模型。可选的,待处理的目标问答模型为任一以训练完毕的问答模型。
例如,针对人物、日期时间以及事物等问题意图,服务器能够获取通过人物数据集训练得到用于执行人物问答任务的人物问答模型,还能够通过日期时间数据集训练得到用于执行日期时间问答任务的日期时间问答模型,还能够通过事物数据集训练得到用于执行事物问答任务的事物问答模型。
302、服务器获取多个相关参数,该相关参数用于表示一个问答模型的神经元与该目标问答模型的神经元之间的相关性。
在本申请实施例中,目标问答模型和该至少一个问答模型的结构相同,目标问答模型包括多个神经网络层,每个神经网络层包括至少一个神经元。可选的,服务器能够控制多个神经网络层中的神经元的输出,也能够控制一个神经网路层中的神经元的输出。本申请实施例以服务器控制目标问答模型中的目标网络层为例进行说明。服务器从目标问答模型包括的多个神经网络层中,确定待处理的目标网络层,该目标网络层包括至少两个神经元。服务器能够分别获取该至少两个神经元与该至少一个问答模型中对应网络层包括的神经元之间的相关参数,得到多个相关参数,一个相关参数对应一对神经元。
例如,目标网络层为目标问答模型的第L层,该层包括dl个神经元,该层的输出特征(激活值)能够表示为,表示由dl个元素组成的特征向量。目标网络层的前一层为第L-1层,该层包括dl-1个神经元,该层的输出特征表示为/>,表示由dl-1个元素组成的特征向量。第L层的每个神经元均包括一个权重向量/>表示由dl-1个元素组成的向量,还包括一个偏差标量/>相应的,每个神经元的激活值能够表示为其中,表示神经元的标识,R表示实数,T表示矩阵转置。
在一种可选的实现方式中,服务器能够根据神经元的神经元参数,来确定该神经元的相关参数,相应的,服务器分别获取至少两个神经元与至少一个问答模型中对应网络层包括的神经元之间的相关参数,得到多个相关参数的步骤为:服务器能够将该至少两个神经元中的任一神经元作为第一神经元,确定该第一神经元的第一神经元参数。然后服务器能够将至少一个问答模型中对应网络层包括的任一神经元作为第二神经元,确定该第二神经元的第二神经元参数。最后服务器能够将第一神经元参数与第二神经元参数之间的皮尔逊线性相关系数,确定为第一神经元与第二神经元之间的相关参数。通过基于神经元的神经元参数,来确定该神经元与其他模型中的神经元之间的相关参数,从而能够较为准确的确定基于不同神经元与其他模型中神经元之间的相关性。
在一种可选的实现方式中,每个神经元对应一个权重向量和一个偏差标量,服务器能够根据第一神经元的权重向量和偏差标量,来确定上述第一神经元参数。相应的,服务器确定第一神经元的第一神经元参数的步骤为:服务器获取该第一神经元的权重向量和偏差标量,然后服务器能够根据该权重向量和该偏差标量,确定该第一神经元的第一神经元参数。通过基于神经元的权重向量和偏差标量来确定该神经元的神经元参数,使得该神经元参数能够较为准确的反映神经元的特征,从而能够较为准确的基于该神经元参数确定该神经元的相关系数。
例如,参见图4所示,图4是根据本申请实施例提供的一种目标网络层的示意图。如图4所示,目标网络层为目标问答模型中的第L层,该目标网络层包括4个神经元,该目标网络层的上一层,也即第L-1层,包括5个神经元。每个神经元包括一个权重向量和一个偏差标量,每个神经元的输入为上一层输出的特征向量,每个神经元的输出为该神经元的激活值。对于任一神经元i,服务器能够将该神经元i的权重向量和偏差标量/>连接后得到的向量,作为该神经元i的神经元参数/>,表示由dl-1+1个元素组成的向量,其中前dl -1个元素为/>中的元素,第dl-1+1个元素为/>。如/>则
对于上述至少一个问答模型,服务器能够确定各问答模型中第L层包括的各神经元的神经元参数,然后计算第一神经元参数与各神经元参数之间的皮尔逊线性相关系数。获取各神经元的神经元参数的方式不再赘述。
303、服务器根据多个相关参数,确定目标问答模型中待处理的至少一个神经元。
在本申请实施例中,服务器能够根据该多个相关参数,获取该目标问答模型中神经元的第一排序权重,该第一排序权重为神经元对应的多个相关参数中的最大值。然后服务器能够根据该第一排序权重对神经元进行降序排序。最后服务器获取排序靠后的至少一个神经元作为待处理的神经元。
其中,服务器基于根据该第一神经元参数,确定该第一神经元的第一排序权重时,能够通过以下公式(1)得到。
其中,l表示第L层;k表示目标问答模型的标识;i表示第L层的第一神经元的标识;表示第一神经元的第一排序权重;N表示服务器获取的问答模型和目标问答模型的总数量;n表示其他问答模型的标识;j表示其他神经元的标识;dl表示第L层神经元的个数;p()表示皮尔逊线性相关系数函数;/>表示第一神经元参数;/>表示问答模型n中第L层的神经元j的神经元参数。
在一种可选的实现方式中,上述多个相关参数根据目标问答模型中目标网络层包括的至少两个神经元确定。服务器能够获取用于指示待处理的神经元在目标网络层包括的至少两个神经元中所占的比例的调整比例,根据该调整比例,获取排序靠后的至少一个神经元作为待处理的神经元。该调整比例的取值范围为0到1,如0.5、0.3以及0.6等,本申请实施例对此不进行限制。例如,该调整比例用ρ表示,则待处理的神经元的个数为ρdl。
304、服务器对该至少一个神经元的参数进行更新,得到更新后的目标问答模型,该更新后的目标问答模型中该至少一个神经元的输出为零。
在本申请实施例中,服务器能够更新该至少一个神经元的内部参数,得到更新后的目标问答模型,该内部参数用于确定神经元输出的激活值,能够将该至少一个神经元的输出的激活值设置为0,使得该至少一个神经元不起作用。
例如,继续以图4所示的目标网络层为例,将第二个和第三个神经元的输出调整为0,则该目标网络层调整后输出的激活向量为。
需要说明的是,服务器还能够根据调整比例和第一排序权重,确定排序较高的至少一个神经元,调高该至少一个神经元的输出的激活值,以增加泛化学习能力较好的神经元的输出所造成的影响。本申请实施例对此不进行限制。
本申请实施例,提供了一种对问答模型进行处理的方式,通过基于执行不同问答任务的问答模型,获取表示不同问答模型中神经元之间的相关性的相关参数,从而能够确定目标问答模型中与其他问答模型之间相关性较高的神经元,也即泛化能力较好的神经元,而泛化能力较差的神经元即为目标问答模型中需要进行处理的神经元,通过更新泛化能力差的神经元的参数,使得在更新后的目标问答模型中这些神经元的输出为零,从而能够提高目标问答模型的泛化性能。
图5是根据本申请实施例提供的另一种问答模型处理方法的流程图,如图5所示,在本申请实施例中以应用于服务器,采用通过SVCCA获取新的特征空间的特征方向的相关参数,从而确定特定神经元的方式为例进行说明。该问答模型处理方法包括以下步骤:
501、服务器获取至少一个问答模型,该至少一个问答模型与待处理的目标问答模型用于执行不同问答任务。
本步骤参见上述步骤301内容,在此不再赘述。
502、服务器获取多个相关参数,该相关参数用于表示一个问答模型的神经元与该目标问答模型的神经元之间的相关性。
在本申请实施例中,服务器能够通过SVCCA获取新的特征空间的特征方向的相关参数,从而能够通过对神经元进行间接排序的方式,确定特定神经元。其中,这种排序方式的本质是经过SVCCA对齐之后的特征空间中的特征方向进行排序,间接的实现对神经元的排序。
在一种可选的实现方式中,服务器获取多个相关参数的步骤为:服务器从目标问答模型包括的多个神经网络层中,确定待处理的目标网络层,该目标网络层包括至少两个神经元。然后服务器根据该至少两个神经元,确定第一激活矩阵,该第一激活矩阵用于指示目标问答模型在对目标样本数据处理时该至少两个神经元的输出。然后,服务器根据该至少一个问答模型和该目标样本数据,确定第二激活矩阵,该第二激活矩阵由该至少一个问答模型对应的至少一个激活矩阵拼接得到,一个激活矩阵用于指示一个问答模型在对该目标样本数据处理时与该目标网络层对应的网络层的输出。最后,服务器根据第一激活矩阵和第二激活矩阵进行奇异向量正则相关分析,获取多个相关参数。其中,目标样本数据能够从已有的问答数据中采集得到。通过基于SVCCA对各神经元输出的激活向量进行比较,确定在特征矩阵在新的特征空间中的相关性,能够减少噪声的影响,得到间接的反应神经元之间的相关性的相关参数。
在一种可选的实现方式中,服务器能够通过奇异值分解来获得新的特征空间,再通过正则相关分析将线性映射矩阵再次映射到新的特征空间,使得新的特征矩阵在新的特征空间内的相关性最大,最后确定多个相关参数。相应的,服务器根据第一激活矩阵和第二激活矩阵进行奇异向量正则相关分析,确定该目标问答模型中目标网络层包括的至少两个神经元的排序权重的步骤为:首先服务器对第一激活矩阵和第二激活矩阵进行奇异值分解,得到第一特征空间和第二特征空间。然后服务器对该第一特征空间和该第二特征空间进行正则相关分析,得到第三特征空间和第四特征空间,其中,正则相关分析用于从第一特征空间和第二特征空间中确定两个线性映射矩阵,将该两个线性映射矩阵分别映射至第三特征空间和第四特征空间,使得第三特征空间和第四特征空间对应的特征矩阵之间的相关性最大。然后服务器根据第三特征空间和该第四特征空间,确定多个相关系数。其中,服务器能够根据第三特征空间和第四特征空间,确定多个特征方向上的皮尔逊线性相关系数,一个特征方向上的皮尔逊线性相关系数对应一个相关参数。通过引入SVCCA使用多个神经元的信息组合作为一个新的特征方向,从而能够调整特征方向上的输出而不是单一神经元的输出,考虑了多维度上的信息,进一步优化了泛化得到的问答模型的性能。
例如,将t个样本数据作为目标样本数据。对于目标网络层,通过该目标网络层对该t个样本数据进行处理,将得到的激活向量构成激活矩阵,表示为,表示一个t行,dl列的矩阵。对于服务器获取的至少一个问答模型,即N-1个问答模型,将该N-1个问答模型分别对上述t个样本数据进行处理,一个问答模型得到一个激活矩阵,得到至少一个激活矩阵。服务器将该至少一个激活矩阵延样本维度进行连接,得到一整个矩阵,表示为,表示一个(N-1)t行,dl列的矩阵的整个矩阵。服务器对上述xl,k和xl,N(k)进行奇异值分解来获得新的子空间,也即第一特征空间xl,k’和第二特征空间xl,N(k)’。其中,分别只有一部分方向上的信息被保留下来,被保留下来的方向能够解释99%的方差以减少噪声影响。然后服务器使用正则相关分析,找出两个线性映射矩阵Pl,k和Pl,N(k),将上述两个线性映射矩阵再次映射到新的空间,即第三特征空间/>和第四特征空间/>,使得新的特征矩阵/>和/>在上述新的特征空间内的相关性最大。最后,服务器计算/>和/>之间在不同方向上的皮尔逊线性相关系数,最为对应的神经元的相关参数。该相关参数能够用于表示各神经元的排序权重。
503、服务器根据多个相关参数,确定该目标问答模型中待处理的至少一个神经元。
在本申请实施例中,服务器能够获取目标问答模型中神经元对应的线性映射矩阵。然后服务器根据该多个相关参数,获取线性映射矩阵中元素行的第二排序权重,该第二排序权重为元素行在对应的特征方向上的皮尔逊线性相关系数,一个元素行表示一个神经元。然后服务器根据该第二排序权重对元素行进行降序排序。最后服务器获取排序靠后的至少一个元素行对应的神经元作为待处理的神经元。
可选的,服务器能够获取用于指示待调整的神经元在目标网络层所占的比例的调整比例,也即待调整的特征方向在第三特征空间和第四特征空间中所占的比例。该调整比例的取值范围为0到1,如0.5、0.3以及0.6等,本申请实施例对此不进行限制。例如,该调整比例用ρ表示,则待调整的特征方向的个数为ρdl。服务器调整线性映射矩阵Pl,k中排序在前的ρdl行。
例如,线性映射矩阵为,表示一个dl行,dl列的矩阵。为了消除待调整的特征方向在最后输出中的影响,服务器能够将映射矩阵/>中的前ρdl行删除,得到新的矩阵/>,表示一个(1-ρ)dl行,dl列的矩阵。
504、服务器对该至少一个神经元的参数进行更新,得到更新后的目标问答模型,该更新后的目标问答模型中该至少一个神经元的输出为零。
在本申请实施例中,目标问答模型中目标网络层的后续网络的运算将采用调整后的目标网络层输出的激活向量作为输入,服务器能够更新该至少一个神经元所在的目标网络层的外部参数,得到更新后的目标问答模型,该外部参数用于对目标网络层输出的特征向量进行处理,使得所述至少一个神经元的输出为零。其中外部参数由上述调整后的线性映射矩阵Pl,k’构造得到。相应的,目标网络层输出的激活向量能够通过下述公式(2)计算得到。
其中,xl’表示调整后目标网络层输出的激活向量,xl表示调整前目标网络层输出的激活向量,Pl,k’表示调整后的映射矩阵,T表示矩阵转置,-1表示求矩阵的逆矩阵。
本申请实施例提供了一种对问答模型进行处理的方式,通过基于执行不同问答任务的问答模型,获取表示不同问答模型中神经元之间的相关性的相关参数,从而能够确定目标问答模型中与其他问答模型之间相关性较高的神经元,也即泛化能力较好的神经元,而泛化能力较差的神经元即为目标问答模型中需要进行处理的神经元,通过更新泛化能力差的神经元的参数,使得在更新后的目标问答模型中这些神经元的输出为零,从而能够提高目标问答模型的泛化性能。
需要说明的是,本申请实施例提供的方法,不仅能够应用于问答模型的泛化处理,还能够应用于其他模型的泛化处理,问答模型进行为了便于描述而示例性示出的一种应用场景。并且,上述实施例列举了调整目标网络层的神经元的输出,可选的,还能够调整多个网络层的神经元的输出,本申请实施例对此不进行限制。
另外,为了验证本申请实施例提供的问答模型处理方法的有效性,还设计了实验进行验证。实验采用的是BERT(Bidirectional Encoder Representation fromTransformers)模型,实验数据集为NewsQA(一种问答数据集),实验设计为在人物(P)、日期时间(D)、事物(T)和通用名词(N)4类问题意图之间进行泛化性能测试。实验过程中,使用某一类意图上训练得到的问答模型,采用下述三种方式进行试验:1、不做任何修改;2、Maxc方式,即使用上述图3提到的采用根据不同神经元之间的最大相关性对神经元进行排序,从而确定特定神经元的方式;3、SVCCA方式,即使用上述图5提到的采用通过SVCCA获取新的特征空间的特征方向的相关参数,来表征各神经元的相关性,从而确定特定神经元的方式在其他问题意图上进行测试。其中,模型泛化处理时调整的是BERT最后一个编码层的输出层神经元。实验参数为回答准确度以及F1分数。实验结果参见表1所示,其中每一大行表示一个训练意图,即训练得到的问答模型对应的问题意图,每一列表示一个测试意图,即测试在其他问题意图上的表现。标“-”的表格表示性能相较于直接使用原始模型没有提升。
表1
通过上述表1可知,在大多数情况下,相较于不做任何修改直接应用到其他问题意图,本申请实施例提供的方法,使问答模型具有较好的泛化性能,且不需要对模型结构做任何修改。
图6是根据本申请实施例提供的一种问答模型处理装置的框图。该装置用于执行上述问答模型处理方法执行时的步骤,参见图6,装置包括:模型获取模块601、参数获取模块602、确定模块603以及参数更新模块604。
模型获取模块601,用于获取至少一个问答模型,该至少一个问答模型与待处理的目标问答模型用于执行不同问答任务;
参数获取模块602,用于获取多个相关参数,该相关参数用于表示一个该问答模型的神经元与该目标问答模型的神经元之间的相关性;
确定模块603,用于根据该多个相关参数,确定该目标问答模型中待处理的至少一个神经元;
参数更新模块604,用于对该至少一个神经元的参数进行更新,得到更新后的目标问答模型,该更新后的目标问答模型中该至少一个神经元的输出为零。
在一种可选的实现方式中,该参数获取模块602,包括:
第一确定子模块,用于从该目标问答模型包括的多个神经网络层中,确定待处理的目标网络层,该目标网络层包括至少两个神经元;
第一参数获取子模块,用于分别获取该至少两个神经元与该至少一个问答模型中对应网络层包括的神经元之间的相关参数,得到多个相关参数,一个相关参数对应一对神经元。
在一种可选的实现方式中,参数获取子模块,包括:
第一确定单元,用于将该至少两神经元中的任一神经元作为第一神经元,确定该第一神经元的第一神经元参数;
第二确定单元,用于将该至少一个问答模型中对应网络层包括的任一神经元作为第二神经元,确定该第二神经元的第二神经元参数;
第三确定单元,用于将该第一神经元参数与该第二神经元参数之间的皮尔逊线性相关系数,确定为该第一神经元与该第二神经元之间的相关参数。
在一种可选的实现方式中,该第一确定单元,用于将该至少两个神经元中的任一神经元作为第一神经元,获取该第一神经元的权重向量和偏差标量;根据该权重向量和该偏差标量,确定该第一神经元的第一神经元参数。
在一种可选的实现方式中,参数获取模块602,包括:
第二确定子模块,用于从该目标问答模型包括的多个神经网络层中,确定待处理的目标网络层,该目标网络层包括至少两个神经元;
第三确定子模块,用于根据该至少两个神经元,确定第一激活矩阵,该第一激活矩阵用于指示该目标问答模型在对目标样本数据处理时该至少两个神经元的输出;
第四确定子模块,用于根据该至少一个问答模型和该目标样本数据,确定第二激活矩阵,该第二激活矩阵由该至少一个问答模型对应的至少一个激活矩阵拼接得到,一个激活矩阵用于指示一个问答模型在对该目标样本数据处理时与该目标网络层对应的网络层的输出;
第二参数获取子模块,用于根据该第一激活矩阵和该第二激活矩阵进行奇异向量正则相关分析,获取多个相关参数。
在一种可选的实现方式中,该第二参数获取子模块,包括:
奇异值分解单元,用于对该第一激活矩阵和该第二激活矩阵进行奇异值分解,得到第一特征空间和第二特征空间;
正则相关分析单元,用于对该第一特征空间和该第二特征空间进行正则相关分析,得到第三特征空间和第四特征空间,该正则相关分析用于从该第一特征空间和该第二特征空间中确定两个线性映射矩阵,将该两个线性映射矩阵分别映射至该第三特征空间和该第四特征空间,使得该第三特征空间和该第四特征空间对应的特征矩阵之间的相关性最大;
第四确定单元,用于根据该第三特征空间和该第四特征空间,确定多个相关系数。
在一种可选的实现方式中,该第四确定单元,用于根据该第三特征空间和该第四特征空间,确定多个特征方向上的皮尔逊线性相关系数,一个特征方向上的皮尔逊线性相关系数对应一个相关参数。
在一种可选的实现方式中,该确定模块603,包括:
第一获取子模块,用于根据该多个相关参数,获取该目标问答模型中神经元的第一排序权重,该第一排序权重为该神经元对应的多个相关参数中的最大值;
第一排序子模块,用于根据该第一排序权重对神经元进行降序排序;
第二获取子模块,用于获取排序靠后的至少一个神经元作为待处理的神经元。
在一种可选的实现方式中,该多个相关参数根据该目标问答模型中目标网络层包括的至少两个神经元确定;该第一获取子模块,用于获取调整比例,该调整比例用于指示待处理的神经元在该目标网络层包括的至少两个神经元中所占的比例;根据该调整比例,获取排序靠后的至少一个神经元作为待处理的神经元。
在一种可选的实现方式中,该确定模块603,包括:
第三获取子模块,用于获取该目标问答模型中神经元对应的线性映射矩阵;
第四获取子模块,用于根据该多个相关参数,获取该线性映射矩阵中元素行的第二排序权重,该第二排序权重为该元素行在对应的特征方向上的皮尔逊线性相关系数,一个元素行表示一个神经元;
第二排序子模块,用于根据该第二排序权重对元素行进行降序排序;
第五获取子模块,用于获取排序靠后的至少一个元素行对应的神经元作为待处理的神经元。
在一种可选的实现方式中,该参数更新模块604,用于更新该至少一个神经元的内部参数,得到更新后的目标问答模型,该内部参数用于确定神经元输出的激活值。
在一种可选的实现方式中,该参数更新模块604,用于更新该至少一个神经元所在的目标网络层的外部参数,得到更新后的目标问答模型,该外部参数用于对该目标网络层输出的特征向量进行处理,使得该至少一个神经元的输出为零。
本申请实施例提供了一种对问答模型进行处理的方式,通过基于执行不同问答任务的问答模型,获取表示不同问答模型中神经元之间的相关性的相关参数,从而能够确定目标问答模型中与其他问答模型之间相关性较高的神经元,也即泛化能力较好的神经元,而泛化能力较差的神经元即为目标问答模型中需要进行处理的神经元,通过更新泛化能力差的神经元的参数,使得在更新后的目标问答模型中这些神经元的输出为零,从而能够提高目标问答模型的泛化性能。
需要说明的是:上述实施例提供的问答模型处理装置在运行应用程序时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的问答模型处理装置与问答模型处理方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图7是根据本申请实施例提供的一种终端700的结构框图。该终端700可以是便携式移动终端,比如:智能手机、平板电脑、MP3播放器(Moving Picture Experts GroupAudio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture ExpertsGroup Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端700还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端700包括有:处理器701和存储器702。
处理器701可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器701可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器701也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器701可以集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器701还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器702可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器702还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器702中的非暂态的计算机可读存储介质用于存储至少一个程序代码,该至少一个程序代码用于被处理器701所执行以实现本申请中方法实施例提供的问答模型处理方法。
在一些实施例中,终端700还可选包括有:外围设备接口703和至少一个外围设备。处理器701、存储器702和外围设备接口703之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口703相连。具体地,外围设备包括:射频电路704、显示屏705、摄像头组件706、音频电路707和电源709中的至少一种。
外围设备接口703可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器701和存储器702。在一些实施例中,处理器701、存储器702和外围设备接口703被集成在同一芯片或电路板上;在一些其他实施例中,处理器701、存储器702和外围设备接口703中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路704用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路704通过电磁信号与通信网络以及其他通信设备进行通信。射频电路704将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路704包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路704可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路704还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏705用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏705是触摸显示屏时,显示屏705还具有采集在显示屏705的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器701进行处理。此时,显示屏705还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏705可以为一个,设置在终端700的前面板;在另一些实施例中,显示屏705可以为至少两个,分别设置在终端700的不同表面或呈折叠设计;在另一些实施例中,显示屏705可以是柔性显示屏,设置在终端700的弯曲表面上或折叠面上。甚至,显示屏705还可以设置成非矩形的不规则图形,也即异形屏。显示屏705可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件706用于采集图像或视频。可选地,摄像头组件706包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件706还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路707可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器701进行处理,或者输入至射频电路704以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端700的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器701或射频电路704的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路707还可以包括耳机插孔。
电源709用于为终端700中的各个组件进行供电。电源709可以是交流电、直流电、一次性电池或可充电电池。当电源709包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端700还包括有一个或多个传感器710。该一个或多个传感器710包括但不限于:加速度传感器711、陀螺仪传感器712、压力传感器713、光学传感器715以及接近传感器716。
加速度传感器711可以检测以终端700建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器711可以用于检测重力加速度在三个坐标轴上的分量。处理器701可以根据加速度传感器711采集的重力加速度信号,控制显示屏705以横向视图或纵向视图进行用户界面的显示。加速度传感器711还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器712可以检测终端700的机体方向及转动角度,陀螺仪传感器712可以与加速度传感器711协同采集用户对终端700的3D动作。处理器701根据陀螺仪传感器712采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器713可以设置在终端700的侧边框和/或显示屏705的下层。当压力传感器713设置在终端700的侧边框时,可以检测用户对终端700的握持信号,由处理器701根据压力传感器713采集的握持信号进行左右手识别或快捷操作。当压力传感器713设置在显示屏705的下层时,由处理器701根据用户对显示屏705的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
光学传感器715用于采集环境光强度。在一个实施例中,处理器701可以根据光学传感器715采集的环境光强度,控制显示屏705的显示亮度。具体地,当环境光强度较高时,调高显示屏705的显示亮度;当环境光强度较低时,调低显示屏705的显示亮度。在另一个实施例中,处理器701还可以根据光学传感器715采集的环境光强度,动态调整摄像头组件706的拍摄参数。
接近传感器716,也称距离传感器,通常设置在终端700的前面板。接近传感器716用于采集用户与终端700的正面之间的距离。在一个实施例中,当接近传感器716检测到用户与终端700的正面之间的距离逐渐变小时,由处理器701控制显示屏705从亮屏状态切换为息屏状态;当接近传感器716检测到用户与终端700的正面之间的距离逐渐变大时,由处理器701控制显示屏705从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图7中示出的结构并不构成对终端700的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
图8是根据本申请实施例提供的一种服务器的结构示意图,该服务器800可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(Central ProcessingUnits,CPU)801和一个或一个以上的存储器802,其中,该存储器802中存储有至少一条程序代码,该至少一条程序代码由该处理器801加载并执行以实现上述各个方法实施例提供的问答模型处理方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质应用于计算机设备,该计算机可读存储介质中存储有至少一段程序代码,该至少一段程序代码由处理器加载并执行以实现上述实施例的问答模型处理方法中计算机设备所执行的操作。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机程序代码,该计算机程序代码存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序代码,处理器执行该计算机程序代码,使得该计算机设备执行上述各种可选实现方式中提供的问答模型处理方法。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (18)
1.一种问答模型处理方法,其特征在于,所述方法包括:
获取至少一个问答模型,所述至少一个问答模型与待处理的目标问答模型用于执行不同问答任务;
从所述目标问答模型包括的多个神经网络层中,确定待处理的目标网络层,所述目标网络层包括至少两个神经元;分别获取所述至少两个神经元与所述至少一个问答模型中对应网络层包括的神经元之间的相关参数,得到多个相关参数,一个相关参数对应一对神经元;或者,从所述目标问答模型包括的多个神经网络层中,确定待处理的目标网络层,所述目标网络层包括至少两个神经元;根据所述至少两个神经元,确定第一激活矩阵,所述第一激活矩阵用于指示所述目标问答模型在对目标样本数据处理时所述至少两个神经元的输出;根据所述至少一个问答模型和所述目标样本数据,确定第二激活矩阵,所述第二激活矩阵由所述至少一个问答模型对应的至少一个激活矩阵拼接得到,一个激活矩阵用于指示一个问答模型在对所述目标样本数据处理时与所述目标网络层对应的网络层的输出;根据所述第一激活矩阵和所述第二激活矩阵进行奇异向量正则相关分析,获取多个相关参数;其中,所述相关参数用于表示一个所述问答模型的神经元与所述目标问答模型的神经元之间的相关性;
根据所述多个相关参数,获取所述目标问答模型中神经元的第一排序权重,所述第一排序权重为所述神经元对应的多个相关参数中的最大值;根据所述第一排序权重对神经元进行降序排序;获取排序靠后的至少一个神经元作为待处理的神经元;或者,获取所述目标问答模型中神经元对应的线性映射矩阵;根据所述多个相关参数,获取所述线性映射矩阵中元素行的第二排序权重,所述第二排序权重为所述元素行在对应的特征方向上的皮尔逊线性相关系数,一个元素行表示一个神经元;根据所述第二排序权重对元素行进行降序排序;获取排序靠后的至少一个元素行对应的神经元作为待处理的神经元;
对所述至少一个神经元的参数进行更新,得到更新后的目标问答模型,所述更新后的目标问答模型中所述至少一个神经元的输出为零。
2.根据权利要求1所述的方法,其特征在于,所述分别获取所述至少两个神经元与所述至少一个问答模型中对应网络层包括的神经元之间的相关参数,得到多个相关参数,包括:
将所述至少两个神经元中的任一神经元作为第一神经元,确定所述第一神经元的第一神经元参数;
将所述至少一个问答模型中对应网络层包括的任一神经元作为第二神经元,确定所述第二神经元的第二神经元参数;
将所述第一神经元参数与所述第二神经元参数之间的皮尔逊线性相关系数,确定为所述第一神经元与所述第二神经元之间的相关参数。
3.根据权利要求2所述的方法,其特征在于,所述将所述至少两个神经元中的任一神经元作为第一神经元,确定所述第一神经元的第一神经元参数,包括:
将所述至少两个神经元中的任一神经元作为第一神经元,获取所述第一神经元的权重向量和偏差标量;
根据所述权重向量和所述偏差标量,确定所述第一神经元的第一神经元参数。
4.根据权利要求1所述的方法,其特征在于,所述根据所述第一激活矩阵和所述第二激活矩阵进行奇异向量正则相关分析,获取多个相关参数,包括:
对所述第一激活矩阵和所述第二激活矩阵进行奇异值分解,得到第一特征空间和第二特征空间;
对所述第一特征空间和所述第二特征空间进行正则相关分析,得到第三特征空间和第四特征空间,所述正则相关分析用于从所述第一特征空间和所述第二特征空间中确定两个线性映射矩阵,将所述两个线性映射矩阵分别映射至所述第三特征空间和所述第四特征空间,使得所述第三特征空间和所述第四特征空间对应的特征矩阵之间的相关性最大;
根据所述第三特征空间和所述第四特征空间,确定多个相关参数。
5.根据权利要求4所述的方法,其特征在于,所述根据所述第三特征空间和所述第四特征空间,确定多个相关参数,包括:
根据所述第三特征空间和所述第四特征空间,确定多个特征方向上的皮尔逊线性相关系数,一个特征方向上的皮尔逊线性相关系数对应一个相关参数。
6.根据权利要求1所述的方法,其特征在于,所述多个相关参数根据所述目标问答模型中目标网络层包括的至少两个神经元确定;
所述获取排序靠后的至少一个神经元作为待处理的神经元,包括:
获取调整比例,所述调整比例用于指示待处理的神经元在所述目标网络层包括的至少两个神经元中所占的比例;
根据所述调整比例,获取排序靠后的至少一个神经元作为待处理的神经元。
7.根据权利要求1所述的方法,其特征在于,所述对所述至少一个神经元的参数进行更新,得到更新后的目标问答模型,包括:
更新所述至少一个神经元的内部参数,得到更新后的目标问答模型,所述内部参数用于确定神经元输出的激活值。
8.根据权利要求1所述的方法,其特征在于,所述对所述至少一个神经元的参数进行更新,得到更新后的目标问答模型,包括:
更新所述至少一个神经元所在的目标网络层的外部参数,得到更新后的目标问答模型,所述外部参数用于对所述目标网络层输出的特征向量进行处理,使得所述至少一个神经元的输出为零。
9.一种问答模型处理装置,其特征在于,所述装置包括:
模型获取模块,用于获取至少一个问答模型,所述至少一个问答模型与待处理的目标问答模型用于执行不同问答任务;
参数获取模块包括:第一确定子模块和第一参数获取子模块,或者,第二确定子模块、第三确定子模块第四确定子模块和第二参数获取子模块;
所述第一确定子模块,用于从所述目标问答模型包括的多个神经网络层中,确定待处理的目标网络层,所述目标网络层包括至少两个神经元;
所述第一参数获取子模块,用于分别获取所述至少两个神经元与所述至少一个问答模型中对应网络层包括的神经元之间的相关参数,得到多个相关参数,一个相关参数对应一对神经元;
所述第二确定子模块,用于从所述目标问答模型包括的多个神经网络层中,确定待处理的目标网络层,所述目标网络层包括至少两个神经元;
所述第三确定子模块,用于根据所述至少两个神经元,确定第一激活矩阵,所述第一激活矩阵用于指示所述目标问答模型在对目标样本数据处理时所述至少两个神经元的输出;
所述第四确定子模块,用于根据所述至少一个问答模型和所述目标样本数据,确定第二激活矩阵,所述第二激活矩阵由所述至少一个问答模型对应的至少一个激活矩阵拼接得到,一个激活矩阵用于指示一个问答模型在对所述目标样本数据处理时与所述目标网络层对应的网络层的输出;
所述第二参数获取子模块,用于根据所述第一激活矩阵和所述第二激活矩阵进行奇异向量正则相关分析,获取多个相关参数;
其中,所述相关参数用于表示一个所述问答模型的神经元与所述目标问答模型的神经元之间的相关性;
确定模块包括:第一获取子模块、第一排序子模块和第二获取子模块,或者,第三获取子模块、第四获取子模块、第二排序子模块和第五获取子模块;
所述第一获取子模块,用于根据所述多个相关参数,获取所述目标问答模型中神经元的第一排序权重,所述第一排序权重为所述神经元对应的多个相关参数中的最大值;
所述第一排序子模块,用于根据所述第一排序权重对神经元进行降序排序;
所述第二获取子模块,用于获取排序靠后的至少一个神经元作为待处理的神经元;
所述第三获取子模块,用于获取所述目标问答模型中神经元对应的线性映射矩阵;
所述第四获取子模块,用于根据所述多个相关参数,获取所述线性映射矩阵中元素行的第二排序权重,所述第二排序权重为所述元素行在对应的特征方向上的皮尔逊线性相关系数,一个元素行表示一个神经元;
所述第二排序子模块,用于根据所述第二排序权重对元素行进行降序排序;
所述第五获取子模块,用于获取排序靠后的至少一个元素行对应的神经元作为待处理的神经元;
参数更新模块,用于对所述至少一个神经元的参数进行更新,得到更新后的目标问答模型,所述更新后的目标问答模型中所述至少一个神经元的输出为零。
10.根据权利要求9所述的装置,其特征在于,所述参数获取子模块,包括:
第一确定单元,用于将所述至少两个神经元中的任一神经元作为第一神经元,确定所述第一神经元的第一神经元参数;
第二确定单元,用于将所述至少一个问答模型中对应网络层包括的任一神经元作为第二神经元,确定所述第二神经元的第二神经元参数;
第三确定单元,用于将所述第一神经元参数与所述第二神经元参数之间的皮尔逊线性相关系数,确定为所述第一神经元与所述第二神经元之间的相关参数。
11.根据权利要求10所述的装置,其特征在于,所述第一确定单元,用于:
将所述至少两个神经元中的任一神经元作为第一神经元,获取所述第一神经元的权重向量和偏差标量;
根据所述权重向量和所述偏差标量,确定所述第一神经元的第一神经元参数。
12.根据权利要求9所述的装置,其特征在于,所述第二参数获取子模块,包括:
奇异值分解单元,用于对所述第一激活矩阵和所述第二激活矩阵进行奇异值分解,得到第一特征空间和第二特征空间;
正则相关分析单元,用于对所述第一特征空间和所述第二特征空间进行正则相关分析,得到第三特征空间和第四特征空间,所述正则相关分析用于从所述第一特征空间和所述第二特征空间中确定两个线性映射矩阵,将所述两个线性映射矩阵分别映射至所述第三特征空间和所述第四特征空间,使得所述第三特征空间和所述第四特征空间对应的特征矩阵之间的相关性最大;
第四确定单元,用于根据所述第三特征空间和所述第四特征空间,确定多个相关参数。
13.根据权利要求12所述的装置,其特征在于,所述第四确定单元,用于:
根据所述第三特征空间和所述第四特征空间,确定多个特征方向上的皮尔逊线性相关系数,一个特征方向上的皮尔逊线性相关系数对应一个相关参数。
14.根据权利要求9所述的装置,其特征在于,所述多个相关参数根据所述目标问答模型中目标网络层包括的至少两个神经元确定;
所述第一获取子模块,用于:
获取调整比例,所述调整比例用于指示待处理的神经元在所述目标网络层包括的至少两个神经元中所占的比例;
根据所述调整比例,获取排序靠后的至少一个神经元作为待处理的神经元。
15.根据权利要求9所述的装置,其特征在于,所述参数更新模块,用于:
更新所述至少一个神经元的内部参数,得到更新后的目标问答模型,所述内部参数用于确定神经元输出的激活值。
16.根据权利要求9所述的装置,其特征在于,所述参数更新模块,用于:
更新所述至少一个神经元所在的目标网络层的外部参数,得到更新后的目标问答模型,所述外部参数用于对所述目标网络层输出的特征向量进行处理,使得所述至少一个神经元的输出为零。
17.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器用于存储至少一段程序代码,所述至少一段程序代码由所述处理器加载并执行权利要求1至8任一权利要求所述的问答模型处理方法。
18.一种存储介质,其特征在于,所述存储介质用于存储至少一段程序代码,所述至少一段程序代码用于执行权利要求1至8任一权利要求所述的问答模型处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010910820.XA CN112035649B (zh) | 2020-09-02 | 2020-09-02 | 问答模型处理方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010910820.XA CN112035649B (zh) | 2020-09-02 | 2020-09-02 | 问答模型处理方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112035649A CN112035649A (zh) | 2020-12-04 |
CN112035649B true CN112035649B (zh) | 2023-11-17 |
Family
ID=73592341
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010910820.XA Active CN112035649B (zh) | 2020-09-02 | 2020-09-02 | 问答模型处理方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112035649B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117576265B (zh) * | 2024-01-15 | 2024-05-28 | 腾讯科技(深圳)有限公司 | 风格图像的生成方法、装置、计算机设备和存储介质 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108805259A (zh) * | 2018-05-23 | 2018-11-13 | 北京达佳互联信息技术有限公司 | 神经网络模型训练方法、装置、存储介质及终端设备 |
CN109299291A (zh) * | 2018-09-28 | 2019-02-01 | 武汉大学 | 一种基于卷积神经网络的问答社区标签推荐方法 |
CN109657159A (zh) * | 2018-12-18 | 2019-04-19 | 哈尔滨工业大学 | 舆情数据角色识别中异构关系数据的迁移学习界限的确定方法 |
CN109753566A (zh) * | 2019-01-09 | 2019-05-14 | 大连民族大学 | 基于卷积神经网络的跨领域情感分析的模型训练方法 |
CN109783617A (zh) * | 2018-12-11 | 2019-05-21 | 平安科技(深圳)有限公司 | 用于答复问题的模型训练方法、装置、设备及存储介质 |
CN110135510A (zh) * | 2019-05-22 | 2019-08-16 | 电子科技大学中山学院 | 一种动态领域自适应方法、设备及计算机可读存储介质 |
CN110348535A (zh) * | 2019-07-17 | 2019-10-18 | 北京金山数字娱乐科技有限公司 | 一种视觉问答模型训练方法及装置 |
CN110795945A (zh) * | 2019-10-30 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 一种语义理解模型训练方法、语义理解方法、装置及存储介质 |
CN110807332A (zh) * | 2019-10-30 | 2020-02-18 | 腾讯科技(深圳)有限公司 | 语义理解模型的训练方法、语义处理方法、装置及存储介质 |
CN111078853A (zh) * | 2019-12-13 | 2020-04-28 | 上海智臻智能网络科技股份有限公司 | 问答模型的优化方法、装置、计算机设备和存储介质 |
CN111159279A (zh) * | 2019-12-31 | 2020-05-15 | 联想(北京)有限公司 | 一种模型可视化方法、设备及存储介质 |
CN111178543A (zh) * | 2019-12-30 | 2020-05-19 | 广东石油化工学院 | 一种基于元学习的概率域泛化学习方法 |
CN111275175A (zh) * | 2020-02-20 | 2020-06-12 | 腾讯科技(深圳)有限公司 | 神经网络训练方法、装置、图像分类方法、设备和介质 |
CN111400470A (zh) * | 2020-03-13 | 2020-07-10 | 深圳市腾讯计算机系统有限公司 | 问题处理方法、装置、计算机设备和存储介质 |
-
2020
- 2020-09-02 CN CN202010910820.XA patent/CN112035649B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108805259A (zh) * | 2018-05-23 | 2018-11-13 | 北京达佳互联信息技术有限公司 | 神经网络模型训练方法、装置、存储介质及终端设备 |
CN109299291A (zh) * | 2018-09-28 | 2019-02-01 | 武汉大学 | 一种基于卷积神经网络的问答社区标签推荐方法 |
CN109783617A (zh) * | 2018-12-11 | 2019-05-21 | 平安科技(深圳)有限公司 | 用于答复问题的模型训练方法、装置、设备及存储介质 |
CN109657159A (zh) * | 2018-12-18 | 2019-04-19 | 哈尔滨工业大学 | 舆情数据角色识别中异构关系数据的迁移学习界限的确定方法 |
CN109753566A (zh) * | 2019-01-09 | 2019-05-14 | 大连民族大学 | 基于卷积神经网络的跨领域情感分析的模型训练方法 |
CN110135510A (zh) * | 2019-05-22 | 2019-08-16 | 电子科技大学中山学院 | 一种动态领域自适应方法、设备及计算机可读存储介质 |
CN110348535A (zh) * | 2019-07-17 | 2019-10-18 | 北京金山数字娱乐科技有限公司 | 一种视觉问答模型训练方法及装置 |
CN110795945A (zh) * | 2019-10-30 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 一种语义理解模型训练方法、语义理解方法、装置及存储介质 |
CN110807332A (zh) * | 2019-10-30 | 2020-02-18 | 腾讯科技(深圳)有限公司 | 语义理解模型的训练方法、语义处理方法、装置及存储介质 |
CN111078853A (zh) * | 2019-12-13 | 2020-04-28 | 上海智臻智能网络科技股份有限公司 | 问答模型的优化方法、装置、计算机设备和存储介质 |
CN111178543A (zh) * | 2019-12-30 | 2020-05-19 | 广东石油化工学院 | 一种基于元学习的概率域泛化学习方法 |
CN111159279A (zh) * | 2019-12-31 | 2020-05-15 | 联想(北京)有限公司 | 一种模型可视化方法、设备及存储介质 |
CN111275175A (zh) * | 2020-02-20 | 2020-06-12 | 腾讯科技(深圳)有限公司 | 神经网络训练方法、装置、图像分类方法、设备和介质 |
CN111400470A (zh) * | 2020-03-13 | 2020-07-10 | 深圳市腾讯计算机系统有限公司 | 问题处理方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112035649A (zh) | 2020-12-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220188840A1 (en) | Target account detection method and apparatus, electronic device, and storage medium | |
US12106768B2 (en) | Speech signal processing method and speech separation method | |
CN112749728A (zh) | 学生模型训练方法、装置、计算机设备及存储介质 | |
CN111680123B (zh) | 对话模型的训练方法、装置、计算机设备及存储介质 | |
CN111986691B (zh) | 音频处理方法、装置、计算机设备及存储介质 | |
CN110807325A (zh) | 谓词识别方法、装置及存储介质 | |
CN113516143B (zh) | 文本图像匹配方法、装置、计算机设备及存储介质 | |
CN112733970B (zh) | 图像分类模型处理方法、图像分类方法及装置 | |
CN111598160A (zh) | 图像分类模型的训练方法、装置、计算机设备及存储介质 | |
CN111581958A (zh) | 对话状态确定方法、装置、计算机设备及存储介质 | |
CN114281956A (zh) | 文本处理方法、装置、计算机设备及存储介质 | |
CN111753498A (zh) | 文本处理方法、装置、设备及存储介质 | |
CN113569042A (zh) | 文本信息分类方法、装置、计算机设备及存储介质 | |
CN117633198A (zh) | 角色对话模型的训练方法、对话生成方法、装置和设备 | |
CN112035649B (zh) | 问答模型处理方法、装置、计算机设备及存储介质 | |
CN112287070B (zh) | 词语的上下位关系确定方法、装置、计算机设备及介质 | |
CN111931075B (zh) | 一种内容推荐方法、装置、计算机设备及存储介质 | |
CN110990549B (zh) | 获取答案的方法、装置、电子设备及存储介质 | |
CN114765062A (zh) | 基因数据处理方法、装置、计算机设备及存储介质 | |
CN112163095A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN108804996B (zh) | 人脸验证方法、装置、计算机设备及存储介质 | |
CN113762585B (zh) | 数据的处理方法、账号类型的识别方法及装置 | |
CN114328948A (zh) | 文本标准化模型的训练方法、文本标准化方法及装置 | |
CN114281937A (zh) | 嵌套实体识别模型的训练方法、嵌套实体识别方法及装置 | |
CN111737415A (zh) | 实体关系抽取方法、实体关系学习模型的获取方法及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |