CN110598786B - 神经网络的训练方法、语义分类方法、语义分类装置 - Google Patents
神经网络的训练方法、语义分类方法、语义分类装置 Download PDFInfo
- Publication number
- CN110598786B CN110598786B CN201910863457.8A CN201910863457A CN110598786B CN 110598786 B CN110598786 B CN 110598786B CN 201910863457 A CN201910863457 A CN 201910863457A CN 110598786 B CN110598786 B CN 110598786B
- Authority
- CN
- China
- Prior art keywords
- training
- comment
- network
- vector
- representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 557
- 238000000034 method Methods 0.000 title claims abstract description 195
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 45
- 239000013598 vector Substances 0.000 claims abstract description 276
- 238000012545 processing Methods 0.000 claims abstract description 123
- 230000006870 function Effects 0.000 claims description 84
- 230000008569 process Effects 0.000 claims description 54
- 230000015654 memory Effects 0.000 claims description 36
- 238000013507 mapping Methods 0.000 claims description 29
- 238000012552 review Methods 0.000 claims description 24
- 230000000306 recurrent effect Effects 0.000 claims description 9
- 239000000126 substance Substances 0.000 claims 4
- 239000013604 expression vector Substances 0.000 abstract description 14
- 238000010586 diagram Methods 0.000 description 14
- 238000005457 optimization Methods 0.000 description 9
- 238000013473 artificial intelligence Methods 0.000 description 7
- 230000006403 short-term memory Effects 0.000 description 6
- 230000002457 bidirectional effect Effects 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000011282 treatment Methods 0.000 description 4
- 230000003042 antagnostic effect Effects 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
一种语义分类方法及装置、神经网络的训练方法、存储介质。该语义分类方法包括:输入关于第一对象的第一评论;使用共同表示提取器对第一评论进行处理,以提取用于表征第一评论中的共同表示的第一共同表示向量;使用第一表示提取器对第一评论进行处理,以提取用于表征第一评论中的单一表示的第一单一表示向量;将第一共同表示向量和第一单一表示向量进行拼接,以得到第一表示向量;以及使用第一语义分类器对第一表示向量进行处理,以得到第一评论的语义分类;其中,共同表示包括既用于评论第一对象又用于评论第二对象的意思表示,第二对象为与第一对象不同的关联评论对象,第一评论的单一表示包括仅用于评论第一对象的意思表示。
Description
技术领域
本公开的实施例涉及一种神经网络的训练方法、语义分类方法、语义分类装置。
背景技术
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能包括研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术可以应用于自然语言处理(Natural Language Processing,NLP)领域。NLP是计算机科学、人工智能和信息工程的交叉领域,涉及统计学、语言学等的知识,其目标是让计算机处理或“理解”自然语言,以执行文本分类、语言翻译和问题回答等任务。
发明内容
本公开至少一个实施例提供一种语义分类方法,包括:输入关于第一对象的第一评论;使用共同表示提取器对所述第一评论进行处理,以提取用于表征所述第一评论中的共同表示的第一共同表示向量;使用第一表示提取器对所述第一评论进行处理,以提取用于表征所述第一评论中的单一表示的第一单一表示向量;将所述第一共同表示向量和所述第一单一表示向量进行拼接,以得到第一表示向量;以及,使用第一语义分类器对所述第一表示向量进行处理,以得到所述第一评论的语义分类;其中,所述共同表示包括既用于评论所述第一对象又用于评论第二对象的意思表示,所述第二对象为与所述第一对象不同的关联评论对象,所述第一评论的单一表示包括仅用于评论所述第一对象的意思表示。
例如,本公开一些实施例提供的语义分类方法,还包括:将所述第一评论映射为第一原始向量;其中,使用所述共同表示提取器对所述第一评论进行处理,包括:使用所述共同表示提取器对所述第一原始向量进行处理;使用所述第一表示提取器对所述第一评论进行处理,包括:使用所述第一表示提取器对所述第一原始向量进行处理。
例如,在本公开一些实施例提供的语义分类方法中,将所述第一评论映射为所述第一原始向量,包括:使用词向量算法将所述第一评论中的每个字映射为具有指定长度的向量,以得到所述第一原始向量。
例如,在本公开一些实施例提供的语义分类方法中,所述共同表示提取器和所述第一表示提取器各自分别包括循环神经网络、长短期记忆网络和双向长短期记忆网络之一,所述第一语义分类器包括softmax分类器。
例如,本公开一些实施例提供的语义分类方法,还包括:输入关于第二对象的第二评论;使用所述共同表示提取器对所述第二评论进行处理,以提取用于表征所述第二评论中的所述共同表示的第二共同表示向量;使用第二表示提取器对所述第二评论进行处理,以提取用于表征所述第二评论中的单一表示的第二单一表示向量;将所述第二共同表示向量和所述第二单一表示向量进行拼接,以得到第二表示向量;以及使用第二语义分类器对所述第二表示向量进行处理,以得到所述第二评论的语义分类;其中,所述第二评论的单一表示包括仅用于评论所述第二对象的意思表示。
例如,本公开一些实施例提供的语义分类方法,还包括:将所述第二评论映射为第二原始向量;其中,使用所述共同表示提取器对所述第二评论进行处理,包括:使用所述共同表示提取器对所述第二原始向量进行处理;使用所述第二表示提取器对所述第二评论进行处理,包括:使用所述第二表示提取器对所述第二原始向量进行处理。
例如,在本公开一些实施例提供的语义分类方法中,将所述第二评论映射为所述第二原始向量,包括:使用词向量算法将所述第二评论中的每个字映射为具有指定长度的向量,以得到所述第二原始向量。
例如,在本公开一些实施例提供的语义分类方法中,所述第二表示提取器包括循环神经网络、长短期记忆网络和双向长短期记忆网络之一,所述第二语义分类器包括softmax分类器。
例如,在本公开一些实施例提供的语义分类方法中,所述第一评论和所述第二评论的语料来源包括文本和语音至少之一。
本公开至少一实施例还提供一种神经网络的训练方法,所述神经网络包括:生成网络、第一分支网络、第一分类网络、第二分支网络和第二分类网络;所述训练方法包括:语义分类训练阶段;其中,所述语义分类训练阶段包括:输入关于第一对象的第一训练评论,使用所述生成网络对所述第一训练评论进行处理,以提取第一训练共同表示向量,使用所述第一分支网络对所述第一训练评论进行处理,以提取第一训练单一表示向量,将所述第一训练共同表示向量与所述第一训练单一表示向量进行拼接,以得到第一训练表示向量,使用所述第一分类网络对所述第一训练表示向量进行处理,以得到所述第一训练评论的语义分类的预测类别标识;输入关于第二对象的第二训练评论,使用所述生成网络对所述第二训练评论进行处理,以提取第二训练共同表示向量,使用所述第二分支网络对所述第二训练评论进行处理,以提取第二训练单一表示向量,将所述第二训练共同表示向量与所述第二训练单一表示向量进行拼接,以得到第二训练表示向量,使用所述第二分类网络对所述第二训练表示向量进行处理,以得到所述第二训练评论的语义分类的预测类别标识;基于所述第一训练评论的预测类别标识和所述第二训练评论的预测类别标识,通过系统损失函数计算系统损失值;以及,根据所述系统损失值对所述生成网络、所述第一分支网络、所述第一分类网络、所述第二分支网络和所述第二分类网络的参数进行修正;其中,所述第一对象和所述第二对象为关联评论对象。
例如,在本公开一些实施例提供的训练方法中,所述语义分类训练阶段还包括:将所述第一训练评论映射为第一训练原始向量,将所述第二训练评论映射为第二训练原始向量;其中,使用所述生成网络对所述第一训练评论进行处理,包括:使用所述生成网络对所述第一训练原始向量进行处理;使用所述第一分支网络对所述第一训练评论进行处理,包括:使用所述第一分支网络对所述第一训练原始向量进行处理;使用所述生成网络对所述第二训练评论进行处理,包括:使用所述生成网络对所述第二训练原始向量进行处理;使用所述第二分支网络对所述第二训练评论进行处理,包括:使用所述第二分支网络对所述第二训练原始向量进行处理。
例如,在本公开一些实施例提供的训练方法中,将所述第一训练评论映射为所述第一训练原始向量,包括:使用词向量方法将所述第一训练评论中的每个字映射为具有指定长度的向量,以得到所述第一训练原始向量;将所述第二训练评论映射为所述第二训练原始向量,包括:使用所述词向量方法将所述第二训练评论中的每个字映射为具有所述指定长度的向量,以得到所述第二训练原始向量。
例如,在本公开一些实施例提供的训练方法中,所述生成网络、所述第一分支网络、所述第二分支网络均包括循环神经网络、长短期记忆网络和双向长短期记忆网络之一,所述第一分类网络、所述第二分类网络均包括softmax分类器。
例如,在本公开一些实施例提供的训练方法中,所述系统损失函数表示为:
Lobj=λ1·L(Y1,T1)+λ2·L(Y2,T2)
其中,Lobj表示系统损失函数,L(·,·)表示交叉熵损失函数,Y1表示所述第一训练评论的预测类别标识,T1表示所述第一训练评论的真实类别标识,L(Y1,T1)表示第一训练评论的交叉熵损失函数,λ1表示在所述系统损失函数中所述第一训练评论的交叉熵损失函数L(Y1,T1)的权重,Y2表示所述第二训练评论的预测类别标识,T1表示所述第二训练评论的真实类别标识,L(Y2,T2)表示第二训练评论的交叉熵损失函数,λ2表示在所述系统损失函数中所述第二训练评论的交叉熵损失函数L(Y2,T2)的权重;
所述交叉熵损失函数L(·,·)表示为:
其中,Y、T均为形式参数,N表示训练样本的数量,K表示语义分类的类别标识的数量,表示第i个训练样本的预测类别标识中第j个类别标识的概率值,表示所述第i个训练样本的真实类别标识中第j个类别标识的概率值。
例如,在本公开一些实施例提供的训练方法中,所述神经网络还包括判别网络;所述训练方法还包括:生成对抗训练阶段;以及交替地执行所述生成对抗训练阶段和所述语义分类训练阶段;其中,所述生成对抗训练阶段包括:基于所述生成网络,对所述判别网络进行训练;基于所述判别网络,对所述生成网络进行训练;以及交替地执行上述训练过程,以完成所述述生成对抗训练阶段的训练。
例如,在本公开一些实施例提供的训练方法中,基于所述生成网络,对所述判别网络进行训练,包括:输入关于所述第一对象的第三训练评论,使用所述生成网络对所述第三训练评论进行处理,以提取第三训练共同表示向量,使用所述判别网络对所述第三训练共同表示向量进行处理,以得到第三训练输出;输入关于所述第二对象的第四训练评论,使用所述生成网络对所述第四训练评论进行处理,以提取第四训练共同表示向量,使用所述判别网络对所述第四训练共同表示向量进行处理,以得到第四训练输出;基于所述第三训练输出和所述第四训练输出,通过判别网络对抗损失函数计算判别网络对抗损失值;根据所述判别网络对抗损失值对所述判别网络的参数进行修正。
例如,在本公开一些实施例提供的训练方法中,所述判别网络包括二分类的softmax分类器。
例如,在本公开一些实施例提供的训练方法中,所述判别网络对抗损失函数表示为:
其中,LD表示所述判别网络对抗损失函数,z1表示所述第三训练评论,Pdata(z1)表示所述第三训练评论的集合,G(z1)表示所述第三训练共同表示向量,D(G(z1))表示所述第三训练输出,表示针对所述第三训练评论的集合求期望,z2表示所述第四训练评论,Pdata(z2)表示所述第四训练评论的集合,G(z2)表示所述第四训练共同表示向量,D(G(z2))表示所述第四训练输出,表示针对所述第四训练评论的集合求期望。
例如,在本公开一些实施例提供的训练方法中,基于所述判别网络,对所述生成网络进行训练,包括:输入关于所述第一对象的第五训练评论,使用所述生成网络对所述第五训练评论进行处理,以提取第五训练共同表示向量,使用所述判别网络对所述第五训练共同表示向量进行处理,以得到第五训练输出;输入关于所述第二对象的第六训练评论,使用所述生成网络对所述第六训练评论进行处理,以提取第六训练共同表示向量,使用所述判别网络对所述第六训练共同表示向量进行处理,以得到第六训练输出;基于所述第五训练输出和所述第六训练输出,通过生成网络对抗损失函数计算生成网络对抗损失值;根据所述生成网络对抗损失值对所述生成网络的参数进行修正。
例如,在本公开一些实施例提供的训练方法中,所述生成网络对抗损失函数可以表示为:
其中,LG表示所述生成网络对抗损失函数,z3表示所述第五训练评论,Pdata(z3)表示所述第五训练评论的集合,G(z3)表示所述第五训练共同表示向量,D(G(z3))表示所述第五训练输出,表示针对所述第五训练评论的集合求期望,z4表示所述第六训练评论,Pdata(z4)表示所述第六训练评论的集合,G(z4)表示所述第六训练共同表示向量,D(G(z4))表示所述第六训练输出,表示针对所述第六训练评论的集合求期望。
本公开至少一实施例还提供一种语义分类装置,包括:存储器,用于存储非暂时性计算机可读指令;以及处理器,用于运行所述计算机可读指令。所述计算机可读指令被所述处理器运行时执行本公开任一实施例提供的语义分类方法,或执行本公开任一实施例提供的训练方法。
本公开至少一实施例还提供一种存储介质,非暂时性地存储计算机可读指令,当所述非暂时性计算机可读指令由计算机执行时可以执行本公开任一实施例提供的语义分类方法的指令,或可以执行本公开任一实施例提供的训练方法的指令。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例的附图作简单地介绍,显而易见地,下面描述中的附图仅仅涉及本公开的一些实施例,而非对本公开的限制。
图1为本公开至少一实施例提供的一种语义分类方法的流程图;
图2为图1所示的语义分类方法的示例性流程框图;
图3为本公开至少一实施例提供的另一种语义分类方法的流程图;
图4为图3所示的语义分类方法的示例性流程框图;
图5为本公开至少一实施例提供的一种神经网络的示意性架构框图;
图6为本公开至少一实施例提供的一种神经网络的训练方法的流程图;
图7为本公开至少一实施例提供的一种对应于图6所示的训练方法的生成对抗训练阶段中判别网络的示意性训练架构框图;
图8为本公开至少一实施例提供的一种训练判别网络的过程的示意性流程图;
图9为本公开至少一实施例提供的一种对应于图6所示的训练方法的生成对抗训练阶段中生成网络的示意性训练架构框图;
图10为本公开至少一实施例提供的一种训练生成网络的过程的示意性流程图;
图11为本公开至少一实施例提供的一种对应于图6所示的训练方法的语义分类训练阶段的示意性训练架构框图;
图12为本公开至少一实施例提供的一种训练方法中的语义分类训练阶段的训练过程的示意性流程图;
图13为本公开至少一实施例提供的一种语义分类装置的示意性框图;以及
图14为本公开至少一实施例提供的一种存储介质的示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例的附图,对本公开实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。基于所描述的本公开的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
除非另外定义,本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
下面通过几个具体的实施例对本公开进行说明。为了保持本公开实施例的以下说明清楚且简明,本公开省略了已知功能和已知部件的详细说明。当本公开实施例的任一部件在一个以上的附图中出现时,该部件在每个附图中由相同或类似的参考标号表示。
例如,随着互联网的发展,人们对健康日益关注,医疗论坛广泛兴起。在医疗论坛中,人们参与自己感兴趣的话题,并与其他论坛成员进行讨论和交流。因此医疗论坛上存在大量用户生成的主观性文本,例如用户依据自己的就诊经历,在医疗论坛上发表关于医院、医生或者药品治疗等评论。对医疗论坛中的用户评论进行分析具有广泛的应用场景。对于用户来说,在对健康医疗有所需求时,可以从医疗论坛上面查询相关评论信息,例如从其他患者的评论中了解治疗方面的心得体会以及对治疗过程中的医院、医生和药品的态度倾向,然后依据这些信息来做出治疗决策。对于医院和医生来说也可以从患者反馈的信息中受益,例如医院可以根据这些评论来改善服务质量、环境紧张的医患关系、提高知名度。
以关于医院和医生的评论为例,用户的评语根据其适用的评论对象可以划分为:仅用于评价医院的评语,例如“科室齐全”之类的评语;仅用于评价医生的评语,例如“医术精湛”之类的评语;以及,既可以用于评价医院又可以用于评价医生的评语,例如“服务周到”之类的评语。在本公开中,可以用于评价不同的评论对象的评语,称为共同表示;仅用于评价单一的评论对象的评语,称为单一表示。
关于医院和医生的评论可以根据其评论内容进行语义分类,例如可以划分为好评、中评、差评等。对关于医院和医生的评论进行语义分类时,如果能提取评论中的共同表示和单一表示,以基于更多有效的信息进行语义分类,将有助于提高评论分析的客观性和准确率。
需要说明的是,在本公开中,定义医院和医生这两个评论对象互为关联评论对象,即医院为医生的关联评论对象,医生为医院的关联评论对象;类似地,其他互为关联评论对象的情况还可以包括学校和老师、外卖平台和外卖商家、等。例如,两个关联评论对象之间可能存在某种相互依存的关系,但不限于此,例如,一个评论对象为另一个评论对象的组成部分(例如雇员)、服务商或供应商(例如外卖服务)等;又例如,两个关联评论对象之一的评论的好坏可能可以在一定程度上反映两个关联评论对象另一的评论的好坏。
本公开至少一实施例提供一种语义分类方法。该语义分类方法包括:输入关于第一对象的第一评论;使用共同表示提取器对第一评论进行处理,以提取用于表征第一评论中的共同表示的第一共同表示向量;使用第一表示提取器对第一评论进行处理,以提取用于表征第一评论中的单一表示的第一单一表示向量;将第一共同表示向量和第一单一表示向量进行拼接,以得到第一表示向量;以及使用第一语义分类器对第一表示向量进行处理,以得到第一评论的语义分类;其中,共同表示包括既用于评论第一对象又用于评论第二对象的意思表示,第二对象为与第一对象不同的关联评论对象,第一评论的单一表示包括仅用于评论第一对象的意思表示。
本公开的一些实施例还提供对应于上述语义分类方法的语义分类装置、神经网络的训练方法及存储介质。
本公开至少一实施例提供的语义分类方法,可以提取关于第一对象的第一评论中的共同表示和单一表示,并基于共同表示和单一表示对该第一评论进行语义分类,有助于提高评论分析的客观性和准确率。
下面结合附图对本公开的一些实施例及其示例进行详细说明。
图1为本公开至少一实施例提供的一种语义分类方法的流程图,图2为图1所示的语义分类方法的示例性流程框图。
例如,如图1所示,该语义分类方法包括步骤S110至步骤S150。以下结合图2,对图1所示的语义分类方法进行详细说明。
步骤S110:输入关于第一对象的第一评论。
例如,在步骤S110中,第一对象可以为任意一种评论对象,例如医院、医生、学校、老师、外卖平台、外卖商家等,本公开的实施例对此不作限制。例如,第一评论可以来源于与第一对象有关的论坛等。
例如,第一评论的语料来源可以包括文本、语音、图片(例如表情图标)等,例如语音、图片等可以通过人工方式或者人工智能方式转换为文本。
例如,第一评论的语言可以包括汉语、英语、日语、德语、韩语等,本公开的实施例对此不作限制。例如,在一些示例中,该语义分类方法可以处理一种或多种预先确定的语言,对于其他语言(不属于该一种或多种预先确定的语言)的第一评论,可以经过翻译(例如,翻译成预先确定的语言)后再进行处理。
例如,在一些示例中,如图2所示,输入关于第一对象的第一评论,即步骤S110可以包括:将第一评论映射为第一原始向量P1。从而,在后续步骤中对第一评论进行处理就是对第一原始向量P1进行处理。例如,可以采用词向量算法(例如,深度神经网络、word2vec程序等)将第一评论中的每个字映射为指定长度的向量,从而第一原始向量P1包括第一评论中的全部字经过映射得到的全部向量。例如,每个字对应的向量的长度相同。需要说明的是,在本公开的实施例中,向量的长度是指该向量包括的元素的数目。
例如,以一条包括n个字(x1,x2,…,xn)的第一评论为例,可以采用词向量算法将该第一评论中的n个字分别映射为向量Vx1、Vx2、…、Vxn,由此得到第一原始向量P1(Vx1,Vx2,…,Vxn),其中,Vx1、Vx2、…、Vxn具有相同的长度。需要说明的是,从数学角度而言,第一原始向量具有矩阵形式。
步骤S120:使用共同表示提取器对第一评论进行处理,以提取用于表征第一评论中的共同表示的第一共同表示向量。
例如,在步骤S120中,共同表示提取器可以采用基于时间序列上样本关系的模型,例如,包括但不限于,循环神经网络(Recurrent Neural Network,RNN)、长短期记忆网络(Long Short Term Memory,LSTM)、双向长短期记忆网络(Bi-directional Long ShortTerm Memory,Bi-LSTM)等。
例如,在一些示例中,如图2所示,在将第一评论映射为第一原始向量P1后,使用共同表示提取器EE0对该第一原始向量P1进行处理,以提取第一共同表示向量P01。例如,以共同表示提取器EE0采用LSTM模型为例,LSTM包括依次连接的多个处理单元(cell),将第一原始向量P1(Vx1,Vx2,…,Vxn)中的n个向量Vx1、Vx2、…、Vxn分别作为LSTM的前n个处理单元的输入,LSTM的第n个处理单元的输出即为第一共同表示向量P01。需要说明的是,这里LSTM包括的处理单元的数目大于或等于其处理的最长的第一评论的字数。
例如,共同表示包括既用于评论第一对象又用于评论第二对象的意思表示共同表示,其中,第二对象为与第一对象不同的关联评论对象。例如,在一些示例中,以第一对象为医院、第二对象为医生为例,在此情况下,共同表示包括“服务周到”、“干净”之类的既可以用于评价医院又可以用于评价医生的评语,又或者是不参考上下文就不能用于区分是用于评价医院还是用于评价医生的评语。
例如,共同表示提取器EE0可以经过后续将要介绍的训练方法训练得到,从而可以实现提取第一评论以及第二评论中的共同表示的功能,需要说明的是,本公开的实施例包括但不限于此。
步骤S130:使用第一表示提取器对第一评论进行处理,以提取用于表征第一评论中的单一表示的第一单一表示向量。
例如,在步骤S130中,第一表示提取器也可以采用基于时间序列上样本关系的模型,例如,循环神经网络(RNN)、长短期记忆网络(LSTM)、双向长短期记忆网络(Bi-LSTM)等。例如,第一表示提取器可以采用与共同表示提取器同一种类的模型。
例如,在一些示例中,如图2所示,在将第一评论映射为第一原始向量P1后,使用第一表示提取器EE1对该第一原始向量P1进行处理,以提取第一单一表示向量P11。例如,第一表示提取器EE1对第一原始向量P1进行处理的过程可以参考共同表示提取器EE0对第一原始向量P1进行处理的过程,在此不再赘述。
例如,第一评论中的单一表示包括仅用于评论第一对象的意思表示,也就是说,该意思表示不用于评论第二对象(即与第一对象不同的关联评论对象)。例如,在一些示例中,以第一对象为医院、第二对象为医生为例,在此情况下,第一评论中的单一表示包括“科室齐全”、“设备先进”之类的仅能用于评价医院而不能用于评价医生的评语。
需要说明的是,在本公开的实施例中,第一单一表示向量P11包括第一评论中的单一表示的信息;除此之外,第一单一表示向量P11还可以包括(当然,或者也可以不包括)第一评论中的共同表示的信息;需要说明的是,本公开的实施例对此不作限制。
例如,第一表示提取器EE1可以经过后续将要介绍的训练方法训练得到,从而可以实现提取第一评论中的单一表示的功能,需要说明的是,本公开的实施例包括但不限于此。
步骤S140:将第一共同表示向量和第一单一表示向量进行拼接,以得到第一表示向量。
例如,如图2所示,将第一共同表示向量P01和第一单一表示向量P11进行拼接,以得到第一表示向量P10。假设第一共同表示向量P01包括s个元素(a1,a2,…,as),第一单一表示向量P11包括t个元素(b1,b2,…,bt),则将第一共同表示向量P01和第一单一表示向量P11进行拼接,就是将该s+t个元素按照预定顺序拼接。例如,可以拼接为(a1,…,as,b1,…,bt)或(b1,…,bt,a1,…,as)等形式,以得到第一表示向量P10。需要说明的是,本公开的实施例对第一表示向量P10中的各个元素的排列顺序不作限制,只要第一表示向量P10包括第一共同表示向量P01和第一单一表示向量P11中的全部元素即可。
步骤S150:使用第一语义分类器对第一表示向量进行处理,以得到第一评论的语义分类。
例如,如图2所示,使用第一语义分类器CC1对第一表示向量P10进行处理,以得到第一评论的语义分类。例如,第一语义分类器CC1可以包括softmax分类器,该softmax分类器例如包括全连接层。例如,第一表示向量经过全连接层处理后,得到一个K维(即包括K个元素,对应K个类别标识)向量z,向量z中的元素可以为任意实数;softmax分类器可以将K维向量z压缩成K维向量σ(z)。softmax分类器的公式如下:
其中,Zj表示K维向量z中第j个元素,σ(z)表示每个类别标识(label)的预测概率,σ(z)为实数,且其范围为(0,1),K维向量σ(z)的和为1。根据以上公式,K维向量z中的每个类别标识均被赋予一定的预测概率,而具有最大预测概率的类别标识被选择作为语义分类的类别标识。
应当理解的是,语义分类的类别标识的种类数量即为K,例如K为大于或等于2的整数。例如,在一些示例中,K=3,从而第一评论可以划分为例如好评、中评、差评,需要说明的是,本公开的实施例包括但不限于此。
例如,第一语义分类器CC1可以经过后续将要介绍的训练方法训练得到,从而可以实现上述语义分类的功能,需要说明的是,本公开的实施例包括但不限于此。
图3为本公开至少一实施例提供的另一种语义分类方法的流程图,图4为图3所示的语义分类方法的示例性流程框图。
例如,如图3所示,在图1所示的语义分类方法的基础上,图3所示的语义分类方法还包括步骤S160至步骤S200。需要说明的是,图3所示的语义分类方法中的步骤S160至步骤S200中的操作与步骤S110至步骤S150中的操作基本类似,其不同之处主要在于:步骤S110至步骤S150用于对关于第一对象的第一评论进行语义分类处理,而步骤S160至步骤S200用于对关于第二对象的第二评论进行语义分类处理,其中,第一对象和第二对象互为关联评论对象。因此,步骤S160至步骤S200的细节可以对应参考步骤S110至步骤S150的相关描述。
以下结合图4,对图3所示的语义分类方法的步骤S160至步骤S200进行详细说明。
步骤S160:输入关于第二对象的第二评论。
例如,在步骤S160中,第二对象为与第一对象不同的关联评论对象。例如,当第一对象为医院时,第二对象可以为医生或者药物等与医院关联的评论对象;或者,当第一对象为医生时,第二对象可以为医院或者药物等与医生关联的评论对象。需要说明的是,本公开的实施例包括但不限于此,例如,第一对象和第二对象之一还可以为学校、外卖平台等,相应地,第一对象和第二对象另一还可以为老师、外卖商家等;也就是说,只要第一对象和第二对象互为关联评论对象即可。例如,第二评论可以来源于与第二对象有关的论坛等。例如,在一些示例中,第一评论和第二评论可以来源于同一个论坛等。
例如,与第一评论相似,第二评论的语料来源也可以包括文本、语音、图片等,例如语音、图片等可以通过人工方式或者人工智能方式转换为文本。例如,第二评论的语言可以包括汉语、英语、日语、德语、韩语等,本公开的实施例对此不作限制。例如,在一些示例中,该语义分类方法可以处理一种或多种预先确定的语言,对于其他语言(不属于该一种或多种预先确定的语言)的第二评论,可以经过翻译(例如,翻译成预先确定的语言)后再进行处理。
例如,在一些示例中,如图4所示,输入关于第一对象的第一评论,即步骤S160可以包括:将第二评论映射为第二原始向量P2。从而,在后续步骤中对第二评论进行处理就是对第二原始向量P2进行处理。例如,可以采用词向量算法(例如,深度神经网络、word2vec程序等)将第二评论中的每个字映射为指定长度的向量,从而第二原始向量P2包括第二评论中的全部字经过映射得到的全部向量。例如,第二评论中的每个字对应的向量的长度与第一评论中的每个字对应的向量的长度相同。
步骤S170:使用共同表示提取器对第二评论进行处理,以提取用于表征第二评论中的共同表示的第二共同表示向量。
例如,如图4所示,步骤S120中采用的共同表示提取器EE0还可以用于步骤S170,即共同表示提取器EE0还可以对第二评论进行处理,以提取用于表征第二评论中的共同表示的第二共同表示向量P02。
例如,在一些示例中,如图4所示,在将第二评论映射为第二原始向量P2后,使用共同表示提取器EE0对该第二原始向量P2进行处理,以提取第二共同表示向量P02。例如,共同表示提取器EE0对第二原始向量P2进行处理的过程可以参考共同表示提取器EE0对第一原始向量P1进行处理的过程,在此不再赘述。需要说明的是,以共同表示提取器EE0采用LSTM模型为例,该LSTM包括的处理单元的数目还大于或等于其处理的最长的第二评论的字数。
步骤S180:使用第二表示提取器对第二评论进行处理,以提取用于表征第二评论中的单一表示的第二单一表示向量。
例如,在步骤S180中,第二表示提取器也可以采用基于时间序列上样本关系的模型,例如,循环神经网络(RNN)、长短期记忆网络(LSTM)、双向长短期记忆网络(Bi-LSTM)等。例如,第二表示提取器也可以采用与共同表示提取器同一种类的模型。
例如,在一些示例中,如图4所示,在将第二评论映射为第二原始向量P2后,使用第二表示提取器EE2对该第二原始向量P2进行处理,以提取第二单一表示向量P22。例如,第二表示提取器EE2对第二原始向量P2进行处理的过程可以参考共同表示提取器EE0对第一原始向量P1进行处理的过程,在此不再赘述。
例如,第二评论中的单一表示包括仅用于评论第二对象的意思表示,也就是说,该意思表示不用于评论第一对象(即与第二对象不同的关联评论对象)。例如,在一些示例中,以第一对象为医院、第二对象为医生为例,在此情况下,第二评论中的单一表示包括“医术精湛”、“语气和蔼”之类的仅能用于评价医生而不能用于评价医院的评语。
需要说明的是,在本公开的实施例中,第二单一表示向量P22包括第二评论中的单一表示的信息;除此之外,第二单一表示向量P22还可以包括(当然也可以不包括)第二评论中的共同表示的信息;需要说明的是,本公开的实施例对此不作限制。
例如,第二表示提取器EE2可以经过后续将要介绍的训练方法训练得到,从而可以实现提取第二评论中的单一表示的功能,需要说明的是,本公开的实施例包括但不限于此。
步骤S190:将第二共同表示向量和第二单一表示向量进行拼接,以得到第二表示向量。
例如,如图4所示,将第二共同表示向量P02和第二单一表示向量P22进行拼接,以得到第二表示向量P20。例如,步骤S190中的拼接过程和细节可以参考步骤S140中的拼接过程和细节,在此不再重复赘述。
步骤S200:使用第二语义分类器对第二表示向量进行处理,以得到第二评论的语义分类。
例如,如图4所示,使用第二语义分类器CC2对第二表示向量P20进行处理,以得到第二评论的语义分类。例如,第二语义分类器CC2也可以包括softmax分类器,该softmax分类器例如包括全连接层;例如,第二语义分类器CC2的处理过程和细节可以参考第一语义分类器CC1的处理过程和细节,在此不再重复赘述。
需要说明的是,在本公开的实施例中,共同表示提取器EE0、第一表示提取器EE1和第二表示提取器EE2执行相似的功能,三者可以具有相同或相似的构造,但是三者包括的参数可以不同。同样地,第一语义分类器CC1和第二语义分类器CC2执行相似的功能,二者可以具有相同或相似的构造,但是二者包括的参数可以不同。还需要说明的是,在本公开的实施例中,共同表示提取器EE0、第一表示提取器EE1、第二表示提取器EE2、第一语义分类器CC1和第二语义分类器CC2等均可以采用软件、硬件、固件或其任意组合等方式实现,从而可以分别执行相应的处理过程。
需要说明的是,本公开的实施例中,上述语义分类方法的流程可以包括更多或更少的操作(例如,在图3所示的语义分类方法中,可以仅执行步骤S110至步骤S150的操作,也可以仅执行步骤S160至步骤S200的操作),这些操作可以顺序执行或并行执行(例如,步骤S120和步骤S130可以并行执行,也可以按任意顺序依次执行)。虽然上文描述的图像显示处理方法的流程包括特定顺序出现的多个操作,但是应该清楚地了解,多个操作的顺序并不受限制。上文描述的语义分类方法可以执行一次,也可以按照预定条件执行多次。
需要说明的是,在本公开的一些示例中,将第一评论/第二评论映射为第一原始向量/第二原始向量时,可以先将第一评论/第二评论中的与语义分类无关的字词(例如,停用词(stop words)等)过滤掉,然后再将第一评论/第二评论中剩下的与语义分类相关的字词映射为第一原始向量/第二原始向量。在本公开的另一些示例中,通过特定的训练方法训练得到的共同表示提取器EE0、第一表示提取器EE1和第二表示提取器EE2在提取意思表示时可以过滤掉与语义分类无关的字词。需要说明的是,本公开的实施例对此不作限制。
本公开的实施例提供的语义分类方法,可以提取关于第一对象的第一评论中的共同表示和单一表示,并基于共同表示和单一表示对该第一评论进行语义分类,有助于提高评论分析的客观性和准确率。
本公开至少一实施例还提供一种神经网络的训练方法。图5为本公开至少一实施例提供的一种神经网络的示意性架构框图,图6为本公开至少一实施例提供的一种神经网络的训练方法的流程图。
例如,如图5所示,该神经网络包括生成网络G、判别网络D、第一分支网络SN1、第一分类网络CN1、第二分支网络SN2和第二分支网络CN2。例如,如图6所示,该训练方法包括:生成对抗训练阶段S300和语义分类训练阶段S400,以及交替地进行这两个阶段的训练,以得到训练好的神经网络。例如,该神经网络经过训练后,其中的生成网络G、第一分支网络SN1、第一分类器CN1、第二分支网络SN2和第二分类器CN2可以分别用于实现前述语义分类方法中的共同表示提取器EE0、第一表示提取器EE1、第一语义分类器CC1、第二表示提取器EE2、第二语义分类器CC2的功能,由此可以执行前述语义分类方法。
例如,如图6所示,生成对抗训练阶段S300包括:
步骤S310:基于生成网络,对判别网络进行训练;
步骤S320:基于判别网络,对生成网络进行训练;以及,
交替地执行上述训练过程(即步骤S310和步骤S320),以完成生成对抗训练阶段S300的训练。
例如,生成网络G的构造可以与前述共同表示提取器EE0的构造相同,生成网络G的构造细节及工作原理可以参考前述共同表示提取器EE0的相关描述,在此不再赘述。例如,如图5所示,生成网络G既用于处理关于第一对象的评论,又用于处理关于第二对象的评论,以提取评论中的意思表示,其中,第一对象和第二对象互为关联评论对象。
例如,判别网络D可以采用二分类的softmax分类器,例如,该二分类的softmax分类器可以参考前述关于softmax分类器(令K=2即可)的相关描述,在此不再重复赘述。例如,如图5所示,判别网络D用于判断生成网络G提取的意思表示是用于评论第一对象还是第二对象。
图7为本公开至少一实施例提供的一种对应于图6所示的训练方法的生成对抗训练阶段中判别网络的示意性训练架构框图,图8为本公开至少一实施例提供的一种训练判别网络的过程的示意性流程图。
例如,结合图7和图8所示,基于生成网络,对判别网络进行训练,即步骤S310,包括步骤S311至步骤S314,如下所示:
步骤S311:输入关于第一对象的第三训练评论,使用生成网络对第三训练评论进行处理,以提取第三训练共同表示向量,使用判别网络对第三训练共同表示向量进行处理,以得到第三训练输出;
步骤S312:输入关于第二对象的第四训练评论,使用生成网络对第四训练评论进行处理,以提取第四训练共同表示向量,使用判别网络对第四训练共同表示向量进行处理,以得到第四训练输出;
步骤S313:基于第三训练输出和第四训练输出,通过判别网络对抗损失函数计算判别网络对抗损失值;
步骤S314:根据判别网络对抗损失值对判别网络的参数进行修正。
例如,基于生成网络,对判别网络进行训练,即步骤S310还可以包括:判断判别网络的训练是否满足预定条件,若不满足预定条件,则重复执行上述判别网络的训练过程;若满足预定条件,则停止本阶段的判别网络的训练过程,得到本阶段训练好的判别网络。例如,在一些示例中,上述预定条件为连续两对评论(例如,在训练判别网络的过程中,每一对评论包括一个第三训练评论和一个第四训练评论)对应的判别网络对抗损失值不再显著减小。例如,在另一些示例中,上述预定条件为判别网络的训练次数或训练周期达到预定数目。本公开的实施例对此不作限制。
例如,如图7所示,在判别网络D的训练过程中,需要联合生成网络G进行训练。需要说明的是,在判别网络D的训练过程中,生成网络G的参数保持不变。
需要说明的是,上述示例仅是示意性说明判别网络的训练过程。本领域技术人员应当知道,在训练阶段,需要利用大量样本评论(即关于第一对象的评论和关于第二对象的评论)对神经网络进行训练;同时,在针对每一对样本评论的训练过程中,都可以包括多次反复迭代以对判别网络的参数进行修正。又例如,判别网络的训练过程还包括对判别网络的参数进行微调(fine-tune),以获取更优化的参数。
例如,判别网络D的初始参数可以为随机数,例如随机数符合高斯分布。例如,判别网络D的初始参数也可以采用本领域常用的数据库中已训练好的参数。本公开的实施例对此不作限制。
例如,判别网络D的训练过程中还可以包括优化函数(图7中未示出),优化函数可以根据判别网络对抗损失函数计算得到的判别网络对抗损失值计算判别网络D的参数的误差值,并根据该误差值对判别网络D的参数进行修正。例如,优化函数可以采用随机梯度下降(stochastic gradient descent,SGD)算法、批量梯度下降(batch gradient descent,BGD)算法等计算判别网络D的参数的误差值。
例如,第三训练评论来源于第一对象的评论样本集;例如,第一对象的评论样本集中的每一条评论都已经提前进行了语义分类(例如,通过人工等方式进行了语义分类),具有确定的语义分类的类别标识;例如,第一对象的评论样本集中的语义分类的类别标识包括好评、中评和差评,本公开的实施例包括但不限于此。例如,第四训练评论来源于第二对象的评论样本集;例如,第二对象的评论样本集中的每一条评论都已经提前进行了语义分类(例如,通过人工等方式进行了语义分类),具有确定的语义分类的类别标识;例如,第二对象的评论样本集中的语义分类的类别标识包括好评、中评和差评,本公开的实施例包括但不限于此。
例如,在一些示例中,可以采用词向量算法分别将第三训练评论和第四训练评论映射为原始向量,由生成网络G对第三训练评论和第四训练评论对应的原始向量分别进行处理,生成网络G的处理过程和细节可以参考前述共同表示提取器EE0的处理过程和细节,在此不再重复赘述。
例如,在一些示例中,判别网络对抗损失函数可以表示为:
其中,LD表示判别网络对抗损失函数,z1表示第三训练评论,Pdata(z1)表示第三训练评论的集合,G(z1)表示第三训练共同表示向量,D(G(z1))表示第三训练输出,表示针对第三训练评论的集合求期望,z2表示第四训练评论,Pdata(z2)表示第四训练评论的集合,G(z2)表示第四训练共同表示向量,D(G(z2))表示第四训练输出,表示针对第四训练评论的集合求期望。由此,例如可以采用批量梯度下降算法对判别网络D进行参数优化。
需要说明的是,上述公式表示的判别网络对抗损失函数是示例性的,本公开的实施例包括但不限于此。
判别网络D的训练目标是最小化判别网络对抗损失值。例如,在判别网络D的训练过程中,第三训练评论的对象标签设置为1,即需要使判别网络D鉴别认定第三训练共同表示向量来源于关于第一对象的评论;同时,第四训练评论的对象标签设置为0,即需要使判别网络D鉴别认定第四训练共同表示向量来源于关于第二对象的评论。也就是说,判别网络D的训练目标是使判别网络D能够准确判断生成网络G提取的意思表示的真实来源(即来源于关于第一对象的评论还是关于第二对象的评论),也即,使判别网络D能够准确判断生成网络G提取的意思表示是用于评论第一对象还是第二对象。
例如,在判别网络D的训练过程中,判别网络D的参数被不断地修正,以使经过参数修正后的判别网络D能够准确鉴别第三训练共同表示向量和第四训练共同表示向量的来源,也就是,使第三训练评论对应的判别网络D的输出不断趋近于1,以及使二训练评论对应的判别网络D的输出不断趋近于0,从而不断地减小生成网络对抗损失值。
图9为本公开至少一实施例提供的一种对应于图6所示的训练方法的生成对抗训练阶段中生成网络的示意性训练架构框图;图10为本公开至少一实施例提供的一种训练生成网络的过程的示意性流程图。
例如,结合图9和图10所示,基于判别网络,对生成网络进行训练,即步骤S320,包括步骤S321至步骤S324,如下所示:
步骤S321:输入关于第一对象的第五训练评论,使用生成网络对第五训练评论进行处理,以提取第五训练共同表示向量,使用判别网络对第五训练共同表示向量进行处理,以得到第五训练输出;
步骤S322:输入关于第二对象的第六训练评论,使用生成网络对第六训练评论进行处理,以提取第六训练共同表示向量,使用判别网络对第六训练共同表示向量进行处理,以得到第六训练输出;
步骤S323:基于第五训练输出和第六训练输出,通过生成网络对抗损失函数计算生成网络对抗损失值;
步骤S324:根据生成网络对抗损失值对生成网络的参数进行修正。
例如,基于判别网络,对生成网络进行训练,即步骤S320还可以包括:判断生成网络的训练是否满足预定条件,若不满足预定条件,则重复执行上述生成网络的训练过程;若满足预定条件,则停止本阶段的生成网络的训练过程,得到本阶段训练好的生成网络。例如,在一些示例中,上述预定条件为连续两对评论(例如,在训练生成网络的过程中,每一对评论包括一个第五训练评论和一个第六训练评论)对应的判别网络对抗损失值不再显著减小。例如,在另一些示例中,上述预定条件为生成网络的训练次数或训练周期达到预定数目。本公开的实施例对此不作限制。
例如,如图9所示,在生成网络G的训练过程中,需要联合判别网络D进行训练。需要说明的是,在生成网络G的训练过程中,判别网络D的参数保持不变。
需要说明的是,上述示例仅是示意性说明生成网络的训练过程。本领域技术人员应当知道,在训练阶段,需要利用大量样本评论(即关于第一对象的评论和关于第二对象的评论)对神经网络进行训练;同时,在针对每一对样本评论的训练过程中,都可以包括多次反复迭代以对生成网络的参数进行修正。又例如,生成网络的训练过程还包括对生成网络的参数进行微调(fine-tune),以获取更优化的参数。
例如,生成网络G的初始参数可以为随机数,例如随机数符合高斯分布。例如,生成网络G的初始参数也可以采用本领域常用的数据库中已训练好的参数。本公开的实施例对此不作限制。
例如,生成网络G的训练过程中还可以包括优化函数(图7中未示出),优化函数可以根据生成网络对抗损失函数计算得到的生成网络对抗损失值计算生成网络G的参数的误差值,并根据该误差值对生成网络G的参数进行修正。例如,优化函数可以采用随机梯度下降(stochastic gradient descent,SGD)算法、批量梯度下降(batch gradient descent,BGD)算法等计算生成网络G的参数的误差值。
例如,与第三训练评论类似,第五训练评论来也源于第一对象的评论样本集,本公开的实施例包括但不限于此。例如,与第四训练评论类似,第六训练评论也来源于第二对象的评论样本集,本公开的实施例包括但不限于此。
例如,在一些示例中,生成网络对抗损失函数可以表示为:
其中,LG表示生成网络对抗损失函数,z3表示第五训练评论,Pdata(z3)表示第五训练评论的集合,G(z3)表示第五训练共同表示向量,D(G(z3))表示第五训练输出,表示针对第五训练评论的集合求期望,z4表示第六训练评论,Pdata(z4)表示第六训练评论的集合,G(z4)表示第六训练共同表示向量,D(G(z4))表示第六训练输出,表示针对第六训练评论的集合求期望。由此,例如可以采用批量梯度下降算法对生成网络G进行参数优化。
需要说明的是,上述公式表示的判别网络对抗损失函数是示例性的,本公开的实施例包括但不限于此。
生成网络G的训练目标是最小化生成网络对抗损失值。例如,在生成网络G的训练过程中,第五训练评论的对象标签设置为0,即需要使判别网络D鉴别认定第五训练共同表示向量来源于关于第二对象的评论;同时,第六训练评论的对象标签设置为1,即需要使判别网络D鉴别认定第六训练共同表示向量来源于关于第一对象的评论。也就是说,生成网络G的训练目标是使判别网络D无法准确判断生成网络G提取的意思表示的真实来源(即来源于关于第一对象的评论还是关于第二对象的评论),也即使判别网络D无法判断生成网络G提取的意思表示是用于评论第一对象还是第二对象。例如,当生成网络G提取的意思表示为关于第一对象的评论和关于第二对象的评论的共同表示时,判别网络D无法判断生成网络G提取的意思表示的真实来源。
例如,在生成网络G的训练过程中,生成网络G的参数被不断地修正,以使经过参数修正后的生成网络G提取的意思表示为关于第一对象的评论和关于第二对象的评论的共同表示,从而判别网络D无法准确鉴别第五训练共同表示向量和第六训练共同表示向量的来源,也就是,使第五训练评论对应的判别网络D的输出不断远离于1(即不断靠近于0),以及使四训练评论对应的判别网络D的输出不断远离于0(即不断靠近于1),从而不断地减小生成网络对抗损失值。
例如,在本公开的实施例中,生成网络G的训练和判别网络D的训练是交替迭代进行的。例如,对于未经训练的生成网络G和判别网络D,一般先对判别网络D进行第一阶段训练,提高判别网络D的鉴别能力(即,鉴别判别网络D的输入的真实来源),得到经过第一阶段训练的判别网络D;然后,基于经过第一阶段训练的判别网络D对生成网络G进行第一阶段训练,提高生成网络G的提取关于第一对象的评论和关于第二对象的评论的共同表示的能力,得到经过第一阶段训练的生成网络G。与第一阶段训练类似,在第二阶段训练中,基于经过第一阶段训练的生成网络G,对经过第一阶段训练的判别网络D进行第二阶段训练,提高判别网络D的鉴别能力,得到经过第二阶段训练的判别网络D;然后,基于经过第二阶段训练的判别网络D对经过第一阶段训练的生成网络G进行第二阶段训练,提高生成网络G的提取关于第一对象的评论和关于第二对象的评论的共同表示的能力,得到经过第二阶段训练的生成网络G,依次类推,接下来对判别网络D和生成网络G进行第三阶段训练、第四阶段训练、……,直到得到的生成网络G的输出为关于第一对象的评论和关于第二对象的评论的共同表示,从而完成一个生成对抗训练阶段S300的训练。
需要说明的是,在生成对抗训练阶段300,即生成网络G和判别网络D的交替训练过程中,生成网络G和判别网络D的对抗体现在:关于第一对象的评论(即第三训练评论和第五训练评论)对应的生成网络G的输出在各自单独的训练过程中具有不同的对象标签(在判别网络D的训练过程中,第三训练评论的对象标签为1,在生成网络G的训练过程中,第五训练评论的对象标签为0),以及,关于第二对象的评论(即第四训练评论和第六训练评论)对应的生成网络G的输出在各自单独的训练过程中具有不同的对象标签(在判别网络D的训练过程中,第四训练评论的对象标签为0,在生成网络G的训练过程中,第六训练评论的对象标签为1)。另外,生成网络G和判别网络D的对抗还体现在判别网络对抗损失函数与生成网络对抗损失函数相反。还需要说明的是,理想情况下,经过训练得到的生成网络G提取的意思表示为关于第一对象的评论和关于第二对象的评论的共同表示(不论生成网络G的输入是关于第一对象的评论还是关于第二对象的评论),判别网络D针对该共同表示的输出均为0.5,即生成网络G和判别网络D经过对抗博弈达到纳什均衡。
例如,如图6所示,语义分类训练阶段S400包括:对生成网络、第一分支网络、第一分类网络、第二分支网络和第二分类网络进行训练。
例如,第一分支网络SN1的构造可以与前述第一表示提取器EE1的构造相同,第一分支网络SN1的构造细节及工作原理可以参考前述第一表示提取器EE1的相关描述,在此不再赘述。例如,如图5所示,第一分支网络SN1用于处理关于第一对象的评论,以提取该评论中的单一表示(是否提取该评论中的共同表示不作限制)。
例如,第二分支网络SN2的构造可以与前述第二表示提取器EE2的构造相同,第二分支网络SN2的构造细节及工作原理可以参考前述第二表示提取器EE2的相关描述,在此不再赘述。例如,如图5所示,第二分支网络SN2用于处理关于第二对象的评论,以提取该评论中的单一表示(是否提取该评论中的共同表示不作限制)。
例如,第一分类网络CN1、第二分类网络CN2的构造可以分别与前述第一语义分类器CC1、第二语义分类器CC2的构造相同,第一分类网络CN1、第二分类网络CN2的构造细节及工作原理可以参考前述第一语义分类器CC1、第二语义分类器CC2的相关描述,在此不再赘述。
图11为本公开至少一实施例提供的一种对应于图6所示的训练方法的语义分类训练阶段的示意性训练架构框图,图12为本公开至少一实施例提供的一种训练方法中的语义分类训练阶段的训练过程的示意性流程图。以下,结合图11和图12,对图6所示的语义分类训练阶段S400的训练过程进行详细说明。
例如,结合11和图12所示,语义分类训练阶段S400包括步骤S401至步骤S405。
步骤S401:输入关于第一对象的第一训练评论,使用生成网络对第一训练评论进行处理,以提取第一训练共同表示向量,使用第一分支网络对第一训练评论进行处理,以提取第一训练单一表示向量,将第一训练共同表示向量与第一训练单一表示向量进行拼接,以得到第一训练表示向量,使用第一分类网络对第一训练表示向量进行处理,以得到第一训练评论的语义分类的预测类别标识。
例如,与第三训练评论和第五训练评论类似,第一训练评论来也源于第一对象的评论样本集,本公开的实施例包括但不限于此。例如,第一训练评论具有确定的语义分类的类别标识T1(即真实类别标识),例如真实类别标识以向量的形式进行表示。例如,假设语义分类的类别标识的总数为K,则真实类别标识为一个K维向量;当该K维向量的第k个元素为1,其他元素为0时,该K维向量代表第k个真实类别标识,其中k为整数,且1≤k≤K。
例如,在一些示例中,如图11所示,输入关于第一对象的第一训练评论可以包括:将第一训练评论映射为第一训练原始向量TP1。从而,在后续操作中对第一训练评论进行处理就是对第一训练原始向量TP1进行处理。例如,可以采用词向量算法(例如,深度神经网、word2vec程序等)将第一训练评论中的每个字映射为指定长度的向量,从而第一训练原始向量P1包括第一训练评论中的全部字经过映射得到的全部向量。例如,每个字对应的向量的长度相同。
例如,步骤S401中的操作可以参考前述语义分类方法的步骤S110至步骤S150的相关描述,在此不再重复赘述。
例如,第一训练评论的预测类别标识为与其真实类别标识维度相同的向量,例如第一训练评论的预测类别标识可以被表示为前述向量σ(z)的形式,向量σ(z)中的各个元素代表各个类别标识的预测概率,例如具有最大预测概率的类别标识被选择作为语义分类的类别标识。
步骤S402:输入关于第二对象的第二训练评论,使用生成网络对第二训练评论进行处理,以提取第二训练共同表示向量,使用第二分支网络对第二训练评论进行处理,以提取第二训练单一表示向量,将第二训练共同表示向量与第二训练单一表示向量进行拼接,以得到第二训练表示向量,使用第二分类网络对第二训练表示向量进行处理,以得到第二训练评论的语义分类的预测类别标识。
例如,与第四训练评论和第六训练评论类似,第二训练评论来也源于第二对象的评论样本集,本公开的实施例包括但不限于此。例如,第二训练评论具有确定的语义分类的类别标识T2(即真实类别标识),例如第二训练评论的真实类别标识T2的表示形式可以参考第一训练评论的真实类别标识T1的表示形式,在此不再重复赘述。
例如,在一些示例中,如图11所示,输入关于第二对象的第二训练评论可以包括:将第二训练评论映射为第二训练原始向量TP2。从而,在后续操作中对第二训练评论进行处理就是对第二训练原始向量TP2进行处理。例如,可以采用词向量算法(例如,深度神经网、word2vec程序等)将第二训练评论中的每个字映射为指定长度的向量,从而第二训练原始向量TP2包括第二训练评论中的全部字经过映射得到的全部向量。例如,第二训练评论中的每个字对应的向量的长度与第一训练评论中的每个字对应的向量的长度相同。
例如,步骤S402中的操作可以参考前述语义分类方法的步骤S160至步骤S200的相关描述,在此不再重复赘述。
例如,第二训练评论的预测类别标识为与其真实类别标识维度相同的向量,例如第二训练评论的预测类别标识也可以被表示为前述向量σ(z)的形式,向量σ(z)中的各个元素代表各个类别标识的预测概率,例如具有最大预测概率的类别标识被选择作为语义分类的类别标识。
步骤S403:基于第一训练评论的预测类别标识和第二训练评论的预测类别标识,通过系统损失函数计算系统损失值;
例如,在一些示例中,系统损失函数可以表示为:
Lobj=λ1·L(Y1,T1)+λ2·L(Y2,T2)
其中,Lobj表示系统损失函数,L(·,·)表示交叉熵损失函数,Y1表示第一训练评论的预测类别标识,T1表示第一训练评论的真实类别标识,L(Y1,T1)表示第一训练评论的交叉熵损失函数,λ1表示在系统损失函数中第一训练评论的交叉熵损失函数L(Y1,T1)的权重,Y2表示第二训练评论的预测类别标识,T1表示第二训练评论的真实类别标识,L(Y2,T2)表示第二训练评论的交叉熵损失函数,λ2表示在系统损失函数中第二训练评论的交叉熵损失函数L(Y2,T2)的权重。
例如,交叉熵损失函数L(·,·)可以表示为:
其中,Y、T均为形式参数,N表示训练样本(例如,第一训练评论或第二训练评论)的数量,K表示语义分类的类别标识的数量,表示第i个训练样本的预测类别标识中第j个类别标识的概率值,表示所述第i个训练样本的真实类别标识中第j个类别标识的概率值。
语义分类训练阶段S400的训练目标是最小化系统损失值。例如,第一训练评论的交叉熵损失函数L(Y1,T1)的值越小,则表明第一训练样本的预测类别标识越接近于第一训练样本的真实类别标识,即第一训练样本的语义分类越准确;同样地,第二训练评论的交叉熵损失函数L(Y2,T2)的值越小,则表明第二训练样本的预测类别标识越接近于第二训练样本的真实类别标识,即第二训练样本的语义分类越准确。
步骤S404:根据系统损失值对生成网络、第一分支网络、第一分类网络、第二分支网络和第二分类网络的参数进行修正。
例如,第一分支网络SN1、第一分类网络CN1、第二分支网络SN2和第二分类网络CN2的初始参数可以为随机数,例如随机数符合高斯分布。例如,第一分支网络SN1、第一分类网络CN1、第二分支网络SN2和第二分类网络CN2的初始参数也可以采用本领域常用的数据库中已训练好的参数。本公开的实施例对此不作限制。
例如,语义分类训练阶段S400的训练过程中还可以包括优化函数(图11中未示出),优化函数可以根据系统损失函数计算得到的系统损失值计算生成网络G、第一分支网络SN1、第一分类网络CN1、第二分支网络SN2和第二分类网络CN2的参数的误差值,并根据该误差值对生成网络G、第一分支网络SN1、第一分类网络CN1、第二分支网络SN2和第二分类网络CN2的参数进行修正。例如,优化函数可以采用随机梯度下降(stochastic gradientdescent,SGD)算法、批量梯度下降(batch gradient descent,BGD)算法等计算生成网络G、第一分支网络SN1、第一分类网络CN1、第二分支网络SN2和第二分类网络CN2的参数的误差值。
例如,语义分类训练阶段S400还可以包括:判断生成网络、第一分支网络、第一分类网络、第二分支网络和第二分类网络的训练是否满足预定条件,若不满足预定条件,则重复执行上述语义分类训练阶段S400的训练过程;若满足预定条件,则停止当前的语义分类训练阶段S400的训练过程,得到当前阶段训练好的生成网络、第一分支网络、第一分类网络、第二分支网络和第二分类网络。例如,在一些示例中,上述预定条件为连续两对评论(例如,在语义分类训练阶段S400的训练过程中,每一对评论包括一个第一训练评论和一个第二训练评论)对应的系统损失值不再显著减小。例如,在另一些示例中,上述预定条件为语义分类训练阶段S400的训练次数或训练周期达到预定数目。本公开的实施例对此不作限制。
需要说明的是,上述示例仅是示意性说明语义分类训练阶段S400的训练过程。本领域技术人员应当知道,在训练阶段,需要利用大量样本评论(即关于第一对象的评论和关于第二对象的评论)对神经网络进行训练;同时,在针对每一对样本评论的训练过程中,都可以包括多次反复迭代以对生成网络的参数进行修正。又例如,语义分类训练阶段S400的训练过程还包括对生成网络、第一分支网络、第一分类网络、第二分支网络和第二分类网络的参数进行微调(fine-tune),以获取更优化的参数。
例如,在本公开的实施例中,生成对抗训练阶段S300和语义分类阶段S400是交替迭代进行的,其中,生成网络G同时参与这两个训练阶段的训练。例如,在一些示例中,生成对抗训练阶段S300可以提高生成网络G提取共同表示的能力,但是与此同时,生成网络G还可能会提取第一训练评论和第二训练评论中均会用到的与语义分类无关的字词;例如,语义分类阶段S400可以使生成网络G获得过滤这些与语义分类无关的字词的功能,从而有助于提高语义分类的准确率以及提高神经网络的运行效率。
本公开的实施例提供的神经网络的训练方法,可以对神经网络进行训练,其中训练好的生成网络G、第一分支网络SN1、第二分支网络SN2、第一分类网络CN1和第二分类网络CN2可以分别用于实现前述语义分类方法中的共同表示提取器EE0、第一表示提取器EE1、第二表示提取器EE2、第一语义分类器CC1和第二语义分类器CC2的功能,从而可以执行前述语义分类方法。
本公开的实施例提供的神经网络的训练方法的技术效果可以参考上述实施例中关于语义分类方法的相应描述,在此不再赘述。
本公开至少一实施例还提供一种语义分类装置。图13为本公开至少一实施例提供的一种语义分类装置的示意性框图。例如,如图13所示,该语义分类装置500包括存储器510和处理器520。例如,存储器510用于非暂时性存储计算机可读指令,处理器520用于运行该计算机可读指令,该计算机可读指令被处理器520运行时执行本公开任一实施例提供的语义分类方法或/和神经网络的训练方法。
例如,存储器510和处理器520之间可以直接或间接地互相通信。例如,存储器510和处理器520等组件之间可以通过网络连接进行通信。网络可以包括无线网络、有线网络、和/或无线网络和有线网络的任意组合。网络可以包括局域网、互联网、电信网、基于互联网和/或电信网的物联网(Internet of Things)、和/或以上网络的任意组合等。有线网络例如可以采用双绞线、同轴电缆或光纤传输等方式进行通信,无线网络例如可以采用3G/4G/5G移动通信网络、蓝牙、Zigbee或者WiFi等通信方式。本公开对网络的类型和功能在此不作限制。
例如,处理器520可以控制语义分类装置中的其它组件以执行期望的功能。处理器520可以是中央处理单元(CPU)、张量处理器(TPU)或者图形处理器GPU等具有数据处理能力和/或程序执行能力的器件。中央处理器(CPU)可以为X86或ARM架构等。GPU可以单独地直接集成到主板上,或者内置于主板的北桥芯片中。GPU也可以内置于中央处理器(CPU)上。
例如,存储器510可以包括一个或多个计算机程序产品的任意组合,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、闪存等。
例如,在存储器510上可以存储一个或多个计算机指令,处理器520可以运行所述计算机指令,以实现各种功能。在计算机可读存储介质中还可以存储各种应用程序和各种数据,例如第一对象的评论样本集、第二对象的评论样本集、第一原始向量、第二原始向量以及应用程序使用和/或产生的各种数据等。
例如,存储器510存储的一些计算机指令被处理器520执行时可以执行根据上文所述的语义分类方法中的一个或多个步骤。又例如,存储器510存储的另一些计算机指令被处理器520执行时可以执行根据上文所述的神经网络的训练方法中的一个或多个步骤。
例如,关于语义分类方法的处理过程的详细说明可以参考上述语义分类方法的实施例中的相关描述,关于神经网络的训练方法的处理过程的详细说明可以参考上述神经网络的训练方法的实施例中的相关描述,重复之处不再赘述。
需要说明的是,本公开的实施例提供的语义分类装置是示例性的,而非限制性的,根据实际应用需要,该语义分类装置还可以包括其他常规部件或结构,例如,为实现语义分类装置的必要功能,本领域技术人员可以根据具体应用场景设置其他的常规部件或结构,本公开的实施例对此不作限制。
本公开的实施例提供的语义分类装置的技术效果可以参考上述实施例中关于语义分类方法以及神经网络的训练方法的相应描述,在此不再赘述。
本公开至少一实施例还提供一种存储介质。图14为本公开一实施例提供的一种存储介质的示意图。例如,如图14所示,该存储介质600非暂时性地存储计算机可读指令601,当非暂时性计算机可读指令601由计算机(包括处理器)执行时可以执行本公开任一实施例提供的语义分类方法的指令或者可以执行本公开任一实施例提供的神经网络的训练方法的指令。
例如,在存储介质600上可以存储一个或多个计算机指令。存储介质600上存储的一些计算机指令可以是例如用于实现上述语义分类方法中的一个或多个步骤的指令。存储介质上存储的另一些计算机指令可以是例如用于实现上述神经网络的训练方法中的一个或多个步骤的指令。
例如,存储介质可以包括平板电脑的存储部件、个人计算机的硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、光盘只读存储器(CD-ROM)、闪存、或者上述存储介质的任意组合,也可以为其他适用的存储介质。
本公开的实施例提供的存储介质的技术效果可以参考上述实施例中关于语义分类方法以及神经网络的训练方法的相应描述,在此不再赘述。
对于本公开,有以下几点需要说明:
(1)本公开实施例附图中,只涉及到与本公开实施例涉及到的结构,其他结构可参考通常设计。
(2)在不冲突的情况下,本公开同一实施例及不同实施例中的特征可以相互组合。
以上,仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以权利要求的保护范围为准。
Claims (22)
1.一种语义分类方法包括:
输入关于第一对象的第一评论;
使用共同表示提取器对所述第一评论进行处理,以提取用于表征所述第一评论中的共同表示的第一共同表示向量;
使用第一表示提取器对所述第一评论进行处理,以提取用于表征所述第一评论中的单一表示的第一单一表示向量;
将所述第一共同表示向量和所述第一单一表示向量进行拼接,以得到第一表示向量;以及
使用第一语义分类器对所述第一表示向量进行处理,以得到所述第一评论的语义分类;
其中,所述共同表示包括既用于评论所述第一对象又用于评论第二对象的意思表示,所述第二对象为与所述第一对象不同的关联评论对象,
所述第一评论的单一表示包括仅用于评论所述第一对象的意思表示。
2.根据权利要求1所述的语义分类方法,还包括:将所述第一评论映射为第一原始向量;其中,
使用所述共同表示提取器对所述第一评论进行处理,包括:使用所述共同表示提取器对所述第一原始向量进行处理;
使用所述第一表示提取器对所述第一评论进行处理,包括:使用所述第一表示提取器对所述第一原始向量进行处理。
3.根据权利要求2所述的语义分类方法,其中,将所述第一评论映射为所述第一原始向量,包括:
使用词向量算法将所述第一评论中的每个字映射为具有指定长度的向量,以得到所述第一原始向量。
4.根据权利要求1-3任一项所述的语义分类方法,其中,所述共同表示提取器和所述第一表示提取器各自分别包括循环神经网络、长短期记忆网络和双向长短期记忆网络之一,所述第一语义分类器包括softmax分类器。
5.根据权利要求1-3任一项所述的语义分类方法,还包括:
输入关于第二对象的第二评论;
使用所述共同表示提取器对所述第二评论进行处理,以提取用于表征所述第二评论中的所述共同表示的第二共同表示向量;
使用第二表示提取器对所述第二评论进行处理,以提取用于表征所述第二评论中的单一表示的第二单一表示向量;
将所述第二共同表示向量和所述第二单一表示向量进行拼接,以得到第二表示向量;以及
使用第二语义分类器对所述第二表示向量进行处理,以得到所述第二评论的语义分类;
其中,所述第二评论的单一表示包括仅用于评论所述第二对象的意思表示。
6.根据权利要求5所述的语义分类方法,还包括:将所述第二评论映射为第二原始向量;其中,
使用所述共同表示提取器对所述第二评论进行处理,包括:使用所述共同表示提取器对所述第二原始向量进行处理;
使用所述第二表示提取器对所述第二评论进行处理,包括:使用所述第二表示提取器对所述第二原始向量进行处理。
7.根据权利要求6所述的语义分类方法,其中,将所述第二评论映射为所述第二原始向量,包括:
使用词向量算法将所述第二评论中的每个字映射为具有指定长度的向量,以得到所述第二原始向量。
8.根据权利要求5所述的语义分类方法,其中,所述第二表示提取器包括循环神经网络、长短期记忆网络和双向长短期记忆网络之一,所述第二语义分类器包括softmax分类器。
9.根据权利要求5所述的语义分类方法,其中,所述第一评论和所述第二评论的语料来源包括文本和语音至少之一。
10.一种神经网络的训练方法,所述神经网络包括:生成网络、第一分支网络、第一分类网络、第二分支网络和第二分类网络;所述训练方法包括:语义分类训练阶段;其中,
所述语义分类训练阶段包括:
输入关于第一对象的第一训练评论,使用所述生成网络对所述第一训练评论进行处理,以提取第一训练共同表示向量,使用所述第一分支网络对所述第一训练评论进行处理,以提取第一训练单一表示向量,将所述第一训练共同表示向量与所述第一训练单一表示向量进行拼接,以得到第一训练表示向量,使用所述第一分类网络对所述第一训练表示向量进行处理,以得到所述第一训练评论的语义分类的预测类别标识;
输入关于第二对象的第二训练评论,使用所述生成网络对所述第二训练评论进行处理,以提取第二训练共同表示向量,使用所述第二分支网络对所述第二训练评论进行处理,以提取第二训练单一表示向量,将所述第二训练共同表示向量与所述第二训练单一表示向量进行拼接,以得到第二训练表示向量,使用所述第二分类网络对所述第二训练表示向量进行处理,以得到所述第二训练评论的语义分类的预测类别标识;
基于所述第一训练评论的预测类别标识和所述第二训练评论的预测类别标识,通过系统损失函数计算系统损失值;以及
根据所述系统损失值对所述生成网络、所述第一分支网络、所述第一分类网络、所述第二分支网络和所述第二分类网络的参数进行修正;
其中,所述第一对象和所述第二对象为关联评论对象。
11.根据权利要求10所述的训练方法,其中,所述语义分类训练阶段还包括:
将所述第一训练评论映射为第一训练原始向量,将所述第二训练评论映射为第二训练原始向量;
其中,使用所述生成网络对所述第一训练评论进行处理,包括:使用所述生成网络对所述第一训练原始向量进行处理;
使用所述第一分支网络对所述第一训练评论进行处理,包括:使用所述第一分支网络对所述第一训练原始向量进行处理;
使用所述生成网络对所述第二训练评论进行处理,包括:使用所述生成网络对所述第二训练原始向量进行处理;
使用所述第二分支网络对所述第二训练评论进行处理,包括:使用所述第二分支网络对所述第二训练原始向量进行处理。
12.根据权利要求11所述的训练方法,其中,将所述第一训练评论映射为所述第一训练原始向量,包括:
使用词向量方法将所述第一训练评论中的每个字映射为具有指定长度的向量,以得到所述第一训练原始向量;
将所述第二训练评论映射为所述第二训练原始向量,包括:
使用所述词向量方法将所述第二训练评论中的每个字映射为具有所述指定长度的向量,以得到所述第二训练原始向量。
13.根据权利要求10-12任一项所述的训练方法,其中,所述生成网络、所述第一分支网络、所述第二分支网络均包括循环神经网络、长短期记忆网络和双向长短期记忆网络之一,所述第一分类网络、所述第二分类网络均包括softmax分类器。
14.根据权利要求10-12任一项所述的训练方法,其中,所述系统损失函数表示为:
Lobj=λ1·L(Y1,T1)+λ2·L(Y2,T2)
其中,Lobj表示系统损失函数,L(·,·)表示交叉熵损失函数,Y1表示所述第一训练评论的预测类别标识,T1表示所述第一训练评论的真实类别标识,L(Y1,T1)表示第一训练评论的交叉熵损失函数,λ1表示在所述系统损失函数中所述第一训练评论的交叉熵损失函数L(Y1,T1)的权重,Y2表示所述第二训练评论的预测类别标识,T1表示所述第二训练评论的真实类别标识,L(Y2,T2)表示第二训练评论的交叉熵损失函数,λ2表示在所述系统损失函数中所述第二训练评论的交叉熵损失函数L(Y2,T2)的权重;
所述交叉熵损失函数L(·,·)表示为:
15.根据权利要求10-12任一项所述的训练方法,其中,所述神经网络还包括判别网络;所述训练方法还包括:生成对抗训练阶段;以及交替地执行所述生成对抗训练阶段和所述语义分类训练阶段;
其中,所述生成对抗训练阶段包括:
基于所述生成网络,对所述判别网络进行训练;
基于所述判别网络,对所述生成网络进行训练;以及
交替地执行上述训练过程,以完成所述述生成对抗训练阶段的训练。
16.根据权利要求15所述的训练方法,其中,基于所述生成网络,对所述判别网络进行训练,包括:
输入关于所述第一对象的第三训练评论,使用所述生成网络对所述第三训练评论进行处理,以提取第三训练共同表示向量,使用所述判别网络对所述第三训练共同表示向量进行处理,以得到第三训练输出;
输入关于所述第二对象的第四训练评论,使用所述生成网络对所述第四训练评论进行处理,以提取第四训练共同表示向量,使用所述判别网络对所述第四训练共同表示向量进行处理,以得到第四训练输出;
基于所述第三训练输出和所述第四训练输出,通过判别网络对抗损失函数计算判别网络对抗损失值;
根据所述判别网络对抗损失值对所述判别网络的参数进行修正。
17.根据权利要求16所述的训练方法,其中,所述判别网络包括二分类的softmax分类器。
19.根据权利要求15所述的训练方法,其中,基于所述判别网络,对所述生成网络进行训练,包括:
输入关于所述第一对象的第五训练评论,使用所述生成网络对所述第五训练评论进行处理,以提取第五训练共同表示向量,使用所述判别网络对所述第五训练共同表示向量进行处理,以得到第五训练输出;
输入关于所述第二对象的第六训练评论,使用所述生成网络对所述第六训练评论进行处理,以提取第六训练共同表示向量,使用所述判别网络对所述第六训练共同表示向量进行处理,以得到第六训练输出;
基于所述第五训练输出和所述第六训练输出,通过生成网络对抗损失函数计算生成网络对抗损失值;
根据所述生成网络对抗损失值对所述生成网络的参数进行修正。
21.一种语义分类装置,包括:
存储器,用于存储非暂时性计算机可读指令;以及
处理器,用于运行所述计算机可读指令,
其中,所述计算机可读指令被所述处理器运行时执行根据权利要求1-9任一项所述的语义分类方法,或执行根据权利要求10-20任一项所述的训练方法。
22.一种存储介质,非暂时性地存储计算机可读指令,其中,当所述非暂时性计算机可读指令由计算机执行时可以执行根据权利要求1-9任一项所述的语义分类方法的指令,或可以执行根据权利要求10-20任一项所述的训练方法的指令。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910863457.8A CN110598786B (zh) | 2019-09-09 | 2019-09-09 | 神经网络的训练方法、语义分类方法、语义分类装置 |
US17/418,836 US11934790B2 (en) | 2019-09-09 | 2020-09-07 | Neural network training method and apparatus, semantic classification method and apparatus and medium |
PCT/CN2020/113740 WO2021047473A1 (zh) | 2019-09-09 | 2020-09-07 | 神经网络的训练方法及装置、语义分类方法及装置和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910863457.8A CN110598786B (zh) | 2019-09-09 | 2019-09-09 | 神经网络的训练方法、语义分类方法、语义分类装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110598786A CN110598786A (zh) | 2019-12-20 |
CN110598786B true CN110598786B (zh) | 2022-01-07 |
Family
ID=68859161
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910863457.8A Active CN110598786B (zh) | 2019-09-09 | 2019-09-09 | 神经网络的训练方法、语义分类方法、语义分类装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11934790B2 (zh) |
CN (1) | CN110598786B (zh) |
WO (1) | WO2021047473A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110598786B (zh) * | 2019-09-09 | 2022-01-07 | 京东方科技集团股份有限公司 | 神经网络的训练方法、语义分类方法、语义分类装置 |
CN112164125B (zh) * | 2020-09-15 | 2022-07-26 | 华南理工大学 | 一种监督可控的人脸多属性分离生成的方法 |
CN117218693A (zh) * | 2022-05-31 | 2023-12-12 | 青岛云天励飞科技有限公司 | 人脸属性预测网络生成方法、人脸属性预测方法及装置 |
CN115618884B (zh) * | 2022-11-16 | 2023-03-10 | 华南师范大学 | 基于多任务学习的言论分析方法、装置以及设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107679217A (zh) * | 2017-10-19 | 2018-02-09 | 北京百度网讯科技有限公司 | 基于数据挖掘的关联内容提取方法和装置 |
CN107766585A (zh) * | 2017-12-07 | 2018-03-06 | 中国科学院电子学研究所苏州研究院 | 一种面向社交网络的特定事件抽取方法 |
CN108363753A (zh) * | 2018-01-30 | 2018-08-03 | 南京邮电大学 | 评论文本情感分类模型训练与情感分类方法、装置及设备 |
CN108763204A (zh) * | 2018-05-21 | 2018-11-06 | 浙江大学 | 一种多层次的文本情感特征提取方法和模型 |
CN109544524A (zh) * | 2018-11-15 | 2019-03-29 | 中共中央办公厅电子科技学院 | 一种基于注意力机制的多属性图像美学评价系统 |
CN109740154A (zh) * | 2018-12-26 | 2019-05-10 | 西安电子科技大学 | 一种基于多任务学习的在线评论细粒度情感分析方法 |
CN109964224A (zh) * | 2016-09-22 | 2019-07-02 | 恩芙润斯公司 | 用于语义信息可视化和指示生命科学实体之间显著关联的时间信号推断的系统、方法和计算机可读介质 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10347244B2 (en) * | 2017-04-21 | 2019-07-09 | Go-Vivace Inc. | Dialogue system incorporating unique speech to text conversion method for meaningful dialogue response |
CN108229582A (zh) * | 2018-02-01 | 2018-06-29 | 浙江大学 | 一种面向医学领域的多任务命名实体识别对抗训练方法 |
IL276730B1 (en) | 2018-02-17 | 2024-04-01 | Regeneron Pharma | GAN–CNN for MHC peptide binding prediction |
CN108664589B (zh) * | 2018-05-08 | 2022-03-15 | 苏州大学 | 基于领域自适应的文本信息提取方法、装置、系统及介质 |
CN109377448B (zh) * | 2018-05-20 | 2021-05-07 | 北京工业大学 | 一种基于生成对抗网络的人脸图像修复方法 |
CN109447906B (zh) * | 2018-11-08 | 2023-07-11 | 北京印刷学院 | 一种基于生成对抗网络的图片合成方法 |
CN109783812B (zh) | 2018-12-28 | 2020-08-11 | 中国科学院自动化研究所 | 基于自注意力机制的中文命名实体识别方法、系统、装置 |
US11748613B2 (en) * | 2019-05-10 | 2023-09-05 | Baidu Usa Llc | Systems and methods for large scale semantic indexing with deep level-wise extreme multi-label learning |
CN110188776A (zh) | 2019-05-30 | 2019-08-30 | 京东方科技集团股份有限公司 | 图像处理方法及装置、神经网络的训练方法、存储介质 |
CN110222182B (zh) * | 2019-06-06 | 2022-12-27 | 腾讯科技(深圳)有限公司 | 一种语句分类方法及相关设备 |
CN110598786B (zh) | 2019-09-09 | 2022-01-07 | 京东方科技集团股份有限公司 | 神经网络的训练方法、语义分类方法、语义分类装置 |
-
2019
- 2019-09-09 CN CN201910863457.8A patent/CN110598786B/zh active Active
-
2020
- 2020-09-07 WO PCT/CN2020/113740 patent/WO2021047473A1/zh active Application Filing
- 2020-09-07 US US17/418,836 patent/US11934790B2/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109964224A (zh) * | 2016-09-22 | 2019-07-02 | 恩芙润斯公司 | 用于语义信息可视化和指示生命科学实体之间显著关联的时间信号推断的系统、方法和计算机可读介质 |
CN107679217A (zh) * | 2017-10-19 | 2018-02-09 | 北京百度网讯科技有限公司 | 基于数据挖掘的关联内容提取方法和装置 |
CN107766585A (zh) * | 2017-12-07 | 2018-03-06 | 中国科学院电子学研究所苏州研究院 | 一种面向社交网络的特定事件抽取方法 |
CN108363753A (zh) * | 2018-01-30 | 2018-08-03 | 南京邮电大学 | 评论文本情感分类模型训练与情感分类方法、装置及设备 |
CN108763204A (zh) * | 2018-05-21 | 2018-11-06 | 浙江大学 | 一种多层次的文本情感特征提取方法和模型 |
CN109544524A (zh) * | 2018-11-15 | 2019-03-29 | 中共中央办公厅电子科技学院 | 一种基于注意力机制的多属性图像美学评价系统 |
CN109740154A (zh) * | 2018-12-26 | 2019-05-10 | 西安电子科技大学 | 一种基于多任务学习的在线评论细粒度情感分析方法 |
Non-Patent Citations (3)
Title |
---|
Attention-Based Character-Word Hybrid Neural Networks With Semantic and Structural Information for Identifying of Urgent Posts in MOOC Discussion Forums;SHOU XI GUO et al;《IEEE Access》;20190716;第120522-120530页 * |
The Graph-based Broad Behavior-Aware Recommendation System for Interactive News;Mingyuan Ma et al;《ReaserchGate》;20181130;第1-16页 * |
基于注意力机制的循环神经网络评价对象抽取模型;杨善良 等;《计算机应用与软件》;20190331;第202-208页 * |
Also Published As
Publication number | Publication date |
---|---|
WO2021047473A1 (zh) | 2021-03-18 |
US20220075955A1 (en) | 2022-03-10 |
US11934790B2 (en) | 2024-03-19 |
CN110598786A (zh) | 2019-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110598786B (zh) | 神经网络的训练方法、语义分类方法、语义分类装置 | |
Dharwadkar et al. | A medical chatbot | |
US20210034813A1 (en) | Neural network model with evidence extraction | |
CN108806785A (zh) | 一种基于卷积神经网络的诊疗科室推荐方法及系统 | |
CN106295186A (zh) | 一种基于智能推理的辅助疾病诊断的方法与系统 | |
US20200227175A1 (en) | Document improvement prioritization using automated generated codes | |
CN112100406B (zh) | 数据处理方法、装置、设备以及介质 | |
US10610109B2 (en) | Emotion representative image to derive health rating | |
US20210406687A1 (en) | Method for predicting attribute of target object based on machine learning and related device | |
CN110427486B (zh) | 身体病况文本的分类方法、装置及设备 | |
CN114676704A (zh) | 句子情感分析方法、装置、设备以及存储介质 | |
CN113707299A (zh) | 基于问诊会话的辅助诊断方法、装置及计算机设备 | |
CN113988013A (zh) | 基于多任务学习和图注意力网络的icd编码方法及装置 | |
Prabono et al. | Hybrid domain adaptation with deep network architecture for end-to-end cross-domain human activity recognition | |
CN111553140A (zh) | 数据处理方法、数据处理设备及计算机存储介质 | |
Srivastav et al. | An Efficient Sentiment Analysis Technique for Virtual Learning Environments using Deep Learning model and Fine-Tuned EdBERT | |
Shukla et al. | Optimization assisted bidirectional gated recurrent unit for healthcare monitoring system in big-data | |
Walker et al. | Beyond percent correct: Measuring change in individual picture naming ability | |
Rojowiec et al. | Intent recognition in doctor-patient interviews | |
CN115659987B (zh) | 基于双通道的多模态命名实体识别方法、装置以及设备 | |
CN110473636B (zh) | 基于深度学习的智能医嘱推荐方法及系统 | |
CN114300127A (zh) | 问诊处理方法、装置、设备及存储介质 | |
CN113705092A (zh) | 基于机器学习的疾病预测方法及装置 | |
CN112216383A (zh) | 基于证素和深度学习的中医智能问诊舌诊综合系统 | |
Ismael et al. | Chatbot System for Mental Health in Bahasa Malaysia |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |