CN109710741A - 一种面向在线问答平台的基于深度强化学习的问题标注方法 - Google Patents
一种面向在线问答平台的基于深度强化学习的问题标注方法 Download PDFInfo
- Publication number
- CN109710741A CN109710741A CN201811615274.6A CN201811615274A CN109710741A CN 109710741 A CN109710741 A CN 109710741A CN 201811615274 A CN201811615274 A CN 201811615274A CN 109710741 A CN109710741 A CN 109710741A
- Authority
- CN
- China
- Prior art keywords
- label
- value
- movement
- indicates
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
本发明公开了一种面向在线问答平台的基于深度强化学习的问题标注方法,基于深度神经网络和强化学习技术,构建模型,并在设计模型奖励的时候,在保证标注准确性的同时,创新性地加入衡量问题标签多样性的指标,同时考虑到尾标签效应,即在标注时复杂详细描述的长标签,从而使得标签能更深层次,更详细地描述问题。本发明综合考虑的标签的准确性,多样性,以及减少尾标签效应对问题标注的影响,并通过引入深度神经网络提高了强化学习模型训练的效率和准确性,并且能在一定置信度下保证匹配的误差范围。本发明的方案将能对问答平台中海量和问题和标签进行准确多样的匹配。
Description
技术领域
本发明属于自然语言处理领域,更具体地,涉及一种面向在线问答平台的基于深度强化学习的问题标注方法。
背景技术
随着Web 2.0的发展,Quora1和知乎等社交问答(sQA)网站的发展越来越重要。一方面,类似于基于社区的问答(cQA)网站,它们包括提问的机制,发布答案问题的平台,以及围绕这些信息建立的社区。另一方面,sQA网站突出社交信息,尤其是主题标签之间的联系。例如,在知乎中,用户必须为他们的问题分配至少一个主题标签,并且他们能够遵循他们感兴趣的主题标签,这反过来有益于基于主题的问题路由和浏览。鉴于此,自动为新发布的问题提供正确的主题标签是加强用户体验和内容分发效率的关键。
现有的解决问题标签的任务在技术上主要可以分为两类:基于规则模型和数据驱动模型。前者通常将此问题标记任务视为给定问题与每个候选主题之间的匹配问题。为了估计相似性,手动设计了大量模板和规则,这将耗费大量的人工劳力。至于数据驱动的问题,他们将此任务表述为分类问题,例如char-Convolutional Neural Network(cCNN)和深层次CNN。他们尝试从训练数据中学习规则,以适应新问题,使其更容易实施,并通常实现最佳性能。尽管它们具有重要意义,但它们在实践中并不适用,因为有许多新创建的主题标签,其中的问题样本很少。这是因为有经验的用户可以随时在sQA站点中创建新的主题标签。另外,现有模型依次依赖于密集标记数据,即每个主题标签成千上万个问题,并且它们无法很好地处理实际环境中的任务。
在这样的短文中,有助于弥合问题和标签之间语义鸿沟的有用信息非常稀少。其次,我们观察到问题标签遵循长尾分布,其中大部分标签很少发生。超过98%的标签在两个数据集上出现的次数不超过500次(即0.05%的问题)。我们将这些标签称为“尾标签”和其他常用标签“头标签”。虽然偶然发生,尾部标签是对问题的特定和细粒度描述,其反映更准确的语义,因此对于专家发现,搜索和知识挖掘等更有用。现有的方法对标签多样性的考虑不足,标签所属话题领域的多样化往往能使得问题描述变得更加具体和丰富,因为在推荐给不同专家时能使得问题得到更多元化,更多层次的解决。
发明内容
为解决现有的技术缺陷,本发明公开了一种新的面向在线问答平台的基于深度强化学习的问题标注方法。本发明能有效解决由于标签过多,问题样本很少导致的过拟合问题,并在考虑为问题标注保证准确性的同时,对其标注多样性进行改善。
为解决上述技术问题,本发明的技术方案如下:
一种面向在线问答平台的基于深度强化学习的问题标注方法,包括以下步骤:
S1:利用MDP马尔科夫决策过程对问题构建Q-learning强化学习模型;
S2:搭建深度神经网络优化训练Q值;所述的Q值表示Q-learning强化学习模型中在状态s动作后获取的得分奖励;
S3:利用训练集训练深度强化学习模型;
S4:根据深度强化学习模型输出结果对问题进行标签标注。
在一种优选的方案中,所述的S1中的MDP马尔科夫决策过程定义为Μ=<S,A,R,P,γ>,其中,
所述的S表示问题以及其当前所标注的标签的集合,通过下式进行表达:S={Q,i0,i1...it}
式中,所述的t表示当前的状态值,所述的t-1表示上一个状态;所述的Q表示需要打标签的问题,所述的i表示问题对应的标签;
所述的A表示空间,指动作at针对智能体的策略π所做出的一个推荐的标签,π是St到at的一个映射,且每次动作推荐一个标签;
所述的P表示了概率转移矩阵,指智能体采取了at动作以后,从St转移到St+1的概率,所述的智能体表示强化学习的算法主体,与其交互的对象称为环境。智能体通过观察环境,得到环境的状态信息。根据状态信息判断自己该采取的策略并做出相应的动作,环境在接受智能体的动作之后给予奖励,反映动作的好坏,同时智能体的动作对状态产生影响,使接下来观察到的状态信息发生变化,再次决策,得到一系列状态-动作的序列。智能体的目标就是使得在一定时间内的回报累加和最大化,得到一组最优化行为策略。
所述的R表示奖励函数,指智能体在st采取了一个动作at以后,对标签多样性的评价函数;
所述的γ表示未来动作所得到的奖励对当前状态值的影响程度。
在一种优选的方案中,所述的R通过下式进行表达:
式中,所述的f(it)对应的是NDCG值,通过下式进行表达:
所述的rel是该标签的相关性值,所述的i表示标签所在的当前位置大的序号,所述的k为智能体的参考的标签数量,所述的m表示标签所在的当前位置序号;
所述的τ(it)对应的是α-NDCG值,是NDCG值的变形,表示标签如果含有新发现的子话题,则α-NDCG值增加;如果含有无关的子话题则α-NDCG值降低,所述的τ(it)通过下式进行表达:
所述的NG(i)表示智能体提供的第i个标签所能获得的多样性评估得分,所述的α为影响系数,所述的NG*(i)标签i在理想情况下的最优得分值。
在一种优选的方案中,所述的Q值通表示在状态s采取动作后能获取的期望得分奖励,Q(st,at)=Q(st,at)+μ[R+γmaxa'Q(st+1,aa+1)-Q(st,at)],所述的μ是Q-learning过程中的学习率,所述的maxa'Q(st+1,aa+1)是智能体模拟的下个动作能得到的最大得分值。
在一种优选的方案中,所述的S2包括以下流程:
S2.1:构造深度卷积网络,用于对Q值进行初步计算;通过输入固定格式的问题和标签数据,经卷积层以及全连接层,最后输出每一个标签的预计收益a;
S2.2:构造回放经验池,通过记录训练过程中所有的样本<st,at,rt,st+1>,每一个样本定义为一个经验,存入经验池中,网络学习从经验池中均匀抽出样本进行学习;
S2.3:定义一个实时更新的深度神经网络,记为Q(s,a;θ),所述的θ为神经网络的网络参数值;另外定义一个与Q(s,a;θ)相同结构的深度神经网络,但是参数相隔时间C从实时更新的深度神经网络中同步一次,记为所述的θ-为神经网络的网络参数值;所述的C是人为预设值;将定义为TD-target,第一个神经网络的网络更新为:
θt+1=θt+μ[R+γmaxa'Q(s',a';θ-)-Q(s,a;θ)]▽Q(s,a;θ)。
在一种优选的方案中,所述的S3包括以下流程:
S3.1:初始化一个容量为N的回放经验池D,随机初始化动作价值函数Q,记录其参数为θ;初始化目标动作价值函数记录其参数为θ-,初始化序列s1=x1,以及预处理序列φ1=φ(s1),定义训练episode;
S3.2:智能体的动作执行以下内容:
概率ξ:随机选择一个动作at;
概率1-ξ:执行动作at=argmaaxQ(φ(st),a;θ),所述的ξ是人为预设值;
S3.3:观察智能体执行动作at后的回报rt以及下一个数据xt+1;
S3.4:更新st+1=st,at,xt+1,φt+1=φ(st+1),将样本(φt,at,rt,φt+1)存到经验回放池D中;
S3.5:从D中随机采样一个批次的样本(φk,ak,rk,φk+1);
S3.6:最佳得分值yk通过下式进行表达:
S3.7:对参数θ进行(yk-Q(θk,ak;θ-))2梯度反转;
S3.8:每C步将目标动作价值函数的网络参数θ-设置为动作价值函数Q的网络参数θ;
S3.9:若没有完成最大迭代数目,则执行S3.3;否则执行S3.10;
S3.10:若没有结束所有采样序列episode,执行S3.2;否则执行S4。
在一种优选的方案中,所述的S4包括以下流程:
S4.1:输入训练完成的标注策略π,问题Q,候选标签T;
S4.2:初始化候选标签集合;
S4.3:通过标注策略π选择一个标签;
S4.4:更新标签列表,到达下一个状态st+1;
S4.5:若标签列表中标签数量未达到要求预设值,执行S4.2。
S4.6:输出标签列表,作为该问题的标签。
与现有技术相比,本发明技术方案的有益效果是:
(1)在为问题进行标签标注的时候,本发明不仅考虑标签标注的准确性,而且还创新性地应用最新理论对标签内容的多样性进行考虑,丰富了问题性质的维度,使得社交问答平台中的问题能更好被利用。
(2)本发明的方法运用Deepmind提出的深度强化学习技术对模型进行建模,速度比传统的Q-Learning强化学习算法要快很多,并且能在一定置信度下保证相似性的误差范围。
(3)本发明减少了尾标签由于其自身数据属性特征导致的难以被问题匹配的情况,使得问题的复杂描述得以被模型重视。
附图说明
图1为本实施例的流程图。
图2为本实施例中S2中深度强化学习网络参数更新说明图。
图3为本实施例中S3中深度强化学习网络中经验池学习说明图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
如图1所示,一种面向在线问答平台的基于深度强化学习的问题标注方法,包括以下步骤:
S1:利用MDP马尔科夫决策过程对问题构建Q-learning强化学习模型;
S1中的MDP马尔科夫决策过程定义为Μ=<S,A,R,P,γ>,其中,
S表示问题以及其当前所标注的标签的集合,通过下式进行表达:S={Q,i0,i1...it}
式中,t表示当前的状态值,t-1表示上一个状态;Q表示需要打标签的问题,i表示问题对应的标签;
A表示空间,指动作at针对智能体的策略π所做出的一个推荐的标签,π是St到at的一个映射,且每次动作推荐一个标签;
P表示了概率转移矩阵,指智能体采取了at动作以后,从St转移到St+1的概率;
R表示奖励函数,指智能体在st采取了一个动作at以后,对标签多样性的评价函数;R通过下式进行表达:
式中,f(it)对应的是NDCG值,通过下式进行表达:
rel是该标签的相关性值,i表示标签所在的当前位置大的序号,k为智能体的参考的标签数量,m表示标签所在的当前位置序号;
τ(it)对应的是α-NDCG值,是NDCG值的变形,表示标签如果含有新发现的子话题,则α-NDCG值增加;如果含有无关的子话题则α-NDCG值降低,τ(it)通过下式进行表达:
NG(i)表示智能体提供的第i个标签所能获得的多样性评估得分,α为影响系数,NG*(i)标签i在理想情况下的最优得分值;
γ表示未来动作所得到的奖励对当前状态值的影响程度;
S2:搭建深度神经网络优化训练Q值;Q值通表示在状态s采取动作后能获取的期望得分奖励,Q(st,at)=Q(st,at)+μ[R+γmaxa'Q(st+1,aa+1)-Q(st,at)],μ是Q-learning过程中的学习率,maxa'Q(st+1,aa+1)是智能体模拟的下个动作能得到的最大得分值;
如图2所示,S2包括以下流程:
S2.1:构造深度卷积网络,用于对Q值进行初步计算;通过输入固定格式的问题和标签数据,经卷积层以及全连接层,最后输出每一个标签的预计收益a;
S2.2:构造回放经验池,通过记录训练过程中所有的样本<st,at,rt,st+1>,每一个样本定义为一个经验,存入经验池中,网络学习从经验池中均匀抽出样本进行学习;
S2.3:定义一个实时更新的深度神经网络,记为Q(s,a;θ),θ为神经网络的网络参数值;另外定义一个与Q(s,a;θ)相同结构的深度神经网络,但是参数相隔时间C从实时更新的深度神经网络中同步一次,记为θ-为神经网络的网络参数值;C是人为预设值;将定义为TD-target,第一个神经网络的网络更新为:
θt+1=θt+μ[R+γmaxa'Q(s',a';θ-)-Q(s,a;θ)]▽Q(s,a;θ)。
S3:利用训练集训练深度强化学习模型;
如图3所示,S3包括以下流程:
S3.1:初始化一个容量为N的回放经验池D,随机初始化动作价值函数Q,记录其参数为θ;初始化目标动作价值函数记录其参数为θ-,初始化序列s1=x1,以及预处理序列φ1=φ(s1),定义训练episode;
S3.2:智能体的动作执行以下内容:
概率ξ:随机选择一个动作at;
概率1-ξ:执行动作at=argmaaxQ(φ(st),a;θ),ξ是人为预设值;
S3.3:观察智能体执行动作at后的回报rt以及下一个数据xt+1;
S3.4:更新st+1=st,at,xt+1,φt+1=φ(st+1),将样本(φt,at,rt,φt+1)存到经验回放池D中;
S3.5:从D中随机采样一个批次的样本(φk,ak,rk,φk+1);
S3.6:最佳得分值yk通过下式进行表达:
S3.7:对参数θ进行(yk-Q(θk,ak;θ-))2梯度反转;
S3.8:每C步将目标动作价值函数的网络参数θ-设置为动作价值函数Q的网络参数θ;
S3.9:若没有完成最大迭代数目,则执行S3.3;否则执行S3.10;
S3.10:若没有结束所有采样序列episode,执行S3.2;否则执行S4
S4:根据深度强化学习模型输出结果对问题进行标签标注;
S4包括以下流程:
S4.1:输入训练完成的标注策略π,问题Q,候选标签T;
S4.2:初始化候选标签集合;
S4.3:通过标注策略π选择一个标签;
S4.4:更新标签列表,到达下一个状态st+1;
S4.5:若标签列表中标签数量未达到要求预设值,执行S4.2。
S4.6:输出标签列表,作为该问题的标签。
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (7)
1.一种面向在线问答平台的基于深度强化学习的问题标注方法,其特征在于,包括以下步骤:
S1:利用MDP马尔科夫决策过程对问题构建Q-learning强化学习模型;
S2:搭建深度神经网络优化训练Q值;所述的Q值表示Q-learning强化学习模型中在状态s动作后获取的得分奖励;
S3:利用训练集训练深度强化学习模型;
S4:根据深度强化学习模型输出结果对问题进行标签标注。
2.根据权利要求1所述的问题标注方法,其特征在于,所述的S1中的MDP马尔科夫决策过程定义为Μ=<S,A,R,P,γ>,其中,
所述的S表示问题以及其当前所标注的标签的集合,通过下式进行表达:S={Q,i0,i1...it}
式中,所述的t表示当前的状态值,所述的t-1表示上一个状态;所述的Q表示需要打标签的问题,所述的i表示问题对应的标签;
所述的A表示空间,指动作at针对智能体的策略π所做出的一个推荐的标签,π是St到at的一个映射,且每次动作推荐一个标签;
所述的P表示了概率转移矩阵,指智能体采取了at动作以后,从St转移到St+1的概率,所述的智能体表示强化学习的算法主体;
所述的R表示奖励函数,指智能体在st采取了一个动作at以后,对标签多样性的评价函数;
所述的γ表示未来动作所得到的奖励对当前状态值的影响程度。
3.根据权利要求2所述的问题标注方法,其特征在于,所述的R通过下式进行表达:
式中,所述的f(it)对应的是NDCG值,通过下式进行表达:
所述的rel是该标签的相关性值,所述的i表示标签所在的当前位置大的序号,所述的k为智能体的参考的标签数量,所述的m表示标签所在的当前位置序号;
所述的τ(it)对应的是α-NDCG值,是NDCG值的变形,表示标签如果含有新发现的子话题,则α-NDCG值增加;如果含有无关的子话题则α-NDCG值降低,所述的τ(it)通过下式进行表达:
所述的NG(i)表示智能体提供的第i个标签所能获得的多样性评估得分,所述的α为影响系数,所述的NG*(i)标签i在理想情况下的最优得分值。
4.根据权利要求1至3中任一权利要求所述的问题标注方法,其特征在于,所述的Q值通表示在状态s采取动作后能获取的期望得分奖励,所述的μ是Q-learning过程中的学习率,所述的是智能体模拟的下个动作能得到的最大得分值。
5.根据权利要求4所述的问题标注方法,其特征在于,所述的S2包括以下流程:
S2.1:构造深度卷积网络,用于对Q值进行初步计算;通过输入固定格式的问题和标签数据,经卷积层以及全连接层,最后输出每一个标签的预计收益a;
S2.2:构造回放经验池,通过记录训练过程中所有的样本<st,at,rt,st+1>,每一个样本定义为一个经验,存入经验池中,网络学习从经验池中均匀抽出样本进行学习;
S2.3:定义一个实时更新的深度神经网络,记为Q(s,a;θ),所述的θ为神经网络的网络参数值;另外定义一个与Q(s,a;θ)相同结构的深度神经网络,但是参数相隔时间C从实时更新的深度神经网络中同步一次,记为所述的θ-为神经网络的网络参数值;所述的C是人为预设值;将定义为TD-target,第一个神经网络的网络更新为:
6.根据权利要求5所述的问题标注方法,其特征在于,所述的S3包括以下流程:
S3.1:初始化一个容量为N的回放经验池D,随机初始化动作价值函数Q,记录其参数为θ;初始化目标动作价值函数记录其参数为θ-,初始化序列s1=x1,以及预处理序列φ1=φ(s1),定义训练episode;
S3.2:智能体的动作执行以下内容:
概率ξ:随机选择一个动作at;
概率1-ξ:执行动作所述的ξ是人为预设值;
S3.3:观察智能体执行动作at后的回报rt以及下一个数据xt+1;
S3.4:更新st+1=st,at,xt+1,φt+1=φ(st+1),将样本(φt,at,rt,φt+1)存到经验回放池D中;
S3.5:从D中随机采样一个批次的样本(φk,ak,rk,φk+1);
S3.6:最佳得分值yk通过下式进行表达:
S3.7:对参数θ进行(yk-Q(θk,ak;θ-))2梯度反转;
S3.8:每C步将目标动作价值函数的网络参数θ-设置为动作价值函数Q的网络参数θ;
S3.9:若没有完成最大迭代数目,则执行S3.3;否则执行S3.10;
S3.10:若没有结束所有采样序列episode,执行S3.2;否则执行S4。
7.根据权利要求6所述的问题标注方法,其特征在于,所述的S4包括以下流程:
S4.1:输入训练完成的标注策略π,问题Q,候选标签T;
S4.2:初始化候选标签集合;
S4.3:通过标注策略π选择一个标签;
S4.4:更新标签列表,到达下一个状态st+1;
S4.5:若标签列表中标签数量未达到要求预设值,执行S4.2。
S4.6:输出标签列表,作为该问题的标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811615274.6A CN109710741A (zh) | 2018-12-27 | 2018-12-27 | 一种面向在线问答平台的基于深度强化学习的问题标注方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811615274.6A CN109710741A (zh) | 2018-12-27 | 2018-12-27 | 一种面向在线问答平台的基于深度强化学习的问题标注方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109710741A true CN109710741A (zh) | 2019-05-03 |
Family
ID=66257895
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811615274.6A Pending CN109710741A (zh) | 2018-12-27 | 2018-12-27 | 一种面向在线问答平台的基于深度强化学习的问题标注方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109710741A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110245742A (zh) * | 2019-05-08 | 2019-09-17 | 上海电力学院 | 一种基于Keras平台的自适应深度学习模型优化方法 |
CN110263979A (zh) * | 2019-05-29 | 2019-09-20 | 阿里巴巴集团控股有限公司 | 基于强化学习模型预测样本标签的方法及装置 |
CN110309309A (zh) * | 2019-07-03 | 2019-10-08 | 中国搜索信息科技股份有限公司 | 一种用于评估人工标注数据质量的方法及系统 |
CN110399279A (zh) * | 2019-06-18 | 2019-11-01 | 中国科学院计算技术研究所 | 一种用于非人智能体的智能度量方法 |
CN110581808A (zh) * | 2019-08-22 | 2019-12-17 | 武汉大学 | 一种基于深度强化学习的拥塞控制方法及系统 |
CN110691422A (zh) * | 2019-10-06 | 2020-01-14 | 湖北工业大学 | 一种基于深度强化学习的多信道智能接入方法 |
CN110809306A (zh) * | 2019-11-04 | 2020-02-18 | 电子科技大学 | 一种基于深度强化学习的终端接入选择方法 |
CN110990548A (zh) * | 2019-11-29 | 2020-04-10 | 支付宝(杭州)信息技术有限公司 | 强化学习模型的更新方法和装置 |
CN111079376A (zh) * | 2019-11-14 | 2020-04-28 | 贝壳技术有限公司 | 数据标注方法、装置、介质以及电子设备 |
CN111312354A (zh) * | 2020-02-10 | 2020-06-19 | 东华大学 | 基于多智能体强化学习的乳腺病历实体识别标注增强系统 |
WO2020228636A1 (zh) * | 2019-05-10 | 2020-11-19 | 京东方科技集团股份有限公司 | 训练方法和装置、对话处理方法和系统及介质 |
CN112434517A (zh) * | 2020-11-09 | 2021-03-02 | 西安交通大学 | 一种结合主动学习的社区问答网站答案排序方法及系统 |
CN112488826A (zh) * | 2020-12-16 | 2021-03-12 | 北京逸风金科软件有限公司 | 基于深度强化学习对银行风险定价的优化方法和装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104035927A (zh) * | 2013-03-05 | 2014-09-10 | 百度在线网络技术(北京)有限公司 | 一种基于用户行为的搜索方法及系统 |
CN106874256A (zh) * | 2015-12-11 | 2017-06-20 | 北京国双科技有限公司 | 识别领域命名实体的方法及装置 |
CN106970615A (zh) * | 2017-03-21 | 2017-07-21 | 西北工业大学 | 一种深度强化学习的实时在线路径规划方法 |
CN107260335A (zh) * | 2017-06-26 | 2017-10-20 | 达理 | 一种基于人工智能的牙列畸形自动化分类和设计方法 |
US20170358295A1 (en) * | 2016-06-10 | 2017-12-14 | Conduent Business Services, Llc | Natural language generation, a hybrid sequence-to-sequence approach |
CN107622050A (zh) * | 2017-09-14 | 2018-01-23 | 武汉烽火普天信息技术有限公司 | 基于Bi‑LSTM和CRF的文本序列标注系统及方法 |
US20180165554A1 (en) * | 2016-12-09 | 2018-06-14 | The Research Foundation For The State University Of New York | Semisupervised autoencoder for sentiment analysis |
-
2018
- 2018-12-27 CN CN201811615274.6A patent/CN109710741A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104035927A (zh) * | 2013-03-05 | 2014-09-10 | 百度在线网络技术(北京)有限公司 | 一种基于用户行为的搜索方法及系统 |
CN106874256A (zh) * | 2015-12-11 | 2017-06-20 | 北京国双科技有限公司 | 识别领域命名实体的方法及装置 |
US20170358295A1 (en) * | 2016-06-10 | 2017-12-14 | Conduent Business Services, Llc | Natural language generation, a hybrid sequence-to-sequence approach |
US20180165554A1 (en) * | 2016-12-09 | 2018-06-14 | The Research Foundation For The State University Of New York | Semisupervised autoencoder for sentiment analysis |
CN106970615A (zh) * | 2017-03-21 | 2017-07-21 | 西北工业大学 | 一种深度强化学习的实时在线路径规划方法 |
CN107260335A (zh) * | 2017-06-26 | 2017-10-20 | 达理 | 一种基于人工智能的牙列畸形自动化分类和设计方法 |
CN107622050A (zh) * | 2017-09-14 | 2018-01-23 | 武汉烽火普天信息技术有限公司 | 基于Bi‑LSTM和CRF的文本序列标注系统及方法 |
Non-Patent Citations (1)
Title |
---|
姜维: "统计中文词法分析及其强化学习机制的研究", 《中国优秀博士论文全文数据库 信息科技辑》 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110245742A (zh) * | 2019-05-08 | 2019-09-17 | 上海电力学院 | 一种基于Keras平台的自适应深度学习模型优化方法 |
WO2020228636A1 (zh) * | 2019-05-10 | 2020-11-19 | 京东方科技集团股份有限公司 | 训练方法和装置、对话处理方法和系统及介质 |
CN110263979A (zh) * | 2019-05-29 | 2019-09-20 | 阿里巴巴集团控股有限公司 | 基于强化学习模型预测样本标签的方法及装置 |
CN110263979B (zh) * | 2019-05-29 | 2024-02-06 | 创新先进技术有限公司 | 基于强化学习模型预测样本标签的方法及装置 |
CN110399279A (zh) * | 2019-06-18 | 2019-11-01 | 中国科学院计算技术研究所 | 一种用于非人智能体的智能度量方法 |
CN110309309A (zh) * | 2019-07-03 | 2019-10-08 | 中国搜索信息科技股份有限公司 | 一种用于评估人工标注数据质量的方法及系统 |
CN110309309B (zh) * | 2019-07-03 | 2021-04-13 | 中国搜索信息科技股份有限公司 | 一种用于评估人工标注数据质量的方法及系统 |
CN110581808A (zh) * | 2019-08-22 | 2019-12-17 | 武汉大学 | 一种基于深度强化学习的拥塞控制方法及系统 |
CN110691422A (zh) * | 2019-10-06 | 2020-01-14 | 湖北工业大学 | 一种基于深度强化学习的多信道智能接入方法 |
CN110809306A (zh) * | 2019-11-04 | 2020-02-18 | 电子科技大学 | 一种基于深度强化学习的终端接入选择方法 |
CN111079376A (zh) * | 2019-11-14 | 2020-04-28 | 贝壳技术有限公司 | 数据标注方法、装置、介质以及电子设备 |
CN111079376B (zh) * | 2019-11-14 | 2021-04-16 | 北京房江湖科技有限公司 | 数据标注方法、装置、介质以及电子设备 |
CN110990548B (zh) * | 2019-11-29 | 2023-04-25 | 支付宝(杭州)信息技术有限公司 | 强化学习模型的更新方法和装置 |
CN110990548A (zh) * | 2019-11-29 | 2020-04-10 | 支付宝(杭州)信息技术有限公司 | 强化学习模型的更新方法和装置 |
CN111312354A (zh) * | 2020-02-10 | 2020-06-19 | 东华大学 | 基于多智能体强化学习的乳腺病历实体识别标注增强系统 |
CN111312354B (zh) * | 2020-02-10 | 2023-10-24 | 东华大学 | 基于多智能体强化学习的乳腺病历实体识别标注增强系统 |
CN112434517A (zh) * | 2020-11-09 | 2021-03-02 | 西安交通大学 | 一种结合主动学习的社区问答网站答案排序方法及系统 |
CN112434517B (zh) * | 2020-11-09 | 2023-08-04 | 西安交通大学 | 一种结合主动学习的社区问答网站答案排序方法及系统 |
CN112488826A (zh) * | 2020-12-16 | 2021-03-12 | 北京逸风金科软件有限公司 | 基于深度强化学习对银行风险定价的优化方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109710741A (zh) | 一种面向在线问答平台的基于深度强化学习的问题标注方法 | |
Preuss | Multimodal optimization by means of evolutionary algorithms | |
Wheeler | Systematics: a course of lectures | |
CN107506414A (zh) | 一种基于长短期记忆网络的代码推荐方法 | |
Zhang et al. | Growth Optimizer: A powerful metaheuristic algorithm for solving continuous and discrete global optimization problems | |
Shah et al. | Interactive reinforcement learning for task-oriented dialogue management | |
CN108804689A (zh) | 面向问答平台的融合用户隐连接关系的标签推荐方法 | |
CN109858630A (zh) | 用于强化学习的方法和设备 | |
CN108399575A (zh) | 一种基于社交媒体文本的大五人格预测方法 | |
CN109598995A (zh) | 基于贝叶斯知识跟踪模型的智能教学系统 | |
Liu et al. | Uncovering students’ problem-solving processes in game-based learning environments | |
Qu et al. | Robust minimum cost consensus models with various individual preference scenarios under unit adjustment cost uncertainty | |
CN109858797A (zh) | 基于知识网络精准在线教育系统的多维度信息学情分析方法 | |
CN111312354B (zh) | 基于多智能体强化学习的乳腺病历实体识别标注增强系统 | |
CN108681585A (zh) | 一种基于NetSim-TL的多源迁移学习标签流行性预测模型的构建方法 | |
CN113344053B (zh) | 一种基于试题异构图表征与学习者嵌入的知识追踪方法 | |
De Souza et al. | Data mining framework to analyze the evolution of computational thinking skills in game building workshops | |
CN110851593B (zh) | 一种基于位置与语义的复值词向量构建方法 | |
CN110084245A (zh) | 基于视觉注意机制强化学习弱监督图像检测方法、系统 | |
Yin | Research on ideological and political evaluation model of university students based on data mining artificial intelligence technology | |
CN117035074B (zh) | 基于反馈强化的多模态知识生成方法及装置 | |
CN112396092A (zh) | 一种众包开发者推荐方法和装置 | |
Katsikopoulos et al. | A simple model for mixing intuition and analysis | |
Zhuge | Conflict decision training through multi-space co-operation | |
CN110503072A (zh) | 基于多支路cnn架构的人脸年龄估计方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20230707 |