CN113901788A - 语句中方面词对应的观点词抽取方法及电子设备 - Google Patents
语句中方面词对应的观点词抽取方法及电子设备 Download PDFInfo
- Publication number
- CN113901788A CN113901788A CN202110995726.3A CN202110995726A CN113901788A CN 113901788 A CN113901788 A CN 113901788A CN 202110995726 A CN202110995726 A CN 202110995726A CN 113901788 A CN113901788 A CN 113901788A
- Authority
- CN
- China
- Prior art keywords
- word
- target
- training
- words
- action
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Mathematical Optimization (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本公开提供一种语句中方面词对应的观点词抽取方法,包括,获取目标语句的句法结构和顺序结构,针对每一个所述目标语句构建一个包含所述句法结构信息及所述顺序结构信息的目标多路异构图,其中,所述目标多路异构图的节点对应为所述目标语句中的每个单词;获取给定的所述目标语句中的目标方面词;获取预先构建的马尔可夫决策过程模型;应用所述马尔可夫决策过程模型在所述目标多路异构图上进行探索,抽取所述目标语句中所述目标方面词所对应的目标观点词。本发明提供的方法,有效解决方面词及其对应的观点词距离较远时难以准确抽取观点词的问题,实现观点词的准确抽取。
Description
技术领域
本公开涉及技术自然语言处理技术领域,尤其涉及一种语句中方面词对应的观点词抽取方法及电子设备。
背景技术
在大数据时代,由单一向用户提供内容已经难以满足当前的需求,用户创造的内容在数据中的重要程度逐渐凸显。评论是用户发表内容的常见形式,在很多场景都可以见到。通过分析这些评论可以获得某一人群对于某一个事物的情感、立场、态度、看法等等,使得商家、也可以根据人们的反馈及时采取相应措施。这目前的文本情感分析工作的分析粒度较粗,通常只能简单的分离评论文档或句子整体的情感极性,如正面、负面、中性,难以获得更多地细节信息。因此,如何获得更多细节信息成为了目前的一个重要研究方向。目前也有一些方法能够实现一定程度的细节分析,但其分析的准确度仍然存在较大问题。
发明内容
有鉴于此,本公开的目的在于提出一种语句中方面词对应的观点词抽取方法及电子设备解决了方面词及其对应的观点词距离较远时难以准确抽取观点词的问题的技术问题,实现了观点词的准确抽取。
基于上述目的,本公开提供了一种语句中方面词对应的观点词抽取方法及电子设备,包括:
一种语句中方面词对应的观点词抽取方法,包括:
获取目标语句的句法结构信息和顺序结构信息,针对每一个所述目标语句构建一个包含所述句法结构信息及所述顺序结构信息的目标多路异构图,其中,所述目标多路异构图的每个节点对应为所述目标语句中的每个单词;
获取给定的所述目标语句中的目标方面词;
获取预先构建的马尔可夫决策过程模型;
应用所述马尔可夫决策过程模型在所述目标多路异构图上进行探索,抽取所述目标语句中所述目标方面词所对应的目标观点词。
进一步的,每个所述目标多路异构图中包括:
根据所述目标语句的顺序结构设置在每相邻两个所述节点之间的顺序边;
根据句法依存树在有句法关系的两个所述节点之间设置的句法边;
和/或,所述目标多路异构图中每个所述节点设有一个自循环边。
进一步的,在所述获取目标语句的句法结构信息和顺序结构信息,针对每一个所述目标语句构建一个包含所述句法结构信息及所述顺序结构信息的目标多路异构图之后,还包括:
对所述目标多路异构图中各个节点进行信息填充;具体包括:
获取与所述目标多路异构图中各个节点对应的路径长度在预设范围内的所有所述节点的句法信息及顺序信息,将所述句法信息及所述顺序信息填充至所述目标多路异构图中各个对应的节点上;
其中,所述句法信息利用图神经网络获取,所述顺序信息利用双相循环神经网络获取。
进一步的,在所述获取目标语句的句法结构信息和顺序结构信息,针对每一个所述目标语句构建一个包含所述句法结构信息及所述顺序结构信息的目标多路异构图之后,还包括:
分别标注所述目标语句中每个所述目标方面词在所述目标语句中所处的位置,具体包括:
以所述目标方面词为标注对象,利用词语标识标签给所述目标语句中每个单词标注一个方面词标签,所有单词的所述方面词标签构成方面标签序列。
进一步的,所述马尔可夫决策过程模型构建过程为:
构建包括状态空间、动作空间、奖励策略、转移函数、价值函数、策略函数的马尔可夫决策过程初始模型;
构建训练语句,利用所述训练语句中的每个单词构建训练多路异构图,获取所述训练语句中的训练方面词与训练观点词,分别标注所述训练方面词与所述训练观点词在所述训练语句中的位置,获得所述训练语句中每个单词的方面词标签、所述训练语句中每个单词的观点词标签、训练语句的方面标签序列及训练语句的观点标签序列;
利用所述训练语句对所述马尔可夫决策过程初始模型进行训练,得到所述马尔可夫决策过程模型;
其中,所述状态空间包含有各个时刻的状态,所述动作空间包含各个时刻的状态下可以执行的动作。
进一步的,所述状态空间、所述动作空间、所述奖励策略、所述转移函数、所述价值函数、所述策略函数的表达为:
其中,表示到t时刻所走过的历史路径,表示目标语句或训练语句,w表示中的单词,表示目标多路异构图或训练多路异构图,为方面标签序列,ex为x时刻选择的边e,e∈ε,ε为包含顺序边及句法边的边集合,wφ(x)为x时刻选择ex到达的单词,为给单词wφ(x)预测的观点词标签;
奖励策略:采用延迟奖励策略,由终止奖励来评判整条路径,所述终止奖励的评判要素包括探索奖励、准确奖励和效率奖励:
其中,为探索奖励,为准确奖励,为效率奖励,为终止奖励,no为训练语句中训练观点词的单词数量,为历史路径里命中的训练观点词的单词数量,nc为历史路径正确预测的观点词标签数量,nsyn和nseq为历史路径里句法边和顺序边的数量,β为平衡选择倾向性的超参;
价值函数:用Vθ表示所述价值函数,计算所述状态的价值,针对状态st,有:
st=BiGRU(st-1,ht;θgru);
Vθ(st)=MLP(st;θv);
其中Vθ(st)表示状态st的价值,st为状态st的向量表达,st-1为状态st-1的向量表达,ht为从st-1转移到st所执行的动作at-1的向量表达,et为边et的向量表达,边et为历史动作at-1中所选择的边;wφ(t)为wφ(t)的词向量表达,wφ(t)为动作at-1选择边et所到达的单词,为针对单词wφ(t)预测的观点词标签的向量表达,为wφ(t)的方面词标签的向量表达,为连接符号,θgru为双向循环神经网络的参数,θstep和θv为两个多层感知器的参数;
其中πθ(a|st)为状态st下动作a的概率,ha为动作a的向量表达,ha′为动作a′的向量表达,e为边e的向量表达,lo为给单词w预测的观点词标签的向量表达,la为单词w的方面词标签的向量表达,w′是单词w经所述信息填充之后生成的新的词向量;θπ、θstop是两个多层感知器的参数。
进一步的,所述对马尔可夫决策过程初始模型进行训练包括:
在包含有所述训练多路异构图的信息的所述状态空间进行至少一次搜索,得到至少一条完整的路径,其中每条路径中每个所述状态利用蒙特卡洛树搜索进行动作决策;
其中,ρ控制l2正则;
利用所述训练语句对训练后的马尔可夫决策过程初始模型进行再次训练,直至达到预设条件,得到马尔可夫决策过程模型。
进一步的,所述其中每条路径中每个所述状态利用蒙特卡洛树搜索进行动作决策,包括:
以状态为所述蒙特卡洛树搜索中的搜索节点,执行蒙特卡洛树搜索步骤,直至达到预设的最大模拟时间;
计算蒙特卡洛树搜索步骤中模拟选择的每一个动作的搜索策略概率,根据得到的所述搜索策略概率随机选择一个动作执行,得到另一个状态,以所述另一个状态为下一次执行蒙特卡洛树搜索步骤的根节点,继续执行所述蒙特卡洛树搜索步骤,直至得到一条完整的路径;
其中,所述蒙特卡洛树搜索步骤包括:
从根节点出发,模拟选择动作,直至到达一个叶子节点;
响应于确定所述叶子节点为终止节点,利用终止奖励评估所述叶子节点的价值,递归更新模拟选择的历史路径中所有所述搜索节点的动作价值和访问次数,然后回到根节点,从根节点重新出发,继续模拟选择动作,直至再次到达一个叶子节点,判断再次到达的叶子节点是否为终止节点;
响应于确定所述叶子节点不为终止节点,利用价值函数评估所述叶子节点的价值,递归更新模拟选择的历史路径中所有所述搜索节点的动作价值和访问次数,对所述叶子节点进行扩展,得到新的搜索节点,并对所述新的搜索节点进行初始化,然后回到根节点,从根节点重新出发,继续模拟选择动作,直至再次到达一个叶子节点,判断再次到达的叶子节点是否为终止节点。
进一步的,所述应用所述马尔可夫决策过程模型在所述目标多路异构图上进行探索,抽取所述目标语句中所述目标方面词所对应的目标观点词包括:
所述马尔可夫决策过程模型从给定的所述目标方面词在所述目标多路异构图中所对应的节点开始选择,利用策略函数计算当前状态下可选择执行的所有动作的概率,选择概率最大的动作在所述目标多路异构图中执行,得到一个新的状态;
继续利用策略函数计算新的状态下可选择执行的所有动作的概率,并继续选择概率最大的动作执行,直至达到终止条件,获得所述目标方面词所对应的目标观点词。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现一种语句中方面词对应的观点词抽取方法。
从上面所述可以看出,本公开提供的一种语句中方面词对应的观点词抽取方法及电子设备,具有以下有益效果:
利用构建的马尔可夫决策过程模型在目标多路异构图中探索,将目标方面词的目标观点词抽取转化为一个马尔可夫决策过程(MDP),提供了一种观点词抽取的新方法;同时目标多路异构图中包含有目标语句的句法结构信息,有效缩目标方面词和目标观点词之间的距离,有效解决目前面临的目标方面词和目标观点词距离较远时难以准确抽取目标观点词的问题,实现目标观点词的准确抽取。
附图说明
为了更清楚地说明本公开或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本公开一个或多个实施例的语句中方面词对应的观点词抽取方法流程图;
图2位本公开一个或多个实施例的目标(训练)多路异构图构建过程示意图;
图3为本公开一个或多个实施例的马尔可夫决策过程初始模型在所述训练多路异构图中的探索过程示意图;
图4为本公开一个或多个实施例的语句中方面词对应的观点词抽取装置结构示意图;
图5为本公开一个或多个实施例的电子设备结构示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
需要说明的是,除非另外定义,本公开实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
面向目标的观点词抽取(Target-oriented Opinion Word Extraction,TOWE)是一个细粒度的情感分析任务,能对一个评论中某一个方面的观点词进行抽取,从而可以得到用户个人在这个事物方面产生情感、发表看法的具体原因。例如:给出例句“Itabsolutely is more expensive than most PC laptops,but the ease of use,security,and minimal problems that have arisen make it well worth the pricetag.”,其中方面词有“use”和“price tag”,观点词有“ease”和“well worth”。在TOWE任务中,当给出方面词“use”时,任务目标是抽取对应的观点词“ease”;给出方面词“price tag”时,任务目标是抽取“well worth”。
TOWE任务可以帮助分析者快速获得很多细节信息,具有很大的实用价值,尤其在情感分析、观点总结等方面有着重要的应用。因此,越来越多的人设计模型去进行TOWE任务,进行观点词的精确抽取,但现有的方法均存在一定的问题。在面临方面词和观点词距离较远时,现有的模型均表现欠佳,难以做到观点词的准确抽取。
基于上述情况,本发明提供了一种语句中方面词对应的观点词抽取方法,可以实现方面词和观点词距离较远情况下的观点词精确抽取,如图1所示,包括:
步骤101,获取目标语句的句法结构信息和顺序结构信息,针对每一个所述目标语句构建一个包含所述句法结构信息及所述顺序结构信息的目标多路异构图,其中,所述目标多路异构图的节点对应为所述目标语句中的每个单词。
步骤102,获取给定的所述目标语句中的目标方面词。
步骤103,获取预先构建的马尔可夫决策过程模型。
步骤104,应用所述马尔可夫决策过程模型在所述目标多路异构图上进行探索,抽取所述目标语句中所述目标方面词所对应的目标观点词。
通过构建包含句法结构信息和顺序结构信息的目标多路异构图,如图2所示,可以有效缩短目标语句中目标方面词和目标观点词之间的距离,有效解决目标方面词和目标观点词距离较远时难以准确抽取目标观点词的问题,从而提高目标方面词对应的目标观点词抽取准确性。
在一些实施例中,步骤101中,每个所述目标多路异构图中包括:
根据所述目标语句的顺序结构设置在每相邻两个所述节点之间的顺序边;
根据句法依存树在有句法关系的两个所述节点之间设置的句法边;
和/或,所述目标多路异构图中每个所述节点设有一个自循环边。
在面临目标方面词与目标观点词距离较远的时候,句法边可以有效缩短目标方面词与其对应的目标观点词之间的距离,提高目标观点词抽取的准确度与效率。
在一些实施例中,目标多路异构图包括由所述顺序边构成的顺序子图及由所述句法边构成的句法子图。
ε=εseq∪εsyn;
定义三元组表示单词wi和wj在图中被边连接,定义三元组表示单词wi和wj在图中被边连接;其中i,j∈(1,2,...,n)。自循环边由表示,自循环边被囊括在所述句法子图中,加入一个自循环边其中i∈(1,2,...,n)。
在一些实施例中,在步骤101之后,还包括:
对所述目标多路异构图中各个节点进行信息填充;具体包括:
获取与所述目标多路异构图中各个节点对应的路径长度在预设范围内的所有所述节点的句法信息及顺序信息,将所述句法信息及所述顺序信息填充至所述目标多路异构图中各个对应的节点上;
其中,所述句法信息利用图神经网络(GNN)获取,所述顺序信息利用双相循环神经网络(BiGRU)获取。
针对句法信息填充,预设路径长度可以是一跳节点、两跳节点、三跳节点、四跳节点、五跳节点、六跳节点乃至以上,根据实际情况可做调整,具体不做限制;针对顺序信息填充,预设路径长度也可以根据需求做调整,也可以设置路径长度为目标语句的长度,取整个目标语句的顺序结构信息作为对应节点的顺序信息填充。
当在目标多路异构图中每个节点设一个自循环边,使得GNN在获取句法信息时,可以确保不会遗漏所处单词自身的信息。
马尔可夫决策过程初始模型或马尔可夫决策过程模型还包括智能体,所述智能体用于执行选择的动作。通常情况下,智能体选择动作执行时,是基于目标多路异构图上一跳节点的信息,这样距离较远的信息就容易被忽略掉。因此,利用信息填充去捕捉容易忽略的其他信息,可以更好的引导探索过程,尤其在面临目标方面词和目标观点词距离较远时,也能准确获取目标观点词。
在一些实施例中,利用GNN获取句法信息具体包括:
其中αij表示单词wi与单词wj之间语法边的重要程度,当αij越大时,表示单词wi与单词wj之间语法边越重要,反之,则越不重要;eij是连接单词wi和wj的边的向量表达,Wk是第k层GNN的参数矩阵;当k=0时,定义 最大层数为第丢的词向量为向单词wi填充的句法信息的向量表达
利用BiGRU获取顺序信息具体包括:
最后通过平均的方法将句法信息与顺序信息融合:
w′i为单词wi经信息填充后生成的新的词向量,w′i中包含了更远的信息,可以更好的引导智能体探索出较好的路径,更快和更准确的实现目标观点词的抽取。
在一些实施例中,GNN获取所述目标多路异构图中各节点对应的三跳节点之内的句法信息。
在一些实施例中,在步骤101之后,还包括:
分别标注所述目标语句中每个所述目标方面词在所述目标语句中所处的位置,具体包括:
以所述目标方面词为标注对象,利用词语标识标签给所述目标语句中每个单词标注一个方面词标签,所有单词的所述方面词标签构成方面标签序列。
在一些实施例,所述词语标识标签包括目标词语标签及非目标词语标签。标注时,以语句的顺序结构为标注顺序,当遇到目标词语时,用目标词语标签对目标词语进行标注,当遇到非目标词语时,则用非目标词语标签进行标注。以标注目标方面词为例,目标方面词即为需要标注的目标词语,以目标语句的顺序结构为标注方向,遇到目标方面词时,对其标注目标词语标签,当遇到非目标方面词时,对其标注非目标词语标签。
在一些实施例中,所述词语标识标签为BIO标签。
BIO标签包括:B、I、O。其中B表示beginin(开始),I表示inside(中间),O表示other(其它),B、I为目标词语标签,O为非目标词语标签。使用BIO标签进行标注的方法可称为BIO标注法。在一个语句中,通常包括方面词、观点词及其他,以BIO标注法为例针对目标语句进行目标方面词的位置标注时,由于目标方面词可能是一个单词或一个词组,当面临的目标方面词是词组时,目标方面词词组第一个词标为B,词组的其他词标为I,当目标方面词仅为一个单词时,则直接标为B,其他的非目标方面词则标为O,将所有单词的标签按语句中的顺序结构集合则得到方面标签序列。因此,目标语句里的每个单词在方面标签序列里都会有一个方面词标签:B或I或O。
其它能够实现标注目标语句中每个所述目标方面词在所述目标语句中所处的位置的方法,也可应用在本发明中,具体不做限制。
在一些实施例中,所述马尔可夫决策过程模型构建过程为:
步骤201,构建包括状态空间、动作空间、奖励策略、转移函数、价值函数、策略函数的马尔可夫决策过程初始模型。
步骤201,构建训练语句,利用所述训练语句中的每个单词构建训练多路异构图,获取所述训练语句中的训练方面词与训练观点词,分别标注所述训练方面词与所述训练观点词在所述训练语句中的位置,获得所述训练语句中每个单词的方面词标签、所述训练语句中每个单词的观点词标签、训练语句的方面标签序列及训练语句的观点标签序列。
步骤203,利用所述训练语句对所述马尔可夫决策过程初始模型进行训练,得到所述马尔可夫决策过程模型。
其中,所述状态空间包含有各个时刻的状态,所述动作空间包含各个时刻的状态下可以执行的动作。
各个时刻的状态包括有该状态下的信息数据,各个时刻的状态可以执行的动作包括有动作信息数据。
得到的马尔可夫决策过程初始模型一开始是无法在多路异构图中游走探索的,因此,需要利用训练语句进行训练,使其学会如何在目标多路异构图中探索、游走,马尔可夫决策过程初始模型在所述训练多路异构图中的探索过程,如图3所示。针对训练语句,利用与所述目标语句一样的方法,构建训练多路异构图,得到训练语句的训练方面词、每个训练方面词的方面词标签、方面标签序列。相较于目标语句不同的是,需给出训练语句中每个训练观点词及其对应的观点词标签和观点标签序列,并以此作为正确答案,来与马尔可夫决策过程初始模型预测的结果进行比较,从而评判马尔可夫决策过程初始模型的训练观点词抽取准确度,经过一定的训练后,得到最终的马尔可夫决策过程模型。其中,训练观点词的观点词标签和观点标签序列采用与目标方面词的方面词标签及方面标签序列一样的方式获得。
定义马尔可夫决策过程初始模型所有可学习的参数为θ。
在一些实施例中,步骤201中,所述状态空间、所述动作空间、所述奖励策略、所述转移函数、所述价值函数、所述策略函数的表达为:
其中,表示到t时刻所走过的历史路径,记录了每个时刻x的动作信息,表示目标语句或训练语句,w表示中的单词,表示目标多路异构图或训练多路异构图,为方面标签序列,ex为x时刻选择的边e,e∈ε,ε为包含顺序边及句法边的边集合,wφ(x)为x时刻选择ex到达的单词,为给单词wφ(x)预测的观点词标签;
其中,为单词集合,lo为观点词标签,为词语标识标签,wφ(t)表示在t时刻所到达的单词;在t时刻的动作空间集合中,把历史路径中已经存在的单词去除,不允许走回到历史路径中已经存在的单词,可以让智能体更多关注与探索新单词。当智能体需要执行动作时,它就将从单词wφ(t)起始,通过边et+1移动到单词wφ(t+1),并且预测wφ(t+1)的观点词标签为当智能体认为所有的目标观点词或训练观点词都被探索过了,就会选择STOP动作停止探索新单词。
(3)奖励策略:采用延迟奖励策略,由终止奖励来评判整条路径,所述终止奖励的评判要素包括探索奖励、准确奖励和效率奖励:
其中,为探索奖励,为准确奖励,为效率奖励,为终止奖励,no为训练语句中训练观点词的单词数量,为历史路径里命中的训练观点词的单词数量,nc为历史路径正确预测的观点词标签数量,nsyn和nseq为历史路径里句法边和顺序边的数量,β为平衡选择倾向性的超参。
当β越大时,则意味着鼓励智能体多走顺序边,通过调节β可以调节智能体的选择倾向性,β的取值范围在0~1之间,可以为0.1、0.2、0.15、0.3、0.4、0.5、0.7、0.76、0.8、0.9、0.95等值,只要落在0~1之间即可,具体不做限制。
可选的,控制β在0.3~0.4之间。
将和相乘,表示要求智能体既要路过训练观点词,又要识别出训练观点词,才能得到一个更好的奖励,以此来让智能体可以探索到所有的训练观点词并预测正确标签,但当智能走过的路径很长时,将会收到的惩罚,走的路径越长,则会收到更多的惩罚。当nsyn+nseq=0时,代表智能体拒绝在训练多路异构图上探索,定义对其进行惩罚。
执行动作at后,状态st变化为状态st+1,状态st+1中的历史路径包含有动作at的信息及状态st的历史路径的信息;其中,动作at中包含的信息为选择边et+1到达wφ(t+1)单词,并给wφ(t+1)单词预测观点词标签et+1∈ε,at也可能为{STOP},表示智能体选择停止,结束探索。
(5)价值函数:用Vθ表示所述价值函数,计算所述状态的价值,针对状态st,有:
st=BiGRU(st-1,ht;θgru);
Vθ(st)=MLP(st;θv);
其中Vθ(st)表示状态st的价值,st为状态st的向量表达,st-1为状态st-1的向量表达,ht为st-1到st所执行的动作at-1的向量表达,et为边et的向量表达,边et为动作at-1中所选择的边;wφ(t)为wφ(t)的词向量,wφ(t)为动作at-1选择边et所到达的单词,为针对单词wφ(t)预测的观点词标签的向量表达,为wφ(t)的方面词标签的向量表达,为连接符号,θgru为双向循环神经网络(BiGRU)的参数,θstep和θv为两个多层感知器(MLP)的参数。
其中πθ(a|st)为状态st下动作a的概率,ha为动作a的向量表达,ha′为动作a′的向量表达,e为边e的向量表达,lo为给单词w预测的观点词标签的向量表达,la为单词w的方面词标签的向量表达,w′是单词w经所述信息填充之后生成的新的词向量;θπ、θstop是两个多层感知器(MLP)的参数。
在一些实施例中,步骤203包括:
步骤2031,在包含有所述训练多路异构图的信息的状态空间进行至少一次搜索,得到至少一条完整的路径,其中每条路径中每个所述状态利用蒙特卡洛树搜索(MCTS)进行动作决策。
其中,ρ控制l2正则。
步骤2034,利用所述语句对训练后的马尔可夫决策过程初始模型进行再次训练,直至达到预设条件,得到马尔可夫决策过程模型。
在此过程中,当利用MCTS最终决策选择状态空间的STOP动作时,或者达到了预设的最大探索时间时,视为一次搜索,此时得到的路径即为一个完整的路径。
需学习参数包括:θgru、,θst.p、θv、θπ、θstop、Wk。
由于在最开始时,智能体不知道如何在目标多路异构图上进行推理,因此,利用MCTS在整个状态空间进行启发式搜索,可以帮助智能体优化、学习,使得马尔可夫决策过程初始模型可以得到更多的好的路径,进而使得训练后最终得到的马尔可夫决策过程模型在正式应用时可以得到更多好的路径,提升目标观点词的抽取效果。
在对马尔可夫决策过程初始模型进行训练的过程中,可以在得到一条完整的路径数据之后,即刻让需学习参数进行学习,也可以在获得多条完整的路径数据后再进行学习。
通常,评估一个马尔可夫决策过程初始模型是否为一个可以正式应用于目标方面词的抽取,可以从精确率、召回率和F1值这几个维度来评估,当达到了预设的要求后,则视为其可以作为最终的马尔可夫决策过程模型应用于目标语句中对目标观点词的抽取。
在一些实施例中,ρ控制l2正则在0~1之间,可选的,可控制在1×10-5。
在一些实施例中,步骤2031中,所述其中每条路径中每个所述状态利用蒙特卡洛树搜索进行动作决策,包括:
步骤20311,以状态为所述蒙特卡洛树搜索中的搜索节点,执行蒙特卡洛树搜索步骤,直至达到预设的最大模拟时间。
步骤20312,计算蒙特卡洛树搜索步骤中模拟选择的每一个动作的搜索策略概率,根据得到的所述搜索策略概率随机选择一个动作执行,得到另一个状态,以所述另一个状态为下一次执行蒙特卡洛树搜索步骤的根节点,继续执行所述蒙特卡洛树搜索步骤,直至得到一条完整的路径。
其中,所述蒙特卡洛树搜索步骤包括:
从根节点出发,模拟选择动作,直至到达一个叶子节点;
响应于确定所述叶子节点为终止节点,利用终止奖励评估所述叶子节点的价值,递归更新模拟选择的历史路径中所有所述搜索节点的动作价值和访问次数,然后回到根节点,从根节点重新出发,继续模拟选择动作,直至再次到达一个叶子节点,判断再次到达的叶子节点是否为终止节点;
响应于确定所述叶子节点不为终止节点,利用价值函数评估所述叶子节点的价值,递归更新模拟选择的历史路径中所有所述搜索节点的动作价值和访问次数,对所述叶子节点进行扩展,得到新的搜索节点,并对所述新的搜索节点进行初始化,然后回到根节点,从根节点重新出发,继续模拟选择动作,直至再次到达一个叶子节点,判断再次到达的叶子节点是否为终止节点。
在第一执行蒙特卡洛树搜索步骤时,初始状态为根节点,在选择一个动作执行后,得到另一个状态后,另一个状态为下一次蒙特卡洛树搜索步骤的根节点。
在蒙特卡洛树搜索步骤中,所述从根节点出发,模拟选择动作,直至到达一个叶子节点,根据以下公式模拟选择动作:
at=argmaxa(Q(st,a)+U(st,a));
其中Q(st,a)为动作价值,U(st,a)为不确定性预测,P(a|st)为先验概率,N(st,a)为访问次数,为所有访问次数的求和,c为控制MCTS探索等级的超参,在此计算过程中,将经策略函数πθ计算得到的值视为先验概率;c的取值范围为大于0,可以为:0.1、0.6、1、1.4、1.7、2、2.6、3、3.5、4、4.8、5、5.1、6、6.6、7、7.3、8、9、10乃至10以上。
在蒙特卡洛树搜索步骤中,评估所述叶子节点的价值V(st)为:
所述终止节点表示该所述叶子节点之后无可选择执行的动作。所述递归更新模拟选择的历史路径中所有所述搜索节点的动作价值和访问次数,为:
N(s,a)←N(s,a)+1。
初始化所述新的搜索节点包括:P(a|st)=πθ(a|st),N(st,a)=0,Q(st,a)=0。
所述计算模拟选择的每一个动作的搜索策略概率,所述搜索策略概率的计算是通过将每一个模拟选择的动作的访问数N(s,a)输入到一个带有温度系数τ的softmax函数来进行的,搜索策略概率πe(at|st)的计算公式为:
其中,τ为温度系数,τ的取值大于0,可以为:0.2、0.5、0.7、1、1.5、2、2.6、3、4、5乃至以上,根据具体的情况可以做调整,具体不做限制。
在此过程中,搜索策略概率大的动作更容易在被马尔可夫决策过程初始模型训练过程中被智能体选择,搜索策略概率小的更不容易被智能体选择,在执行初期,由于很多搜索节点都未在蒙特卡洛树搜索步骤中被探索过,因此,此时智能体更倾向于选择一些可以到达未被探索过的搜索节点的动作。
在一些实施例中,步骤104中,所述应用所述马尔可夫决策过程模型在所述目标多路异构图上进行探索,抽取所述目标语句中所述目标方面词所对应的目标观点词包括:
所述马尔可夫决策过程模型从给定的所述目标方面词在所述目标多路异构图中所对应的节点开始选择,利用策略函数计算当前状态下可选择执行的所有动作的概率,选择概率最大的动作在所述目标多路异构图中执行,得到一个新的状态;
继续利用策略函数计算新的状态下可选择执行的所有动作的概率,并继续选择概率最大的动作执行,直至达到终止状态,获得所述目标方面词所对应的目标观点词。
在运用马尔可夫决策过程模型在目标多路异构图上探索进行目标观点词的抽取时,根据策略函数计算出的每一个状态下可执行的所有动作的概率,选择概率最大的动作执行,即直至达到终止状态sT,即智能体选择了STOP状态或达到了预设的最大执行时间,基于智能体走过的历史路径生成一个预测的观点标签序列预测的观点标签序列里的观点词标签是按照时间顺序进行排列的,即在x时刻走过的单词的观点词标签为这个观点词标签在预测的观点标签序列中位于第φ(x)个。预测的观点标签序列中,对于其余那些在句子中却不在路径中的那些单词,视为非观点词,用非目标词语标签填补,以BIO标注法为例,用BIO标签中的O来填补。通过预测的观点标签序列根据词语标识标签获取对应的目标观点词,以BIO标注法为例,中观点词标签为B的单词及紧跟B标签的I标签所对应的单词即为要抽取的目标观点词。
本发明提供的语句中方面词对应的观点词抽取方法,利用构建的马尔可夫决策过程模型在目标多路异构图中探索,将目标方面词的目标观点词抽取转化为一个马尔可夫决策过程(MDP),提供了一种观点词抽取的新方法;同时目标多路异构图中包含有目标语句的句法结构信息,有效缩目标方面词和目标观点词之间的距离,有效解决目前面临的目标方面词和目标观点词距离较远时难以准确抽取目标观点词的问题,实现目标观点词的准确抽取。同时对目标多路异构图中的各个节点进行信息填充,捕捉目标多路异构图中位于远处的所述节点的信息,更好的引导探索,在面临目标方面词和目标观点词距离较远时,进一步提高目标观点词获取的准确性。进一步利用蒙特卡洛树搜索对马尔可夫决策过程初始模型进行训练,训练后得到的马尔可夫决策过程模型在目标多路异构图中探索时更容易得到好的路径,从而进一步提高目标观点词抽取的准确性与效率。
需要说明的是,本公开实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本公开实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本公开的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
基于同一发明构思,与上述任意实施例方法相对应的,本公开还提供了一种语句中方面词对应的观点词抽取装置。
参考图4,所述语句中方面词对应的观点词抽取装置,包括:
第一构建模块401,用以获取目标语句的句法结构信息和顺序结构信息,针对每一个所述目标语句构建一个包含所述句法结构信息及所述顺序结构信息的目标多路异构图,其中,所述目标多路异构图的每个节点对应为所述目标语句中的每个单词;
第一获取模块402,用以获取给定的所述目标语句中的目标方面词;
第二获取模块403,用以获取预先构建的马尔可夫决策过程模型;
应用模块404,用以应用所述马尔可夫决策过程模型在所述目标多路异构图上进行探索,抽取所述目标语句中所述目标方面词所对应的目标观点词。
在一些实施例中,所述第一构建模块401构建的每个所述目标多路异构图中包括:
根据所述目标语句的顺序结构设置在每相邻两个所述节点之间的顺序边;
根据句法依存树在有句法关系的两个所述节点之间设置的句法边;
和/或,所述目标多路异构图中每个所述节点设有一个自循环边。
在一些实施例中,装置还包括信息填充模块,用以在所述获取目标语句的句法结构信息和顺序结构信息,针对每一个所述目标语句构建一个包含所述句法结构信息及所述顺序结构信息的目标多路异构图之后,对所述目标多路异构图中各个节点进行信息填充;
具体包括:
获取与所述目标多路异构图中各个节点对应的路径长度在预设范围内的所有所述节点的句法信息及顺序信息,将所述句法信息及所述顺序信息填充至所述目标多路异构图中各个对应的节点上;
其中,所述句法信息利用图神经网络获取,所述顺序信息利用双相循环神经网络获取。
在一些实施例中,装置还包括标注模块,用以在所述获取目标语句的句法结构信息和顺序结构信息,针对每一个所述目标语句构建一个包含所述句法结构信息及所述顺序结构信息的目标多路异构图之后,分别标注所述目标语句中每个所述目标方面词在所述目标语句中所处的位置,具体包括:
以所述目标方面词为标注对象,利用词语标识标签给所述目标语句中每个单词标注一个方面词标签,所有单词的所述方面词标签构成方面标签序列。
在一些实施例中,装置还包括第二构建模块,用以构建所述马尔可夫决策过程模型,具体包括:
构建包括状态空间、动作空间、奖励策略、转移函数、价值函数、策略函数的马尔可夫决策过程初始模型;
构建训练语句,利用所述训练语句中的每个单词构建训练多路异构图,获取所述训练语句中的训练方面词与训练观点词,分别标注所述训练方面词与所述训练观点词在所述训练语句中的位置,获得所述训练语句中每个单词的方面词标签、所述训练语句中每个单词的观点词标签、训练语句的方面标签序列及训练语句的观点标签序列;
利用所述训练语句对所述马尔可夫决策过程初始模型进行训练,得到所述马尔可夫决策过程模型;
其中,所述状态空间包含有各个时刻的状态,所述动作空间包含各个时刻的状态下可以执行的动作。
在一些实施例中,所述第二构建模块构建的所述状态空间、所述动作空间、所述奖励策略、所述转移函数、所述价值函数、所述策略函数的表达为:
其中,表示到t时刻所走过的历史路径,表示目标语句或训练语句,w表示中的单词,表示目标多路异构图或训练多路异构图,为方面标签序列,ex为x时刻选择的边e,e∈ε,ε为包含顺序边及句法边的边集合,wφ(x)为x时刻选择ex到达的单词,为给单词wφ(x)预测的观点词标签;
奖励策略:采用延迟奖励策略,由终止奖励来评判整条路径,所述终止奖励的评判要素包括探索奖励、准确奖励和效率奖励:
其中,为探索奖励,为准确奖励,为效率奖励,为终止奖励,no为训练语句中训练观点词的单词数量,为历史路径里命中的训练观点词的单词数量,nc为历史路径正确预测的观点词标签数量,nsyn和nseq为历史路径里句法边和顺序边的数量,β为平衡选择倾向性的超参;
价值函数:用Vθ表示所述价值函数,计算所述状态的价值,针对状态st,有:
st=BiGRU(st-1,ht;θgru);
Vθ(st)=MLP(st;θv);
其中Vθ(st)表示状态st的价值,st为状态st的向量表达,st-1为状态st-1的向量表达,ht为从st-1转移到st所执行的动作at-1的向量表达,et为边et的向量表达,边et为历史动作at-1中所选择的边;wφ(t)为wφ(t)的词向量,wφ(t)为动作at-1选择边et所到达的单词,为针对单词wφ(t)预测的观点词标签的向量表达,为wφ(t)的方面词标签的向量表达,为连接符号,θgru为双向循环神经网络的参数,θstep和θv为两个多层感知器的参数;
其中πθ(a|st)为状态st下动作a的概率,ha为动作a的向量表达,ha′为动作a′的向量表达,e为边e的向量表达,lo为给单词w预测的观点词标签的向量表达,la为单词w的方面词标签的向量表达,w′是单词w经所述信息填充之后生成的新的词向量;θπ、θstop是两个多层感知器的参数。
在一些实施例中,装置还包括训练模块,用以对所述对马尔可夫决策过程初始模型进行训练,具体包括:
在包含有所述训练多路异构图的信息的所述状态空间进行至少一次搜索,得到至少一条完整的路径,其中每条路径中每个所述状态利用蒙特卡洛树搜索进行动作决策;
其中,ρ控制l2正则;
利用所述训练语句对训练后的马尔可夫决策过程初始模型进行再次训练,直至达到预设条件,得到马尔可夫决策过程模型。
在一些实施例中,所述训练模块用以对所述其中每条路径中每个所述状态利用蒙特卡洛树搜索进行动作决策,包括:
以状态为所述蒙特卡洛树搜索中的搜索节点,执行蒙特卡洛树搜索步骤,直至达到预设的最大模拟时间;
计算蒙特卡洛树搜索步骤中模拟选择的每一个动作的搜索策略概率,根据得到的所述搜索策略概率随机选择一个动作执行,得到另一个状态,以所述另一个状态为下一次执行蒙特卡洛树搜索步骤的根节点,继续执行所述蒙特卡洛树搜索步骤,直至得到一条完整的路径;
其中,所述蒙特卡洛树搜索步骤包括:
从根节点出发,模拟选择动作,直至到达一个叶子节点;
响应于确定所述叶子节点为终止节点,利用终止奖励评估所述叶子节点的价值,递归更新模拟选择的历史路径中所有所述搜索节点的动作价值和访问次数,然后回到根节点,从根节点重新出发,继续模拟选择动作,直至再次到达一个叶子节点,判断再次到达的叶子节点是否为终止节点;
响应于确定所述叶子节点不为终止节点,利用价值函数评估所述叶子节点的价值,递归更新模拟选择的历史路径中所有所述搜索节点的动作价值和访问次数,对所述叶子节点进行扩展,得到新的搜索节点,并对所述新的搜索节点进行初始化,然后回到根节点,从根节点重新出发,继续模拟选择动作,直至再次到达一个叶子节点,判断再次到达的叶子节点是否为终止节点。
在一些实施例中,所述应用模块404用以应用所述马尔可夫决策过程模型在所述目标多路异构图上进行探索,抽取所述目标语句中所述目标方面词所对应的目标观点词包括:
所述马尔可夫决策过程模型从给定的所述目标方面词在所述目标多路异构图中所对应的节点开始选择,利用策略函数计算当前状态下可选择执行的所有动作的概率,选择概率最大的动作在所述目标多路异构图中执行,得到一个新的状态;
继续利用策略函数计算新的状态下可选择执行的所有动作的概率,并继续选择概率最大的动作执行,直至达到终止条件,获得所述目标方面词所对应的目标观点词。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本公开时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的装置用于实现前述任一实施例中相应的语句中方面词对应的观点词抽取方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本公开还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的语句中方面词对应的观点词抽取方法。
图5示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的电子设备用于实现前述任一实施例中相应的语句中方面词对应的观点词抽取方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本公开还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的语句中方面词对应的观点词抽取方法。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的语句中方面词对应的观点词抽取方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本公开实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本公开实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本公开实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本公开实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本公开的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本公开实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本公开的具体实施例对本公开进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本公开实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本公开实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (10)
1.一种语句中方面词对应的观点词抽取方法,包括:
获取目标语句的句法结构信息和顺序结构信息,针对每一个所述目标语句构建一个包含所述句法结构信息及所述顺序结构信息的目标多路异构图,其中,所述目标多路异构图的每个节点对应为所述目标语句中的每个单词;
获取给定的所述目标语句中的目标方面词;
获取预先构建的马尔可夫决策过程模型;
应用所述马尔可夫决策过程模型在所述目标多路异构图上进行探索,抽取所述目标语句中所述目标方面词所对应的目标观点词。
2.根据权利要求1所述的方法,其中,每个所述目标多路异构图中包括:
根据所述目标语句的顺序结构设置在每相邻两个所述节点之间的顺序边;
根据句法依存树在有句法关系的两个所述节点之间设置的句法边;
和/或,所述目标多路异构图中每个所述节点设有一个自循环边。
3.根据权利要求2所述的方法,其中,在所述获取目标语句的句法结构信息和顺序结构信息,针对每一个所述目标语句构建一个包含所述句法结构信息及所述顺序结构信息的目标多路异构图之后,还包括:
对所述目标多路异构图中各个节点进行信息填充;具体包括:
获取与所述目标多路异构图中各个节点对应的路径长度在预设范围内的所有所述节点的句法信息及顺序信息,将所述句法信息及所述顺序信息填充至所述目标多路异构图中各个对应的节点上;
其中,所述句法信息利用图神经网络获取,所述顺序信息利用双相循环神经网络获取。
4.根据权利要求3所述的方法,其中,在所述获取目标语句的句法结构信息和顺序结构信息,针对每一个所述目标语句构建一个包含所述句法结构信息及所述顺序结构信息的目标多路异构图之后,还包括:
分别标注所述目标语句中每个所述目标方面词在所述目标语句中所处的位置,具体包括:
以所述目标方面词为标注对象,利用词语标识标签给所述目标语句中每个单词标注一个方面词标签,所有单词的所述方面词标签构成方面标签序列。
5.根据权利要求4所述的方法,其中,所述马尔可夫决策过程模型构建过程为:
构建包括状态空间、动作空间、奖励策略、转移函数、价值函数、策略函数的马尔可夫决策过程初始模型;
构建训练语句,利用所述训练语句中的每个单词构建训练多路异构图,获取所述训练语句中的训练方面词与训练观点词,分别标注所述训练方面词与所述训练观点词在所述训练语句中的位置,获得所述训练语句中每个单词的方面词标签、所述训练语句中每个单词的观点词标签、训练语句的方面标签序列及训练语句的观点标签序列;
利用所述训练语句对所述马尔可夫决策过程初始模型进行训练,得到所述马尔可夫决策过程模型;
其中,所述状态空间包含有各个时刻的状态,所述动作空间包含各个时刻的状态下可以执行的动作。
6.根据权利要求5所述的方法,其中,所述状态空间、所述动作空间、所述奖励策略、所述转移函数、所述价值函数、所述策略函数的表达为:
其中,表示到t时刻所走过的历史路径,表示目标语句或训练语句,w表示中的单词,表示目标多路异构图或训练多路异构图,为方面标签序列,ex为x时刻选择的边e,e∈ε,ε为包含顺序边及句法边的边集合,wφ(x)为x时刻选择ex到达的单词,为给单词wφ(x)预测的观点词标签;
奖励策略:采用延迟奖励策略,由终止奖励来评判整条路径,所述终止奖励的评判要素包括探索奖励、准确奖励和效率奖励:
其中,为探索奖励,为准确奖励,为效率奖励,为终止奖励,no为训练语句中训练观点词的单词数量,为历史路径里命中的训练观点词的单词数量,nc为历史路径正确预测的观点词标签数量,nsyn和nseq为历史路径里句法边和顺序边的数量,β为平衡选择倾向性的超参;
价值函数:用Vθ表示所述价值函数,计算所述状态的价值,针对状态st,有:
st=BiGRU(st-1,ht;θgru);
Vθ(st)=MLP(st;θv);
其中Vθ(st)表示状态st的价值,st为状态st的向量表达,st-1为状态st-1的向量表达,ht为从st-1转移到st所执行的动作at-1的向量表达,et为边et的向量表达,边et为历史动作at-1中所选择的边;wφ(t)为wφ(t)的词向量,wφ(t)为动作at-1选择边et所到达的单词,为针对单词wφ(t)预测的观点词标签的向量表达,为wφ(t)的方面词标签的向量表达,为连接符号,θgru为双向循环神经网络的参数,θstep和θv为两个多层感知器的参数;
8.根据权利要求7所述的方法,其中,所述其中每条路径中每个所述状态利用蒙特卡洛树搜索进行动作决策,包括:
以状态为所述蒙特卡洛树搜索中的搜索节点,执行蒙特卡洛树搜索步骤,直至达到预设的最大模拟时间;
计算蒙特卡洛树搜索步骤中模拟选择的每一个动作的搜索策略概率,根据得到的所述搜索策略概率随机选择一个动作执行,得到另一个状态,以所述另一个状态为下一次执行蒙特卡洛树搜索步骤的根节点,继续执行所述蒙特卡洛树搜索步骤,直至得到一条完整的路径;
其中,所述蒙特卡洛树搜索步骤包括:
从根节点出发,模拟选择动作,直至到达一个叶子节点;
响应于确定所述叶子节点为终止节点,利用终止奖励评估所述叶子节点的价值,递归更新模拟选择的历史路径中所有所述搜索节点的动作价值和访问次数,然后回到根节点,从根节点重新出发,继续模拟选择动作,直至再次到达一个叶子节点,判断再次到达的叶子节点是否为终止节点;
响应于确定所述叶子节点不为终止节点,利用价值函数评估所述叶子节点的价值,递归更新模拟选择的历史路径中所有所述搜索节点的动作价值和访问次数,对所述叶子节点进行扩展,得到新的搜索节点,并对所述新的搜索节点进行初始化,然后回到根节点,从根节点重新出发,继续模拟选择动作,直至再次到达一个叶子节点,判断再次到达的叶子节点是否为终止节点。
9.根据权利要求5~8任一项所述的方法,其中,所述应用所述马尔可夫决策过程模型在所述目标多路异构图上进行探索,抽取所述目标语句中所述目标方面词所对应的目标观点词包括:
所述马尔可夫决策过程模型从给定的所述目标方面词在所述目标多路异构图中所对应的节点开始选择,利用策略函数计算当前状态下可选择执行的所有动作的概率,选择概率最大的动作在所述目标多路异构图中执行,得到一个新的状态;
继续利用策略函数计算新的状态下可选择执行的所有动作的概率,并继续选择概率最大的动作执行,直至达到终止条件,获得所述目标方面词所对应的目标观点词。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1至9任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110995726.3A CN113901788A (zh) | 2021-08-27 | 2021-08-27 | 语句中方面词对应的观点词抽取方法及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110995726.3A CN113901788A (zh) | 2021-08-27 | 2021-08-27 | 语句中方面词对应的观点词抽取方法及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113901788A true CN113901788A (zh) | 2022-01-07 |
Family
ID=79188254
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110995726.3A Pending CN113901788A (zh) | 2021-08-27 | 2021-08-27 | 语句中方面词对应的观点词抽取方法及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113901788A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116662554A (zh) * | 2023-07-26 | 2023-08-29 | 之江实验室 | 基于异构图卷积神经网络的传染病方面级情感分类方法 |
-
2021
- 2021-08-27 CN CN202110995726.3A patent/CN113901788A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116662554A (zh) * | 2023-07-26 | 2023-08-29 | 之江实验室 | 基于异构图卷积神经网络的传染病方面级情感分类方法 |
CN116662554B (zh) * | 2023-07-26 | 2023-11-14 | 之江实验室 | 基于异构图卷积神经网络的传染病方面级情感分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Henaff et al. | Tracking the world state with recurrent entity networks | |
US11275596B2 (en) | System and method for optimizing a user interface and a system and method for manipulating a user's interaction with an interface | |
US20200410392A1 (en) | Task-aware command recommendation and proactive help | |
CN108875074A (zh) | 基于交叉注意力神经网络的答案选择方法、装置和电子设备 | |
CN106462626A (zh) | 利用深度神经网络对兴趣度建模 | |
CN115659281B (zh) | 一种自适应加速算子融合的方法及装置 | |
CN106294313A (zh) | 学习用于实体消歧的实体及单词嵌入 | |
US10713429B2 (en) | Joining web data with spreadsheet data using examples | |
CN111382573A (zh) | 用于答案质量评估的方法、装置、设备和存储介质 | |
CN110097193A (zh) | 训练模型的方法及系统和预测序列数据的方法及系统 | |
JP2021125217A (ja) | マルチホップ機械読み取りのための潜在質問再定式化および情報蓄積 | |
CN107004163A (zh) | 机器学习中的错误驱动的特征构思 | |
US20210248425A1 (en) | Reinforced text representation learning | |
CN110162609B (zh) | 用于向用户推荐咨询问题的方法及装置 | |
US10055687B2 (en) | Method for creating predictive knowledge structures from experience in an artificial agent | |
CN110689110A (zh) | 处理交互事件的方法及装置 | |
CN110221959A (zh) | 应用程序的测试方法、设备以及计算机可读介质 | |
US11681880B2 (en) | Auto transformation of network data models using neural machine translation | |
CN115186147B (zh) | 对话内容的生成方法及装置、存储介质、终端 | |
CN114600196A (zh) | 特定领域的人类模型协同注释工具 | |
US20240152707A1 (en) | Automated Patent Language Generation | |
CN113901788A (zh) | 语句中方面词对应的观点词抽取方法及电子设备 | |
CN111090765A (zh) | 一种基于缺失多模态哈希的社交图像检索方法及系统 | |
Mahalunkar et al. | Multi-element long distance dependencies: Using SPk languages to explore the characteristics of long-distance dependencies | |
JP2020008836A (ja) | 語彙テーブルの選択方法、装置およびコンピュータ読み取り可能な記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |