CN114970500A - 观点角色标注模型训练方法以及装置 - Google Patents
观点角色标注模型训练方法以及装置 Download PDFInfo
- Publication number
- CN114970500A CN114970500A CN202110188109.2A CN202110188109A CN114970500A CN 114970500 A CN114970500 A CN 114970500A CN 202110188109 A CN202110188109 A CN 202110188109A CN 114970500 A CN114970500 A CN 114970500A
- Authority
- CN
- China
- Prior art keywords
- corpus
- viewpoint
- role
- sample
- holder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 107
- 238000012549 training Methods 0.000 title claims abstract description 72
- 238000000034 method Methods 0.000 title claims abstract description 71
- 230000011218 segmentation Effects 0.000 claims description 31
- 230000015654 memory Effects 0.000 claims description 16
- 239000012634 fragment Substances 0.000 claims description 12
- 238000013519 translation Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 7
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 abstract description 16
- 241000282414 Homo sapiens Species 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- GVGLGOZIDCSQPN-PVHGPHFFSA-N Heroin Chemical compound O([C@H]1[C@H](C=C[C@H]23)OC(C)=O)C4=C5[C@@]12CCN(C)[C@@H]3CC5=CC=C4OC(C)=O GVGLGOZIDCSQPN-PVHGPHFFSA-N 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 229960002069 diamorphine Drugs 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种观点角色标注模型训练方法以及装置。所述方法包括:获得第一观点角色标注模型对应的第一语料样本,第一语料样本标注有第一观点角色标签;将第一语料样本翻译为对应于第二语种的第二语料;根据第一语料样本和第一观点角色标签,对第二语料进行观点角色信息标注,获得第二语料样本,第二语料样本标注有第二观点角色标签;基于第二语料样本进行模型训练,获得第二观点角色标注模型。采用上述方法,可在已有的适用于第一语种的观点角色标注模型的基础上、基于其第一语料样本获得第二语料样本,并训练获得适用于第二语种的第二观点角色标注模型,可实现观点角色识别过程的跨语种应用,增强观点角色识别过程的通用性和易用性。
Description
技术领域
本申请涉及计算机技术领域,具体涉及一种观点角色标注模型训练方法、一种观点角色标注模型训练装置、一种电子设备和一种存储设备。
背景技术
观点角色标注(Opinion Role Labeling)用于分析文本语句中“谁对什么表达了怎样的观点”,主要识别对象包括观点持有者(holder)、表达动词(expression) 以及观点内容(target)三个部分,一般情况下默认已知expression的部分,需识别出holder和target的部分。观点角色标注模型在信息抽取、观点汇总、舆情分析等场景中得到广泛应用,其用于从输入的文本中识别出观点持有者的信息和该观点持有者表达的观点内容,可用于从文本信息中识别出观点相关的重要角色。由于不同语种的文本之间存在差异,因此,不同语种对应不同的观点角色标注模型。如何在已有观点角色标注模型的基础上实现观点角色识别过程的跨语种应用,是目前需要解决的问题。
发明内容
本申请提供一种观点角色标注模型训练方法、装置、电子设备及计算机可读存储介质,以解决现有技术中无法在已有观点角色标注模型的基础上实现观点角色识别过程的跨语种应用的问题。
本申请提供一种观点角色标注模型训练方法,包括:
获得第一观点角色标注模型对应的第一语料样本,所述第一语料样本标注有第一观点角色标签,所述第一观点角色标注模型用于从输入的第一语种文本中识别出第一目标观点持有者及该第一目标观点持有者表达的第一目标观点内容;
将所述第一语料样本翻译为对应于第二语种的第二语料;
根据所述第一语料样本和所述第一观点角色标签,对所述第二语料进行观点角色信息标注,获得第二语料样本,所述第二语料样本标注有第二观点角色标签;
基于所述第二语料样本进行模型训练,获得第二观点角色标注模型,所述第二观点角色模型用于从输入的第二语种文本中识别出第二目标观点持有者及该第二目标观点持有者表达的第二目标观点内容。
作为一种实施方式,所述第一观点角色标签包括:所述第一语料样本中的观点持有者对应的第一观点持有者标签、所述第一语料样本中的表达动词对应的第一表达标签、以及所述第一语料样本中的观点内容对应的第一观点标签;
所述第二观点角色标签包括:所述第二语料样本中的观点持有者对应的第二观点持有者标签、所述第二语料样本中的表达动词对应的第二表达标签、以及所述第二语料样本中的观点内容对应的第二观点标签;其中,所述第一语料样本中的观点持有者与所述第二语料样本中的观点持有者为不同语种对应的相同观点持有者,所述第一语料样本中的表达动词与所述第二语料样本中的表达动词为不同语种对应的相同表达动词,所述第一语料样本中的观点内容与所述第二语料样本中的观点内容为不同语种对应的相同观点内容。
作为一种实施方式,所述根据所述第一语料样本和所述第一观点角色标签,对所述第二语料进行观点角色信息标注,获得第二语料样本,包括:
根据所述第一语料样本中的观点持有者确定出所述第二语料中的观点持有者,根据所述第一语料样本中的表达动词确定出所述第二语料中的表达动词,根据所述第一语料样本中的观点内容确定出所述第二语料中的观点内容;
基于所述第一观点持有者标签对所述第二语料中的观点持有者进行标注,获得所述第二观点持有者标签;基于所述第一表达标签对所述第二语料中的表达动词进行标注,获得所述第二表达标签;基于所述第一观点标签对所述第二语料中的观点内容进行标注,获得所述第二观点标签;
将标注有所述第二观点持有者标签、所述第二表达标签以及所述第二观点标签的所述第二语料确定为所述第二语料样本。
作为一种实施方式,所述方法还包括:分别对所述第一语料样本和所述第二语料进行文本分词处理,并获得所述第一语料样本中各分词与所述第二语料中各分词之间的词对齐概率;
所述根据所述第一语料样本中的观点持有者确定出所述第二语料中的观点持有者,包括:获得所述第二语料中的观点持有者对应的备选文本片段;获得所述第二语料中与所述第一语料样本中的观点持有者所包含的分词对应有最大词对齐概率的分词,并将所述备选文本片段中包含该分词的最短连续文本片段确定为所述第二语料中的观点持有者;
对应的,所述根据所述第一语料样本中的表达动词确定出所述第二语料中的表达动词,包括:获得所述第二语料中、与所述第一语料样本中的表达动词对应有最大词对齐概率的分词所组成的最短连续文本片段,并将该最短连续文本片段确定为所述第二语料中的表达动词;
对应的,所述根据所述第一语料样本中的观点内容确定出所述第二语料中的观点内容,包括:获得所述第二语料中的观点内容对应的备选文本片段;获得所述第二语料中与所述第一语料样本中的观点内容所包含的分词对应有最大词对齐概率的分词,并将所述备选文本片段中包含该分词的最短连续文本片段确定为所述第二语料中的观点内容。
作为一种实施方式,所述方法还包括:分别对所述第一语料样本和所述第二语料进行文本分词处理,并获得所述第一语料样本中各分词与所述第二语料中各分词之间的词对齐概率;
所述根据所述第一语料样本和所述第一观点角色标签,对所述第二语料进行观点角色信息标注,获得第二语料样本,包括:
获得所述第二语料中、与所述第一语料样本中的表达动词对应有最大词对齐概率的分词,并将该分词所组成的文本片段确定为所述第二语料中的表达动词;
确定出所述第一语料样本中与所述表达动词相对应的观点持有者以及观点内容;
获得所述第二语料中与所述第一语料样本中的所述观点持有者所包含的分词对应有最大词对齐概率的分词,并将包含该分词的最短连续文本片段确定为所述第二语料中的观点持有者;
获得所述第二语料中与所述第一语料样本中的所述观点内容所包含的分词对应有最大词对齐概率的分词,并将包含该分词的最短连续文本片段确定为所述第二语料中的观点内容。
作为一种实施方式,所述方法还包括:对所述文本分词处理的准确性进行核对。
作为一种实施方式,所述方法还包括:对确定所述最短连续文本片段的准确性进行核对。
作为一种实施方式,所述方法还包括:对所述最大词对齐概率的准确性进行核对。
作为一种实施方式,在所述将所述第一语料样本翻译为对应于第二语种的第二语料之后,还包括:检测所述将所述第一语料样本翻译为对应于第二语种的第二语料的翻译结果是否有误,和/或,检测所述第二语料是否适用于所述第二语种的用语环境。
作为一种实施方式,所述基于所述第二语料样本进行模型训练,获得第二观点角色标注模型,包括:采用所述第一观点角色标注模型对应的模型框架、并基于所述第二语料样本进行模型训练,获得所述第二观点角色标注模型。
作为一种实施方式,所述模型框架包括:词向量表示层、双向预估编码层以及CRF解码层。
本申请还提供一种观点角色标注模型训练装置,包括:
第一语料样本获得单元,用语获得第一观点角色标注模型对应的第一语料样本,所述第一语料样本标注有第一观点角色标签,所述第一观点角色标注模型用于从输入的第一语种文本中识别出第一目标观点持有者及该第一目标观点持有者表达的第一目标观点内容;
第二语料获得单元,用于将所述第一语料样本翻译为对应于第二语种的第二语料;
第二语料样本获得单元,用于根据所述第一语料样本和所述第一观点角色标签,对所述第二语料进行观点角色信息标注,获得第二语料样本,所述第二语料样本标注有第二观点角色标签;
模型训练单元,用于基于所述第二语料样本进行模型训练,获得第二观点角色标注模型,所述第二观点角色模型用于从输入的第二语种文本中识别出第二目标观点持有者及该第二目标观点持有者表达的第二目标观点内容。
作为一种实施方式,所述第一观点角色标签包括:所述第一语料样本中的观点持有者对应的第一观点持有者标签、所述第一语料样本中的表达动词对应的第一表达标签、以及所述第一语料样本中的观点内容对应的第一观点标签;
所述第二观点角色标签包括:所述第二语料样本中的观点持有者对应的第二观点持有者标签、所述第二语料样本中的表达动词对应的第二表达标签、以及所述第二语料样本中的观点内容对应的第二观点标签;其中,所述第一语料样本中的观点持有者与所述第二语料样本中的观点持有者为不同语种对应的相同观点持有者,所述第一语料样本中的表达动词与所述第二语料样本中的表达动词为不同语种对应的相同表达动词,所述第一语料样本中的观点内容与所述第二语料样本中的观点内容为不同语种对应的相同观点内容。
作为一种实施方式,所述第二语料样本获得单元具体用于:
根据所述第一语料样本中的观点持有者确定出所述第二语料中的观点持有者,根据所述第一语料样本中的表达动词确定出所述第二语料中的表达动词,根据所述第一语料样本中的观点内容确定出所述第二语料中的观点内容;
基于所述第一观点持有者标签对所述第二语料中的观点持有者进行标注,获得所述第二观点持有者标签;基于所述第一表达标签对所述第二语料中的表达动词进行标注,获得所述第二表达标签;基于所述第一观点标签对所述第二语料中的观点内容进行标注,获得所述第二观点标签;
将标注有所述第二观点持有者标签、所述第二表达标签以及所述第二观点标签的所述第二语料确定为所述第二语料样本。
作为一种实施方式,所述装置还包括:
词对齐概率获得单元,用于分别对所述第一语料样本和所述第二语料进行文本分词处理,并获得所述第一语料样本中各分词与所述第二语料中各分词之间的词对齐概率;
所述根据所述第一语料样本中的观点持有者确定出所述第二语料中的观点持有者,包括:获得所述第二语料中的观点持有者对应的备选文本片段;获得所述第二语料中与所述第一语料样本中的观点持有者所包含的分词对应有最大词对齐概率的分词,并将所述备选文本片段中包含该分词的最短连续文本片段确定为所述第二语料中的观点持有者;
对应的,所述根据所述第一语料样本中的表达动词确定出所述第二语料中的表达动词,包括:获得所述第二语料中、与所述第一语料样本中的表达动词对应有最大词对齐概率的分词所组成的最短连续文本片段,并将该最短连续文本片段确定为所述第二语料中的表达动词;
对应的,所述根据所述第一语料样本中的观点内容确定出所述第二语料中的观点内容,包括:获得所述第二语料中的观点内容对应的备选文本片段;获得所述第二语料中与所述第一语料样本中的观点内容所包含的分词对应有最大词对齐概率的分词,并将所述备选文本片段中包含该分词的最短连续文本片段确定为所述第二语料中的观点内容。
作为一种实施方式,所述装置还包括:
词对齐概率获得单元,用于分别对所述第一语料样本和所述第二语料进行文本分词处理,并获得所述第一语料样本中各分词与所述第二语料中各分词之间的词对齐概率;
所述第二语料样本获得单元具体用于:
获得所述第二语料中、与所述第一语料样本中的表达动词对应有最大词对齐概率的分词,并将该分词所组成的文本片段确定为所述第二语料中的表达动词;
确定出所述第一语料样本中与所述表达动词相对应的观点持有者以及观点内容;
获得所述第二语料中与所述第一语料样本中的所述观点持有者所包含的分词对应有最大词对齐概率的分词,并将包含该分词的最短连续文本片段确定为所述第二语料中的观点持有者;
获得所述第二语料中与所述第一语料样本中的所述观点内容所包含的分词对应有最大词对齐概率的分词,并将包含该分词的最短连续文本片段确定为所述第二语料中的观点内容。
作为一种实施方式,所述装置还包括:
文本分词准确性核对单元,用于对所述文本分词处理的准确性进行核对。
作为一种实施方式,所述装置还包括:
文本片段准确性核对单元,用于对确定所述最短连续文本片段的准确性进行核对。
作为一种实施方式,所述装置还包括:
词对齐概率准确性核对单元,用于对所述最大词对齐概率的准确性进行核对。
作为一种实施方式,所述装置还包括:
检测单元,用于在所述将所述第一语料样本翻译为对应于第二语种的第二语料之后,检测所述将所述第一语料样本翻译为对应于第二语种的第二语料的翻译结果是否有误,和/或,检测所述第二语料是否适用于所述第二语种的用语环境。
作为一种实施方式,所述模型训练单元具体用于:采用所述第一观点角色标注模型对应的模型框架、并基于所述第二语料样本进行模型训练,获得所述第二观点角色标注模型。
作为一种实施方式,所述模型框架包括:词向量表示层、双向预估编码层以及CRF解码层。
本申请实施例还提供一种电子设备,包括:
处理器;以及
存储器,用于存储观点角色标注模型训练方法的程序,该设备通电并通过所述处理器运行该观点角色标注模型训练方法的程序后,执行下述步骤:
获得第一观点角色标注模型对应的第一语料样本,所述第一语料样本标注有第一观点角色标签,所述第一观点角色标注模型用于从输入的第一语种文本中识别出第一目标观点持有者及该第一目标观点持有者表达的第一目标观点内容;
将所述第一语料样本翻译为对应于第二语种的第二语料;
根据所述第一语料样本和所述第一观点角色标签,对所述第二语料进行观点角色信息标注,获得第二语料样本,所述第二语料样本标注有第二观点角色标签;
基于所述第二语料样本进行模型训练,获得第二观点角色标注模型,所述第二观点角色模型用于从输入的第二语种文本中识别出第二目标观点持有者及该第二目标观点持有者表达的第二目标观点内容。
本申请还提供一种存储设备,存储有观点角色标注模型训练方法的程序,该程序被处理器运行,执行下述步骤:
获得第一观点角色标注模型对应的第一语料样本,所述第一语料样本标注有第一观点角色标签,所述第一观点角色标注模型用于从输入的第一语种文本中识别出第一目标观点持有者及该第一目标观点持有者表达的第一目标观点内容;
将所述第一语料样本翻译为对应于第二语种的第二语料;
根据所述第一语料样本和所述第一观点角色标签,对所述第二语料进行观点角色信息标注,获得第二语料样本,所述第二语料样本标注有第二观点角色标签;
基于所述第二语料样本进行模型训练,获得第二观点角色标注模型,所述第二观点角色模型用于从输入的第二语种文本中识别出第二目标观点持有者及该第二目标观点持有者表达的第二目标观点内容。
与现有技术相比,本申请具有以下优点:
本申请提供一种观点角色信息标注模型训练方法,包括:获得第一观点角色标注模型对应的第一语料样本,第一语料样本标注有第一观点角色标签,第一观点角色标注模型用于从输入的第一语种文本中识别出第一目标观点持有者及该第一目标观点持有者表达的第一目标观点内容;将第一语料样本翻译为对应于第二语种的第二语料;根据第一语料样本和第一观点角色标签,对第二语料进行观点角色信息标注,获得第二语料样本,第二语料样本标注有第二观点角色标签;基于第二语料样本进行模型训练,获得第二观点角色标注模型,第二观点角色模型用于从输入的第二语种文本中识别出第二目标观点持有者及该第二目标观点持有者表达的第二目标观点内容。通过使用该方法,可在已有的适用于第一语种的观点角色标注模型的基础上、基于其模型训练时使用的第一语料样本获得第二语料样本,并使用该第二语料样本训练获得适用于第二语种的第二观点角色标注模型,可在已有观点角色标注模型的基础上实现观点角色识别过程的跨语种应用,增强观点角色识别过程的通用性和易用性。
附图说明
图1是本申请第一实施例提供的观点角色标注模型训练方法的流程图;
图1-A是本申请第一实施例提供的观点角色信息标注示意图;
图1-B是本申请第一实施例提供的模型框架示意图;
图2是本申请第二实施例提供的模型训练装置的单元框图;
图3是本申请第三实施例提供的电子设备的逻辑结构示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
针对观点角色识别场景,为了在已有观点角色标注模型的基础上实现观点角色识别过程的跨语种应用,增强观点角色识别过程的通用性和易用性,本申请提供了一种观点角色标注模型训练方法、与该方法相对应的观点角色标注模型训练装置、电子设备以及计算机可读存储介质,以下提供实施例对上述方法、装置、电子设备以及计算机可读存储介质进行详细说明。
本申请第一实施例提供一种观点角色标注模型训练方法,其执行主体可以为用于训练获得观点角色标注模型的计算设备应用,以下结合图1进行说明。
如图1所示,在步骤S101中,获得第一观点角色标注模型对应的第一语料样本。
观点角色标注模型用于从输入的文本中识别出观点持有者的信息和该观点持有者表达的观点内容,即,观点角色标注模型能够分析输入文本中“谁对什么表达了怎样的观点”,其在信息抽取、观点分类汇总、舆情分析等场景中得以广泛应用。基于不同语种的文本之间的差异,不同语种对应不同的观点角色标注模型,上述第一观点角色标注模型是指已训练完成的适用于第一语种的观点角色标注模型,即,第一观点角色标注模型用于从输入的第一语种文本中识别出第一目标观点持有者及该第一目标观点持有者表达的第一目标观点内容。第一语料样本为训练上述第一观点角色标注模型时所使用的样本数据,该第一语料样本标注有第一观点角色标签,该第一观点角色标签具体可以是指:第一语料样本中的观点持有者对应的第一观点持有者标签、第一语料样本中的表达动词对应的第一表达标签、以及第一语料样本中的观点内容对应的第一观点标签。例如,第一观点角色标注模型为适用于英文的观点角色标注模型时,其对应的第一语料样本“He then clarified aposture wherein Japan would cooperate with the United States as much aspossible”中,“He”即为观点持有者,其对应的第一观点持有者标签可以为“holder”,“clarified”为表达动词,其对应的第一表达标签可以为“expression”,“A wouldcooperate with B”为观点内容,其对应的第一观点标签可以为“target”。
如图1所示,在步骤S102中,将第一语料样本翻译为对应于第二语种的第二语料。
在上述步骤获得第一观点角色标注模型对应的第一语料样本之后,本步骤用于将第一语料样本翻译为对应于第二语种的第二语料,具体可使用文本翻译应用实现该过程。例如,在本实施例中,第二语种为汉语,将上述第一语料样本“He then clarified aposture wherein A would cooperate with B as much as possible”翻译为第二语料“然后,他澄清了A将尽可能与B合作的态度”。
在本实施例中,在将第一语料样本翻译为对应于第二语种的第二语料之后,还需检测翻译结果是否有误,例如,第一语料样本为“The man had sidelined C afteraccusing him”,翻译后的错误文本为“这位男人在指控C之后退居二线”,因此需对该错误文本进行修改,修改后的第二语料为“在指控C之后,这个男人把他排挤到了一边”。除了上述针对翻译结果是否有误进行检测,还需对翻译获得的第二语料是否适用于第二语种的用语环境进行检测,例如,第一语料样本为“The guards seize 87kg of heroin on theborder”,翻译后的文本为“警卫在边境抓获87公斤海洛因”,该文本与汉语语境的表述不符,修改后的第二语料为“士兵在边境缴获87公斤海洛因”。
如图1所示,在步骤S103中,根据第一语料样本和第一观点角色标签,对第二语料进行观点角色信息标注,获得第二语料样本。
在上述步骤将第一语料样本翻译为对应于第二语种的第二语料之后,本步骤用于根据上述获得的第一语料样本以及该第一语料样本标注的第一观点角色标签,对第二语料进行观点角色信息标注,获得标注有第二观点角色标签的第二语料样本。与上述第一语料样本标注的第一观点角色标签相对应,第二观点角色标签具体可以是指:第二语料样本中的观点持有者对应的第二观点持有者标签、第二语料样本中的表达动词对应的第二表达标签、以及第二语料样本中的观点内容对应的第二观点标签;其中,第一语料样本中的观点持有者与第二语料样本中的观点持有者为不同语种对应的相同观点持有者,第一语料样本中的表达动词与第二语料样本中的表达动词为不同语种对应的相同表达动词,第一语料样本中的观点内容与第二语料样本中的观点内容为不同语种对应的相同观点内容。
以上述第一语料样本“He then clarified a posture wherein A wouldcooperate with tB as much as possible”以及翻译获得的第二语料“然后,他澄清了A将尽可能与B合作的态度”为例,在对第二语料进行观点角色信息标注之后,“他”即为观点持有者,其对应的第二观点持有者标签同样可以为“holder”,“澄清”即为表达动词,其对应的第二表达标签可以为“expression”,“A将尽可能与B 合作”为观点内容,其对应的第二观点标签可以为“target”。
在本实施例中,如图1-A所示,上述根据第一语料样本和第一观点角色标签,对第二语料进行观点角色信息标注、以获得第二语料样本的过程可通过如下两种方式实现:
方式一:
首先,分别对第一语料样本和第二语料进行文本分词处理,并获得第一语料样本中各分词与第二语料中各分词之间的词对齐概率;文本分词处理过程可基于现有的文本分词方法实现,在此不再赘述。词对齐概率是指平行语料单词之间的翻译概率,用于表示第一语料样本中各分词与第二语料中各分词之间的关联强度,具体可基于现有的词对齐模型获得上述第一语料样本中各分词与第二语料中各分词之间的词对齐概率,在此不再赘述。
其次,根据第一语料样本中的观点持有者确定出第二语料中的观点持有者,根据第一语料样本中的表达动词确定出第二语料中的表达动词,根据第一语料样本中的观点内容确定出第二语料中的观点内容。上述根据第一语料样本中的观点持有者确定出第二语料中的观点持有者,具体可以是指:获得第二语料中的观点持有者对应的备选文本片段;获得第二语料中与第一语料样本中的观点持有者所包含的分词对应有最大词对齐概率的分词,并将上述备选文本片段中包含该分词的最短连续文本片段确定为第二语料中的观点持有者。上述根据第一语料样本中的表达动词确定出第二语料中的表达动词,具体可以是指:获得第二语料中、与第一语料样本中的表达动词对应有最大词对齐概率的分词所组成的最短连续文本片段,并将该最短连续文本片段确定为第二语料中的表达动词。上述根据第一语料样本中的观点内容确定出第二语料中的观点内容,具体可以是指:获得第二语料中的观点内容对应的备选文本片段;获得第二语料中与第一语料样本中的观点内容所包含的分词对应有最大词对齐概率的分词,并将该备选文本片段中包含该分词的最短连续文本片段确定为第二语料中的观点内容。
然后,基于第一观点持有者标签对第二语料中的观点持有者进行标注,获得第二观点持有者标签;基于第一表达标签对第二语料中的表达动词进行标注,获得第二表达标签;基于第一观点标签对第二语料中的观点内容进行标注,获得第二观点标签。
最后,将标注有第二观点持有者标签、第二表达标签以及第二观点标签的第二语料确定为第二语料样本。
方式二:
首先,分别对第一语料样本和第二语料进行文本分词处理,并获得第一语料样本中各分词与第二语料中各分词之间的词对齐概率。
其次,获得第二语料中、与第一语料样本中的表达动词对应有最大词对齐概率的分词,并将该分词所组成的文本片段确定为第二语料中的表达动词;
然后,确定出第一语料样本中与表达动词相对应的观点持有者以及观点内容;
再次,获得第二语料中与第一语料样本中的观点持有者所包含的分词对应有最大词对齐概率的分词,并将包含该分词的最短连续文本片段确定为第二语料中的观点持有者;
最后,获得第二语料中与第一语料样本中的观点内容所包含的分词对应有最大词对齐概率的分词,并将包含该分词的最短连续文本片段确定为第二语料中的观点内容。
需要说明的是,在上述确定第二语料中的表达动词、第二语料中的观点持有者、以及第二语料中的观点内容的过程中,还需对文本分词的准确性、对确定所述最短连续文本片段的准确性、以及对最大词对齐概率的准确性进行核对,例如,对于词边界的确定错误(分词是否多字或少字)进行核对,对于最短连续文本片段的边界界定错误(文本片段是否多词或少词)进行核对,对于最大词对齐概率的单词的翻译结果是否相匹配进行核对,以确保观点角色信息标注过程以及后续模型训练过程的精确度。
如图1所示,在步骤S104中,基于第二语料样本进行模型训练,获得第二观点角色标注模型。
在上述步骤根据第一语料样本和第一观点角色标签对第二语料进行观点角色信息标注、获得第二语料样本的基础上,本步骤用于将标注有第二观点角色标签的第二语料样本作为训练样本、进行模型训练,以获得适用于第二语种的第二观点角色标注模型,该第二观点角色标注模型用于从输入的第二语种文本中识别出第二目标观点持有者及该第二目标观点持有者表达的第二目标观点内容。
在本实施例中,上述基于第二语料样本进行模型训练具体可采用所述第一观点角色标注模型对应的模型框架、并基于所述第二语料样本进行模型训练,获得所述第二观点角色标注模型。如图1-B所示,上述模型框架可以为 BiLSTM-CRF模型框架,该模型框架包括词向量表示层、双向预估编码层 (BiLSTM,Bi-directional Long Short-Term Memory)以及CRF解码层。其中,词向量表示层用于对输入文本进行向量化表示,例如,对于每个单词,可通过查询表得到其单词嵌入表示,其中包含了外部预训练产生的矢量表示,并且,将输入文本分解为字段序列后输入预先训练的BERT模型,得到BERT输出的单词级表示(单词级表示也可以通过对每个单词的覆盖词块进行平均池化得到),最后,将单词嵌入表示和单词级表示连接起来,得到最终的词向量表示。 BiLSTM层用于学习序列的上下文信息,CRF解码层用于学习标签之间的依赖信息,BiLSTM由前向LSTM与后向LSTM组合而成,其输入是上述词向量表示,通过学习上下文信息,输出每个单词对应于每个标签的得分概率。CRF为序列标注模型,BiLSTM的输出作为CRF解码层的输入,CRF解码层通过学习标签之间的顺序依赖信息,得到最终的预测结果,其可以通过学习数据集中标签之间的转移概率从而修正BiLSTM层的输出,以此保证预测标签的合理性。
本申请实施例提供的观点角色标注模型训练方法,首先获得第一观点角色标注模型对应的第一语料样本,第一语料样本标注有第一观点角色标签,该第一观点角色标注模型为已训练完成的适用于第一语种的观点角色标注模型,用于从输入的第一语种文本中识别出第一目标观点持有者及该第一目标观点持有者表达的第一目标观点内容;在将第一语料样本翻译为对应于第二语种的第二语料之后,根据第一语料样本和第一观点角色标签,对第二语料进行观点角色信息标注,获得第二语料样本,第二语料样本标注有第二观点角色标签;最后,基于第二语料样本进行模型训练,获得第二观点角色标注模型,第二观点角色模型用于从输入的第二语种文本中识别出第二目标观点持有者及该第二目标观点持有者表达的第二目标观点内容。通过使用该方法,可在已训练完成的适用于第一语种的观点角色标注模型的基础上、基于其模型训练时使用的第一语料样本获得第二语料样本,并使用该第二语料样本训练获得适用于第二语种的第二观点角色标注模型,可在已有观点角色标注模型的基础上实现观点角色识别过程的跨语种应用,增强观点角色识别过程的通用性和易用性。
与本申请第一实施例提供的观点角色标注模型训练方法对应的,本申请第二实施例提供一种观点角色标注模型训练装置。
如图2所示,所述观点角色标注模型训练装置,包括:
第一语料样本获得单元201,用语获得第一观点角色标注模型对应的第一语料样本,所述第一语料样本标注有第一观点角色标签,所述第一观点角色标注模型用于从输入的第一语种文本中识别出第一目标观点持有者及该第一目标观点持有者表达的第一目标观点内容;
第二语料获得单元202,用于将所述第一语料样本翻译为对应于第二语种的第二语料;
第二语料样本获得单元203,用于根据所述第一语料样本和所述第一观点角色标签,对所述第二语料进行观点角色信息标注,获得第二语料样本,所述第二语料样本标注有第二观点角色标签;
模型训练单元204,用于基于所述第二语料样本进行模型训练,获得第二观点角色标注模型,所述第二观点角色模型用于从输入的第二语种文本中识别出第二目标观点持有者及该第二目标观点持有者表达的第二目标观点内容。
作为一种实施方式,所述第一观点角色标签包括:所述第一语料样本中的观点持有者对应的第一观点持有者标签、所述第一语料样本中的表达动词对应的第一表达标签、以及所述第一语料样本中的观点内容对应的第一观点标签;
所述第二观点角色标签包括:所述第二语料样本中的观点持有者对应的第二观点持有者标签、所述第二语料样本中的表达动词对应的第二表达标签、以及所述第二语料样本中的观点内容对应的第二观点标签;其中,所述第一语料样本中的观点持有者与所述第二语料样本中的观点持有者为不同语种对应的相同观点持有者,所述第一语料样本中的表达动词与所述第二语料样本中的表达动词为不同语种对应的相同表达动词,所述第一语料样本中的观点内容与所述第二语料样本中的观点内容为不同语种对应的相同观点内容。
作为一种实施方式,所述第二语料样本获得单元具体用于:
根据所述第一语料样本中的观点持有者确定出所述第二语料中的观点持有者,根据所述第一语料样本中的表达动词确定出所述第二语料中的表达动词,根据所述第一语料样本中的观点内容确定出所述第二语料中的观点内容;
基于所述第一观点持有者标签对所述第二语料中的观点持有者进行标注,获得所述第二观点持有者标签;基于所述第一表达标签对所述第二语料中的表达动词进行标注,获得所述第二表达标签;基于所述第一观点标签对所述第二语料中的观点内容进行标注,获得所述第二观点标签;
将标注有所述第二观点持有者标签、所述第二表达标签以及所述第二观点标签的所述第二语料确定为所述第二语料样本。
作为一种实施方式,所述装置还包括:
词对齐概率获得单元,用于分别对所述第一语料样本和所述第二语料进行文本分词处理,并获得所述第一语料样本中各分词与所述第二语料中各分词之间的词对齐概率;
所述根据所述第一语料样本中的观点持有者确定出所述第二语料中的观点持有者,包括:获得所述第二语料中的观点持有者对应的备选文本片段;获得所述第二语料中与所述第一语料样本中的观点持有者所包含的分词对应有最大词对齐概率的分词,并将所述备选文本片段中包含该分词的最短连续文本片段确定为所述第二语料中的观点持有者;
对应的,所述根据所述第一语料样本中的表达动词确定出所述第二语料中的表达动词,包括:获得所述第二语料中、与所述第一语料样本中的表达动词对应有最大词对齐概率的分词所组成的最短连续文本片段,并将该最短连续文本片段确定为所述第二语料中的表达动词;
对应的,所述根据所述第一语料样本中的观点内容确定出所述第二语料中的观点内容,包括:获得所述第二语料中的观点内容对应的备选文本片段;获得所述第二语料中与所述第一语料样本中的观点内容所包含的分词对应有最大词对齐概率的分词,并将所述备选文本片段中包含该分词的最短连续文本片段确定为所述第二语料中的观点内容。
作为一种实施方式,所述装置还包括:
词对齐概率获得单元,用于分别对所述第一语料样本和所述第二语料进行文本分词处理,并获得所述第一语料样本中各分词与所述第二语料中各分词之间的词对齐概率;
所述第二语料样本获得单元具体用于:
获得所述第二语料中、与所述第一语料样本中的表达动词对应有最大词对齐概率的分词,并将该分词所组成的文本片段确定为所述第二语料中的表达动词;
确定出所述第一语料样本中与所述表达动词相对应的观点持有者以及观点内容;
获得所述第二语料中与所述第一语料样本中的所述观点持有者所包含的分词对应有最大词对齐概率的分词,并将包含该分词的最短连续文本片段确定为所述第二语料中的观点持有者;
获得所述第二语料中与所述第一语料样本中的所述观点内容所包含的分词对应有最大词对齐概率的分词,并将包含该分词的最短连续文本片段确定为所述第二语料中的观点内容。
作为一种实施方式,所述装置还包括:
文本分词准确性核对单元,用于对所述文本分词处理的准确性进行核对。
作为一种实施方式,所述装置还包括:
文本片段准确性核对单元,用于对确定所述最短连续文本片段的准确性进行核对。
作为一种实施方式,所述装置还包括:
词对齐概率准确性核对单元,用于对所述最大词对齐概率的准确性进行核对。
作为一种实施方式,所述装置还包括:
检测单元,用于在所述将所述第一语料样本翻译为对应于第二语种的第二语料之后,检测所述将所述第一语料样本翻译为对应于第二语种的第二语料的翻译结果是否有误,和/或,检测所述第二语料是否适用于所述第二语种的用语环境。
作为一种实施方式,所述模型训练单元具体用于:采用所述第一观点角色标注模型对应的模型框架、并基于所述第二语料样本进行模型训练,获得所述第二观点角色标注模型。
作为一种实施方式,所述模型框架包括:词向量表示层、双向预估编码层以及CRF解码层。
需要说明的是,对于本申请第二实施例提供的装置的详细描述可以参考对本申请第一实施例的相关描述,这里不再赘述。
与本申请第一实施例提供的观点角色标注模型训练方法相对应的,本申请第三实施例提供一种电子设备。
如图3所示,所述电子设备包括:
处理器301;
以及存储器302,用于存储观点角色标注模型训练方法的程序,该设备通电并通过所述处理器运行该观点角色标注模型训练方法的程序后,执行如下步骤:
获得第一观点角色标注模型对应的第一语料样本,所述第一语料样本标注有第一观点角色标签,所述第一观点角色标注模型用于从输入的第一语种文本中识别出第一目标观点持有者及该第一目标观点持有者表达的第一目标观点内容;
将所述第一语料样本翻译为对应于第二语种的第二语料;
根据所述第一语料样本和所述第一观点角色标签,对所述第二语料进行观点角色信息标注,获得第二语料样本,所述第二语料样本标注有第二观点角色标签;
基于所述第二语料样本进行模型训练,获得第二观点角色标注模型,所述第二观点角色模型用于从输入的第二语种文本中识别出第二目标观点持有者及该第二目标观点持有者表达的第二目标观点内容。
作为一种实施方式,所述第一观点角色标签包括:所述第一语料样本中的观点持有者对应的第一观点持有者标签、所述第一语料样本中的表达动词对应的第一表达标签、以及所述第一语料样本中的观点内容对应的第一观点标签;
所述第二观点角色标签包括:所述第二语料样本中的观点持有者对应的第二观点持有者标签、所述第二语料样本中的表达动词对应的第二表达标签、以及所述第二语料样本中的观点内容对应的第二观点标签;其中,所述第一语料样本中的观点持有者与所述第二语料样本中的观点持有者为不同语种对应的相同观点持有者,所述第一语料样本中的表达动词与所述第二语料样本中的表达动词为不同语种对应的相同表达动词,所述第一语料样本中的观点内容与所述第二语料样本中的观点内容为不同语种对应的相同观点内容。
作为一种实施方式,所述根据所述第一语料样本和所述第一观点角色标签,对所述第二语料进行观点角色信息标注,获得第二语料样本,包括:
根据所述第一语料样本中的观点持有者确定出所述第二语料中的观点持有者,根据所述第一语料样本中的表达动词确定出所述第二语料中的表达动词,根据所述第一语料样本中的观点内容确定出所述第二语料中的观点内容;
基于所述第一观点持有者标签对所述第二语料中的观点持有者进行标注,获得所述第二观点持有者标签;基于所述第一表达标签对所述第二语料中的表达动词进行标注,获得所述第二表达标签;基于所述第一观点标签对所述第二语料中的观点内容进行标注,获得所述第二观点标签;
将标注有所述第二观点持有者标签、所述第二表达标签以及所述第二观点标签的所述第二语料确定为所述第二语料样本。
作为一种实施方式,所述电子设备还执行下述步骤:分别对所述第一语料样本和所述第二语料进行文本分词处理,并获得所述第一语料样本中各分词与所述第二语料中各分词之间的词对齐概率;
所述根据所述第一语料样本中的观点持有者确定出所述第二语料中的观点持有者,包括:获得所述第二语料中的观点持有者对应的备选文本片段;获得所述第二语料中与所述第一语料样本中的观点持有者所包含的分词对应有最大词对齐概率的分词,并将所述备选文本片段中包含该分词的最短连续文本片段确定为所述第二语料中的观点持有者;
对应的,所述根据所述第一语料样本中的表达动词确定出所述第二语料中的表达动词,包括:获得所述第二语料中、与所述第一语料样本中的表达动词对应有最大词对齐概率的分词所组成的最短连续文本片段,并将该最短连续文本片段确定为所述第二语料中的表达动词;
对应的,所述根据所述第一语料样本中的观点内容确定出所述第二语料中的观点内容,包括:获得所述第二语料中的观点内容对应的备选文本片段;获得所述第二语料中与所述第一语料样本中的观点内容所包含的分词对应有最大词对齐概率的分词,并将所述备选文本片段中包含该分词的最短连续文本片段确定为所述第二语料中的观点内容。
作为一种实施方式,所述电子设备还执行下述步骤:分别对所述第一语料样本和所述第二语料进行文本分词处理,并获得所述第一语料样本中各分词与所述第二语料中各分词之间的词对齐概率;
所述根据所述第一语料样本和所述第一观点角色标签,对所述第二语料进行观点角色信息标注,获得第二语料样本,包括:
获得所述第二语料中、与所述第一语料样本中的表达动词对应有最大词对齐概率的分词,并将该分词所组成的文本片段确定为所述第二语料中的表达动词;
确定出所述第一语料样本中与所述表达动词相对应的观点持有者以及观点内容;
获得所述第二语料中与所述第一语料样本中的所述观点持有者所包含的分词对应有最大词对齐概率的分词,并将包含该分词的最短连续文本片段确定为所述第二语料中的观点持有者;
获得所述第二语料中与所述第一语料样本中的所述观点内容所包含的分词对应有最大词对齐概率的分词,并将包含该分词的最短连续文本片段确定为所述第二语料中的观点内容。
作为一种实施方式,所述电子设备还执行下述步骤:对所述文本分词处理的准确性进行核对。
作为一种实施方式,所述电子设备还执行下述步骤:对确定所述最短连续文本片段的准确性进行核对。
作为一种实施方式,所述电子设备还执行下述步骤:对所述最大词对齐概率的准确性进行核对。
作为一种实施方式,在所述将所述第一语料样本翻译为对应于第二语种的第二语料之后,所述电子设备还执行下述步骤:检测所述将所述第一语料样本翻译为对应于第二语种的第二语料的翻译结果是否有误,和/或,检测所述第二语料是否适用于所述第二语种的用语环境。
作为一种实施方式,所述基于所述第二语料样本进行模型训练,获得第二观点角色标注模型,包括:采用所述第一观点角色标注模型对应的模型框架、并基于所述第二语料样本进行模型训练,获得所述第二观点角色标注模型。
作为一种实施方式,所述模型框架包括:词向量表示层、双向预估编码层以及CRF解码层。
需要说明的是,对于本申请第三实施例提供的电子设备的详细描述可以参考对本申请第一实施例的相关描述,这里不再赘述。
与本申请第一实施例提供的观点角色标注模型训练方法相对应的,本申请第四实施例提供一种存储设备,存储有观点角色标注模型训练方法的程序,该程序被处理器运行,执行下述步骤:
获得第一观点角色标注模型对应的第一语料样本,所述第一语料样本标注有第一观点角色标签,所述第一观点角色标注模型用于从输入的第一语种文本中识别出第一目标观点持有者及该第一目标观点持有者表达的第一目标观点内容;
将所述第一语料样本翻译为对应于第二语种的第二语料;
根据所述第一语料样本和所述第一观点角色标签,对所述第二语料进行观点角色信息标注,获得第二语料样本,所述第二语料样本标注有第二观点角色标签;
基于所述第二语料样本进行模型训练,获得第二观点角色标注模型,所述第二观点角色模型用于从输入的第二语种文本中识别出第二目标观点持有者及该第二目标观点持有者表达的第二目标观点内容。
需要说明的是,对于本申请第四实施例提供的存储设备的详细描述可以参考对本申请第一实施例的相关描述,这里不再赘述。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器 (CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
2、本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。
Claims (16)
1.一种观点角色标注模型训练方法,其特征在于,包括:
获得第一观点角色标注模型对应的第一语料样本,所述第一语料样本标注有第一观点角色标签,所述第一观点角色标注模型用于从输入的第一语种文本中识别出第一目标观点持有者及该第一目标观点持有者表达的第一目标观点内容;
将所述第一语料样本翻译为对应于第二语种的第二语料;
根据所述第一语料样本和所述第一观点角色标签,对所述第二语料进行观点角色信息标注,获得第二语料样本,所述第二语料样本标注有第二观点角色标签;
基于所述第二语料样本进行模型训练,获得第二观点角色标注模型,所述第二观点角色模型用于从输入的第二语种文本中识别出第二目标观点持有者及该第二目标观点持有者表达的第二目标观点内容。
2.根据权利要求1所述的方法,其特征在于,所述第一观点角色标签包括:所述第一语料样本中的观点持有者对应的第一观点持有者标签、所述第一语料样本中的表达动词对应的第一表达标签、以及所述第一语料样本中的观点内容对应的第一观点标签;
所述第二观点角色标签包括:所述第二语料样本中的观点持有者对应的第二观点持有者标签、所述第二语料样本中的表达动词对应的第二表达标签、以及所述第二语料样本中的观点内容对应的第二观点标签;其中,所述第一语料样本中的观点持有者与所述第二语料样本中的观点持有者为不同语种对应的相同观点持有者,所述第一语料样本中的表达动词与所述第二语料样本中的表达动词为不同语种对应的相同表达动词,所述第一语料样本中的观点内容与所述第二语料样本中的观点内容为不同语种对应的相同观点内容。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一语料样本和所述第一观点角色标签,对所述第二语料进行观点角色信息标注,获得第二语料样本,包括:
根据所述第一语料样本中的观点持有者确定出所述第二语料中的观点持有者,根据所述第一语料样本中的表达动词确定出所述第二语料中的表达动词,根据所述第一语料样本中的观点内容确定出所述第二语料中的观点内容;
基于所述第一观点持有者标签对所述第二语料中的观点持有者进行标注,获得所述第二观点持有者标签;基于所述第一表达标签对所述第二语料中的表达动词进行标注,获得所述第二表达标签;基于所述第一观点标签对所述第二语料中的观点内容进行标注,获得所述第二观点标签;
将标注有所述第二观点持有者标签、所述第二表达标签以及所述第二观点标签的所述第二语料确定为所述第二语料样本。
4.根据权利要求3所述的方法,其特征在于,还包括:分别对所述第一语料样本和所述第二语料进行文本分词处理,并获得所述第一语料样本中各分词与所述第二语料中各分词之间的词对齐概率;
所述根据所述第一语料样本中的观点持有者确定出所述第二语料中的观点持有者,包括:获得所述第二语料中的观点持有者对应的备选文本片段;获得所述第二语料中与所述第一语料样本中的观点持有者所包含的分词对应有最大词对齐概率的分词,并将所述备选文本片段中包含该分词的最短连续文本片段确定为所述第二语料中的观点持有者。
5.根据权利要求4所述的方法,其特征在于,所述根据所述第一语料样本中的表达动词确定出所述第二语料中的表达动词,包括:获得所述第二语料中、与所述第一语料样本中的表达动词对应有最大词对齐概率的分词所组成的最短连续文本片段,并将该最短连续文本片段确定为所述第二语料中的表达动词。
6.根据权利要求4所述的方法,其特征在于,所述根据所述第一语料样本中的观点内容确定出所述第二语料中的观点内容,包括:获得所述第二语料中的观点内容对应的备选文本片段;获得所述第二语料中与所述第一语料样本中的观点内容所包含的分词对应有最大词对齐概率的分词,并将所述备选文本片段中包含该分词的最短连续文本片段确定为所述第二语料中的观点内容。
7.根据权利要求2所述的方法,其特征在于,还包括:分别对所述第一语料样本和所述第二语料进行文本分词处理,并获得所述第一语料样本中各分词与所述第二语料中各分词之间的词对齐概率;
所述根据所述第一语料样本和所述第一观点角色标签,对所述第二语料进行观点角色信息标注,获得第二语料样本,包括:
获得所述第二语料中、与所述第一语料样本中的表达动词对应有最大词对齐概率的分词,并将该分词所组成的文本片段确定为所述第二语料中的表达动词;
确定出所述第一语料样本中与所述表达动词相对应的观点持有者以及观点内容;
获得所述第二语料中与所述第一语料样本中的所述观点持有者所包含的分词对应有最大词对齐概率的分词,并将包含该分词的最短连续文本片段确定为所述第二语料中的观点持有者;
获得所述第二语料中与所述第一语料样本中的所述观点内容所包含的分词对应有最大词对齐概率的分词,并将包含该分词的最短连续文本片段确定为所述第二语料中的观点内容。
8.根据权利要求4或7所述的方法,其特征在于,还包括:对所述文本分词处理的准确性进行核对。
9.根据权利要求4-7中任一项所述的方法,其特征在于,还包括:对确定所述最短连续文本片段的边界范围的准确性进行核对。
10.根据权利要求4-7中任一项所述的方法,其特征在于,还包括:对所述最大词对齐概率的准确性进行核对。
11.根据权利要求1所述的方法,其特征在于,在所述将所述第一语料样本翻译为对应于第二语种的第二语料之后,还包括:
检测所述将所述第一语料样本翻译为对应于第二语种的第二语料的翻译结果是否有误,和/或,检测所述第二语料是否适用于所述第二语种的用语环境。
12.根据权利要求1所述的方法,其特征在于,所述基于所述第二语料样本进行模型训练,获得第二观点角色标注模型,包括:采用所述第一观点角色标注模型对应的模型框架、并基于所述第二语料样本进行模型训练,获得所述第二观点角色标注模型。
13.根据权利要求12所述的方法,其特征在于,所述模型框架包括:词向量表示层、双向预估编码层以及CRF解码层。
14.一种观点角色标注模型训练装置,其特征在于,包括:
第一语料样本获得单元,用语获得第一观点角色标注模型对应的第一语料样本,所述第一语料样本标注有第一观点角色标签,所述第一观点角色标注模型用于从输入的第一语种文本中识别出第一目标观点持有者及该第一目标观点持有者表达的第一目标观点内容;
第二语料获得单元,用于将所述第一语料样本翻译为对应于第二语种的第二语料;
第二语料样本获得单元,用于根据所述第一语料样本和所述第一观点角色标签,对所述第二语料进行观点角色信息标注,获得第二语料样本,所述第二语料样本标注有第二观点角色标签;
模型训练单元,用于基于所述第二语料样本进行模型训练,获得第二观点角色标注模型,所述第二观点角色模型用于从输入的第二语种文本中识别出第二目标观点持有者及该第二目标观点持有者表达的第二目标观点内容。
15.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储观点角色标注模型训练方法的程序,该设备通电并通过所述处理器运行该观点角色标注模型训练方法的程序后,执行下述步骤:
获得第一观点角色标注模型对应的第一语料样本,所述第一语料样本标注有第一观点角色标签,所述第一观点角色标注模型用于从输入的第一语种文本中识别出第一目标观点持有者及该第一目标观点持有者表达的第一目标观点内容;
将所述第一语料样本翻译为对应于第二语种的第二语料;
根据所述第一语料样本和所述第一观点角色标签,对所述第二语料进行观点角色信息标注,获得第二语料样本,所述第二语料样本标注有第二观点角色标签;
基于所述第二语料样本进行模型训练,获得第二观点角色标注模型,所述第二观点角色模型用于从输入的第二语种文本中识别出第二目标观点持有者及该第二目标观点持有者表达的第二目标观点内容。
16.一种存储设备,其特征在于,存储有观点角色标注模型训练方法的程序,该程序被处理器运行,执行下述步骤:
获得第一观点角色标注模型对应的第一语料样本,所述第一语料样本标注有第一观点角色标签,所述第一观点角色标注模型用于从输入的第一语种文本中识别出第一目标观点持有者及该第一目标观点持有者表达的第一目标观点内容;
将所述第一语料样本翻译为对应于第二语种的第二语料;
根据所述第一语料样本和所述第一观点角色标签,对所述第二语料进行观点角色信息标注,获得第二语料样本,所述第二语料样本标注有第二观点角色标签;
基于所述第二语料样本进行模型训练,获得第二观点角色标注模型,所述第二观点角色模型用于从输入的第二语种文本中识别出第二目标观点持有者及该第二目标观点持有者表达的第二目标观点内容。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110188109.2A CN114970500A (zh) | 2021-02-18 | 2021-02-18 | 观点角色标注模型训练方法以及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110188109.2A CN114970500A (zh) | 2021-02-18 | 2021-02-18 | 观点角色标注模型训练方法以及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114970500A true CN114970500A (zh) | 2022-08-30 |
Family
ID=82954133
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110188109.2A Pending CN114970500A (zh) | 2021-02-18 | 2021-02-18 | 观点角色标注模型训练方法以及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114970500A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102662931A (zh) * | 2012-04-13 | 2012-09-12 | 厦门大学 | 一种基于协同神经网络的语义角色标注方法 |
US20130204606A1 (en) * | 2010-08-09 | 2013-08-08 | Institute Of Automation, Chinese Academy Of Sciences | Method for labeling semantic role of bilingual parallel sentence pair |
CN108959243A (zh) * | 2018-05-17 | 2018-12-07 | 中国电子科技集团公司第二十八研究所 | 一种面向用户角色的通用舆论信息情感识别方法 |
-
2021
- 2021-02-18 CN CN202110188109.2A patent/CN114970500A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130204606A1 (en) * | 2010-08-09 | 2013-08-08 | Institute Of Automation, Chinese Academy Of Sciences | Method for labeling semantic role of bilingual parallel sentence pair |
CN102662931A (zh) * | 2012-04-13 | 2012-09-12 | 厦门大学 | 一种基于协同神经网络的语义角色标注方法 |
CN108959243A (zh) * | 2018-05-17 | 2018-12-07 | 中国电子科技集团公司第二十八研究所 | 一种面向用户角色的通用舆论信息情感识别方法 |
Non-Patent Citations (1)
Title |
---|
刘亚慧;杨浩苹;李正华;张民;: "一种轻量级的汉语语义角色标注规范", 中文信息学报, no. 04, 15 April 2020 (2020-04-15), pages 13 - 23 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107908635B (zh) | 建立文本分类模型以及文本分类的方法、装置 | |
US11748232B2 (en) | System for discovering semantic relationships in computer programs | |
CN109145153B (zh) | 意图类别的识别方法和装置 | |
US10372821B2 (en) | Identification of reading order text segments with a probabilistic language model | |
CN109858010B (zh) | 领域新词识别方法、装置、计算机设备和存储介质 | |
US9400787B2 (en) | Language segmentation of multilingual texts | |
CN111079432B (zh) | 文本检测方法、装置、电子设备及存储介质 | |
CN112733554B (zh) | 口语文本处理方法、装置、服务器及可读存储介质 | |
Singh et al. | HINDIA: a deep-learning-based model for spell-checking of Hindi language | |
CN111368918A (zh) | 文本纠错方法、装置、电子设备及存储介质 | |
CN114861630B (zh) | 信息获取及相关模型的训练方法、装置、电子设备和介质 | |
CN111881297A (zh) | 语音识别文本的校正方法及装置 | |
CN112257444B (zh) | 金融信息负面实体发现方法、装置、电子设备及存储介质 | |
Chen et al. | Integrating natural language processing with image document analysis: what we learned from two real-world applications | |
CN112417093A (zh) | 一种模型训练的方法及装置 | |
CN115587583A (zh) | 噪声的检测方法、装置及电子设备 | |
CN111832283A (zh) | 一种文本的生成方法、存储介质和电子装置 | |
CN116861242A (zh) | 基于语言判别提示的语言感知多语言预训练与微调方法 | |
CN113822013B (zh) | 用于文本数据的标注方法、装置、计算机设备及存储介质 | |
CN114238632A (zh) | 一种多标签分类模型训练方法、装置及电子设备 | |
Chimalamarri et al. | Linguistically enhanced word segmentation for better neural machine translation of low resource agglutinative languages | |
CN109558580B (zh) | 一种文本分析方法及装置 | |
CN114970500A (zh) | 观点角色标注模型训练方法以及装置 | |
CN110276001B (zh) | 盘点页识别方法、装置、计算设备和介质 | |
CN114298032A (zh) | 文本标点检测方法、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |