CN110188202B - 语义关系识别模型的训练方法、装置及终端 - Google Patents
语义关系识别模型的训练方法、装置及终端 Download PDFInfo
- Publication number
- CN110188202B CN110188202B CN201910493678.0A CN201910493678A CN110188202B CN 110188202 B CN110188202 B CN 110188202B CN 201910493678 A CN201910493678 A CN 201910493678A CN 110188202 B CN110188202 B CN 110188202B
- Authority
- CN
- China
- Prior art keywords
- data set
- sample
- representation information
- semantic
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提出一种语义关系识别模型的训练方法、装置以及终端,方法包括:将样本数据集输入至初始预训练模型中,输出样本句子的表示信息,样本数据集包括多个样本语义单元;获取多个特征词,并将多个特征词进行拼接,得到拼接特征词的表示信息;将样本句子的表示信息和拼接特征词的表示信息输入至初始分类器中,输出样本语义单元之间的语义关系类别;调整初始预训练模型以及初始分类器,得到新预训练模型和新分类器;根据新预训练模型和新分类器建立语义关系识别模型。使用特征词作为篇章关系中的强特征,能够提升在特定语义关系上的分类效果。在利用语义关系识别模型进行语义关系类别的预测时,缩短了预测时间,提高了预测效率。
Description
技术领域
本发明涉及机器学习技术领域,尤其涉及一种语义关系识别模型的训练方法、装置及终端。
背景技术
篇章语义关系识别是自然语言处理的一个基本任务,它通常是指识别自然语言中基本语义单元(EDU,Elementary discourse unit)间的语义关系。被广泛应用在阅读理解系统、情感分析系统、对话问答系统中。对于一个篇章级的文档中,基本语义单元之间的可能会出现多类别的语义关系。例如,常见的语义关系类别有扩展关系(对一个事物或者实体进行细化或泛化的介绍描述)、因果关系(具有因果表示的文档,可以是先因后果、也可以是先果后因)、转折关系(具有语义上的转折或者话题间的转换关系)、并列关系(基本语义单元间具有平等关系,可以是平行的关系、相容的关系、互斥的关系)等。
篇章语义关系识别中,如果出现了能够表明语义关系的词语或者词组叫做关联词,比如“因为…所以…”、“尽管…”、“并且”、“但是”,叫做显式关系识别任务。没有出现关联词,则叫做隐式关系识别任务。前者的识别效果远好于后者的识别效果。当前,隐式关系识别任务主要是对具有语义关系的两个EDU分别建模,然后再交互建模,最后计算语义关系的所属类别。例如,利用词组“口味还可以”和另一词组“分量也足”分别建模,之后,利用两个词组之间的语义关系进行交互建模,输出语义关系的类别。
由于有监督训练语料较少,使得当前的表示方法对文本及文本间语义关系的表达能力受限,不能够很好的表达文本间的关系。当前的模型,主要是依赖篇章数据集对模型进行训练,没有利用外部大规模数据集知识对模型表示进行增强。导致对语义关系的识别并不准确。
发明内容
本发明实施例提供一种语义关系识别模型的训练方法、装置及终端,以解决现有技术中的一个或多个技术问题。
第一方面,本发明实施例提供了一种语义关系识别模型的方法,包括:
将样本数据集输入至初始预训练模型中,输出样本句子的表示信息,所述样本数据集包括多个样本语义单元;
获取多个特征词,并将多个特征词进行拼接,得到拼接特征词的表示信息;
将所述样本句子的表示信息和所述拼接特征词的表示信息输入至初始分类器中,输出所述样本语义单元之间的语义关系类别;
调整所述初始预训练模型以及所述初始分类器,得到新预训练模型和新分类器;
根据所述新预训练模型和所述新分类器建立语义关系识别模型。
在一种实施方式中,所述样本数据集包括篇章数据集,将样本数据集输入至初始预训练模型中,得到样本句子的表示信息,包括:
将篇章数据集输入至深度双向预训练模型中,得到篇章句子向量;
根据第一函数系数和所述篇章句子向量进行线性整流处理,得到篇章句子的表示信息。
在一种实施方式中,所述样本数据集还包括情感数据集,将样本数据集输入至初始预训练模型中,得到样本句子的表示信息,包括:
将情感数据集输入至所述深度双向预训练模型中,得到情感句子向量;
根据第二函数系数和所述情感句子向量进行线性整流处理,得到情感句子的表示信息。
在一种实施方式中,将所述样本句子的表示信息和所述拼接特征词的表示信息输入至初始分类器中,输出所述样本语义单元之间的语义关系类别,包括:
将所述篇章句子的表示信息和所述拼接特征词的表示信息进行拼接,得到第一拼接信息;
根据第三函数系数和所述第一拼接信息进行归一化指数处理,得到多个语义关系类别的第一概率分布;
对所述第一概率分布和对所述篇章数据集进行独热编码的概率分布进行交叉熵运算,得到第一语义关系类别。
在一种实施方式中,将所述样本句子的表示信息和所述拼接特征词的表示信息输入至初始分类器中,输出所述样本语义单元之间的语义关系类别,包括:
将所述情感句子的表示信息和所述拼接特征词的表示信息进行拼接,得到第二拼接信息;
根据第四函数系数和所述第二拼接信息进行归一化指数处理,得到多个语义关系类别的第二概率分布;
对所述第二概率分布和对所述情感数据集进行独热编码的概率分布进行交叉熵运算,得到第二语义关系类别。
在一种实施方式中,调整所述初始预训练模型以及所述初始分类器,得到新预训练模型和新分类器,包括:
调整所述初始预训练模型的模型参数,以及所述第一函数系数、所述第二函数系数、所述第三函数系数以及所述第四函数系数,得到所述新预训练模型和所述新分类器。
第二方面,本发明实施例提供了一种语义关系识别模型的训练装置,包括:
样本句子的表示信息获取模块,用于将样本数据集输入至初始预训练模型中,输出样本句子的表示信息,所述样本数据集包括多个样本语义单元;
特征词拼接模块,用于获取多个特征词,并将多个特征词进行拼接,得到拼接特征词的表示信息;
语义关系类别分析模块,用于将所述样本句子的表示信息和所述拼接特征词的表示信息输入至初始分类器中,输出所述样本语义单元之间的语义关系类别;
模型调整模块,用于调整所述初始预训练模型以及所述初始分类器,得到新预训练模型和新分类器;
语义关系识别模型建立模块,用于根据所述新预训练模型和所述新分类器建立语义关系识别模型。
在一种实施方式中,所述样本数据集包括篇章数据集,所述样本句子的表示信息获取模块包括:
篇章句子向量获取单元,用于将篇章数据集输入至深度双向预训练模型中,得到篇章句子向量;
篇章句子的表示信息获取单元,用于根据第一函数系数和所述篇章句子向量进行线性整流处理,得到篇章句子的表示信息。
在一种实施方式中,所述样本数据集还包括情感数据集,所述样本句子的表示信息获取模块还包括:
情感句子向量获取单元,用于将情感数据集输入至所述深度双向预训练模型中,得到情感句子向量;
情感句子的表示信息获取单元,用于根据第二函数系数和所述情感句子向量进行线性整流处理,得到情感句子的表示信息。
在一种实施方式中,所述语义关系类别分析模块包括:
第一拼接信息获取单元,用于将所述篇章句子的表示信息和所述拼接特征词的表示信息进行拼接,得到第一拼接信息;
第一概率分布计算单元,用于根据第三函数系数和所述第一拼接信息进行归一化指数处理,得到多个语义关系类别的第一概率分布;
第一语义关系类别分析单元,用于对所述第一概率分布和对所述篇章数据集进行独热编码的概率分布进行交叉熵运算,得到第一语义关系类别。
在一种实施方式中,所述语义关系类别分析模块还包括:
第二拼接信息获取单元,用于将所述情感句子的表示信息和所述拼接特征词的表示信息进行拼接,得到第二拼接信息;
第二概率分布计算单元,用于根据第四函数系数和所述第二拼接信息进行归一化指数处理,得到多个语义关系类别的第二概率分布;
第二语义关系类别分析单元,用于对所述第二概率分布和对所述情感数据集进行独热编码的概率分布进行交叉熵运算,得到第二语义关系类别。
在一种实施方式中,所述模型调整模块包括:
模型参数调整单元,用于调整所述初始预训练模型的模型参数;
函数系数调整单元,用于调整所述第一函数系数、所述第二函数系数、所述第三函数系数以及所述第四函数系数,得到所述新预训练模型和所述新分类器。
第三方面,本发明实施例提供了一种语义关系识别模型的训练终端,所述语义关系识别模型的训练终端的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,所述语义关系识别模型的训练终端的结构中包括处理器和存储器,所述存储器用于存储支持所述语义关系识别模型的训练终端执行上述语义关系识别模型的训练方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述语义关系识别模型的训练终端还可以包括通信接口,用于与其他设备或通信网络通信。
第四方面,本发明实施例提供了一种计算机可读存储介质,用于存储语义关系识别模型的训练终端所用的计算机软件指令,其包括用于执行上述语义关系识别模型的训练方法所涉及的程序。
上述技术方案中的一个技术方案具有如下优点或有益效果:使用特征词作为篇章关系中的强特征,能够提升在特定语义关系上的分类效果。在利用语义关系识别模型进行语义关系类别的预测时,待预测的语义句子只需要通过预训练模型和分类器之后,就能够输出结果,缩短了预测时间,提高了预测效率。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1示出根据本发明实施例的一种语义关系识别模型的训练方法的流程图。
图2示出根据本发明实施例的另一种语义关系识别模型的训练方法的流程图。
图3示出根据本发明实施例的情感分析任务和篇章关系任务共同学习的多任务学习过程。
图4示出根据本发明实施例的一种语义关系识别模型的训练装置的结构框图。
图5示出根据本发明实施例的另一种语义关系识别模型的训练装置的结构框图。
图6示出根据本发明实施例的一种语义关系识别模型的训练终端的结构示意图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
实施例一
在一种具体实施方式中,提供了一种语义关系识别模型的训练方法,如图1所示,包括:
步骤S10:将样本数据集输入至初始预训练模型中,输出样本句子的表示信息,样本数据集包括多个样本语义单元;
在一种示例中,样本数据集包括多个样本语义单元,样本语义单元可以是作为训练数据的基本语义单元。样本语义单元可以是词汇或者字,例如,“口味”、“不错”、“难吃”等。多个样本语义单元可以组成各种样本语义句子,例如,“口味还可以,分量也足!”、“但是环境一般,是团购去的比较值,朋友们也可以去”等。预训练模型是在大量数据集上训练好的模型。预训练模型可以迁移到特定任务上使用。例如,预训练模型可以是ELMo(深度语境化词表征)、GPT/GPT2(Generative Pre-Training,生成性预训练)、BERT(BidirectionalEncoder Representations from Transformers,深度双向预训练)等模型。
可以将样本语义单元构成的多个样本语义句子,输入至初始预训练模型中,输出样本句子的表示信息,即样本语义句子在向量空间的表示信息。
步骤S20:获取多个特征词,并将多个特征词进行拼接,得到拼接特征词的表示信息。
在一种示例中,特征词可以包括从样本语义句子中提取的情感词、否定词、反讽词等特征词。有些特征词具有明显的情感倾向,对篇章关系具有较大的影响。
例如,样本语义句子“口味还可以,分量也足!但是环境一般,是团购去的比较值,朋友们也可以去”中,特征词包括“可以”、“足”、“值”与“一般”。这些特征词构成了明显的情感倾向冲突,与篇章关系中的“转折关系”具有一定相关性。可以将多个特征词向量进行拼接操作,得到拼接特征词的表示信息,即多个特征词向量拼接后得到的向量。
步骤S30:将样本句子的表示信息和拼接特征词的表示信息输入至初始分类器中,输出样本语义单元之间的语义关系类别。
在一种示例中,分类器中可对样本句子的表示信息和拼接特征词的表示信息进行交叉熵运算等。样本语义单元之间的语义关系类别可以包括扩展关系、因果关系、转折关系、平行的关系、相容的关系、互斥的关系等。
步骤S40:调整初始预训练模型以及初始分类器,得到新预训练模型和新分类器。
步骤S50:根据新预训练模型和新分类器建立语义关系识别模型。
在一种示例中,利用大量的样本数据集进行训练,不断更新初始预训练模型的结构或参数,初始分类器中的参数,直到找到最合适结构或参数为止。通过最后找到的最合适的参数建立新预训练模型和新分类器,构成语义关系识别模型。
本实施方式提供的一种语义关系识别模型的训练方法,使用特征词作为篇章关系中的强特征,能够提升在特定语义关系上的分类效果。在利用语义关系识别模型进行语义关系类别的预测时,待预测的语义句子只需要通过预训练模型和分类器之后,就能够输出结果,缩短了预测时间,提高了预测效率。
在一种实施方式中,所述样本数据集包括篇章数据集,如图2所示,步骤S10包括:
步骤S110:将篇章数据集输入至深度双向预训练模型中,得到篇章句子向量;
步骤S111:根据第一函数系数和篇章句子向量进行线性整流处理,得到篇章句子的表示信息。
在一种示例中,利用篇章数据集执行篇章语义关系识别任务,将篇章数据集输入至BERT模型中,输出篇章句子向量,可以将篇章句子向量经过Relu(线性整流)激活函数,进行线性整流处理,得到的篇章句子的表示信息显示特征更加高阶,更实用在篇章分析的特定任务上。
在一种实施方式中,所述样本数据集还包括情感数据集,如图2所示,步骤S10,还包括:
步骤S120:将情感数据集输入至深度双向预训练模型中,得到情感句子向量;
步骤S121:根据第二函数系数和情感句子向量进行线性整流处理,得到情感句子的表示信息。
在一种示例中,过程与上述实施方式的过程相同,在此不再赘述。
需要指出的是,篇章数据集输入深度双向预训练模型,再进行线性整流处理得到篇章句子的表示信息,与情感数据集输入深度双向预训练模型,再进行线性整流处理得到情感句子的表示信息,这两个过程不分先后顺序。第一函数系数和第二函数系数均是利用Relu激活函数进行计算时的系数。
在一种实施方式中,如图2所示,步骤S30,包括:
步骤S310:将篇章句子的表示信息和拼接特征词的表示信息进行拼接,得到第一拼接信息;
步骤S311:根据第三函数系数和第一拼接信息进行归一化指数处理,得到多个语义关系类别的第一概率分布;
步骤S312:对第一概率分布和对篇章数据集进行独热编码的概率分布进行交叉熵运算,得到第一语义关系类别。
在一种示例中,将第一拼接信息输入至Softmax函数,输出语义关系类别的第一概率分布。例如,篇章数据集进行归一化指数处理后,得到的转折语义关系的概率为0.3,并列语义关系的概率为0.1,因果语义关系的概率为0.8等形成的第一概率分布。另一个概率分布是篇章数据集进行独热编码的概率分布,一般是对标签y(语义关系类别)进行独热(one-hot)编码得到的,这个one-hot编码本质上就是一个标签集合(语义关系类别集合)上的分布。例如,对于所有的训练语料标签集合为{y1,y2,y3,y4},y1,y2,y3,y4表示四种各不相同的语义关系类别。给定一个输入样本<X,y3>,X表示输入的基本语义单元构成的句子,输入样本<X,y3>的one-hot编码就是[0,0,1,0]。
在一种实施方式中,如图2所示,步骤S30,还包括:
步骤S320:将情感句子的表示信息和拼接特征词的表示信息进行拼接,得到第二拼接信息;
步骤S321:根据第四函数系数和第二拼接信息进行归一化指数处理,得到多个语义关系类别的第二概率分布;
步骤S322:对第二概率分布和对情感数据集进行独热编码的概率分布进行交叉熵运算,得到第二语义关系类别。
在一种示例中,过程与上述实施方式的过程相同,在此不再赘述。
需要指出的是,第三函数系数和第四函数系数均是Softmax函数(称归一化指数函数)中的系数。
在一种实施方式中,步骤S40包括:
步骤S401:调整初始预训练模型的模型参数,以及第一函数系数、第二函数系数、第三函数系数以及第四函数系数,得到新预训练模型和新分类器。
本实施方式提出的一种语义关系识别模型的训练方法,是利用了迁移学习进行模型训练,迁移学习可以是在同一个模型中对多个不同的任务进行学习,在训练时保持一部分模型参数(BERT模型)共享,另一部分参数(第一函数系数、第二函数系数、第三函数系数、第四函数系数)独立。由于情感数据集的训练样本不仅语料较多而且容易获取,丰富了训练语料,增强了对特征词的学习。利用篇章数据集的训练样本来训练BERT模型能够强化文本的表示。通过篇章数据集和情感数据集的交替训练,共享相同的BERT模型参数,提高了情感分析和篇章分析两个任务的分类效果。对语义关系的类别进行预测时,准确度更高,速度更快。
实施例二
在一种具体实施方式中,情感分析任务和篇章关系任务共同学习的多任务学习过程如图3所示。
将篇章数据集切分为arg1和arg2。arg1和arg2表示两个EDU句子,并将其输入到在大规模无监督数据上学习的BERT网络。在输入层,arg1_1…arg1_i…arg1_n为输入arg1的表示词向量,arg2_1…arg2_i…arg2_n为输入arg2的表示词向量。sep为用于断句的特殊字符,例如,空格、逗号、句号等。cls(classification)为分类作用的特征字符。
arg1_1…arg1_i…arg1_n以及arg2_1…arg2_i…arg2_n经过多层变换网络模型(transformer模型),在输出层,得到arg1_1…arg1_i…arg1_n为输出arg1的表示词向量,arg2_1…arg2_i…arg2_n为输出arg2的表示词向量。rep2为篇章句子的表示信息。connevtive_1…connevtive_i…connevtive_n表示arg1和arg2中具有的情感词、否定词、反讽词等特征词。w_rep为拼接特征词的表示信息。label2为rep2和w_rep拼接在一起通过交叉熵的分类结果。将情感数据集切分为arg1和arg2,经过BERT模型之后,得到的rep1为情感句子的表示信息。label1为rep1与w_rep与rep2拼接在一起通过交叉熵的分类结果。
计算过程:在篇章训练时,Xd=(argd1;argd2;connectivesd),Xd表示篇章分析的输入,包括篇章数据集切分的argd1,argd2两个EDU句子,以及拼接特征词的表示信息connectivesd。其中,argd1=[wd11;wd12;……wd1n],argd2=[wd21;wd22;……wd2m],wd11;wd12;……wd1n,wd21;wd22;……wd2m为作为篇章训练的基本语义单元。connetivesd=[cd1;cd2;:::;cdl]为特征词向量,cd1;cd2;:::;cdl为多个特征词。Td=BERT(argd1;argd2;θ)Td表示篇章数据集切分的argd1,argd2两个EDU句子输入至BERT模型,输出的篇章句子向量,θ为BERT模型的模型参数。rep2=Relu(W1;Td),W1为Relu激活函数的第一函数系数。根据第一函数系数和篇章句子向量进行线性整流处理,得到篇章句子的表示信息rep2。w_rep=BOW(connetivesd),其中,BOW模型(Bag-of-words model)为词袋模型,w_rep为拼接特征词的表示信息。repd=Concat(rep2;w_rep)Concat表示拼接操作,将所述篇章句子的表示信息rep2和所述拼接特征词的表示信息w_rep进行拼接,得到第一拼接信息repd。P(|Xd;W1;W3)=Softmax(W3·repd),其中,W3为第三函数系数,根据第三函数系数W3和第一拼接信息repd进行归一化指数函数Softmax的处理,得到多个语义关系类别的第一概率分布。y表示输入的标签,即独热编码的概率分布,表示模型预测标签,即第一概率分布。Loss1=CE,CE表示Cross Entropy(交叉熵)损失函数。
在情感训练时,Xs=(args1;args2;connectivess),Xd表示情感分析的输入,包括情感数据集切分的args1,args2两个EDU句子,以及拼接特征词的表示信息connectivess。其中,args1=[ws11;ws12;……ws1n],argd2=[ws21;ws22;……ws2m],ws11;ws12;……ws1n,ws21;ws22;……ws2m为作为情感训练的基本语义单元。
connetivess=[cs1;cs2;……csl]为特征词向量,cs1;cs2;……csl为多个特征词。Ts=BERT(args1;args2;θ)Td表示情感数据集切分的args1,args2两个EDU句子输入至BERT模型,输出的情感句子向量,θ为BERT模型的模型参数。rep2=Relu(W1;Ts),W2为Relu激活函数的第一函数系数。根据第二函数系数和情感句子向量进行线性整流处理,得到情感句子的表示信息rep2。
w_rep=BOW(connetivess),BOW模型(Bag-of-words model)为词袋模型,w_rep为拼接特征词的表示信息。reps=Concat(rep2;w_rep)Concat表示拼接操作,将所述情感句子的表示信息rep2和所述拼接特征词的表示信息w_rep进行拼接,得到第一拼接信息reps。P(|Xs;W2;W4)=Softmax(W4·reps),W4为第四函数系数,根据第四函数系数W4和第一拼接信息reps进行归一化指数函数Softmax的处理,得到多个语义关系类别的第一概率分布。y表示输入标签,即独热编码的概率分布,表示模型预测标签,即第一概率分布,Loss2=CE,CE表示Cross Entropy(交叉熵)损失函数。
最后,经过多轮训练,调整BERT模型的模型参数θ,第一函数系数W1、第二函数系数W2、第三函数系数W3以及第四函数系数W4。
实施例三
在另一种具体实施方式中,提供了一种语义关系识别模型的训练装置,如图4所示,包括:
样本句子的表示信息获取模块10,用于将样本数据集输入至初始预训练模型中,输出样本句子的表示信息,所述样本数据集包括多个样本语义单元;
特征词拼接模块20,用于获取多个特征词,并将多个特征词进行拼接,得到拼接特征词的表示信息;
语义关系类别分析模块30,用于将所述样本句子的表示信息和所述拼接特征词的表示信息输入至初始分类器中,输出所述样本语义单元之间的语义关系类别;
模型调整模块40,用于调整所述初始预训练模型以及所述初始分类器,得到新预训练模型和新分类器;
语义关系识别模型建立模块50,用于根据所述新预训练模型和所述新分类器建立语义关系识别模型。
在一种实施方式中,所述样本数据集包括篇章数据集,如图5所示,所述样本句子的表示信息获取模块10包括:
篇章句子向量获取单元101,用于将篇章数据集输入至深度双向预训练模型中,得到篇章句子向量;
篇章句子的表示信息获取单元102,用于根据第一函数系数和所述篇章句子向量进行线性整流处理,得到篇章句子的表示信息。
在一种实施方式中,所述样本数据集还包括情感数据集,如图5所示,所述样本句子的表示信息获取模块10还包括:
情感句子向量获取单元103,用于将情感数据集输入至所述深度双向预训练模型中,得到情感句子向量;
情感句子的表示信息获取单元104,用于根据第二函数系数和所述情感句子向量进行线性整流处理,得到情感句子的表示信息。
在一种实施方式中,如图5所示,所述语义关系类别分析模块30包括:
第一拼接信息获取单元301,用于将所述篇章句子的表示信息和所述拼接特征词的表示信息进行拼接,得到第一拼接信息;
第一概率分布计算单元302,用于根据第三函数系数和所述第一拼接信息进行归一化指数处理,得到多个语义关系类别的第一概率分布;
第一语义关系类别分析单元303,用于对所述第一概率分布和对所述篇章数据集进行独热编码的概率分布进行交叉熵运算,得到第一语义关系类别。
在一种实施方式中,所述语义关系类别分析模块30还包括:
第二拼接信息获取单元304,用于将所述情感句子的表示信息和所述拼接特征词的表示信息进行拼接,得到第二拼接信息;
第二概率分布计算单元305,用于根据第四函数系数和所述第二拼接信息进行归一化指数处理,得到多个语义关系类别的第二概率分布;
第二语义关系类别分析单元306,用于对所述第二概率分布和对所述情感数据集进行独热编码的概率分布进行交叉熵运算,得到第二语义关系类别。
在一种实施方式中,如图5所示,所述模型调整模块40包括:
模型参数调整单元401,用于调整所述初始预训练模型的模型参数;
函数系数调整单元402,用于调整所述第一函数系数、所述第二函数系数、所述第三函数系数以及所述第四函数系数,得到所述新预训练模型和所述新分类器。
本发明实施例各装置中的各模块的功能可以参见上述方法中的对应描述,在此不再赘述。
实施例四
图6示出根据本发明实施例的语义关系识别模型的训练终端的结构框图。如图6所示,该终端包括:存储器910和处理器920,存储器910内存储有可在处理器920上运行的计算机程序。所述处理器920执行所述计算机程序时实现上述实施例中的语义关系识别模型的训练方法。所述存储器910和处理器920的数量可以为一个或多个。
该终端还包括:
通信接口930,用于与外界设备进行通信,进行数据交互传输。
存储器910可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器910、处理器920和通信接口930独立实现,则存储器910、处理器920和通信接口930可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,PeripheralComponent Interconnect)总线或扩展工业标准体系结构(EISA,Extended IndustryStandard Architecture)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器910、处理器920及通信接口930集成在一块芯片上,则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。
本发明实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现上述实施例中任一所述方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种语义关系识别模型的训练方法,其特征在于,包括:
将样本数据集输入至初始预训练模型中,输出样本句子的表示信息,所述样本数据集包括多个样本语义单元;所述样本数据集包括篇章数据集和情感数据集,所述样本句子的表示信息包括到篇章句子的表示信息和情感句子的表示信息;
获取多个特征词,并将多个特征词进行拼接,得到拼接特征词的表示信息;
将所述样本句子的表示信息和所述拼接特征词的表示信息输入至初始分类器中,输出所述样本语义单元之间的语义关系类别;
调整所述初始预训练模型以及所述初始分类器,得到新预训练模型和新分类器;
根据所述新预训练模型和所述新分类器建立语义关系识别模型;
所述样本数据集包括篇章数据集,将样本数据集输入至初始预训练模型中,得到样本句子的表示信息,包括:
将篇章数据集输入至深度双向预训练模型中,得到篇章句子向量;
根据第一函数系数和所述篇章句子向量进行线性整流处理,得到篇章句子的表示信息;
所述样本数据集还包括情感数据集,将样本数据集输入至初始预训练模型中,得到样本句子的表示信息,包括:
将情感数据集输入至所述深度双向预训练模型中,得到情感句子向量;
根据第二函数系数和所述情感句子向量进行线性整流处理,得到情感句子的表示信息。
2.根据权利要求1所述的方法,其特征在于,将所述样本句子的表示信息和所述拼接特征词的表示信息输入至初始分类器中,输出所述样本语义单元之间的语义关系类别,包括:
将所述篇章句子的表示信息和所述拼接特征词的表示信息进行拼接,得到第一拼接信息;
根据第三函数系数和所述第一拼接信息进行归一化指数处理,得到多个语义关系类别的第一概率分布;
对所述第一概率分布和对所述篇章数据集进行独热编码的概率分布进行交叉熵运算,得到第一语义关系类别。
3.根据权利要求2所述的方法,其特征在于,将所述样本句子的表示信息和所述拼接特征词的表示信息输入至初始分类器中,输出所述样本语义单元之间的语义关系类别,包括:
将所述情感句子的表示信息和所述拼接特征词的表示信息进行拼接,得到第二拼接信息;
根据第四函数系数和所述第二拼接信息进行归一化指数处理,得到多个语义关系类别的第二概率分布;
对所述第二概率分布和对所述情感数据集进行独热编码的概率分布进行交叉熵运算,得到第二语义关系类别。
4.根据权利要求3所述的方法,其特征在于,调整所述初始预训练模型以及所述初始分类器,得到新预训练模型和新分类器,包括:
调整所述初始预训练模型的模型参数,以及所述第一函数系数、所述第二函数系数、所述第三函数系数以及所述第四函数系数,得到所述新预训练模型和所述新分类器。
5.一种语义关系识别模型的训练装置,其特征在于,包括:
样本句子的表示信息获取模块,用于将样本数据集输入至初始预训练模型中,输出样本句子的表示信息,所述样本数据集包括多个样本语义单元;所述样本数据集包括篇章数据集和情感数据集,所述样本句子的表示信息包括到篇章句子的表示信息和情感句子的表示信息;
特征词拼接模块,用于获取多个特征词,并将多个特征词进行拼接,得到拼接特征词的表示信息;
语义关系类别分析模块,用于将所述样本句子的表示信息和所述拼接特征词的表示信息输入至初始分类器中,输出所述样本语义单元之间的语义关系类别;
模型调整模块,用于调整所述初始预训练模型以及所述初始分类器,得到新预训练模型和新分类器;
语义关系识别模型建立模块,用于根据所述新预训练模型和所述新分类器建立语义关系识别模型;
所述样本数据集包括篇章数据集,所述样本句子的表示信息获取模块包括:
篇章句子向量获取单元,用于将篇章数据集输入至深度双向预训练模型中,得到篇章句子向量;
篇章句子的表示信息获取单元,用于根据第一函数系数和所述篇章句子向量进行线性整流处理,得到篇章句子的表示信息;
所述样本数据集还包括情感数据集,所述样本句子的表示信息获取模块包括:
情感句子向量获取单元,用于将情感数据集输入至所述深度双向预训练模型中,得到情感句子向量;
情感句子的表示信息获取单元,用于根据第二函数系数和所述情感句子向量进行线性整流处理,得到情感句子的表示信息。
6.根据权利要求5所述的装置,其特征在于,所述语义关系类别分析模块包括:
第一拼接信息获取单元,用于将所述篇章句子的表示信息和所述拼接特征词的表示信息进行拼接,得到第一拼接信息;
第一概率分布计算单元,用于根据第三函数系数和所述第一拼接信息进行归一化指数处理,得到多个语义关系类别的第一概率分布;
第一语义关系类别分析单元,用于对所述第一概率分布和对所述篇章数据集进行独热编码的概率分布进行交叉熵运算,得到第一语义关系类别。
7.根据权利要求6所述的装置,其特征在于,所述语义关系类别分析模块还包括:
第二拼接信息获取单元,用于将所述情感句子的表示信息和所述拼接特征词的表示信息进行拼接,得到第二拼接信息;
第二概率分布计算单元,用于根据第四函数系数和所述第二拼接信息进行归一化指数处理,得到多个语义关系类别的第二概率分布;
第二语义关系类别分析单元,用于对所述第二概率分布和对所述情感数据集进行独热编码的概率分布进行交叉熵运算,得到第二语义关系类别。
8.根据权利要求7所述的装置,其特征在于,所述模型调整模块包括:
模型参数调整单元,用于调整所述初始预训练模型的模型参数;
函数系数调整单元,用于调整所述第一函数系数、所述第二函数系数、所述第三函数系数以及所述第四函数系数,得到所述新预训练模型和所述新分类器。
9.一种语义关系识别模型的训练终端,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至4中任一项所述方法。
10.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至4中任一项所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910493678.0A CN110188202B (zh) | 2019-06-06 | 2019-06-06 | 语义关系识别模型的训练方法、装置及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910493678.0A CN110188202B (zh) | 2019-06-06 | 2019-06-06 | 语义关系识别模型的训练方法、装置及终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110188202A CN110188202A (zh) | 2019-08-30 |
CN110188202B true CN110188202B (zh) | 2021-07-20 |
Family
ID=67720864
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910493678.0A Active CN110188202B (zh) | 2019-06-06 | 2019-06-06 | 语义关系识别模型的训练方法、装置及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110188202B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110674260B (zh) * | 2019-09-27 | 2022-05-24 | 北京百度网讯科技有限公司 | 语义相似模型的训练方法、装置、电子设备和存储介质 |
CN110852331B (zh) * | 2019-10-25 | 2023-09-08 | 中电科大数据研究院有限公司 | 一种结合bert模型的图像描述生成方法 |
CN110807332B (zh) | 2019-10-30 | 2024-02-27 | 腾讯科技(深圳)有限公司 | 语义理解模型的训练方法、语义处理方法、装置及存储介质 |
CN110807517A (zh) * | 2019-10-30 | 2020-02-18 | 智者四海(北京)技术有限公司 | 用于多任务识别的神经网络系统 |
CN110825827B (zh) * | 2019-11-13 | 2022-10-25 | 北京明略软件系统有限公司 | 一种实体关系识别模型训练、实体关系识别方法及装置 |
CN111091009B (zh) * | 2019-11-20 | 2022-03-15 | 中国电子科技集团公司第三十研究所 | 一种基于语义分析的文档关联审核方法 |
CN111126035A (zh) * | 2019-12-24 | 2020-05-08 | 深圳视界信息技术有限公司 | 一种电商评论分析场景下细粒度属性分析方法 |
CN111143564B (zh) * | 2019-12-27 | 2023-05-23 | 北京百度网讯科技有限公司 | 无监督的多目标篇章级情感分类模型训练方法和装置 |
CN112818658B (zh) * | 2020-01-14 | 2023-06-27 | 腾讯科技(深圳)有限公司 | 文本对分类模型的训练方法、分类方法、设备及存储介质 |
CN111507111B (zh) * | 2020-03-19 | 2021-11-23 | 北京百度网讯科技有限公司 | 语义表示模型的预训练方法、装置、电子设备及存储介质 |
CN111859908B (zh) * | 2020-06-30 | 2024-01-19 | 北京百度网讯科技有限公司 | 情感学习的预训练方法、装置、电子设备和可读存储介质 |
CN111930942B (zh) * | 2020-08-07 | 2023-08-15 | 腾讯云计算(长沙)有限责任公司 | 文本分类方法、语言模型训练方法、装置及设备 |
CN112686051B (zh) * | 2020-12-22 | 2024-05-31 | 中国科学技术大学 | 语义识别模型训练方法、识别方法、电子设备、存储介质 |
CN113535973B (zh) * | 2021-06-07 | 2023-06-23 | 中国科学院软件研究所 | 基于知识映射的事件关系抽取、语篇关系分析方法及装置 |
CN113553848B (zh) * | 2021-07-19 | 2024-02-02 | 北京奇艺世纪科技有限公司 | 长文本分类方法、系统、电子设备、计算机可读存储介质 |
CN113886885A (zh) * | 2021-10-21 | 2022-01-04 | 平安科技(深圳)有限公司 | 数据脱敏方法、数据脱敏装置、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109033374A (zh) * | 2018-07-27 | 2018-12-18 | 四川长虹电器股份有限公司 | 基于贝叶斯分类器的知识图谱检索方法 |
CN109284387A (zh) * | 2018-10-19 | 2019-01-29 | 昆山杜克大学 | 刻板特异用语检测系统、方法、计算机设备和存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107943847B (zh) * | 2017-11-02 | 2019-05-17 | 平安科技(深圳)有限公司 | 企业关系提取方法、装置及存储介质 |
CN108363753B (zh) * | 2018-01-30 | 2020-05-19 | 南京邮电大学 | 评论文本情感分类模型训练与情感分类方法、装置及设备 |
CN108874896B (zh) * | 2018-05-22 | 2020-11-06 | 大连理工大学 | 一种基于神经网络和幽默特征的幽默识别方法 |
CN109598000B (zh) * | 2018-12-28 | 2023-06-16 | 百度在线网络技术(北京)有限公司 | 语义关系识别方法、装置、计算机设备和存储介质 |
-
2019
- 2019-06-06 CN CN201910493678.0A patent/CN110188202B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109033374A (zh) * | 2018-07-27 | 2018-12-18 | 四川长虹电器股份有限公司 | 基于贝叶斯分类器的知识图谱检索方法 |
CN109284387A (zh) * | 2018-10-19 | 2019-01-29 | 昆山杜克大学 | 刻板特异用语检测系统、方法、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110188202A (zh) | 2019-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110188202B (zh) | 语义关系识别模型的训练方法、装置及终端 | |
WO2022022163A1 (zh) | 文本分类模型的训练方法、装置、设备及存储介质 | |
WO2022088444A1 (zh) | 一种面向多任务语言模型的元-知识微调方法及平台 | |
CN112164391A (zh) | 语句处理方法、装置、电子设备及存储介质 | |
CN114298121B (zh) | 基于多模态的文本生成方法、模型训练方法和装置 | |
CN111914085A (zh) | 文本细粒度情感分类方法、系统、装置及存储介质 | |
WO2023137911A1 (zh) | 基于小样本语料的意图分类方法、装置及计算机设备 | |
CN108735198B (zh) | 基于医学疾病数据的语音合成方法、装置及电子设备 | |
CN112860871B (zh) | 自然语言理解模型训练方法、自然语言理解方法及装置 | |
CN112101042A (zh) | 文本情绪识别方法、装置、终端设备和存储介质 | |
Li et al. | Intention understanding in human–robot interaction based on visual-NLP semantics | |
CN113849653A (zh) | 一种文本分类方法及装置 | |
CN115344699A (zh) | 文本分类模型的训练方法、装置、计算机设备及介质 | |
CN113704393A (zh) | 关键词提取方法、装置、设备及介质 | |
CN113901289A (zh) | 一种基于无监督学习的推荐方法及系统 | |
CN118378148A (zh) | 多标签分类模型的训练方法、多标签分类方法及相关装置 | |
CN113988085B (zh) | 文本语义相似度匹配方法、装置、电子设备及存储介质 | |
CN113657092B (zh) | 识别标签的方法、装置、设备以及介质 | |
CN114462418B (zh) | 事件检测方法、系统、智能终端及计算机可读存储介质 | |
CN115759262A (zh) | 基于知识感知注意力网络的视觉常识推理方法及系统 | |
CN115713082A (zh) | 一种命名实体识别方法、装置、设备及存储介质 | |
CN114969341A (zh) | 一种针对餐饮行业评论的细粒度情感分析方法及装置 | |
CN114490935A (zh) | 异常文本的检测方法、装置、计算机可读介质及电子设备 | |
CN114357964A (zh) | 主观题评分方法、模型的训练方法、计算机设备及存储介质 | |
CN114662496A (zh) | 信息识别方法、装置、设备、存储介质及产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |