CN113569553A - 基于改进Adaboost算法的句子相似性判断方法 - Google Patents
基于改进Adaboost算法的句子相似性判断方法 Download PDFInfo
- Publication number
- CN113569553A CN113569553A CN202110860567.6A CN202110860567A CN113569553A CN 113569553 A CN113569553 A CN 113569553A CN 202110860567 A CN202110860567 A CN 202110860567A CN 113569553 A CN113569553 A CN 113569553A
- Authority
- CN
- China
- Prior art keywords
- training
- sentence
- layer
- adaboost algorithm
- training language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 77
- 238000012795 verification Methods 0.000 claims abstract description 11
- 238000012360 testing method Methods 0.000 claims abstract description 9
- 239000013598 vector Substances 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000000694 effects Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000009545 invasion Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于改进Adaboost算法的句子相似性判断方法,利用预训练语言模型在学习大规模文本的语义知识方面的优势以及Adaboost算法在集成多个基学习器方面的优势,先通过公开语料集中的训练数据对多个不同的预训练语言模型进行独立训练和微调,目的是利用不同预训练语言中的先验知识和网络结构学习文本语义相似性的任务相关知识;接着,在Adaboost R2算法的基础上提出改进的Adaboost算法,并结合验证数据集计算各个模型的权重系数,并进行归一化。最后,根据权重系数将各个模型在测试数据集的预测结果进行线性求和,从而得到最终的句子相似性结果。
Description
技术领域
本发明涉及自然语言处理领域,具体涉及一种基于改进Adaboost算法的句子相似性判断方法。
背景技术
句子语义相似性判断研究长期以来一直是是自然语言处理领域中的一个重要子任务,其主要目的是利用机器学习自动识别两个句子之间的语义相似性。句子语义相似性判断在文本分类、搜索引擎、问答系统及信息抽取等领域均得到广泛的应用。近年来,随着各种预训练语言模型(如BERT、RoBERTa、XLNet和Ernie等)的快速发展,学术界和工业界开始采用大规模通用互联网文本语料对预训练语言模型基础进行预训练,目的是学习通用的语言表示和先验知识。然后在下游任务中进行微调得到学习任务相关的知识。许多研究均已证明了预训练加微调的两阶段方法非常有效的,在多个自然语言处理任务上均取得了新的最好结果,并开始在句子相似性判断任务中得到应用。
目前许多研究主要针对具体的句子相似性判断任务,利用某个预训练语言模型(如BERT或XLNet等)学习句子的上下文信息及相似性关系,并通过微调学习任务相关的知识。虽然这些工作在一些公开的语料集上(如SemEval 2014SICK、SemEval 2017STS-B等)上均取得较好的效果。但由于不同的预训练语言模型采用了不同的语言建模方法、特征表示、神经网络结构、预训练任务、预训练语料和微调策略等,导致模型中具有不同的语法、语义及结构等先验知识,而且在下游任务中的学习能力也存在一定的差异。现有的相关研究很少从多模型集成的角度分析如何更好地利用不同预计模型中的先验知识和学习能力进一步提升模型在句子相似性判断任务上的效果。
发明内容
本发明的目的是针对上述现有技术的不足,提供了一种基于改进Adaboost算法的句子相似性判断方法,利用多个不同的预训练语言模型对句子相似性任务进行训练和微调,并得到相应的任务相关知识;接着利用Adaboost R2算法在集成多个基学习器方面的优势,提出改进的Adaboost算法,通过利用MSE代替经典Adaboost算法中的误差率计算,从而更好地区分弱学习器对模型集成结果的影响,并通过验证数据集进行训练得到各个预训练语言模型的权重系数向量,最后进行归一化处理。最后,利用权重系数向量将各个预训练语言模型在测试数据集上的结果进行线性加权求和,得到最终的相似性值。
本发明的目的可以通过如下技术方案实现:
一种基于改进Adaboost算法的句子相似性判断方法,所述方法包括以下步骤:
步骤1、在输入特征层,根据各个不同预训练语言模型的输入要求,对待识别的两个句子进行预处理;以BERT和RoBERTa为例,根据SentencePiece或WordPiece分别对两个句子进行分词处理,并根据输入长度要求对句子进行相应的长度预处理,接着利用标志符号[CLS]和[SEP]将两个句子合并成一个句子对的表示;最后,将句子对中各个单词转成词汇表中对应的序号信息,并结合位置词向量、单词词向量信息及分段信息构造最终的输入表示;
步骤2、在预训练语言模型层,对于输入的句子对,根据各个不同预训练语言模型的要求,利用训练数据集分别进行单独训练和微调;在各个预训练语言模型的微调过程中,统一将[CLS]标记所对应的词向量作为文本对的语义特征表示,并通过sigmoid函数计算相应的语义相似性值;损失函数统一采用均方误差MSE(MeanSquaredError)。优化器采用Adam,学习率为2e-05;
步骤3、在特征融合层,在标准Adaboost R2算法的基础上提出改进的Adaboost算法,利用MSE代替经典Adaboost算法中的误差率计算,并通过验证数据集进行训练得到各个预训练语言模型的权重系数向量,最后进行归一化处理;最后,利用权重系数向量将各个模型在测试数据集上的结果进行线性加权求和,并得到最终的相似性值。
进一步地,所述一种基于改进Adaboost算法的句子相似性判断方法是在一个多层神经网络中完成的,所述步骤1在第一层输入层中完成,步骤2在第二层预训练语言模型层中完成,步骤3在第三层特征融合层中完成。
进一步地,所述第二层预训练语言模型层用于利用各个不同预训练语言模型中的先验知识和网络结构学习句子对的任务相关知识,并进行相应的判断。所述第三层特征融合层将各个预训练语言模型作为基学习器,结合改进的Adaboost算法和验证数据集训练得到相应的权重系数向量,最后进行线性加权求和得到最终的语义相似性值;模型利用均方误差函数作为损失函数迭代优化模型参数。
进一步地,步骤1中,所述对两个句子进行预处理包括分词、大小写识别、编码转换等;同时,为了便于与模型结果进行比较,若目标任务语料集中的句子语义相关度为区间[0,1]外的其他实数值(如位于区间[0,5]或[1,5]中),则采用归一化公式round((y-min)/(max-min),4)进行处理,其中round表示四舍五入并取小数点后3位,y为原语料集中句子对的相似性值,max和min分别表示该任务语料集中所有句子相似性值的最大值和最小值。
进一步地,所述步骤2为预训练语言模型的训练和微调过程,通过利用训练数据集对多个预训练语言模型进行单独训练学习任务相关知识;在训练过程中,由于各个预训练语言模型不存在参数或网络结构的共享,因此可以通过并行训练的方式加快模型的训练速度。
进一步地,所述步骤3为特征合并及相似性判断输出,通过改进的Adaboost算法和验证数据集进行训练得到各个预训练语言模型的权重系数向量,一方面避免传统Adaboost中需要串联训练基学习器的问题,另一方面结合句子相似性任务的特点利用均方误差MSE代替Adaboost中的误差率计算,并提出相应的样本数据权重计算公式;最后根据权重系数对各个模型在测试数据集上的结果进行线性加权求和,得到句子对的最终语义相似性值;步骤3的输出结果为区间[0,1]的某个实数值,代表两个句子之间的相似性,值越大表示越相似,值越小表示越不相似。
进一步地,所述步骤3中的改进Adaboost算法的伪代码表示如下:
本发明与现有技术相比,具有如下优点和有益效果:
本发明通过充分利用预训练语言模型在学习大规模文本的语义知识方面的优势以及Adaboost算法在集成多个基学习器方面的优势,提出一种基于改进Adaboost算法的句子相似性判断方法。首先,根据各个不同预训练语言模型的输入要求,对拟识别的两个句子进行预处理,构造相应的模型输入。接着,通过语料集中的训练数据对多个不同的预训练语言模型进行独立训练和微调,目的是利用不同预训练语言中的先验知识和网络结构学习文本语义相似性的任务相关知识;然后,在Adaboost R2算法的基础上提出改进的Adaboost算法,并结合验证数据集计算各个模型的权重系数,并进行归一化。最后,根据权重系数将各个模型在测试数据集的预测结果进行线性求和,从而得到最终的句子相似性结果。实验结果证明,该方法可以进一步提高句子语义相关判别模型的皮尔逊共关系系数(Pearsoncorrelation coefficient)和斯皮尔曼共关系系数(Spearman correlationcoefficient),并具有较好的通用性,在测试的公开语料库SICK(Sentences InvolvingCompositional Knowledge)数据集和国际语义评测小组于2017年发布的STS Benchmark基准数据集上都取得很好的效果,超过了各个单独预训练语言模型的效果,并应用在公司的Fongwell大数据产品、文本识别及自动问答等相关系统中。当利用模型并行训练时,可以在避免增加模型复杂性和训练数据量的前提下,使得模型的训练时间不随集成模型数量的增加而线性增长,进一步提升模型的效果。
附图说明
图1为本发明实施的多层神经网络模型的总体架构图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例:
本实施例提供了一种基于改进Adaboost算法的句子相似性判断方法,所述方法包括以下步骤:
步骤1、在输入特征层,根据各个不同预训练语言模型的输入要求,对待识别的两个句子进行预处理。以BERT和RoBERTa为例,根据SentencePiece或WordPiece分别对两个句子进行分词处理,并根据输入长度要求对句子进行相应的长度预处理,接着利用标志符号[CLS]和[SEP]将两个句子合并成一个句子对的表示。最后,将句子对中各个单词转成词汇表中对应的序号信息,并结合位置词向量、单词词向量信息及分段信息构造最终的输入表示。
步骤2、在预训练语言模型层,对于输入的句子对,根据各个不同预训练语言模型的要求,利用训练数据集分别进行单独训练和微调。在各个预训练语言模型的微调过程中,统一将[CLS]标记所对应的词向量作为文本对的语义特征表示,并通过sigmoid函数计算相应的语义相似性值。损失函数统一采用均方误差MSE(Mean Squared Error)。优化器采用Adam,学习率为2e-05。
步骤3、在特征融合层,在标准Adaboost R2算法的基础上提出改进的Adaboost算法,利用MSE代替经典Adaboost算法中的误差率计算,并通过验证数据集进行训练得到各个预训练语言模型的权重系数向量,最后进行归一化处理。最后,利用权重系数向量将各个模型在测试数据集上的结果进行线性加权求和,并得到最终的相似性值。
所述步骤1在第一层输入层中完成,步骤2在第二层预训练语言模型层中完成,步骤3在第三层特征融合层中完成。
上面所述一种基于改进Adaboost算法的句子相似性判断方法是在一个多层神经网络中完成的,多层神经网络的架构图如图1所示,所述步骤1在第一层输入层中完成,若句子对长度不超过512单词,则默认取最大句子对长度作为统一长度阈值。若句子对长度超过512单词,则同时进行截断处理;步骤2在第二层预训练语言模型层中完成,其中,默认情况下各预训练语言模型的单元词向量的输出维度为768或1024维,并取最后一层中[CLS]标志所对应的词向量作为句子对的语义特征表示。各模型统一采用均方误差MSE作为损失函数;步骤3在特征融合层完成,通过改进的Adaboost算法和验证数据集进行训练得到各个预训练语言模型的权重系数向量,最后根据权重系数对各个模型在测试数据集上的结果进行线性加权求和,得到句子对的最终语义相似性值。
以上所述,仅为本发明专利较佳的实施例,但本发明专利的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及其发明专利构思加以等同替换或改变,都属于本发明专利的保护范围。
Claims (4)
1.基于改进Adaboost算法的句子相似性判断方法,其特征在于,所述方法包括以下步骤:
步骤1、在输入特征层,根据各个不同预训练语言模型的输入要求,对待识别的两个句子进行预处理;以BERT和RoBERTa为例,根据SentencePiece或WordPiece分别对两个句子进行分词处理,并根据输入长度要求对句子进行相应的长度预处理,接着利用标志符号[CLS]和[SEP]将两个句子合并成一个句子对的表示;最后,将句子对中各个单词转成词汇表中对应的序号信息,并结合位置词向量、单词词向量信息及分段信息构造最终的输入表示;
步骤2、在预训练语言模型层,对于输入的句子对,根据各个不同预训练语言模型的要求,利用训练数据集分别进行单独训练和微调;在各个预训练语言模型的微调过程中,统一将[CLS]标记所对应的词向量作为文本对的语义特征表示,并通过sigmoid函数计算相应的语义相似性值;损失函数统一采用均方误差MSE(Mean SquaredError);优化器采用Adam,学习率为2e-05;
步骤3、在特征融合层,在标准Adaboost R2算法的基础上提出改进的Adaboost算法,利用MSE代替经典Adaboost算法中的误差率计算,并通过验证数据集进行训练得到各个预训练语言模型的权重系数向量,最后进行归一化处理;最后,利用权重系数向量将各个模型在测试数据集上的结果进行线性加权求和,并得到最终的相似性值。
2.根据权利要求1所述的基于改进Adaboost算法的句子相似性判断方法,其特征在于:所述结合预训练语言模型和改进Adaboost算法的句子相似性判断方法是在一个多层神经网络中完成的,所述步骤1在第一层特征输入层中完成,步骤2在第二层预训练语言模型层中完成,步骤3在特征融合层中完成。
3.根据权利要求2所述的基于改进Adaboost算法的句子相似性判断方法,其特征在于:所述第二层预训练语言模型层利用各个不同预训练语言模型中的先验知识和网络结构学习两个句子的上下文信息以及与它们之间的关系,并通过微调学习任务相关知识;所述第三层特征融合层将各个预训练语言模型作为基学习器,结合改进的Adaboost算法和验证数据集训练得到相应的权重系数向量,最后进行线性加权求和得到最终的语义相似性值。
4.根据权利要求3所述的基于改进Adaboost算法的句子相似性判断方法,其特征在于:所述步骤3为特征合并及相关度判断输出,通过改进的Adaboost算法和验证数据集进行训练得到各个预训练语言模型的权重系数向量,一方面避免传统Adaboost中需要串联训练基学习器的问题,另一方面结合句子相似性任务的特点利用均方误差MSE代替Adaboost中的误差率计算,并提出相应的样本数据权重计算公式;最后根据权重系数对各个模型在测试数据集上的结果进行线性加权求和,得到句子对的最终语义相似性值;步骤3的输出结果为区间[0,1]的某个实数值,代表两个句子之间的相似性,值越大表示越相似,值越小表示越不相似。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110860567.6A CN113569553A (zh) | 2021-07-28 | 2021-07-28 | 基于改进Adaboost算法的句子相似性判断方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110860567.6A CN113569553A (zh) | 2021-07-28 | 2021-07-28 | 基于改进Adaboost算法的句子相似性判断方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113569553A true CN113569553A (zh) | 2021-10-29 |
Family
ID=78168725
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110860567.6A Pending CN113569553A (zh) | 2021-07-28 | 2021-07-28 | 基于改进Adaboost算法的句子相似性判断方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113569553A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115345167A (zh) * | 2022-08-29 | 2022-11-15 | 华润数字科技有限公司 | 一种多模型文本处理方法、装置、计算机设备及存储介质 |
CN116308348A (zh) * | 2023-02-27 | 2023-06-23 | 广州芳禾数据有限公司 | 基于区块链的机器学习模型安全交易方法、系统及设备 |
CN117236319A (zh) * | 2023-09-25 | 2023-12-15 | 中国—东盟信息港股份有限公司 | 一种基于Transformer生成模型的真实场景中文文本纠错方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110209822A (zh) * | 2019-06-11 | 2019-09-06 | 中译语通科技股份有限公司 | 基于深度学习的学术领域数据相关性预测方法、计算机 |
CN111125380A (zh) * | 2019-12-30 | 2020-05-08 | 华南理工大学 | 一种基于RoBERTa和启发式算法的实体链接方法 |
CN111914085A (zh) * | 2020-06-18 | 2020-11-10 | 华南理工大学 | 文本细粒度情感分类方法、系统、装置及存储介质 |
CN112163429A (zh) * | 2020-09-27 | 2021-01-01 | 华南理工大学 | 结合循环网络及bert的句子相关度获取方法、系统及介质 |
CN112214599A (zh) * | 2020-10-20 | 2021-01-12 | 电子科技大学 | 基于统计学和预训练语言模型的多标签文本分类方法 |
CN112417884A (zh) * | 2020-11-05 | 2021-02-26 | 广州平云信息科技有限公司 | 一种基于知识增强和知识迁移的句子语义相关度判断方法 |
CN112417877A (zh) * | 2020-11-24 | 2021-02-26 | 广州平云信息科技有限公司 | 一种基于改进bert的文本蕴含关系识别方法 |
WO2021118737A1 (en) * | 2019-12-11 | 2021-06-17 | Microsoft Technology Licensing, Llc | Sentence similarity scoring using neural network distillation |
-
2021
- 2021-07-28 CN CN202110860567.6A patent/CN113569553A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110209822A (zh) * | 2019-06-11 | 2019-09-06 | 中译语通科技股份有限公司 | 基于深度学习的学术领域数据相关性预测方法、计算机 |
WO2021118737A1 (en) * | 2019-12-11 | 2021-06-17 | Microsoft Technology Licensing, Llc | Sentence similarity scoring using neural network distillation |
CN111125380A (zh) * | 2019-12-30 | 2020-05-08 | 华南理工大学 | 一种基于RoBERTa和启发式算法的实体链接方法 |
CN111914085A (zh) * | 2020-06-18 | 2020-11-10 | 华南理工大学 | 文本细粒度情感分类方法、系统、装置及存储介质 |
CN112163429A (zh) * | 2020-09-27 | 2021-01-01 | 华南理工大学 | 结合循环网络及bert的句子相关度获取方法、系统及介质 |
CN112214599A (zh) * | 2020-10-20 | 2021-01-12 | 电子科技大学 | 基于统计学和预训练语言模型的多标签文本分类方法 |
CN112417884A (zh) * | 2020-11-05 | 2021-02-26 | 广州平云信息科技有限公司 | 一种基于知识增强和知识迁移的句子语义相关度判断方法 |
CN112417877A (zh) * | 2020-11-24 | 2021-02-26 | 广州平云信息科技有限公司 | 一种基于改进bert的文本蕴含关系识别方法 |
Non-Patent Citations (1)
Title |
---|
Y学习使我快乐V: "AdaBoost基本原理与算法描述", 《CNDN》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115345167A (zh) * | 2022-08-29 | 2022-11-15 | 华润数字科技有限公司 | 一种多模型文本处理方法、装置、计算机设备及存储介质 |
CN115345167B (zh) * | 2022-08-29 | 2023-11-10 | 华润数字科技有限公司 | 一种多模型文本处理方法、装置、计算机设备及存储介质 |
CN116308348A (zh) * | 2023-02-27 | 2023-06-23 | 广州芳禾数据有限公司 | 基于区块链的机器学习模型安全交易方法、系统及设备 |
CN116308348B (zh) * | 2023-02-27 | 2024-01-02 | 广州芳禾数据有限公司 | 基于区块链的机器学习模型安全交易方法、系统及设备 |
CN117236319A (zh) * | 2023-09-25 | 2023-12-15 | 中国—东盟信息港股份有限公司 | 一种基于Transformer生成模型的真实场景中文文本纠错方法 |
CN117236319B (zh) * | 2023-09-25 | 2024-04-19 | 中国—东盟信息港股份有限公司 | 一种基于Transformer生成模型的真实场景中文文本纠错方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN111625641B (zh) | 一种基于多维度语义交互表征模型的对话意图识别方法及系统 | |
CN108733653B (zh) | 一种基于融合词性和语义信息的Skip-gram模型的情感分析方法 | |
CN112417877B (zh) | 一种基于改进bert的文本蕴含关系识别方法 | |
CN106599032B (zh) | 一种结合稀疏编码和结构感知机的文本事件抽取方法 | |
CN113569553A (zh) | 基于改进Adaboost算法的句子相似性判断方法 | |
CN110309503A (zh) | 一种基于深度学习bert--cnn的主观题评分模型及评分方法 | |
CN113673254B (zh) | 基于相似度保持的知识蒸馏的立场检测方法 | |
Van Nguyen et al. | Enhancing lexical-based approach with external knowledge for Vietnamese multiple-choice machine reading comprehension | |
CN112417884A (zh) | 一种基于知识增强和知识迁移的句子语义相关度判断方法 | |
CN113962219A (zh) | 面向电力变压器知识检索和问答的语义匹配方法及系统 | |
CN112232053A (zh) | 一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质 | |
CN114203177A (zh) | 一种基于深度学习与情绪识别的智能语音问答方法和系统 | |
CN112988970A (zh) | 一种服务于智能问答系统的文本匹配算法 | |
CN114417851A (zh) | 一种基于关键词加权信息的情感分析方法 | |
CN115238693A (zh) | 一种基于多分词和多层双向长短期记忆的中文命名实体识别方法 | |
Cao et al. | Speaker-independent speech emotion recognition based on random forest feature selection algorithm | |
Zhao et al. | Knowledge-aware bayesian co-attention for multimodal emotion recognition | |
Zhang | Ideological and political empowering English teaching: ideological education based on artificial intelligence in classroom emotion recognition | |
KR102297480B1 (ko) | 비정형 질문 또는 요구 발화의 구조화된 패러프레이징 시스템 및 방법 | |
CN115905187B (zh) | 一种面向云计算工程技术人员认证的智能化命题系统 | |
CN115510230A (zh) | 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法 | |
CN115687939A (zh) | 一种基于多任务学习的Mask文本匹配方法及介质 | |
CN114357166A (zh) | 一种基于深度学习的文本分类方法 | |
CN114461779A (zh) | 一种案件笔录要素抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211029 |
|
RJ01 | Rejection of invention patent application after publication |