CN109299262B - 一种融合多粒度信息的文本蕴含关系识别方法 - Google Patents

一种融合多粒度信息的文本蕴含关系识别方法 Download PDF

Info

Publication number
CN109299262B
CN109299262B CN201811174143.9A CN201811174143A CN109299262B CN 109299262 B CN109299262 B CN 109299262B CN 201811174143 A CN201811174143 A CN 201811174143A CN 109299262 B CN109299262 B CN 109299262B
Authority
CN
China
Prior art keywords
text
vector
word
layer
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811174143.9A
Other languages
English (en)
Other versions
CN109299262A (zh
Inventor
王慧瑶
郭泽颖
印鉴
高静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Hengdian Information Technology Co ltd
Sun Yat Sen University
Original Assignee
Guangdong Hengdian Information Technology Co ltd
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Hengdian Information Technology Co ltd, Sun Yat Sen University filed Critical Guangdong Hengdian Information Technology Co ltd
Priority to CN201811174143.9A priority Critical patent/CN109299262B/zh
Publication of CN109299262A publication Critical patent/CN109299262A/zh
Application granted granted Critical
Publication of CN109299262B publication Critical patent/CN109299262B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种融合多粒度信息的文本蕴含关系识别方法,提出融合字与词、词与词、词与句之间多粒度信息融合与交互的建模方法。本发明首先在字符向量层使用卷积神经网络和Highway网络层建立基于字符级别的词向量模型,并与GloVe预训练的词向量拼接;之后句子建模层将融合字词粒度的词向量使用双向长短时记忆网络进行建模,再经过句子匹配层对文本对进行融合注意力机制的交互与匹配,最后通过整合分类层求得类别;模型建立好后将模型进行训练和测试最终获取测试样本的文本蕴含识别分类结果。这种融合了字、词、句多粒度信息的层次化组合结构方法融合了模型中浅层的特征定位和深层的特征学习等优势,从而进一步提升文本蕴含关系识别的准确性。

Description

一种融合多粒度信息的文本蕴含关系识别方法
技术领域
本发明涉及自然语言处理领域,更具体地,涉及一种融合多粒度信息的文本蕴含关系识别方法。
背景技术
文本蕴含识别研究是指对给定的两段文本(前提文本和假设文本)判断它们之间的蕴含关系(蕴含、矛盾或中性)。这是自然语言处理领域一项重要的任务,传统的研究方法主要依赖特征工程、外部语义资源和工具的支持,结合机器学习方法完成文本蕴含关系分类。这种基于特征分类的方法通常需要耗费较多的时间和计算成本。随着深度神经网络在人工智能的各项任务获得出色表现,现在文本蕴含识别的主流研究工作是利用深度神经网络对文本序列建模来完成句子的表示和匹配,虽已取得一定进展,但仍存在一些不足:一是句子表示过程中用到的word2vec,GloVe或Str2Matrix等都依赖于现有的语料库,有越来越多的新词、低频词或复合词未出现或很少出现在训练语料中,而这些词语并不全包含在预训练词向量中,新词向量大比例缺失会影响模型的训练效果。二是主流方法中对两个句子的向量表示计算距离关系矩阵或是基于文本相似度的方法不具备语义推理的能力。三是前提文本与假设文本之间交互信息等的探讨较少,现有技术都是对两个文本分别进行编码或者映射后,简单地对向量进行聚合,随后经过深度序列模型并预测分类,但此过程中忽略了句子之间的交互信息等。
发明内容
本发明为克服上述现有技术所述的至少一种缺陷,提供一种融合多粒度信息的文本蕴含关系识别方法。
为解决上述技术问题,本发明的技术方案如下:一种融合多粒度信息的文本蕴含关系识别方法,包括以下步骤:
S1:获取已标注好的英文文本语料,在输入层输入训练样本集;
S2:在字符向量层,对S1输入的文本P和Q,分别建立以字符粒度为输入单位的卷积神经网络CNN模型,对句子中的每个单词提取字符特征得到各个新的词向量;
S3:在词向量融合层,建立Highway网络层,传入S2中字符级别卷积神经网络CNN模型输出的单词向量,输出基于字符特征的词向量序列,然后将它们逐个与原有的预训练词向量结合,得到融合了字词两个粒度信息的词向量;
S4:在句子建模层,建立双向长短时记忆网络即BiLSTM,将S3输出的融合字词信息的词向量序列依次通过记忆单元,得到每一时刻输出的上下文向量;
S5:在交互层,融合注意力机制,分别对S4中蕴含文本对P和Q每一时刻的上下文向量运用多粒度,跨层次的交互策略,得到不同策略下P和Q的文本表示向量,将其依次连接得到P和Q文本对的联合向量表达;
S6:在分类层,建立多层神经网络MLP层和Softmax分类器,传入S5中所得的文本对联合向量,输出文本蕴含关系识别的分类结果;
S7:利用训练样本集,通过反向传播不断最小化目标函数来训练模型,使其学习出S1-S6中构建的各层网络参数,生成预测过程的模型;
S8:将测试样本集语料放入S7中训练好的融合多粒度信息模型中,最终获取测试样本的文本蕴含识别分类结果。
优选地,所述步骤S1中的训练样本为:收集用于文本蕴含识别任务的已标注好的语料,将其中80%作为训练样本集,剩余20%作为测试样本集;语料集中的数据样本由三个部分组成:
Figure BDA0001823288280000021
其中P(n)第n对样本中的前提文本,Q(n)表示第n对训练样本中的假设文本,
Figure BDA0001823288280000022
表示P和Q之间的关系标签,C为输出类别的个数,y(n)是C维的0-1向量;关系标签包含蕴含、矛盾和中性即C=3;P和Q均为英文句子文本,第n对前提文本和假设文本可分别表示为由单词构成的序列:
Figure BDA0001823288280000023
Figure BDA0001823288280000024
其中句子P的长度为P中单词个数la,句子Q的长度为Q中单词个数lb
优选地,所述步骤S2的具体过程是:
S21:构建字符表并进行数据预处理和字符表示:将S1的文本P和Q中的单词转换为小写字母,再对每个单词中所包含的字符根据字符表进行索引与标记,未出现在字符集合中的其他特殊符号将以零向量作为初始化;分别将句子P和Q中的每个单词表示为由字符向量拼接而成的单词矩阵;
S22:初始化卷积神经网络CNN模型及其参数,所述参数包括网络中连接的权重和偏置,并将S21中句子P和Q由字符向量组成的单词序列作为卷积神经网络的输入,该网络包括字符特征卷积层,字符特征池化层和字符特征连接层;
S23:所述字符特征卷积层,对S22中得到的每个单词矩阵设置不同大小的卷积核进行一维卷积操作以便捕捉不同相邻字符的局部组合特征;
S24:所述字符特征池化层,对S23中各个单词经不同卷积核H得到的特征映射fk分别进行最大池化,各自独立进行局部特征选择;
S25:所述字符特征连接层,将S24中每个单词最大池化后的所有特征值进行连接得到各个单词的向量表示yk,将句子所包含的所有单词的向量表示横向拼接得到句子的向量表示,如句长为la的句子P可表示为序列[y1,y2,...,yla]。
优选地,所述步骤S3的具体过程是:
S31:建立Highway网络并初始化其参数,所述参数包括网络中连接的权重和偏置,设置转换门t和携带门1-t;
S32:将S3中卷积神经网络层输出的词向量序列,逐个通过Highway网络,一部分经过转换门变换后输出到下一层,另一部分保留原始的输入信息不经过非线性变换操作而直接传输到下一层,以确保深度神经网络的训练性能;
S33:将S32中Highway网络层的每个输出vc,即基于字符特征得到的词向量序列,分别与其原有的GloVe预训练词向量vw进行连接,得到单词表示向量vcombined,即vcombined=[vc,vw]作为同时融合了字符和单词特征的融合词向量。
优选地,所述步骤S4的具体过程是:
S41:建立双向长短时记忆网络BiLSTM并初始化其参数,所述参数包括网络中连接的权重和偏置,并按标准LSTM模型设置各门控单元和Cell单元;
S42:在双向长短时记忆网络BiLSTM的输入层依次传入S33输出的融合字词信息的词向量序列,经前向传播层和后向传播层两种方向的输入编码后,将同一时刻的2个隐层单元结合计算得到该时刻的编码输出,即句子某一时刻的上下文向量
Figure BDA0001823288280000031
Figure BDA0001823288280000032
优选地,所述步骤S5包含五种不同的交互策略,具体过程是:
S51:对S42中蕴含文本对P和Q每一时刻的上下文向量
Figure BDA0001823288280000033
Figure BDA0001823288280000034
采用词粒度的句子内交互策略:P和Q以相同的子结构各自进行句内上下文向量词语对齐匹配,P的计算方法如下:
Figure BDA0001823288280000041
Figure BDA0001823288280000042
Figure BDA0001823288280000043
Figure BDA0001823288280000044
其中,
Figure BDA0001823288280000045
表示句子P中i时刻上下文向量与j时刻上下文向量的匹配度,
Figure BDA0001823288280000046
表示i时刻上下文向量在句子P内的重要性,
Figure BDA0001823288280000047
表示融合注意力权重的上下文向量,
Figure BDA0001823288280000048
表示加权操作函数,
Figure BDA0001823288280000049
表示池化操作函数。对每一时刻上下文向量都如此计算并进行池化得到融合句子P自身注意力权重的表示向量vP
Figure BDA00018232882800000410
表示句子Q中i时刻上下文向量与j时刻上下文向量的匹配度,
Figure BDA00018232882800000411
表示i时刻上下文向量在句子Q内的重要性,
Figure BDA00018232882800000412
表示融合注意力权重的上下文向量,对每一时刻上下文向量都如此计算并进行池化得到融合句子Q自身注意力权重的表示向量vP;匹配函数fm是对向量进行相减后取对应元素的乘积作为匹配度量完成匹配工作。其计算方法如下:
fm(y1,y2)=(y1-y2)⊙(y1-y2)
其中,y1,y2为两个维度为d的向量;
将融合句子P和Q的注意力权重向量vP和vQ进行连接得到文本P和Q基于句内交互策略下的联合表示向量v1:v1=[vP,vQ];
S52:对S42中BiLSTM层建模后的两个句子表示向量yP和yQ采用句粒度的句子间交互策略:对yP和yQ句子向量对应元素进行对齐匹配,仅保留最大的匹配结果,计算方法如下:
v2=(m)max-pooling=max[yP⊙yQ].
其中,v2是融合P和Q句子间交互信息的联合表示向量;
S53:对S42中经BiLSTM层建模后的文本对进行跨层次的信息匹配,采用词句粒度的词语和句子全交互的策略:文本P的每一个上下文向量和文本Q的句子表示向量分别匹配,文本P中的每个词与文本Q的整个句子进行交互的计算方法如下:
Figure BDA0001823288280000051
Figure BDA00018232882800000517
Figure BDA0001823288280000052
将计算得到的vP和vQ进行连接即为采用词语和句子全交互策略后所得的联合表示向量v3:v3=[vP,vQ];
S54:对S42中蕴含文本对P和Q每一时刻的上下文向量
Figure BDA0001823288280000053
Figure BDA0001823288280000054
采用词粒度句子间交互的策略,将P,Q所包含的上下文向量之间进行一一对齐,即分别计算P的每个上下文向量在文本Q中的重要性以及Q的每个上下文向量在文本P中的重要性,完成词粒度的交叉注意力权重的计算,先对yP和yQ求得一个词对齐矩阵
Figure BDA0001823288280000055
矩阵元素sij越大表示对应词义越匹配,
Figure BDA0001823288280000056
对于注意力权重的计算方式如下所示:
Figure BDA0001823288280000057
Figure BDA0001823288280000058
其中,αi表示文本P的上下文向量对
Figure BDA0001823288280000059
的对齐,即
Figure BDA00018232882800000510
的加权和,βj表示文本Q的上下文向量对
Figure BDA00018232882800000511
的对齐,即
Figure BDA00018232882800000512
的加权和,融合注意力权重αi与βj后,计算两个句子的表示向量vP和vQ,计算方式形如公式:
Figure BDA00018232882800000513
Figure BDA00018232882800000514
Figure BDA00018232882800000515
Figure BDA00018232882800000516
将计算得到的vP和vQ进行连接即为采用采用词粒度的句子间交互的策略后所得的联合表示向量v4:v4=[vP,vQ];
S55:对S42中蕴含文本对P和Q每一时刻的上下文向量
Figure BDA0001823288280000061
Figure BDA0001823288280000062
采用词句粒度的融合注意力的平均池化交互策略,仍先对yP和yQ求得一个词对齐矩阵
Figure BDA0001823288280000063
Figure BDA0001823288280000064
其中
Figure BDA0001823288280000065
随后利用s对文本Q和文本P中的每一个上下文向量加权并求平均,得到文本Q和文本P的每个上下文向量
Figure BDA0001823288280000066
Figure BDA0001823288280000067
对齐后的平均加权表示向量αi、βj,然后比较Q的平均向量αi和P的上下文向量
Figure BDA0001823288280000068
求得
Figure BDA0001823288280000069
的注意力权重(mi)attention,P的平均向量βj和Q的上下文向量
Figure BDA00018232882800000610
求得
Figure BDA00018232882800000611
的注意力权重(mj)attention对文本P和文本Q中的每个上下文向量都如此操作并平均池化可得最终P的文本表示向量vP以及Q的文本表示向量vQ,公式如下:
Figure BDA00018232882800000612
Figure BDA00018232882800000613
Figure BDA00018232882800000614
Figure BDA00018232882800000615
Figure BDA00018232882800000616
Figure BDA00018232882800000617
Figure BDA00018232882800000618
将其拼接得到融合注意力平均池化的词句粒度交互策略下的联合表示向量v5:v5=[vP,vQ];
S56:对S51、S52、S53、S54和S55采用相应策略交互后所得的联合表示向量v1、v2、v3、v4、v5进行拼接作为文本P和Q利用了不同层次和粒度之间的信息交互后最终所得的句子联合表示向量v:v=[v1,v2,v3、v4、v5]。
优选地,所述步骤S6的具体过程是:建立多层神经网络MLP层Softmax层并初始化其参数,所述参数包括多层神经网络中连接的权重和偏置,将S5中运用各种交互策略所得的联合表示向量传入MLP的输入层,经过各隐藏层后到输出层以Softmax为激活函数对向量进行归一化操作最终得到文本对所属的文本蕴含关系分类标签,计算方法如下:
r=softmax(Wmlpv+b)
其中,Wmlp是MLP层的权重参数,b是MLP层的偏置参数通过模型训练学习而确定。
优选地,步骤S7的具体过程是:
对每个批处理batch中的语料计算目标函数,并通过反向传播来最小化目标函数以优化模型网络内各层参数;经多轮迭代后,当准确率趋于稳定时,完成模型训练并保存模型;其中目标函数为预测标签
Figure BDA0001823288280000072
分布和实际标签y分布的交叉熵,目标函数公式如下:
Figure BDA0001823288280000071
其中,N为样本数量,C表示标签类别。
优选地,所述步骤S8的具体过程是:
将所有测试样本集输入到训练好的模型中,得到预测的每个文本对属于蕴含关系中每一类别的概率,通过选取最后分布在“蕴含”“矛盾”“中性”三个标签上的最大概率对应的标签类别,得到文本对蕴含关系所属的类别;根据模型对测试样本的预测所属分类与其真实所属分类的对比,可评测本发明模型进行文本蕴含识别的准确率。
与现有技术相比,本发明技术方案的有益效果是:本发明结合英语单词的拼写特点,提出一种融合字词信息的输入方式,通过构建基于字符级别的卷积神经网络模型,降低模型输入的粒度从而捕捉单词构词结构中包含的词根词缀信息,获取单词拼写中的字符组合特征。在字符基础上同时结合原有词向量工作,利用字词两个粒度的特征提升文本蕴含识别模型的表现。其次,本发明从句子匹配的角度深入探究,提出一种融合注意力机制的文本交互匹配方法。利用双向长短时记忆神经网络模型在句子编码过程中的上下文信息,采用跨层次和多粒度的匹配策略,对词语和句子进行交互建模;利用前提文本和假设文本之间的多种组合特征来辅助模型推断文本的蕴含关系,弥补了现有发明对句子之间交互信息的缺失。此外,本发明结合单词的构词特征和句子的结构特征提出卷积神经网络(CNN)与双向长短时记忆网络(BiLSTM)的层次化组合结构,它能够融合模型中浅层的特征定位和深层的特征学习等优势,从而进一步提升文本蕴含关系识别的质量。基于上述创新点和改进,本发明可显著提升文本蕴含识别的准确性。
附图说明
图1为本发明的流程示意图;
图2为本发明实施例1中的算法结构示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示的一种融合多粒度信息的文本蕴含识别方法,包括模型建立、模型训练和模型预测过程,具体方法步骤如下:
模型建立过程包括:在输入层输入获取的训练样本集;在字符向量层对输入的文本对P和Q,分别建立以字符粒度为输入单位的卷积神经网络(CNN)模型,对句子中的每个单词提取字符特征得到各个新的词向量;在词向量融合层,建立Highway网络层,传入字符级别卷积神经网络(CNN)模型层建立的单词向量,输出基于字符特征的词向量序列,然后将它们逐个与原有的预训练词向量结合,得到融合了字词两个粒度信息的词向量;在句子建模层,建立双向长短时记忆网络(BiLSTM),将融合字词信息的词向量序列依次通过网络中的记忆单元,该层输出每一时刻的上下文向量;在交互层,融合注意力机制,分别对蕴含文本对P和Q每一时刻的上下文向量运用多粒度,跨层次的交互策略,得到不同策略下P和Q的文本表示向量,将其依次连接得到P和Q文本对的联合向量表达;在分类层,建立多层神经网络(MLP)层和Softmax分类器,传入经交互层所得的文本对联合向量,最终得到输出的分类结果;
模型训练过程包括:通过反向传播不断最小化目标函数来训练模型,经多轮迭代后,目标函数值趋于稳定,学习出构建各层网络的最优化参数,保存模型。
模型测试过程包括:输入测试样本到训练好的融合多粒度信息模型中,该模型分别融合了字与词、词与句之间的多粒度信息交互,最终获取测试样本的文本蕴含识别分类结果。
如图1所示的结构示意图,在具体实施过程中,其具体步骤:
1、在输入层输入训练样本,本发明为一种融合多粒度信息的文本蕴含识别方法,是结合CNN和BiLSTM模型的层次化结构来完成的。既然用到了深度神经网络模型,首先要了解数据集。我们使用的是斯坦福大学发布的SNLI(Stanford Natural LanguageInference)数据集,它是有关语义推断、文本理解的人工标注数据集,它平衡了分类标签的数量,逐渐成为文本蕴含识别任务的标准评测数据集。SNLI数据集的语料来源于图片社交网站,构造样本数据的过程如下:首先取网站中的图片标题作为初始数据;然后对每个标题文本人工创建与它蕴含、矛盾或中性关系的另一句文本;最后对每一组文本进行关系标签的标注。SNLI数据集一共包含570,000的人工手写英文句子对,包括标签和五个人工标注结果。在SNLI数据集上,以8:2比例划分为训练样本集和测试样本集。其中数据样例如表1所示:
Figure BDA0001823288280000091
表1:SNLI数据集样例
2、构建字符表,设置字符向量维度为15,句子最大长度为40。将文本P和Q中的单词转换为小写字母,再根据字符集合进行索引与标记,未出现在字符集合中的其他特殊符号将以零向量作为初始化;分别将句子P和Q中的每个单词表示为由字符向量拼接而成的单词矩阵,如:句子P中第k个单词表示为Pk=[c1,c2,…,cl],其中cn代表一个字符列向量,其维度为d,所规定的单词最大字符长度为l:设置为15(若词语长度不够l则补全(补零)得到最大长度为l的向量),将单词中每个字符对应的列向量进行拼接就得到单词矩阵
Figure BDA0001823288280000092
因此句子P和Q分别可视为单词矩阵的序列。
接着初始化卷积神经网络(CNN)模型及其参数,所述参数包括每层网络连接的权重和偏置,该层包含以下三层结构:
一,在字符特征卷积层对上述得到的每个单词矩阵进行一维卷积操作(对单词矩阵而言,只有连续多个字符列向量才能表明字符组合的含义):可设置7种不同大小的卷积核,卷积核宽度w为{1,2,3,4,5,6,7},卷积核大小为{min{200,50*w}},以捕捉不同相邻字符的局部组合特征。如:对单词矩阵Pk和卷积核H(
Figure BDA0001823288280000101
w为卷积核宽度)进行卷积操作,根据如下公式计算得到特征映射
Figure BDA0001823288280000102
(fk[i])H=tanh(<Pk[*,i:i+w-1],H>+b)
其中Pk[*,i:i+w-1]指单词矩阵中第i列到第i+w-1列的实值,b表示神经网络CNN层的偏置参数,H表示卷积核参数,它们都通过模型训练的过程学习来确定;
二,在字符特征池化层,使用最大池化对经不同卷积核H得到的特征映射fk分别独立进行局部特征选择,计算公式如下:
Figure BDA0001823288280000103
其中
Figure BDA0001823288280000104
表示卷积核H下单词k的特征值;
三,将每个单词经最大池化后的所有特征值进行连接得到各个单词的向量表示yk,如句长为la的句子P可表示为序列[y1,y2,…,yla]。
3、建立Highway网络层并初始化其参数,Highway层维度设置为300,设置转换门t和携带门1-t,计算方法如下:
t=σ(WTy+bT)
其中,WT和BT分别表示Highway网络层的权权重参数和偏置参数。
对前面CNN层输出的单词表示向量y,即Highway网络的输入,一部分经过转换门变换后输出到下一层,另一部分保留原始的输入信息不经过非线性变换操作g而直接传输到下一层,以确保深度神经网络的训练性能;计算公式如下:
z=(1-t)⊙y+t⊙g(WHy+b)
4、考虑到仅通过字符信息来完成单词的表示可能会存在一些语义信息的丢失,构建融合字词信息的词向量,将Highway网络层的输出,即基于字符特征的词向量序列,表示为vc,分别与其原有的GloVe预训练词向量vw进行连接,得到句子建模层输入的单词表示向量vcombined,即vcombined=[vc,vw]。
5、句子建模层为能同时捕获句子中历史和未来两种上下文信息,而LSTM能很好地保留历史信息用于序列建模,本文发明在句子建模层建立双向长短时记忆网络(BiLSTM),根据基本LSTM模型设置各门控单元和Cell单元,BiLSTM层维度设置为300;在双向长短时记忆网络(BiLSTM)的输入层每一时刻依次传入融合字词信息的词向量序列,经前向传播和后向传播两种方向的输入和编码
后,将同一时刻的2个隐层单元结合计算得到该时刻的编码输出,即句子的上下文向量
Figure BDA0001823288280000111
Figure BDA0001823288280000112
使用BiLSTM模型分别对P和Q两个文本进行编码的公式如下:
Figure BDA0001823288280000113
Figure BDA0001823288280000114
其中具体的计算过程如下述公式所示,yt表示时刻t的上下文向量:
Figure BDA0001823288280000115
Figure BDA0001823288280000116
Figure BDA0001823288280000117
其中,当前时刻t的输入为vt,则上一时刻的前向
Figure BDA0001823288280000118
隐藏层状态为
Figure BDA0001823288280000119
后向
Figure BDA00018232882800001110
隐藏层状态为
Figure BDA00018232882800001111
输出为yt
Figure BDA00018232882800001112
为隐藏层的激活函数,
Figure BDA00018232882800001113
为输出层的激活函数。
6、在交互层基于句子建模层采用五种不同的策略实现蕴含文本对之间的信息交互,分别融合且匹配了句内词与词粒度之间、句子间词与词粒度、句子间句与句粒度之间和句子间词与句粒度之间的语义信息,具体策略如下:
第一种策略是对P和Q每一时刻的上下文向量
Figure BDA00018232882800001114
Figure BDA00018232882800001115
采用词粒度的句子内交互策略,即P和Q以相同的子结构各自进行句内上下文向量词语对齐匹配,计算方法如下:
Figure BDA00018232882800001116
Figure BDA00018232882800001117
Figure BDA00018232882800001118
Figure BDA00018232882800001119
其中,
Figure BDA00018232882800001120
表示句子P中i时刻上下文向量与j时刻上下文向量的匹配度,
Figure BDA00018232882800001121
表示i时刻上下文向量在句子P内的重要性,
Figure BDA0001823288280000121
表示融合注意力权重的上下文向量,
Figure BDA0001823288280000122
表示加权操作函数,
Figure BDA0001823288280000123
表示池化操作函数,对每一时刻上下文向量进行池化得到融合句子P自身注意力权重的表示向量vP
句子Q的计算方法同上,可得vQ,将融合句子P和Q的注意力权重向量vP和vQ进行连接得到文本P和Q基于句内交互策略下的联合表示向量v1:v1=[vP,vQ]。
第二种策略是对经过BiLSTM层建模后的两个句子表示向量yP和yQ采用句粒度的句子间交互策略:对yP和yQ句子向量对应元素进行对齐匹配,仅保留最大的匹配结果,计算方法如下:
v2=(m)max-pooling=max[yP⊙yQ]
其中,v2是融合P和Q句子间交互信息的联合表示向量;
第三种策略是对经过BiLSTM层建模后的文本对进行跨层次的信息匹配,采用词句粒度的词语和句子全交互的策略:文本P的每一个上下文向量和文本Q的句子表示向量分别匹配,文本P中的每个词与文本Q的整个句子进行交互的计算方法如下:
Figure BDA0001823288280000124
Figure BDA0001823288280000125
Figure BDA0001823288280000126
同理可计算文本Q中的每个词与文本P的整个句子交互的结果vQ,将计算得到的vP和vQ进行连接即为采用词语和句子全交互策略后所得的联合表示向量v3:v3=[vP,vQ];
第四种策略是对经过BiLSTM层建模后的文本对P和Q每一时刻的上下文向量
Figure BDA0001823288280000127
Figure BDA0001823288280000128
采用词粒度句子间交互的策略,将P,Q所包含的上下文向量之间进行一一对齐,即分别计算P或Q的每个上下文向量在文本Q或P中的重要性,完成词粒度的交叉注意力权重的计算,需先对yP和yQ求得一个词对齐矩阵
Figure BDA0001823288280000129
Figure BDA00018232882800001210
矩阵元素sij越大表示对应词义越匹配,
Figure BDA00018232882800001211
对于注意力权重的计算方法如下:
Figure BDA0001823288280000131
Figure BDA0001823288280000132
其中,αi表示文本P的上下文向量对
Figure BDA0001823288280000133
的对齐,即
Figure BDA0001823288280000134
的加权和,同理βj。融合注意力权重αi与βj后,计算两个句子的表示向量vP和vQ,计算方式形如公式:
Figure BDA0001823288280000135
Figure BDA0001823288280000136
Figure BDA0001823288280000137
Figure BDA0001823288280000138
将计算得到的vP和vQ进行连接即为采用采用词粒度的句子间交互的策略后所得的联合表示向量v4:v4=[vP,vQ];
第五种策略是对对经过BiLSTM层建模后的文本对P和Q每一时刻的上下文向量
Figure BDA0001823288280000139
Figure BDA00018232882800001310
采用词句粒度的融合注意力的平均池化交互策略,仍先对yP和yQ求得一个词对齐矩阵
Figure BDA00018232882800001311
其中
Figure BDA00018232882800001312
随后利用s对文本Q和文本P中的每一个上下文向量加权并求平均,得到文本Q和文本P的每个上下文向量
Figure BDA00018232882800001313
Figure BDA00018232882800001314
对齐后的平均加权表示向量αi、βj,然后比较Q的平均向量αi和P的上下文向量
Figure BDA00018232882800001315
求得
Figure BDA00018232882800001316
的注意力权重(mi)attention,P的平均向量βj和Q的上下文向量
Figure BDA00018232882800001317
求得
Figure BDA00018232882800001318
的注意力权重(mj)attention对文本P和文本Q中的每个上下文向量都如此操作并平均池化可得最终P的文本表示向量vP以及Q的文本表示向量vQ,公式如下:
Figure BDA00018232882800001319
Figure BDA00018232882800001320
Figure BDA00018232882800001321
Figure BDA00018232882800001322
Figure BDA00018232882800001323
Figure BDA0001823288280000141
Figure BDA0001823288280000142
将其拼接得到融合注意力平均池化的词句粒度交互策略下的联合表示向量v5:v5=[vP,vQ];
最后对采用上述相应策略交互后所得的句子联合表示向量v1、v2、v3、v4、v5进行拼接,作为文本P和Q利用了不同层次和粒度之间的信息交互后最终所得的句子联合表示向量v:v=[v1,v2,v3,v4,v5];
上述策略中所涉及的匹配函数fm均对向量进行相减后取对应元素的乘积作为匹配度量完成匹配工作。其计算方法如下:
fm(y1,y2)=(y1-y2)⊙(y1-y2)
其中,y1,y2为两个维度为d的向量;
7、将在各层融合了多粒度信息的句子联合表示向量传入MLP层后以Softmax为激活函数对向量进行归一化操作可得最终分类结果,计算方法如下:
r=softmax(Wmlp[sP,sQ]+b)
8、设置batch为{32,64,128},最大迭代次数为30,Adam方法进行优化。对每个batch中的语料计算目标函数,并通过反向传播来最小化目标函数以优化网络内各层参数。经多轮迭代后,当准确率趋于稳定时,完成模型训练。目标函数为预测标签
Figure BDA0001823288280000143
分布和实际标签y分布的交叉熵,目标函数公式如下:
Figure BDA0001823288280000144
其中,N为样本数量,C表示标签类别;
9、将所有测试样本集输入到训练好的模型中,得到预测的每个文本对属于蕴含关系中每一类别的概率,通过选取最后分布在“蕴含”“矛盾”“中性”三个标签上的最大概率对应的标签类别,得到文本对蕴含关系所属的类别。
为了和之前的方法做对比,本发明文本蕴含识别任务的评价指标是分类的准确度,计算方法如下公式所示:
Figure BDA0001823288280000151
其中,|pairs|表示句子对的数量,
Figure BDA0001823288280000152
表示模型对第i对样本的蕴含关系的预测标签,yi表示真实标签;1[·]是指示函数,当判定条件为真时值为1,否则为0。
本发明相较于以前方法有很大的提升,本发明利用卷积神经网络模型能很好地捕捉局部特征以弥补当前词向量的不足;从双向长短时记忆网络模型在序列信息特征建模的优势出发对句子进行建模同时结合五种跨层次、多粒度的交互策略,融合字符、词语、句子三种粒度的信息,训练得到高性能的模型最终提升了文本蕴含识别的准确性。
附图2中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (7)

1.一种融合多粒度信息的文本蕴含关系识别方法,其特征在于,包括以下步骤:
S1:获取已标注好的英文文本语料,在输入层输入训练样本集;
S2:在字符向量层,对S1输入的文本P和Q,分别建立以字符粒度为输入单位的卷积神经网络CNN模型,对句子中的每个单词提取字符特征得到各个新的词向量;
S3:在词向量融合层,建立Highway网络层,传入S2中字符级别卷积神经网络CNN模型输出的单词向量,输出基于字符特征的词向量序列,然后将它们逐个与原有的预训练词向量结合,得到融合了字词两个粒度信息的词向量;
S4:在句子建模层,建立双向长短时记忆网络即BiLSTM,将S3输出的融合字词信息的词向量序列依次通过记忆单元,得到每一时刻输出的上下文向量;
S5:在交互层,融合注意力机制,分别对S4中蕴含文本对P和Q每一时刻的上下文向量运用多粒度,跨层次的交互策略,得到不同策略下P和Q的文本表示向量,将其依次连接得到P和Q文本对的联合向量表达;
S6:在分类层,建立多层神经网络MLP层和Softmax分类器,传入S5中所得的文本对联合向量,输出文本蕴含关系识别的分类结果;
S7:利用训练样本集,通过反向传播不断最小化目标函数来训练模型,使其学习出S1-S6中构建的各层网络参数,生成预测过程的模型;
S8:将测试样本集语料放入S7中训练好的融合多粒度信息模型中,最终获取测试样本的文本蕴含识别分类结果;
所述步骤S1中的训练样本为:
收集用于文本蕴含识别任务的已标注好的语料,将其中80%作为训练样本集,剩余20%作为测试样本集;语料集中的数据样本由三个部分组成:
Figure FDA0003387874840000011
其中P(n)表示第n对样本中的前提文本,Q(n)表示第n对样本中的假设文本,
Figure FDA0003387874840000012
表示P和Q之间的关系标签,C为输出类别的个数,y(n)是C维的0-1向量;关系标签包含蕴含、矛盾和中性即C=3;P和Q均为英文句子文本,第n对前提文本和假设文本可分别表示为由单词构成的序列:
Figure FDA0003387874840000015
Figure FDA0003387874840000014
其中句子P的长度为P中单词个数la,句子Q的长度为Q中单词个数lb
所述步骤S2的具体过程是:
S21:构建字符表并进行数据预处理和字符表示:将S1的文本P和Q中的单词转换为小写字母,再对每个单词中所包含的字符根据字符表进行索引与标记,未出现在字符集合中的其他特殊符号将以零向量作为初始化;分别将句子P和Q中的每个单词表示为由字符向量拼接而成的单词矩阵;
S22:初始化卷积神经网络CNN模型及其参数,所述参数包括网络中连接的权重和偏置,并将S21中句子P和Q由字符向量组成的单词序列作为卷积神经网络的输入,该网络包括字符特征卷积层,字符特征池化层和字符特征连接层;
S23:所述字符特征卷积层,对S22中得到的每个单词矩阵设置不同大小的卷积核进行一维卷积操作以便捕捉不同相邻字符的局部组合特征;
S24:所述字符特征池化层,对S23中各个单词经不同卷积核H得到的特征映射fk分别进行最大池化,各自独立进行局部特征选择;
S25:所述字符特征连接层,将S24中每个单词最大池化后的所有特征值进行连接得到各个单词的向量表示yk,将句子所包含的所有单词的向量表示横向拼接得到句子的向量表示,如句长为la的句子P可表示为序列[y1,y2,...,yla]。
2.根据权利要求1所述的一种融合多粒度信息的文本蕴含关系识别方法,其特征在于,所述步骤S3的具体过程是:
S31:建立Highway网络并初始化其参数,所述参数包括网络中连接的权重和偏置,设置转换门t和携带门1-t;
S32:将S3中卷积神经网络层输出的词向量序列,逐个通过Highway网络,一部分将经过转换门变换后输出到下一层,另一部分将保留原始的输入信息不经过非线性变换操作而直接传输到下一层,以确保深度神经网络的训练性能;
S33:将S32中Highway网络层的每个输出vc,即基于字符特征得到的词向量序列,分别与其原有的GloVe预训练词向量vw进行连接,得到单词表示向量vcombined,即vcombined=[vc,vw]作为同时融合了字符和单词特征的融合词向量。
3.根据权利要求2所述的一种融合多粒度信息的文本蕴含关系识别方法,其特征在于,所述步骤S4的具体过程是:
S41:建立双向长短时记忆网络BiLSTM并初始化其参数,所述参数包括网络中连接的权重和偏置,并按标准LSTM模型设置各门控单元和Cell单元;
S42:在双向长短时记忆网络BiLSTM的输入层依次传入S33输出的融合字词信息的词向量序列,经前向传播层和后向传播层两种方向的输入编码后,将同一时刻的2个隐层单元结合计算得到该时刻的编码输出,即句子某一时刻的上下文向量
Figure FDA0003387874840000021
Figure FDA0003387874840000022
4.根据权利要求3所述的一种融合多粒度信息的文本蕴含关系识别方法,其特征在于,所述步骤S5包含五种不同的交互策略,具体过程是:
S51:对S42中蕴含文本对P和Q每一时刻的上下文向量
Figure FDA0003387874840000023
Figure FDA0003387874840000024
采用词粒度的句子内交互策略:P和Q以相同的子结构各自进行句内上下文向量词语对齐匹配,P和Q的计算方法如下:
Figure FDA0003387874840000025
Figure FDA0003387874840000026
Figure FDA0003387874840000027
Figure FDA0003387874840000028
其中,
Figure FDA0003387874840000029
表示句子P中i时刻上下文向量与j时刻上下文向量的匹配度,
Figure FDA00033878748400000210
表示i时刻上下文向量在句子P内的重要性,
Figure FDA00033878748400000211
表示融合注意力权重的上下文向量,
Figure FDA00033878748400000212
表示加权操作函数,
Figure FDA00033878748400000213
表示池化操作函数,对每一时刻上下文向量进行池化得到融合句子P自身注意力权重的表示向量vP;同理,
Figure FDA0003387874840000031
表示句子Q中i时刻上下文向量与j时刻上下文向量的匹配度,
Figure FDA0003387874840000032
表示i时刻上下文向量在句子Q内的重要性,
Figure FDA0003387874840000033
表示融合注意力权重的上下文向量,对每一时刻上下文向量进行池化得到融合句子Q自身注意力权重的表示向量vP;匹配函数fm是对向量进行相减后取对应元素的乘积作为匹配度量完成匹配工作,其计算方法如下:
fm(y1,y2)=(y1-y2)⊙(y1-y2)
其中,y1,y2为两个维度为d的向量;
将融合句子P和Q的注意力权重向量vP和vQ进行连接得到文本P和Q基于句内交互策略下的联合表示向量v1:v1=[vP,vQ];
S52:对S42中BiLSTM层建模后的两个句子表示向量yP和yQ采用句粒度的句子间交互策略:对yP和yQ句子向量对应元素进行对齐匹配,仅保留最大的匹配结果,计算方法如下:
v2=(m)max-pooling=max[yP⊙yQ]
其中,v2是融合P和Q句子间交互信息的联合表示向量;
S53:对S42中经BiLSTM层建模后的文本对进行跨层次的信息匹配,采用词句粒度的词语和句子全交互的策略:文本P的每一个上下文向量和文本Q的句子表示向量分别匹配,文本P中的每个词与文本Q的整个句子进行交互的计算方法如下:
Figure FDA0003387874840000034
Figure FDA0003387874840000035
Figure FDA0003387874840000036
将计算得到的vP和vQ进行连接即为采用词语和句子全交互策略后所得的联合表示向量:v3:v3=[vP,vQ];
S54:对S42中蕴含文本对P和Q每一时刻的上下文向量
Figure FDA0003387874840000037
Figure FDA0003387874840000038
采用词粒度句子间交互的策略,将P,Q所包含的上下文向量之间进行一一对齐,即分别计算P的每个上下文向量在文本Q中的重要性以及Q的每个上下文向量在文本P中的重要性,完成词粒度的交叉注意力权重的计算,先对yP和yQ求得一个词对齐矩阵
Figure FDA0003387874840000039
矩阵元素sij越大表示对应词义越匹配,
Figure FDA00033878748400000310
对于注意力权重的计算方式如下所示:
Figure FDA00033878748400000311
Figure FDA00033878748400000312
其中,αi表示文本P的上下文向量对
Figure FDA00033878748400000313
的对齐,即
Figure FDA00033878748400000314
的加权和,βj表示文本Q的上下文向量对
Figure FDA0003387874840000041
的对齐,即
Figure FDA0003387874840000042
的加权和,融合注意力权重αi与βj后,计算两个句子的表示向量vP和vQ,计算方式形如公式:
Figure FDA0003387874840000043
Figure FDA0003387874840000044
Figure FDA0003387874840000045
Figure FDA0003387874840000046
将计算得到的vP和vQ进行连接即为采用采用词粒度的句子间交互的策略后所得的联合表示向量v4:v4=[vP,vQ];
S55:对S42中蕴含文本对P和Q每一时刻的上下文向量
Figure FDA0003387874840000047
Figure FDA0003387874840000048
采用词句粒度的融合注意力的平均池化交互策略,仍先对yP和yQ求得一个词对齐矩阵
Figure FDA0003387874840000049
其中
Figure FDA00033878748400000410
随后利用s对文本Q和文本P中的每一个上下文向量加权并求平均,得到文本Q和文本P的每个上下文向量
Figure FDA00033878748400000411
Figure FDA00033878748400000412
对齐后的平均加权表示向量αi、βj,然后比较Q的平均向量αi和P的上下文向量
Figure FDA00033878748400000413
求得
Figure FDA00033878748400000414
的注意力权重(mi)attention,P的平均向量βj和Q的上下文向量
Figure FDA00033878748400000415
求得
Figure FDA00033878748400000416
的注意力权重(mj)attention对文本P和文本Q中的每个上下文向量都如此操作并平均池化可得最终P的文本表示向量vP以及Q的文本表示向量vQ,公式如下:
Figure FDA00033878748400000417
Figure FDA00033878748400000418
Figure FDA00033878748400000419
Figure FDA00033878748400000420
Figure FDA00033878748400000421
Figure FDA00033878748400000422
Figure FDA00033878748400000423
将其拼接得到融合注意力平均池化的词句粒度交互策略下的联合表示向量v5:v5=[vP,vQ];
S56:对S51、S52、S53、S54和S55采用相应策略交互后所得的联合表示向量v1、v2、v3、v4、v5进行拼接作为文本P和Q利用了不同层次和粒度之间的信息交互后最终所得的句子联合表示向量v:v=[v1,v2,v3、v4、v5]。
5.根据权利要求4所述的一种融合多粒度信息的文本蕴含关系识别方法,其特征在于,所述步骤S6的具体过程是:建立多层神经网络MLP层Softmax层并初始化其参数,所述参数包括多层神经网络中连接的权重和偏置,将S5中运用各种交互策略所得的联合表示向量传入MLP的输入层,经过各隐藏层后到输出层以Softmax为激活函数对向量进行归一化操作最终得到文本对所属的文本蕴含关系分类标签,计算方法如下:
r=softmax(Wmlpv+b)
其中,Wmlp是MLP层的权重参数,b是MLP层的偏置参数通过模型训练学习而确定。
6.根据权利要求5所述的一种融合多粒度信息的文本蕴含关系识别方法,其特征在于,所述步骤S7的具体过程是:
对每个批处理batch中的语料计算目标函数,并通过反向传播来最小化目标函数以优化模型网络内各层参数;经多轮迭代后,当准确率趋于稳定时,完成模型训练并保存模型;其中目标函数为预测标签
Figure FDA0003387874840000051
分布和实际标签y分布的交叉熵,目标函数公式如下:
Figure FDA0003387874840000052
其中,N为样本数量,C表示标签类别。
7.根据权利要求6所述的一种融合多粒度信息的文本蕴含关系识别方法,其特征在于,所述步骤S8的具体过程是:
将所有测试样本集输入到训练好的模型中,得到预测的每个文本对属于蕴含关系中每一类别的概率,通过选取最后分布在“蕴含”“矛盾”“中性”三个标签上的最大概率对应的标签类别,得到文本对蕴含关系所属的类别;根据模型对测试样本的预测所属分类与其真实所属分类的对比,可评测本发明模型进行文本蕴含识别的准确率。
CN201811174143.9A 2018-10-09 2018-10-09 一种融合多粒度信息的文本蕴含关系识别方法 Active CN109299262B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811174143.9A CN109299262B (zh) 2018-10-09 2018-10-09 一种融合多粒度信息的文本蕴含关系识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811174143.9A CN109299262B (zh) 2018-10-09 2018-10-09 一种融合多粒度信息的文本蕴含关系识别方法

Publications (2)

Publication Number Publication Date
CN109299262A CN109299262A (zh) 2019-02-01
CN109299262B true CN109299262B (zh) 2022-04-15

Family

ID=65161907

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811174143.9A Active CN109299262B (zh) 2018-10-09 2018-10-09 一种融合多粒度信息的文本蕴含关系识别方法

Country Status (1)

Country Link
CN (1) CN109299262B (zh)

Families Citing this family (91)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858032A (zh) * 2019-02-14 2019-06-07 程淑玉 融合Attention机制的多粒度句子交互自然语言推理模型
CN110020431B (zh) * 2019-03-06 2023-07-18 平安科技(深圳)有限公司 文本信息的特征提取方法、装置、计算机设备及存储介质
CN111666405B (zh) * 2019-03-06 2023-07-07 百度在线网络技术(北京)有限公司 用于识别文本蕴含关系的方法和装置
CN109918507B (zh) * 2019-03-08 2021-04-27 北京工业大学 一种基于TextCNN改进的文本分类方法
CN109947919B (zh) * 2019-03-12 2020-05-15 北京字节跳动网络技术有限公司 用于生成文本匹配模型的方法和装置
CN110033000B (zh) * 2019-03-21 2021-05-18 华中科技大学 一种票据图像的文本检测与识别方法
CN109992783B (zh) * 2019-04-03 2020-10-30 同济大学 中文词向量建模方法
CN110059185B (zh) * 2019-04-03 2022-10-04 天津科技大学 一种医学文档专业词汇自动化标注方法
CN110032645B (zh) * 2019-04-17 2021-02-09 携程旅游信息技术(上海)有限公司 文本情感识别方法、系统、设备以及介质
CN110097541B (zh) * 2019-04-22 2023-03-28 电子科技大学 一种无参考的图像去雨质量评价系统
CN110046353B (zh) * 2019-04-22 2022-05-13 重庆理工大学 一种基于多语言层次机制的方面级情感分析方法
CN110110846A (zh) * 2019-04-24 2019-08-09 重庆邮电大学 基于卷积神经网络的辅助驾驶人车交互方法
CN110175637A (zh) * 2019-05-09 2019-08-27 北京工商大学 非平稳时序数据深度预测方法、系统、存储介质及设备
CN110162612B (zh) * 2019-05-22 2021-07-09 出门问问信息科技有限公司 信息处理方法、装置、可读存储介质和电子设备
CN110162636B (zh) * 2019-05-30 2020-05-19 中森云链(成都)科技有限责任公司 基于d-lstm的情绪原因识别方法
CN110390001A (zh) * 2019-06-04 2019-10-29 深思考人工智能机器人科技(北京)有限公司 一种观点型机器阅读理解的实现方法、装置
CN110276640A (zh) * 2019-06-10 2019-09-24 北京云莱坞文化传媒有限公司 版权的多粒度拆分及其商业价值的挖掘方法
CN110298037B (zh) * 2019-06-13 2023-08-04 同济大学 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN110390397B (zh) * 2019-06-13 2020-07-10 成都信息工程大学 一种文本蕴含识别方法及装置
CN110245353B (zh) * 2019-06-20 2022-10-28 腾讯科技(深圳)有限公司 自然语言表示方法、装置、设备及存储介质
CN110321419B (zh) * 2019-06-28 2021-06-15 神思电子技术股份有限公司 一种融合深度表示与交互模型的问答匹配方法
CN112182636B (zh) * 2019-07-03 2023-08-15 北京百度网讯科技有限公司 一种联合建模训练的实现方法、装置、设备和介质
CN110503090B (zh) * 2019-07-09 2021-11-09 中国科学院信息工程研究所 基于受限注意力模型的字符检测网络训练方法、字符检测方法和字符检测器
CN110502694B (zh) * 2019-07-23 2023-07-21 平安科技(深圳)有限公司 基于大数据分析的律师推荐方法及相关设备
CN111008529B (zh) * 2019-07-24 2023-07-21 贵州大学 一种基于神经网络的中文关系抽取方法
CN110390107B (zh) * 2019-07-26 2023-04-18 腾讯科技(深圳)有限公司 基于人工智能的下文关系检测方法、装置及计算机设备
CN112328784B (zh) * 2019-08-05 2023-04-18 上海智臻智能网络科技股份有限公司 数据信息分类方法及装置
CN110458165B (zh) * 2019-08-14 2022-11-08 贵州大学 一种引入注意力机制的自然场景文本检测方法
CN110543563B (zh) * 2019-08-20 2022-03-08 暨南大学 一种层次型文本分类方法及系统
CN110618980A (zh) * 2019-09-09 2019-12-27 上海交通大学 基于法律文本精确匹配和矛盾检测的系统及方法
CN110633360B (zh) * 2019-09-16 2023-06-20 腾讯科技(上海)有限公司 一种语义匹配的方法以及相关装置
CN110750965B (zh) * 2019-09-16 2023-06-30 平安科技(深圳)有限公司 英文文本序列标注方法、系统及计算机设备
CN110781304B (zh) * 2019-10-29 2023-09-26 云境商务智能研究院南京有限公司 一种利用单词信息聚类的句子编码方法
CN112749566B (zh) * 2019-10-31 2024-05-03 兰雨晴 一种面向英文写作辅助的语义匹配方法及装置
CN110826298B (zh) * 2019-11-13 2023-04-04 北京万里红科技有限公司 一种智能辅助定密系统中使用的语句编码方法
CN110929033A (zh) * 2019-11-26 2020-03-27 深圳市信联征信有限公司 长文本分类方法、装置、计算机设备及存储介质
CN111078822A (zh) * 2019-11-29 2020-04-28 北京百卓网络技术有限公司 基于中文小说文本的阅读器信息抽取方法及系统
CN111026845B (zh) * 2019-12-06 2021-09-21 北京理工大学 一种获取多层次上下文语义的文本分类方法
CN111026869B (zh) * 2019-12-10 2020-08-18 山东大学 一种利用基于多层注意力的序列生成网络进行多罪名预测的方法
CN111104800B (zh) * 2019-12-24 2024-01-23 东软集团股份有限公司 一种实体识别方法、装置、设备、存储介质和程序产品
CN111274784A (zh) * 2020-01-15 2020-06-12 中国民航大学 一种基于BiLSTM-Attention的陆空通话复诵语义自动校验方法
CN111310438B (zh) * 2020-02-20 2021-06-08 齐鲁工业大学 基于多粒度融合模型的中文句子语义智能匹配方法及装置
CN111414476A (zh) * 2020-03-06 2020-07-14 哈尔滨工业大学 一种基于多任务学习的属性级情感分析方法
CN113496119B (zh) * 2020-03-20 2024-06-21 北京庖丁科技有限公司 抽取表格中的元组数据的方法、电子设备和计算机可读介质
CN113469479A (zh) * 2020-03-31 2021-10-01 阿里巴巴集团控股有限公司 合同风险预测方法和装置
CN111198949B (zh) * 2020-04-10 2020-07-31 支付宝(杭州)信息技术有限公司 一种文本标签确定方法和系统
CN113642302B (zh) * 2020-04-27 2024-04-02 阿里巴巴集团控股有限公司 文本填充模型的训练方法及装置、文本处理方法及装置
CN111651593A (zh) * 2020-05-08 2020-09-11 河南理工大学 基于词向量和字向量混合模型的文本情感分析方法
CN111522956A (zh) * 2020-05-08 2020-08-11 河南理工大学 基于双通道和层次化注意力网络的文本情感分类方法
CN111709331B (zh) * 2020-06-03 2023-06-09 江南大学 一种基于多粒度信息交互模型的行人重识别方法
CN111737466B (zh) * 2020-06-18 2022-11-29 中国科学院计算技术研究所 一种用于深度神经网络交互信息量化的方法
CN111767377B (zh) * 2020-06-22 2024-05-28 湖北马斯特谱科技有限公司 一种面向低资源环境的高效口语理解识别方法
CN111737999A (zh) * 2020-06-24 2020-10-02 深圳前海微众银行股份有限公司 一种序列标注方法、装置、设备及可读存储介质
CN111538929B (zh) * 2020-07-08 2020-12-18 腾讯科技(深圳)有限公司 网络链接识别方法、装置、存储介质及电子设备
CN111813924B (zh) * 2020-07-09 2021-04-09 四川大学 基于可扩展动态选择与注意力机制的类别检测算法及系统
CN111985612B (zh) * 2020-07-21 2024-02-06 西安理工大学 一种提高视频文本描述准确性的编码器网络模型设计方法
CN112052622A (zh) * 2020-08-11 2020-12-08 国网河北省电力有限公司 一种云平台下深度多视图语义文档表示的缺陷处置方法
CN112115717B (zh) * 2020-09-28 2022-03-15 腾讯科技(深圳)有限公司 一种数据处理方法、装置、设备及可读存储介质
CN112232087B (zh) * 2020-10-20 2022-09-02 中国民航大学 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法
CN112364652A (zh) * 2020-10-27 2021-02-12 齐鲁工业大学 基于多通道卷积的文本实体关系抽取方法及系统
CN112434514B (zh) * 2020-11-25 2022-06-21 重庆邮电大学 基于多粒度多通道的神经网络的语义匹配方法、装置及计算机设备
CN112463924B (zh) * 2020-11-27 2022-07-05 齐鲁工业大学 面向智能问答基于内部相关性编码的文本意图匹配方法
CN112329429B (zh) * 2020-11-30 2024-04-26 北京百度网讯科技有限公司 文本相似度学习方法、装置、设备以及存储介质
CN112541364A (zh) * 2020-12-03 2021-03-23 昆明理工大学 融合多层次语言特征知识的汉越神经机器翻译的方法
CN112784831B (zh) * 2021-02-02 2022-06-28 电子科技大学 融合多层特征增强注意力机制的文字识别方法
CN112883708A (zh) * 2021-02-25 2021-06-01 哈尔滨工业大学 基于2d-lstm的文本蕴含识别方法
CN112949318B (zh) * 2021-03-03 2022-03-25 电子科技大学 基于文本和用户表示学习的文本立场检测方法
CN112926569B (zh) * 2021-03-16 2022-10-18 重庆邮电大学 一种社交网络中的自然场景图像文本检测方法
CN112989831B (zh) * 2021-03-29 2023-04-28 华南理工大学 一种应用在网络安全领域的实体抽取方法
CN113051931A (zh) * 2021-04-02 2021-06-29 中山大学 一种基于语义-情感双重关注的细粒度文本情感转换模型
CN113326676A (zh) * 2021-04-19 2021-08-31 上海快确信息科技有限公司 一种将金融文本结构化为表格的深度学习模型装置
CN112926322A (zh) * 2021-04-28 2021-06-08 河南大学 融合自注意力机制和深度学习的文本分类方法及系统
CN113377953B (zh) * 2021-05-31 2022-06-21 电子科技大学 一种基于palc-dca模型的实体融合及分类方法
CN113377422B (zh) * 2021-06-09 2024-04-05 大连海事大学 一种基于深度学习识别自我承认技术债务方法
CN113312918B (zh) * 2021-06-10 2022-05-17 临沂大学 融合部首向量的分词和胶囊网络法律命名实体识别方法
CN113591908B (zh) * 2021-06-23 2023-09-29 北京百度网讯科技有限公司 事件指称匹配方法、模型训练方法、装置和电子设备
CN113609267B (zh) * 2021-07-21 2023-11-07 上海交通大学 基于GCNDT-MacBERT神经网络框架的话语关系识别方法及系统
CN113535960A (zh) * 2021-08-02 2021-10-22 中国工商银行股份有限公司 一种文本分类方法、装置和设备
CN113901215B (zh) * 2021-10-09 2022-04-26 延边大学 一种融合高低层语义信息的文本蕴含识别方法
CN114091429A (zh) * 2021-10-15 2022-02-25 山东师范大学 基于异构图神经网络的文本摘要生成方法及系统
CN113889281B (zh) * 2021-11-17 2024-05-03 华美浩联医疗科技(北京)有限公司 一种中文医疗智能实体识别方法、装置及计算机设备
CN114281987A (zh) * 2021-11-26 2022-04-05 重庆邮电大学 一种用于智能语音助手的对话短文本语句匹配方法
CN114266238A (zh) * 2021-12-14 2022-04-01 科大讯飞(苏州)科技有限公司 文本要素提取方法、装置、电子设备及存储介质
CN114492451B (zh) * 2021-12-22 2023-10-24 马上消费金融股份有限公司 文本匹配方法、装置、电子设备及计算机可读存储介质
CN114756681B (zh) * 2022-04-28 2024-04-02 西安交通大学 一种基于多注意力融合的评教文本细粒度建议挖掘方法
CN115512368B (zh) * 2022-08-22 2024-05-10 华中农业大学 一种跨模态语义生成图像模型和方法
CN115422362B (zh) * 2022-10-09 2023-10-31 郑州数智技术研究院有限公司 一种基于人工智能的文本匹配方法
CN115422939B (zh) * 2022-10-14 2024-04-02 芽米科技(广州)有限公司 一种基于大数据的细粒度商品命名实体识别方法
CN116108206B (zh) * 2023-04-13 2023-06-27 中南大学 一种金融数据实体关系的联合抽取方法及相关设备
CN116629275B (zh) * 2023-07-21 2023-09-22 北京无极慧通科技有限公司 一种基于大数据的智能决策支持系统及方法
CN116930042B (zh) * 2023-09-19 2023-12-01 常州建昊建筑鉴定检测有限公司 建筑防水材料性能检测设备及方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107943967A (zh) * 2017-11-28 2018-04-20 华南理工大学 基于多角度卷积神经网络与循环神经网络的文本分类算法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100508469C (zh) * 2006-12-21 2009-07-01 华为技术有限公司 一种在带宽按需分配业务中调整带宽的方法
CN106599933A (zh) * 2016-12-26 2017-04-26 哈尔滨工业大学 一种基于联合深度学习模型的文本情感分类方法
US11354565B2 (en) * 2017-03-15 2022-06-07 Salesforce.Com, Inc. Probability-based guider

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107943967A (zh) * 2017-11-28 2018-04-20 华南理工大学 基于多角度卷积神经网络与循环神经网络的文本分类算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于LSTM的多粒度英文文本蕴含识别方法研究";刘阳;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170215;第I138-4734页 *

Also Published As

Publication number Publication date
CN109299262A (zh) 2019-02-01

Similar Documents

Publication Publication Date Title
CN109299262B (zh) 一种融合多粒度信息的文本蕴含关系识别方法
CN110334354B (zh) 一种中文关系抽取方法
CN109284506B (zh) 一种基于注意力卷积神经网络的用户评论情感分析系统及方法
CN109800411B (zh) 临床医疗实体及其属性抽取方法
CN113656570B (zh) 基于深度学习模型的视觉问答方法及装置、介质、设备
CN109858032A (zh) 融合Attention机制的多粒度句子交互自然语言推理模型
CN108229582A (zh) 一种面向医学领域的多任务命名实体识别对抗训练方法
CN109299657B (zh) 基于语义注意力保留机制的群体行为识别方法及装置
CN110555084B (zh) 基于pcnn和多层注意力的远程监督关系分类方法
CN108563624A (zh) 一种基于深度学习的自然语言生成方法
CN111985239A (zh) 实体识别方法、装置、电子设备及存储介质
CN111881677A (zh) 基于深度学习模型的地址匹配算法
CN112884551B (zh) 一种基于近邻用户和评论信息的商品推荐方法
CN110263325A (zh) 中文分词系统
CN110866542A (zh) 一种基于特征可控融合的深度表示学习方法
CN111985205A (zh) 一种方面级情感分类模型
CN113255366B (zh) 一种基于异构图神经网络的方面级文本情感分析方法
CN112699685B (zh) 基于标签引导的字词融合的命名实体识别方法
CN114037945A (zh) 一种基于多粒度特征交互的跨模态检索方法
CN112308080A (zh) 面向指向性视觉理解和分割的图像描述预测方法
CN111914553B (zh) 一种基于机器学习的金融信息负面主体判定的方法
CN111582576A (zh) 一种基于多尺度特征融合和门控单元的预测系统及方法
CN114841151B (zh) 基于分解-重组策略的医学文本实体关系联合抽取方法
CN113780059A (zh) 一种基于多特征点的连续手语识别方法
CN116579347A (zh) 一种基于动态语义特征融合的评论文本情感分析方法、系统、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant