CN106897268A - 文本语义理解方法、装置和系统 - Google Patents

文本语义理解方法、装置和系统 Download PDF

Info

Publication number
CN106897268A
CN106897268A CN201710112693.7A CN201710112693A CN106897268A CN 106897268 A CN106897268 A CN 106897268A CN 201710112693 A CN201710112693 A CN 201710112693A CN 106897268 A CN106897268 A CN 106897268A
Authority
CN
China
Prior art keywords
text
semantic understanding
residual error
vector
error network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710112693.7A
Other languages
English (en)
Other versions
CN106897268B (zh
Inventor
刘也宽
胡加学
孙胜杰
王震
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201710112693.7A priority Critical patent/CN106897268B/zh
Publication of CN106897268A publication Critical patent/CN106897268A/zh
Application granted granted Critical
Publication of CN106897268B publication Critical patent/CN106897268B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请提出一种文本语义理解方法、装置和系统,该方法包括:接收待语义理解的文本;根据预先构建的深度残差网络模型,对所述待语义理解的文本进行语义理解,得到语义理解结果。该方法能够提升文本语义理解效果。

Description

文本语义理解方法、装置和系统
技术领域
本申请涉及自然语言理解技术领域,尤其涉及一种文本语义理解方法、装置和系统。
背景技术
作为人工智能领域中重要方向之一的自然语言理解技术,一直是相关领域研究人员研究的热点。特别是近年来,随着移动互联网技术的迅速发展,信息化程度日益提高,人们越发渴望能让机器理解自然语言,从而实现减少人工投入、海量数据共享等目标。
相关技术中,主流方法是基于循环神经网络的文本语义理解方法和基于卷积神经网络的文本语义理解方法。但是,通常的循环神经网络和卷积神经网络都难以优化,具体而言,如果不增加深度,文本语义理解效果较差,而如果增加深度,训练和优化的错误率就会增加,难以得到准确的训练模型,从而语义理解错误率也较高。因此,相关技术中的文本语义理解方法的效果并不理想。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的一个目的在于提出一种文本语义理解方法,该方法可以提升文本语义理解效果。
本申请的另一个目的在于提出一种文本语义理解装置。
本申请的另一个目的在于提出一种文本语义理解系统。
为达到上述目的,本申请第一方面实施例提出的文本语义理解方法,包括:接收待语义理解的文本;根据预先构建的深度残差网络模型,对所述待语义理解的文本进行语义理解,得到语义理解结果。
为达到上述目的,本申请第二方面实施例提出的文本语义理解装置,包括:接收模块,用于接收待语义理解的文本;语义理解模块,用于根据预先构建的深度残差网络模型,对所述待语义理解的文本进行语义理解,得到语义理解结果。
为达到上述目的,本申请第三方面实施例提出的文本语义理解系统,包括:客户端,用于接收用户输入的待语义理解的文本;服务端,用于接收客户端发送的所述待语义理解的文本,以及,根据预先构建的深度残差网络模型,对所述待语义理解的文本进行语义理解,得到语义理解结果。
本申请实施例中,在文本语义理解时引入深度残差网络模型,由于深度残差网络存在捷径(shortcut),使得网络间的数据流通更为顺畅,利于增加网络深度,进而可以采用更深层网络对数据进行更好拟合以及对特征进行更高层的抽象,从而提升文本语义理解效果。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本申请一个实施例提出的文本语义理解方法的流程示意图;
图2是本申请另一个实施例提出的文本语义理解方法的流程示意图;
图3是本申请实施例中构建深度残差网络模型的方法的流程示意图;
图4是本申请实施例中的深度残差网络模型的一种拓扑结构示意图;
图5是本申请实施例中注意力层的一种运算过程示意图;
图6是本申请一个实施例提出的文本语义理解装置的结构示意图;
图7是本申请另一个实施例提出的文本语义理解装置的结构示意图;
图8是本申请一个实施例提出的文本语义理解系统的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。相反,本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1是本申请一个实施例提出的文本语义理解方法的流程示意图。
如图1所示,本实施例的方法包括:
S11:接收待语义理解的文本。
具体应用时,可以由用户在客户端输入待语义理解的文本,再由客户端发送给服务端,从而服务端接收到客户端发送的待语义理解的文本。
S12:根据预先构建的深度残差网络模型,对所述待语义理解的文本进行语义理解,得到语义理解结果。
具体的,服务端可以预先构建深度残差网络模型,当服务端接收到客户端发送的待语义理解的文本后,根据预先构建的深度残差网络模型,对待语义理解的文本进行语义理解,得到语义理解结果。具体的构建深度残差网络模型的内容可以参见后续描述。
进一步的,为了与深度残差网络模型匹配,在语义理解之前,还可以先对待语义理解的文本进行预处理。比如,在构建深度残差网络模型时,需要先收集训练文本,再对训练文本进行预处理,以便依据预处理后的训练文本构建得到深度残差网络模型。
一般来讲,对待语义理解的文本或训练文本进行的预处理包括:分词、向量化等;分词是指将文本划分为各个词,向量化是指对分词后的每个词进行向量化,得到每个词的词向量。具体的分词和向量化方法可以参见包括已有技术在内的各种相关技术,在此不再详述。
在对待语义理解的文本进行分词和向量化后,可以得到待语义理解的文本中词的词向量,由这些词向量可以组成词向量矩阵,假设词向量用行向量表示,则词向量矩阵的每行为待语义理解的文本中每个词的词向量。在得到词向量矩阵后,将词向量矩阵作为预先构建的深度残差网络模型的输入,模型输出即为待语义理解的文本的语义理解结果。以预测判决结果为例,待语义理解的文本为案情内容,语义理解结果为预测得到的判决结果,如罪名、罚金、刑期等信息中的一项或多项。
需要说明的是,本申请实施例中所涉及的文本语义理解一般是指任务型语义理解,即需要完成特定任务,比如需要预测罪名、罚金、刑期等信息中的一项或多项。
依据要完成的任务,深度残差网络模型的类别可以相应设置,比如,深度残差网络模型可以是回归模型,比如预测罚金和/或刑期时使用回归模型;或者,深度残差网络模型可以是分类模型,比如预测罪名时使用分类模型;或者,深度残差网络模型可以是回归-分类联合模型,比如既要预测罪名,还要预测罚金和/或刑期时使用回归-分类联合模型。
进一步的,如果要完成多个任务,可以采用多任务同步处理机制。比如要预测罪名、罚金和刑期这三项信息时,在构建深度残差网络模型时,通过对整体损失函数进行最小化确定模型参数,整体损失函数是基于各个任务的损失函数得到的,比如整体损失函数为上述三个任务的损失函数的线性加权函数,从而在文本语义理解时,可以由深度残差网络模型同步输出这三项信息。
需要说明的是,上述以在线的文本语义理解为例,在实际实施时,并不限于在线方式,还可以采用离线方式,比如在终端本地完成文本语义理解,此时,可以是由终端接收待语义理解的文本,以及由终端根据预先构建的深度残差网络模型,对所述待语义理解的文本进行语义理解,得到语义理解结果。或者,也可以理解为,在实际实施时,上述的客户端和服务端分别位于不同设备中,如客户端位于终端中,服务端位于与终端网络连接的服务器中;或者,上述的客户端和服务端可以位于同一个设备中,比如客户端和服务端均位于终端中。
本实施例中,在文本语义理解时引入深度残差网络模型,由于深度残差网络存在捷径(shortcut),使得网络间的数据流通更为顺畅,利于增加网络深度,进而可以采用更深层网络对数据进行更好拟合以及对特征进行更高层的抽象,从而提升文本语义理解效果。
图2是本申请另一个实施例提出的文本语义理解方法的流程示意图。
本实施例以客户端与服务端结合实施为例。
参见图2,本实施例的方法包括:
S21:服务端构建深度残差网络模型。
具体内容可以参见后续描述。
S22:客户端接收用户输入的待语义理解的文本。
比如,待语义理解的文本为待预测判决结果的案情内容。
S23:客户端将待语义理解的文本发送给服务端。
S24:服务端接收客户端发送的待语义理解的文本。
S25:服务端对待语义理解的文本进行预处理,得到预处理后的文本。
预处理例如包括:对文本进行分词以及对分词后的各个词进行向量化,之后还可以将各个词的词向量组成词向量矩阵。
S26:服务端根据预先构建的深度残差网络模型,对预处理后的待语义理解的文本进行语义理解,得到语义理解结果。
比如,将词向量矩阵作为预先构建的深度残差网络模型的输入,模型输出即为待语义理解的文本的语义理解结果。以预测判决结果为例,待语义理解的文本为案情内容,语义理解结果为预测得到的判决结果,如罪名、罚金、刑期等信息中的一项或多项。
S22-S26的具体内容可以参见上一实施例中的相关描述,在此不再详述。
S27:服务端将语义理解结果发送给客户端。
S28:客户端将语义理解结果反馈给用户。
下面对深度残差网络模型的构建进行说明。
如图3所示,构建深度残差网络模型的方法包括:
S31:收集训练文本,并对所述训练文本进行预处理,以及,获取所述训练文本的标注信息,所述标注信息包括语义理解结果。
本实施例以依据案情内容进行判决预测为例进行详细说明。
基于上述示例,可以收集大量已有的案情内容所在的文本作为训练文本。案情内容是指对案件情况进行说明的内容,比如包括当事人信息、发生的案件事件信息等。
在收集到上述的训练文本后,对其进行预处理。
预处理包括分词和向量化,从而得到训练文本中各个词的词向量,以及由词向量组成训练文本对应的词向量矩阵。
另外,在构建模型时,还需要对训练文本进行标注,以将标注结果作为模型输出,从而训练生成模型。在标注时可以由专家等进行人工标注,标注的信息为训练文本的语义理解结果,基于上述示例,标注信息主要包括判决结果,比如标注罪名、罚金、刑期等。
S32:确定深度残差网络模型的拓扑结构。
具体的拓扑结构可以根据应用需求设定。
本实施例采用的一种拓扑结构如图4所示。对图4所示的拓扑结构中各层的说明如下:
输入层:用于输入文本的词向量矩阵,以词向量为行向量为例,则词向量矩阵的每一行为文本中每个词的词向量。例如,限定文本长度为500个词,每个词向量维度为100,那么词向量矩阵的大小就是500*100(行数为500,列数为100,下同)。上述的文本在构建模型时是指训练文本,在语义理解时是指待语义理解的文本。
卷积层:用于采用卷积窗,对输入的词向量矩阵进行卷积运算。与图像处理时通常采用的二维方向上大小相同(如3*3)的卷积窗不同的是,本实施例采用的卷积窗的一个维度的大小与词向量的大小相同,另一维度的大小可设置。以词向量为行向量为例,则卷积窗的宽度与词向量的维度相同,高度是可设置的值,假设高度设置为5,则卷积窗的大小就是5*100。卷积窗的步长也是可设置的,比如设置步长为1,则通过一个卷积窗的滑动及卷积运算,可以得到维度为496(500-5+1)的向量。进一步的,卷积窗的个数可以为多个,多个卷积窗的高度和/或步长可以选为相同或不同。当多个卷积窗存在不同的参数信息时,经过卷积运算后可以得到不同长度词组的特征,这些不同长度词组的特征组合在一起,可以更加全面地对文本进行抽象表示,从而获得更好的效果。比如,卷积窗的个数为256个,每个卷积窗的参数基于上述的卷积窗大小和步长,则可以组成大小为496*256的矩阵,该矩阵的每一列为一个卷积窗对应的维度为496的向量,该矩阵可以表征256种词组的特征。
池化层:与卷积层输出直接连接的池化层可以称为一次池化层,用于对卷积层得到的向量进行池化。具体的,对应卷积层的每个卷积窗对应的向量,采用池化窗进行池化,假设卷积窗对应的向量为列向量,则池化窗的宽度为1,高度和步长是可设置的值,比如,基于上述示例,卷积窗对应的向量的维度是496,假设池化窗的高度步长分别是5和1,则经过池化运算后,可以得到维度为492(496-5+1)的向量。如果卷积层采用了多个卷积窗,则分别对每个卷积窗对应的向量进行池化处理,比如,卷积层得到的向量可以组成496*256的矩阵,则经过上述池化运算后,可以得到492*256的矩阵,该矩阵的每一列为对每个卷积窗对应的向量进行池化后的向量。
需要说明的是,虽然依据语义理解场景对卷积窗和池化窗的大小进行了上述说明,但具体的卷积运算和池化运算可以采用包括已有技术在内的各种相关技术实现,比如卷积运算采用卷积窗内的元素与设置的滤波参数相乘后再相加的运算,池化运算采用池化窗内的元素取最大值的运算等。
残差单元层:由两部分组成,一部分为卷积层级联,另一部分为捷径(shortcut)。卷积层级联部分包括多个相互级联的卷积层,具体所包括的卷积层个数、每个卷积层所采用的卷积窗的个数、卷积窗的高度和步长可根据实际应用情况和大量实验结果和经验等进行调节。捷径部分是指将输入直接或对输入进行线性变换后与卷积层级联部分的输出相加,再经过激活函数对相加后的值进行激活。需要说明的是,为了加深网络层数,提取更高层次特征,提高模型效果,整个残差单元层可以进行多次重复运算。卷积层级联部分每个卷积层的运算可以参照上述已描述的卷积层的运算,在此不再详述。
池化层:与残差单元层输出直接连接的池化层可以称为二次池化层,用于对残差单元层输出的向量进行池化。
丢弃层(dropout)、融合层(merge)、全连接层、隐层(具体也可以为全连接层)的具体内容可以参见相关技术,在此不再详述。
输出层:用于输出文本语义理解结果。基于上述示例,在对待语义理解的文本进行语义理解时,输出层的输出为预测得到的判决结果;在构建深度残差网络模型时,输出层的输出为标注的判决结果。以多任务为例,输出的具体信息如罪名、刑期和罚金;以单任务为例,输出的具体信息如罪名、刑期、罚金中的一项。
辅助输入层:用于输入先验信息,先验信息是一些人工整理的对文本语义理解有帮助的特征,基于上述示例,如是否自首、犯罪嫌疑人年龄等。
辅助输入层具体可以包括两部分,一部分是输入部分,另一部分是变换部分。输入部分用于输入先验信息,并对先验信息进行向量化;变换部分用于对向量化后的先验信息进行向量变换。
对先验信息进行向量化时可以采用词向量的方案实现,即得到先验信息的词向量;或者,也可以采取0-1向量的方式,即当一个要素出现那么把对应维度设为1,否则未出现则设置为0,例如先验信息总共有10种要素,那么就是一个10维的二进制(binary)向量,其中某个要素如果出现,那么就将此维设为1,未出现则设置为0。
对先验信息进行向量化后,一般可根据实际情况选择卷积神经网络(Convolutional Neural Network,CNN)、长短期记忆网络(Long Short-Term Memory,LSTM)或者多层感知器(Multi-Layer Perceptron,MLP)进行向量变换,以得到更全面准确的特征向量,比如如果认为要素之间存在前后联系,那么采用LSTM效果会更好,图4中以将向量化后的先验信息称为辅助特征向量,向量变换选为MLP为例。
需要说明的是:辅助输入的特征往往是一些比较重要的特征,所以这一层一般放在dropout层之后。在辅助输入特征中对于不可枚举词(如数词)因其在训练数据中数据量稀疏的问题,会使得该特征作用大大减小,从而会对一些对数词敏感的问题产生较大影响,因此可采用标签(label)抽象的形式解决,具体做法:将数词规整为离散化标签的方式来解决这个问题,如把数词规整为【小于1000】、【1000-5000】等,区间的划分则需根据具体任务确定。
注意力层(Attention):主要功能在于将输入中的重要词凸显出来,把非重要词影响降低。
具体实现:所述注意力层包括:
非线性变换部分,用于对输入矩阵进行非线性变换,得到非线性变换后的矩阵,所述输入矩阵由各个词组的词向量组成;比如,对应输入矩阵中的各个词向量,先采用转换矩阵和偏移向量进行线性变换,再采用非线性的激活函数进行转换,得到各个转换后的词向量,再由转换后的词向量组成转换后的矩阵,各个词向量对应的转换矩阵和偏移向量可共享,即可设置为相同的。
权重控制部分,用于采用预设向量分别与非线性变换后的矩阵中的各个词组的词向量做内积,得到控制向量;预设向量是可设置的,并且预设向量与词向量的大小相同,比如词向量是N维的,则预设向量也为N维的。
权重分配部分,用于对所述控制向量进行权重分配,得到权重向量;权重分配时可以采用分类函数对控制向量进行操作,如分类函数是softmax时,分别求取控制向量中各个元素的概率值,再由计算得到的概率值组成权重向量;
组合部分,用于采用所述权重向量对所述输入矩阵中不同词组的词向量进行线性组合,得到注意力层的输出;具体也可以采用内积运算,可理解为权重向量是各个词向量的权重,通过权重向量与不同词向量进行内积运算,可以得到不同词向量的加权和,将加权和作为线性组合的结果。
如图5所示,为attention层运算的一个具体示例。对于待语义理解文本:“被告人王某入室盗窃被害人财物1000元”,经过分词、向量化、卷积、一次池化、残差单元运算及二次池化之后,假设变成一个M*N维的矩阵I,即M行N列的矩阵,可认为是M个词组,每个词组用N维的行向量表示。经过attention层具体实现包括:
(1)对输入矩阵I进行非线性变换,当各个词向量共享参数时,用公式表示为:
其中,I’是对输入矩阵I进行非线性变换后得到的矩阵;Ii'是矩阵I'的第i行的行向量;Ii是矩阵的第i行的行向量;是行向量Ii转置后得到的列向量;σ是非线性变换函数,如sigmoid或tanh等惯用激活函数;W和b是变换参数,可设置;假设W是N’*N维的矩阵,b是一维的数值,则为一个N’维的列向量;是列向量转置后得到的行向量;从而,非线性变换后的矩阵I’是M*N’维的矩阵;上述的N’与后续引入的变量U的维度相同;
(2)引入外部变量U(N’维向量,具体元素可设置),与非线性变换后的矩阵I’中的每一行的行向量分别做内积,得到一个M维的向量,假设该向量用列向量v表示;
(3)对列向量v做softmax操作,得到权重向量P,用公式表示为:P=softmax(v),P是一个M维的列向量;
(4)用权重向量P对输入矩阵I的不同词组的词向量进行线性变换,具体可以采用权重向量P分别与输入矩阵I的每一个列向量进行内积操作,用公式表示为:O={Oj}={dot(P,Ij)},j=1,2,…,N,O是一个N维的向量,假设用行向量表示,作为attention层的输出,O的各个元素分别用Oj表示,Oj=dot(P,Ij),j=1,2,…,N,Ij表示矩阵I的第j列的列向量,dot(P,Ij)表示向量P和向量Ij进行内积运算。
S33:基于预处理后的训练文本、所述标注信息和所述拓扑结构进行模型训练,构建得到深度残差网络模型。
比如,将训练文本的词向量作为模型输入,标注的案件判决结果作为模型输出,基于拓扑结构、模型输入和模型输出可以得到损失函数,通过最小化损失函数进行模型训练,训练出模型各层参数,从而构建得到深度残差网络模型。最小化损失函数时可以采用各种相关算法,如误差反向传播(Error Back Propagation,BP)算法。
进一步的,当应用于多任务场景时,模型训练采用的损失函数可选择为每个任务的损失函数的线性加权函数。
本实施例中,在文本语义理解时引入深度残差网络模型,由于深度残差网络存在捷径(shortcut),使得网络间的数据流通更为顺畅,利于增加网络深度,进而可以采用更深层网络对数据进行更好拟合以及对特征进行更高层的抽象,从而提升文本语义理解效果。通过多任务同步处理,既减少了训练代价,又实现多任务间信息共享,从而提升模型效果,进一步提高语义理解效果。通过引入注意力层,可以对输入文本的各个词组进行权重分配,从而使得某些重要的词组得以凸显出来,进一步提升语义理解效果;通过引入辅助输入层,可以丰富语义理解特征,进一步提升语义理解效果;通过卷积窗的一个维度的大小选择为与词向量的大小相同,可以对词向量整体进行操作,进一步提升语义理解效果。
图6是本申请一个实施例提出的文本语义理解装置的结构示意图。
如图6所示,该装置60包括:接收模块61和语义理解模块62。
接收模块61,用于接收待语义理解的文本;
语义理解模块62,用于根据预先构建的深度残差网络模型,对所述待语义理解的文本进行语义理解,得到语义理解结果。
一些实施例中,参见图7,该装置60还包括:
预处理模块63,用于对所述待语义理解的文本进行预处理。
一些实施例中,参见图7,该装置60还包括:用于构建深度残差网络模型的构建模块64,所述构建模块64具体用于:
收集训练文本,并对所述训练文本进行预处理,以及,获取所述训练文本的标注信息,所述标注信息包括语义理解结果;
确定深度残差网络模型的拓扑结构;
基于预处理后的训练文本、所述标注信息和所述拓扑结构进行模型训练,构建得到深度残差网络模型。
一些实施例中,所述构建模块64在存在多任务时,基于多任务同步处理机制进行模型训练。
一些实施例中,所述构建模块64在模型训练时,通过对整体损失函数进行最小化确定模型参数,其中,所述整体损失函数为各个任务的损失函数的线性加权函数。
一些实施例中,所述语义理解模块62采用的深度残差网络模型的拓扑结构中包括:辅助输入层,所述辅助输入层用于输入先验信息。
一些实施例中,所述辅助输入层包括:
输入部分,用于输入先验信息,并对先验信息进行向量化;
变换部分,用于对向量化后的先验信息进行向量变换。
一些实施例中,所述语义理解模块62采用的深度残差网络模型的拓扑结构中包括:注意力层,所述注意力层包括:
非线性变换部分,用于对输入矩阵进行非线性变换,得到非线性变换后的矩阵,所述输入矩阵由各个词组的词向量组成;
权重控制部分,用于采用预设向量分别与非线性变换后的矩阵中的各个词组的词向量做内积,得到控制向量;
权重分配部分,用于对所述控制向量进行权重分配,得到权重向量;
组合部分,用于采用所述权重向量对所述输入矩阵中不同词组的词向量进行线性组合,得到注意力层的输出。
一些实施例中,所述语义理解模块62采用的深度残差网络模型的拓扑结构中包括:残差单元层,所述残差单元层包括卷积层级联部分和捷径部分,所述卷积层级联部分包括多个相互级联的卷积层,所述捷径部分用于将输入直接或对输入进行线性变换后与卷积层级联部分的输出相加,再对相加后的值进行激活。
可以理解的是,本实施例的装置与上述方法实施例对应,具体内容可以参见方法实施例的相关描述,在此不再详细说明。
本实施例中,通过在文本语义理解时引入深度残差网络模型,由于深度残差网络存在捷径(shortcut),使得网络间的数据流通更为顺畅,利于增加网络深度,进而可以采用更深层网络对数据进行更好拟合以及对特征进行更高层的抽象,从而提升文本语义理解效果。
图8是本申请一个实施例提出的文本语义理解系统的结构示意图。
如图8所示,本实施例的系统包括:客户端81和服务端82。
客户端81,用于接收用户输入的待语义理解的文本;
服务端82,用于接收客户端发送的所述待语义理解的文本,以及,根据预先构建的深度残差网络模型,对所述待语义理解的文本进行语义理解,得到语义理解结果。
一些实施例中,所述服务端82还用于:将所述语义理解结果发送给客户端;所述客户端81还用于:接收所述服务端发送的语义理解结果,并将所述语义理解结果反馈给用户。
图8中以客户端与服务端通过无线网络连接为例,可以理解的是,客户端与服务端也可以通过有线网络连接,或者,如果客户端与服务端集成在同一设备中,客户端与服务端可以通过设备内部的总线连接。
可以理解的是,服务端的功能与上述的装置一致,因此,服务端的具体组成可以参见图6或图7所示的装置,在此不再详述。
本实施例中,通过在文本语义理解时引入深度残差网络模型,由于深度残差网络存在捷径(shortcut),使得网络间的数据流通更为顺畅,利于增加网络深度,进而可以采用更深层网络对数据进行更好拟合以及对特征进行更高层的抽象,从而提升文本语义理解效果。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (19)

1.一种文本语义理解方法,其特征在于,包括:
接收待语义理解的文本;
根据预先构建的深度残差网络模型,对所述待语义理解的文本进行语义理解,得到语义理解结果。
2.根据权利要求1所述的方法,其特征在于,对所述待语义理解的文本进行语义理解之前,所述方法还包括:
对所述待语义理解的文本进行预处理。
3.根据权利要求2所述的方法,其特征在于,还包括:构建深度残差网络模型,所述构建深度残差网络模型,包括:
收集训练文本,并对所述训练文本进行预处理,以及,获取所述训练文本的标注信息,所述标注信息包括语义理解结果;
确定深度残差网络模型的拓扑结构;
基于预处理后的训练文本、所述标注信息和所述拓扑结构进行模型训练,构建得到深度残差网络模型。
4.根据权利要求3所述的方法,其特征在于,当存在多任务时,所述模型训练基于多任务同步处理机制进行。
5.根据权利要求4所述的方法,其特征在于,所述模型训练时,通过对整体损失函数进行最小化确定模型参数,其中,所述整体损失函数为各个任务的损失函数的线性加权函数。
6.根据权利要求1所述的方法,其特征在于,所述深度残差网络模型的拓扑结构中包括:辅助输入层,所述辅助输入层用于输入先验信息。
7.根据权利要求6所述的方法,其特征在于,所述辅助输入层包括:
输入部分,用于输入先验信息,并对先验信息进行向量化;
变换部分,用于对向量化后的先验信息进行向量变换。
8.根据权利要求1所述的方法,其特征在于,所述深度残差网络模型的拓扑结构中包括:注意力层,所述注意力层包括:
非线性变换部分,用于对输入矩阵进行非线性变换,得到非线性变换后的矩阵,所述输入矩阵由各个词组的词向量组成;
权重控制部分,用于采用预设向量分别与非线性变换后的矩阵中的各个词组的词向量做内积,得到控制向量;
权重分配部分,用于对所述控制向量进行权重分配,得到权重向量;
组合部分,用于采用所述权重向量对所述输入矩阵中不同词组的词向量进行线性组合,得到注意力层的输出。
9.根据权利要求1所述的方法,其特征在于,所述深度残差网络模型的拓扑结构中包括:残差单元层,所述残差单元层包括卷积层级联部分和捷径部分,所述卷积层级联部分包括多个相互级联的卷积层,所述捷径部分用于将输入直接或对输入进行线性变换后与卷积层级联部分的输出相加,再对相加后的值进行激活。
10.一种文本语义理解装置,其特征在于,包括:
接收模块,用于接收待语义理解的文本;
语义理解模块,用于根据预先构建的深度残差网络模型,对所述待语义理解的文本进行语义理解,得到语义理解结果。
11.根据权利要求10所述的装置,其特征在于,还包括:
预处理模块,用于对所述待语义理解的文本进行预处理。
12.根据权利要求11所述的装置,其特征在于,还包括:用于构建深度残差网络模型的构建模块,所述构建模块具体用于:
收集训练文本,并对所述训练文本进行预处理,以及,获取所述训练文本的标注信息,所述标注信息包括语义理解结果;
确定深度残差网络模型的拓扑结构;
基于预处理后的训练文本、所述标注信息和所述拓扑结构进行模型训练,构建得到深度残差网络模型。
13.根据权利要求12所述的装置,其特征在于,所述构建模块在存在多任务时,基于多任务同步处理机制进行模型训练。
14.根据权利要求13所述的装置,其特征在于,所述构建模块在模型训练时,通过对整体损失函数进行最小化确定模型参数,其中,所述整体损失函数为各个任务的损失函数的线性加权函数。
15.根据权利要求10所述的装置,其特征在于,所述语义理解模块采用的深度残差网络模型的拓扑结构中包括:辅助输入层,所述辅助输入层用于输入先验信息。
16.根据权利要求15所述的装置,其特征在于,所述辅助输入层包括:
输入部分,用于输入先验信息,并对先验信息进行向量化;
变换部分,用于对向量化后的先验信息进行向量变换。
17.根据权利要求10所述的装置,其特征在于,所述语义理解模块采用的深度残差网络模型的拓扑结构中包括:注意力层,所述注意力层包括:
非线性变换部分,用于对输入矩阵进行非线性变换,得到非线性变换后的矩阵,所述输入矩阵由各个词组的词向量组成;
权重控制部分,用于采用预设向量分别与非线性变换后的矩阵中的各个词组的词向量做内积,得到控制向量;
权重分配部分,用于对所述控制向量进行权重分配,得到权重向量;
组合部分,用于采用所述权重向量对所述输入矩阵中不同词组的词向量进行线性组合,得到注意力层的输出。
18.根据权利要求10所述的装置,其特征在于,所述语义理解模块采用的深度残差网络模型的拓扑结构中包括:残差单元层,所述残差单元层包括卷积层级联部分和捷径部分,所述卷积层级联部分包括多个相互级联的卷积层,所述捷径部分用于将输入直接或对输入进行线性变换后与卷积层级联部分的输出相加,再对相加后的值进行激活。
19.一种文本语义理解系统,其特征在于,包括:
客户端,用于接收用户输入的待语义理解的文本;
服务端,用于接收客户端发送的所述待语义理解的文本,以及,根据预先构建的深度残差网络模型,对所述待语义理解的文本进行语义理解,得到语义理解结果。
CN201710112693.7A 2017-02-28 2017-02-28 文本语义理解方法、装置和系统 Active CN106897268B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710112693.7A CN106897268B (zh) 2017-02-28 2017-02-28 文本语义理解方法、装置和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710112693.7A CN106897268B (zh) 2017-02-28 2017-02-28 文本语义理解方法、装置和系统

Publications (2)

Publication Number Publication Date
CN106897268A true CN106897268A (zh) 2017-06-27
CN106897268B CN106897268B (zh) 2020-06-02

Family

ID=59184717

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710112693.7A Active CN106897268B (zh) 2017-02-28 2017-02-28 文本语义理解方法、装置和系统

Country Status (1)

Country Link
CN (1) CN106897268B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107491434A (zh) * 2017-08-10 2017-12-19 北京邮电大学 基于语义相关性的文本摘要自动生成方法及装置
CN107491809A (zh) * 2017-08-21 2017-12-19 郑州云海信息技术有限公司 一种fpga实现残差网络中激活函数的方法
CN107609646A (zh) * 2017-10-12 2018-01-19 郑州云海信息技术有限公司 一种残差网络实现方法、系统、设备及计算机存储介质
CN107832458A (zh) * 2017-11-27 2018-03-23 中山大学 一种字符级的基于嵌套深度网络的文本分类方法
CN108052588A (zh) * 2017-12-11 2018-05-18 浙江大学城市学院 一种基于卷积神经网络的文档自动问答系统的构建方法
CN108133436A (zh) * 2017-11-23 2018-06-08 科大讯飞股份有限公司 自动判案方法及系统
CN108563703A (zh) * 2018-03-26 2018-09-21 北京北大英华科技有限公司 一种罪名的判定方法、装置及计算机设备、存储介质
CN108921814A (zh) * 2018-05-16 2018-11-30 华南农业大学 一种基于深度学习的柑橘黄龙病在线快速检测系统及方法
CN108962228A (zh) * 2018-07-16 2018-12-07 北京百度网讯科技有限公司 模型训练方法和装置
CN109033356A (zh) * 2018-07-25 2018-12-18 深圳追科技有限公司 为客服系统日志打标签的方法及客服系统
CN109102494A (zh) * 2018-07-04 2018-12-28 中山大学中山眼科中心 一种后发性白内障图像分析方法及装置
CN109271637A (zh) * 2018-09-30 2019-01-25 科大讯飞股份有限公司 一种语义理解方法及装置
CN109299246A (zh) * 2018-12-04 2019-02-01 北京容联易通信息技术有限公司 一种文本分类方法及装置
CN109684640A (zh) * 2018-12-26 2019-04-26 科大讯飞股份有限公司 一种语义提取方法及装置
CN109992648A (zh) * 2019-04-10 2019-07-09 北京神州泰岳软件股份有限公司 基于词迁徙学习的深度文本匹配方法及装置
CN110019696A (zh) * 2017-08-09 2019-07-16 百度在线网络技术(北京)有限公司 查询意图标注方法、装置、设备及存储介质
CN110321755A (zh) * 2018-03-28 2019-10-11 中移(苏州)软件技术有限公司 一种识别方法及装置
CN110427625A (zh) * 2019-07-31 2019-11-08 腾讯科技(深圳)有限公司 语句补全方法、装置、介质及对话处理系统
CN111160016A (zh) * 2019-04-15 2020-05-15 深圳碳云智能数字生命健康管理有限公司 语义识别方法、装置、计算机可读存储介质和计算机设备
CN112396201A (zh) * 2019-07-30 2021-02-23 北京国双科技有限公司 一种罪名预测方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050228640A1 (en) * 2004-03-30 2005-10-13 Microsoft Corporation Statistical language model for logical forms
US20050280851A1 (en) * 2004-06-21 2005-12-22 Moon-Cheol Kim Color signal processing method and apparatus usable with a color reproducing device having a wide color gamut
CN103440234A (zh) * 2013-07-25 2013-12-11 清华大学 自然语言理解系统及方法
CN106127395A (zh) * 2016-06-29 2016-11-16 北京理工大学 一种基于语义元模型的产品统一模型构建系统及构建方法
CN106156110A (zh) * 2015-04-03 2016-11-23 科大讯飞股份有限公司 文本语义理解方法及系统
CN106226212A (zh) * 2016-08-30 2016-12-14 上海交通大学 基于深度残差网络的高光谱霾监测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050228640A1 (en) * 2004-03-30 2005-10-13 Microsoft Corporation Statistical language model for logical forms
US20050280851A1 (en) * 2004-06-21 2005-12-22 Moon-Cheol Kim Color signal processing method and apparatus usable with a color reproducing device having a wide color gamut
CN103440234A (zh) * 2013-07-25 2013-12-11 清华大学 自然语言理解系统及方法
CN106156110A (zh) * 2015-04-03 2016-11-23 科大讯飞股份有限公司 文本语义理解方法及系统
CN106127395A (zh) * 2016-06-29 2016-11-16 北京理工大学 一种基于语义元模型的产品统一模型构建系统及构建方法
CN106226212A (zh) * 2016-08-30 2016-12-14 上海交通大学 基于深度残差网络的高光谱霾监测方法

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019696A (zh) * 2017-08-09 2019-07-16 百度在线网络技术(北京)有限公司 查询意图标注方法、装置、设备及存储介质
CN107491434A (zh) * 2017-08-10 2017-12-19 北京邮电大学 基于语义相关性的文本摘要自动生成方法及装置
CN107491809A (zh) * 2017-08-21 2017-12-19 郑州云海信息技术有限公司 一种fpga实现残差网络中激活函数的方法
CN107491809B (zh) * 2017-08-21 2020-10-16 苏州浪潮智能科技有限公司 一种fpga实现残差网络中激活函数的方法
CN107609646A (zh) * 2017-10-12 2018-01-19 郑州云海信息技术有限公司 一种残差网络实现方法、系统、设备及计算机存储介质
CN107609646B (zh) * 2017-10-12 2021-01-29 苏州浪潮智能科技有限公司 一种残差网络实现方法、系统、设备及计算机存储介质
CN108133436A (zh) * 2017-11-23 2018-06-08 科大讯飞股份有限公司 自动判案方法及系统
CN107832458A (zh) * 2017-11-27 2018-03-23 中山大学 一种字符级的基于嵌套深度网络的文本分类方法
CN107832458B (zh) * 2017-11-27 2021-08-10 中山大学 一种字符级的基于嵌套深度网络的文本分类方法
CN108052588A (zh) * 2017-12-11 2018-05-18 浙江大学城市学院 一种基于卷积神经网络的文档自动问答系统的构建方法
CN108052588B (zh) * 2017-12-11 2021-03-26 浙江大学城市学院 一种基于卷积神经网络的文档自动问答系统的构建方法
CN108563703A (zh) * 2018-03-26 2018-09-21 北京北大英华科技有限公司 一种罪名的判定方法、装置及计算机设备、存储介质
CN110321755A (zh) * 2018-03-28 2019-10-11 中移(苏州)软件技术有限公司 一种识别方法及装置
CN108921814A (zh) * 2018-05-16 2018-11-30 华南农业大学 一种基于深度学习的柑橘黄龙病在线快速检测系统及方法
CN109102494A (zh) * 2018-07-04 2018-12-28 中山大学中山眼科中心 一种后发性白内障图像分析方法及装置
CN108962228A (zh) * 2018-07-16 2018-12-07 北京百度网讯科技有限公司 模型训练方法和装置
CN109033356A (zh) * 2018-07-25 2018-12-18 深圳追科技有限公司 为客服系统日志打标签的方法及客服系统
CN109271637A (zh) * 2018-09-30 2019-01-25 科大讯飞股份有限公司 一种语义理解方法及装置
CN109271637B (zh) * 2018-09-30 2023-12-01 科大讯飞股份有限公司 一种语义理解方法及装置
CN109299246A (zh) * 2018-12-04 2019-02-01 北京容联易通信息技术有限公司 一种文本分类方法及装置
CN109684640B (zh) * 2018-12-26 2023-05-30 科大讯飞股份有限公司 一种语义提取方法及装置
CN109684640A (zh) * 2018-12-26 2019-04-26 科大讯飞股份有限公司 一种语义提取方法及装置
CN109992648A (zh) * 2019-04-10 2019-07-09 北京神州泰岳软件股份有限公司 基于词迁徙学习的深度文本匹配方法及装置
CN111160016A (zh) * 2019-04-15 2020-05-15 深圳碳云智能数字生命健康管理有限公司 语义识别方法、装置、计算机可读存储介质和计算机设备
CN111160016B (zh) * 2019-04-15 2022-05-03 深圳碳云智能数字生命健康管理有限公司 语义识别方法、装置、计算机可读存储介质和计算机设备
CN112396201A (zh) * 2019-07-30 2021-02-23 北京国双科技有限公司 一种罪名预测方法及系统
CN110427625A (zh) * 2019-07-31 2019-11-08 腾讯科技(深圳)有限公司 语句补全方法、装置、介质及对话处理系统

Also Published As

Publication number Publication date
CN106897268B (zh) 2020-06-02

Similar Documents

Publication Publication Date Title
CN106897268A (zh) 文本语义理解方法、装置和系统
CN108681610B (zh) 生成式多轮闲聊对话方法、系统及计算机可读存储介质
CN113905391B (zh) 集成学习网络流量预测方法、系统、设备、终端、介质
Wang et al. Research on Web text classification algorithm based on improved CNN and SVM
CN110263324A (zh) 文本处理方法、模型训练方法和装置
CN109801269B (zh) 一种基于竞争的挤压和激励神经网络的舌苔体质分类方法
CN110489567B (zh) 一种基于跨网络特征映射的节点信息获取方法及其装置
CN107526725A (zh) 基于人工智能的用于生成文本的方法和装置
CN108876044B (zh) 一种基于知识增强神经网络的线上内容流行度预测方法
CN114398976B (zh) 基于bert与门控类注意力增强网络的机器阅读理解方法
CN111523574B (zh) 一种基于多模态数据的图像情感识别方法及系统
CN113139850A (zh) 一种缓解数据稀疏性和商品冷启动的商品推荐模型
CN113065344A (zh) 一种基于迁移学习和注意力机制的跨语料库情感识别方法
CN116992361A (zh) 基于注意力机制的多模态融合与情感识别方法
CN116467416A (zh) 一种基于图神经网络的多模态对话情感识别方法及系统
CN117369378A (zh) 基于蒙特卡洛树搜索算法的混流制造车间调度方法及系统
US20240135176A1 (en) Training method and apparatus for neural network model, and data processing method and apparatus
CN110942106A (zh) 一种基于平方平均的池化卷积神经网络图像分类方法
CN117634459A (zh) 目标内容生成及模型训练方法、装置、系统、设备及介质
Xu et al. CNN-based skip-gram method for improving classification accuracy of chinese text
CN109033413B (zh) 一种基于神经网络的需求文档和服务文档匹配方法
CN114547308B (zh) 文本处理的方法、装置、电子设备及存储介质
CN112598065B (zh) 一种基于记忆的门控卷积神经网络语义处理系统及方法
CN115270917A (zh) 一种两阶段处理多模态服装图像生成方法
Jin et al. Video dialog via progressive inference and cross-transformer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant