CN109388802A - 一种基于深度学习的语义理解方法和装置 - Google Patents

一种基于深度学习的语义理解方法和装置 Download PDF

Info

Publication number
CN109388802A
CN109388802A CN201811183243.8A CN201811183243A CN109388802A CN 109388802 A CN109388802 A CN 109388802A CN 201811183243 A CN201811183243 A CN 201811183243A CN 109388802 A CN109388802 A CN 109388802A
Authority
CN
China
Prior art keywords
semantic feature
mapping relations
intention
layer
intended
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811183243.8A
Other languages
English (en)
Other versions
CN109388802B (zh
Inventor
余轲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Lun Zi Technology Co ltd
Original Assignee
Beijing Lun Zi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Lun Zi Technology Co ltd filed Critical Beijing Lun Zi Technology Co ltd
Priority to CN201811183243.8A priority Critical patent/CN109388802B/zh
Publication of CN109388802A publication Critical patent/CN109388802A/zh
Application granted granted Critical
Publication of CN109388802B publication Critical patent/CN109388802B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种基于深度学习的语义理解方法和装置,在语义理解过程中,将最小绝对值收缩原理与深度学习架构相结合,通过Lasso对基于基础全卷积神经网络分割模型的意图yj与一系列语义特征xjp的映射关系中无用的语义特征进行剔除,得到能够反映意图yj的有用的语义特征的映射关系,将与意图关联的某些非重要语义特征的权重在参数估计的过程中缩减成0,大幅减少语义理解过程中的“过度拟合”,提高语义理解的准确度。

Description

一种基于深度学习的语义理解方法和装置
技术领域
本发明涉及计算处理技术领域,具体而言,涉及一种基于深度学习的语义理解方法和装置。
背景技术
目前,用户的特定意图可以用很多词、词组、句子来表达,而每个词、词组、句子的不同组合又可以表达出不同的意图。因此,在提取语义特征与意图之间的非线性映射关系时,某一特定的意图对应很多语义特征,每个语义特征所能代表的该意图的权重不同。由于人类语言中的语义特征是无穷尽的,会出现需要估计权重的语义特征数量过于巨量,因而产生“过度拟合”等问题,使得所训练出的模型的样本外预测效力大幅减弱。
发明内容
为解决上述问题,本发明实施例的目的在于提供一种基于深度学习的语义理解方法和装置。
第一方面,本发明实施例提供了一种基于深度学习的语义理解方法,包括:
使用意图库和语义特征库对全卷积神经网络分割模型进行处理,得到基于全卷积神经网络分割模型的意图yj与一系列语义特征xjp的映射关系yj=fjj1xj1,βj2xj2,βj3xj3,βj4xj4,......,βjpxjp,ε),其中,f表示意图yj与语义特征xjp的非线性映射关系,βjp是映射函数的映射系数;
利用最小绝对值收缩原理Lasso对基于基础全卷积神经网络分割模型的意图yj与一系列语义特征xjp的映射关系中无用的语义特征进行剔除,得到能够反映意图yj的有用的语义特征的映射关系;其中,所述有用的语义特征,表示能够真实反映意图yj的语义特征;
对意图yj与能够反映意图yj的有用的语义特征的映射关系进行存储,并在获取到用户发出的语音时,通过存储的意图yj与能够反映意图yj的有用的语义特征的映射关系对用户发出的语音进行语义理解操作。
第二方面,本发明实施例还提供了一种基于深度学习的语义理解装置,包括:
第一处理模块,用于使用意图库和语义特征库对全卷积神经网络分割模型进行处理,得到基于全卷积神经网络分割模型的意图yj与一系列语义特征xjp的映射关系yj=fjj1xj1,βj2xj2,βj3xj3,βj4xj4,......,βjpxjp,ε),其中,f表示意图yj与语义特征xjp的非线性映射关系,βjp是映射函数的映射系数;
第二处理模块,用于利用最小绝对值收缩原理Lasso对基于基础全卷积神经网络分割模型的意图yj与一系列语义特征xjp的映射关系中无用的语义特征进行剔除,得到能够反映意图yj的有用的语义特征的映射关系;其中,所述有用的语义特征,表示能够真实反映意图yj的语义特征;
语义理解模块,用于对意图yj与能够反映意图yj的有用的语义特征的映射关系进行存储,并在获取到用户发出的语音时,通过存储的意图yj与能够反映意图yj的有用的语义特征的映射关系对用户发出的语音进行语义理解操作。
本发明实施例上述第一方面至第二方面提供的方案中,在语义理解过程中,将最小绝对值收缩原理(Least Absolute Shrinkage and Selection Operator,Lasso)与深度学习架构相结合,通过Lasso对基于基础全卷积神经网络分割模型的意图yj与一系列语义特征xjp的映射关系中无用的语义特征进行剔除,得到能够反映意图yj的有用的语义特征的映射关系,将与意图关联的某些非重要语义特征的权重在参数估计的过程中缩减成0,大幅减少不太能表达意图的语义特征与意图的关联度,尽可能降低语义理解过程的“过度拟合”问题,提高语义理解的准确度。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了可应用于本发明实施例中的服务器的结构框图;
图2示出了本发明实施例1所提供的一种基于深度学习的语义理解方法的流程图;
图3示出了本发明实施例1所提供的基于深度学习的语义理解方法中,全卷积神经网络分割模型示意图;
图4示出了本发明实施例2所提供的一种基于深度学习的语义理解装置的结构示意图。
图标:200-服务器;201-存储器;202-处理器;203-网络模块;221-操作系统;222-服务模块;400-第一处理模块;402-第二处理模块;404-语义理解模块。
具体实施方式
目前,用户的特定意图可以用很多词、词组、句子来表达,而每个词、词组、句子的不同组合又可以表达出不同的意图。因此,在提取语义特征与意图之间的非线性映射关系时,某一特定的意图对应很多语义特征,每个语义特征所能代表的该意图的权重不同。由于人类语言中的语义特征是无穷尽的,会出现需要估计权重的语义特征数量过于巨量,因而可能会将不太能表达意图的语义特征与意图相关联,从而产生“过度拟合”的问题,使得所训练出的语义模型对用户的语音进行预测时的效力大幅减弱。基于此,本申请实施例提出一种基于深度学习的语义理解方法和装置,将与意图关联的某些非重要语义特征的权重在参数估计的过程中缩减成0,大幅减少不太能表达意图的语义特征与意图的关联度,尽可能降低语义理解过程的“过度拟合”问题,提高语义理解的准确度。
图1示出了一种可应用于本发明实施例中的服务器的结构框图。如图1所示,服务器200包括:存储器201、处理器202以及网络模块203。
存储器201可用于存储软件程序以及模块,如本发明实施例中的基于深度学习的语义理解方法和装置对应的程序指令/模块,处理器202通过运行存储在存储器201内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现本发明实施例中的基于深度学习的语义理解方法。存储器201可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。进一步地,上述软件程序以及模块还可包括:操作系统221以及服务模块222。其中操作系统221,例如可为LINUX、UNIX、WINDOWS,其可包括各种用于管理系统任务(例如内存管理、存储设备控制、电源管理等)的软件组件和/或驱动,并可与各种硬件或软件组件相互通讯,从而提供其他软件组件的运行环境。服务模块222运行在操作系统221的基础上,并通过操作系统221的网络服务监听来自网络的请求,根据请求完成相应的数据处理,并返回处理结果给客户端。也就是说,服务模块222用于向客户端提供网络服务。
网络模块203用于接收以及发送网络信号。上述网络信号可包括无线信号或者有线信号。
可以理解,图1所示的结构仅为示意,服务器200还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图3中所示的各组件可以采用硬件、软件或其组合实现。另外,本申请实施例中的服务器还可以包括多个具体不同功能的服务器。
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请做进一步详细的说明。
实施例1
参见图2所示的基于深度学习的语义理解方法的流程图,本实施例提出一种基于深度学习的语义理解方法,包括以下具体步骤:
步骤100、使用意图库和语义特征库对全卷积神经网络分割模型进行处理,得到基于全卷积神经网络分割模型的意图yj与一系列语义特征xjp的映射关系。
其中,f表示意图yj与语义特征xjp的非线性映射关系,βjp是映射函数的映射系数。
在一个实施方式中,上述意图yj与一系列语义特征xjp的映射关系可以表示为:yj=fjj1xj1,βj2xj2,βj3xj3,βj4xj4,......,βjpxjp,ε)。
上述意图,是指用户想要做的任何事情,可以是但不限于:“买一件花衬衫”、以及“吃川式火锅”。
上述意图库,就是上述意图的集合,即用户想要做的所有事情的集合。
上述语义特征,是指可以表达某种意图的词语,比如:川式火锅对应的语义特征可以是麻辣、川式、川菜、火锅、涮锅等等。
上述语义特征库,就是用户可能发出的语音中可以包含的所有语义特征的集合。
所以,一个意图可以通过不同的语义特征表达出来。意图yj与一系列语义特征xjp的映射关系yj=fjj1xj1,βj2xj2,βj3xj3,βj4xj4,......,βjpxjp,ε)就是表示可以表达意图yj的一系列语义特征xjp与意图yj的对应关系。
上述全卷积神经网络分割模型,包括:卷积层、池化层和反卷积层;没有全连接层。参见如图3所示的全卷积神经网络分割模型示意图,在一个实施方式中,上述卷积层,可以包括:卷积层1、卷积层2、卷积层3、卷积层4、以及卷积层5。上述池化层,可以包括:池化层1、池化层2、池化层3、池化层4、以及池化层5。
为了对上述意图库和语义特征库进行深度学习,上述步骤100可以具体执行以下步骤(1)至步骤(2):
(1)输入的意图库和语义特征库依次经过卷积层1、池化层1、卷积层2、池化层2、卷积层3、池化层3、卷积层4、池化层4、卷积层5、池化层5,分别得到意图库的所有的意图yj和语义特征库中的所有的语义特征xjp
(2)将意图库的所有的意图yj和语义特征库中的所有的语义特征xjp经过2倍的反卷积层与池化层4的得分层进行加权融合,获得融合层1;融合层1经过2倍的反卷积层与池化层3的得分层进行加权融合,获得融合层2;融合层2经过2倍的反卷积层与池化层2的得分层进行加权融合,获得融合层3;融合层3经过2倍的反卷积层与池化层1的得分层进行加权融合,获得融合层4;融合层4经过2倍的反卷积层得到基于基础全卷积神经网络分割模型的意图yj与一系列语义特征xjp的映射关系系数βjp,并以此得到基于全卷积神经网络分割模型的意图yj与一系列语义特征xjp的映射关系yj=fjj1xj1,βj2xj2,βj3xj3,βj4xj4,......,βjpxjp,ε)。
在上述步骤(1)中,在每个卷积层后对意图yj和语义特征xjp经过ReLu激活函数处理,得到引入意图yj与语义特征xjp的非线性映射关系f。
在通过步骤100得到意图yj与一系列语义特征xjp的映射关系后,可以继续执行以下步骤102,对基于基础全卷积神经网络分割模型的意图yj与一系列语义特征xjp的映射关系中无用的语义特征进行剔除。
步骤102、利用Lasso对基于基础全卷积神经网络分割模型的意图yj与一系列语义特征xjp的映射关系中无用的语义特征进行剔除,得到意图yj与能够反映意图yj的有用的语义特征的映射关系。
这里,上述有用的语义特征,表示与意图yj具有映射关系的一系列语义特征xjp中能够真实反映意图yj的语义特征。
上述无用的语义特征,表示与意图yj具有映射关系的一系列语义特征xjp中不太能反映意图yj的语义特征。
Lasso原理的具体方法如下:利用Lasso算法对意图yj与一系列语义特征xjp的映射关系进行数据挖掘,剔除冗余数据,从而为语义理解算法提供简约而有效的特征数据;Lasso方法是一种压缩估计,通过构造一个罚函数得到一个较为精炼的模型,使得它压缩一些系数,同时设定一些系数为零,因此保留了子集收缩的特点。
具体地,上述步骤102可以执行以下具体步骤(1)至步骤(3):
(1)基于意图yj与一系列语义特征xjp的映射关系yj=fjj1xj1,βj2xj2,βj3xj3,βj4xj4,......,βjpxjp,ε),得到如下映射关系回归模型:
yj=βj1xj1j2xj2+...+βjpxjp+ε (1)
其中,βj1,βj2,...βjp为映射关系系数;ε是随机扰动项;上述映射关系回归模型需满足其中,n表示意图的数量,m表示与意图yj有映射关系的一系列语义特征的数量;
(2)基于上述映射关系回归模型得到映射关系系数的Lasso估计公式:
其中,c表示修订值;
(3)基于映射关系系数的Lasso估计公式,对基于基础全卷积神经网络分割模型的意图yj与一系列语义特征xjp的映射关系中无用的语义特征进行剔除,得到意图yj与能够反映意图yj的有用的语义特征的映射关系。
在上述步骤(2)中,上述修订值为经验值,可以通过以往使用Lasso的经验得到。
基于Lasso原理,就可以基于上述映射关系回归模型得到映射关系系数的Lasso估计公式,这里不再赘述。
在上述步骤(3)可以执行以下步骤(31)至步骤(32):
(31)针对意图yj,根据约束条件和βjp的最小二乘估计值得到惩罚函数s的初始值
(32)从惩罚函数s的初始值s0开始,按照预设增量对得到的上述惩罚函数s进行增量操作,并根据增量操作后的上述惩罚函数s,对映射关系系数的Lasso估计公式进行计算,使得Lasso估计公式的结果为0,将意图yj与一系列语义特征xjp的映射关系中的无用的映射关系的映射关系系数降为0,从而对基于基础全卷积神经网络分割模型的意图yj与一系列语义特征xjp的映射关系中无用的语义特征进行剔除,得到意图yj与能够反映意图yj的有用的语义特征的映射关系。
在上述步骤(31)中,约束条件和βjp的最小二乘估计值都是根据Lasso原理得到的,这里不再赘述。
在通过上述步骤102对基于基础全卷积神经网络分割模型的意图yj与一系列语义特征xjp的映射关系中无用的语义特征进行剔除,得到意图yj与能够反映意图yj的有用的语义特征的映射关系后,可以执行以下步骤104,基于意图yj与能够反映意图yj的有用的语义特征的映射关系,对用户发出的语音进行语义理解操作。
步骤104、对意图yj与能够反映意图yj的有用的语义特征的映射关系进行存储,并在获取到用户发出的语音时,通过存储的意图yj与能够反映意图yj的有用的语义特征的映射关系对用户发出的语音进行语义理解操作。
进一步地,为了进一步提高语义理解的准确度,在上述步骤104中,通过存储的意图yj与能够反映意图yj的有用的语义特征的映射关系对用户发出的语音进行语义理解操作,可以包括以下步骤(1)至步骤(3):
(1)根据存储的意图yj与能够反映意图yj的有用的语义特征的映射关系,对用户发出的语音进行语义理解操作,得到语义理解准确度;
(2)当语义理解准确度小于准确度阈值时,对上述映射关系回归模型的ε和Lasso估计公式中的c进行调整,得到调整后的ε和c;
(3)利用具有调整后的ε的映射关系回归模型以及具有调整后的c的Lasso估计公式对继续用户发出的语音进行语义理解操作。
通过以上步骤(1)至步骤(3)的描述可以看出,在根据存储的意图yj与能够反映意图yj的有用的语义特征的映射关系,对用户发出的语音进行语义理解操作的过程中,若语义理解的准确率较低,那么还可以对映射关系回归模型的ε和Lasso估计公式中的c这两个Lasso模型常数进行调整,并通过调整后的映射关系回归模型和Lasso估计公式继续用户发出的语音进行语义理解操作,进一步提高了语义理解的准确度。
综上所述,本实施例提出的基于深度学习的语义理解方法,在语义理解过程中,将Lasso与深度学习架构相结合,通过Lasso对基于基础全卷积神经网络分割模型的意图yj与一系列语义特征xjp的映射关系中无用的语义特征进行剔除,得到能够反映意图yj的有用的语义特征的映射关系,将与意图关联的某些非重要语义特征的权重在参数估计的过程中缩减成0,大幅减少不太能表达意图的语义特征与意图的关联度,尽可能降低语义理解过程的“过度拟合”问题,提高语义理解的准确度。
实施例2
参见图4所示的一种基于深度学习的语义理解装置的结构示意图,本实施例提出一种基于深度学习的语义理解装置,包括:
第一处理模块400,用于使用意图库和语义特征库对全卷积神经网络分割模型进行处理,得到基于全卷积神经网络分割模型的意图yj与一系列语义特征xjp的映射关系yj=fjj1xj1,βj2xj2,βj3xj3,βj4xj4,......,βjpxjp,ε),其中,f表示意图yj与语义特征xjp的非线性映射关系,βjp是映射函数的映射系数;
第二处理模块402,用于利用最小绝对值收缩原理Lasso对基于基础全卷积神经网络分割模型的意图yj与一系列语义特征xjp的映射关系中无用的语义特征进行剔除,得到意图yj与能够反映意图yj的有用的语义特征的映射关系;其中,上述有用的语义特征,表示能够真实反映意图yj的语义特征;
语义理解模块404,用于对意图yj与能够反映意图yj的有用的语义特征的映射关系进行存储,并在获取到用户发出的语音时,通过存储的意图yj与能够反映意图yj的有用的语义特征的映射关系对用户发出的语音进行语义理解操作。
上述全卷积神经网络分割模型,包括:卷积层、池化层和反卷积层。
上述第一处理模块400,具体用于:
输入的意图库和语义特征库依次经过卷积层1、池化层1、卷积层2、池化层2、卷积层3、池化层3、卷积层4、池化层4、卷积层5、池化层5,分别得到意图库的所有的意图yj和语义特征库中的所有的语义特征xjp
将意图库的所有的意图yj和语义特征库中的所有的语义特征xjp经过2倍的反卷积层与池化层4的得分层进行加权融合,获得融合层1;融合层1经过2倍的反卷积层与池化层3的得分层进行加权融合,获得融合层2;融合层2经过2倍的反卷积层与池化层2的得分层进行加权融合,获得融合层3;融合层3经过2倍的反卷积层与池化层1的得分层进行加权融合,获得融合层4;融合层4经过2倍的反卷积层得到基于基础全卷积神经网络分割模型的意图yj与一系列语义特征xjp的映射关系系数βj,并以此得到基于全卷积神经网络分割模型的意图yj与一系列语义特征xjp的映射关系yj=fjj1xj1,βj2xj2,βj3xj3,βj4xj4,......,βjpxjp,ε)。
可选地,上述第一处理模块400,还具体用于:
在每个卷积层后对意图yj和语义特征xjp经过ReLu激活函数处理,得到引入意图yj与语义特征xjp的非线性映射关系f。
上述第二处理模块402,具体用于:
基于意图yj与一系列语义特征xjp的映射关系yj=fjj1xj1,βj2xj2,βj3xj3,βj4xj4,......,βjpxjp,ε),得到如下映射关系回归模型:
yj=βj1xj1j2xj2+...+βjpxjp+ε (1)
其中,βj1,βj2,...βjp为映射关系系数;ε是随机扰动项;上述映射关系回归模型需满足其中,n表示意图的数量,m表示与意图yj有映射关系的一系列语义特征的数量;
基于上述映射关系回归模型得到映射关系系数的Lasso估计公式:
其中,c表示修订值;
基于映射关系系数的Lasso估计公式,对基于基础全卷积神经网络分割模型的意图yj与一系列语义特征xjp的映射关系中无用的语义特征进行剔除,得到意图yj与能够反映意图yj的有用的语义特征的映射关系。
在一个实施方式中,上述第二处理模块402,用于基于映射关系系数的Lasso估计公式,对基于基础全卷积神经网络分割模型的意图yj与一系列语义特征xjp的映射关系中无用的语义特征进行剔除,得到意图yj与能够反映意图yj的有用的语义特征的映射关系,包括:
针对意图yj,根据约束条件和βjp的最小二乘估计值得到惩罚函数s的初始值
从惩罚函数s的初始值s0开始,按照预设增量对得到的上述惩罚函数s进行增量操作,并根据增量操作后的上述惩罚函数s,对映射关系系数的Lasso估计公式进行计算,使得Lasso估计公式的结果为0,将意图yj与一系列语义特征xjp的映射关系中的无用的映射关系的映射关系系数降为0,从而对基于基础全卷积神经网络分割模型的意图yj与一系列语义特征xjp的映射关系中无用的语义特征进行剔除,得到意图yj与能够反映意图yj的有用的语义特征的映射关系。
综上所述,本实施例提出的基于深度学习的语义理解方法,在语义理解过程中,将Lasso与深度学习架构相结合,通过Lasso对基于基础全卷积神经网络分割模型的意图yj与一系列语义特征xjp的映射关系中无用的语义特征进行剔除,得到能够反映意图yj的有用的语义特征的映射关系,将与意图关联的某些非重要语义特征的权重在参数估计的过程中缩减成0,大幅减少不太能表达意图的语义特征与意图的关联度,尽可能降低语义理解过程的“过度拟合”问题,提高语义理解的准确度。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种基于深度学习的语义理解方法,其特征在于,包括:
使用意图库和语义特征库对全卷积神经网络分割模型进行处理,得到基于全卷积神经网络分割模型的意图yj与一系列语义特征xjp的映射关系yj=fjj1xj1j2xj2j3xj3j4xj4,……,βjpxjp,ε),其中,f表示意图yj与语义特征xjp的非线性映射关系,βjp是映射函数的映射系数;
利用最小绝对值收缩原理Lasso对基于基础全卷积神经网络分割模型的意图yj与一系列语义特征xjp的映射关系中无用的语义特征进行剔除,得到意图yj与能够反映意图yj的有用的语义特征的映射关系;其中,所述有用的语义特征,表示能够真实反映意图yj的语义特征;
对意图yj与能够反映意图yj的有用的语义特征的映射关系进行存储,并在获取到用户发出的语音时,通过存储的意图yj与能够反映意图yj的有用的语义特征的映射关系对用户发出的语音进行语义理解操作。
2.根据权利要求1所述的方法,其特征在于,所述全卷积神经网络分割模型,包括:卷积层、池化层和反卷积层;
所述使用意图库和语义特征库对全卷积神经网络分割模型进行处理,得到基于全卷积神经网络分割模型的意图yj与一系列语义特征xjp的映射关系yj=fjj1xj1j2xj2j3xj3j4xj4,……,βjpxjp,ε)包括:
输入的意图库和语义特征库依次经过卷积层1、池化层1、卷积层2、池化层2、卷积层3、池化层3、卷积层4、池化层4、卷积层5、池化层5,分别得到意图库的所有的意图yj和语义特征库中的所有的语义特征xjp
将意图库的所有的意图yj和语义特征库中的所有的语义特征xjp经过2倍的反卷积层与池化层4的得分层进行加权融合,获得融合层1;融合层1经过2倍的反卷积层与池化层3的得分层进行加权融合,获得融合层2;融合层2经过2倍的反卷积层与池化层2的得分层进行加权融合,获得融合层3;融合层3经过2倍的反卷积层与池化层1的得分层进行加权融合,获得融合层4;融合层4经过2倍的反卷积层得到基于基础全卷积神经网络分割模型的意图yj与一系列语义特征xjp的映射关系系数βj,并以此得到基于全卷积神经网络分割模型的意图yj与一系列语义特征xjp的映射关系yj=fjj1xj1j2xj2j3xj3j4xj4,……,βjpxjp,ε)。
3.根据权利要求2所述的方法,其特征在于,所述输入的意图库和语义特征库依次经过卷积层1、池化层1、卷积层2、池化层2、卷积层3、池化层3、卷积层4、池化层4、卷积层5、池化层5,分别得到意图库的所有的意图yj和语义特征库中的所有的语义特征xjp,包括:
在每个卷积层后对意图yj和语义特征xjp经过ReLu激活函数处理,得到引入意图yj与语义特征xjp的非线性映射关系f。
4.根据权利要求1所述的方法,其特征在于,所述利用Lasso对基于基础全卷积神经网络分割模型的意图yj与一系列语义特征xjp的映射关系中无用的语义特征进行剔除,得到意图yj与能够反映意图yj的有用的语义特征的映射关系,包括:
基于意图yj与一系列语义特征xjp的映射关系yj=fjj1xj1j2xj2j3xj3j4xj4,……,βjpxjp,ε),得到如下映射关系回归模型:
yj=βj1xj1j2xj2+…+βjpxjp+ε (1)
其中,βj1j2,…βjp为映射关系系数;ε是随机扰动项;所述映射关系回归模型需满足其中,n表示意图的数量,m表示与意图yj有映射关系的一系列语义特征的数量;
基于所述映射关系回归模型得到映射关系系数的Lasso估计公式:
其中,c表示修订值;
基于映射关系系数的Lasso估计公式,对基于基础全卷积神经网络分割模型的意图yj与一系列语义特征xjp的映射关系中无用的语义特征进行剔除,得到意图yj与能够反映意图yj的有用的语义特征的映射关系。
5.根据权利要求4所述的方法,其特征在于,所述基于映射关系系数的Lasso估计公式,对基于基础全卷积神经网络分割模型的意图yj与一系列语义特征xjp的映射关系中无用的语义特征进行剔除,得到意图yj与能够反映意图yj的有用的语义特征的映射关系,包括:
针对意图yj,根据约束条件惩罚函数s和βjp的最小二乘估计值得到惩罚函数s的初始值
从惩罚函数s的初始值s0开始,按照预设增量对得到的所述惩罚函数s进行增量操作,并根据增量操作后的所述惩罚函数s,对映射关系系数的Lasso估计公式进行计算,使得Lasso估计公式的结果为0,将意图yj与一系列语义特征xjp的映射关系中的无用的映射关系的映射关系系数降为0,从而对基于基础全卷积神经网络分割模型的意图yj与一系列语义特征xjp的映射关系中无用的语义特征进行剔除,得到意图yj与能够反映意图yj的有用的语义特征的映射关系。
6.一种基于深度学习的语义理解装置,其特征在于,包括:
第一处理模块,用于使用意图库和语义特征库对全卷积神经网络分割模型进行处理,得到基于全卷积神经网络分割模型的意图yj与一系列语义特征xjp的映射关系yj=fjj1xj1j2xj2j3xj3j4xj4,……,βjpxjp,ε),其中,f表示意图yj与语义特征xjp的非线性映射关系,βjp是映射函数的映射系数;
第二处理模块,用于利用最小绝对值收缩原理Lasso对基于基础全卷积神经网络分割模型的意图yj与一系列语义特征xjp的映射关系中无用的语义特征进行剔除,得到意图yj与能够反映意图yj的有用的语义特征的映射关系;其中,所述有用的语义特征,表示能够真实反映意图yj的语义特征;
语义理解模块,用于对意图yj与能够反映意图yj的有用的语义特征的映射关系进行存储,并在获取到用户发出的语音时,通过存储的意图yj与能够反映意图yj的有用的语义特征的映射关系对用户发出的语音进行语义理解操作。
7.根据权利要求6所述的装置,其特征在于,所述全卷积神经网络分割模型,包括:卷积层、池化层和反卷积层;
所述第一处理模块,具体用于:
输入的意图库和语义特征库依次经过卷积层1、池化层1、卷积层2、池化层2、卷积层3、池化层3、卷积层4、池化层4、卷积层5、池化层5,分别得到意图库的所有的意图yj和语义特征库中的所有的语义特征xjp
将意图库的所有的意图yj和语义特征库中的所有的语义特征xjp经过2倍的反卷积层与池化层4的得分层进行加权融合,获得融合层1;融合层1经过2倍的反卷积层与池化层3的得分层进行加权融合,获得融合层2;融合层2经过2倍的反卷积层与池化层2的得分层进行加权融合,获得融合层3;融合层3经过2倍的反卷积层与池化层1的得分层进行加权融合,获得融合层4;融合层4经过2倍的反卷积层得到基于基础全卷积神经网络分割模型的意图yj与一系列语义特征xjp的映射关系系数βj,并以此得到基于全卷积神经网络分割模型的意图yj与一系列语义特征xjp的映射关系yj=fjj1xj1j2xj2j3xj3j4xj4,……,βjpxjp,ε)。
8.根据权利要求7所述的装置,其特征在于,所述第一处理模块,还具体用于:
在每个卷积层后对意图yj和语义特征xjp经过ReLu激活函数处理,得到引入意图yj与语义特征xjp的非线性映射关系f。
9.根据权利要求6所述的装置,其特征在于,所述第二处理模块,具体用于:
基于意图yj与一系列语义特征xjp的映射关系yj=fjj1xj1j2xj2j3xj3j4xj4,……,βjpxjp,ε),得到如下映射关系回归模型:
yj=βj1xj1j2xj2+…+βjpxjp+ε (1)
其中,βj1j2,…βjp为映射关系系数;ε是随机扰动项;所述映射关系回归模型需满足其中,n表示意图的数量,m表示与意图yj有映射关系的一系列语义特征的数量;
基于所述映射关系回归模型得到映射关系系数的Lasso估计公式:
其中,c表示修订值;
基于映射关系系数的Lasso估计公式,对基于基础全卷积神经网络分割模型的意图yj与一系列语义特征xjp的映射关系中无用的语义特征进行剔除,得到意图yj与能够反映意图yj的有用的语义特征的映射关系。
10.根据权利要求9所述的装置,其特征在于,所述第二处理模块,用于基于映射关系系数的Lasso估计公式,对基于基础全卷积神经网络分割模型的意图yj与一系列语义特征xjp的映射关系中无用的语义特征进行剔除,得到意图yj与能够反映意图yj的有用的语义特征的映射关系,包括:
针对意图yj,根据约束条件惩罚函数s和βjp的最小二乘估计值得到惩罚函数s的初始值
从惩罚函数s的初始值s0开始,按照预设增量对得到的所述惩罚函数s进行增量操作,并根据增量操作后的所述惩罚函数s,对映射关系系数的Lasso估计公式进行计算,使得Lasso估计公式的结果为0,将意图yj与一系列语义特征xjp的映射关系中的无用的映射关系的映射关系系数降为0,从而对基于基础全卷积神经网络分割模型的意图yj与一系列语义特征xjp的映射关系中无用的语义特征进行剔除,得到意图yj与能够反映意图yj的有用的语义特征的映射关系。
CN201811183243.8A 2018-10-11 2018-10-11 一种基于深度学习的语义理解方法和装置 Active CN109388802B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811183243.8A CN109388802B (zh) 2018-10-11 2018-10-11 一种基于深度学习的语义理解方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811183243.8A CN109388802B (zh) 2018-10-11 2018-10-11 一种基于深度学习的语义理解方法和装置

Publications (2)

Publication Number Publication Date
CN109388802A true CN109388802A (zh) 2019-02-26
CN109388802B CN109388802B (zh) 2022-11-25

Family

ID=65427396

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811183243.8A Active CN109388802B (zh) 2018-10-11 2018-10-11 一种基于深度学习的语义理解方法和装置

Country Status (1)

Country Link
CN (1) CN109388802B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110414565A (zh) * 2019-05-06 2019-11-05 北京邮电大学 一种用于功率放大器的基于Group Lasso的神经网络裁剪方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060080101A1 (en) * 2004-10-12 2006-04-13 At&T Corp. Apparatus and method for spoken language understanding by using semantic role labeling
US20110082688A1 (en) * 2009-10-01 2011-04-07 Samsung Electronics Co., Ltd. Apparatus and Method for Analyzing Intention
CN106383835A (zh) * 2016-08-29 2017-02-08 华东师范大学 一种基于形式语义推理和深度学习的自然语言知识挖掘系统
CN106777013A (zh) * 2016-12-07 2017-05-31 科大讯飞股份有限公司 对话管理方法和装置
US20170162190A1 (en) * 2015-03-20 2017-06-08 Kabushiki Kaisha Toshiba Spoken language understanding apparatus, method, and program
CN107195301A (zh) * 2017-05-19 2017-09-22 深圳市优必选科技有限公司 智能机器人语义处理的方法及装置
CN107688614A (zh) * 2017-08-04 2018-02-13 平安科技(深圳)有限公司 意图获取方法、电子装置及计算机可读存储介质
CN107845381A (zh) * 2017-10-27 2018-03-27 安徽硕威智能科技有限公司 一种机器人语义处理的方法及系统
CN107944560A (zh) * 2017-12-08 2018-04-20 神思电子技术股份有限公司 一种自然语言语义推理方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060080101A1 (en) * 2004-10-12 2006-04-13 At&T Corp. Apparatus and method for spoken language understanding by using semantic role labeling
US20110082688A1 (en) * 2009-10-01 2011-04-07 Samsung Electronics Co., Ltd. Apparatus and Method for Analyzing Intention
US20170162190A1 (en) * 2015-03-20 2017-06-08 Kabushiki Kaisha Toshiba Spoken language understanding apparatus, method, and program
CN106383835A (zh) * 2016-08-29 2017-02-08 华东师范大学 一种基于形式语义推理和深度学习的自然语言知识挖掘系统
CN106777013A (zh) * 2016-12-07 2017-05-31 科大讯飞股份有限公司 对话管理方法和装置
CN107195301A (zh) * 2017-05-19 2017-09-22 深圳市优必选科技有限公司 智能机器人语义处理的方法及装置
CN107688614A (zh) * 2017-08-04 2018-02-13 平安科技(深圳)有限公司 意图获取方法、电子装置及计算机可读存储介质
CN107845381A (zh) * 2017-10-27 2018-03-27 安徽硕威智能科技有限公司 一种机器人语义处理的方法及系统
CN107944560A (zh) * 2017-12-08 2018-04-20 神思电子技术股份有限公司 一种自然语言语义推理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
崔鸿雁 等: "机器学习中的特征选择方法研究及展望", 《北京邮电大学学报》 *
李瀚清等: "利用深度去噪自编码器深度学习的指令意图理解方法", 《上海交通大学学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110414565A (zh) * 2019-05-06 2019-11-05 北京邮电大学 一种用于功率放大器的基于Group Lasso的神经网络裁剪方法
CN110414565B (zh) * 2019-05-06 2021-06-08 北京邮电大学 一种用于功率放大器的基于Group Lasso的神经网络裁剪方法

Also Published As

Publication number Publication date
CN109388802B (zh) 2022-11-25

Similar Documents

Publication Publication Date Title
US10733502B2 (en) Training policy neural networks using path consistency learning
CN107369443B (zh) 基于人工智能的对话管理方法及装置
CN108431832B (zh) 利用外部存储器扩增神经网络
US20230162098A1 (en) Schema-Guided Response Generation
CN109313720A (zh) 具有稀疏访问的外部存储器的增强神经网络
US20230359899A1 (en) Transfer learning based on cross-domain homophily influences
CN111125519B (zh) 用户行为预测方法、装置、电子设备以及存储介质
CN114915630A (zh) 基于物联网设备的任务分配方法、网络训练方法及装置
CN112990958B (zh) 数据处理方法、装置、存储介质及计算机设备
CN112733043B (zh) 评论推荐方法及装置
CN111198966A (zh) 基于多智能体边界感知网络的自然语言视频片段检索方法
CN116595356B (zh) 时序信号预测方法、装置、电子设备及存储介质
US11188035B2 (en) Continuous control of attention for a deep learning network
CN116992151A (zh) 一种基于双塔图卷积神经网络的在线课程推荐方法
CN109388802A (zh) 一种基于深度学习的语义理解方法和装置
US11704542B2 (en) Convolutional dynamic Boltzmann Machine for temporal event sequence
Tavakkoli-Moghaddam et al. Accessing feasible space in a generalized job shop scheduling problem with the fuzzy processing times: a fuzzy-neural approach
CN110516795B (zh) 一种为模型变量分配处理器的方法、装置及电子设备
CN114611690B (zh) 一种数据处理方法及相关装置
Chaudhuri et al. Experimental setup: Visual and text sentiment analysis through hierarchical deep learning networks
US12056584B2 (en) Online machine learning with immediate rewards when real rewards are delayed
Huang et al. Learning Dialogue Policy Efficiently Through Dyna Proximal Policy Optimization
US20240330721A1 (en) Selective data retention in a grounding based application
US20230394047A1 (en) Client-side ranking of social media feed content
US20230099635A1 (en) Context aware automated artificial intelligence framework

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant