CN113220828B - 意图识别模型处理方法、装置、计算机设备及存储介质 - Google Patents

意图识别模型处理方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN113220828B
CN113220828B CN202110468248.0A CN202110468248A CN113220828B CN 113220828 B CN113220828 B CN 113220828B CN 202110468248 A CN202110468248 A CN 202110468248A CN 113220828 B CN113220828 B CN 113220828B
Authority
CN
China
Prior art keywords
intention
recognition
model
node
intention recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110468248.0A
Other languages
English (en)
Other versions
CN113220828A (zh
Inventor
李薿
陈曦
庄伯金
刘玉宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202110468248.0A priority Critical patent/CN113220828B/zh
Publication of CN113220828A publication Critical patent/CN113220828A/zh
Application granted granted Critical
Publication of CN113220828B publication Critical patent/CN113220828B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例属于人工智能领域,应用于智慧城市领域中,涉及一种意图识别模型处理方法、装置、计算机设备及存储介质,方法包括:获取带有意图识别节点标识和样本标签的训练样本;根据意图识别节点标识生成误差掩码向量;将训练样本输入初始意图识别模型,得到意图预测结果;根据误差掩码向量、意图预测结果和样本标签计算预测误差;基于预测误差对初始意图识别模型进行调整,直至得到的预测误差满足训练停止条件,得到意图识别模型,意图识别模型用于在至少一个意图识别节点进行意图识别。此外,本申请还涉及区块链技术,训练样本可存储于区块链中。本申请降低了意图识别系统的臃肿。

Description

意图识别模型处理方法、装置、计算机设备及存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种意图识别模型处理方法、装置、计算机设备及存储介质。
背景技术
随着计算机技术的发展,人工智能的应用越来越广泛。人机对话是人工智能领域中的重要应用,当前,人机对话旨在实现人与计算机通过人类所用的自然语言进行交流。在人机对话中,计算机需要通过意图识别系统对人的话语进行意图识别,从而选择相应的话术进行回应。
在实际应用中,计算机基于人机对话提供的服务可能由多个流程节点构成,例如,在保险理赔领域,理赔申请由多个节点组成,不同节点需要进行不同种类的意图识别,从而根据用户意图实现节点的跳转。在传统的意图识别中,通常在每个节点单独设置意图识别模型,这样会导致建立意图识别系统的成本过高,并使得意图识别系统较为臃肿。
发明内容
本申请实施例的目的在于提出一种意图识别模型处理方法、装置、计算机设备及存储介质,以解决意图识别系统较为臃肿的问题。
为了解决上述技术问题,本申请实施例提供一种意图识别模型处理方法,采用了如下所述的技术方案:
获取带有意图识别节点标识和样本标签的训练样本;
根据所述意图识别节点标识生成节点掩码向量;
将所述训练样本输入初始意图识别模型,得到意图预测结果;
根据所述节点掩码向量、所述意图预测结果和所述样本标签计算预测误差;
基于所述预测误差对所述初始意图识别模型进行调整,直至得到的预测误差满足训练停止条件,得到意图识别模型,所述意图识别模型用于在至少一个意图识别节点进行意图识别。
为了解决上述技术问题,本申请实施例还提供一种意图识别模型处理装置,采用了如下所述的技术方案:
样本获取模块,用于获取带有意图识别节点标识和样本标签的训练样本;
向量生成模块,用于根据所述意图识别节点标识生成节点掩码向量;
训练输入模块,用于将所述训练样本输入初始意图识别模型,得到意图预测结果;
误差计算模块,用于根据所述节点掩码向量、所述意图预测结果和所述样本标签计算预测误差;
模型调整模块,用于基于所述预测误差对所述初始意图识别模型进行调整,直至得到的预测误差满足训练停止条件,得到意图识别模型,所述意图识别模型用于在至少一个意图识别节点进行意图识别。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
获取带有意图识别节点标识和样本标签的训练样本;
根据所述意图识别节点标识生成节点掩码向量;
将所述训练样本输入初始意图识别模型,得到意图预测结果;
根据所述节点掩码向量、所述意图预测结果和所述样本标签计算预测误差;
基于所述预测误差对所述初始意图识别模型进行调整,直至得到的预测误差满足训练停止条件,得到意图识别模型,所述意图识别模型用于在至少一个意图识别节点进行意图识别。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
获取带有意图识别节点标识和样本标签的训练样本;
根据所述意图识别节点标识生成节点掩码向量;
将所述训练样本输入初始意图识别模型,得到意图预测结果;
根据所述节点掩码向量、所述意图预测结果和所述样本标签计算预测误差;
基于所述预测误差对所述初始意图识别模型进行调整,直至得到的预测误差满足训练停止条件,得到意图识别模型,所述意图识别模型用于在至少一个意图识别节点进行意图识别。
与现有技术相比,本申请实施例主要有以下有益效果:获取带有意图识别节点标识和样本标签的训练样本,意图识别节点标识用于生成节点掩码向量;将训练样本输入多个意图识别节点共用的初始意图识别模型,得到意图预测结果;计算预测误差时,除了意图预测结果和样本标签,还需加入节点掩码向量,以便去掉其他意图识别节点的影响,得到仅针对意图识别节点标识所对应的意图识别节点处的预测误差;根据预测误差对初始意图识别模型进行调整,直至得到的预测误差满足训练停止条件,得到意图识别模型,利用节点掩码向量可以针对每个意图识别节点单独进行训练,所有节点可以共用一个模型,减少了需要部署的模型的数量,从而降低了意图识别系统的臃肿。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请可以应用于其中的示例性系统架构图;
图2是根据本申请的意图识别模型处理方法的一个实施例的流程图;
图3是根据本申请的意图识别模型处理装置的一个实施例的结构示意图;
图4是根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving PictureExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(MovingPictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的意图识别模型处理方法一般由服务器执行,相应地,意图识别模型处理装置一般设置于服务器中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的意图识别模型处理方法的一个实施例的流程图。所述的意图识别模型处理方法,包括以下步骤:
步骤S201,获取带有意图识别节点标识和样本标签的训练样本。
在本实施例中,意图识别模型处理方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式与终端设备进行通信。需要指出的是,上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
其中,意图识别节点标识可以是意图识别节点的标识,意图识别系统可以实现多节点的意图识别,每个节点实现不同种类的意图识别。
具体地,服务器获取训练样本,训练样本带有意图识别节点标识和样本标签。当意图识别系统用于人机对话领域的意图识别时,训练样本可以是从用户语音转换得到的文本,并可以由人工添加意图节点标识和样本标签。
需要强调的是,为进一步保证上述训练样本的私密和安全性,上述训练样本还可以存储于一区块链的节点中。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
步骤S202,根据意图识别节点标识生成节点掩码向量。
具体地,本申请可以采用一个意图识别模型实现多个意图识别节点的意图识别,为此,本申请采用掩码(mask)机制,类似于图像处理领域中的掩码机制。服务器可以根据意图识别节点标识生成节点掩码向量,在针对一个意图识别节点进行训练或者识别时,通过节点掩码向量隔离掉其他意图识别节点的影响。
在一个实施例中,可以预设每个意图识别节点处需要识别的意图的类别,那么,节点掩码向量的维度等于全部意图识别节点处意图类别的数量总和,节点掩码向量中的每一个元素都对应于一个意图类别。意图识别节点标识决定了节点掩码向量中各元素的取值,对于一个意图识别节点A,假设其包含的意图类别为A1、A2和A3,那么根据意图识别节点A生成节点掩码向量时,意图识别节点A中的意图类别A1、A2和A3所对应的向量元素可以设为有效值,例如设置为1,其余向量元素均设置为无效值,例如设置为0。举例说明,假设共有两个意图识别节点M和N,其中,M和N处各有两种意图类别,则意图掩码向量的维度为4,当意图识别节点标识为节点M的标识时,生成针对节点M的意图掩码向量[1,1,0,0],当意图识别节点标识为节点N的标识时,生成针对节点N的意图掩码向量[0,0,1,1]。
在一个实施例中,服务器中设置了向量配置文件,服务器读取向量配置文件,在向量配置文件中查询意图识别节点标识所对应的节点掩码向量。
步骤S203,将训练样本输入初始意图识别模型,得到意图预测结果。
具体地,服务器将训练样本输入初始意图识别模型,由初始意图识别模型对训练样本进行处理,输出意图预测结果。其中,初始意图识别模型可以是深度学习模型,例如,可以将Bert模型(Bidirectional Encoder Representation from Transformers,一种语言模型)作为初始意图识别模型。
步骤S204,根据节点掩码向量、意图预测结果和样本标签计算预测误差。
具体地,在训练阶段计算预测误差时,除了意图预测结果和样本标签,还需要节点掩码向量。节点掩码向量使计算过程关注于意图识别节点标识所对应的意图识别节点处的预测误差,而不关注其他意图识别节点处的预测误差。其中,预测误差包括但不局限于交叉熵损失误差。
进一步的,上述步骤S204可以包括:
步骤S2041,获取预设的全节点误差计算算法。
具体地,全节点误差计算算法是从全部意图识别节点的维度计算预测误差的方式。对于每一个输入,在计算预测误差时可以先获取预设的全节点误差计算算法。
步骤S2042,根据误差掩码向量对全节点误差计算算法进行调整,得到与意图识别节点标识所对应的误差计算算法。
具体地,由于训练样本是针对某一个意图识别节点的,训练时也要针对意图识别节点单独计算预测误差。全节点误差计算算法对各意图识别节点处的预测误差进行了线性组合,根据误差掩码向量对全节点误差计算算法进行调整,将误差掩码向量中的元素作为权重,对应加入到全节点误差计算算法中,从而将无关意图识别节点处的影响降为零,得到与意图识别节点标识相对应的误差计算算法。在一个实施例中,将交叉熵损失作为意图识别节点处的误差计算算法,全节点误差计算算法将各意图识别节点处的交叉熵损失进行了线性组合;根据误差掩码向量对全节点误差计算算法进行调整时,将误差掩码向量中的元素作为线性加权的权重,只留下对应的意图识别节点处的误差计算算法。
步骤S2043,基于意图预测结果和样本标签,通过误差计算算法计算预测误差。
具体地,服务器将意图预测结果和样本标签代入得到的误差计算算法,从而计算得到该意图识别节点处的预测误差。
本实施例中,在计算预测误差时,根据节点掩码向量对全节点误差计算算法进行调整,避免其他意图识别节点带来的影响,得到与意图识别节点标识相对应的误差计算算法,从而根据意图预测结果和样本标签计算出预测误差。
步骤S205,基于预测误差对初始意图识别模型进行调整,直至得到的预测误差满足训练停止条件,得到意图识别模型,意图识别模型用于在至少一个意图识别节点进行意图识别。
其中,训练停止条件可以是对于任意输入,得到的预测误差小于预设的误差阈值。
具体地,得到预测误差后,以减小预测误差为目标调整初始意图识别模型的模型参数。并在完成模型参数的调整后,将训练样本重新输入初始意图识别模型进行迭代训练,直到得到的预测误差满足预设的训练停止条件,则停止训练,得到意图识别模型。得到的意图识别模型可以在多个意图识别节点处进行不同种类、不同识别方向的意图识别。
本实施例中,获取带有意图识别节点标识和样本标签的训练样本,意图识别节点标识用于生成节点掩码向量;将训练样本输入多个意图识别节点共用的初始意图识别模型,得到意图预测结果;计算预测误差时,除了意图预测结果和样本标签,还需加入节点掩码向量,以便去掉其他意图识别节点的影响,得到仅针对意图识别节点标识所对应的意图识别节点处的预测误差;根据预测误差对初始意图识别模型进行调整,直至得到的预测误差满足训练停止条件,得到意图识别模型,利用节点掩码向量可以针对每个意图识别节点单独进行训练,所有节点可以共用一个模型,减少了需要部署的模型的数量,从而降低了意图识别系统的臃肿。
进一步的,上述步骤S203可以包括:
步骤S2031,对于每个意图识别节点,根据意图识别节点标识统计训练样本中针对各意图识别节点的样本数量。
具体地,本申请可以实现多个意图识别节点共用一个意图识别模型。通常情况下,可以仅仅设置一个模型。但是,在模型训练和模型应用中,通常会面临小样本的问题,即训练样本的数量较少,如果意图识别模型单独依靠深度学习模型,在小样本的情况下会使得训练精度不高,导致意图识别不准确。为此,当某个意图识别节点处训练样本较少时,可以先采用深度学习模型以外的模型进行训练或识别。
因此,在训练之前,先根据意图识别节点标识对训练样本进行划分,具有相同意图识别节点标识的训练样本被划分到一起,这些训练样本对应于同一个意图识别节点;并统计每个意图识别节点处的训练样本的样本数量。
步骤S2032,当意图识别节点的样本数量符合预设的数量条件时,将训练样本输入初始意图识别模型中的第一识别子模型,得到意图预测结果,并将意图识别节点与第一识别子模型相关联,第一识别模型为深度学习模型。
其中,预设的数量条件可以是样本数量不少于预设的数量阈值。
具体地,当意图识别节点处的样本数量符合预设的数量条件时,将训练样本输入初始意图识别模型中的第一识别子模型,第一识别子模型可以是深度学习模型。第一识别子模型对训练样本进行处理,得到意图预测结果。服务器将该意图识别节点与第一识别子模型相关联,当输入的样本带有该意图识别节点的意图识别节点标识时,该样本即被输入第一识别子模型进行处理。
在一个实施例中,第一识别子模型为Bert模型。本申请中的Bert模型可以实现多分类,每个意图识别节点处有N种(N为正整数)分类结果,则设置N个sigmoid函数,每个sigmoid函数的结果表示输入样本在该sigmoid函数所对应类别上的预测概率。可以预设概率阈值,将预测概率大于概率阈值的类别,作为意图预测结果。
步骤S2033,当意图识别节点的样本数量不符合数量条件时,将训练样本输入初始意图识别模型中的第二识别子模型,得到意图预测结果,并将意图识别节点与第二识别子模型相关联,第二识别模型为度量学习模型。
具体地,当意图识别节点处的样本数量不符合数量条件,即样本数量少于预设的数量阈值时,将训练样本输入初始意图识别模型种的第二识别子模型,第二识别模型为度量学习(metric learning)模型,在训练中采用度量学习的方式。在样本数量较少时,度量学习模型具有比深度学习模型更高的准确性。
第二识别子模型对训练样本进行处理,输出意图预测结果。服务器还需要将该意图识别节点与第二识别子模型相关联。当输入的样本带有该意图识别节点的意图识别节点标识、且该意图识别节点仍与第二识别子模型相关联时,该样本被输入第二识别子模型进行处理。
本实施例中,统计每个意图识别节点处的样本数量,当样本数量符合预设的数量条件时,将训练样本输入基于深度学习的第一识别子模型进行处理,当样本数量不符合数量条件时,将训练样本输入基于度量学习的第二识别子模型进行处理,根据样本数量选择匹配的子模型进行处理,保证了模型训练的准确性。
进一步的,上述步骤S2033可以包括:
步骤S20331,当意图识别节点的样本数量不符合数量条件时,将训练样本划分为基准样本与模型训练样本,并将意图识别节点与初始意图识别模型中的第二识别子模型相关联,基准样本与模型训练样本均包括意图识别节点处全类别的样本标签。
具体地,当意图识别节点处的样本数量不符合数量条件时,需要先对该意图识别节点处的训练样本进行划分,划分为基准样本与模型训练样本,基准样本和模型训练样本都需要包含该意图识别节点处,预设的全部类别的样本标签。举例说明,假设该意图识别节点处需要识别三种意图类别,则基准样本和模型训练样本中的样本标签均需要覆盖这三种意图类别。
步骤S20332,对于每类样本标签,通过第二识别子模型从基准样本中提取与样本标签相对应的聚合特征。
其中,聚合特征可以是针对某一类样本标签的特征向量。
具体地,对于每一类样本标签,需要获取该类别样本标签所对应样本的特征向量,即聚合特征,聚合特征聚合了这一类样本的特征,具有一定的普适性和代表性。聚合特征的获取可以由第二识别子模型从基准样本中提取,基准样本带有样本标签,从而可以得到每一种样本标签所对应的聚合特征。
在一个实施例中,可以先将基准样本输入特征提取网络,特征提取网络可以由Bert网络和CNN网络(Convolutional Neural Networks,卷积神经网络)构成。先将基准样本输入Bert网络,将Bert网络的sequence向量输入CNN网络,从而得到各基准样本的特征向量。第二识别子模型对具有相同样本标签的基准样本的特征向量进行聚合操作,得到某一类样本标签的聚合特征。其中,聚合操作可以采用均值、极大值等聚合操作。第二识别子模型可以是Relation Net网络(关系网络)。
步骤S20333,通过第二识别子模型获取模型训练样本的特征向量。
具体地,服务器可以通过第二识别子模型获取模型训练样本的特征向量。模型训练样本的特征向量的获取方法与基准样本的特征向量的获取方法可以一致,通过Bert网络和CNN网络获取。
步骤S20334,分别计算特征向量与每类样本标签的聚合特征的相似度。
具体地,可以计算特征向量与各类样本标签的聚合特征的相似度。在一个实施例中,将特征向量与各类样本标签的聚合特征相拼接,再送入feedforward(前馈神经网络)层,由feedforward层计算相似度。feedforward可以将sigmoid函数的结果,作为特征向量与各类样本标签的聚合特征的相似度。
步骤S20335,根据计算得到的相似度,从各类样本标签中筛选符合预设相似度阈值条件的样本标签,并将筛选到的样本标签作为意图预测结果。
其中,相似度阈值条件可以是样本标签的聚合特征与模型训练样本的特征向量间的相似度大于预设的相似度阈值。
具体地,得到相似度后,从各类样本标签中,筛选符合预设相似度阈值条件的样本标签,筛选到的样本标签将作为第二识别子模型输出的意图预测结果。
本实施例中,将训练样本划分为基准样本和模型训练样本,通过第二识别子模型从基准样本中提取各类样本标签的聚合特征,聚合特征可以反应某一类样本的特征,从模型训练样本中提取特征向量,根据聚合特征和特征向量计算相似度,相似度用于确定意图预测结果,从而在样本数量较少的情况下通过度量学习获取到意图预测结果。
进一步的,上述步骤S205可以包括:
步骤S2051,对于意图识别节点标识对应的意图识别节点,确定意图识别节点相关联的识别子模型,识别子模型为初始意图识别模型中的第一识别子模型或第二识别子模型。
具体地,当意图识别模型包含识别子模型时,调整模型参数需要确定调整哪个识别子模型的模型参数,例如,某一意图识别节点通过第一识别子模型进行处理,参数调整时需调整第一识别子模型的模型参数,而不是调整第二识别子模型的模型参数。
服务器根据意图识别节点标识确定意图识别节点,根据意图识别节点确定相关联的识别子模型,识别子模型则包括了意图识别子模型中的第一识别子模型和第二识别子模型。
步骤S2052,基于预测误差,对确定的识别子模型进行参数调整。
具体地,服务器确定相关联的识别子模型后,以减小预测误差为目标,调整确定的识别子模型的模型参数,从而实现模型更新。
步骤S2053,对参数调整后的识别子模型进行迭代训练,直至得到的预测误差满足训练停止条件,得到意图识别模型。
具体地,服务器对识别子模型完成一轮参数调整后,根据训练样本对识别子模型继续进行训练,直至对于任意的训练样本,识别子模型输出的预测误差均满足训练停止条件,则停止训练,得到意图识别模型。
本实施例中,确定意图识别节点相关联的识别子模型,从而调整相关联的识别子模型的模型参数,保证了训练的准确性。
进一步的,上述步骤S205之后,所述意图识别模型处理方法还可以包括:
步骤S206,获取与第二识别子模型相关联的意图识别节点的补充样本。
其中,补充样本可以是用于对第一识别子模型进行补充训练的样本。
具体地,基于深度学习的第一识别子模型往往比基于度量学习的第二识别子模型具有更高的准确性,因此,可以争取尽量使用第一识别子模型实现全部意图识别节点处的意图识别。
在意图识别模型训练完毕后,对于使用第二识别子模型进行识别的意图识别节点,可以继续获取针对该意图识别节点的补充样本。
步骤S207,将补充样本添加到针对意图识别节点的训练样本中。
具体地,将获取到的补充样本添加到该意图识别节点的训练样本中,从而扩充该意图识别节点处训练样本的数量。
步骤S208,当统计到训练样本的样本数量符合预设的数量条件时,根据训练样本训练第一识别子模型。
具体地,当该意图识别节点处训练样本的样本数量符合预设的数量条件时,表示该意图识别节点可以采用第一识别子模型进行意图识别,服务器可以根据扩充后的训练样本,重新训练第一识别子模型。
在一个实施例中,当该意图识别节点处训练样本的样本数量符合预设的数量条件时,根据该意图识别节点处的训练样本,和其他与第一识别子模型相关联的意图识别节点的训练样本,重新训练第一识别子模型。
步骤S209,对第一识别子模型训练完毕后,将意图识别节点与第一识别子模型相关联。
具体地,对第一识别子模型训练完毕后,将该意图识别节点与第一识别子模型相关联,当获取到该意图识别节点处的输入时,即可通过第一识别子模型进行意图识别,而不再使用第二识别子模型。
当全部意图识别节点处的样本数量均满足预设的数量条件,或者全部意图识别节点均使用第一识别子模型进行意图识别时,可以移除第二识别子模型,意图识别模型中仅保留基于深度学习的识别模型。
本实施例中,获取与第二识别模型相关联的意图识别节点的补充样本,从而扩充训练样本,当训练样本的数量符合预设的数量条件时,根据训练样本训练第一识别子模型,并将该意图识别节点与第一识别模型相关联,样本量较多时第一识别模型具有更高的准确度,从而提高了意图识别的准确性。
进一步的,上述步骤S205之后,所述意图识别模型处理方法还可以包括:
步骤S2010,获取带有意图识别节点标识的待识别样本。
具体地,意图识别模型可以在多个意图识别节点处进行意图识别,并根据意图识别结果进行流程跳转。当在某个流程节点进行意图识别时,终端获取该节点处的意图识别节点标识,根据用户语音生成待识别样本,将意图识别节点标识和待识别样本发送至服务器,由服务器进行意图识别。
步骤S2011,将待识别样本输入意图识别模型进行意图识别,得到与意图识别节点标识对应的意图识别结果。
具体地,服务器将待识别样本输入意图识别模型,由意图识别模型进行处理。由于意图识别模型可以进行多节点的意图识别,因此模型内部先得到全部意图识别节点处的识别结果,为了避免输出与当前意图识别节点无关的意图类别,可以由意图识别节点标识生成节点掩码向量,由节点掩码向量对输出结果进行限制,只输出该意图识别节点所包含的意图类别,从而得到意图识别结果。
在一个实施例中,如果意图识别模型既需要第一识别子模型进行识别,又需要第二识别子模型进行识别,则根据意图识别节点标识确定与该意图识别节点相关联的识别子模型,以将待识别样本输入关联的识别子模型进行处理。第二识别子模型的意图识别结果经过人工检查后可以作为样本标签,和待识别样本作为补充样本添加到该意图识别节点处的训练样本中,并在训练样本符合预设的数量条件时,对第一识别子模型进行重新训练,以取代第二识别子模型。
本实施例中,获取包含意图识别节点标识的待识别样本,由意图识别模型进行意图识别,并根据意图识别节点标识对输出结果进行限制,可以准确得到该意图识别节点处的意图识别结果。
本申请可应用于智慧城市领域中,从而推动智慧城市的建设。例如,本申请可以应用于智慧社区,在社区内的人机对话系统中实现意图识别;或者,应用于智慧教育,实现家教或课堂互动等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
进一步参考图3,作为对上述图2所示方法的实现,本申请提供了一种意图识别模型处理装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图3所示,本实施例所述的意图识别模型处理装置300包括:样本获取模块301、向量生成模块302、训练输入模块303、误差计算模块304以及模型调整模块305,其中:
样本获取模块301,获取带有意图识别节点标识和样本标签的训练样本。
向量生成模块302,根据意图识别节点标识生成误差掩码向量。
训练输入模块303,将训练样本输入初始意图识别模型,得到意图预测结果。
误差计算模块304,根据误差掩码向量、意图预测结果和样本标签计算预测误差。
模型调整模块305,基于预测误差对初始意图识别模型进行调整,直至得到的预测误差满足训练停止条件,得到意图识别模型,意图识别模型用于在至少一个意图识别节点进行意图识别。
本实施例中,获取带有意图识别节点标识和样本标签的训练样本,意图识别节点标识用于生成节点掩码向量;将训练样本输入多个意图识别节点共用的初始意图识别模型,得到意图预测结果;计算预测误差时,除了意图预测结果和样本标签,还需加入节点掩码向量,以便去掉其他意图识别节点的影响,得到仅针对意图识别节点标识所对应的意图识别节点处的预测误差;根据预测误差对初始意图识别模型进行调整,直至得到的预测误差满足训练停止条件,得到意图识别模型,利用节点掩码向量可以针对每个意图识别节点单独进行训练,所有节点可以共用一个模型,减少了需要部署的模型的数量,从而降低了意图识别系统的臃肿。
在本实施例的一些可选的实现方式中,训练输入模块303可以包括:数量统计子模块、第一输入子模块以及第二输入子模块,其中:
数量统计子模块,用于对于每个意图识别节点,根据意图识别节点标识统计训练样本中针对各意图识别节点的样本数量。
第一输入子模块,用于当意图识别节点的样本数量符合数量条件时,将训练样本输入初始意图识别模型中的第一识别子模型,得到意图预测结果,并将意图识别节点与第一识别子模型相关联。
第二输入子模块,用于当意图识别节点的样本数量不符合预设的数量条件时,将训练样本输入初始意图识别模型中的第二识别子模型,得到意图预测结果,并将意图识别节点与第二识别子模型相关联,第二识别模型为度量学习模型。
本实施例中,统计每个意图识别节点处的样本数量,当样本数量符合预设的数量条件时,将训练样本输入基于深度学习的第一识别子模型进行处理,当样本数量不符合数量条件时,将训练样本输入基于度量学习的第二识别子模型进行处理,根据样本数量选择匹配的子模型进行处理,保证了模型训练的准确性。
在本实施例的一些可选的实现方式中,第二输入子模块可以包括:样本划分单元、聚合提取单元、特征获取单元、相似度计算单元以及标签筛选单元,其中:
样本划分单元,用于当意图识别节点的样本数量不符合预设的数量条件时,将训练样本划分为基准样本与模型训练样本,并将意图识别节点与初始意图识别模型中的第二识别子模型相关联,基准样本与模型训练样本均包括意图识别节点处全类别的样本标签。
聚合提取单元,用于对于每类样本标签,通过第二识别子模型从基准样本中提取与样本标签相对应的聚合特征。
特征获取单元,用于通过第二识别子模型获取模型训练样本的特征向量。
相似度计算单元,用于分别计算特征向量与每类样本标签的聚合特征的相似度。
标签筛选单元,用于根据计算得到的相似度,从各类样本标签中筛选符合预设相似度阈值条件的样本标签,并将筛选到的样本标签作为意图预测结果。
本实施例中,将训练样本划分为基准样本和模型训练样本,通过第二识别子模型从基准样本中提取各类样本标签的聚合特征,聚合特征可以反应某一类样本的特征,从模型训练样本中提取特征向量,根据聚合特征和特征向量计算相似度,相似度用于确定意图预测结果,从而在样本数量较少的情况下通过度量学习获取到意图预测结果。
在本实施例的一些可选的实现方式中,误差计算模块304可以包括:获取子模块、调整子模块以及计算子模块,其中:
获取子模块,用于获取预设的全节点误差计算算法。
调整子模块,用于根据误差掩码向量对全节点误差计算算法进行调整,得到与意图识别节点标识所对应的误差计算算法。
计算子模块,用于基于意图预测结果和样本标签,通过误差计算算法计算预测误差。
本实施例中,在计算预测误差时,根据节点掩码向量对全节点误差计算算法进行调整,避免其他意图识别节点带来的影响,得到与意图识别节点标识相对应的误差计算算法,从而根据意图预测结果和样本标签计算出预测误差。
在本实施例的一些可选的实现方式中,模型调整模块305可以包括:子模型确定子模块、参数调整子模块以及迭代训练子模块,其中:
子模型确定子模块,用于对于意图识别节点标识对应的意图识别节点,确定意图识别节点相关联的识别子模型,识别子模型为初始意图识别模型中的第一识别子模型或第二识别子模型。
参数调整子模块,用于基于预测误差,对确定的识别子模型进行参数调整。
迭代训练子模块,用于对参数调整后的识别子模型进行迭代训练,直至得到的预测误差满足训练停止条件,得到意图识别模型。
本实施例中,确定意图识别节点相关联的识别子模型,从而调整相关联的识别子模型的模型参数,保证了训练的准确性。
在本实施例的一些可选的实现方式中,意图识别模型处理装置300还可以包括:补充获取模块、样本添加模块、第一训练模块以及第一关联模块,其中:
补充获取模块,用于获取与第二识别子模型相关联的意图识别节点的补充样本。
样本添加模块,用于将补充样本添加到针对意图识别节点的训练样本中。
第一训练模块,用于当统计到训练样本的样本数量符合预设的数量条件时,根据训练样本训练第一识别子模型。
第一关联模块,用于对第一识别子模型训练完毕后,将意图识别节点与第一识别子模型相关联。
本实施例中,获取与第二识别模型相关联的意图识别节点的补充样本,从而扩充训练样本,当训练样本的数量符合预设的数量条件时,根据训练样本训练第一识别子模型,并将该意图识别节点与第一识别模型相关联,样本量较多时第一识别模型具有更高的准确度,从而提高了意图识别的准确性。
在本实施例的一些可选的实现方式中,意图识别模型处理装置300还可以包括:待识别获取模块以及待识别输入模块,其中:
待识别获取模块,用于获取带有意图识别节点标识的待识别样本。
待识别输入模块,用于将待识别样本输入意图识别模型进行意图识别,得到与意图识别节点标识对应的意图识别结果。
本实施例中,获取包含意图识别节点标识的待识别样本,由意图识别模型进行意图识别,并根据意图识别节点标识对输出结果进行限制,可以准确得到该意图识别节点处的意图识别结果。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。
所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是,图中仅示出了具有组件41-43的计算机设备4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable GateArray,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器41可以是所述计算机设备4的内部存储单元,例如该计算机设备4的硬盘或内存。在另一些实施例中,所述存储器41也可以是所述计算机设备4的外部存储设备,例如该计算机设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。当然,所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中,所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件,例如意图识别模型处理方法的计算机可读指令等。此外,所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中,所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据,例如运行所述意图识别模型处理方法的计算机可读指令。
所述网络接口43可包括无线网络接口或有线网络接口,该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。
本实施例中提供的计算机设备可以执行上述意图识别模型处理方法。此处意图识别模型处理方法可以是上述各个实施例的意图识别模型处理方法。
本实施例中,获取带有意图识别节点标识和样本标签的训练样本,意图识别节点标识用于生成节点掩码向量;将训练样本输入多个意图识别节点共用的初始意图识别模型,得到意图预测结果;计算预测误差时,除了意图预测结果和样本标签,还需加入节点掩码向量,以便去掉其他意图识别节点的影响,得到仅针对意图识别节点标识所对应的意图识别节点处的预测误差;根据预测误差对初始意图识别模型进行调整,直至得到的预测误差满足训练停止条件,得到意图识别模型,利用节点掩码向量可以针对每个意图识别节点单独进行训练,所有节点可以共用一个模型,减少了需要部署的模型的数量,从而降低了意图识别系统的臃肿。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的意图识别模型处理方法的步骤。
本实施例中,获取带有意图识别节点标识和样本标签的训练样本,意图识别节点标识用于生成节点掩码向量;将训练样本输入多个意图识别节点共用的初始意图识别模型,得到意图预测结果;计算预测误差时,除了意图预测结果和样本标签,还需加入节点掩码向量,以便去掉其他意图识别节点的影响,得到仅针对意图识别节点标识所对应的意图识别节点处的预测误差;根据预测误差对初始意图识别模型进行调整,直至得到的预测误差满足训练停止条件,得到意图识别模型,利用节点掩码向量可以针对每个意图识别节点单独进行训练,所有节点可以共用一个模型,减少了需要部署的模型的数量,从而降低了意图识别系统的臃肿。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

Claims (9)

1.一种意图识别模型处理方法,其特征在于,包括下述步骤:
获取带有意图识别节点标识和样本标签的训练样本;
根据所述意图识别节点标识生成节点掩码向量;
将所述训练样本输入初始意图识别模型,得到意图预测结果;
根据所述节点掩码向量、所述意图预测结果和所述样本标签计算预测误差;
基于所述预测误差对所述初始意图识别模型进行调整,直至得到的预测误差满足训练停止条件,得到意图识别模型,所述意图识别模型用于在至少一个意图识别节点进行意图识别;
所述节点掩码向量的生成过程为:
获取每个意图识别节点需要识别的意图的类别,以根据全部意图识别节点处意图类别的数量总和确定节点掩码向量的维度,所述节点掩码向量中每一个元素对应一个意图类别;
对于每个意图识别节点,将所述意图识别节点需要识别的意图所对应的向量元素设置为1,将其余的向量元素设置为0,得到所述意图识别节点的意图掩码向量;
所述根据所述节点掩码向量、所述意图预测结果和所述样本标签计算预测误差的步骤包括:
获取预设的全节点误差计算算法;
根据所述节点掩码向量对所述全节点误差计算算法进行调整,得到与所述意图识别节点标识所对应的误差计算算法,其中,所述全节点误差计算算法对各意图识别节点处的预测误差进行线性组合,当根据所述节点掩码向量对所述全节点误差计算算法进行调整时,将所述节点掩码向量中的元素作为权重,对应加入到所述全节点误差计算算法;
基于所述意图预测结果和所述样本标签,通过所述误差计算算法计算预测误差。
2.根据权利要求1所述的意图识别模型处理方法,其特征在于,所述将所述训练样本输入初始意图识别模型,得到意图预测结果的步骤包括:
对于每个意图识别节点,根据意图识别节点标识统计所述训练样本中针对各意图识别节点的样本数量;
当意图识别节点的样本数量符合预设的数量条件时,将所述训练样本输入初始意图识别模型中的第一识别子模型,得到意图预测结果,并将所述意图识别节点与所述第一识别子模型相关联,所述第一识别子模型为深度学习模型;
当意图识别节点的样本数量不符合所述数量条件时,将所述训练样本输入初始意图识别模型中的第二识别子模型,得到意图预测结果,并将所述意图识别节点与所述第二识别子模型相关联,所述第二识别子模型为度量学习模型。
3.根据权利要求2所述的意图识别模型处理方法,其特征在于,所述当意图识别节点的样本数量不符合所述数量条件时,将所述训练样本输入初始意图识别模型中的第二识别子模型,得到意图预测结果,并将所述意图识别节点与所述第二识别子模型相关联的步骤包括:
当意图识别节点的样本数量不符合所述数量条件时,将所述训练样本划分为基准样本与模型训练样本,并将所述意图识别节点与初始意图识别模型中的第二识别子模型相关联,所述基准样本与所述模型训练样本均包括所述意图识别节点处全类别的样本标签;
对于每类样本标签,通过所述第二识别子模型从所述基准样本中提取与样本标签相对应的聚合特征;
通过所述第二识别子模型获取所述模型训练样本的特征向量;
分别计算所述特征向量与所述每类样本标签的聚合特征的相似度;
根据计算得到的相似度,从各类样本标签中筛选符合预设相似度阈值条件的样本标签,并将筛选到的样本标签作为意图预测结果。
4.根据权利要求2所述的意图识别模型处理方法,其特征在于,所述基于所述预测误差对所述初始意图识别模型进行调整,直至得到的预测误差满足训练停止条件,得到意图识别模型的步骤包括:
对于所述意图识别节点标识对应的意图识别节点,确定所述意图识别节点相关联的识别子模型,所述识别子模型为初始意图识别模型中的第一识别子模型或第二识别子模型;
基于所述预测误差,对确定的识别子模型进行参数调整;
对参数调整后的识别子模型进行迭代训练,直至得到的预测误差满足训练停止条件,得到意图识别模型。
5.根据权利要求3所述的意图识别模型处理方法,其特征在于,在所述基于所述预测误差对所述初始意图识别模型进行调整,直至得到的预测误差满足训练停止条件,得到意图识别模型的步骤之后,还包括:
获取与所述第二识别子模型相关联的意图识别节点的补充样本;
将所述补充样本添加到针对所述意图识别节点的训练样本中;
当统计到所述训练样本的样本数量符合预设的数量条件时,根据所述训练样本训练所述第一识别子模型;
对所述第一识别子模型训练完毕后,将所述意图识别节点与所述第一识别子模型相关联。
6.根据权利要求1所述的意图识别模型处理方法,其特征在于,在所述基于所述预测误差对所述初始意图识别模型进行调整,直至得到的预测误差满足训练停止条件,得到意图识别模型的步骤之后还包括:
获取带有意图识别节点标识的待识别样本;
将所述待识别样本输入所述意图识别模型进行意图识别,得到与所述意图识别节点标识对应的意图识别结果。
7.一种意图识别模型处理装置,其特征在于,包括:
样本获取模块,用于获取带有意图识别节点标识和样本标签的训练样本;
向量生成模块,用于根据所述意图识别节点标识生成节点掩码向量;
训练输入模块,用于将所述训练样本输入初始意图识别模型,得到意图预测结果;
误差计算模块,用于根据所述节点掩码向量、所述意图预测结果和所述样本标签计算预测误差;
模型调整模块,用于基于所述预测误差对所述初始意图识别模型进行调整,直至得到的预测误差满足训练停止条件,得到意图识别模型,所述意图识别模型用于在至少一个意图识别节点进行意图识别;
所述节点掩码向量的生成过程为:
获取每个意图识别节点需要识别的意图的类别,以根据全部意图识别节点处意图类别的数量总和确定节点掩码向量的维度,所述节点掩码向量中每一个元素对应一个意图类别;
对于每个意图识别节点,将所述意图识别节点需要识别的意图所对应的向量元素设置为1,将其余的向量元素设置为0,得到所述意图识别节点的意图掩码向量;
所述误差计算模块还用于获取预设的全节点误差计算算法;根据所述节点掩码向量对所述全节点误差计算算法进行调整,得到与所述意图识别节点标识所对应的误差计算算法,其中,所述全节点误差计算算法对各意图识别节点处的预测误差进行线性组合,当根据所述节点掩码向量对所述全节点误差计算算法进行调整时,将所述节点掩码向量中的元素作为权重,对应加入到所述全节点误差计算算法;基于所述意图预测结果和所述样本标签,通过所述误差计算算法计算预测误差。
8.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至6中任一项所述的意图识别模型处理方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至6中任一项所述的意图识别模型处理方法的步骤。
CN202110468248.0A 2021-04-28 2021-04-28 意图识别模型处理方法、装置、计算机设备及存储介质 Active CN113220828B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110468248.0A CN113220828B (zh) 2021-04-28 2021-04-28 意图识别模型处理方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110468248.0A CN113220828B (zh) 2021-04-28 2021-04-28 意图识别模型处理方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN113220828A CN113220828A (zh) 2021-08-06
CN113220828B true CN113220828B (zh) 2023-07-21

Family

ID=77089767

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110468248.0A Active CN113220828B (zh) 2021-04-28 2021-04-28 意图识别模型处理方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN113220828B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114398903B (zh) * 2022-01-21 2023-06-20 平安科技(深圳)有限公司 意图识别方法、装置、电子设备及存储介质
CN115114407B (zh) * 2022-07-12 2024-04-19 平安科技(深圳)有限公司 意图识别方法、装置、计算机设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107516060A (zh) * 2016-06-15 2017-12-26 阿里巴巴集团控股有限公司 目标检测方法和装置
CN111553162A (zh) * 2020-04-28 2020-08-18 腾讯科技(深圳)有限公司 一种意图识别的方法以及相关装置
CN111667833A (zh) * 2019-03-07 2020-09-15 国际商业机器公司 基于对话的语音识别
CN112100368A (zh) * 2020-07-21 2020-12-18 深思考人工智能科技(上海)有限公司 对话交互意图的识别方法和装置
CN112102296A (zh) * 2020-09-17 2020-12-18 上海交通大学 一种基于人类概念学的电力设备目标识别方法
CN112507704A (zh) * 2020-12-15 2021-03-16 中国联合网络通信集团有限公司 多意图识别方法、装置、设备及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160004501A1 (en) * 2014-07-01 2016-01-07 Honeywell International Inc. Audio command intent determination system and method
US11257483B2 (en) * 2019-03-29 2022-02-22 Intel Corporation On-device neural network adaptation with binary mask learning for language understanding systems
US11205082B2 (en) * 2019-10-08 2021-12-21 Toyota Research Institute, Inc. Spatiotemporal relationship reasoning for pedestrian intent prediction
CN111259124A (zh) * 2020-01-14 2020-06-09 中国平安人寿保险股份有限公司 对话管理方法、装置、系统及存储介质
CN111400480B (zh) * 2020-04-21 2023-05-12 支付宝(杭州)信息技术有限公司 针对多轮对话的用户意图识别方法和装置
CN112988963B (zh) * 2021-02-19 2024-05-10 平安科技(深圳)有限公司 基于多流程节点的用户意图预测方法、装置、设备及介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107516060A (zh) * 2016-06-15 2017-12-26 阿里巴巴集团控股有限公司 目标检测方法和装置
CN111667833A (zh) * 2019-03-07 2020-09-15 国际商业机器公司 基于对话的语音识别
CN111553162A (zh) * 2020-04-28 2020-08-18 腾讯科技(深圳)有限公司 一种意图识别的方法以及相关装置
CN112100368A (zh) * 2020-07-21 2020-12-18 深思考人工智能科技(上海)有限公司 对话交互意图的识别方法和装置
CN112102296A (zh) * 2020-09-17 2020-12-18 上海交通大学 一种基于人类概念学的电力设备目标识别方法
CN112507704A (zh) * 2020-12-15 2021-03-16 中国联合网络通信集团有限公司 多意图识别方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DIET: Lightweight Language Understanding for Dialogue Systems;Tanja Bunk et al;《prearXiv: 2004.09936v3 [cs.CL]》;第1-7页 *

Also Published As

Publication number Publication date
CN113220828A (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
CN110287479B (zh) 命名实体识别方法、电子装置及存储介质
CN114780727A (zh) 基于强化学习的文本分类方法、装置、计算机设备及介质
CN112328761B (zh) 一种意图标签设置方法、装置、计算机设备及存储介质
CN113722438B (zh) 基于句向量模型的句向量生成方法、装置及计算机设备
CN112699686B (zh) 基于任务型对话系统的语义理解方法、装置、设备及介质
CN112395390B (zh) 意图识别模型的训练语料生成方法及其相关设备
CN113220828B (zh) 意图识别模型处理方法、装置、计算机设备及存储介质
CN112084752B (zh) 基于自然语言的语句标注方法、装置、设备及存储介质
CN112466314A (zh) 情感语音数据转换方法、装置、计算机设备及存储介质
CN112395391B (zh) 概念图谱构建方法、装置、计算机设备及存储介质
CN112836521A (zh) 问答匹配方法、装置、计算机设备及存储介质
CN112632244A (zh) 一种人机通话的优化方法、装置、计算机设备及存储介质
CN112528029A (zh) 文本分类模型处理方法、装置、计算机设备及存储介质
CN112699213A (zh) 语音意图识别方法、装置、计算机设备及存储介质
CN112417121A (zh) 客户意图识别方法、装置、计算机设备及存储介质
CN110827799B (zh) 用于处理语音信号的方法、装置、设备和介质
CN112446209A (zh) 一种意图标签的设置方法、设备、装置及存储介质
CN113723077B (zh) 基于双向表征模型的句向量生成方法、装置及计算机设备
CN113987162A (zh) 文本摘要的生成方法、装置及计算机设备
CN111898363B (zh) 文本长难句的压缩方法、装置、计算机设备及存储介质
CN115730237B (zh) 垃圾邮件检测方法、装置、计算机设备及存储介质
CN115687934A (zh) 意图识别方法、装置、计算机设备及存储介质
CN111680514A (zh) 信息处理和模型训练方法、装置、设备及存储介质
WO2021244099A1 (zh) 语音编辑方法、电子设备及计算机可读存储介质
CN112199954B (zh) 基于语音语义的疾病实体匹配方法、装置及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant