CN110532355B - 一种基于多任务学习的意图与槽位联合识别方法 - Google Patents

一种基于多任务学习的意图与槽位联合识别方法 Download PDF

Info

Publication number
CN110532355B
CN110532355B CN201910795820.7A CN201910795820A CN110532355B CN 110532355 B CN110532355 B CN 110532355B CN 201910795820 A CN201910795820 A CN 201910795820A CN 110532355 B CN110532355 B CN 110532355B
Authority
CN
China
Prior art keywords
intention
slot position
slot
model
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910795820.7A
Other languages
English (en)
Other versions
CN110532355A (zh
Inventor
何霆
吴雅婷
王华珍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaqiao University
Original Assignee
Huaqiao University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaqiao University filed Critical Huaqiao University
Priority to CN201910795820.7A priority Critical patent/CN110532355B/zh
Publication of CN110532355A publication Critical patent/CN110532355A/zh
Application granted granted Critical
Publication of CN110532355B publication Critical patent/CN110532355B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于多任务学习的意图与槽位联合识别方法,对用户的话语/查询等输入文本进行处理,输出意图标签和槽位标签;方法包括;将用户输入文本序列顺序通过长短期记忆网络和卷积神经网络的处理,形成一个LSTM‑CNN共享表示特征;根据意图标签信息和槽位标签信息的区别,基于共享表示特征分别建立带注意力机制的Bi‑LSTM意图识别模型/槽位识别模型;利用基于梯度下降法的加权计算方法构建上述意图识别模型和槽位识别模型的总损失函数,并对其进行联合优化求解。本发明将多任务学习思想运用到垂直对话系统构建过程中,能够实现输入文本意图和槽位的联合识别,有效提升垂直对话系统输入文本意图和槽位识别的准确率和F值。

Description

一种基于多任务学习的意图与槽位联合识别方法
技术领域
本发明属于人机交互领域,涉及自然语言处理、垂直对话系统等,特别涉及一种基于多任务学习的意图与槽位联合识别方法。
背景技术
意图识别和槽位识别可以将垂直对话系统中用户输入文本转化为语义表示,为系统采取下一步行动提供支撑,是垂直对话系统自然语言理解模块的关键步骤。意图识别任务侧重于预测输入文本的意图,槽位识别以提取语义概念作为自然语言的约束为主要目的,即为给定输入文本中每个单词分配适当的语义标签。在目前的研究中,意图识别和槽位识别通常采用“流水线”方式独立进行,近期部分研究采取了意图和槽位联合识别的方式,但这些模型没有充分考虑意图和槽位之间的强相关性,这会导致在人机对话过程中,随着对话的进行,用户意图可能会不断发生偏移,槽值也存在不断改变的可能,所以用户意图和槽值有必要在其识别过程中进行持续的匹配验证。基于此,本专利采用多任务学习共享多个任务之间的参数和特征,以实现意图识别模型和槽位识别模型的联合优化。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于多任务学习的意图与槽位联合识别方法,建立意图和槽位联合识别模型,提高意图和槽位识别的准确率和F值,并将其应用于垂直对话系统,从而提高垂直对话系统自然语言理解模块的性能。
为了实现上述目的,本发明的技术方案是:
一种基于多任务学习的意图与槽位联合识别方法,包括:
S1,共享表示特征的构建;通过LSTM-CNN获取具有文本时序和结构信息的共享表示特征;
S2,意图识别模型和槽位识别模型的设计;在共享表示特征的基础上采用Bi-LSTM模型,分别针对意图标签信息和槽位标签信息构建带注意力机制的Bi-LSTM意图识别模型和槽位识别模型;
S3,意图识别模型和槽位识别模型的联合优化;将意图识别模型和槽位识别模型的损失函数进行加权,获得总损失函数,并对其进行联合优化求解。
优选的,所述S1包括:
S1.1,将用户输入文本转化为one-hot向量V1
S1.2,将所述向量V1输入到LSTM中进行处理,输出具有文本时序信息的向量V2
S1.3,将所述向量V2输入到CNN中进行处理,输出具有文本时序和结构信息的共享表示特征h(shared),该特征将作为意图识别和槽位识别的共同特征。
优选的,所述S2包括:
S2.1,将所述共享表示特征h(shared)作为输入,以意图标签构建训练数据集Dataintent,以槽位标签构建训练数据集Dataslot
S2.2,采用带注意力机制的Bi-LSTM模型作为意图识别训练模型和槽位识别训练模型。
优选的,所述意图识别模型的建立具体包括以下内容:
将共享表示特征h(shared)输入到带注意力机制的Bi-LSTM意图识别训练模型进行迭代优化,得到最终预测输出为yintent
优选的,所述槽位识别模型的建立具体包括以下内容:
将共享表示特征h(shared)输入到带注意力机制的Bi-LSTM槽位识别训练模型进行迭代优化,得到最终预测输出为oslot
优选的,所述S3具体包括:
S3.1,将意图识别损失函数Lossintent定义为预测输出yintnet与真实意图的交叉熵;
S3.2,将槽位识别损失函数Lossslot定义为预测输出oslot与真实槽位序列的平均交叉熵;
S3.3,将总损失函数定义为意图识别损失函数和槽位识别损失函数的加权和,如下:
Figure BDA0002180931220000021
其中:Loss为意图和槽位联合识别模型的总损失,α、β分别为预设的意图识别任务与槽位识别任务的权重系数;α通过基于梯度下降法的权重自学习方法确定,计算步骤如下:
S3.3.1,对α进行梯度计算,如下:
Figure BDA0002180931220000022
其中,b为偏置值,f(z)为模型输出值,t为样本真实值,(f(z)-t)为输出值与样本真实值t之间的误差;
S3.3.2,对α值进行迭代计算,如下:
Figure BDA0002180931220000031
d表示为梯度步长的学习率;
S3.3.3,当Loss的单调性不能保持时,停止迭代,得到α值;
S3.4,利用Adam方法对公式(1)进行优化求解,最后得到输入文本最终的意图标签和槽位标签序列。
采用上述方案后,本发明的有益效果是:
本发明一种基于多任务学习的意图与槽位联合识别方法,利用多任务学习的优势建立意图和槽位联合识别模型,分别提高意图和槽位识别的准确率和F值,并将其应用于垂直对话系统,从而提高垂直对话系统自然语言理解模块的性能。
以下结合附图及实施例对本发明作进一步详细说明,但本发明的一种基于多任务学习的意图与槽位联合识别方法不局限于实施例。
附图说明
图1是基于多任务学习的意图和槽位联合识别模型的结构示意图;
图2是基于多任务学习的意图和槽位联合识别模型的流程图。
具体实施方式
以下将结合本发明附图,对本发明实施例中的技术方案进行详细描述和讨论。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参见图1和图2所示,本发明一种基于多任务学习的意图与槽位联合识别方法,包括:共享表示特征的构建;意图识别模型和槽位识别模型的设计;意图识别模型和槽位识别模型的联合优化。
本发明用于同时识别垂直对话系统的输入文本的意图和槽位。其中的槽位识别指的是对给定输入文本中每个单词分配适当的语义标签,其表示形式为“槽值对”形式,其中:“槽”表示语义属性的名称,“值”表示该语义属性的值。
所述的多任务学习指的是共享多个任务之间的参数和特征,以实现意图识别模型和槽位识别模型的联合优化。
本实施例中,以ATIS(Airline Travel Information System)公共测试数据集为例,ATIS数据集由航班预订人员的录音组成。其中,训练集包含4478个问句,测试集包含来自893个问句。该数据集总共有122个不同的槽值标签和23种不同的意图类型。表1为该数据集的一个实例“what are the flights from tacoma to san jose on wednesday thenineteenth”,表1显示了该实例对应的意图和槽位。
表1 ATIS数据集实例
Figure BDA0002180931220000041
本发明具体步骤如下:
S1:共享表示特征的构建,即通过LSTM-CNN(长短期记忆网络LSTM和卷积神经网络CNN)获取具有文本时序和结构信息的共享表示特征,具体包括以下内容:
S1.1:将“what are the flights from tacoma to san jose on wednesday thenineteenth”转化为one-hot向量V1
S1.2:将S1.1得到的向量V1输入到LSTM中进行处理,输出具有文本时序信息的向量V2
S1.3:将向量V2输入到CNN中进行处理,输出具有文本时序和结构信息的共享表示特征h(shared),该特征将作为意图识别和槽位识别的共同特征。
S2:意图识别模型和槽位识别模型的设计,即在共享表示特征的基础上采用Bi-LSTM模型,分别针对意图标签信息和槽位标签信息构建带注意力机制的Bi-LSTM意图识别/槽位识别模型,具体包括以下内容:
S2.1:将基于S1得到的共享表示特征h(shared)作为输入,分别以意图标签和槽位标签构建两个训练数据集Dataintent和Dataslot
S2.2:采用带注意力机制的Bi-LSTM模型作为意图识别和槽位识别的训练模型。
S2.2.1:将共享表示特征h(shared)输入到带注意力机制的Bi-LSTM意图识别训练模型进行迭代优化,得到最终预测输出为yintent。在本例中,输出中间结果为23维向量,并进行格式转换。
S2.2.2:将共享表示特征h(shared)输入到带注意力机制的Bi-LSTM槽位识别训练模型进行迭代优化,得到最终预测输出为oslot。在本例中,输出中间结果为122维向量,并进行格式转换。
S3:意图识别模型和槽位识别模型的联合优化,即将意图识别模型和槽位识别模型的损失函数进行加权,获得总损失函数并进行优化求解,具体包括以下内容:
S3.1:将意图识别损失函数Lossintent定义为,基于S2.2.1得到的预测输出yintnet与真实意图的交叉熵;
S3.2:将槽位识别损失函数Lossslot定义为,基于S2.2.2得到的预测输出oslot与真实槽位序列的平均交叉熵;
S3.3:将总损失函数定义为意图识别损失函数和槽位识别损失函数的加权和,即公式1:
Figure BDA0002180931220000051
其中:Loss为意图和槽位联合识别模型的总损失,α、β分别为预设的意图识别任务与槽位识别任务的权重系数。α通过基于梯度下降法的权重自学习方法确定,计算步骤如下:
S3.3.1:对α进行梯度计算,如公式2:
Figure BDA0002180931220000052
其中,b为偏置值,f(z)为模型输出值,t为样本真实值,(f(z)-t)为输出值与样本真实值之间的误差。
S3.3.2:利用公式3对α值进行迭代计算:
Figure BDA0002180931220000053
其中,d表示为梯度步长的学习率。
S3.3.3:当Loss的单调性不能保持时,停止迭代,得到α值。
S3.4:利用Adam方法对公式(1)进行优化求解,输出最终识别结果。
最后得到输入文本最终的意图标签atis_flight和槽位标签序列“O O O O O
B-fromloc.city_name O B-toloc.city_name I-toloc.city_name O B-depart_date.day_name O B-depart_date.day_num”。
本发明在ATIS数据集上得到的意图识别的准确率为97.40%、槽位识别的F值为96.16%,较现有的BLSTM-CNN-CRF联合识别模型分别提高1.50%和0.92%。
以上仅为本发明实例中一个较佳的实施方案。但是,本发明并不限于上述实施方案,凡按本发明所做的任何均等变化和修饰,所产生的功能作用未超出本方案的范围时,均属于本发明的保护范围。

Claims (1)

1.一种基于多任务学习的意图与槽位联合识别方法,其特征在于,包括:
S1,共享表示特征的构建:通过LSTM-CNN获取具有文本时序和结构信息的共享表示特征h(shared)
S2,意图识别模型和槽位识别模型的设计:在共享表示特征的基础上采用Bi-LSTM模型,分别针对意图标签信息和槽位标签信息构建带注意力机制的Bi-LSTM意图识别模型和槽位识别模型;
S3,意图识别模型和槽位识别模型的联合优化:将意图识别模型和槽位识别模型的损失函数进行加权,获得总损失函数,并对其进行联合优化求解;
所述S1包括:
S1.1,将用户输入文本转化为one-hot向量V1
S1.2,将所述向量V1输入到LSTM中进行处理,输出具有文本时序信息的向量V2
S1.3,将所述向量V2输入到CNN中进行处理,输出具有文本时序和结构信息的共享表示特征h(shared),该特征将作为意图识别和槽位识别的共同特征;
所述S2包括:
S2.1,将所述共享表示特征h(shared)作为输入,以意图标签构建训练数据集Dataintent,以槽位标签构建训练数据集Dataslot
S2.2,采用带注意力机制的Bi-LSTM模型作为意图识别训练模型和槽位识别训练模型;
所述意图识别模型的建立具体包括以下内容:
将共享表示特征h(shared)输入到带注意力机制的Bi-LSTM意图识别训练模型进行迭代优化,得到最终预测输出为yintent
所述槽位识别模型的建立具体包括以下内容:
将共享表示特征h(shared)输入到带注意力机制的Bi-LSTM槽位识别训练模型进行迭代优化,得到最终预测输出为oslot
所述S3具体包括:
S3.1,将意图识别损失函数Lossintent定义为预测输出yintnet与真实意图的交叉熵;
S3.2,将槽位识别损失函数Lossslot定义为预测输出oslot与真实槽位序列的平均交叉熵;
S3.3,将总损失函数定义为意图识别损失函数和槽位识别损失函数的加权和,如下:
Figure FDA0003619115080000021
其中:Loss为意图和槽位联合识别模型的总损失,α、β分别为预设的意图识别任务与槽位识别任务的权重系数;α通过基于梯度下降法的权重自学习方法确定,计算步骤如下:
S3.3.1,对α进行梯度计算,如下:
Figure FDA0003619115080000022
其中,b为偏置值,f(z)为模型输出值,t为样本真实值,(f(z)-t)为输出值与样本真实值t之间的误差;
S3.3.2,对α值进行迭代计算,如下:
Figure FDA0003619115080000023
d表示为梯度步长的学习率;
S3.3.3,当Loss的单调性不能保持时,停止迭代,得到α值;
S3.4,利用Adam方法对公式(1)进行优化求解,最后得到输入文本最终的意图标签和槽位标签序列。
CN201910795820.7A 2019-08-27 2019-08-27 一种基于多任务学习的意图与槽位联合识别方法 Active CN110532355B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910795820.7A CN110532355B (zh) 2019-08-27 2019-08-27 一种基于多任务学习的意图与槽位联合识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910795820.7A CN110532355B (zh) 2019-08-27 2019-08-27 一种基于多任务学习的意图与槽位联合识别方法

Publications (2)

Publication Number Publication Date
CN110532355A CN110532355A (zh) 2019-12-03
CN110532355B true CN110532355B (zh) 2022-07-01

Family

ID=68664514

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910795820.7A Active CN110532355B (zh) 2019-08-27 2019-08-27 一种基于多任务学习的意图与槽位联合识别方法

Country Status (1)

Country Link
CN (1) CN110532355B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110990576B (zh) * 2019-12-24 2023-06-16 用友网络科技股份有限公司 基于主动学习的意图分类方法、计算机设备和存储介质
CN111143561B (zh) * 2019-12-26 2023-04-07 北京百度网讯科技有限公司 意图识别模型训练方法、装置及电子设备
CN111222323B (zh) * 2019-12-30 2024-05-03 深圳市优必选科技股份有限公司 一种词槽抽取方法、词槽抽取装置及电子设备
CN111309915B (zh) * 2020-03-03 2022-09-13 爱驰汽车有限公司 联合学习的自然语言训练方法、系统、设备及存储介质
CN111462752B (zh) * 2020-04-01 2023-10-13 北京思特奇信息技术股份有限公司 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法
CN111401310B (zh) * 2020-04-08 2023-08-29 天津中科智能识别产业技术研究院有限公司 基于人工智能的厨房卫生安全监督管理方法
CN113779975B (zh) * 2020-06-10 2024-03-01 北京猎户星空科技有限公司 一种语义识别方法、装置、设备及介质
CN111767384A (zh) * 2020-07-08 2020-10-13 上海风秩科技有限公司 人机对话的处理方法、装置、设备及存储介质
CN112183061B (zh) * 2020-09-28 2024-03-01 云知声智能科技股份有限公司 一种多意图口语理解方法、电子设备和存储介质
CN112800190B (zh) * 2020-11-11 2022-06-10 重庆邮电大学 基于Bert模型的意图识别与槽值填充联合预测方法
CN112489639A (zh) * 2020-11-26 2021-03-12 北京百度网讯科技有限公司 音频信号处理方法及装置、系统、电子设备、可读介质
CN112417894B (zh) * 2020-12-10 2023-04-07 上海方立数码科技有限公司 一种基于多任务学习的对话意图识别方法及识别系统
CN112613308B (zh) * 2020-12-17 2023-07-25 中国平安人寿保险股份有限公司 用户意图识别方法、装置、终端设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109785833A (zh) * 2019-01-02 2019-05-21 苏宁易购集团股份有限公司 用于智能设备的人机交互语音识别方法及系统
CN109901896A (zh) * 2018-12-06 2019-06-18 华为技术有限公司 一种人机交互系统及人机交互系统中多任务处理方法
CN110168535A (zh) * 2017-10-31 2019-08-23 腾讯科技(深圳)有限公司 一种信息处理方法及终端、计算机存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10431207B2 (en) * 2018-02-06 2019-10-01 Robert Bosch Gmbh Methods and systems for intent detection and slot filling in spoken dialogue systems

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110168535A (zh) * 2017-10-31 2019-08-23 腾讯科技(深圳)有限公司 一种信息处理方法及终端、计算机存储介质
CN109901896A (zh) * 2018-12-06 2019-06-18 华为技术有限公司 一种人机交互系统及人机交互系统中多任务处理方法
CN109785833A (zh) * 2019-01-02 2019-05-21 苏宁易购集团股份有限公司 用于智能设备的人机交互语音识别方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于双层注意力和Bi-LSTM 的公共安全事件微博情感分析;曾子明、万品玉;《情报科学》;20190630;全文 *
基于深度学习的领域问答系统的设计与实现;胡婕、陶宏才;《成都信息工程大学学报》;20190630;全文 *

Also Published As

Publication number Publication date
CN110532355A (zh) 2019-12-03

Similar Documents

Publication Publication Date Title
CN110532355B (zh) 一种基于多任务学习的意图与槽位联合识别方法
US11194972B1 (en) Semantic sentiment analysis method fusing in-depth features and time sequence models
CN108460013B (zh) 一种基于细粒度词表示模型的序列标注模型及方法
CN106919646B (zh) 中文文本摘要生成系统及方法
WO2018218705A1 (zh) 一种基于神经网络概率消歧的网络文本命名实体识别方法
Alwehaibi et al. Comparison of pre-trained word vectors for arabic text classification using deep learning approach
CN110968660B (zh) 基于联合训练模型的信息抽取方法和系统
CN110781663B (zh) 文本分析模型的训练方法及装置、文本分析方法及装置
CN107346340A (zh) 一种用户意图识别方法及系统
CN110263325A (zh) 中文分词系统
CN111368544A (zh) 命名实体识别方法及装置
CN114676255A (zh) 文本处理方法、装置、设备、存储介质及计算机程序产品
Dethlefs Domain transfer for deep natural language generation from abstract meaning representations
CN113178193A (zh) 一种基于智能语音芯片的中文自定义唤醒与物联交互方法
CN111553157A (zh) 一种基于实体替换的对话意图识别方法
Jiang et al. RETRACTED ARTICLE: Intelligent online education system based on speech recognition with specialized analysis on quality of service
CN113326367B (zh) 基于端到端文本生成的任务型对话方法和系统
CN110196963A (zh) 模型生成、语义识别的方法、系统、设备及存储介质
CN115374789A (zh) 基于预训练模型bert的多粒度融合方面级情感分析方法
Fang et al. Using bidirectional LSTM with BERT for Chinese punctuation prediction
Xue et al. A method of chinese tourism named entity recognition based on bblc model
JP2022077202A (ja) 学習方法及び学習システム
CN111026848A (zh) 一种基于相似上下文和强化学习的中文词向量生成方法
CN115033695A (zh) 一种基于常识知识图谱的长对话情感检测方法及系统
Mounika et al. Automatic Correction of Speech Recognized Mathematical Equations using Encoder-Decoder Attention Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant