CN112800239A - 意图识别模型训练方法、意图识别方法及装置 - Google Patents

意图识别模型训练方法、意图识别方法及装置 Download PDF

Info

Publication number
CN112800239A
CN112800239A CN202110085821.XA CN202110085821A CN112800239A CN 112800239 A CN112800239 A CN 112800239A CN 202110085821 A CN202110085821 A CN 202110085821A CN 112800239 A CN112800239 A CN 112800239A
Authority
CN
China
Prior art keywords
text
recognized
tree
matrix
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110085821.XA
Other languages
English (en)
Other versions
CN112800239B (zh
Inventor
蒋菱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Citic Bank Corp Ltd
Original Assignee
China Citic Bank Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Citic Bank Corp Ltd filed Critical China Citic Bank Corp Ltd
Priority to CN202110085821.XA priority Critical patent/CN112800239B/zh
Publication of CN112800239A publication Critical patent/CN112800239A/zh
Application granted granted Critical
Publication of CN112800239B publication Critical patent/CN112800239B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Abstract

本申请提供了一种意图识别模型训练方法、意图识别方法及装置,应用于自然语言处理技术领域,其中该方法包括:将知识图谱信息引入意图识别训练过程,用较小的代价使模型在fine‑tune的过程中学习到专业领域的知识,降低训练成本的同时,不仅增加了模型的知识维度,还增加了模型的可解释性;此外,用拉普拉斯算子取代softmax分类,进一步拉大了不相关句子之间的距离,缩短了相似句子之间的距离,这样,对于人工标注“A‑B”、“A‑C”和“D‑F”,有相同标注的两句话“A‑C”和“A‑B”之间的相似度被人为拉近,和“D‑F”的距离则人为拉远,这样,既增加了人工标注的利用率,同时,也使得训练结果也更加准确。

Description

意图识别模型训练方法、意图识别方法及装置
技术领域
本申请涉及自然语言处理技术领域,具体而言,本申请涉及一种意图 识别模型训练方法、意图识别方法及装置。
背景技术
意图识别算法,目前已广泛的应用于机器人对话各个领域,用以判断用 户的想法和诉求。意图识别算法一般做法是通过分类的方法将句子或者我们 常说的语句队列分配到相应的意图种类,得到和用户表达最相近的意图类别, 例如,目前比较火热的问答机器人,假设某个机器人可以解决30个不计算用 户向机器人发来的每一个语句队列与可以解决的问题的匹配程度,同种类的 问题,意图识别的做法则是分别找出机器人可以解决的问题和用户问题之间 最为匹配的一个或几个,例如目前火热的基于预训练模型的意图识别方法 bert。意图识别最大的难点在于标注数据的获取与利用,目前标注数据的获 取主要来自两个方面,一个是专业数据团队对数据进行标注,一个实通过半 监督学习的方式自动生成标注,而对于标注的利用,目前的算法主要区分了 数据的特异性,例如星巴克和starbucks代表同一个意思,只要指定数据, 这种识别就可以很轻易的完成。
但是,现实中,获取的数据除了特异性,还有一些共性数据,例如领域 特征信息:举个例子,“错误信息提示-mismatched input...,expecting...” 和“错误信息提示-query failed...,division by zero”,这两个标准问, 或者说两个类别,其中“错误信息提示”是标注者特意标注的领域信息,目 的是希望当用户输入“错误信息提示”时候,按概率大小,可以同时返回两 个标准问,而目前的主流算法,则会把标准问中“错误信息提示”当做噪音, 把这段话作为语料加入训练模型,例如bert模型,则这个人为标注的知识则 会与主流预训练模型的知识融合,导致实际输出结果偏离其正确的意思,“错 误信息提示”这段信息,反而会影响输出结果,这种情况,往往就造成了大 量的标注浪费。
此外,现实中往往会遇到一些专业领域的信息,例如,“进件”这个词, 在信用卡领域表示给用户发放信用卡,而只从字面上理解则表示收入某件东 西,而目前主流的预训练模型,用了大量的通用信息来训练,在使用预训练 模型来预测的时候,专业领域信息往往会被通用信息覆盖,导致预测效果不 准确。
发明内容
本申请提供了一种意图识别模型训练方法、意图识别方法及装置,能 够提升意图识别的准确性,本申请采用的技术方案如下:
第一方面,提供了一种意图识别模型训练方法,包括:
将样本文本与目标知识图谱关联,得到树状结构文本;
确定所述树状结构文本的可视化矩阵,所述可视化矩阵用于表示树状 结构文本中两个词之间是否可见;
基于多个所述树状结构文本和所述可视化矩阵通过Mask-Transformer 网络分别提取样本特征,所述Mask-Transformer在Transformer中间增加 可见表达M;
基于提取到的多个样本特征,通过最小化目标函数训练意图识别模 型。
可选地,所述最小化目标函数为:
Figure BDA0002910768270000031
其中
Figure BDA0002910768270000032
中Y为提取得到的样本特征,而Y'则为需要的样本特征 的形式,
Figure BDA0002910768270000033
为矩阵的frobenius范数,Y和Y'拥有相同的维度;其中
Figure BDA0002910768270000034
为拉普拉斯项的矩阵形式,用于使得特征编码Y保持输入特征原始空间的 数据关系。
可选地,所述Mask-Transformer在Transformer中间增加可见表达M, 包括:
多头注意力的更新如下:
Qi+1,Ki+1,Vi+1=hiWq,hiWk,hiWv
Figure BDA0002910768270000035
hi+1=Si+1Vi+1
其中,Wq、Wh和Wv为可训练参数,hi为mask-attention层中第i个输出, dk为归一化参数,M为可视矩阵。
第二方面,提供了一种意图识别方法,包括:
将待识别文本与目标知识图谱关联,得到待识别文本的树状结构文本;
确定待识别文本的树状结构文本的可视化矩阵;
基于所述待识别文本的树状结构文本以及可视化矩阵通过根据实施例一 所示的任一项训练的意图识别模型确定所述待识别文本对应的意图。
可选地,所述将待识别文本与目标知识图谱关联,得到待识别文本的树 状结构文本,包括:
基于所述待识别文本从多个知识图谱中确定与其对应的目标知识图谱。
可选地,所述基于所述待识别文本从多个知识图谱中确定与其对应的目 标知识图谱,包括:
基于所述待识别文本的通过预训练的文本分类模型确定所述待识别文本 对应的领域;
基于识别确定的待识别文本对应的领域从多个知识图谱中确定与其对应 的目标知识图谱。
第三方面,提供了一种意图识别模型训练装置,包括:
第一关联模块,用于将样本文7本与目标知识图谱关联,得到树状结 构文本;
第一确定模块,用于确定所述树状结构文本的可视化矩阵,所述可视 化矩阵用于表示树状结构文本中两个词之间是否可见;
提取模块,用于基于多个所述树状结构文本和所述可视化矩阵通过 Mask-Transformer网络分别提取样本特征,所述Mask-Transformer在 Transformer中间增加可见表达M;
训练模块,用于基于提取到的多个样本特征,通过最小化目标函数训 练意图识别模型。
可选地,所述最小化目标函数为:
Figure BDA0002910768270000041
其中
Figure BDA0002910768270000042
中Y为提取得到的样本特征,而Y'则为需要的样本特征 的形式,
Figure BDA0002910768270000043
为矩阵的frobenius范数,Y和Y'拥有相同的维度;其中
Figure BDA0002910768270000044
为拉普拉斯项的矩阵形式,用于使得特征编码Y保持输入特征原始空间的 数据关系。
可选地,所述Mask-Transformer在Transformer中间增加可见表达M, 包括:
多头注意力的更新如下:
Qi+1,Ki+1,Vi+1=hiWq,hiWk,hiWv
Figure BDA0002910768270000051
hi+1=Si+1Vi+1
其中,Wq、Wh和Wv为可训练参数,hi为mask-attention层中第i个输出, dk为归一化参数,M为可视矩阵。
第四方面,提供了一种意图识别装置,包括:
第二关联模块,用于将待识别文本与目标知识图谱关联,得到待识别文 本的树状结构文本;
第二确定模块,用于确定待识别文本的树状结构文本的可视化矩阵;
第三确定模块,用于基于所述待识别文本的树状结构文本以及可视化矩 阵通过根据权利要求1-3任一项训练的意图识别模型确定所述待识别文本对 应的意图。
可选地,所述第二关联模块,具体用于基于所述待识别文本从多个知识 图谱中确定与其对应的目标知识图谱。
可选地,所述第二关联模块,具体用于基于所述待识别文本的通过预训 练的文本分类模型确定所述待识别文本对应的领域;以及用于基于识别确定 的待识别文本对应的领域从多个知识图谱中确定与其对应的目标知识图谱。
第五方面,提供了一种电子设备,该电子设备包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中一个或多个应用程序被存储在存储器中并 被配置为由一个或多个处理器执行,一个或多个程序配置用于:执行第一 方面和/或第二方面所示的方法。
第六方面,提供了一种计算机可读存储介质,计算机存储介质用于存 储计算机指令,当其在计算机上运行时,使得计算机可以执行第一方面和 /或第二方面所示的方法。
本申请将知识图谱信息引入意图识别训练过程,用较小的代价使模型 在fine-tune的过程中学习到专业领域的知识,降低训练成本的同时,不仅 增加了模型的知识维度,还增加了模型的可解释性;此外,用拉普拉斯算 子取代softmax分类,进一步拉大了不相关句子之间的距离,缩短了相似 句子之间的距离,这样,对于人工标注“A-B”、“A-C”和“D-F”,有相 同标注的两句话“A-C”和“A-B”之间的相似度被人为拉近,和“D-F” 的距离则人为拉远,这样,既增加了人工标注的利用率,同时,也使得训 练结果也更加准确。
本申请附加的方面和优点将在下面的描述中部分给出,这些将从下面 的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描 述中将变得明显和容易理解,其中:
图1为本申请实施例的一种意图识别模型训练方法的流程示意图;
图2为本申请实施例的一种意图识别方法的流程示意图;
图3为本申请实施例的一种意图识别模型训练装置的结构示意图;
图4为本申请实施例的一种电子设备的结构示意图;
图5为本申请实施例的一种意图识别装置的结构示意图;
图6为本申请实施例特征提取的流程示例图;
图7为本申请实施例的树状结构文本示例图。
具体实施方式
下面详细描述本申请的实施例,各实施例的示例在附图中示出,其中 自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功 能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申 请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式 “一”、“一个”和“该”也可包括复数形式。应该进一步理解的是,本 申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、 元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、 步骤、操作、元件、组件和/或它们的组。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本 申请实施方式作进一步地详细描述。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如 何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结 合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将 结合附图,对本申请的实施例进行描述。
实施例一
如图1所示,本申请实施例提供了一种一种意图识别模型训练方法, 包括:
步骤S101,将样本文本与目标知识图谱关联,得到树状结构文本;具 体地,样本文本可以是用户输入的文本,也可以是通过语音识别对语音进 行识别得到的文本,具体地,知识图谱可以对应的有多个,不同的领域对 应一个知识图谱;知识图谱也可以为一个通用知识图谱。
步骤S102,确定所述树状结构文本的可视化矩阵,所述可视化矩阵用 于表示树状结构文本中两个词之间是否可见;
步骤S103,基于多个所述树状结构文本和所述可视化矩阵通过 Mask-Transformer网络分别提取样本特征,所述Mask-Transformer在 Transformer中间增加可见表达M;
步骤S104,基于提取到的多个样本特征,通过最小化目标函数训练意 图识别模型。
可选地,所述最小化目标函数为:
Figure BDA0002910768270000081
其中
Figure BDA0002910768270000082
中Y为提取得到的样本特征,而Y'则为需要的样本特征 的形式,
Figure BDA0002910768270000083
为矩阵的frobenius范数,Y和Y'拥有相同的维度;其中
Figure BDA0002910768270000084
为拉普拉斯项的矩阵形式,用于使得特征编码Y保持输入特征原始空间的 数据关系。
可选地,所述Mask-Transformer在Transformer中间增加可见表达M, 包括:
多头注意力的更新如下:
Qi+1,Ki+1,Vi+1=hiWq,hiWk,hiWv
Figure BDA0002910768270000085
hi+1=Si+1Vi+1
其中,Wq、Wh和Wv为可训练参数,hi为mask-attention层中第i个输出, dk为归一化参数,M为可视矩阵。
示例性地,本申请实施例的一种实现方式,如图5所示,首先将知识 图谱与文字相互连结起来,获得树状结构(如图6所示),通过树状结构 生成相应的embeddingrepresentation的输入及对应的可视矩阵:
如当一个句子“怎么查看客服经理的进件数量”作为输入时,首先会 经过树状结构层,树状结构层将知识图谱中关联到的三元组信息,形成一 个拥有专业知识的知识树。得到的知识树由于无法用作传统的bert的表 达,因此,对于特定的知识树分别构造出对应的embedding表达和可视矩 阵,共同作为获取文本特征的输入。
其中,树状结构。首先,根据知识图谱信息,构造树状结构,构造树 状结构的目的是引入专业领域的信息,例如下面的一句话:怎么查看客服 经理的进件数量。将这句话与金融知识图谱对比,可以发现,进件这个词 属于金融领域知识图谱,用知识图谱对“进件”这个词进行扩展,则可得 到这句话的树状表达。
其中,embedding表达。在将句子输入预训练模型bert前,需要对输 入的每个文字进行编码。对没有融合领域知识的Bert算法按照顺寻对句子 进行编码,例如上面的例子:怎么查看客服经理的进件数量,则编码为: 怎(0)么(1)查(2)看(3)客(4)服(5)经(6)理(7)的(8)进 件(9)数(10)量(11),每个字的分量都是相等的,相应的顺序信息 则可以直接作为bert的输入。融合了领域知识的句子,则优先考虑领域知 识,则上面的句子会编码为:怎(0)么(1)查(2)看(3)客(4)服 (5)经(6)理(7)的(8)进件(9)代表(10)发卡(11)数(10)量(11)。
由于bert的训练过程中会带有位置信息,这样的编码方式则会出现相 同的位置编码信息,为了解决相同位置编码的问题,本发明引入了可视矩 阵。
其中,可视矩阵。生成可视矩阵的核心思想就是让一个词的词嵌入只 来源于其同一个枝干的上下文,而不同枝干的词之间相互不影响。对于一 个可见矩阵M,如果两个词之间相互可见则取值为0,相互不可见,取值 为负无穷,则:
Figure BDA0002910768270000101
可视矩阵与embedding表达一起,作为输入,后面将会采用Bert算法 得到文本特征。
如上面的例子:怎么查看客服经理的进件数量,“进件”这个词对整 段文字可见,“进件”在整段中第9个位置,则M9j均为0,“代表”和 “发卡”两个词只对“进件”这个词可见,因为“代表”在整段中第10 个位置,因此M10,9和M10,11为0,其他都为负无穷大,“发卡”在整段中第 11个位置,M11,9和M11,10为0,其他都为负无穷大,同时,还要注意,“数” 在整段中处于第12个位置,“量”在整段中处于第13个位置。
采用bert预训练模型得到文本特征。本发明采用将可视矩阵加入 transformer过程中,构成mask-transformer,来防止语义错误的发生, Mask-Transformer引入构造的可视矩阵,更改了普通transformer训练过程 中参数的更新方式,在transformer的过程中,多头的更新如下:
Qi+1,Ki+1,Vi+1=hiWq,hiWk,hiWv
Figure BDA0002910768270000102
hi+1=Si+1Vi+1
其中,Wq、Wh和Wv为可训练参数,hi为mask-attention层中第i个输出, dk为归一化参数,M为可视矩阵,模型在fine-tuning过程中,会不断的调 整Wq、Wh和Wv,本文采用的mask-transformer,在传统的transformer中间增 加了可见表达M,如果两个字之间相互不可见,它们之间的影响系数Sij就会是0,也就使这两个词的隐藏状态h之间没有任何影响。这样,就 把句子树中的结构信息输入给BERT了。通过12层transformer的结构, 就可以进行特征生成的任务了。
其中,特征生成,BERT模型在生成特征的时候,除了采用上文提到 的mask-transformer,同时,还可以随机替换一些句子,利用上一句进行 isNext/notNext的预测。通过这两项任务,使用大规模无标注语料进行优 化,最后得到预训练好的BERT模型。本文模型以Google Bert Multilingual 预训练模型为基础,包括12-layers,768-hiddensize,12-heads,约1亿参 数。模型生成特征的过程如下所示,将带特定知识图谱信息的文字输入12 层attention_layer,然后通过全连接层获取特征,进行分类任务。
具体地,通过如下最小化目标函数,对网络进行训练
Figure BDA0002910768270000111
其中,距离关系,目标函数的第一项
Figure BDA0002910768270000112
中,Y为经过bert算法12 层网络所得到的特征,而Y'则为我们需要的特征的形式,
Figure BDA0002910768270000113
为矩阵的 frobenius范数,Y和Y'拥有相同的维度,函数的第一项所表达的意义为,通 过多层非线性变换得到的特征编码Y',与Y的形式尽量一致。而Y的形式则 由目标函数的第二项
Figure BDA0002910768270000114
相似度关系,目标函数的第二项主要是为了让特征编码Y保持输入特征 原始空间的数据关系,使得X中距离较近的xi和xj,在特征空间中的距离仍然 较近,而本文引入了拉普拉斯项来达到这个目的。而目标函数的第二项正是 拉普拉斯项的矩阵形式。拉普拉斯项的非矩阵形式的表达为:
Figure BDA0002910768270000121
其中,Wij衡量在特征原始空间中xi与xj之间的相似程度。这里,我们采 用热核距离,则
Figure BDA0002910768270000122
其中,Wij为对称矩阵,而我们知道,Y=[y1;y2;…;yN],令Dii=∑jWij,展开上面的公式,可以得到:
Figure BDA0002910768270000123
其中,L=D-W,称为拉普拉斯矩阵。因此,在构造Eg之前,首先需要 计算在输入集中两两元素之间的热核距离。然后根据Dii=∑jWij计算矩阵D, 最后,根据L=D-W构造拉普拉斯矩阵。目标函数第二项的重要性由α的 取值决定。
本发明主要将知识图谱和拉普拉斯算子加入了预训练模型bert,加入知 识图谱的目的是用较小的代价使模型具有专业领域的知识,降低多领域知识 因发生知识融合导致识别效果不准确的概率,加入知识图谱,可在不需要改 变预训练模型的情况下,使得模型偏向专业领域知识的识别;用拉普拉斯算 子取代softmax分类,充分发挥了人为标注知识的作用,使得人为标注的相 似信息在高维空间中更加接近,人为标注的非相似信息在高维空间中距离被 拉大,从而达到增加识别准确率的目的。
实施例二
图2为本申请实施例提供了的一种意图识别方法的流程示例图,如图2 所示,该方法包括:
步骤S201,将待识别文本与目标知识图谱关联,得到待识别文本的树状 结构文本;
步骤S202,确定待识别文本的树状结构文本的可视化矩阵;
步骤S203,基于所述待识别文本的树状结构文本以及可视化矩阵通过根 据第一方面所示的任一项训练的意图识别模型确定所述待识别文本对应的意 图。
可选地,所述将待识别文本与目标知识图谱关联,得到待识别文本的树 状结构文本,包括:
基于所述待识别文本从多个知识图谱中确定与其对应的目标知识图谱。
可选地,所述基于所述待识别文本从多个知识图谱中确定与其对应的目 标知识图谱,包括:
基于所述待识别文本的通过预训练的文本分类模型确定所述待识别文本 对应的领域;
基于识别确定的待识别文本对应的领域从多个知识图谱中确定与其对应 的目标知识图谱。
实施例三
图3为本申请实施例提供的一种意图识别模型训练装置,该装置30 包括:
第一关联模块301,用于将样本文7本与目标知识图谱关联,得到树 状结构文本;
第一确定模块302,用于确定所述树状结构文本的可视化矩阵,所述 可视化矩阵用于表示树状结构文本中两个词之间是否可见;
提取模块303,用于基于多个所述树状结构文本和所述可视化矩阵通 过Mask-Transformer网络分别提取样本特征,所述Mask-Transformer在 Transformer中间增加可见表达M;
训练模块304,用于基于提取到的多个样本特征,通过最小化目标函 数训练意图识别模型。
可选地,所述最小化目标函数为:
Figure BDA0002910768270000141
其中
Figure BDA0002910768270000142
中Y为提取得到的样本特征,而Y'则为需要的样本特征 的形式,
Figure BDA0002910768270000143
为矩阵的frobenius范数,Y和Y'拥有相同的维度;其中
Figure BDA0002910768270000144
为拉普拉斯项的矩阵形式,用于使得特征编码Y保持输入特征原始空间的 数据关系。
可选地,所述Mask-Transformer在Transformer中间增加可见表达M, 包括:
多头注意力的更新如下:
Qi+1,Ki+1,Vi+1=hiWq,hiWk,hiWv
Figure BDA0002910768270000145
hi+1=Si+1Vi+1
其中,Wq、Wh和Wv为可训练参数,hi为mask-attention层中第i个输出, dk为归一化参数,M为可视矩阵。
本申请实施例的装置可以执行本申请实施例一所示的方法,其实现的 效果类似,在此不再赘述。
实施例四
如图5所示,本申请实施例提供了一种意图识别装置,该装置50包括:
第二关联模块501,用于将待识别文本与目标知识图谱关联,得到待识 别文本的树状结构文本;
第二确定模块502,用于确定待识别文本的树状结构文本的可视化矩阵;
第三确定模块503,用于基于所述待识别文本的树状结构文本以及可视 化矩阵通过根据实施例一任一项训练的意图识别模型确定所述待识别文本对 应的意图。
可选地,所述第二关联模块,具体用于基于所述待识别文本从多个知识 图谱中确定与其对应的目标知识图谱。
可选地,所述第二关联模块,具体用于基于所述待识别文本的通过预训 练的文本分类模型确定所述待识别文本对应的领域;以及用于基于识别确定 的待识别文本对应的领域从多个知识图谱中确定与其对应的目标知识图谱。
本申请实施例的装置可以执行本申请实施例二所示的方法,其实现的 效果类似,在此不再赘述。
实施例五
本申请实施例提供了一种电子设备,如图4所示,图4所示的电子设 备40包括:处理器401和存储器403。其中,处理器401和存储器403相 连,如通过总线402相连。进一步地,电子设备40还可以包括收发器404。 需要说明的是,实际应用中收发器404不限于一个,该电子设备40的结 构并不构成对本申请实施例的限定。其中,处理器401应用于本申请实施例中,用于实现图2所示的模块的功能。收发器404包括接收机和发射机。
处理器401可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他 可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实 现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电 路。处理器401也可以是实现计算功能的组合,例如包含一个或多个微处 理器组合,DSP和微处理器的组合等。
总线402可包括一通路,在上述组件之间传送信息。总线402可以是 PCI总线或EISA总线等。总线402可以分为地址总线、数据总线、控制 总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总 线或一种类型的总线。
存储器403可以是ROM或可存储静态信息和指令的其他类型的静态 存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也 可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、 激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁 存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程 序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器403用于存储执行本申请方案的应用程序代码,并由处理器401 来控制执行。处理器401用于执行存储器403中存储的应用程序代码,以 实现图3或图5所示实施例提供的装置的功能。
本申请实施例提供了一种电子设备适用于上述方法实施例,具体实现 方式和技术效果,在此不再赘述。
实施例六
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介 质上存储有计算机程序,该程序被处理器执行时实现上述实施例中所示的 信用卡验签方法。
本申请实施例提供了一种计算机可读存储介质适用于上述方法实施 例,具体实现方式和技术效果,在此不再赘述。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次 显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文 中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他 的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步 骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成, 而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替 地执行。
以上仅是本申请的部分实施方式,应当指出,对于本技术领域的普通 技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润 饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种意图识别模型训练方法,其特征在于,包括:
将样本文本与目标知识图谱关联,得到树状结构文本;
确定所述树状结构文本的可视化矩阵,所述可视化矩阵用于表示树状结构文本中两个词之间是否可见;
基于多个所述树状结构文本和所述可视化矩阵通过Mask-Transformer网络分别提取样本特征,所述Mask-Transformer在Transformer中间增加可见表达M;
基于提取到的多个样本特征,通过最小化目标函数训练意图识别模型。
2.根据权利要求1所述的方法,其特征在于,所述最小化目标函数为:
Figure FDA0002910768260000011
其中
Figure FDA0002910768260000012
中Y为提取得到的样本特征,而Y'则为需要的样本特征的形式,
Figure FDA0002910768260000013
为矩阵的frobenius范数,Y和Y'拥有相同的维度;其中
Figure FDA0002910768260000014
为拉普拉斯项的矩阵形式,用于使得特征编码Y保持输入特征原始空间的数据关系。
3.根据权利要求1所述的方法,其特征在于,所述Mask-Transformer在Transformer中间增加可见表达M,包括:
多头注意力的更新如下:
Qi+1,Ki+1,Vi+1=hiWq,hiWk,hiWv
Figure FDA0002910768260000021
hi+1=Si+1Vi+1
其中,Wq、Wh和Wv为可训练参数,hi为mask-attention层中第i个输出,dk为归一化参数,M为可视矩阵。
4.一种意图识别方法,其特征在于,包括:
将待识别文本与目标知识图谱关联,得到待识别文本的树状结构文本;
确定待识别文本的树状结构文本的可视化矩阵;
基于所述待识别文本的树状结构文本以及可视化矩阵通过根据权利要求1-3任一项训练的意图识别模型确定所述待识别文本对应的意图。
5.根据权利要求4所述的方法,其特征在于,所述将待识别文本与目标知识图谱关联,得到待识别文本的树状结构文本,包括:
基于所述待识别文本从多个知识图谱中确定与其对应的目标知识图谱。
6.根据权利要求5所述的方法,其特征在于,所述基于所述待识别文本从多个知识图谱中确定与其对应的目标知识图谱,包括:
基于所述待识别文本的通过预训练的文本分类模型确定所述待识别文本对应的领域;
基于识别确定的待识别文本对应的领域从多个知识图谱中确定与其对应的目标知识图谱。
7.一种意图识别模型训练装置,其特征在于,包括:
第一关联模块,用于将样本文7本与目标知识图谱关联,得到树状结构文本;
第一确定模块,用于确定所述树状结构文本的可视化矩阵,所述可视化矩阵用于表示树状结构文本中两个词之间是否可见;
提取模块,用于基于多个所述树状结构文本和所述可视化矩阵通过Mask-Transformer网络分别提取样本特征,所述Mask-Transformer在Transformer中间增加可见表达M;
训练模块,用于基于提取到的多个样本特征,通过最小化目标函数训练意图识别模型。
8.一种意图识别装置,其特征在于,包括:
第二关联模块,用于将待识别文本与目标知识图谱关联,得到待识别文本的树状结构文本;
第二确定模块,用于确定待识别文本的树状结构文本的可视化矩阵;
第三确定模块,用于基于所述待识别文本的树状结构文本以及可视化矩阵通过根据权利要求1-3任一项训练的意图识别模型确定所述待识别文本对应的意图。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于:执行根据权利要求1至6任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机存储介质用于存储计算机指令,当其在计算机上运行时,使得计算机可以执行上述权利要求1至6中任一项所述的方法。
CN202110085821.XA 2021-01-22 2021-01-22 意图识别模型训练方法、意图识别方法及装置 Active CN112800239B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110085821.XA CN112800239B (zh) 2021-01-22 2021-01-22 意图识别模型训练方法、意图识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110085821.XA CN112800239B (zh) 2021-01-22 2021-01-22 意图识别模型训练方法、意图识别方法及装置

Publications (2)

Publication Number Publication Date
CN112800239A true CN112800239A (zh) 2021-05-14
CN112800239B CN112800239B (zh) 2024-04-12

Family

ID=75811167

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110085821.XA Active CN112800239B (zh) 2021-01-22 2021-01-22 意图识别模型训练方法、意图识别方法及装置

Country Status (1)

Country Link
CN (1) CN112800239B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113139063A (zh) * 2021-06-21 2021-07-20 平安科技(深圳)有限公司 意图识别方法、装置、设备及存储介质
CN113672715A (zh) * 2021-08-20 2021-11-19 上海大参林医疗健康科技有限公司 一种意图识别系统及方法
CN114330339A (zh) * 2022-03-03 2022-04-12 阿里巴巴(中国)有限公司 文本处理方法、计算机可读存储介质及计算机设备
CN114860905A (zh) * 2022-04-24 2022-08-05 支付宝(杭州)信息技术有限公司 意图识别方法、装置及设备
CN116188392A (zh) * 2022-12-30 2023-05-30 阿里巴巴(中国)有限公司 图像处理方法、计算机可读存储介质以及计算机终端

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108875051A (zh) * 2018-06-28 2018-11-23 中译语通科技股份有限公司 面向海量非结构化文本的知识图谱自动构建方法及系统
CN110334219A (zh) * 2019-07-12 2019-10-15 电子科技大学 基于注意力机制融入文本语义特征的知识图谱表示学习方法
CN110929029A (zh) * 2019-11-04 2020-03-27 中国科学院信息工程研究所 一种基于图卷积神经网络的文本分类方法及系统
CN111061843A (zh) * 2019-12-26 2020-04-24 武汉大学 一种知识图谱引导的假新闻检测方法
CN111259625A (zh) * 2020-01-16 2020-06-09 平安科技(深圳)有限公司 意图识别方法、装置、设备及计算机可读存储介质
WO2020143844A1 (zh) * 2019-01-10 2020-07-16 深圳Tcl新技术有限公司 意图分析方法、装置、显示终端及计算机可读存储介质
CN111444305A (zh) * 2020-03-19 2020-07-24 浙江大学 一种基于知识图谱嵌入的多三元组联合抽取方法
CN112101152A (zh) * 2020-09-01 2020-12-18 西安电子科技大学 一种脑电情感识别方法、系统、计算机设备、可穿戴设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108875051A (zh) * 2018-06-28 2018-11-23 中译语通科技股份有限公司 面向海量非结构化文本的知识图谱自动构建方法及系统
WO2020143844A1 (zh) * 2019-01-10 2020-07-16 深圳Tcl新技术有限公司 意图分析方法、装置、显示终端及计算机可读存储介质
CN110334219A (zh) * 2019-07-12 2019-10-15 电子科技大学 基于注意力机制融入文本语义特征的知识图谱表示学习方法
CN110929029A (zh) * 2019-11-04 2020-03-27 中国科学院信息工程研究所 一种基于图卷积神经网络的文本分类方法及系统
CN111061843A (zh) * 2019-12-26 2020-04-24 武汉大学 一种知识图谱引导的假新闻检测方法
CN111259625A (zh) * 2020-01-16 2020-06-09 平安科技(深圳)有限公司 意图识别方法、装置、设备及计算机可读存储介质
CN111444305A (zh) * 2020-03-19 2020-07-24 浙江大学 一种基于知识图谱嵌入的多三元组联合抽取方法
CN112101152A (zh) * 2020-09-01 2020-12-18 西安电子科技大学 一种脑电情感识别方法、系统、计算机设备、可穿戴设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴俊峰;姜志国;张浩鹏;蔡博文;罗鹏浩;: "半监督条件随机场的高光谱遥感图像分类", 遥感学报, no. 04, 25 July 2017 (2017-07-25) *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113139063A (zh) * 2021-06-21 2021-07-20 平安科技(深圳)有限公司 意图识别方法、装置、设备及存储介质
CN113139063B (zh) * 2021-06-21 2021-09-14 平安科技(深圳)有限公司 意图识别方法、装置、设备及存储介质
CN113672715A (zh) * 2021-08-20 2021-11-19 上海大参林医疗健康科技有限公司 一种意图识别系统及方法
CN114330339A (zh) * 2022-03-03 2022-04-12 阿里巴巴(中国)有限公司 文本处理方法、计算机可读存储介质及计算机设备
CN114330339B (zh) * 2022-03-03 2022-06-24 阿里巴巴(中国)有限公司 文本处理方法、计算机可读存储介质及计算机设备
CN114860905A (zh) * 2022-04-24 2022-08-05 支付宝(杭州)信息技术有限公司 意图识别方法、装置及设备
CN116188392A (zh) * 2022-12-30 2023-05-30 阿里巴巴(中国)有限公司 图像处理方法、计算机可读存储介质以及计算机终端

Also Published As

Publication number Publication date
CN112800239B (zh) 2024-04-12

Similar Documents

Publication Publication Date Title
CN112800239B (zh) 意图识别模型训练方法、意图识别方法及装置
CN111985239B (zh) 实体识别方法、装置、电子设备及存储介质
CN110532353B (zh) 基于深度学习的文本实体匹配方法、系统、装置
CN112711948B (zh) 一种中文句子的命名实体识别方法及装置
CN111723575A (zh) 识别文本的方法、装置、电子设备及介质
CN112926327B (zh) 一种实体识别方法、装置、设备及存储介质
CN111368049A (zh) 信息获取方法、装置、电子设备及计算机可读存储介质
CN112883732A (zh) 基于关联记忆网络的中文细粒度命名实体识别方法及装置
CN111581345A (zh) 一种文档级别的事件抽取方法和装置
CN110990555B (zh) 端到端检索式对话方法与系统及计算机设备
CN111723569A (zh) 一种事件抽取方法、装置和计算机可读存储介质
CN114580424B (zh) 一种用于法律文书的命名实体识别的标注方法和装置
CN116432655B (zh) 基于语用知识学习的少样本命名实体识别方法和装置
CN110991185A (zh) 一种文章中实体的属性抽取方法及装置
CN111651994B (zh) 一种信息抽取方法、装置、电子设备和存储介质
CN115759119B (zh) 一种金融文本情感分析方法、系统、介质和设备
CN111581346A (zh) 一种事件抽取方法和装置
CN114995903A (zh) 一种基于预训练语言模型的类别标签识别方法及装置
CN112699685A (zh) 基于标签引导的字词融合的命名实体识别方法
CN112613293A (zh) 摘要生成方法、装置、电子设备及存储介质
CN111666375A (zh) 文本相似度的匹配方法、电子设备和计算机可读介质
CN115600597A (zh) 基于注意力机制和词内语义融合的命名实体识别方法、装置、系统及存储介质
CN110287396A (zh) 文本匹配方法及装置
CN114881038A (zh) 基于跨度和注意力机制的中文实体与关系抽取方法及装置
CN110909546B (zh) 一种文本数据的处理方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant