CN113761106A - 一种强化自注意力的债券交易意图识别系统 - Google Patents

一种强化自注意力的债券交易意图识别系统 Download PDF

Info

Publication number
CN113761106A
CN113761106A CN202111048039.7A CN202111048039A CN113761106A CN 113761106 A CN113761106 A CN 113761106A CN 202111048039 A CN202111048039 A CN 202111048039A CN 113761106 A CN113761106 A CN 113761106A
Authority
CN
China
Prior art keywords
attention
self
coding
module
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111048039.7A
Other languages
English (en)
Other versions
CN113761106B (zh
Inventor
毛宇
周靖宇
陈桂敏
袁阳平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Kuaique Information Technology Co ltd
Original Assignee
Shanghai Kuaique Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Kuaique Information Technology Co ltd filed Critical Shanghai Kuaique Information Technology Co ltd
Priority to CN202111048039.7A priority Critical patent/CN113761106B/zh
Priority claimed from CN202111048039.7A external-priority patent/CN113761106B/zh
Publication of CN113761106A publication Critical patent/CN113761106A/zh
Application granted granted Critical
Publication of CN113761106B publication Critical patent/CN113761106B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Technology Law (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • Development Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)

Abstract

一种强化自注意力的债券交易意图识别系统,它涉及数据处理技术领域。它包括以下具体流程:构建一个知识库模块来存储预处理的关系库;在编码阶段利用预训练的encoding给文本一个初始化编码,并在后续连接一个self‑attention的自注意力模块,让模型学习文本中各个字词成分不同的权重;通过寻址在知识库存储记忆模块找到相关的词或字的关系作为先验知识加入到模型训练,引导神经网络学习更深层次结构关系;将提取的结果分别进行实体部分寻址编码以及标签寻址编码,然后结果同attention的输出进行加权,得到的embedding结果连接到全连接层输出结果。本发明有益效果为:实现了对金融债券交易信息的意图识别任务,在金融业务中达到98%以上的准确率,基本满足商用要求。

Description

一种强化自注意力的债券交易意图识别系统
技术领域
本发明涉及数据处理技术领域,具体涉及一种强化自注意力的债券交易意图识别系统。
背景技术
文本意图识别在深度学习领域已经是一个成熟的算法技术。它也成功的在各种业务场景应用落地。在金融的债券交易行业中,往往是需要精确且高效的沟通才能完成每笔订单的成交。因此通过文本意图识别的技术,对交易员的文本话术进行理解并解析,可以辅助他们更好更有效的沟通,从而提升他们的业务效率。
现有技术,文本意图识别的算法有很多种类,较为传统的深度学习算法有TextCNN、LSTM、GRU以及他们之间的组合模型等,这些模型通常在语意的深度理解上有一定的局限性。近年来比较流行的算法主要有BERT、GPT等预训练模型,这些算法通过预训练学习了海量的文本信息,能够大大提升模型对句子的表征能力,有效的提高了模型对文本的语义理解,但仍存在以下几点不足:
在金融债券交易等私有领域,有很多约定俗成的隐性逻辑,现有的技术(是按照通用的规范文本数据来训练的;往往不能很好理解和识别这种私有域的文本意图。首先是语法结构问题,交易文本大部分不是标准的含主谓宾结构的常规文本。如质押式回购中的押券信息交易文本:“押111796821 15南山集SCP001 6110W 74%810w”。不带标准的语法结构,基于通用的规范文本训练的模型很难理解这句话的意图。
其次是在意图识别任务中,经常将会出现一句话中,大部分文本为非重要文本,仅少量字符对整句意图起决定性的作用,一个字的差别即改变文本意图。如交易中的文本信息:【隔夜改押:111893544 16XX港SCP002】和【隔夜押111893544 16XX港SCP002】。两句话只差一个“改”字,但是两句话是不同的意图,第一句是“改券”意图,第二句是“押券”意图。
现有的深度学习算法和预训练模型,都无法很好地对这种类型的文本进行embedding,也很难学习训练泛化性较好的模型。采用收集大量基于业务领域的文本进行fine-tune训练的方案,则需要相当大的成本。
发明内容
本发明的目的在于针对现有技术中不足与缺点,提供一种强化自注意力的债券交易意图识别系统,实现了对金融债券交易信息的意图识别任务,在金融业务中达到98%以上的准确率,基本满足商用要求。
为实现上述目的,本发明采用以下技术方案是:一种强化自注意力的债券交易意图识别系统,它包括以下具体流程:构建一个知识库模块来存储预处理的关系库,针对债券交易的预料特点,主要存储债券要素和意图的关系信息;在编码阶段利用预训练的encoding给文本一个初始化编码,并在后续连接一个self-attention的自注意力模块,让模型学习文本中各个字词成分不同的权重;通过寻址在知识库存储记忆模块找到相关的词或字的关系作为先验知识加入到模型训练,引导神经网络学习更深层次结构关系;将提取的结果分别进行实体部分寻址编码以及标签寻址编码,然后结果同attention的输出进行加权,得到的embedding结果连接到全连接层输出结果。
进一步的,所述知识库存储编码模块具体包括以下流程:基于操作人员的梳理,建立关系知识库,包括并不限于[实体—意图]、[实体—类别]的要素关系对,同时构建数据存储装置,存储相应的关系信息;采用word2vec等预训练模型对关系对的信息进行编码,转化为固定维度的字和词向量;建立索引信息对,通过字符和词可以直接获取字符和对应意图/类别的向量编码。
进一步的,所述编码层模块具体包括以下流程:采用Bert的预训练模型对文本进行字符的特征编码,转化为固定维度的字向量;同时对文本进行字符和结合金融业务逻辑的分词切割,利用知识库存储编码模块获的索引信息对,获取字符和分词对应的字符/词编码和对应关系编码。
进一步的,所述自注意力层模块:采用已有的self-attention模块,为了模型能够学习token之间的权重分布,在得到文本encoding之后,连接一个self-attention网络,计算公式为:
Figure BDA0003251718760000031
其中query-key-value的值相等且都为输入的文本编码。
进一步的,所述知识编码和注意力的融合层模块:在没有大量训练数据的情况下,attention对关联词权重的学习能力是有限的;首先将编码层知识库存储编码模块获得的实体的字符和分词编码,得到的结果乘以一个可训练的随机初始化矩阵,得到的结果再与自注意力层attention的结果进行dot+softmax计算,得到一个相关性概率矩阵,用于增强attention对先验知识的训练学习,其次将知识库存储编码模块获得的实体对应关系的分词编码和相关性概率矩阵进行multiply计算,获得蕴含文本相关的先验知识的向量编码。
进一步的,所述输出层:用知识编码和注意力的融合层模块的向量输出与自注意力层模块的attention向量结果进行加权,即得到了包含相关先验知识的预训练句向量编码,并将结果连接dense层,得到模型意图识别的分类类别。
采用上述技术方案后,本发明有益效果为:实现了对金融债券交易信息的意图识别任务,在金融业务中达到98%以上的准确率,基本满足商用要求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的模型整体架构图。
具体实施方式
参看图1所示,本具体实施方式采用的技术方案是:它包括以下具体流程:构建一个知识库模块来存储预处理的关系库,针对债券交易的预料特点,主要存储债券要素和意图的关系信息;在编码阶段利用预训练的encoding给文本一个初始化编码,并在后续连接一个self-attention的自注意力模块,让模型学习文本中各个字词成分不同的权重;通过寻址在知识库存储记忆模块找到相关的词或字的关系作为先验知识加入到模型训练,引导神经网络学习更深层次结构关系;将提取的结果分别进行实体部分寻址编码以及标签寻址编码,然后结果同attention的输出进行加权,得到的embedding结果连接到全连接层输出结果。
进一步的,所述知识库存储编码模块具体包括以下流程:基于操作人员的梳理,建立关系知识库,包括并不限于[实体—意图]、[实体—类别]的要素关系对,同时构建数据存储装置,存储相应的关系信息;采用word2vec等预训练模型对关系对的信息进行编码,转化为固定维度的字和词向量;建立索引信息对,通过字符和词可以直接获取字符和对应意图/类别的向量编码。
进一步的,所述编码层模块具体包括以下流程:采用Bert的预训练模型对文本进行字符的特征编码,转化为固定维度的字向量;同时对文本进行字符和结合金融业务逻辑的分词切割,利用知识库存储编码模块获的索引信息对,获取字符和分词对应的字符/词编码和对应关系编码。
进一步的,所述自注意力层模块:采用已有的self-attention模块,为了模型能够学习token之间的权重分布,在得到文本encoding之后,连接一个self-attention网络,计算公式为:
Figure BDA0003251718760000051
其中query-key-value的值相等且都为输入的文本编码。
进一步的,所述知识编码和注意力的融合层模块:在没有大量训练数据的情况下,attention对关联词权重的学习能力是有限的;首先将编码层知识库存储编码模块获得的实体的字符和分词编码,得到的结果乘以一个可训练的随机初始化矩阵,得到的结果再与自注意力层attention的结果进行dot+softmax计算,得到一个相关性概率矩阵,用于增强attention对先验知识的训练学习,其次将知识库存储编码模块获得的实体对应关系的分词编码和相关性概率矩阵进行multiply计算,获得蕴含文本相关的先验知识的向量编码。
进一步的,所述输出层:用知识编码和注意力的融合层模块的向量输出与自注意力层模块的attention向量结果进行加权,即得到了包含相关先验知识的预训练句向量编码,并将结果连接dense层,得到模型意图识别的分类类别。
注:拓展技术特征及应用场景:
1.本系统采用的是bert预训练模型得到文本编码,可采用其他向量化的方式或未来更新的编码技术。
2.当前模型用于金融债券领域的意图识别任务,本方案可以扩展到其他的领域或者类似的实体项目中。
3.本系统提供的将经验知识表征为[字符—标签]的形式,并且采用字符编码和标签编码分段融合到attention的机制,能够自动学习文本间的词汇相关性,是基于预训练编码结合先验知识表征的一种联合编码方式,可在其他类似的算法任务上应用。
采用上述技术方案后,本发明有益效果为:实现了对金融债券交易信息的意图识别任务,在金融业务中达到98%以上的准确率,基本满足商用要求。
以上所述,仅用以说明本发明的技术方案而非限制,本领域普通技术人员对本发明的技术方案所做的其它修改或者等同替换,只要不脱离本发明技术方案的精神和范围,均应涵盖在本发明的权利要求范围当中。

Claims (6)

1.一种强化自注意力的债券交易意图识别系统,其特征在于:它包括以下具体流程:
1)构建一个知识库模块来存储预处理的关系库,针对债券交易的预料特点,主要存储债券要素和意图的关系信息;
2)在编码阶段利用预训练的encoding给文本一个初始化编码,并在后续连接一个self-attention的自注意力模块,让模型学习文本中各个字词成分不同的权重;
3)通过寻址在知识库存储记忆模块找到相关的词或字的关系作为先验知识加入到模型训练,引导神经网络学习更深层次结构关系;
4)将提取的结果分别进行实体部分寻址编码以及标签寻址编码,然后结果同attention的输出进行加权,得到的embedding结果连接到全连接层输出结果。
2.根据权利要求1所述的一种强化自注意力的债券交易意图识别系统,其特征在于:所述知识库存储编码模块具体包括以下流程:
1)基于操作人员的梳理,建立关系知识库;
2)采用word2vec等预训练模型对关系对的信息进行编码,转化为固定维度的字和词向量;
3)建立索引信息对,通过字符和词可以直接获取字符和对应意图/类别的向量编码。
3.根据权利要求1所述的一种强化自注意力的债券交易意图识别系统,其特征在于:所述编码层模块具体包括以下流程:
1)采用Bert的预训练模型对文本进行字符的特征编码,转化为固定维度的字向量;
2)同时对文本进行字符和结合金融业务逻辑的分词切割,利用知识库存储编码模块获的索引信息对,获取字符和分词对应的字符/词编码和对应关系编码。
4.根据权利要求1所述的一种强化自注意力的债券交易意图识别系统,其特征在于:所述自注意力层模块:采用已有的self-attention模块,为了模型能够学习token之间的权重分布,在得到文本encoding之后,连接一个self-attention网络,
计算公式为:
Figure FDA0003251718750000021
其中query-key-value的值相等且都为输入的文本编码。
5.根据权利要求1所述的一种强化自注意力的债券交易意图识别系统,其特征在于:所述知识编码和注意力的融合层模块:在没有大量训练数据的情况下,attention对关联词权重的学习能力是有限的;首先将编码层知识库存储编码模块获得的实体的字符和分词编码,得到的结果乘以一个可训练的随机初始化矩阵,得到的结果再与自注意力层attention的结果进行dot+softmax计算,得到一个相关性概率矩阵,用于增强attention对先验知识的训练学习,其次将知识库存储编码模块获得的实体对应关系的分词编码和相关性概率矩阵进行multiply计算,获得蕴含文本相关的先验知识的向量编码。
6.根据权利要求1所述的一种强化自注意力的债券交易意图识别系统,其特征在于:所述输出层:用知识编码和注意力的融合层模块的向量输出与自注意力层模块的attention向量结果进行加权,即得到了包含相关先验知识的预训练句向量编码,并将结果连接dense层,得到模型意图识别的分类类别。
CN202111048039.7A 2021-09-08 一种强化自注意力的债券交易意图识别系统 Active CN113761106B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111048039.7A CN113761106B (zh) 2021-09-08 一种强化自注意力的债券交易意图识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111048039.7A CN113761106B (zh) 2021-09-08 一种强化自注意力的债券交易意图识别系统

Publications (2)

Publication Number Publication Date
CN113761106A true CN113761106A (zh) 2021-12-07
CN113761106B CN113761106B (zh) 2024-06-04

Family

ID=

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115168593A (zh) * 2022-09-05 2022-10-11 深圳爱莫科技有限公司 一种可自我学习的智能对话管理系统、方法及处理设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110083692A (zh) * 2019-04-22 2019-08-02 齐鲁工业大学 一种金融知识问答的文本交互匹配方法及装置
CN111143550A (zh) * 2019-11-27 2020-05-12 浙江大学 一种基于层次注意力神经网络模型的争议焦点自动识别方法
CN111625641A (zh) * 2020-07-30 2020-09-04 浙江大学 一种基于多维度语义交互表征模型的对话意图识别方法及系统
US20210005195A1 (en) * 2019-07-01 2021-01-07 Koninklijke Philips N.V. Hierarchical self-attention for machine comprehension
CN113221567A (zh) * 2021-05-10 2021-08-06 北京航天情报与信息研究所 司法领域命名实体及关系联合抽取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110083692A (zh) * 2019-04-22 2019-08-02 齐鲁工业大学 一种金融知识问答的文本交互匹配方法及装置
US20210005195A1 (en) * 2019-07-01 2021-01-07 Koninklijke Philips N.V. Hierarchical self-attention for machine comprehension
CN111143550A (zh) * 2019-11-27 2020-05-12 浙江大学 一种基于层次注意力神经网络模型的争议焦点自动识别方法
CN111625641A (zh) * 2020-07-30 2020-09-04 浙江大学 一种基于多维度语义交互表征模型的对话意图识别方法及系统
CN113221567A (zh) * 2021-05-10 2021-08-06 北京航天情报与信息研究所 司法领域命名实体及关系联合抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘峰;高赛;于碧辉;郭放达;: "基于Multi-head Attention和Bi-LSTM的实体关系分类", 计算机系统应用, no. 06 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115168593A (zh) * 2022-09-05 2022-10-11 深圳爱莫科技有限公司 一种可自我学习的智能对话管理系统、方法及处理设备

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN111626063B (zh) 一种基于投影梯度下降和标签平滑的文本意图识别方法及系统
CN113158665B (zh) 一种基于文本摘要生成与双向语料改善对话文本生成的方法
CN110232439B (zh) 一种基于深度学习网络的意图识别方法
CN109918681B (zh) 一种基于汉字-拼音的融合问题语义匹配方法
US11908457B2 (en) Orthogonally constrained multi-head attention for speech tasks
CN112733866A (zh) 一种提高可控图像文本描述正确性的网络构建方法
CN115471851A (zh) 融合双重注意力机制的缅甸语图像文本识别方法及装置
CN111523420A (zh) 基于多任务深度神经网络的表头分类与表头列语义识别方法
CN111914553B (zh) 一种基于机器学习的金融信息负面主体判定的方法
CN115292463A (zh) 一种基于信息抽取的联合多意图检测和重叠槽填充的方法
CN116311323A (zh) 基于对比学习的预训练文档模型对齐优化方法
CN117558270B (zh) 语音识别方法、装置、关键词检测模型的训练方法和装置
Elleuch et al. The Effectiveness of Transfer Learning for Arabic Handwriting Recognition using Deep CNN.
CN111666375B (zh) 文本相似度的匹配方法、电子设备和计算机可读介质
CN116595023A (zh) 地址信息的更新方法和装置、电子设备及存储介质
CN116362242A (zh) 一种小样本槽值提取方法、装置、设备及存储介质
CN113761106A (zh) 一种强化自注意力的债券交易意图识别系统
CN113761106B (zh) 一种强化自注意力的债券交易意图识别系统
CN116110059A (zh) 一种基于深度学习的离线手写数学公式识别的方法
CN115482575A (zh) 一种基于标记分布学习的面部表情识别方法
CN114510569A (zh) 基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法
CN114461779A (zh) 一种案件笔录要素抽取方法
CN113821636A (zh) 一种基于知识图谱的金融文本联合抽取分类方案
CN112883183A (zh) 构建多分类模型的方法、智能客服方法和相关装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Country or region after: China

Address after: 100000 411d, floor 4, No. 31, Fuchengmenwai street, Xicheng District, Beijing

Applicant after: Beijing Kuaique Information Technology Co.,Ltd.

Address before: 201700 2nd floor, building 1, 485 pucang Road, Qingpu District, Shanghai

Applicant before: Shanghai Kuaique Information Technology Co.,Ltd.

Country or region before: China

GR01 Patent grant