CN113010634A - 一种基于层级多标签分类的金融事件检测方法、设备 - Google Patents

一种基于层级多标签分类的金融事件检测方法、设备 Download PDF

Info

Publication number
CN113010634A
CN113010634A CN202010689841.3A CN202010689841A CN113010634A CN 113010634 A CN113010634 A CN 113010634A CN 202010689841 A CN202010689841 A CN 202010689841A CN 113010634 A CN113010634 A CN 113010634A
Authority
CN
China
Prior art keywords
label
text
model
hierarchical
financial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010689841.3A
Other languages
English (en)
Inventor
梁鑫
程大伟
杨芳洲
罗轶凤
钱卫宁
周傲英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Guandian Technology Co ltd
East China Normal University
Original Assignee
Shanghai Guandian Technology Co ltd
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Guandian Technology Co ltd, East China Normal University filed Critical Shanghai Guandian Technology Co ltd
Priority to CN202010689841.3A priority Critical patent/CN113010634A/zh
Publication of CN113010634A publication Critical patent/CN113010634A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于层级多标签分类的金融事件检测方法,包括以下步骤:步骤1:设计层级标签体系;步骤2:金融语料的收集与处理;步骤3:构建训练集和测试集;步骤4:表征模型预训练;步骤5:表征模型微调训练;步骤6:文本特征提取并分类;步骤7:事件预测。将本发明的实验结果与主流的基准模型进行对比,可以发现本发明的实验结果比基准模型的结果都好,无论是否有递归正则的约束。从准确度出发,本发明的模型完全预测正确的为57.42%,比最好的基准模型HAN要高出4%。从模型对父子节点的整体依赖角度来看,在HMDScore指标上本发明的模型比最好的HAN‑HR要高出近7个百分点。在层级文本分类的常用评测指标中hF‑score中,本发明的模型比最好的HAN‑HR高出近8个百分点。

Description

一种基于层级多标签分类的金融事件检测方法、设备
技术领域
本发明涉及自然语言处理技术领域,是一个基于层级多标签文本分类技术的对非结构性文本进行自动事件检测的方法、设备。
背景技术
股票交易是一种与投资和融资有关的重要金融活动,许多交易者和机构作为投资者参与股票交易市场,买卖股票以获取利润。上市公司的股价通常受与这些公司有关的几个关键驱动因素的支持,例如销量,季度/年度收入,毛利润率,净收入和每股收益等。这些关键驱动因素通常受到各种因素的影响。比如政治,政策和宏观经济等因素,以及这些因素的变化最终将导致支撑股价的主要驱动力发生变化。影响关键驱动因素的状态变化通常以非结构性文本(例如新闻文章和政策声明)的形式呈现,而因素的状态变化被视为最终会影响上市公司股价的事件。
因此如何准确精细地检测事件,是确保投资策略可靠有效的关键所在。在实际的应用场景中,往往以层级结构来表示和组织金融事件体系。面对具体的非结构性文本比如金融新闻或证券公司发布的研报,每条文本可能蕴含一个角度或多个角度,因此可以为该事件分配一个或多个事件标签,来表明去对应的层次结构和类别。因此可以将金融事件检测建模为层级多标签分类的问题。
目前业界对层级多标签文本分类任务提出了许多方法,包括基于规则的方法、机器学习方法以及近年来得到长足发展的深度学习方法。基于规则的方法使用一组预定义的规则将文本分类为不同的类别。例如,任何带有“足球”,“篮球”或“棒球”字样的文档都被赋予“运动”标签。这些方法需要对领域有深入的了解,并且系统难以维护。传统的机器学习分类方法将整个文本分类问题就拆分成了特征工程和分类器两部分。特征工程分为文本预处理、特征提取、文本表示三个部分,最终目的是把文本转换成计算机可理解的格式,并封装足够用于分类的信息,即很强的特征表达能力。常见的特征构造方法包括词袋法(BoW)及其在此基础上的延伸。常见的分类算法包括朴素贝叶斯、支持向量机(SVM)、隐马尔可夫模型(HMM)、随机森林和GBDT/XGBOOST。除了基于机器学习的方法,基于深度学习的模型已应用于计算机视觉和自然语言处理中的各种任务,并且取得了不错的成绩。这些模型尝试以端到端的方式学习特征表示并执行分类(或回归)。它们不仅能够发现数据中的隐藏模式,而且便于从一个应用转移到另一个应用。为了解决传统文本表示高纬稀疏的问题,学者提出了分布式的空间向量模型比如Word2Vec,利用神经网络大幅降低表征纬度,提高表征质量。前馈神经网络是最常见的基于深度学习的分类方法,虽然结构简单,但是它们已经在许多文本分类基准上达到了很高的准确性。基于RNN的模型将文本视为单词序列,旨在捕获单词依赖性和文本结构以进行文本分类。与训练RNN识别跨时间的模式不同,基于CNN的方法通过卷积核捕获滑动空间内的词语序列学会识别跨空间的模式。除此以外还有基于注意力机制的文本分类算法。语言模型可以使用注意力向量来估计它与其他词的相关性,进而确定不同词语或短句在文本表征中所占的权重。以上这些技术都由其优势,并在部分任务上取得了不错的结果,但是在金融文本的层级多标签分类仍然有以下不足:
1.忽略层级标签体系的父子节点依赖关系。传统的层级多标签分类方法假定类别是独立的,忽略了类别层次结构之间存在的结构依赖性。
2.在基于RNN的方法中,传统的RNN单元无法有效地进行并行化计算,也无法对金融长文本进行有效的特征提取。
3.此外,这些层级多标签分类算法在拟合类别分布的适合对所有类别给予相等的权重,以实现假阳性惩罚。但事实上与类别标签关联的父类别,兄弟类别和子类别标签实际上应在应用中区别对待,因为它们表示不同的层次级别。
本发明要解决的技术问题
1.可高效提取文本特征的序列编码网络
本发明常见的金融文本多是中文字符与英文字符的集合,计算机无法直接识别,因此本发明需要使用一套编码机制将金融文本转换成矩阵向量,使得计算机可以处理。这套编码网络在实现文本向量化的同时需要尽可能保留文本间的语义信息,保证文本向量的表达能力。除此以外,编码机制应当有较高的编码效率,以适应金融业务领域低延迟的需求。
2.准确细腻的分类算法
在实现文本向量化以后,还需要设计一套准确细腻的分类算法。现有的分类算法因为忽视层级类别间的依赖在金融领域实际应用中往往难以令人满意。层级分类和直接拍平分类不同,如果使用多类别集成判断的方法,随着类别个数的提高,模型参数会大量增加,在实际应用中精度和效率都难以有效保证。而且对于不同层级不同类应该设计不同的惩罚系数,但是如何保证惩罚系数在有效引导算法拟合目标类别分布的同时减少的分类器的干扰是需要解决的问题。
发明内容
为了解决上述技术的不足,本发明的目的是提供一种柔性薄膜热电偶分装装置。
本发明提出了一种基于层级多标签分类的金融事件检测方法,包括以下步骤:
步骤1:设计层级标签体系;
步骤2:收集金融语料,对收集到的语料进行文本预处理;
步骤3:构建训练集和测试集;
步骤4:使用步骤2中处理后的通用语料,基于双向Trasnformer模型进行表征模型预训练;
步骤5:使用步骤3构建的数据集重点训练编码网络的最后一层;
步骤6:文本特征提取并分类;
步骤7:将目标文本输入编码网络,以概率分布的形式输出标签向量,最后通过训练得到的标签阈值作为判别标准,大于该阈值的视为将该标签分配给该文本,反之则不将标签分配给该文本。
本发明步骤1中,根据实际应用情况设计出一系列事件标签,并按照事件的蕴含关系构成树形结构的层级标签。
本发明步骤2中,收集包括财经新闻、投研报告和上市公司年报季报在内的金融语料,对收集到的语料进行文本预处理,包括中文分词、去停词以及处理文本噪音。
本发明步骤3中,对语料进行标注,然后对文本进行更进一步的筛选,保证标注结果准确全面,最后依据结果分别构建训练集、验证集和测试集。
本发明步骤4中,所述基于双向Trasnformer模型为基于Transformer结构构建的编码网络:
所述编码网络包括12个编码层,每个编码层包括多个Transformer单元;所述Transformer的Encoder部分包括多头注意力机制和按位全联接前馈神经网络,对该两个子层的输出Sublayer(x)和原输入x求和后使用层级正则化,即LayerNorm(x+Sublayer(x));
多头注意力机制:设输入为X=(x1,x2,…,xn),输出用MultiHead(X)表示,公式如下:
Figure BDA0002588945000000031
MultiHead(X)=Concat(head1,head2,…,headh)Wo
Figure BDA0002588945000000032
为权重矩阵,dmodel,dX,分别为输入向量维度和子空间维度;Attention,表示自注意力机制,headi表示第i个子空间,Concat表示合并操作;
所述自注意力机制,公式如下:
Figure BDA0002588945000000033
其中,dk为输入维度,
Figure BDA0002588945000000034
为尺度因子,Q,K,V分别Attention机制的query、key和value,在多头注意力机制中,Q,K,V的值与
Figure BDA0002588945000000041
相同;
按位全联接前馈神经网络:该模块的输入为多头注意力机制部分的输出加上输入原始输入X,设为x,输出为FFN(x),公式如下:
x=MultiHead(X)+X
FFN(x)=max(0,xW1+b1)W2+b2
其中,Wi,bi(i=1,2)分别表示第i层神经网络权重项和偏移项。
本发明对于一篇文档di,其对应的目标向量为yi,其经过一层前馈神经网络预测后的预测向量为υi
Figure BDA0002588945000000042
n是标签的总数;然后定义目标向量和预测向量间的距离:
Figure BDA0002588945000000043
其中,αtj是距离函数中的惩罚系数,具体的计算公式为:
Figure BDA0002588945000000044
其中,Label(x)表示x向量的对应分量代表的标签,Anc(c)和Des(c)分别代表标签的父节点和子节点,然后定义完整的层级多标签距离(HMD,Hierarchical Multi-labelDistance)为:
Figure BDA0002588945000000045
引入递归正则机制,该递归正则定义为:
Figure BDA0002588945000000046
至此,目标优化函数定义为:
Figure BDA0002588945000000047
其中,d1,...,dZ表示所有的训练文本,C是权重衰减超参数。
本发明步骤5中,所述重点训练编码网络的最后一层指固定其他层参数,在反向传播算法迭代参数时只迭代最后一层的参数。
本发明步骤6中,构建前馈神经网络作为文本特征提取器,以softmax层作为拟合标签分布的输出层,将上文所述的目标优化函数作为损失函数来衡量预测概率与新闻真实类别的差距,通过Adam优化器反向传播更新层级神经网络和分类器中的参数,每次更新参数后计算验证集上损失函数的值,重复上述过程直到验证集上损失函数不再下降,最后保存模型的结构和参数结果。
本发明还提出了一种设备,包括:存储器和处理器;
所述存储器上存储有计算机程序,当所述计算机程序被所述处理器执行时,实现上述的方法。
本发明还提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现上述的方法。
本发明的有益效果:
1、衡量指标
为了衡量本发明提出方法的表现,本发明引入hF-score和HMDScore指标来比较本发明的方法(F-HMTC)和国内外同类型方法。设每个文档di的目标标签集合为Ci,预测的标签集合为C’i,并且按照下列方法对这两个集合进行扩展:
Figure BDA0002588945000000051
其中,ck表示一个事件标签,然后微平均(Micro-averaged)的hP和hR定义如下:
Figure BDA0002588945000000052
hF-score定义如下:
Figure BDA0002588945000000053
层级多标签距离值(Hierarchical Multi-label Distance Score,HMDScore)定义如下:
Figure BDA0002588945000000061
2、对比结果图表见图3和图4。将本发明的实验结果与主流的基准模型进行对比,可以发现本发明的实验结果(F-HMTC)比基准模型的结果都好,无论是否有递归正则的约束。从准确度(Accuracy)出发,本发明的模型完全预测正确的为57.42%,比最好的基准模型HAN要高出4%。从模型对父子节点的整体依赖角度来看,在HMDScore指标上本发明的模型比最好的HAN-HR要高出近7个百分点。在层级文本分类的常用评测指标中hF-score中,本发明的模型比最好的HAN-HR高出近8个百分点。
附图说明
图1是F-HMTC结构图。
图2是金融事件检测流程图。
图3是预测结果的层级分布和不同模型取得的HMDscore结果。
图4是不同模型的hPRF结果。
具体实施方式
结合以下具体实施例和附图,对发明作进一步的详细说明。实施本发明的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本发明没有特别限制内容。
本发明的技术方案的创新点包括两部分:基于Transformer结构构建的编码网络和基于层级标签体系惩罚系数的分类算法。本发明核心算法的结构图可参阅图1。
1、基于Transformer结构构建的编码网络
编码网络的训练包括两部分:基于通用文本的预训练和基于目标应用场景的微调训练(Fine-tune)。编码网络包括12个编码层,每个编码层包括多个Transformer单元。本发明主要使用Transformer的Encoder部分,Encoder包括多头注意力机制(Multi-HeadAttention Mechanism)和按位全联接前馈神经网络(Position-wise Fully ConnectedFeed-Forward Networks),并且对这两个子层的输出Sublayer(x)和原输入x求和后使用了层级正则化,即LayerNorm(x+Sublayer(x))。
多头注意力机制:设输入为X=(x1,x2,…,xn),输出用MultiHead(X)表示,公式如下:
Figure BDA0002588945000000062
MultiHead(X)=Concat(head1,head2,…,headh)Wo
Figure BDA0002588945000000063
为权重矩阵,dmodel,dX,分别为输入向量维度和子空间维度;Attention,表示自注意力机制(Self-Attention Mechanism),headi表示第i个子空间,Concat表示合并操作;
所述自注意力机制,公式如下:
Figure BDA0002588945000000071
其中,dk为输入维度,
Figure BDA0002588945000000072
为尺度因子,Q,K,V分别Attention机制的query、key和value,在多头注意力机制中,Q,K,V的值与
Figure BDA0002588945000000073
相同;
按位全联接前馈神经网络:该模块的输入为多头注意力机制部分的输出加上输入原始输入X,设为x,输出为FFN(x),公式如下:
x=MultiHead(X)+X
FFN(x)=max(0,xW1+b1)W2+b2
上述Wi,bi(i=1,2)分别表示第i层神经网络权重项和偏移项;
2、基于层级标签体系惩罚系数的分类算法
对于一篇文档di,其对应的目标向量为yi,其经过一层前馈神经网络预测后的预测向量为
Figure BDA0002588945000000074
这里的n是标签的总数。然后本发明将定义目标向量和预测向量间的距离:
Figure BDA0002588945000000075
其中αtj是距离函数中的惩罚系数,具体的计算公式为:
Figure BDA0002588945000000076
其中Label(x)表示x向量的对应分量代表的标签,Anc(c)和Des(c)分别代表标签的父节点和子节点,然后本发明定义完整的层级多标签距离(HMD,Hierarchical Multi-label Distance)为:
Figure BDA0002588945000000077
在这基础上,为了解决数据不均衡问题(在实际场景中数据不均衡是常见情况,比如热门公司的研报有很多篇,但是该公司的年报一年只会发布一次),本发明引入递归正则机制(Recursive Regularization)来提高模型对少量数据标签的预测情况,该递归正则定义为:
Figure BDA0002588945000000081
至此,该模型的目标优化函数定义为:
Figure BDA0002588945000000082
其中d1,...,dZ表示所有的训练文本,C是权重衰减超参数。即本发明最终的分类算法是以前馈神经网络为特征提取器,
Figure BDA0002588945000000083
为目标优化函数的层级多标签分类算法。
实施例
参阅图2,按下述步骤实现基于层级多标签文本分类的金融事件检测算法。
收集目标文本信息,包括国内主流财经媒体发布的财经新闻、研究机构发布的行业研报以及上市公司发布的公告,以此作为基本的语料。并划分出训练集、验证集和测试集;其中,文本预处理包括源文本去噪、中文分词及去除停用词,例如:
原始文本:
标题:市场风平浪静黄金继续盘整短线惊现V型反弹
内容:FX168财经报社(香港)讯现货黄金周三(5月9日)小幅微跌,美市盘中最低下探至1304.11美元/盎司,继续在1310一线上方盘整,但半小时线出现较为强劲的V型反弹,收复早间失地。周三美元小幅下挫,终止三日连涨,但美元指数仍运行在93关口上方,对黄金仍构成不利因素。周三公布的美国4月PPI指数较三月上涨0.1%,剔除食品和能源的核心PPI上涨0.2%,两个数字此前的预期均为0.2%,数据的发布对金银市场的走势影响不大。外围市场看,世界股市隔夜涨跌不一,美股指数在纽约时段指向高开。市场仍在消化昨日美国退出伊朗核协议的消息,但市场表现不是那么反应强烈,除了价格继续高企收复周二的损失之外。周三美元冲击了3年半高位,在接近71美元/桶一带交易。目前从技术上看,金价仍持稳在1310美元/盎司一线之上,多方的上涨动能有所恢复,若金价能重返关键支撑位1316.48美元/盎司,将重拾升势。即期阻力位在1320及1330关口,更进一步阻力1330以及1340美元,突破则看向年内迄今高位1366美元。下行支撑在1310及1300关口。北京时间23:39,现货黄金报1314.00美元/盎司,下跌0.08美元,跌幅0.01%。(现货黄金半小时图来源:FX168财经网)校对:浚滨处理后的文本序列:
标题:['市场','风平浪静','黄金','盘整','短线','惊现','V','型','反弹']
内容:['FX168','财经','报社','香港','讯','现货','黄金周','月','日','小幅','微跌','美市','盘中','最低','下探','1304.11','美元','盎司','1310','一线','上方','盘整','半小时','线','强劲','V','型','反弹','收复','早间','失地','周三','美元','小幅','下挫','终止','三日','连涨','美元','指数','运行','93','关口','上方','黄金','不利因素','周三','公布','美国','月','PPI','指数','三月','上涨','0.1%','剔除','食品','能源','核心','PPI','上涨','0.2%','两个','数字','此前','预期','0.2%','数据','发布','金银','市场','走势','影响','外围','市场','世界','股市','涨跌','美股','指数','纽约','时段','指向','高开','市场','消化','昨日','美国','退出','伊朗核','协议','消息','市场','表现','价格','高企','收复','周二','损失','之外','周三','美元','冲击','年','高位','接近','71','美元','桶','一带','交易','从技术上','金价','仍持','稳','1310','美元','盎司','一线','之上','多方','上涨','动能','恢复','金价','重返','关键','支撑位','1316.48','美元','盎司','重拾','升势','即期','阻力位','1320','1330','关口','阻力','1330','1340','美元','突破','年内','迄今','高位','1366','美元','下行','支撑','1310','1300','关口','北京','时间','23','39','现货','黄金','报','1314.00','美元','盎司','下跌','0.08','美元','跌幅','0.01%','现货','黄金','半小时','图','来源','FX168','财经网','校对','浚滨']
文本编码后内容:输出一个纬度为1*1536的向量,该向量即为量化后的文本内容。
将编码后的文本输入分类网络,分类网络会输出1*256的向量,每一分量代表该文本属于该分量对应标签的概率(在本例中,总的标签类别数量是256),总的分量相加为1。分类网络输出的向量即为本发明算法预测出的标签概率分布。
最后本发明本发明根据算法的阈值,这里为0.12,即概率大于0.12的分量对应的标签属于该文本。本发明的预测结果是[’期货市场’,’美元市场’]。
以上仅是本发明的一个实施示例。本发明的保护范围并不局限于上述实例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进,应视为本发明的保护范围。
本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下,本领域技术人员能够想到的变化和优点都被包括在本发明中,并且以所附的权利要求书为保护范围。

Claims (10)

1.一种基于层级多标签分类的金融事件检测方法,其特征在于,包括以下步骤:
步骤1:设计层级标签体系;
步骤2:收集金融语料,对收集到的语料进行文本预处理;
步骤3:构建训练集和测试集;
步骤4:使用步骤2中处理后的通用语料,基于双向Trasnformer模型进行表征模型预训练;
步骤5:使用步骤3构建的数据集重点训练编码网络的最后一层;
步骤6:文本特征提取并分类;
步骤7:将目标文本输入编码网络,以概率分布的形式输出标签向量,最后通过训练得到的标签阈值作为判别标准,大于该阈值的视为将该标签分配给该文本,反之则不将标签分配给该文本。
2.如权利要求1所述的基于层级多标签分类的金融事件检测方法,其特征在于,步骤1中,根据实际应用情况设计出一系列事件标签,并按照事件的蕴含关系构成树形结构的层级标签。
3.如权利要求1所述的基于层级多标签分类的金融事件检测方法,其特征在于,步骤2中,收集包括财经新闻、投研报告和上市公司年报季报在内的金融语料,对收集到的语料进行文本预处理,包括中文分词、去停词以及处理文本噪音。
4.如权利要求1所述的基于层级多标签分类的金融事件检测方法,其特征在于,步骤3中,对语料进行标注,然后对文本进行更进一步的筛选,保证标注结果准确全面,最后依据结果分别构建训练集、验证集和测试集。
5.如权利要求1所述的基于层级多标签分类的金融事件检测方法,其特征在于,步骤4中,所述基于双向Trasnformer模型为基于Transformer结构构建的编码网络:
所述编码网络包括12个编码层,每个编码层包括多个Transformer单元;所述Transformer的Encoder部分包括多头注意力机制和按位全联接前馈神经网络,对该两个子层的输出Sublayer(x)和原输入x求和后使用层级正则化,即LayerNorm(x+Sublayer(x));
多头注意力机制:设输入为X=(x1,x2,…,xn),输出用MultiHead(X)表示,公式如下:
Figure FDA0002588944990000011
MultiHead(X)=Concat(head1,head2,…,headh)Wo
Figure FDA0002588944990000012
为权重矩阵,dmodel,dX,分别为输入向量维度和子空间维度;Attention,表示自注意力机制,headi表示第i个子空间,Concat表示合并操作;
所述自注意力机制,公式如下:
Figure FDA0002588944990000021
其中,dk为输入维度,
Figure FDA0002588944990000022
为尺度因子,Q,K,V分别Attention机制的query、key和value,在多头注意力机制中,Q,K,V的值与
Figure FDA0002588944990000023
相同;
按位全联接前馈神经网络:该模块的输入为多头注意力机制部分的输出加上输入原始输入X,设为x,输出为FFN(x),公式如下:
x=MultiHead(X)+X
FFN(x)=max(0,xW1+b1)W2+b2
其中,Wi,bi(i=1,2)分别表示第i层神经网络权重项和偏移项。
6.如权利要求5所述的基于层级多标签分类的金融事件检测方法,其特征在于,对于一篇文档di,其对应的目标向量为yi,其经过一层前馈神经网络预测后的预测向量为υi
Figure FDA0002588944990000024
Figure FDA0002588944990000025
n是标签的总数;然后定义目标向量和预测向量间的距离:
Figure FDA0002588944990000026
其中,αtj是距离函数中的惩罚系数,具体的计算公式为:
Figure FDA0002588944990000027
其中,Label(x)表示x向量的对应分量代表的标签,Anc(c)和Des(c)分别代表标签的父节点和子节点,然后定义完整的层级多标签距离(HMD,Hierarchical Multi-labelDistance)为:
Figure FDA0002588944990000028
引入递归正则机制,该递归正则定义为:
Figure FDA0002588944990000031
至此,目标优化函数定义为:
Figure FDA0002588944990000032
其中,d1,…,dZ表示所有的训练文本,C是权重衰减超参数。
7.如权利要求1所述的基于层级多标签分类的金融事件检测方法,其特征在于,步骤5中,所述重点训练编码网络的最后一层指固定其他层参数,在反向传播算法迭代参数时只迭代最后一层的参数。
8.如权利要求1所述的基于层级多标签分类的金融事件检测方法,其特征在于,步骤6中,构建前馈神经网络作为文本特征提取器,以softmax层作为拟合标签分布的输出层,将上文所述的目标优化函数作为损失函数来衡量预测概率与新闻真实类别的差距,通过Adam优化器反向传播更新层级神经网络和分类器中的参数,每次更新参数后计算验证集上损失函数的值,重复上述过程直到验证集上损失函数不再下降,最后保存模型的结构和参数结果。
9.一种设备,其特征在于,包括:存储器和处理器;
所述存储器上存储有计算机程序,当所述计算机程序被所述处理器执行时,实现如权利要求1-8任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1-8任一项所述的方法。
CN202010689841.3A 2020-07-17 2020-07-17 一种基于层级多标签分类的金融事件检测方法、设备 Pending CN113010634A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010689841.3A CN113010634A (zh) 2020-07-17 2020-07-17 一种基于层级多标签分类的金融事件检测方法、设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010689841.3A CN113010634A (zh) 2020-07-17 2020-07-17 一种基于层级多标签分类的金融事件检测方法、设备

Publications (1)

Publication Number Publication Date
CN113010634A true CN113010634A (zh) 2021-06-22

Family

ID=76383090

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010689841.3A Pending CN113010634A (zh) 2020-07-17 2020-07-17 一种基于层级多标签分类的金融事件检测方法、设备

Country Status (1)

Country Link
CN (1) CN113010634A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113672736A (zh) * 2021-09-09 2021-11-19 上海德拓信息技术股份有限公司 一种文本多标签分类方法及系统
CN115577106A (zh) * 2022-10-14 2023-01-06 北京百度网讯科技有限公司 基于人工智能的文本分类方法、装置、设备和介质
CN117271373A (zh) * 2023-11-21 2023-12-22 太平金融科技服务(上海)有限公司深圳分公司 测试用例的自动化构建方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108073677A (zh) * 2017-11-02 2018-05-25 中国科学院信息工程研究所 一种基于人工智能的多级文本多标签分类方法及系统
CN110134757A (zh) * 2019-04-19 2019-08-16 杭州电子科技大学 一种基于多头注意力机制的事件论元角色抽取方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108073677A (zh) * 2017-11-02 2018-05-25 中国科学院信息工程研究所 一种基于人工智能的多级文本多标签分类方法及系统
CN110134757A (zh) * 2019-04-19 2019-08-16 杭州电子科技大学 一种基于多头注意力机制的事件论元角色抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XIN LIANG: "F-HMTC: Detecting Financial Events for Investment Decisions Based on Neural Hierarchical Multi-Label Text Classification", 《WEB OF SCIENCE》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113672736A (zh) * 2021-09-09 2021-11-19 上海德拓信息技术股份有限公司 一种文本多标签分类方法及系统
CN113672736B (zh) * 2021-09-09 2023-08-22 上海德拓信息技术股份有限公司 一种文本多标签分类方法及系统
CN115577106A (zh) * 2022-10-14 2023-01-06 北京百度网讯科技有限公司 基于人工智能的文本分类方法、装置、设备和介质
CN115577106B (zh) * 2022-10-14 2023-12-19 北京百度网讯科技有限公司 基于人工智能的文本分类方法、装置、设备和介质
CN117271373A (zh) * 2023-11-21 2023-12-22 太平金融科技服务(上海)有限公司深圳分公司 测试用例的自动化构建方法、装置、电子设备及存储介质
CN117271373B (zh) * 2023-11-21 2024-03-01 太平金融科技服务(上海)有限公司深圳分公司 测试用例的自动化构建方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
Hao et al. Predicting stock price trends based on financial news articles and using a novel twin support vector machine with fuzzy hyperplane
Swathi et al. An optimal deep learning-based LSTM for stock price prediction using twitter sentiment analysis
Day et al. Deep learning for financial sentiment analysis on finance news providers
CN113010634A (zh) 一种基于层级多标签分类的金融事件检测方法、设备
CN102591854B (zh) 针对文本特征的广告过滤系统及其过滤方法
CN109766524A (zh) 一种并购重组类公告信息抽取方法及系统
Chen Stock movement prediction with financial news using contextualized embedding from bert
Abidi et al. Real-time shill bidding fraud detection empowered with fussed machine learning
CN112669161A (zh) 基于区块链、舆情和核心算法的金融风控系统
CN114637827A (zh) 一种基于图神经网络的碳交易文本事件抽取方法
CN115269833A (zh) 基于深度语义和多任务学习的事件信息抽取方法及系统
Michel et al. Identification of Decision Rules from Legislative Documents Using Machine Learning and Natural Language Processing.
CN108776652B (zh) 一种基于新闻语料的行情预测方法
Hajek et al. Corporate financial distress prediction using the risk-related information content of annual reports
CN113705188A (zh) 一种海关进出口商品规范申报智能评估的方法
Choi et al. Stock price momentum modeling using social media data
Chen et al. LiFoL: An Efficient Framework for Financial Distress Prediction in High-Dimensional Unbalanced Scenario
Meng et al. To believe is to understand
Liu et al. A trend-based stock index forecasting model with gated recurrent neural network
Han et al. Forecasting stock excess returns with SEC 8-K filings
TWM623354U (zh) 投資推薦系統
Kaya et al. Out‐of‐sample predictability of firm‐specific stock price crashes: A machine learning approach
Yin et al. Real-Trading-Oriented Price Prediction With Explainable Multiobjective Optimization in Quantitative Trading
Lindskog et al. Reddit sentiment analysis
Hristova et al. RatingBot: A Text Mining Based Rating Approach.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210622