CN111914553B - 一种基于机器学习的金融信息负面主体判定的方法 - Google Patents
一种基于机器学习的金融信息负面主体判定的方法 Download PDFInfo
- Publication number
- CN111914553B CN111914553B CN202010802323.8A CN202010802323A CN111914553B CN 111914553 B CN111914553 B CN 111914553B CN 202010802323 A CN202010802323 A CN 202010802323A CN 111914553 B CN111914553 B CN 111914553B
- Authority
- CN
- China
- Prior art keywords
- sentence
- model
- entity
- negative
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000010801 machine learning Methods 0.000 title claims abstract description 13
- 239000013598 vector Substances 0.000 claims abstract description 78
- 238000012706 support-vector machine Methods 0.000 claims abstract description 17
- 230000015654 memory Effects 0.000 claims abstract description 15
- 230000004927 fusion Effects 0.000 claims abstract description 7
- 238000012805 post-processing Methods 0.000 claims abstract description 6
- 238000004140 cleaning Methods 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 11
- 239000000284 extract Substances 0.000 claims description 7
- 238000013145 classification model Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 238000012512 characterization method Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 4
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 230000008451 emotion Effects 0.000 claims description 3
- 238000005065 mining Methods 0.000 abstract description 4
- 230000008569 process Effects 0.000 abstract description 3
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000001965 increasing effect Effects 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明公开一种基于机器学习的金融信息负面主体判定的方法,属于机器学习领域。该方法包括:提取金融信息语料并进行数据清洗和增强;采用Bert模型将实体句和内容描述句分别转换为实体句句向量和内容描述句句向量;按照维度完成拼接,形成拼接句句向量;将拼接句句向量分别输入支持向量机模型、长短期记忆模型及分布式梯度增强库模型,进行实体正负面判断;通过投票式模型融合将支持向量机模型判断结果、长短期记忆模型判断结果及XGBoost模型判断结果进行融合,得到实体正负面预测结果;对实体正负面预测结果进行后处理,提取金融文本对应的所有负面实体。该方法可用于金融文本进行信息挖掘过程。
Description
技术领域
本发明涉及机器学习领域,具体涉及一种基于机器学习的金融信息负面主体判定的方法。
背景技术
随着世界经济全球化及世界金融业的不断发展,金融信息呈现爆发式增长,金融活动中的不确定性增加,金融预测日益受到学术界及金融业界的高度重视。由于海量金融信息中有大量的数据是以文本的形式存在,如何从这些海量金融文本中挖掘出关键信息变得尤为重要,有效的预见性判断与推测能够有效的为投资者和决策者制定金融计划和金融决策提供依据。
一般的,金融信息挖掘包括分类、实体识别等任务,旨在对文本进行正负面分类或是抽取文本中存在的实体,如人员、组织、位置等。这类任务可以单独完成正负面信息判定或相关实体识别,但并不能解决判断负面信息中实体这样一个复合性问题。
发明内容
为了解决以上问题,本发明提供一种基于机器学习的金融信息负面主体判定的方法,对金融文本进行信息挖掘过程中,采取基于来自变换器的双向编码器表征量(Bidirectional Encoder Representations from Transformers,Bert)模型抽取句向量的方法完成文本到向量的转化。相较于两种非常流行的词嵌入方法word2vec与glove来说,word2vec与glove均无法解决一词多义问题,而Bert采用双向transformer语言模型,从中抽取得到的句向量能够更有效的描述句间关系。此外,将句向量与传统的机器学习模型相结合,较Bert模型实现下游分类任务节省了大量的训练时间,提高了效率。
根据本发明的第一方面,提供一种基于机器学习的金融信息负面主体判定的方法,所述方法包括:
步骤1:提取金融信息语料,并进行数据清洗和数据增强,得到原始语料数据;
步骤2:采用Bert模型将原始语料数据中的实体句和内容描述句分别转换为实体句句向量和内容描述句句向量;
步骤3:将实体句句向量和内容描述句句向量按照维度完成拼接,形成拼接句句向量;
步骤4:将拼接句句向量分别输入支持向量机模型、长短期记忆模型及分布式梯度增强库(XGBoost)模型,进行实体正负面判断,分别得到支持向量机模型判断结果、长短期记忆模型判断结果和XGBoost模型判断结果;
步骤5:通过投票式模型融合将支持向量机模型判断结果、长短期记忆模型判断结果及XGBoost模型判断结果进行融合,得到实体正负面预测结果;
步骤6:对实体正负面预测结果进行后处理,提取金融文本对应的所有负面实体。
进一步的,步骤1中,采取逆透视的方法对原始数据进行增强:对原始数据进行行列转换,将多个实体拆分成多行,其余信息按照拆分前原始数据补全。
进一步的,步骤2中,所述Bert模型采用双向变换器(transformer)语言模型。
进一步的,步骤2具体包括:
步骤21:Bert模型从原始语料数据中的实体句/内容描述句中抽取两个句子,其中第二句从内容方面是第一句的下一句的概率是50%;
步骤22:学习第一句和第二句之间的关系;
步骤23:随机掩盖掉两个句子中的部分词,并通过Bert模型预测掩盖的词,学习句子内部的关系;
步骤24:将经过处理的句子传入Transformer模型,通过两个损失函数同时学习以上下一句预测(Next Sentence Prediction)和掩码语言模型(Masked Language Model)两个目标来完成训练:
步骤25:抽取Bert模型倒数四层transformer的句向量,求其平均值作为实体句/内容描述句数据的句向量。
进一步的,步骤2中,实体句句向量和内容描述句句向量均为768维句向量。
进一步的,步骤3中,采用数组连接(concat)函数完成拼接实体句句向量和内容描述句句向量,形成拼接句句向量。
进一步的,步骤5中,所述投票式模型融合是指选择所有分类模型当中输出最多的那个类。
进一步的,步骤6中,后处理具体包括:将实体正负面预测结果按照情感方向进行整合,已知标签为1代表对应实体为负面实体,标签为0代表对应实体为正面实体,将同一条金融信息中对应标签为1的负面实体集中显示。
根据本发明的第二方面,提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现根据以上任一方面所述方法的步骤。
根据本发明的第三方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现根据任一方面所述方法的步骤。
本发明的有益效果:
1.在多个应用场景上,例如新闻舆情系统监测,任务依旧停留在判断新闻信息正负面的阶段。本发明在分类任务的基础上,能够更进一步判断一段新闻中各个实体所表现出的正负面。如“刘某月收入不足两千元,却在民生银行、招商银行等十多家银行申办了信用卡,并透支了十多万元无法偿还。”这则新闻为一则负面新闻,但对于“民生银行”这个实体来说是正面的。
2.相较于word2vec与glove模型,基于Bert模型抽取句向量的方法能够解决一词多义问题,能够利用上下文全向进行预测,更有效的描述句子内部关系与句间关系。
3.相较于Bert模型直接完成分类任务,将句向量与传统的机器学习模型相结合能够节省大量的训练时间,提高效率。
附图说明
图1示出根据本发明的基于机器学习的金融信息负面主体判定的方法流程图。
图2示出Bert模型抽取文本句向量流程。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本说明书(包括摘要和附图)中公开的任一特征,除非特别叙述,均可被其他等效或者具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。
1.Bert词嵌入方法
Bert的输入的编码向量由3个嵌入特征三者拼接而成,这三个词嵌入特征是:
WordPiece嵌入:WordPiece嵌入是指将单词划分成一组有限的公共子词单元,能在单词的有效性和字符的灵活性之间取得一个折中的平衡。例如将句子“helikesplaying”中“playing”被拆分成了“play”和“ing”;
位置嵌入(Position Embedding):位置嵌入是指将单词的位置信息编码成特征向量,位置嵌入是向模型中引入单词位置关系的至关重要的一环;
分割嵌入(Segment Embedding):可以区分两个句子,例如B是否是A的下文(对话场景,问答场景等)。对于句子对来说,EA、EB分别代表左句子和右句子,对于一个句子来说,只有EA。
2.模型结构-Transformer编码器
每个解码器都可以分解成前馈神经网络层和自注意力层两个子层。从编码器输入的句子首先会经过一个自注意力层,这层帮助编码器在对每个单词编码时关注输入句子的其他单词。自注意力层的输出会传递到前馈神经网络中。每个位置的单词对应的前馈神经网络都完全一样。
1)计算自注意力的第一步就是用每个编码器的输入向量(每个单词的词向量)生成三个向量。也就是说,通过对于每个单词的词向量与各自的权重矩阵相乘,创造一个查询向量(Query)、一个键向量(Key)和一个值向量(Value)。(NLP研究中,key和value常常都是同一个,即key=value)。
2)计算自注意力的第二步是计算得分。假设计算一个句子中第一个词“Thinking”的自注意力向量,通过打分单词(输入句子的所有单词)的键向量(Key)与“Thinking”的查询向量(Query)相点积来为“Thinking”打分。这些分数决定了在编码单词“Thinking”的过程中有多关注句子的其它部分。
3)将分数除以8(8是论文中使用的键向量的维数64的平方根,即这会让梯度更稳定。这里也可以使用其它值,8只是默认值)。
4)然后通过softmax传递结果。softmax的作用是使所有单词的分数归一化,得到的分数都是正值且和为1。softmax分数决定了每个单词对编码当下位置(“Thinking”)的贡献。
5)将每个值向量(Value)乘以softmax分数。
6)对加权值向量求和,然后即得到自注意力层在该位置的输出。
7)将自注意力层的输出值传递到前馈神经网络层中,将输出结果传递到下一个编码器中。
3.Bert模型抽取句向量
基于Bert模型抽取文本句向量,则需考虑选取合适的池化策略以及哪一层transformer的输出值作为句向量。对于输入的每个token,有12个长度为768的单独向量,依据Bert的不同的层化编码不同的信息,正确的池化策略(平均值、最大值、连接等等)和使用的层(最后四层、全部、最后一层等等)依赖于应用。Bert模型的作者通过将不同的向量组合作为输入特征输入到一个用于命名实体识别任务的BiLSTM模型中,显示最后四层的连接在这个特定的任务上产生了最好的结果。本发明最终选取最后四层transformer输出值的平均值作为句向量最终输出结果,以备下游任务。结果表明,取最后四层的平均值作为句向量较其他池化策略有更好的分类表现。
4.SVM
支持向量机(SVM)本身是一个二元分类算法,是对感知器算法模型的一种扩展,其核心思想是找到离分割超平面较近的点(预测错误可能会高),并让其尽可能远离这个超平面。SVM算法支持线性分类和非线性分类的分类应用。
5.LSTM
长短期记忆模型(LSTM)是一种特殊的RNN模型,是为了解决RNN模型梯度弥散的问题而提出的。LSTM的核心思想:
1)理解LSTM的核心是“cell state”,暂且名为细胞状态,也可以理解为传送带;
2)传送带本身是无法控制哪些信息是否被记忆,起控制作用的是控制门(gate);
3)控制门的结构如下:主要由一个sigmoid函数跟点乘操作组成;sigmoid函数的值为0-1之间,点乘操作决定多少信息可以传送过去,当为0时,不传送,当为1时,全部传送;
4)LSTM中有3个控制门:输入门,输出门,记忆门。
6.XGBoost
XGBoost是在GBDT的基础上对boosting算法进行的改进,内部决策树使用的是回归树。其核心算法思想为:
1)不断地添加树,不断地进行特征分裂来生长一棵树,每次添加一个树,其实是学习一个新函数f(f),去拟合上次预测的残差;
2)训练完成得到k棵树,我们要预测一个样本的分数,其实就是根据这个样本的特征,在每棵树中会落到对应的一个叶子节点,每个叶子节点就对应一个分数;
3)最后只需要将每棵树对应的分数加起来就是该样本的预测值。
其预测模型为:
其中K为树的总个数,fk表示第k颗树,表示样本xi的预测结果。
损失函数为:
7.投票式模型融合
假设集成通过简单的投票方法结合多个基分类器(例如该发明中SVM、LSTM两个模型),如果其中有半数基分类器正确,则集成分类就正确:
假设基分类器错误率相互独立,由Hoeffding不等式可知,集成的错误率为:
可以看出随着集成中个体分类器数目T的增加集成的错误率将指数级下降。
实施例
本发明在针对金融信息中负面主体判定任务的研究中,给定的这样一段金融信息:“维权者称,他们是联璧金融的受害者,他们在京东上参与了0元购斐讯产品的活动,由此入口进入到联璧金融这家P2P理财平台,在投入大量资金后,遭遇无法提现”。这段文字中,共包含“联璧金融”、“斐讯”、“京东”三个实体,其中“联璧金融”与“斐讯”两个实体为负面实体,“京东”为正面实体。本发明旨在鉴别出所有实体中的负面实体。
本发明基于多种机器学习方法,主要通过负面信息判定和负面主体判定两部分推进。具体实施如下:第一,数据清洗,数据分析必不可少的环节,对不符合要求的数据进行处理,例如重复、错误、缺失、异常类数据;第二,数据增强,将数据集依照实体进行扩充,即一个实体对应一个样本;第三,基于Google推出的Bert在NLP领域各个问题的性能上均有大幅提升,本发明通过使用Bert提取中文句子的特征向量;第四,句向量结合多种语言模型对文本进行分类,如支持向量机等;最后,负面主体的判定根据文本分类结果处理得到。
本发明则针对此任务对金融文本中的信息主体挖掘和面向主体负面消息检测进行研究。
1.数据清洗。将不相关的信息、转义符、标点符号以及空格等删除,例如:以http为开头的网址、“ ”、“"”、“?”、“#”、“@”等内容。
2.数据增强。采取逆透视的方法对数据进行扩充,即对数据进行行列转换,将多个实体拆分成多行,其余信息按照拆分前数据补全。
3.将Bert应用到该发明的任务中,进一步增加词向量模型的泛化能力。对于Bert模型,理论上可以将每一层transformer的输出值作为句向量,本任务抽取倒数四层transformer的句向量,求其平均值作为数据的句向量,用以描述了数据句间关系特征。(目的将实体句和内容描述分别利用Bert模型把文本均转为可用于分类模型的句向量。Bert模型预训练采用Next Sentence Prediction和Masked LanguageModel两个独有的非监督任务,即:模型先从数据集抽取两个句子,其中第二句是第一句的下一句的概率是50%,学习句子之间的关系,其次随机掩盖掉两个句子中的部分词,并要求模型预测掩盖的词,学习句子内部的关系,再将经过处理的句子传入Transformer模型,通过两个损失函数同时学习以上两个目标来完成训练。根据官方提供的12层的Bert模型(12层transformer模型),每层transformer输出的768维向量均可作为句向量,此处抽取Bert模型倒数四层transformer的句向量,求其平均值作为本文数据的句向量。(见图2)
4.增加实体在文本中的重要程度。本发明采取双输入的方式,将实体和对应描述分别利用Bert模型把文本均转为768维的句向量,采用concat函数将两个句向量直接拼接得到768*2维向量。就实践结果来看,准确率显著提升,表明双输入的方式对增强实体的重要性有明显的效果。
5.将得到的编码格式的文本传入支持向量机模型(SVM)中,得到新闻中各个实体对应的正负面结果,该分类模型判断结果包括正负面两个类别。
6.将得到的编码格式的文本传入长短期记忆模型(LSTM)中,得到新闻中各个实体对应的正负面结果,其中1代表实体为负面,0代表实体为正面。
7.将得到的编码格式的文本传入XGBoost模型。
8.将支持向量机模型判断结果、长短期记忆模型判断结果及XGBoost模型判断结果采取投票的方式进行融合,目的是以弱学习器集成来得到一个强的学习器。其中投票的融合方式即综合多个分类模型的结果,选择所有分类模型当中输出最多的那个类。
9.预测结果的后处理策略。将实体--正负面对应表示按照情感方向进行整合,已知标签为1代表对应实体为负面实体,标签为0代表对应实体为正面实体,将同一条金融文本对应标签为1的负面实体集中显示。
上述实施例对本发明的具体描述,只用于对本发明进行进一步说明,不能理解为对本发明保护范围的限定,本领域的技术工程师根据上述发明的内容对本发明做出一些非本质的改进和调整均落入本发明的保护范围之内。
Claims (10)
1.一种基于机器学习的金融信息负面主体判定的方法,其特征在于,所述方法包括:
步骤1:提取金融信息语料,并进行数据清洗和数据增强,得到原始语料数据;
步骤2:采用来自变换器的双向编码器表征量模型将原始语料数据中的实体句和内容描述句分别转换为实体句句向量和内容描述句句向量;
步骤3:将实体句句向量和内容描述句句向量按照维度完成拼接,形成拼接句句向量;
步骤4:将拼接句句向量分别输入支持向量机模型、长短期记忆模型及分布式梯度增强库模型,进行实体正负面判断,分别得到支持向量机模型判断结果、长短期记忆模型判断结果和分布式梯度增强库模型判断结果;
步骤5:通过投票式模型融合将支持向量机模型判断结果、长短期记忆模型判断结果及分布式梯度增强库模型判断结果进行融合,得到实体正负面预测结果;
步骤6:对实体正负面预测结果进行后处理,提取金融文本对应的所有负面实体。
2.根据权利要求1所述的方法,其特征在于,步骤1中,采取逆透视的方法对原始数据进行增强:对原始数据进行行列转换,将多个实体拆分成多行,其余信息按照拆分前原始数据补全。
3.根据权利要求1所述的方法,其特征在于,步骤2中,所述来自变换器的双向编码器表征量模型采用双向变换器语言模型。
4.根据权利要求3所述的方法,其特征在于,步骤2具体包括:
步骤21:来自变换器的双向编码器表征量模型从原始语料数据中的实体句/内容描述句中抽取两个句子,其中第二句是第一句的下一句的概率是50%;
步骤22:学习第一句和第二句之间的关系;
步骤23:随机掩盖掉两个句子中的部分词,并通过来自变换器的双向编码器表征量模型预测掩盖的词,学习句子内部的关系;
步骤24:将经过处理的句子传入变换器语言模型,通过两个损失函数同时学习以上下一句预测和掩码语言模型两个目标来完成训练:
步骤25:抽取来自变换器的双向编码器表征量模型倒数四层变换器的句向量,求其平均值作为实体句/内容描述句数据的句向量。
5.根据权利要求4所述的方法,其特征在于,步骤2中,实体句句向量和内容描述句句向量均为768维句向量。
6.根据权利要求1所述的方法,其特征在于,步骤3中,采用数组连接函数完成拼接实体句句向量和内容描述句句向量,形成拼接句句向量。
7.根据权利要求1所述的方法,其特征在于,步骤5中,所述投票式模型融合是指选择所有分类模型当中输出最多的那个类。
8.根据权利要求1所述的方法,其特征在于,步骤6中,后处理具体包括:将实体正负面预测结果按照情感方向进行整合,已知标签为1代表对应实体为负面主体,标签为0代表对应实体为正面主体,将同一条金融信息中对应标签为1的负面主体集中显示。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现根据权利要求1至8中任一项所述方法的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现根据权利要求1至8中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010802323.8A CN111914553B (zh) | 2020-08-11 | 2020-08-11 | 一种基于机器学习的金融信息负面主体判定的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010802323.8A CN111914553B (zh) | 2020-08-11 | 2020-08-11 | 一种基于机器学习的金融信息负面主体判定的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111914553A CN111914553A (zh) | 2020-11-10 |
CN111914553B true CN111914553B (zh) | 2023-10-31 |
Family
ID=73283790
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010802323.8A Active CN111914553B (zh) | 2020-08-11 | 2020-08-11 | 一种基于机器学习的金融信息负面主体判定的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111914553B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112445913B (zh) * | 2020-11-25 | 2022-09-27 | 重庆邮电大学 | 一种基于大数据的金融信息负面主体判定分类方法 |
CN114386391B (zh) * | 2022-01-11 | 2023-08-15 | 平安科技(深圳)有限公司 | 基于人工智能的句向量特征提取方法、装置、设备及介质 |
CN114936283B (zh) * | 2022-05-18 | 2023-12-26 | 电子科技大学 | 一种基于Bert的网络舆情分析方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109472033A (zh) * | 2018-11-19 | 2019-03-15 | 华南师范大学 | 文本中的实体关系抽取方法及系统、存储介质、电子设备 |
CN109960800A (zh) * | 2019-03-13 | 2019-07-02 | 安徽省泰岳祥升软件有限公司 | 基于主动学习的弱监督文本分类方法及装置 |
CN110222167A (zh) * | 2019-07-03 | 2019-09-10 | 阿里巴巴集团控股有限公司 | 一种获取目标标准信息的方法和系统 |
CN110516242A (zh) * | 2019-08-26 | 2019-11-29 | 北京亚联之星信息技术有限公司 | 基于机器学习算法识别负面金融资讯的方法和装置 |
CN110610005A (zh) * | 2019-09-16 | 2019-12-24 | 哈尔滨工业大学 | 基于深度学习的盗窃罪辅助量刑方法 |
CN110609899A (zh) * | 2019-08-29 | 2019-12-24 | 成都信息工程大学 | 一种基于改进bert模型的特定目标情感分类方法 |
CN110826335A (zh) * | 2019-11-14 | 2020-02-21 | 北京明略软件系统有限公司 | 一种命名实体识别的方法和装置 |
CN110851603A (zh) * | 2019-11-13 | 2020-02-28 | 中国石油大学(华东) | 一种对工业事故记录文本进行挖掘的方法 |
CN110909531A (zh) * | 2019-10-18 | 2020-03-24 | 平安科技(深圳)有限公司 | 信息安全的甄别方法、装置、设备及存储介质 |
-
2020
- 2020-08-11 CN CN202010802323.8A patent/CN111914553B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109472033A (zh) * | 2018-11-19 | 2019-03-15 | 华南师范大学 | 文本中的实体关系抽取方法及系统、存储介质、电子设备 |
CN109960800A (zh) * | 2019-03-13 | 2019-07-02 | 安徽省泰岳祥升软件有限公司 | 基于主动学习的弱监督文本分类方法及装置 |
CN110222167A (zh) * | 2019-07-03 | 2019-09-10 | 阿里巴巴集团控股有限公司 | 一种获取目标标准信息的方法和系统 |
CN110516242A (zh) * | 2019-08-26 | 2019-11-29 | 北京亚联之星信息技术有限公司 | 基于机器学习算法识别负面金融资讯的方法和装置 |
CN110609899A (zh) * | 2019-08-29 | 2019-12-24 | 成都信息工程大学 | 一种基于改进bert模型的特定目标情感分类方法 |
CN110610005A (zh) * | 2019-09-16 | 2019-12-24 | 哈尔滨工业大学 | 基于深度学习的盗窃罪辅助量刑方法 |
CN110909531A (zh) * | 2019-10-18 | 2020-03-24 | 平安科技(深圳)有限公司 | 信息安全的甄别方法、装置、设备及存储介质 |
CN110851603A (zh) * | 2019-11-13 | 2020-02-28 | 中国石油大学(华东) | 一种对工业事故记录文本进行挖掘的方法 |
CN110826335A (zh) * | 2019-11-14 | 2020-02-21 | 北京明略软件系统有限公司 | 一种命名实体识别的方法和装置 |
Non-Patent Citations (2)
Title |
---|
金融学文本大数据挖掘方法与研究进展;姚加权 等;《经济学动态》;143-158 * |
面向金融知识图谱的实体和关系联合抽取算法;胡扬 等;《重庆理工大学学报》;139-149 * |
Also Published As
Publication number | Publication date |
---|---|
CN111914553A (zh) | 2020-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110134771B (zh) | 一种基于多注意力机制融合网络问答系统的实现方法 | |
US11631007B2 (en) | Method and device for text-enhanced knowledge graph joint representation learning | |
CN110490946B (zh) | 基于跨模态相似度和生成对抗网络的文本生成图像方法 | |
CN113051916B (zh) | 一种社交网络中基于情感偏移感知的交互式微博文本情感挖掘方法 | |
CN111914553B (zh) | 一种基于机器学习的金融信息负面主体判定的方法 | |
CN110781680A (zh) | 基于孪生网络和多头注意力机制的语义相似度匹配方法 | |
CN108829662A (zh) | 一种基于条件随机场结构化注意力网络的对话行为识别方法及系统 | |
US11580975B2 (en) | Systems and methods for response selection in multi-party conversations with dynamic topic tracking | |
CN110222163A (zh) | 一种融合cnn与双向lstm的智能问答方法及系统 | |
CN112434535B (zh) | 基于多模型的要素抽取方法、装置、设备及存储介质 | |
CN111985239A (zh) | 实体识别方法、装置、电子设备及存储介质 | |
Yang et al. | Rits: Real-time interactive text steganography based on automatic dialogue model | |
CN110502626A (zh) | 一种基于卷积神经网络的方面级情感分析方法 | |
CN112016002A (zh) | 融合评论文本层级注意力和时间因素的混合推荐方法 | |
CN112232053A (zh) | 一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质 | |
CN115080715B (zh) | 基于残差结构和双向融合注意力的跨度提取阅读理解方法 | |
CN114881042A (zh) | 基于图卷积网络融合句法依存与词性的中文情感分析方法 | |
Luo et al. | EmotionX-DLC: self-attentive BiLSTM for detecting sequential emotions in dialogue | |
CN116662500A (zh) | 一种基于bert模型与外部知识图谱的问答系统构建方法 | |
Ko et al. | Paraphrase bidirectional transformer with multi-task learning | |
CN116861258B (zh) | 模型处理方法、装置、设备及存储介质 | |
CN111368524A (zh) | 一种基于自注意力双向gru和svm的微博观点句识别方法 | |
CN115422945A (zh) | 一种融合情感挖掘的谣言检测方法及系统 | |
CN115906816A (zh) | 一种基于Bert的双通道Attention模型的文本情感分析方法 | |
CN115309894A (zh) | 一种基于对抗训练和tf-idf的文本情感分类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |