CN112445913B - 一种基于大数据的金融信息负面主体判定分类方法 - Google Patents

一种基于大数据的金融信息负面主体判定分类方法 Download PDF

Info

Publication number
CN112445913B
CN112445913B CN202011333726.9A CN202011333726A CN112445913B CN 112445913 B CN112445913 B CN 112445913B CN 202011333726 A CN202011333726 A CN 202011333726A CN 112445913 B CN112445913 B CN 112445913B
Authority
CN
China
Prior art keywords
financial
model
text
negative
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011333726.9A
Other languages
English (en)
Other versions
CN112445913A (zh
Inventor
王进
周阳
李辰宇
徐其成
颜子涵
梁文慧
孙开伟
邓欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Heilongjiang Agricultural Investment Big Data Technology Co.,Ltd.
Yami Technology Guangzhou Co ltd
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202011333726.9A priority Critical patent/CN112445913B/zh
Publication of CN112445913A publication Critical patent/CN112445913A/zh
Application granted granted Critical
Publication of CN112445913B publication Critical patent/CN112445913B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Development Economics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Accounting & Taxation (AREA)
  • Evolutionary Computation (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明涉及自然语言处理,人工智能领域,具体涉及一种基于大数据的金融信息负面主体判定分类方法,该方法包括:获取金融文本数据,对金融文本数据进行预处理;将预处理后的金融文本和对应的实体列表转换成单实体金融文本的输入样本;将输入样本输入到训练好的BERT模型中进行单词编码;将编码后的数据输入到训练好的联合模型中进行对应分类;根据分类结果判断当前金融行情;本发明通过将金融文本和其对应的金融实体进行单实体+金融文本输入文本的转换,构建联合模型,同时结合了负面信息判定和负面主体判定之间的相互关联性,避免了流水线模型的缺点,提高了识别准确率。

Description

一种基于大数据的金融信息负面主体判定分类方法
技术领域
本发明涉及自然语言处理,人工智能领域,具体涉及一种基于大数据的金融信息负面主体判定分类方法。
背景技术
随着互联网的飞速进步和全球金融的快速发展,金融信息呈现爆炸式增长。如何从海量的金融文本中快速准确地挖掘出关键信息,成为投资者和决策者重点考虑的问题之一,而关注金融信息负面及主体判定,在风控和舆情分析等领域有很大现实意义。
金融信息负面及主体判定包含负面信息判定和负面主体判定,负面信息判定指判定金融文本是否包含金融负面信息,负面主体判定指在包含金融负面信息的金融文本中涉及到哪些金融实体。
目前,现有技术中很少关注同时对金融信息负面及主体判定,并且一般的金融信息负面及主体判定方法主要采取流水线模型(pipeline),即在给定的金融文本和对应的实体列表下,先使用负面信息判定模型进行负面信息的判定,最后使用负面信息判定模型的结果作为负面主体判定模型的输入,进行负面主体的判定,负面主体判定模型的输入完全依赖于负面信息判定模型的输出。因此,这种流水线模型容易产生级联错误,并且也忽略了负面信息判定和负面主体判定之间的相互影响,导致准确率不高。
发明内容
为解决以上现有技术存在的问题,本发明提出了一种基于大数据的金融信息负面主体判定分类方法,该方法包括:获取金融文本数据,对金融文本数据进行预处理;将预处理后的金融文本和对应的实体列表转换成单实体金融文本的输入样本;将输入样本输入到BERT模型中进行单词编码;将编码后的数据输入到训练好的联合模型中进行对应分类;根据分类结果判断当前金融行情。
优选的,对金融文本数据进行预处理的过程包括:将金融文本数据输入到TF-IDF模型中进行向量化表示,随机选取N条文本作为训练集的初始样本;计算初始样本和原始数据集中的其他样本的余弦相似度;设置阈值,判断余弦相似度与设置的阈值大小;若样本的余弦相似度大于设置的阈值,则将该样本加入到训练集S中,其他的样本数据作为验证集。
优选的,将预处理后的金融文本和对应的实体列表转换成单实体金融文本的输入样本的过程包括:对于每个金融实体,截取金融实体在金融文本首次出现的上下文作为单实体金融文本格式的输入样本X;其中每条金融文本的输入样本数为N,即该金融文本中已知金融实体的个数为N;输入样本X为:
X={e1,e2,…,em,x1,x2,…xn}
优选的,通过BERT模型对输入样本进行编码过程为:
步骤1:将输入样本X的数据格式转换为X*,其中X*的表达式为:
X*={cls,e1,e2,…,em,seq,x1,x2,…xn}
其中,ei表示实体位置i的字,m表示实体的字个数,xi表示金融文本位置i的字,n表示金融文本的长度,cls表示句子标识,seq表示金融实体与文本分隔符;
步骤2:将X*输入BERT模型进行编码,得到输入样本的向量表示;输出结果为:
Figure BDA0002796554860000021
其中,li∈Rd表示一个字的向量表示,R表示实数空间,d表示字向量的维度。
优选的,构建联合模型的过程包括:
步骤1:建立负面信息判定分类任务;将BERT模型输出的金融文本的字表征向量LA输入到平均池化层中,得到文本的文档表征A={a1,a2,…,ad};将文档表征A输入到全连接层,得到负面信息判定分类任务的输出
Figure BDA0002796554860000022
步骤2:建立负面主体判定任务,将BERT模型输出的金融实体的字表征为Le输入到平均池化层中,得到金融实体的词表征向量LE={b1,b2,…,bd};
步骤3:将BERT模型输出的金融实体的字表征向量Le和金融实体的词表征向量LE对金融文本表征向量LA做基于key字的点积注意力机制和基于key词的点积注意力机制组合运算,得到金融实体的关键信息特征Latt
步骤4:将关键信息特征Latt和负面信息判定分类任务的输出预测
Figure BDA0002796554860000031
输入到全连接层中进行合并,得到负面主体判定任务的输出预测
Figure BDA0002796554860000032
进一步的,金融实体的关键信息特征Latt的公式为:
Figure BDA0002796554860000033
Figure BDA0002796554860000034
Figure BDA0002796554860000035
优选的,对联合模型进行训练的过程包括:
步骤1:获取原始文本数据集,将数据集划分为训练集和测试集;
步骤2:将训练集中的数据输入到联合模型中,采用相同的学习率对负面信息判定分类任务和负面主体判定任务进行训练;在训练过程中计算验证集的准确率,当准确率不再提升时停止训练,得到model1
步骤3:采用学习率L1对负面信息判定分类任务进行训练,直到验证集负面信息判定分类任务的准确率不再提升时,采用学习率为ω1L1对负面信息判定分类任务进行训练;负面主体判定任务用学习率L1进行训练,直到验证集准确率不再提升时,采用学习率ω2L1分别对负面信息判定分类任务和负面主体判定任务用进行训练,直到验证集准确率不再提升,停止训练得到model2
步骤4:将验证集中的数据分别输入到model1和model2中,得到model1输出的验证集准确率和model2输出的验证集准确率;
步骤5:对model1输出的验证集准确率和model2输出的验证集准确率进行归一化处理,得到加权和权重;
步骤6:根据加权和的权重对model1的负面信息判定分类任务的输出概率和model2的负面信息判定分类任务输出概率进行加权和,得到负面信息判定分类任务的输出概率;
步骤7:根据加权和的权重对model1的负面主体判定任务的输出概率和model2的负面主体判定任务输出概率进行加权和,得到负面主体判定任务的输出概率。
本发明通过将金融文本和其对应的金融实体进行单实体+金融文本输入文本的转换,构建联合模型,同时结合了负面信息判定和负面主体判定之间的相互关联性,避免了流水线模型的缺点,提高了识别准确率。
附图说明
图1为本发明实施例提供的一种对金融信息负面及主体判定方法流程图;
图2为本发明实施例提供的对金融文本信息描述和对应的金融实体列表转换成输入样本的例图;
图3为本发明实施例提供的联合模型图;
图4为本发明实施例提供的对联合模型进行训练与优化的例图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明用于对金融文本的负面信息判定和负面主体判定,因此金融文本对应的实体列表需提前通过专业手段获取。
一种基于大数据的金融信息负面主体判定分类方法,如图1所示,该方法包括:获取金融文本数据,对金融文本数据进行预处理;将预处理后的金融文本和对应的实体列表转换成单实体金融文本的输入样本;将输入样本输入到BERT模型中进行单词编码;将编码后的数据输入到训练好的联合模型中进行对应分类;根据分类结果判断当前金融行情。
由于互联网金融文本千变万化,将互联网金融文本数据划分为验证集和训练集。对金融文本数据进行预处理的过程包括:将原始金融文本数据集D中的金融文本输入到TF-IDF模型中进行向量化表示;随机选取N条文本作为训练集的初始样本,计算初始样本与原始金融文本数据集D中其他样本的余弦相似度;当余弦相似度的值大于阈值0.6时,将得到该相似度的样本加入训练集S中,其余样本作为验证集T。
预处理后的金融文本对应的实体列表可通过专业的抽取方式进行抽取得到。将预处理后的金融文本和对应的实体列表转换成单实体金融文本的输入样本的过程包括:对于每个金融实体,截取金融实体在金融文本首次出现的上下文作为单实体金融文本格式的输入样本;其中每条金融文本的输入样本数为N,即该金融文本中已知金融实体的个数为N。
如图2所示,将金融文本和对应的实体列表转换成单实体金融文本的输入样本的一个具体实施例。对一条有4个金融实体的金融文本,对每一个金融实体,由于在互联网相关金融文章中,往往首次出现的实体都包含了关于这个实体的观点信息,因此截取金融实体在金融文本首次出现的上下文,文本长度和为510,作为单实体+金融文本的格式的输入样本,构造4条单实体金融文本的格式的输入样本。
本发明为排除其他金融实体对输入的样本带来语义影响,使用[unused1]掩盖当前输入样本中的其他金融实体字符,为了强调当前实体需要考察的语义位置,使用[unused2]添加到当前输入样本对应的当前实体M中,即M对应“[unused2]M[unused2]”。将当前输入样本输入到预训练BERT模型中,得到输入样本向量表示。
单实体金融文本的格式的输入样本为:
X={e1,e2,…,em,x1,x2,…xn}
通过BERT模型对输入样本进行编码过程为:
步骤1:将输入样本X的数据格式转换为X*,其中X*的表达式为:
X*={cls,e1,e2,…,em,seq,x1,x2,…xn}
其中,ei表示实体位置i的字,m表示实体的字个数,xi表示金融文本位置i的字,n表示金融文本的长度,cls表示句子标识,seq表示金融实体与文本分隔符。
步骤2:将X*输入BERT模型进行编码,得到输入样本的向量表示;输出结果为:
Figure BDA0002796554860000061
其中,li∈Rd表示一个字的向量表示,R表示实数空间,d表示字向量的维度。
如图3所示,根据BERT模型输出的结果构建联合模型,所述联合模型是指根据负面信息判定分类任务和负面主体判定任务搭建深度学习结构。联合模型处理数据的过程为:首先对一条金融文本中的负面信息判定分类和负面主体判定,先判定一条文本的负面信息类型;根据负面信息类型的信息和对应的主体判定当前主体是否是负面主体。其具体的过程为:
步骤1:建立负面信息判定分类任务;首先将BERT模型输出的金融文本的字表征向量LA输入到平均池化层中,得到文档表征A={a1,a2,…,ad};将文档表征A输入到全连接层,得到负面信息判定分类任务的输出
Figure BDA0002796554860000067
金融文本的字表征向量LA为:
Figure BDA0002796554860000062
A表示d维向量,i表示金融文本字的位置i,
Figure BDA0002796554860000066
表示金融文本中位置i的字的向量。
负面信息判定分类任务的输出
Figure BDA0002796554860000063
的表达式为:
Figure BDA0002796554860000064
其中,FFN(.)表示全连接层,A表示文档表征。
Figure BDA0002796554860000065
的输出结为负面信息判断分类的预测结果,为一个概率值,概率值越大,说明该金融文本越有可能为负面金融文本。
步骤2:建立负面主体判定任务;将BERT模型输出的金融实体的字表征Le输入到平均池化层中,得到金融实体的词表征向量LE={b1,b2,…,bd}。
当BERT模型输出的金融实体的字表征为
Figure BDA0002796554860000071
其中,
Figure BDA0002796554860000072
表示金融实体位置i的字向量表示,LE为d维向量。
步骤3:将BERT模型输出的金融实体的字表征向量
Figure BDA0002796554860000073
和金融实体的词表征向量LE={b1,b2,…,bd},对金融文本表征
Figure BDA0002796554860000074
做基于key字的点积注意力机制和基于key词的点积注意力机制组合运算,得到金融实体的关键信息特征Latt。金融实体的关键信息特征Latt的公式为:
Figure BDA0002796554860000075
Figure BDA0002796554860000076
Figure BDA00027965548600000710
其中,fmean表示平均池化函数,
Figure BDA0002796554860000077
表示连接符号,
Figure BDA0002796554860000078
表示点乘符号,LE表示金融实体的词表征,
Figure BDA0002796554860000079
表示金融文本表征LA的转置,softmax(.)表示注意力权重归一化函数,LA表示金融实体的字表征。
步骤4:将关键信息特征Latt和负面信息判定分类任务的输出预测
Figure BDA00027965548600000711
输入到全连接层中进行合并,得到负面主体判定任务的输出预测
Figure BDA00027965548600000712
其中
Figure BDA00027965548600000713
为二分类的概率,与步骤1的输出的维度一致。
联合模型是用于对负面主体进行任务判定;如图4所示,在进行任务判定时,可以在负面信息判定分类任务之后进行,也可以和负面信息判定分类任务并行判断。
在对联合模型进行训练的过程中,采用不同的学习率和训练策略对模型及进行训练;训练后的结果进行融合优化得到最终的结果,其具体过程为:
步骤1:获取原始文本数据集,将数据集划分为训练集和测试集;
步骤2:同时对负面信息判定分类任务和负面主体判定任务用相同学习率L1=0.002进行训练,直到验证集的准确率不再提升时停止训练,得到model1
验证集的准确率为分类正确的样本除以总的样本。
步骤3:对负面信息判定分类任务以学习率L1=0.002进行训练,直到验证集负面信息判定分类任务的准确率不再提升;对负面信息判定分类任务使用学习率为ω1L1进行训练,其中ω1=0.1为缩小权重;负面主体判定任务用学习率L1进行训练,直到验证集准确率不再提升;负面信息判定分类任务和负面主体判定任务用学习率ω2L1进行训练,ω2=0.05为缩小权重,直到验证集准确率不再提升,停止训练得到model2
步骤4:将验证集中的数据分别输入到model1和model2中,得到model1输出的验证集准确率和model2输出的验证集准确率;
步骤5:对model1输出的验证集准确率和model2输出的验证集准确率进行归一化处理,得到加权和权重;
步骤6:根据加权和的权重对model1的负面信息判定分类任务的输出概率和model2的负面信息判定分类任务输出概率进行加权和,得到负面信息判定分类任务的输出概率;
步骤7:根据加权和的权重对model1的负面主体判定任务的输出概率和model2的负面主体判定任务输出概率进行加权和,得到负面主体判定任务的输出概率。
模型model1和模型model2是利用不同训练方法得到的模型,这里是对两个模型进行概率融合,即每个模型输出都有两个概率,一个是负面信息判定任务的概率,一个是负面主体判定任务的概率,分别对这两个概率进行融合,比如模型model1的负面信息判定任务的概率为0.7,model2的负面主体判定任务的概率为0.8,最终负面信息判定任务的概率为W1*0.7+W2*0.8,而W1,W2是对验证集准确率比值归一化的权重。对负面主体判定任务也是一样的,可以理解成这就是一个多任务通过不同的训练策略得到了两个模型,然后对结果进行概率融合。
对model1和model2进行加权和的公式为:
Figure BDA0002796554860000091
其中,acc1,acc2是两个模型验证集的准确率,y1,y2是两个模型的输出概率,最后得到的输出y可认为是最终的任务输出概率,即可以是负面信息判断任务的输出或者是负面主体判断的输出,最终可将两个输出概率相加判断当前金融文本是否包含了当前金融实体的负面信息,概率越大,可能性越大。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于大数据的金融信息负面主体判定分类方法,其特征在于,包括:获取金融文本数据,对金融文本数据进行预处理;将预处理后的金融文本和对应的实体列表转换成单实体金融文本的输入样本;将输入样本输入到BERT模型中进行单词编码;将编码后的数据输入到训练好的联合模型中进行对应分类;根据分类结果判断当前金融行情;采用构建的联合模型对输入的数据进行处理的过程包括:
步骤1:建立负面信息判定分类任务;将BERT模型输出的金融文本的字表征向量LA输入到平均池化层中,得到文本的文档表征A={a1,a2,…,ad};将文档表征A输入到全连接层,得到负面信息判定分类任务的输出
Figure FDA0003772416330000011
步骤2:建立负面主体判定任务,将BERT模型输出的金融实体的字表征Le输入到平均池化层中,得到金融实体的词表征向量LE={b1,b2,…,bd};
步骤3:将BERT模型输出的金融实体的字表征向量Le和金融实体的词表征向量LE对金融文本表征LA做基于key字的点积注意力机制和基于key词的点积注意力机制组合运算,得到金融实体的关键信息特征Latt
步骤4:将关键信息特征Latt和负面信息判定分类任务的输出预测
Figure FDA0003772416330000012
输入到全连接层中进行合并,得到负面主体判定任务的输出预测
Figure FDA0003772416330000013
2.根据权利要求1所述的一种基于大数据的金融信息负面主体判定分类方法,其特征在于,对金融文本数据进行预处理的过程包括:将金融文本数据输入到TF-IDF模型中进行向量化表示,随机选取N条文本作为训练集的初始样本;计算初始样本和原始数据集中的其他样本的余弦相似度;设置阈值,判断余弦相似度与设置的阈值大小;若样本的余弦相似度大于设置的阈值,则将该样本加入到训练集S中,其他的样本数据作为验证集。
3.根据权利要求1所述的一种基于大数据的金融信息负面主体判定分类方法,其特征在于,将预处理后的金融文本和对应的实体列表转换成单实体金融文本的输入样本的过程包括:对于每个金融实体,截取金融实体在金融文本首次出现的上下文作为单实体金融文本格式的输入样本X;其中每条金融文本的输入样本数为N,即该金融文本中已知金融实体的个数为N;输入样本X为:
X={e1,e2,…,em,x1,x2,…xn}
其中,ei表示实体位置i的字,m表示实体的字个数,xi表示金融文本位置i的字,n表示金融文本的长度。
4.根据权利要求1所述的一种基于大数据的金融信息负面主体判定分类方法,其特征在于,通过BERT模型对输入样本进行编码过程为:
步骤1:将输入样本X的数据格式转换为X*,其中X*的表达式为:
X*={cls,e1,e2,…,em,seq,x1,x2,…xn}
其中,ei表示实体位置i的字,m表示实体的字个数,xi表示金融文本位置i的字,n表示金融文本的长度,cls表示句子标识,seq表示金融实体与文本分隔符;
步骤2:将X*输入BERT模型进行编码,得到输入样本的向量表示;输出结果为:
Figure FDA0003772416330000025
其中,li∈Rd表示一个字的向量表示,R表示实数空间,d表示字向量的维度。
5.根据权利要求1所述的一种基于大数据的金融信息负面主体判定分类方法,其特征在于,金融实体的关键信息特征Latt的公式为:
Figure FDA0003772416330000021
Figure FDA0003772416330000022
Figure FDA0003772416330000023
其中,fmean表示平均池化函数,
Figure FDA0003772416330000024
表示连接符号,⊙表示点乘符号。
6.根据权利要求1所述的一种基于大数据的金融信息负面主体判定分类方法,其特征在于,对联合模型进行训练的过程包括:
步骤1:获取原始文本数据集,将数据集划分为训练集和测试集;
步骤2:将训练集中的数据输入到联合模型中,采用相同的学习率对负面信息判定分类任务和负面主体判定任务进行训练;在训练过程中计算验证集的准确率,当准确率不再提升时停止训练,得到model1
步骤3:采用学习率L1对负面信息判定分类任务进行训练,直到验证集负面信息判定分类任务的准确率不再提升时,采用学习率为ω1L1对负面信息判定分类任务进行训练;负面主体判定任务用学习率L1进行训练,直到验证集准确率不再提升时,采用学习率ω2L1分别对负面信息判定分类任务和负面主体判定任务用进行训练,直到验证集准确率不再提升,停止训练得到model2
步骤4:将验证集中的数据分别输入到model1和model2中,得到model1输出的验证集准确率和model2输出的验证集准确率;
步骤5:对model1输出的验证集准确率和model2输出的验证集准确率进行归一化处理,得到加权和权重;
步骤6:根据加权和的权重对model1的负面信息判定分类任务的输出概率和model2的负面信息判定分类任务输出概率进行加权和,得到负面信息判定分类任务的输出概率;
步骤7:根据加权和的权重对model1的负面主体判定任务的输出概率和model2的负面主体判定任务输出概率进行加权和,得到负面主体判定任务的输出概率,完成模型的训练。
CN202011333726.9A 2020-11-25 2020-11-25 一种基于大数据的金融信息负面主体判定分类方法 Active CN112445913B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011333726.9A CN112445913B (zh) 2020-11-25 2020-11-25 一种基于大数据的金融信息负面主体判定分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011333726.9A CN112445913B (zh) 2020-11-25 2020-11-25 一种基于大数据的金融信息负面主体判定分类方法

Publications (2)

Publication Number Publication Date
CN112445913A CN112445913A (zh) 2021-03-05
CN112445913B true CN112445913B (zh) 2022-09-27

Family

ID=74738432

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011333726.9A Active CN112445913B (zh) 2020-11-25 2020-11-25 一种基于大数据的金融信息负面主体判定分类方法

Country Status (1)

Country Link
CN (1) CN112445913B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113065348B (zh) * 2021-03-09 2024-04-16 北京工业大学 基于Bert模型的互联网负面信息监控方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105022725A (zh) * 2015-07-10 2015-11-04 河海大学 一种应用于金融Web领域的文本情感倾向分析方法
CN109165284A (zh) * 2018-08-22 2019-01-08 重庆邮电大学 一种基于大数据的金融领域人机对话意图识别方法
CN110297870A (zh) * 2019-05-30 2019-10-01 南京邮电大学 一种金融领域中文新闻标题情感分类方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10685743B2 (en) * 2014-03-21 2020-06-16 Ehr Command Center, Llc Data command center visual display system
US10437871B2 (en) * 2015-08-12 2019-10-08 Hithink Royalflush Information Network Co., Ltd. Method and system for sentiment analysis of information
CN108765545B (zh) * 2018-04-18 2022-05-03 山东聊建集团有限公司 一种基于bim技术的厨卫阳房间装饰深化设计方法
CN109871542B (zh) * 2019-03-08 2024-03-08 广东工业大学 一种文本知识提取方法、装置、设备及存储介质
CN110298403B (zh) * 2019-07-02 2023-12-12 北京金融大数据有限公司 一种财经新闻中企业主体的情感分析方法和系统
CN110609899B (zh) * 2019-08-29 2022-04-19 成都信息工程大学 一种基于改进bert模型的特定目标情感分类方法
CN110633359B (zh) * 2019-09-04 2022-03-29 北京百分点科技集团股份有限公司 语句等价性判断方法和装置
CN111090750A (zh) * 2019-12-23 2020-05-01 中国工商银行股份有限公司 一种信贷风控数据的处理方法及装置
CN111339774B (zh) * 2020-02-07 2022-11-29 腾讯科技(深圳)有限公司 文本的实体关系抽取方法和模型训练方法
CN111259987B (zh) * 2020-02-20 2023-12-29 民生科技有限责任公司 一种基于bert的多模型融合提取事件主体的方法
CN111695346B (zh) * 2020-06-16 2024-05-07 广州商品清算中心股份有限公司 一种提升金融风险防控领域舆情实体识别率的方法
CN111914553B (zh) * 2020-08-11 2023-10-31 民生科技有限责任公司 一种基于机器学习的金融信息负面主体判定的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105022725A (zh) * 2015-07-10 2015-11-04 河海大学 一种应用于金融Web领域的文本情感倾向分析方法
CN109165284A (zh) * 2018-08-22 2019-01-08 重庆邮电大学 一种基于大数据的金融领域人机对话意图识别方法
CN110297870A (zh) * 2019-05-30 2019-10-01 南京邮电大学 一种金融领域中文新闻标题情感分类方法

Also Published As

Publication number Publication date
CN112445913A (zh) 2021-03-05

Similar Documents

Publication Publication Date Title
US11631007B2 (en) Method and device for text-enhanced knowledge graph joint representation learning
CN111859978B (zh) 一种基于深度学习的情感文本生成方法
CN113255755B (zh) 一种基于异质融合网络的多模态情感分类方法
CN109635108B (zh) 一种基于人机交互的远程监督实体关系抽取方法
CN112269868B (zh) 一种基于多任务联合训练的机器阅读理解模型的使用方法
CN111506732B (zh) 一种文本多层次标签分类方法
CN115239937B (zh) 一种跨模态情感预测方法
CN109783645A (zh) 一种基于变分自编码的文本分类方法
CN116992005B (zh) 基于大模型及本地知识库的智能对话方法、系统及设备
CN113360582B (zh) 基于bert模型融合多元实体信息的关系分类方法及系统
CN111738006A (zh) 基于商品评论命名实体识别的问题生成方法
CN115062104A (zh) 融合知识提示的法律文本小样本命名实体识别方法
CN114648031A (zh) 基于双向lstm和多头注意力机制的文本方面级情感识别方法
CN111177010B (zh) 一种软件缺陷严重程度识别方法
CN113128206A (zh) 基于单词重要性加权的问题生成方法
CN112445913B (zh) 一种基于大数据的金融信息负面主体判定分类方法
CN111984780A (zh) 多意图识别模型训练方法和多意图识别方法及相关装置
CN112036169B (zh) 事件识别模型优化方法、装置、设备及可读存储介质
CN113886562A (zh) 一种ai简历筛选方法、系统、设备和存储介质
CN113032570A (zh) 一种基于ATAE-BiGRU的文本方面情感分类方法及系统
Wang et al. Linguistic steganalysis in few-shot scenario
CN117216265A (zh) 一种基于改进的图注意力网络新闻主题分类方法
US20230289528A1 (en) Method for constructing sentiment classification model based on metaphor identification
CN116186506A (zh) 基于bert预训练模型的可访问性问题报告的自动识别方法
CN113434698B (zh) 基于全层级注意力的关系抽取模型建立方法及其应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230517

Address after: Room 801, No. 85, Kefeng Road, Huangpu District, Guangzhou, Guangdong 510000 (office only)

Patentee after: Yami Technology (Guangzhou) Co.,Ltd.

Address before: 400065 Chongwen Road, Nanshan Street, Nanan District, Chongqing

Patentee before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS

Effective date of registration: 20230517

Address after: 1407-B08, 14F, Junkang Building Office Building, Intersection of Qunli Sixth Avenue and Langjiang Road, Daoli District, Harbin City, Heilongjiang Province, 150000 yuan

Patentee after: Heilongjiang Agricultural Investment Big Data Technology Co.,Ltd.

Address before: Room 801, No. 85, Kefeng Road, Huangpu District, Guangzhou, Guangdong 510000 (office only)

Patentee before: Yami Technology (Guangzhou) Co.,Ltd.