CN112347245A - 面向投融资领域机构的观点挖掘方法、装置和电子设备 - Google Patents

面向投融资领域机构的观点挖掘方法、装置和电子设备 Download PDF

Info

Publication number
CN112347245A
CN112347245A CN202011051181.2A CN202011051181A CN112347245A CN 112347245 A CN112347245 A CN 112347245A CN 202011051181 A CN202011051181 A CN 202011051181A CN 112347245 A CN112347245 A CN 112347245A
Authority
CN
China
Prior art keywords
financing
text
investment
viewpoint
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011051181.2A
Other languages
English (en)
Inventor
徐佳慧
裴乐琪
季书帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202011051181.2A priority Critical patent/CN112347245A/zh
Publication of CN112347245A publication Critical patent/CN112347245A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Game Theory and Decision Science (AREA)
  • Human Resources & Organizations (AREA)
  • Operations Research (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例公开了面向投融资领域机构的观点挖掘方法、装置和电子设备,该方法包括:对第一投融资新闻文本进行预处理;将第一投融资新闻文本转换为文本特征向量;构建面向投融资领域机构观点挖掘的深度学习模型;将文本特征向量输入到深度学习模型中进行训练,得到用于预测的面向投融资领域机构观点挖掘的观点挖掘模型;将第二投融资新闻文本输入到观点挖掘模型中,得到第二投融资新闻文本的观点类别;根据第一投融资新闻文本的观点类别和第二投融资新闻文本的观点类别对目标投融资机构的观点类别进行统计。本发明可以判断投融资新闻文本的两级观点,帮助风投机构分析师能够快速掌握创业机构的舆情信息,进一步为投资决策提供投资参考。

Description

面向投融资领域机构的观点挖掘方法、装置和电子设备
技术领域
本发明实施例涉及投融资领域,具体涉及面向投融资领域机构的观点挖掘方法、装置和电子设备。
背景技术
观点挖掘是自然语言处理(Natural Language Processing,NLP)领域最受欢迎的任务之一,对所挖掘出的相关领域舆论情感,各个领域都蕴含着巨大的商业价值。各大垂直领域的媒体网站通常会更新积累大量的新闻数据,其中不乏对特定行业特定领域的意见评价观点,而这些数据常常为挖掘特定观点提供了很好地素材,可以从侧面理解和掌握社交媒体对这些领域的情感和观点,帮助分析者解决商业和社会问题。
投融资机构包含风险投资机构和市场上选择未上市的初创企业,而风险投资主要是指风险投资机构向初创企业提供资金支持并取得该公司股份的一种融资方式,进而在后续的发展中协助初创企业获取更大的利润,从而追求长期利润的高风险但高报酬的行业。所以在风投机构通常需要投入大量的人力物力对创业企业进行情报搜集和分析,来支持其投资行为提供决策支持,而其中初创企业的社会舆论、所属领域的观点评价等,对投资决策所不可或缺的重要参考因素。而从大量公开的社会媒体中人工去发现观点倾向,耗时耗力,很可能在激烈的竞争中错失先机,失去对潜力企业的及时关注。
发明内容
本发明实施例的目的在于提供面向投融资领域机构的观点挖掘方法、装置和电子设备,用以解决现有无法从投融资新闻文本中获取目标投融资结构的观点的问题。
为实现上述目的,本发明实施例主要提供如下技术方案:
第一方面,本发明实施例提供了一种面向投融资领域机构的观点挖掘方法,包括:
S1:对第一投融资新闻文本进行预处理,去除所述第一投融资新闻文本中的第一类型字符;
S2:将去除第一类型字符后的第一投融资新闻文本转换为文本特征向量;
S3:构建面向投融资领域机构观点挖掘的深度学习模型,所述深度学习模型包括文本序列输入层、文本序列语义抽取层、文本序列结构语义抽取层和观点预测输出层;
S4:将所述文本特征向量输入到所述深度学习模型中进行训练,得到用于预测的面向投融资领域机构观点挖掘的观点挖掘模型;
S5:将第二投融资新闻文本输入到所述观点挖掘模型中,得到所述第二投融资新闻文本的观点类别;
S6:根据所述第一投融资新闻文本的观点类别和所述第二投融资新闻文本的观点类别对目标投融资机构的观点类别进行统计。
根据本发明的一个实施例,所述第一类型字符包括无效的非文本符号和停用词。
根据本发明的一个实施例,步骤S2包括:
S2-1:对中文字符长度超过预设长度阈值的投融资新闻文本,对文本起始位置和超过所述预设长度阈值的部分分别填充第一字符和第二字符;
S2-2:按照预训练BERT模型的词汇库的索引号对填充字字符后的第一投融资新闻文本转换成字符向量Vtoken、以及位置向量Vposition
S2-3:对字的共现关系来构建投融资新闻文本的无向图,其中一个文本对应一个文本图,共现窗口大小设置为Wn,并获得文本图中边矩阵Medges
S2-4:对积极观点的投融资新闻文本标记为1,对消极观点的投融资新闻文本标记为0。
根据本发明的一个实施例,步骤S3包括:
S3-1:将所述字符向量Vtoken和所述位置向量Vposition作为预训练BERT模型的输入,获得文本序列输入矩阵Minput,将所述文本序列输入矩阵Minput作为所述文本序列输入层;
S3-2:通过基于注意力机制的双向门控循环神经网络层来抽取输入层的语义向量得到所述文本序列语义抽取层;
S3-3:通过投融资新闻文本图注意力网络层来抽取的输入层文本整体结构的语义向量得到所述文本序列结构语义抽取层;
S3-4:将所述输入层文本整体结构的语义向量经过对过拟合问题和全连接层的处理得到所述观点预测输出层,根据所述文本序列输入层、所述文本序列语义抽取层、所述文本序列结构语义抽取层和所述观点预测输出层得到所述深度学习模型。
根据本发明的一个实施例,步骤S4包括:
S4-1:对所述与处理后的第一投融资新闻文本分为训练样本和测试样本;
S4-2:获取给定的损失函数、优化器算法和训练样本的迭代次数;
S4-3:根据所述给定的损失函数、优化器算法和训练样本的迭代次数,每轮更新采用小批量梯度下降法进行参数更新,其中每轮epoch迭代用于更新模型参数所使用的样本量为Nbatch
S4-4:循环执行S4-3,直至达到设定的Nepoch截止,得到所述观点挖掘模型。
第二方面,本发明实施例还提供一种面向投融资领域机构的观点挖掘装置,包括:
获取模块,用于获取第一投融资新闻文本和第二投融资新闻文本;
控制处理模块,用于对所述第一投融资新闻文本进行预处理,去除所述第一投融资新闻文本中的第一类型字符,并将去除第一类型字符后的第一投融资新闻文本转换为文本特征向量;所述控制处理模块还用于构建面向投融资领域机构观点挖掘的深度学习模型,所述深度学习模型包括文本序列输入层、文本序列语义抽取层、文本序列结构语义抽取层和观点预测输出层,并将所述文本特征向量输入到所述深度学习模型中进行训练,得到用于预测的面向投融资领域机构观点挖掘的观点挖掘模型;所述控制处理模块还用于将所述第二投融资新闻文本输入到所述观点挖掘模型中,得到所述第二投融资新闻文本的观点类别,并根据所述第一投融资新闻文本的观点类别和所述第二投融资新闻文本的观点类别对目标投融资机构的观点类别进行统计。
根据本发明的一个实施例,所述第一类型字符包括无效的非文本符号和停用词。
根据本发明的一个实施例,所述控制处理模块具体用于对中文字符长度超过预设长度阈值的投融资新闻文本,对文本起始位置和超过所述预设长度阈值的部分分别填充第一字符和第二字符;按照预训练BERT模型的词汇库的索引号对填充字字符后的第一投融资新闻文本转换成字符向量Vtoken、以及位置向量Vposition;对字的共现关系来构建投融资新闻文本的无向图,其中一个文本对应一个文本图,共现窗口大小设置为Wn,并获得文本图中边矩阵Medges;对积极观点的投融资新闻文本标记为1,对消极观点的投融资新闻文本标记为0。
根据本发明的一个实施例,所述控制处理模块具体用于将所述字符向量Vtoken和所述位置向量Vposition作为预训练BERT模型的输入,获得文本序列输入矩阵Minput,将所述文本序列输入矩阵Minput作为所述文本序列输入层;通过基于注意力机制的双向门控循环神经网络层来抽取输入层的语义向量得到所述文本序列语义抽取层;通过投融资新闻文本图注意力网络层来抽取的输入层文本整体结构的语义向量得到所述文本序列结构语义抽取层;将所述输入层文本整体结构的语义向量经过对过拟合问题和全连接层的处理得到所述观点预测输出层,根据所述文本序列输入层、所述文本序列语义抽取层、所述文本序列结构语义抽取层和所述观点预测输出层得到所述深度学习模型。
根据本发明的一个实施例,所述控制处理模块具体用于对所述与处理后的第一投融资新闻文本分为训练样本和测试样本;获取给定的损失函数、优化器算法和训练样本的迭代次数;根据所述给定的损失函数、优化器算法和训练样本的迭代次数,每轮更新采用小批量梯度下降法进行参数更新,其中每轮epoch迭代用于更新模型参数所使用的样本量为Nbatch;循环更新模型参数,直至达到设定的Nepoch截止,得到所述观点挖掘模型。
第三方面,本发明实施例还提供一种电子设备,包括:至少一个处理器和至少一个存储器;所述存储器用于存储一个或多个程序指令;所述处理器,用于运行一个或多个程序指令,用以执行如第一方面所述的方法。
第四方面,本发明实施例还提供一种计算机可读存储介质,包含一个或多个程序指令,所述一个或多个程序指令用于被执行如第一方面所述的方法。
本发明实施例提供的技术方案至少具有如下优点:
本发明实施例提供的面向投融资领域机构的观点挖掘方法、装置和电子设备,通过所训练深度学习模型可自动评估投融资相关新闻文本中所体现的相关机构或者行业的观点倾向,提供给风投数据分析师挖掘出投融资机构相关社会舆论观点,辅助其做出正确的投资决策。
本发明从通过预训练模型BERT将需要投融资领域新闻文本转换成以字为单位的向量表示,结合基于注意力机制的双向门控循环神经网络所获得文本序列表示,能够学习到文本序列的上下文语义表示,同时能够重点关注到文本序列中的与任务关联度较高的关键信息,将其作为后续图神经网络层的输入,可提升投融资领域新闻文本观点挖掘的效果。
本发明创造性的将文本序列向量表示结合所构建的文本序列的共现文本图作为输入,使用图注意力神经网络学习,有效的利用了文本结构信息,关注邻接信息的关注度,进一步的发现与任务相关的关键信息,提升文本表示能力,来提升投融资领域新闻文本观点挖掘的效果
附图说明
图1为本发明实施例的面向投融资领域机构的观点挖掘方法的流程图。
图2为本发明实施例的面向投融资领域机构的观点挖掘装置的结构框图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本发明。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
在本发明的描述中,需要理解的是,术语“第一”和“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“连接”应做广义理解,例如可以是直接连接,也可以通过中间媒介间接连接。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
图1为本发明实施例的面向投融资领域机构的观点挖掘方法的流程图。如图1所示,本发明实施例的面向投融资领域机构的观点挖掘方法,包括:
S1:对第一投融资新闻文本进行预处理,去除第一投融资新闻文本中的第一类型字符。
在本发明的一个实施例中,第一类型字符包括无效的非文本符号和停用词。
其中,无效的非文本符号包括:["#$%&'()*+,-/:;<=>@[\]^_`{|}~
Figure BDA0002709605810000061
、、〃〈〉《》「」『』【】〔〕〖〗
Figure BDA0002709605810000062
~〝〞、、
Figure BDA0002709605810000063
–—‘’‘“”,
Figure BDA0002709605810000064
…﹏﹑﹔·!?。。]','[!"#$%&\'()*+,-./:;<=>?@[\]^_`{|}~],等等。
停用词采用合并了哈工大、百度、四川大学机器智能实验室的停用词库。
S2:将去除第一类型字符后的第一投融资新闻文本转换为文本特征向量。
在本发明的一个实施例中,步骤S2包括:
S2-1:对中文字符长度超过预设长度阈值的投融资新闻文本,对文本起始位置和超过预设长度阈值的部分分别填充第一字符和第二字符。
示例性地,对中文字符长度超过510的投融资新闻文本,截取出前510长度字符,并对所有文本起始位置填充[SEP]字符,对于中文字符长度少于510的后续部分补充为[PAD]字符。
S2-2:按照预训练BERT模型的词汇库的索引号对填充字字符后的第一投融资新闻文本转换成字符向量Vtoken、以及位置向量Vposition
S2-3:对字的共现关系来构建投融资新闻文本的无向图。其中一个文本对应一个文本图,共现窗口大小设置为Wn,并获得文本图中边矩阵Medges
S2-4:对积极观点的投融资新闻文本标记为1,对消极观点的投融资新闻文本标记为0。
S3:构建面向投融资领域机构观点挖掘的深度学习模型,深度学习模型包括文本序列输入层、文本序列语义抽取层、文本序列结构语义抽取层和观点预测输出层。
在本发明的一个实施例中,步骤S3包括:
S3-1:将字符向量Vtoken和位置向量Vposition作为预训练BERT模型的输入,获得文本序列输入矩阵Minput,即为文本序列输入层。其中设定字向量的特征维度为Nbert-input
S3-2:通过基于注意力机制的双向门控循环神经网络(Attention-Based Bi-GRU)层来抽取输入层的语义向量,得到文本序列语义抽取层。
在本发明的一个实施例中,步骤S3-2包括:
S3-2-1:将S3-1预处理的文本序列输入矩阵Minput输入由双向门控循环神经网络构建的网络层中,一层门控循环神经网络对文本序列由前到后的序列抽取语义特征
Figure BDA0002709605810000071
另一层门控循环神经网络对文本序列由后到前的序列抽取语义特征
Figure BDA0002709605810000081
其中设置单个门控循环神经网络的隐藏层数量为NGRU。结合正向语义特征
Figure BDA0002709605810000082
和语义特征
Figure BDA0002709605810000083
的合并,即获得词向量长度为2*NGRU的语义序列输出矩阵Mbi_GRU。门控循环神经网络相关公式如下:
zt=σ(Wzxt+Uzht-1+bz)
rt=σ(Wrxt+Urht-1+br)
Figure BDA0002709605810000084
Figure BDA0002709605810000085
其中zt表示更新门,ht-1为上一个隐藏状态,xt为当前的输入,z、Uz分别表示输入和上一时刻隐层到更新门zt的权重矩阵,z表示更新门的偏置项,σ表示Sigmoid函数;t表示重置门,Wr、Ur输入和上一时刻隐层到重置门rt的权重矩阵,br表示重置门的偏置项;Wh、Uh分别表示输入和上一时刻的隐层到候选隐藏状态
Figure BDA0002709605810000086
的权重矩阵,h表示待选状态的偏置项;⊙表示哈达玛积(Hadamard product),ht即为最终的隐藏状态。
S3-2-2:由S3-2-1的语义序列输出矩阵Mbi_GRU来计算文本序列的注意力权重Wattention。注意力权重计算相关公式如下:
u=tanh(Wu Mattn_bi_GRU+b)
wa=softmax(uTuw)
其中Wu表示由双向门控循环神经网络的输出计算出词注意力层的隐含层u的权重,b表示对应的偏置项,w即表示需训练的上下文向量,uT表示u的转置操作,wa即为经过softmax归一化得到权重。
S3-2-3:对由双向门控循环神经网络获得的原语义序列输出矩阵Mbi_GRU与文本序列的注意力权重Wattention进行内积计算,生成新的语义序列输出矩阵Mattn_bi_GRU
S3-3:通过投融资新闻文本图注意力网络层来抽取的输入层文本整体结构的语义向量得到文本序列结构语义抽取层。
在本发明的一个实施例中,步骤S3-3包括:
S3-3-1:构建单个图注意力网络层,相关公式如下:
eij=αT(Whi||Whj)
αij=softmax(FLeakyRelu(eij))
Figure BDA0002709605810000091
其中||表示拼接,W表示一个被所有节点特征向量hi所共享的权重矩阵,αT表示,eij节点j相对于节点i的重要性度量值,αij为eij归一化后的权重系数,
Figure BDA0002709605810000092
即为最终的图神经网络所计算的隐藏状态;
Figure BDA0002709605810000093
其中FLeakyRelu为激活函数,xi表示神经元i数值,α对负值输入斜率;
S3-3-2:将隐藏层向量使用ReLU激活函数进非线性变换:
S3-3-3:叠加NGAL次由两个部分组成的文本图注意力层;
S3-3-4:添加经过文本图注意力层所获得的投融资新闻文本图隐藏层HGAL进行全局均值池化处理,生成新的隐藏层Hpooling
S3-4:将输入层文本整体结构的语义向量经过对过拟合问题和全连接层的处理得到观点预测输出层,根据文本序列输入层、文本序列语义抽取层、文本序列结构语义抽取层和观点预测输出层得到深度学习模型。
在本发明的一个实施例中,步骤S3-4包括:
S3-4-1:添加对神经元剔除概率为pDropout的舍弃(Dropout)层,设置该层的参数为α激活函数为LeakyRelu函数,生成新的隐藏层Hdropout;。相关公式如下:
r(l)~Bernoulli(pDropout),
Figure BDA0002709605810000094
Figure BDA0002709605810000095
其中l中表示当前深度神经网络层的第l层,Bernoulli函数生成第第l层保留神经元数量的概率r(l),y(l)表示第l层的神经元向量,
Figure BDA0002709605810000096
表示其中第l层的保留的神经元向量,
Figure BDA0002709605810000097
表示神经元i从第l层传递到第l+1层之间的各参数权重,
Figure BDA0002709605810000098
为对应的偏置,FLeakyRelu为激活函数。
S3-4-2:添加全连接层,转换特征维度为投融资新闻文本观点类别数的输出特征,并对该输出层进行softmax归一化处理,获得输出层。
S4:将文本特征向量输入到深度学习模型中进行训练,得到用于预测的面向投融资领域机构观点挖掘的观点挖掘模型。
在本发明的一个实施例中,步骤S4包括:
S4-1:对与处理后的第一投融资新闻文本分为训练样本和测试样本。其中,训练样本可以为第一投融资新闻文本中总样本的80%,测试样本为总样本的20%。
S4-2:获取给定的损失函数、优化器算法和训练样本的迭代次数。其中,损失函数为交叉熵损失函数,并添加L2正则化项;优化器算法为optimizer。迭代次数为Nepoch,并迭代更新模型。
S4-3:根据给定的损失函数、优化器算法和训练样本的迭代次数,每轮更新采用小批量梯度下降法进行参数更新,其中每轮epoch迭代用于更新模型参数所使用的样本量为Nbatch
S4-4:循环执行S4-3,直至达到设定的Nepoch截止,得到观点挖掘模型。
S5:将第二投融资新闻文本输入到观点挖掘模型中,得到第二投融资新闻文本的观点类别,补充剩余未标注投融资新闻文本的观点类别。
S6:根据第一投融资新闻文本的观点类别和第二投融资新闻文本的观点类别对目标投融资机构的观点类别进行统计。
具体地,对投融资新闻文本中所提及的投融资机构进行匹配关联,即反映该投融资机构的所属的观点类别,对不同观点类别的文本数量进行统计,最终计算出相应的百分比,大于50%的观点类别即为最终的观点类别。
对投融资新闻文本中未提及的投融资机构进行关联,通过投融资新闻文本的所属的领域类型间接统计,即与投融资机构属于同一领域类别的新闻文本进行不同观点类别的统计,同样大于50%的观点类别即为最终的观点类别。
图2为本发明实施例的面向投融资领域机构的观点挖掘装置的结构框图。如图2所示,本发明实施例的面向投融资领域机构的观点挖掘装置,包括:获取模块100和控制处理模块200。
其中,获取模块100用于获取第一投融资新闻文本和第二投融资新闻文本。控制处理模块200用于对第一投融资新闻文本进行预处理,去除第一投融资新闻文本中的第一类型字符,并将去除第一类型字符后的第一投融资新闻文本转换为文本特征向量。控制处理模块200还用于构建面向投融资领域机构观点挖掘的深度学习模型,深度学习模型包括文本序列输入层、文本序列语义抽取层、文本序列结构语义抽取层和观点预测输出层,并将文本特征向量输入到深度学习模型中进行训练,得到用于预测的面向投融资领域机构观点挖掘的观点挖掘模型。控制处理模块200还用于将第二投融资新闻文本输入到观点挖掘模型中,得到第二投融资新闻文本的观点类别,并根据第一投融资新闻文本的观点类别和第二投融资新闻文本的观点类别对目标投融资机构的观点类别进行统计。
在本发明的一个实施例中,第一类型字符包括无效的非文本符号和停用词。
在本发明的一个实施例中,控制处理模块200具体用于对中文字符长度超过预设长度阈值的投融资新闻文本,对文本起始位置和超过预设长度阈值的部分分别填充第一字符和第二字符;按照预训练BERT模型的词汇库的索引号对填充字字符后的第一投融资新闻文本转换成字符向量Vtoken、以及位置向量Vposition;对字的共现关系来构建投融资新闻文本的无向图,其中一个文本对应一个文本图,共现窗口大小设置为Wn,并获得文本图中边矩阵Medges;对积极观点的投融资新闻文本标记为1,对消极观点的投融资新闻文本标记为0。
在本发明的一个实施例中,控制处理模块200具体用于将字符向量Vtoken和位置向量Vposition作为预训练BERT模型的输入,获得文本序列输入矩阵Minput,将文本序列输入矩阵Minput作为文本序列输入层;通过基于注意力机制的双向门控循环神经网络层来抽取输入层的语义向量得到文本序列语义抽取层;通过投融资新闻文本图注意力网络层来抽取的输入层文本整体结构的语义向量得到文本序列结构语义抽取层;将输入层文本整体结构的语义向量经过对过拟合问题和全连接层的处理得到观点预测输出层,根据文本序列输入层、文本序列语义抽取层、文本序列结构语义抽取层和观点预测输出层得到深度学习模型。
在本发明的一个实施例中,控制处理模块200具体用于对与处理后的第一投融资新闻文本分为训练样本和测试样本;获取给定的损失函数、优化器算法和训练样本的迭代次数;根据给定的损失函数、优化器算法和训练样本的迭代次数,每轮更新采用小批量梯度下降法进行参数更新,其中每轮epoch迭代用于更新模型参数所使用的样本量为Nbatch;循环更新模型参数,直至达到设定的Nepoch截止,得到观点挖掘模型。
需要说明的是,本发明实施例的面向投融资领域机构的观点挖掘装置的具体实施方式与本发明实施例的面向投融资领域机构的观点挖掘方法的具体实施方式类似,具体参见面向投融资领域机构的观点挖掘方法部分的描述,为了减少冗余,不做赘述。
另外,本发明实施例的面向投融资领域机构的观点挖掘装置的其它构成以及作用对于本领域的技术人员而言都是已知的,为了减少冗余,不做赘述。
本发明实施例还提供一种电子设备,包括:至少一个处理器和至少一个存储器;所述存储器用于存储一个或多个程序指令;所述处理器,用于运行一个或多个程序指令,用以执行如第一方面所述的面向投融资领域机构的观点挖掘方法。
本发明所公开的实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序指令,当所述计算机程序指令在计算机上运行时,使得计算机执行上述的面向投融资领域机构的观点挖掘方法。
在本发明实施例中,处理器可以是一种集成电路芯片,具有信号的处理能力。处理器可以是通用处理器、数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。处理器读取存储介质中的信息,结合其硬件完成上述方法的步骤。
存储介质可以是存储器,例如可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。
其中,非易失性存储器可以是只读存储器(Read-Only Memory,简称ROM)、可编程只读存储器(Programmable ROM,简称PROM)、可擦除可编程只读存储器(Erasable PROM,简称EPROM)、电可擦除可编程只读存储器(Electrically EPROM,简称EEPROM)或闪存。
易失性存储器可以是随机存取存储器(Random Access Memory,简称RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,简称SRAM)、动态随机存取存储器(Dynamic RAM,简称DRAM)、同步动态随机存取存储器(Synchronous DRAM,简称SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM,简称DDRSDRAM)、增强型同步动态随机存取存储器(EnhancedSDRAM,简称ESDRAM)、同步连接动态随机存取存储器(Synch Link DRAM,简称SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,简称DRRAM)。
本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件与软件组合来实现。当应用软件时,可以将相应功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (10)

1.一种面向投融资领域机构的观点挖掘方法,其特征在于,包括:
S1:对第一投融资新闻文本进行预处理,去除所述第一投融资新闻文本中的第一类型字符;
S2:将去除第一类型字符后的第一投融资新闻文本转换为文本特征向量;
S3:构建面向投融资领域机构观点挖掘的深度学习模型,所述深度学习模型包括文本序列输入层、文本序列语义抽取层、文本序列结构语义抽取层和观点预测输出层;
S4:将所述文本特征向量输入到所述深度学习模型中进行训练,得到用于预测的面向投融资领域机构观点挖掘的观点挖掘模型;
S5:将第二投融资新闻文本输入到所述观点挖掘模型中,得到所述第二投融资新闻文本的观点类别;
S6:根据所述第一投融资新闻文本的观点类别和所述第二投融资新闻文本的观点类别对目标投融资机构的观点类别进行统计。
2.根据权利要求1所述的面向投融资领域机构的观点挖掘方法,其特征在于,步骤S2包括:
S2-1:对中文字符长度超过预设长度阈值的投融资新闻文本,对文本起始位置和超过所述预设长度阈值的部分分别填充第一字符和第二字符;
S2-2:按照预训练BERT模型的词汇库的索引号对填充字字符后的第一投融资新闻文本转换成字符向量Vtoken、以及位置向量Vposition
S2-3:对字的共现关系来构建投融资新闻文本的无向图,其中一个文本对应一个文本图,共现窗口大小设置为Wn,并获得文本图中边矩阵Medges
S2-4:对积极观点的投融资新闻文本标记为1,对消极观点的投融资新闻文本标记为0。
3.根据权利要求2所述的面向投融资领域机构的观点挖掘方法,其特征在于,步骤S3包括:
S3-1:将所述字符向量Vtoken和所述位置向量Vposition作为预训练BERT模型的输入,获得文本序列输入矩阵Minput,将所述文本序列输入矩阵Minput作为所述文本序列输入层;
S3-2:通过基于注意力机制的双向门控循环神经网络层来抽取输入层的语义向量得到所述文本序列语义抽取层;
S3-3:通过投融资新闻文本图注意力网络层来抽取的输入层文本整体结构的语义向量得到所述文本序列结构语义抽取层;
S3-4:将所述输入层文本整体结构的语义向量经过对过拟合问题和全连接层的处理得到所述观点预测输出层,根据所述文本序列输入层、所述文本序列语义抽取层、所述文本序列结构语义抽取层和所述观点预测输出层得到所述深度学习模型。
4.根据权利要求3所述的面向投融资领域机构的观点挖掘方法,其特征在于,步骤S4包括:
S4-1:对所述与处理后的第一投融资新闻文本分为训练样本和测试样本;
S4-2:获取给定的损失函数、优化器算法和训练样本的迭代次数;
S4-3:根据所述给定的损失函数、优化器算法和训练样本的迭代次数,每轮更新采用小批量梯度下降法进行参数更新,其中每轮epoch迭代用于更新模型参数所使用的样本量为Nbatch
S4-4:循环执行S4-3,直至达到设定的Nepoch截止,得到所述观点挖掘模型。
5.一种面向投融资领域机构的观点挖掘装置,其特征在于,包括:
获取模块,用于获取第一投融资新闻文本和第二投融资新闻文本;
控制处理模块,用于对所述第一投融资新闻文本进行预处理,去除所述第一投融资新闻文本中的第一类型字符,并将去除第一类型字符后的第一投融资新闻文本转换为文本特征向量;所述控制处理模块还用于构建面向投融资领域机构观点挖掘的深度学习模型,所述深度学习模型包括文本序列输入层、文本序列语义抽取层、文本序列结构语义抽取层和观点预测输出层,并将所述文本特征向量输入到所述深度学习模型中进行训练,得到用于预测的面向投融资领域机构观点挖掘的观点挖掘模型;所述控制处理模块还用于将所述第二投融资新闻文本输入到所述观点挖掘模型中,得到所述第二投融资新闻文本的观点类别,并根据所述第一投融资新闻文本的观点类别和所述第二投融资新闻文本的观点类别对目标投融资机构的观点类别进行统计。
6.根据权利要求5所述的面向投融资领域机构的观点挖掘装置,其特征在于,所述控制处理模块具体用于对中文字符长度超过预设长度阈值的投融资新闻文本,对文本起始位置和超过所述预设长度阈值的部分分别填充第一字符和第二字符;按照预训练BERT模型的词汇库的索引号对填充字字符后的第一投融资新闻文本转换成字符向量Vtoken、以及位置向量Vposition;对字的共现关系来构建投融资新闻文本的无向图,其中一个文本对应一个文本图,共现窗口大小设置为Wn,并获得文本图中边矩阵Medges;对积极观点的投融资新闻文本标记为1,对消极观点的投融资新闻文本标记为0。
7.根据权利要求6所述的面向投融资领域机构的观点挖掘装置,其特征在于,所述控制处理模块具体用于将所述字符向量Vtoken和所述位置向量Vposition作为预训练BERT模型的输入,获得文本序列输入矩阵Minput,将所述文本序列输入矩阵Minput作为所述文本序列输入层;通过基于注意力机制的双向门控循环神经网络层来抽取输入层的语义向量得到所述文本序列语义抽取层;通过投融资新闻文本图注意力网络层来抽取的输入层文本整体结构的语义向量得到所述文本序列结构语义抽取层;将所述输入层文本整体结构的语义向量经过对过拟合问题和全连接层的处理得到所述观点预测输出层,根据所述文本序列输入层、所述文本序列语义抽取层、所述文本序列结构语义抽取层和所述观点预测输出层得到所述深度学习模型。
8.根据权利要求7所述的面向投融资领域机构的观点挖掘装置,其特征在于,所述控制处理模块具体用于对所述与处理后的第一投融资新闻文本分为训练样本和测试样本;获取给定的损失函数、优化器算法和训练样本的迭代次数;根据所述给定的损失函数、优化器算法和训练样本的迭代次数,每轮更新采用小批量梯度下降法进行参数更新,其中每轮epoch迭代用于更新模型参数所使用的样本量为Nbatch;循环更新模型参数,直至达到设定的Nepoch截止,得到所述观点挖掘模型。
9.一种电子设备,其特征在于,所述电子设备包括:至少一个处理器和至少一个存储器;
所述存储器用于存储一个或多个程序指令;
所述处理器,用于运行一个或多个程序指令,用以执行如权利要求1-4任一项所述的面向投融资领域机构的观点挖掘方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包含一个或多个程序指令,所述一个或多个程序指令用于执行如权利要求1-4任一项所述的面向投融资领域机构的观点挖掘方法。
CN202011051181.2A 2020-09-29 2020-09-29 面向投融资领域机构的观点挖掘方法、装置和电子设备 Pending CN112347245A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011051181.2A CN112347245A (zh) 2020-09-29 2020-09-29 面向投融资领域机构的观点挖掘方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011051181.2A CN112347245A (zh) 2020-09-29 2020-09-29 面向投融资领域机构的观点挖掘方法、装置和电子设备

Publications (1)

Publication Number Publication Date
CN112347245A true CN112347245A (zh) 2021-02-09

Family

ID=74361264

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011051181.2A Pending CN112347245A (zh) 2020-09-29 2020-09-29 面向投融资领域机构的观点挖掘方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN112347245A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792545A (zh) * 2021-11-16 2021-12-14 成都索贝数码科技股份有限公司 一种基于深度学习的新闻事件活动名称抽取方法
US11526774B2 (en) * 2020-12-15 2022-12-13 Zhejiang Lab Method for automatically compressing multitask-oriented pre-trained language model and platform thereof
CN117114739A (zh) * 2023-09-27 2023-11-24 数据空间研究院 一种企业供应链信息挖掘方法、挖掘系统及存储介质
CN117911161A (zh) * 2024-01-25 2024-04-19 广东顺银产融投资有限公司 一种项目投资决策方法、装置和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110209821A (zh) * 2019-06-06 2019-09-06 北京奇艺世纪科技有限公司 文本类别确定方法和装置
CN110750648A (zh) * 2019-10-21 2020-02-04 南京大学 一种基于深度学习和特征融合的文本情感分类方法
CN111368088A (zh) * 2020-03-31 2020-07-03 成都信息工程大学 一种基于深度学习的文本情感分类方法
CN111476024A (zh) * 2020-02-29 2020-07-31 新华三大数据技术有限公司 一种文本分词方法、装置及模型训练方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110209821A (zh) * 2019-06-06 2019-09-06 北京奇艺世纪科技有限公司 文本类别确定方法和装置
CN110750648A (zh) * 2019-10-21 2020-02-04 南京大学 一种基于深度学习和特征融合的文本情感分类方法
CN111476024A (zh) * 2020-02-29 2020-07-31 新华三大数据技术有限公司 一种文本分词方法、装置及模型训练方法
CN111368088A (zh) * 2020-03-31 2020-07-03 成都信息工程大学 一种基于深度学习的文本情感分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
""金融知识图谱构建关键技术研究与原型实现"", 《知网》, pages 2 - 4 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11526774B2 (en) * 2020-12-15 2022-12-13 Zhejiang Lab Method for automatically compressing multitask-oriented pre-trained language model and platform thereof
CN113792545A (zh) * 2021-11-16 2021-12-14 成都索贝数码科技股份有限公司 一种基于深度学习的新闻事件活动名称抽取方法
CN117114739A (zh) * 2023-09-27 2023-11-24 数据空间研究院 一种企业供应链信息挖掘方法、挖掘系统及存储介质
CN117114739B (zh) * 2023-09-27 2024-05-03 数据空间研究院 一种企业供应链信息挖掘方法、挖掘系统及存储介质
CN117911161A (zh) * 2024-01-25 2024-04-19 广东顺银产融投资有限公司 一种项目投资决策方法、装置和存储介质

Similar Documents

Publication Publication Date Title
Wang et al. A deep learning approach for credit scoring of peer-to-peer lending using attention mechanism LSTM
US11687728B2 (en) Text sentiment analysis method based on multi-level graph pooling
US11941366B2 (en) Context-based multi-turn dialogue method and storage medium
CN112347245A (zh) 面向投融资领域机构的观点挖掘方法、装置和电子设备
Wen et al. Learning text representation using recurrent convolutional neural network with highway layers
CN110472042B (zh) 一种细粒度情感分类方法
CN109766557B (zh) 一种情感分析方法、装置、存储介质及终端设备
CN107562784A (zh) 基于ResLCNN模型的短文本分类方法
CN109214006B (zh) 图像增强的层次化语义表示的自然语言推理方法
Zhao et al. The study on the text classification for financial news based on partial information
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN110765269A (zh) 基于动态词向量和层级神经网络的文档级情感分类方法
US20210097371A1 (en) Generative adversarial network with dynamic capacity expansion for continual learning
Li et al. Piecewise convolutional neural networks with position attention and similar bag attention for distant supervision relation extraction
CN115906816A (zh) 一种基于Bert的双通道Attention模型的文本情感分析方法
Yuan et al. Deep learning from a statistical perspective
Wang et al. Sentiment analysis of commodity reviews based on ALBERT-LSTM
CN113343711A (zh) 工单生成方法、装置、设备及存储介质
CN116089605A (zh) 基于迁移学习和改进词袋模型的文本情感分析方法
CN109635289A (zh) 词条分类方法及审计信息抽取方法
Gillmann et al. Quantification of Economic Uncertainty: a deep learning approach
CN114020901A (zh) 一种结合主题挖掘和情感分析的金融舆情分析方法
Zhang et al. Tailoring an interpretable neural language model
CN113515947B (zh) 一种用于级联地名实体识别模型的训练方法
CN110413995A (zh) 一种基于双向mgu神经网络的关系抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination