CN112347245A - 面向投融资领域机构的观点挖掘方法、装置和电子设备 - Google Patents
面向投融资领域机构的观点挖掘方法、装置和电子设备 Download PDFInfo
- Publication number
- CN112347245A CN112347245A CN202011051181.2A CN202011051181A CN112347245A CN 112347245 A CN112347245 A CN 112347245A CN 202011051181 A CN202011051181 A CN 202011051181A CN 112347245 A CN112347245 A CN 112347245A
- Authority
- CN
- China
- Prior art keywords
- financing
- text
- investment
- viewpoint
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000005065 mining Methods 0.000 title claims abstract description 56
- 230000007246 mechanism Effects 0.000 title claims abstract description 41
- 238000000034 method Methods 0.000 title claims abstract description 31
- 239000013598 vector Substances 0.000 claims abstract description 65
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000013136 deep learning model Methods 0.000 claims abstract description 27
- 238000009412 basement excavation Methods 0.000 claims abstract description 8
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 238000000605 extraction Methods 0.000 claims description 36
- 238000012545 processing Methods 0.000 claims description 27
- 239000011159 matrix material Substances 0.000 claims description 26
- 230000006870 function Effects 0.000 claims description 22
- 238000013528 artificial neural network Methods 0.000 claims description 18
- 230000008520 organization Effects 0.000 claims description 14
- 238000004422 calculation algorithm Methods 0.000 claims description 13
- 230000000306 recurrent effect Effects 0.000 claims description 13
- 230000002457 bidirectional effect Effects 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 claims description 6
- 238000011478 gradient descent method Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims 1
- 210000002569 neuron Anatomy 0.000 description 6
- 230000004913 activation Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/06—Asset management; Financial planning or analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Finance (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Game Theory and Decision Science (AREA)
- Human Resources & Organizations (AREA)
- Operations Research (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例公开了面向投融资领域机构的观点挖掘方法、装置和电子设备,该方法包括:对第一投融资新闻文本进行预处理;将第一投融资新闻文本转换为文本特征向量;构建面向投融资领域机构观点挖掘的深度学习模型;将文本特征向量输入到深度学习模型中进行训练,得到用于预测的面向投融资领域机构观点挖掘的观点挖掘模型;将第二投融资新闻文本输入到观点挖掘模型中,得到第二投融资新闻文本的观点类别;根据第一投融资新闻文本的观点类别和第二投融资新闻文本的观点类别对目标投融资机构的观点类别进行统计。本发明可以判断投融资新闻文本的两级观点,帮助风投机构分析师能够快速掌握创业机构的舆情信息,进一步为投资决策提供投资参考。
Description
技术领域
本发明实施例涉及投融资领域,具体涉及面向投融资领域机构的观点挖掘方法、装置和电子设备。
背景技术
观点挖掘是自然语言处理(Natural Language Processing,NLP)领域最受欢迎的任务之一,对所挖掘出的相关领域舆论情感,各个领域都蕴含着巨大的商业价值。各大垂直领域的媒体网站通常会更新积累大量的新闻数据,其中不乏对特定行业特定领域的意见评价观点,而这些数据常常为挖掘特定观点提供了很好地素材,可以从侧面理解和掌握社交媒体对这些领域的情感和观点,帮助分析者解决商业和社会问题。
投融资机构包含风险投资机构和市场上选择未上市的初创企业,而风险投资主要是指风险投资机构向初创企业提供资金支持并取得该公司股份的一种融资方式,进而在后续的发展中协助初创企业获取更大的利润,从而追求长期利润的高风险但高报酬的行业。所以在风投机构通常需要投入大量的人力物力对创业企业进行情报搜集和分析,来支持其投资行为提供决策支持,而其中初创企业的社会舆论、所属领域的观点评价等,对投资决策所不可或缺的重要参考因素。而从大量公开的社会媒体中人工去发现观点倾向,耗时耗力,很可能在激烈的竞争中错失先机,失去对潜力企业的及时关注。
发明内容
本发明实施例的目的在于提供面向投融资领域机构的观点挖掘方法、装置和电子设备,用以解决现有无法从投融资新闻文本中获取目标投融资结构的观点的问题。
为实现上述目的,本发明实施例主要提供如下技术方案:
第一方面,本发明实施例提供了一种面向投融资领域机构的观点挖掘方法,包括:
S1:对第一投融资新闻文本进行预处理,去除所述第一投融资新闻文本中的第一类型字符;
S2:将去除第一类型字符后的第一投融资新闻文本转换为文本特征向量;
S3:构建面向投融资领域机构观点挖掘的深度学习模型,所述深度学习模型包括文本序列输入层、文本序列语义抽取层、文本序列结构语义抽取层和观点预测输出层;
S4:将所述文本特征向量输入到所述深度学习模型中进行训练,得到用于预测的面向投融资领域机构观点挖掘的观点挖掘模型;
S5:将第二投融资新闻文本输入到所述观点挖掘模型中,得到所述第二投融资新闻文本的观点类别;
S6:根据所述第一投融资新闻文本的观点类别和所述第二投融资新闻文本的观点类别对目标投融资机构的观点类别进行统计。
根据本发明的一个实施例,所述第一类型字符包括无效的非文本符号和停用词。
根据本发明的一个实施例,步骤S2包括:
S2-1:对中文字符长度超过预设长度阈值的投融资新闻文本,对文本起始位置和超过所述预设长度阈值的部分分别填充第一字符和第二字符;
S2-2:按照预训练BERT模型的词汇库的索引号对填充字字符后的第一投融资新闻文本转换成字符向量Vtoken、以及位置向量Vposition;
S2-3:对字的共现关系来构建投融资新闻文本的无向图,其中一个文本对应一个文本图,共现窗口大小设置为Wn,并获得文本图中边矩阵Medges;
S2-4:对积极观点的投融资新闻文本标记为1,对消极观点的投融资新闻文本标记为0。
根据本发明的一个实施例,步骤S3包括:
S3-1:将所述字符向量Vtoken和所述位置向量Vposition作为预训练BERT模型的输入,获得文本序列输入矩阵Minput,将所述文本序列输入矩阵Minput作为所述文本序列输入层;
S3-2:通过基于注意力机制的双向门控循环神经网络层来抽取输入层的语义向量得到所述文本序列语义抽取层;
S3-3:通过投融资新闻文本图注意力网络层来抽取的输入层文本整体结构的语义向量得到所述文本序列结构语义抽取层;
S3-4:将所述输入层文本整体结构的语义向量经过对过拟合问题和全连接层的处理得到所述观点预测输出层,根据所述文本序列输入层、所述文本序列语义抽取层、所述文本序列结构语义抽取层和所述观点预测输出层得到所述深度学习模型。
根据本发明的一个实施例,步骤S4包括:
S4-1:对所述与处理后的第一投融资新闻文本分为训练样本和测试样本;
S4-2:获取给定的损失函数、优化器算法和训练样本的迭代次数;
S4-3:根据所述给定的损失函数、优化器算法和训练样本的迭代次数,每轮更新采用小批量梯度下降法进行参数更新,其中每轮epoch迭代用于更新模型参数所使用的样本量为Nbatch;
S4-4:循环执行S4-3,直至达到设定的Nepoch截止,得到所述观点挖掘模型。
第二方面,本发明实施例还提供一种面向投融资领域机构的观点挖掘装置,包括:
获取模块,用于获取第一投融资新闻文本和第二投融资新闻文本;
控制处理模块,用于对所述第一投融资新闻文本进行预处理,去除所述第一投融资新闻文本中的第一类型字符,并将去除第一类型字符后的第一投融资新闻文本转换为文本特征向量;所述控制处理模块还用于构建面向投融资领域机构观点挖掘的深度学习模型,所述深度学习模型包括文本序列输入层、文本序列语义抽取层、文本序列结构语义抽取层和观点预测输出层,并将所述文本特征向量输入到所述深度学习模型中进行训练,得到用于预测的面向投融资领域机构观点挖掘的观点挖掘模型;所述控制处理模块还用于将所述第二投融资新闻文本输入到所述观点挖掘模型中,得到所述第二投融资新闻文本的观点类别,并根据所述第一投融资新闻文本的观点类别和所述第二投融资新闻文本的观点类别对目标投融资机构的观点类别进行统计。
根据本发明的一个实施例,所述第一类型字符包括无效的非文本符号和停用词。
根据本发明的一个实施例,所述控制处理模块具体用于对中文字符长度超过预设长度阈值的投融资新闻文本,对文本起始位置和超过所述预设长度阈值的部分分别填充第一字符和第二字符;按照预训练BERT模型的词汇库的索引号对填充字字符后的第一投融资新闻文本转换成字符向量Vtoken、以及位置向量Vposition;对字的共现关系来构建投融资新闻文本的无向图,其中一个文本对应一个文本图,共现窗口大小设置为Wn,并获得文本图中边矩阵Medges;对积极观点的投融资新闻文本标记为1,对消极观点的投融资新闻文本标记为0。
根据本发明的一个实施例,所述控制处理模块具体用于将所述字符向量Vtoken和所述位置向量Vposition作为预训练BERT模型的输入,获得文本序列输入矩阵Minput,将所述文本序列输入矩阵Minput作为所述文本序列输入层;通过基于注意力机制的双向门控循环神经网络层来抽取输入层的语义向量得到所述文本序列语义抽取层;通过投融资新闻文本图注意力网络层来抽取的输入层文本整体结构的语义向量得到所述文本序列结构语义抽取层;将所述输入层文本整体结构的语义向量经过对过拟合问题和全连接层的处理得到所述观点预测输出层,根据所述文本序列输入层、所述文本序列语义抽取层、所述文本序列结构语义抽取层和所述观点预测输出层得到所述深度学习模型。
根据本发明的一个实施例,所述控制处理模块具体用于对所述与处理后的第一投融资新闻文本分为训练样本和测试样本;获取给定的损失函数、优化器算法和训练样本的迭代次数;根据所述给定的损失函数、优化器算法和训练样本的迭代次数,每轮更新采用小批量梯度下降法进行参数更新,其中每轮epoch迭代用于更新模型参数所使用的样本量为Nbatch;循环更新模型参数,直至达到设定的Nepoch截止,得到所述观点挖掘模型。
第三方面,本发明实施例还提供一种电子设备,包括:至少一个处理器和至少一个存储器;所述存储器用于存储一个或多个程序指令;所述处理器,用于运行一个或多个程序指令,用以执行如第一方面所述的方法。
第四方面,本发明实施例还提供一种计算机可读存储介质,包含一个或多个程序指令,所述一个或多个程序指令用于被执行如第一方面所述的方法。
本发明实施例提供的技术方案至少具有如下优点:
本发明实施例提供的面向投融资领域机构的观点挖掘方法、装置和电子设备,通过所训练深度学习模型可自动评估投融资相关新闻文本中所体现的相关机构或者行业的观点倾向,提供给风投数据分析师挖掘出投融资机构相关社会舆论观点,辅助其做出正确的投资决策。
本发明从通过预训练模型BERT将需要投融资领域新闻文本转换成以字为单位的向量表示,结合基于注意力机制的双向门控循环神经网络所获得文本序列表示,能够学习到文本序列的上下文语义表示,同时能够重点关注到文本序列中的与任务关联度较高的关键信息,将其作为后续图神经网络层的输入,可提升投融资领域新闻文本观点挖掘的效果。
本发明创造性的将文本序列向量表示结合所构建的文本序列的共现文本图作为输入,使用图注意力神经网络学习,有效的利用了文本结构信息,关注邻接信息的关注度,进一步的发现与任务相关的关键信息,提升文本表示能力,来提升投融资领域新闻文本观点挖掘的效果
附图说明
图1为本发明实施例的面向投融资领域机构的观点挖掘方法的流程图。
图2为本发明实施例的面向投融资领域机构的观点挖掘装置的结构框图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本发明。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
在本发明的描述中,需要理解的是,术语“第一”和“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“连接”应做广义理解,例如可以是直接连接,也可以通过中间媒介间接连接。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
图1为本发明实施例的面向投融资领域机构的观点挖掘方法的流程图。如图1所示,本发明实施例的面向投融资领域机构的观点挖掘方法,包括:
S1:对第一投融资新闻文本进行预处理,去除第一投融资新闻文本中的第一类型字符。
在本发明的一个实施例中,第一类型字符包括无效的非文本符号和停用词。
其中,无效的非文本符号包括:["#$%&'()*+,-/:;<=>@[\]^_`{|}~、、〃〈〉《》「」『』【】〔〕〖〗~〝〞、、–—‘’‘“”,…﹏﹑﹔·!?。。]','[!"#$%&\'()*+,-./:;<=>?@[\]^_`{|}~],等等。
停用词采用合并了哈工大、百度、四川大学机器智能实验室的停用词库。
S2:将去除第一类型字符后的第一投融资新闻文本转换为文本特征向量。
在本发明的一个实施例中,步骤S2包括:
S2-1:对中文字符长度超过预设长度阈值的投融资新闻文本,对文本起始位置和超过预设长度阈值的部分分别填充第一字符和第二字符。
示例性地,对中文字符长度超过510的投融资新闻文本,截取出前510长度字符,并对所有文本起始位置填充[SEP]字符,对于中文字符长度少于510的后续部分补充为[PAD]字符。
S2-2:按照预训练BERT模型的词汇库的索引号对填充字字符后的第一投融资新闻文本转换成字符向量Vtoken、以及位置向量Vposition。
S2-3:对字的共现关系来构建投融资新闻文本的无向图。其中一个文本对应一个文本图,共现窗口大小设置为Wn,并获得文本图中边矩阵Medges。
S2-4:对积极观点的投融资新闻文本标记为1,对消极观点的投融资新闻文本标记为0。
S3:构建面向投融资领域机构观点挖掘的深度学习模型,深度学习模型包括文本序列输入层、文本序列语义抽取层、文本序列结构语义抽取层和观点预测输出层。
在本发明的一个实施例中,步骤S3包括:
S3-1:将字符向量Vtoken和位置向量Vposition作为预训练BERT模型的输入,获得文本序列输入矩阵Minput,即为文本序列输入层。其中设定字向量的特征维度为Nbert-input。
S3-2:通过基于注意力机制的双向门控循环神经网络(Attention-Based Bi-GRU)层来抽取输入层的语义向量,得到文本序列语义抽取层。
在本发明的一个实施例中,步骤S3-2包括:
S3-2-1:将S3-1预处理的文本序列输入矩阵Minput输入由双向门控循环神经网络构建的网络层中,一层门控循环神经网络对文本序列由前到后的序列抽取语义特征另一层门控循环神经网络对文本序列由后到前的序列抽取语义特征其中设置单个门控循环神经网络的隐藏层数量为NGRU。结合正向语义特征和语义特征的合并,即获得词向量长度为2*NGRU的语义序列输出矩阵Mbi_GRU。门控循环神经网络相关公式如下:
zt=σ(Wzxt+Uzht-1+bz)
rt=σ(Wrxt+Urht-1+br)
其中zt表示更新门,ht-1为上一个隐藏状态,xt为当前的输入,z、Uz分别表示输入和上一时刻隐层到更新门zt的权重矩阵,z表示更新门的偏置项,σ表示Sigmoid函数;t表示重置门,Wr、Ur输入和上一时刻隐层到重置门rt的权重矩阵,br表示重置门的偏置项;Wh、Uh分别表示输入和上一时刻的隐层到候选隐藏状态的权重矩阵,h表示待选状态的偏置项;⊙表示哈达玛积(Hadamard product),ht即为最终的隐藏状态。
S3-2-2:由S3-2-1的语义序列输出矩阵Mbi_GRU来计算文本序列的注意力权重Wattention。注意力权重计算相关公式如下:
u=tanh(Wu Mattn_bi_GRU+b)
wa=softmax(uTuw)
其中Wu表示由双向门控循环神经网络的输出计算出词注意力层的隐含层u的权重,b表示对应的偏置项,w即表示需训练的上下文向量,uT表示u的转置操作,wa即为经过softmax归一化得到权重。
S3-2-3:对由双向门控循环神经网络获得的原语义序列输出矩阵Mbi_GRU与文本序列的注意力权重Wattention进行内积计算,生成新的语义序列输出矩阵Mattn_bi_GRU。
S3-3:通过投融资新闻文本图注意力网络层来抽取的输入层文本整体结构的语义向量得到文本序列结构语义抽取层。
在本发明的一个实施例中,步骤S3-3包括:
S3-3-1:构建单个图注意力网络层,相关公式如下:
eij=αT(Whi||Whj)
αij=softmax(FLeakyRelu(eij))
其中FLeakyRelu为激活函数,xi表示神经元i数值,α对负值输入斜率;
S3-3-2:将隐藏层向量使用ReLU激活函数进非线性变换:
S3-3-3:叠加NGAL次由两个部分组成的文本图注意力层;
S3-3-4:添加经过文本图注意力层所获得的投融资新闻文本图隐藏层HGAL进行全局均值池化处理,生成新的隐藏层Hpooling。
S3-4:将输入层文本整体结构的语义向量经过对过拟合问题和全连接层的处理得到观点预测输出层,根据文本序列输入层、文本序列语义抽取层、文本序列结构语义抽取层和观点预测输出层得到深度学习模型。
在本发明的一个实施例中,步骤S3-4包括:
S3-4-1:添加对神经元剔除概率为pDropout的舍弃(Dropout)层,设置该层的参数为α激活函数为LeakyRelu函数,生成新的隐藏层Hdropout;。相关公式如下:
r(l)~Bernoulli(pDropout),
其中l中表示当前深度神经网络层的第l层,Bernoulli函数生成第第l层保留神经元数量的概率r(l),y(l)表示第l层的神经元向量,表示其中第l层的保留的神经元向量,表示神经元i从第l层传递到第l+1层之间的各参数权重,为对应的偏置,FLeakyRelu为激活函数。
S3-4-2:添加全连接层,转换特征维度为投融资新闻文本观点类别数的输出特征,并对该输出层进行softmax归一化处理,获得输出层。
S4:将文本特征向量输入到深度学习模型中进行训练,得到用于预测的面向投融资领域机构观点挖掘的观点挖掘模型。
在本发明的一个实施例中,步骤S4包括:
S4-1:对与处理后的第一投融资新闻文本分为训练样本和测试样本。其中,训练样本可以为第一投融资新闻文本中总样本的80%,测试样本为总样本的20%。
S4-2:获取给定的损失函数、优化器算法和训练样本的迭代次数。其中,损失函数为交叉熵损失函数,并添加L2正则化项;优化器算法为optimizer。迭代次数为Nepoch,并迭代更新模型。
S4-3:根据给定的损失函数、优化器算法和训练样本的迭代次数,每轮更新采用小批量梯度下降法进行参数更新,其中每轮epoch迭代用于更新模型参数所使用的样本量为Nbatch。
S4-4:循环执行S4-3,直至达到设定的Nepoch截止,得到观点挖掘模型。
S5:将第二投融资新闻文本输入到观点挖掘模型中,得到第二投融资新闻文本的观点类别,补充剩余未标注投融资新闻文本的观点类别。
S6:根据第一投融资新闻文本的观点类别和第二投融资新闻文本的观点类别对目标投融资机构的观点类别进行统计。
具体地,对投融资新闻文本中所提及的投融资机构进行匹配关联,即反映该投融资机构的所属的观点类别,对不同观点类别的文本数量进行统计,最终计算出相应的百分比,大于50%的观点类别即为最终的观点类别。
对投融资新闻文本中未提及的投融资机构进行关联,通过投融资新闻文本的所属的领域类型间接统计,即与投融资机构属于同一领域类别的新闻文本进行不同观点类别的统计,同样大于50%的观点类别即为最终的观点类别。
图2为本发明实施例的面向投融资领域机构的观点挖掘装置的结构框图。如图2所示,本发明实施例的面向投融资领域机构的观点挖掘装置,包括:获取模块100和控制处理模块200。
其中,获取模块100用于获取第一投融资新闻文本和第二投融资新闻文本。控制处理模块200用于对第一投融资新闻文本进行预处理,去除第一投融资新闻文本中的第一类型字符,并将去除第一类型字符后的第一投融资新闻文本转换为文本特征向量。控制处理模块200还用于构建面向投融资领域机构观点挖掘的深度学习模型,深度学习模型包括文本序列输入层、文本序列语义抽取层、文本序列结构语义抽取层和观点预测输出层,并将文本特征向量输入到深度学习模型中进行训练,得到用于预测的面向投融资领域机构观点挖掘的观点挖掘模型。控制处理模块200还用于将第二投融资新闻文本输入到观点挖掘模型中,得到第二投融资新闻文本的观点类别,并根据第一投融资新闻文本的观点类别和第二投融资新闻文本的观点类别对目标投融资机构的观点类别进行统计。
在本发明的一个实施例中,第一类型字符包括无效的非文本符号和停用词。
在本发明的一个实施例中,控制处理模块200具体用于对中文字符长度超过预设长度阈值的投融资新闻文本,对文本起始位置和超过预设长度阈值的部分分别填充第一字符和第二字符;按照预训练BERT模型的词汇库的索引号对填充字字符后的第一投融资新闻文本转换成字符向量Vtoken、以及位置向量Vposition;对字的共现关系来构建投融资新闻文本的无向图,其中一个文本对应一个文本图,共现窗口大小设置为Wn,并获得文本图中边矩阵Medges;对积极观点的投融资新闻文本标记为1,对消极观点的投融资新闻文本标记为0。
在本发明的一个实施例中,控制处理模块200具体用于将字符向量Vtoken和位置向量Vposition作为预训练BERT模型的输入,获得文本序列输入矩阵Minput,将文本序列输入矩阵Minput作为文本序列输入层;通过基于注意力机制的双向门控循环神经网络层来抽取输入层的语义向量得到文本序列语义抽取层;通过投融资新闻文本图注意力网络层来抽取的输入层文本整体结构的语义向量得到文本序列结构语义抽取层;将输入层文本整体结构的语义向量经过对过拟合问题和全连接层的处理得到观点预测输出层,根据文本序列输入层、文本序列语义抽取层、文本序列结构语义抽取层和观点预测输出层得到深度学习模型。
在本发明的一个实施例中,控制处理模块200具体用于对与处理后的第一投融资新闻文本分为训练样本和测试样本;获取给定的损失函数、优化器算法和训练样本的迭代次数;根据给定的损失函数、优化器算法和训练样本的迭代次数,每轮更新采用小批量梯度下降法进行参数更新,其中每轮epoch迭代用于更新模型参数所使用的样本量为Nbatch;循环更新模型参数,直至达到设定的Nepoch截止,得到观点挖掘模型。
需要说明的是,本发明实施例的面向投融资领域机构的观点挖掘装置的具体实施方式与本发明实施例的面向投融资领域机构的观点挖掘方法的具体实施方式类似,具体参见面向投融资领域机构的观点挖掘方法部分的描述,为了减少冗余,不做赘述。
另外,本发明实施例的面向投融资领域机构的观点挖掘装置的其它构成以及作用对于本领域的技术人员而言都是已知的,为了减少冗余,不做赘述。
本发明实施例还提供一种电子设备,包括:至少一个处理器和至少一个存储器;所述存储器用于存储一个或多个程序指令;所述处理器,用于运行一个或多个程序指令,用以执行如第一方面所述的面向投融资领域机构的观点挖掘方法。
本发明所公开的实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序指令,当所述计算机程序指令在计算机上运行时,使得计算机执行上述的面向投融资领域机构的观点挖掘方法。
在本发明实施例中,处理器可以是一种集成电路芯片,具有信号的处理能力。处理器可以是通用处理器、数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。处理器读取存储介质中的信息,结合其硬件完成上述方法的步骤。
存储介质可以是存储器,例如可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。
其中,非易失性存储器可以是只读存储器(Read-Only Memory,简称ROM)、可编程只读存储器(Programmable ROM,简称PROM)、可擦除可编程只读存储器(Erasable PROM,简称EPROM)、电可擦除可编程只读存储器(Electrically EPROM,简称EEPROM)或闪存。
易失性存储器可以是随机存取存储器(Random Access Memory,简称RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,简称SRAM)、动态随机存取存储器(Dynamic RAM,简称DRAM)、同步动态随机存取存储器(Synchronous DRAM,简称SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM,简称DDRSDRAM)、增强型同步动态随机存取存储器(EnhancedSDRAM,简称ESDRAM)、同步连接动态随机存取存储器(Synch Link DRAM,简称SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,简称DRRAM)。
本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件与软件组合来实现。当应用软件时,可以将相应功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
Claims (10)
1.一种面向投融资领域机构的观点挖掘方法,其特征在于,包括:
S1:对第一投融资新闻文本进行预处理,去除所述第一投融资新闻文本中的第一类型字符;
S2:将去除第一类型字符后的第一投融资新闻文本转换为文本特征向量;
S3:构建面向投融资领域机构观点挖掘的深度学习模型,所述深度学习模型包括文本序列输入层、文本序列语义抽取层、文本序列结构语义抽取层和观点预测输出层;
S4:将所述文本特征向量输入到所述深度学习模型中进行训练,得到用于预测的面向投融资领域机构观点挖掘的观点挖掘模型;
S5:将第二投融资新闻文本输入到所述观点挖掘模型中,得到所述第二投融资新闻文本的观点类别;
S6:根据所述第一投融资新闻文本的观点类别和所述第二投融资新闻文本的观点类别对目标投融资机构的观点类别进行统计。
2.根据权利要求1所述的面向投融资领域机构的观点挖掘方法,其特征在于,步骤S2包括:
S2-1:对中文字符长度超过预设长度阈值的投融资新闻文本,对文本起始位置和超过所述预设长度阈值的部分分别填充第一字符和第二字符;
S2-2:按照预训练BERT模型的词汇库的索引号对填充字字符后的第一投融资新闻文本转换成字符向量Vtoken、以及位置向量Vposition;
S2-3:对字的共现关系来构建投融资新闻文本的无向图,其中一个文本对应一个文本图,共现窗口大小设置为Wn,并获得文本图中边矩阵Medges;
S2-4:对积极观点的投融资新闻文本标记为1,对消极观点的投融资新闻文本标记为0。
3.根据权利要求2所述的面向投融资领域机构的观点挖掘方法,其特征在于,步骤S3包括:
S3-1:将所述字符向量Vtoken和所述位置向量Vposition作为预训练BERT模型的输入,获得文本序列输入矩阵Minput,将所述文本序列输入矩阵Minput作为所述文本序列输入层;
S3-2:通过基于注意力机制的双向门控循环神经网络层来抽取输入层的语义向量得到所述文本序列语义抽取层;
S3-3:通过投融资新闻文本图注意力网络层来抽取的输入层文本整体结构的语义向量得到所述文本序列结构语义抽取层;
S3-4:将所述输入层文本整体结构的语义向量经过对过拟合问题和全连接层的处理得到所述观点预测输出层,根据所述文本序列输入层、所述文本序列语义抽取层、所述文本序列结构语义抽取层和所述观点预测输出层得到所述深度学习模型。
4.根据权利要求3所述的面向投融资领域机构的观点挖掘方法,其特征在于,步骤S4包括:
S4-1:对所述与处理后的第一投融资新闻文本分为训练样本和测试样本;
S4-2:获取给定的损失函数、优化器算法和训练样本的迭代次数;
S4-3:根据所述给定的损失函数、优化器算法和训练样本的迭代次数,每轮更新采用小批量梯度下降法进行参数更新,其中每轮epoch迭代用于更新模型参数所使用的样本量为Nbatch;
S4-4:循环执行S4-3,直至达到设定的Nepoch截止,得到所述观点挖掘模型。
5.一种面向投融资领域机构的观点挖掘装置,其特征在于,包括:
获取模块,用于获取第一投融资新闻文本和第二投融资新闻文本;
控制处理模块,用于对所述第一投融资新闻文本进行预处理,去除所述第一投融资新闻文本中的第一类型字符,并将去除第一类型字符后的第一投融资新闻文本转换为文本特征向量;所述控制处理模块还用于构建面向投融资领域机构观点挖掘的深度学习模型,所述深度学习模型包括文本序列输入层、文本序列语义抽取层、文本序列结构语义抽取层和观点预测输出层,并将所述文本特征向量输入到所述深度学习模型中进行训练,得到用于预测的面向投融资领域机构观点挖掘的观点挖掘模型;所述控制处理模块还用于将所述第二投融资新闻文本输入到所述观点挖掘模型中,得到所述第二投融资新闻文本的观点类别,并根据所述第一投融资新闻文本的观点类别和所述第二投融资新闻文本的观点类别对目标投融资机构的观点类别进行统计。
6.根据权利要求5所述的面向投融资领域机构的观点挖掘装置,其特征在于,所述控制处理模块具体用于对中文字符长度超过预设长度阈值的投融资新闻文本,对文本起始位置和超过所述预设长度阈值的部分分别填充第一字符和第二字符;按照预训练BERT模型的词汇库的索引号对填充字字符后的第一投融资新闻文本转换成字符向量Vtoken、以及位置向量Vposition;对字的共现关系来构建投融资新闻文本的无向图,其中一个文本对应一个文本图,共现窗口大小设置为Wn,并获得文本图中边矩阵Medges;对积极观点的投融资新闻文本标记为1,对消极观点的投融资新闻文本标记为0。
7.根据权利要求6所述的面向投融资领域机构的观点挖掘装置,其特征在于,所述控制处理模块具体用于将所述字符向量Vtoken和所述位置向量Vposition作为预训练BERT模型的输入,获得文本序列输入矩阵Minput,将所述文本序列输入矩阵Minput作为所述文本序列输入层;通过基于注意力机制的双向门控循环神经网络层来抽取输入层的语义向量得到所述文本序列语义抽取层;通过投融资新闻文本图注意力网络层来抽取的输入层文本整体结构的语义向量得到所述文本序列结构语义抽取层;将所述输入层文本整体结构的语义向量经过对过拟合问题和全连接层的处理得到所述观点预测输出层,根据所述文本序列输入层、所述文本序列语义抽取层、所述文本序列结构语义抽取层和所述观点预测输出层得到所述深度学习模型。
8.根据权利要求7所述的面向投融资领域机构的观点挖掘装置,其特征在于,所述控制处理模块具体用于对所述与处理后的第一投融资新闻文本分为训练样本和测试样本;获取给定的损失函数、优化器算法和训练样本的迭代次数;根据所述给定的损失函数、优化器算法和训练样本的迭代次数,每轮更新采用小批量梯度下降法进行参数更新,其中每轮epoch迭代用于更新模型参数所使用的样本量为Nbatch;循环更新模型参数,直至达到设定的Nepoch截止,得到所述观点挖掘模型。
9.一种电子设备,其特征在于,所述电子设备包括:至少一个处理器和至少一个存储器;
所述存储器用于存储一个或多个程序指令;
所述处理器,用于运行一个或多个程序指令,用以执行如权利要求1-4任一项所述的面向投融资领域机构的观点挖掘方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包含一个或多个程序指令,所述一个或多个程序指令用于执行如权利要求1-4任一项所述的面向投融资领域机构的观点挖掘方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011051181.2A CN112347245A (zh) | 2020-09-29 | 2020-09-29 | 面向投融资领域机构的观点挖掘方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011051181.2A CN112347245A (zh) | 2020-09-29 | 2020-09-29 | 面向投融资领域机构的观点挖掘方法、装置和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112347245A true CN112347245A (zh) | 2021-02-09 |
Family
ID=74361264
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011051181.2A Pending CN112347245A (zh) | 2020-09-29 | 2020-09-29 | 面向投融资领域机构的观点挖掘方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112347245A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113792545A (zh) * | 2021-11-16 | 2021-12-14 | 成都索贝数码科技股份有限公司 | 一种基于深度学习的新闻事件活动名称抽取方法 |
US11526774B2 (en) * | 2020-12-15 | 2022-12-13 | Zhejiang Lab | Method for automatically compressing multitask-oriented pre-trained language model and platform thereof |
CN117114739A (zh) * | 2023-09-27 | 2023-11-24 | 数据空间研究院 | 一种企业供应链信息挖掘方法、挖掘系统及存储介质 |
CN117911161A (zh) * | 2024-01-25 | 2024-04-19 | 广东顺银产融投资有限公司 | 一种项目投资决策方法、装置和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110209821A (zh) * | 2019-06-06 | 2019-09-06 | 北京奇艺世纪科技有限公司 | 文本类别确定方法和装置 |
CN110750648A (zh) * | 2019-10-21 | 2020-02-04 | 南京大学 | 一种基于深度学习和特征融合的文本情感分类方法 |
CN111368088A (zh) * | 2020-03-31 | 2020-07-03 | 成都信息工程大学 | 一种基于深度学习的文本情感分类方法 |
CN111476024A (zh) * | 2020-02-29 | 2020-07-31 | 新华三大数据技术有限公司 | 一种文本分词方法、装置及模型训练方法 |
-
2020
- 2020-09-29 CN CN202011051181.2A patent/CN112347245A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110209821A (zh) * | 2019-06-06 | 2019-09-06 | 北京奇艺世纪科技有限公司 | 文本类别确定方法和装置 |
CN110750648A (zh) * | 2019-10-21 | 2020-02-04 | 南京大学 | 一种基于深度学习和特征融合的文本情感分类方法 |
CN111476024A (zh) * | 2020-02-29 | 2020-07-31 | 新华三大数据技术有限公司 | 一种文本分词方法、装置及模型训练方法 |
CN111368088A (zh) * | 2020-03-31 | 2020-07-03 | 成都信息工程大学 | 一种基于深度学习的文本情感分类方法 |
Non-Patent Citations (1)
Title |
---|
""金融知识图谱构建关键技术研究与原型实现"", 《知网》, pages 2 - 4 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11526774B2 (en) * | 2020-12-15 | 2022-12-13 | Zhejiang Lab | Method for automatically compressing multitask-oriented pre-trained language model and platform thereof |
CN113792545A (zh) * | 2021-11-16 | 2021-12-14 | 成都索贝数码科技股份有限公司 | 一种基于深度学习的新闻事件活动名称抽取方法 |
CN117114739A (zh) * | 2023-09-27 | 2023-11-24 | 数据空间研究院 | 一种企业供应链信息挖掘方法、挖掘系统及存储介质 |
CN117114739B (zh) * | 2023-09-27 | 2024-05-03 | 数据空间研究院 | 一种企业供应链信息挖掘方法、挖掘系统及存储介质 |
CN117911161A (zh) * | 2024-01-25 | 2024-04-19 | 广东顺银产融投资有限公司 | 一种项目投资决策方法、装置和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | A deep learning approach for credit scoring of peer-to-peer lending using attention mechanism LSTM | |
US11687728B2 (en) | Text sentiment analysis method based on multi-level graph pooling | |
US11941366B2 (en) | Context-based multi-turn dialogue method and storage medium | |
CN112347245A (zh) | 面向投融资领域机构的观点挖掘方法、装置和电子设备 | |
Wen et al. | Learning text representation using recurrent convolutional neural network with highway layers | |
CN110472042B (zh) | 一种细粒度情感分类方法 | |
CN109766557B (zh) | 一种情感分析方法、装置、存储介质及终端设备 | |
CN107562784A (zh) | 基于ResLCNN模型的短文本分类方法 | |
CN109214006B (zh) | 图像增强的层次化语义表示的自然语言推理方法 | |
Zhao et al. | The study on the text classification for financial news based on partial information | |
CN112749274B (zh) | 基于注意力机制和干扰词删除的中文文本分类方法 | |
CN110765269A (zh) | 基于动态词向量和层级神经网络的文档级情感分类方法 | |
US20210097371A1 (en) | Generative adversarial network with dynamic capacity expansion for continual learning | |
Li et al. | Piecewise convolutional neural networks with position attention and similar bag attention for distant supervision relation extraction | |
CN115906816A (zh) | 一种基于Bert的双通道Attention模型的文本情感分析方法 | |
Yuan et al. | Deep learning from a statistical perspective | |
Wang et al. | Sentiment analysis of commodity reviews based on ALBERT-LSTM | |
CN113343711A (zh) | 工单生成方法、装置、设备及存储介质 | |
CN116089605A (zh) | 基于迁移学习和改进词袋模型的文本情感分析方法 | |
CN109635289A (zh) | 词条分类方法及审计信息抽取方法 | |
Gillmann et al. | Quantification of Economic Uncertainty: a deep learning approach | |
CN114020901A (zh) | 一种结合主题挖掘和情感分析的金融舆情分析方法 | |
Zhang et al. | Tailoring an interpretable neural language model | |
CN113515947B (zh) | 一种用于级联地名实体识别模型的训练方法 | |
CN110413995A (zh) | 一种基于双向mgu神经网络的关系抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |