CN111815426B - 一种涉及金融投研的数据处理方法及终端 - Google Patents
一种涉及金融投研的数据处理方法及终端 Download PDFInfo
- Publication number
- CN111815426B CN111815426B CN202010950256.4A CN202010950256A CN111815426B CN 111815426 B CN111815426 B CN 111815426B CN 202010950256 A CN202010950256 A CN 202010950256A CN 111815426 B CN111815426 B CN 111815426B
- Authority
- CN
- China
- Prior art keywords
- sentence
- subjective
- information
- speech
- obtaining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Finance (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
- Accounting & Taxation (AREA)
Abstract
本发明提供了一种涉及金融投研的数据处理方法及终端,获取资讯来源、资讯标题、资讯文本及主观性词典,将资讯标题及资讯文本拆分为有顺序的句子序列;根据资讯来源得到来源特征向量,根据句子序列得到其中每一个句子的句子特征向量,根据句子序列及主观性词典得到每一个句子的主观权重得分及主观性得分;根据来源特征向量、句子特征向量、主观权重得分及主观性得分,得到资讯特征向量;根据资讯特征向量,使用逻辑回归判断标签类型,标签类型为主观或客观;本发明不仅考虑到资讯正文的文本内容,也将资讯的来源考虑进主客观的分析中,最终使用逻辑回归判断资讯的主客观,计算简单,基于词语的模型训练和分析确保了对资讯内容分析结果的准确性。
Description
技术领域
本发明涉及数据分析领域,尤其涉及一种涉及金融投研的数据处理方法及终端。
背景技术
随着人工智能、大数据、云计算和区块链等新型互联网技术的发展,金融行业也正在发生着巨大的变化,以人工智能为代表的新技术与金融服务、产品的深度融合产生了智能金融的概念,而智能投研就是智能金融的服务场景之一。
投研的前期分析需要对行业内的各种资讯进行总结和筛选,提取其中的关键信息生成摘要以供后续分析判断使用,并且,因为资讯是人工撰写的,为了避免其中的主观结论影响后期对信息的提取与分析,往往需要对其进行主客观分析,对其中的主观描述进行修改,并且,对于最终生成的研究报告,也需要检查其中的描述,摒弃主观性的描述,但是传统并未有相应技术能够实现对文本的分析,故都需要依靠人工进行排查,效率低且容易出现遗漏的情况;
现有的方案(申请公布号CN110750648A一种基于深度学习和特征融合的文本情感分类方法),该方案主要是通过整合层次特征学习文本表示,其中里面包含了使用层级结构的深度学习模型来提取句子特征和文档特征,最终用随机森林进行情感分类,但其需要表情符号的辅助,适用于社交网络上的文本分析,而对于资讯类文稿此种方式的判断准确率较低。
发明内容
本发明所要解决的技术问题是:提供一种涉及金融投研的数据处理方法及终端,能够准确区分出资讯文本中的主客观内容。
为了解决上述技术问题,本发明采用的一种技术方案为:
一种涉及金融投研的数据处理方法,包括步骤:
S1、获取资讯来源、资讯标题、资讯文本及主观性词典,并将所述资讯标题及所述资讯文本拆分为有顺序的句子序列;
S2、根据所述资讯来源得到来源特征向量,根据所述句子序列得到所述句子序列中每一个句子的句子特征向量,根据所述句子序列及所述主观性词典得到每一个句子的主观权重得分及主观性得分;
S3、根据所述来源特征向量、所述句子特征向量、所述主观权重得分及所述主观性得分,得到资讯特征向量;
S4、根据所述资讯特征向量,使用逻辑回归判断标签类型,所述标签类型为主观或客观。
为了解决上述技术问题,本发明采用的另一种技术方案为:
一种涉及金融投研的数据处理终端,包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
S1、获取资讯来源、资讯标题、资讯文本及主观性词典,并将所述资讯标题及所述资讯文本拆分为有顺序的句子序列;
S2、根据所述资讯来源得到来源特征向量,根据所述句子序列得到所述句子序列中每一个句子的句子特征向量,根据所述句子序列及所述主观性词典得到每一个句子的主观权重得分及主观性得分;
S3、根据所述来源特征向量、所述句子特征向量、所述主观权重得分及所述主观性得分,得到资讯特征向量;
S4、根据所述资讯特征向量,使用逻辑回归判断标签类型,所述标签类型为主观或客观。
本发明的有益效果在于:获取资讯来源、资讯标题、资讯文本及主观性词典,将资讯标题和资讯文本拆分为有顺序的句子序列,得到来源特征向量、句子特征向量、主观权重得分及主观性得分,最终得到整篇资讯的资讯特征向量,并根据资讯特征向量得到资讯的标签类型,不仅考虑到资讯正文的文本内容,也将资讯的来源也考虑进主客观的分析中,对权威来源可赋予较高的客观权重,并且通过特征向量的方式提取文本特征,易于学习模型的训练,最终使用逻辑回归判断资讯的主客观,计算简单,保证了计算的效率,基于词语的模型训练和分析确保了对资讯内容分析结果的准确性。
附图说明
图1为本发明实施例的一种涉及金融投研的数据处理方法的步骤流程图;
图2为本发明实施例的一种涉及金融投研的数据处理终端的结构示意图;
图3为本发明实施例的一种涉及金融投研的数据处理方法的数据处理过程图;
图4为本发明实施例的LSTM模型提取特征示意图;
标号说明:
1、一种涉及金融投研的数据处理终端;2、处理器;3、存储器。
具体实施方式
为详细说明本发明的技术内容、所实现目的及效果,以下结合实施方式并配合附图予以说明。
请参照图1、图3及图4一种涉及金融投研的数据处理方法,包括步骤:
S1、获取资讯来源、资讯标题、资讯文本及主观性词典,并将所述资讯标题及所述资讯文本拆分为有顺序的句子序列;
S2、根据所述资讯来源得到来源特征向量,根据所述句子序列得到所述句子序列中每一个句子的句子特征向量,根据所述句子序列及所述主观性词典得到每一个句子的主观权重得分及主观性得分;
S3、根据所述来源特征向量、所述句子特征向量、所述主观权重得分及所述主观性得分,得到资讯特征向量;
S4、根据所述资讯特征向量,使用逻辑回归判断标签类型,所述标签类型为主观或客观。
从上述描述可知,本发明的有益效果在于:获取资讯来源、资讯标题、资讯文本及主观性词典,将资讯标题和资讯文本拆分为有顺序的句子序列,得到来源特征向量、句子特征向量、主观权重得分及主观性得分,最终得到整篇资讯的资讯特征向量,并根据资讯特征向量得到资讯的标签类型,不仅考虑到资讯正文的文本内容,也将资讯的来源也考虑进主客观的分析中,对权威来源可赋予较高的客观权重,并且通过特征向量的方式提取文本特征,易于学习模型的训练,最终使用逻辑回归判断资讯的主客观,计算简单,保证了计算的效率,基于词语的模型训练和分析确保了对资讯内容分析结果的准确性。
进一步的,所述S1具体为:
获取资讯来源,并根据预设规则将所述资讯来源转换为数字标识;
获取资讯标题及资讯文本,以问号、句号、感叹号或省略号作为分隔标识将所述资讯标题及所述资讯文本划分为句子,得到有顺序的句子序列;
获取预训练的主观性词典,所述主观性词典包括多个词性词典,为每个所述词性词典分配权重系数。
由上述描述可知,为不同词性的词配置不同的权重系数,能够使最终的分析结果更加准确,如连词和情感词对判断句子主客观所起的影响强度肯定是不相同的,将资讯来源转换为数字标识,便于后续进行分析和数据处理。
进一步的,所述S2中根据所述资讯来源得到来源特征向量具体为:
预设资讯来源类别,确定所述资讯来源对应的所述资讯来源类别,得到所述资讯来源类别对应的来源特征向量,作为所述资讯来源对应的来源特征向量。
由上述描述可知,将资讯来源也作为评价资讯主客观程度的一个因素,预先构建不同的资讯来源类别,增加了评价资讯主客观的维度,使最终的评价结果更加真实准确。
进一步的,所述S2中根据所述句子序列得到所述句子序列中每一个句子的句子特征向量具体为:
预训练预设词库中词语对应的词向量;
对所述句子进行词语划分,得到分词列表;
使用正态分布对所述分词列表进行采样,按照词性出现频率由高到低获取预设数量的词性的向量表示,作为词性向量;
获取所述分词列表中每个词语对应的词向量及所述词语的词性对应的所述词性向量;
拼接所述分词列表中每个所述词语的所述词向量及所述词性向量,得到所述句子特征向量。
由上述描述可知,获取在句子中出现频率最高的词性所对应的词性向量,与词向量拼接成句子向量,只取预设个数出现最高频的词性,在不影响分析结果正确性的基础上,节约了计算资源。
进一步的,所述根据所述句子序列及所述主观性词典,得到每一个句子的主观权重得分具体为:
按照所述句子序列的顺序,逐一获取所述句子序列中句子的主观权重得分;
其中,获取句子的主观权重得分具体为:
获取所述主观性词典及所述主观性词典中每个所述词性词典对应的所述权重系数;
对所述句子进行分词,得到分词列表;
匹配所述分词列表中的词语及所述主观性词典,若所述主观性词典中第一词性词典中的词语与所述分词列表中的词语相同,则所述第一词性词典所对应的所述权重系数为所述分词列表中的词语的权重;
将所述分词列表中各个词语的权重相加,除以所述分词列表中词语的总数,得到所述句子的主观权重得分。
由上述描述可知,考虑句子中的每一个词,将每一个词的词性所对应的权重进行相加,最后除以句子中词语的总数,得到句子的主观权重得分,在此步中将句子中所有出现的词性都进行考虑,避免了在生成句子特征向量时只考虑部分词性可能造成的误差。
进一步的,根据所述句子序列及所述主观性词典得到每一个句子的主观性得分具体为:
按照所述句子序列的顺序,逐一获取所述句子序列中句子的主观性得分;
其中,获取句子的主观性得分具体为:
对所述句子进行分词,得到分词列表,所述分词列表中词语按所述词语在所述句子中的出现顺序排列;
确认所述分词列表中的词语的词性;
将所述分词列表中相邻的两个词语作为第一组合,根据所述词语的所述词性,得到所述第一组合对应的第一词性组合;
比较所述词性组合与预设的主观词性组合,获取与所述主观词性组合相同的所述第一词性组合,并获取所述第一词性组合所对应的所述主观词性组合的词性权重;
将所述第一词性组合所对应的所述词性权重相加,除以句子中所述第一词性组合的总数,得到句子的主观性得分。
进一步的,所述S3具体为:
将所述来源特征向量、所述句子特征向量、所述主观权重得分及所述主观性得分两两交叉组合得到第二组合,通过attention机制表示所述第二组合;
将所述第二组合与所述来源特征向量、所述句子特征向量、所述主观权重得分及所述主观性得分进行线性组合,得到低阶特征;
将所述来源特征向量、所述句子特征向量、所述主观权重得分及所述主观性得分输入transformer模型,得到高阶特征;
拼接所述低阶特征及所述高阶特征,得到所述资讯特征向量。
由上述描述可知,得到来源特征向量、句子特征向量、主观权重得分及主观性得分之后,输入transformer模型得到高阶特征,并将其两两交叉组成组合,并将此组合与来源特征向量、句子特征向量、主观权重得分及主观性得分进行线性组合得到低阶特征,最后拼接高阶特征与低阶特征,生成资讯特征向量;获取低阶特征和高阶特征,保证了最终生成的资讯特征向量能够最大程度保留之前来源特征向量、句子特征向量、主观权重得分及主观性得分之中的所有特征,使得后续对资讯特征向量进行分析所得到的结果更加准确。
进一步的,所述S4具体为:
根据所述资讯特征向量,通过sigmoid函数计算出主观和客观的概率,若主观概率大于第一阈值且客观概率小于第二阈值,则所述标签类型为主观;
若主观概率小于第一阈值且客观概率大于第二阈值,则所述标签类型为客观;
若不满足以上情况,则输出需再次检验的提示信息。
由上述描述可知,得到资讯特征向量之后,通过sigmoid函数进行简单的二分类,得到对资讯的主观或客观判断结果,计算过程简单,计算效率高。
进一步的,所述S2还包括:
将所述句子特征向量输入加入attention机制的BiLSTM模型,进行基于词的特征提取及基于字的特征提取,分别得到基于词的句子特征向量及基于字的句子特征向量;
根据所述基于词的句子特征向量及所述基于字的句子特征向量,使用逻辑回归判断所述句子的标签类型。
由上述描述可知,采用改进过的LSTM模型BiLSTM进行特征提取,能够更加详尽地获取上下文的信息,从而使获取的基于词的句子特征向量及基于字的句子特征向量能够更完备地包括句子中词和字的顺序信息,减少了信息量的丢失,对句子的分析结果能够更加准确。
请参照图2一种涉及金融投研的数据处理终端,包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
S1、获取资讯来源、资讯标题、资讯文本及主观性词典,并将所述资讯标题及所述资讯文本拆分为有顺序的句子序列;
S2、根据所述资讯来源得到来源特征向量,根据所述句子序列得到所述句子序列中每一个句子的句子特征向量,根据所述句子序列及所述主观性词典得到每一个句子的主观权重得分及主观性得分;
S3、根据所述来源特征向量、所述句子特征向量、所述主观权重得分及所述主观性得分,得到资讯特征向量;
S4、根据所述资讯特征向量,使用逻辑回归判断标签类型,所述标签类型为主观或客观。
本发明的有益效果在于:获取资讯来源、资讯标题、资讯文本及主观性词典,将资讯标题和资讯文本拆分为有顺序的句子序列,得到来源特征向量、句子特征向量、主观权重得分及主观性得分,最终得到整篇资讯的资讯特征向量,并根据资讯特征向量得到资讯的标签类型,不仅考虑到资讯正文的文本内容,也将资讯的来源也考虑进主客观的分析中,对权威来源可赋予较高的客观权重,并且通过特征向量的方式提取文本特征,易于学习模型的训练,最终使用逻辑回归判断资讯的主客观,计算简单,保证了计算的效率,基于词语的模型训练和分析确保了对资讯内容分析结果的准确性。
请参照图1及图3,本发明的实施例一为:
一种涉及金融投研的数据处理方法,具体包括:
S1、获取资讯来源、资讯标题、资讯文本及主观性词典,并将所述资讯标题及所述资讯文本拆分为有顺序的句子序列;
具体为:
获取资讯来源,并根据预设规则将所述资讯来源转换为数字标识;
获取资讯标题及资讯文本,以问号、句号、感叹号或省略号作为分隔标识将所述资讯标题及所述资讯文本划分为句子,得到有顺序的句子序列;句子序列包括标题句子序列及文本句子序列;
构建自定义词库,包括资讯网站名、公司名及专有名词;
获取预训练的主观性词典,所述主观性词典包括多个词性词典,为每个所述词性词典分配权重系数;具体的,预先收集一定数量的资讯,统计其中的词性频率将词性按照频率从高到低排列,从出现频率最高的词性开始,从高到低选择预设数量的词性构建其对应的词性字典,组成主观性词典;
在一种可选的实施方式中,选择频率前50的词性构建词性字典,主要包括221个程度副词(如绝对、非常、百分之百),29个否定副词(如没有、不会、不是),93个连词(如不但、而且、否则),719个能愿副词(如迟早、成天、定然),6846个评价词(如请愿、抗议),29个情态动词(如或许、理应、但愿),32个人称代词(如我、我们、他们),2090个情感词(如表彰、恭贺),139个叹词(如啊、吧),26个疑问代词(如为什么、怎么样),17个语气词(如吗、也好),64个指示代词(如那个、有的、这个),49个状态词(如企图、准备、打算),235个主张词(如觉得、以为、判定)等,并且为每一类型的词典设置一个(0,1)的权重系数;
S2、根据所述资讯来源得到来源特征向量,根据所述句子序列得到所述句子序列中每一个句子的句子特征向量,根据所述句子序列及所述主观性词典得到每一个句子的主观权重得分及主观性得分;
具体为:对句子序列进行预处理,利用jieba(一个开源的中文分词工具,可以将文本分割为一个个词语)对句子序列进行分词和词性标注,去除预设的停用词之后,得到句子序列中每一个句子的分词列表和分词列表中每个词语对应的词性;分词列表中的词语可按其在句子中出现的顺序排列;
(1)根据所述资讯来源得到来源特征向量具体为:
预设资讯来源类别,确定所述资讯来源对应的所述资讯来源类别,得到所述资讯来源类别对应的来源特征向量,作为所述资讯来源对应的来源特征向量;
(2)根据所述句子序列得到所述句子序列中每一个句子的句子特征向量具体为:
预训练预设词库中词语对应的词向量;
使用正态分布对所述分词列表进行采样,按照词性出现频率由高到低获取预设数量的词性的向量表示,作为词性向量;
获取句子对应的分词列表中每个词语对应的词向量及所述词语的词性对应的所述词性向量;
拼接所述分词列表中每个所述词语的所述词向量及所述词性向量,得到所述句子特征向量;句子特征向量包括标题句子特征向量及文本句子特征向量;
(3)所述根据所述句子序列及所述主观性词典,得到每一个句子的主观权重得分具体为:
按照所述句子序列的顺序,逐一获取所述句子序列中句子的主观权重得分;
其中,获取句子的主观权重得分具体为:
获取所述主观性词典及所述主观性词典中每个所述词性词典对应的所述权重系数;
匹配句子对应的分词列表中的词语及所述主观性词典,若所述主观性词典中第一词性词典中的词语与所述分词列表中的词语相同,则所述第一词性词典所对应的所述权重系数为所述分词列表中的词语的权重;
将所述分词列表中各个词语的权重相加,除以所述分词列表中词语的总数,得到所述句子的主观权重得分;
(4)根据所述句子序列及所述主观性词典得到每一个句子的主观性得分具体为:
按照所述句子序列的顺序,逐一获取所述句子序列中句子的主观性得分;
其中,获取句子的主观性得分具体为:
对所述句子进行分词,得到分词列表,所述分词列表中词语按所述词语在所述句子中的出现顺序排列;
确认所述分词列表中的词语的词性;
将所述分词列表中相邻的两个词语作为第一组合,根据所述词语的所述词性,得到所述第一组合对应的第一词性组合;
比较所述词性组合与预设的主观词性组合,获取与所述主观词性组合相同的所述第一词性组合,并获取所述第一词性组合所对应的所述主观词性组合的词性权重;
将所述第一词性组合所对应的所述词性权重相加,除以句子中所述第一词性组合的总数,得到句子的主观性得分;
具体的,获取主观词性组合及词性权重的方式为:
获取预设数量的已被标记主客观的训练句子作为训练集,对训练句子进行分词,得到训练分词列表,所述训练分词列表中词语按所述词语在训练句子中的出现顺序排列;确认所述训练分词列表中的词语的词性;
获取训练分词列表中相邻的两个训练词语作为训练组合,根据训练词语的词性,得到训练组合对应的训练词性组合;
计算每个训练词性组合的卡方值,得到训练词性组合与句子主客观的相关性,并将训练词性组合按照卡方值从大到小的顺序排列,得到训练词性组合列表;获取训练词性组合列表中前预设个数的训练词性组合,作为主观词性组合;
计算每个主观词性组合的精确率,作为其对应的词性权重;精确率=出现第一主观词性组合且标记为主观的训练句子总数/出现第一主观词性组合的训练句子总数;
在一种可选的实施方式中,获取训练词性组合列表中前3个训练词性组合作为主观词性组合,主观词性组合包括副词+形容词、名词+副词及副词+副词,对应的词性权重分别为:0.8、0.7及0.55;获取句子后,对所述句子进行分词得到分词列表及分词列表中每个词语所对应的词性,判断相邻的两个词语的词性组合是否存在副词+形容词、名词+副词或副词+副词的组合形式,若最终得出句子中存在2个副词+形容词的组合、1个名词+副词的组合,则句子的主观性得分为(0.8×2+0.7)/3≈0.767;
S3、根据来源特征向量、句子特征向量、主观权重得分及主观性得分,得到资讯特征向量;
具体为:
在输入层输入5个filed(相同性质的特征的一个集合)特征:来源特征向量、标题句子特征向量、文本句子特征向量、主观权重得分及主观性得分;
将来源特征向量、标题句子特征向量、文本句子特征向量、主观权重得分及主观性得分两两交叉组合得到第二组合,通过attention机制(注意力机制,考虑各个特征组合的权重,通过特征之间的相互作用得到特征两两组合的权重)表示所述第二组合的重要性程度,具体的,初始化三个权重矩阵h,w和b,定义a=h×ReLU(wx+b),使用softmax函数对a进行归一化,得到每个组合的权重系数;将所述第二组合与来源特征向量、标题句子特征向量、文本句子特征向量、主观权重得分及主观性得分进行线性组合,得到低阶特征;
ReLU为线性整流函数;
具体的,每个组合的权重系数的计算公式为:
其中,xi及xj分别为i和j的特征向量,vi及vj分别为i和j的特征向量所对应的权重矩阵; 为特征向量xi及xj组合的权重系数; 是对权重系数 进行归一化后的值;i,j为来源特征向量、标题句子特征向量、文本句子特征向量、主观权重得分及主观性得分其中两者;hT表示系数矩阵h的转置;exp表示指数函数;
将来源特征向量、标题句子特征向量、文本句子特征向量、主观权重得分及主观性得分拼接后输入两层transformer编码器部分,得到高阶特征;
拼接所述低阶特征及所述高阶特征,得到所述资讯特征向量;
S4、根据所述资讯特征向量,使用逻辑回归判断标签类型,所述标签类型为主观或客观;
具体为,进行二分类:
根据所述资讯特征向量,通过sigmoid函数(也叫Logisit函数,用于隐藏层神经元输出,取值范围为(0,1),可以将一个实数映射到(0,1)的区间,可用于做二分类)计算出主观概率,若主观概率大于第三阈值,则所述标签类型为主观,否则,所述标签类型为客观;
在一种可选的实施方式中,计算出主观概率和客观概率;若主观概率大于第一阈值且客观概率小于第二阈值,则所述标签类型为主观;若主观概率小于第一阈值且客观概率大于第二阈值,则所述标签类型为客观;若不满足以上情况,则输出需再次检验的提示信息。
请参照图3及图4,本发明的实施例二为:
一种涉及金融投研的数据处理方法,其与实施例一的不同之处在于:
所述S2中预训练预设词库中词语对应的词向量具体为:
获取一个大规模的中文资讯语料库,调用Word2vec(一种产生词向量的模型,属于浅层网络模型)工具为中文资讯语料库中的每个词语训练出128维的词向量及128维的字向量;
训练128维词向量的过程具体为:将中文资讯语料库中的资讯中的句子用jieba进行分词,并去除预设的停用词,得到分词列表;对分词列表中所有词语的出现频率进行统计,将词语按照出现频率从高到低进行排列,根据词语与其对应的出现频率得到词频列表;根据词频列表,获取分词列表中每个词语的one-hot向量;根据词频列表,按照出现频率由小到大构建哈夫曼树,每个词语为一个叶子节点,且位于左侧叶子节点的词语的出现频率小于位于右侧的叶子节点,为左侧的叶子节点编码为1,右侧的叶子节点编码为0,得到每个词语的哈夫曼编码;
对于需要训练词向量的目标词语,输入其预设窗口范围内(及输入目标词语前后文词语的数量)的上下文词语的one-hot向量,与预设的权重矩阵相乘作为隐藏层的输入,经过隐藏层的求和平均得到第一特征向量;获取目标词语的one-hot向量及哈夫曼编码,对目标词语的one-hot向量使用sigmoid激活函数激活,得到为0的概率和为1的概率结合哈夫曼编码得到目标词语的联合概率分布,获取联合概率分布的极大似然函数,并获取对应的损失函数;
将所有词语的损失函数求和得到目标损失函数,采用梯度下降法对目标损失函数进行优化,得到权重矩阵;训练好的权重矩阵即为所有词的词向量矩阵;
在一种可选的实施方式中,得到要预测的目标词的哈夫曼编码为0110101,并且经过sigmoid激活函数之后为1的概率为h(x),则为0的概率为1-h(x),则相对应的联合概率分布为p=(1-h(x))×h(x)×h(x)×(1-h(x))×h(x)×(1-h(x))×h(x);
训练128维字向量的过程与上述训练128维词向量的过程相似;
所述S2还包括:
将所述句子特征向量输入加入attention机制的BiLSTM模型,进行基于词的特征提取及基于字的特征提取,分别得到基于词的句子特征向量及基于字的句子特征向量;
得到基于词的句子特征向量具体为:
请参照图4,将句子特征向量输入embedding嵌入层,接着经过BiLSTM层,得到每个位置的特征向量;在Attention层使用双向LSTM每个时序的输出计算每个时序的权重,将所有时序的向量进行加权求和作为基于词的句子特征向量;
得到基于字的句子特征向量的过程与上述得到基于词的句子特征向量的过程相似;
根据所述基于词的句子特征向量及所述基于字的句子特征向量,使用逻辑回归判断所述句子的标签类型;具体的,拼接基于词的句子特征向量及基于字的句子特征向量得到第二特征向量,通过sigmoid函数计算出对应第二特征向量的主观和客观的概率,若主观概率大于第一阈值且客观概率小于第二阈值,则所述标签类型为主观;若主观概率小于第一阈值且客观概率大于第二阈值,则所述标签类型为客观;若不满足以上情况,则输出需再次检验的提示信息;
在一种可选的实施方式中,可将上述判断句子主客观的方法应用于除资讯文本外的较多客观性表述的文本中,如研究报告,可将标签类型为主观的句子在研究报告中高亮表示,以提示研究员对相应句子做出修改;
请参照图3,所述S4之后还包括:生成资讯摘要;
具体为:首先根据句子的标签类型,摘取标签为客观的句子,接着计算句子评分=(1-句子的主观性得分平均值)×textRank算法分数值(textRank算法为一种文本排序算法,由网页重要性排序算法PageRank算法改进而来,能够从给定的一个文本中提取该文本的关键词及关键词组,并使用抽取式的自动文摘方法提取出该文本的关键句),根据句子评分结合预设的业务规则作为资讯摘要;
在一种可选的实施方式中,预设的业务规则可为资讯摘要句子总数或资讯摘要字数;
在一种可选的实施方式中,本说明书中的资讯为新闻。
请参照图2,本发明的实施例三为:
一种涉及金融投研的数据处理终端1,包括处理器2、存储器3及存储在存储器3上并可在所述处理器2上运行的计算机程序,所述处理器2执行所述计算机程序时实现实施例一或实施例二中的各个步骤。
综上所述,本发明提供了一种涉及金融投研的数据处理及终端,通过获取资讯来源、资讯标题、资讯文本及主观性词典,得到来源特征向量、标题句子特征向量、文本句子特征向量、主观权重得分及主观性得分,不仅考虑到资讯的标题和文本,还将资讯的来源也加入主客观评价的维度,更加贴合人的思维,进一步提高了最终得到的结果的准确性,并且考虑在获取句子中词语的词性时,不仅获取其中高频词性生成句子特征向量,还考虑其中所有词性计算主观权重得分,并且还考虑到相邻的词语的词性的影响,计算主观性得分,考虑全面,进一步保证了最终的评估结果的真实可靠;并且还能获取单个句子的主客观评价结果,能够扩展应用到其他需要较强客观性的文本评估中,如调查报告的评估,将标签类型为主观的句子高亮显示,能够帮助研究员有目标地修改相应描述,使得最终的成文更加客观,并且,将使用textRank算法得到的关键句子进行筛选后生成摘要,能保证所选择的句子的客观。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等同变换,或直接或间接运用在相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (8)
1.一种涉及金融投研的数据处理方法,其特征在于,包括步骤:
S1、获取资讯来源、资讯标题、资讯文本及主观性词典,并将所述资讯标题及所述资讯文本拆分为有顺序的句子序列;
S2、根据所述资讯来源得到来源特征向量,根据所述句子序列得到所述句子序列中每一个句子的句子特征向量,根据所述句子序列及所述主观性词典得到每一个句子的主观权重得分及主观性得分;
S3、根据所述来源特征向量、所述句子特征向量、所述主观权重得分及所述主观性得分,得到资讯特征向量;
S4、根据所述资讯特征向量,使用逻辑回归判断标签类型,所述标签类型为主观或客观;
所述S1具体为:
获取资讯来源,并根据预设规则将所述资讯来源转换为数字标识;
获取资讯标题及资讯文本,以问号、句号、感叹号或省略号作为分隔标识将所述资讯标题及所述资讯文本划分为句子,得到有顺序的句子序列;
获取预训练的主观性词典,所述主观性词典包括多个词性词典,为每个所述词性词典分配权重系数;
所述S2中根据所述句子序列及所述主观性词典得到每一个句子的主观性得分具体为:
按照所述句子序列的顺序,逐一获取所述句子序列中句子的主观性得分;
其中,获取句子的主观性得分具体为:
对所述句子进行分词,得到分词列表,所述分词列表中词语按所述词语在所述句子中的出现顺序排列;
确认所述分词列表中的词语的词性;
将所述分词列表中相邻的两个词语作为第一组合,根据所述词语的所述词性,得到所述第一组合对应的第一词性组合;
比较所述词性组合与预设的主观词性组合,获取与所述主观词性组合相同的所述第一词性组合,并获取所述第一词性组合所对应的所述主观词性组合的词性权重;
将所述第一词性组合所对应的所述词性权重相加,除以句子中所述第一词性组合的总数,得到句子的主观性得分。
2.根据权利要求1所述的一种涉及金融投研的数据处理方法,其特征在于,所述S2中根据所述资讯来源得到来源特征向量具体为:
预设资讯来源类别,确定所述资讯来源对应的所述资讯来源类别,得到所述资讯来源类别对应的来源特征向量,作为所述资讯来源对应的来源特征向量。
3.根据权利要求1所述的一种涉及金融投研的数据处理方法,其特征在于,所述S2中根据所述句子序列得到所述句子序列中每一个句子的句子特征向量具体为:
预训练预设词库中词语对应的词向量;
对所述句子进行词语划分,得到分词列表;
使用正态分布对所述分词列表进行采样,按照词性出现频率由高到低获取预设数量的词性的向量表示,作为词性向量;
获取所述分词列表中每个词语对应的词向量及所述词语的词性对应的所述词性向量;
拼接所述分词列表中每个所述词语的所述词向量及所述词性向量,得到所述句子特征向量。
4.根据权利要求1所述的一种涉及金融投研的数据处理方法,其特征在于,所述S2中所述根据所述句子序列及所述主观性词典,得到每一个句子的主观权重得分具体为:
按照所述句子序列的顺序,逐一获取所述句子序列中句子的主观权重得分;
其中,获取句子的主观权重得分具体为:
获取所述主观性词典及所述主观性词典中每个所述词性词典对应的所述权重系数;
对所述句子进行分词,得到分词列表;
匹配所述分词列表中的词语及所述主观性词典,若所述主观性词典中第一词性词典中的词语与所述分词列表中的词语相同,则所述第一词性词典所对应的所述权重系数为所述分词列表中的词语的权重;
将所述分词列表中各个词语的权重相加,除以所述分词列表中词语的总数,得到所述句子的主观权重得分。
5.根据权利要求1所述的一种涉及金融投研的数据处理方法,其特征在于,所述S3具体为:
将所述来源特征向量、所述句子特征向量、所述主观权重得分及所述主观性得分两两交叉组合得到第二组合,通过attention机制表示所述第二组合;
将所述第二组合与所述来源特征向量、所述句子特征向量、所述主观权重得分及所述主观性得分进行线性组合,得到低阶特征;
将所述来源特征向量、所述句子特征向量、所述主观权重得分及所述主观性得分输入transformer模型,得到高阶特征;
拼接所述低阶特征及所述高阶特征,得到所述资讯特征向量。
6.根据权利要求1所述的一种涉及金融投研的数据处理方法,其特征在于,所述S4具体为:
根据所述资讯特征向量,通过sigmoid函数计算出主观概率,若主观概率大于第一阈值则所述标签类型为主观;
否则,所述标签类型为客观。
7.根据权利要求1所述的一种涉及金融投研的数据处理方法,其特征在于,所述S2还包括:
将所述句子特征向量输入加入attention机制BiLSTM模型,进行基于词的特征提取及基于字的特征提取,分别得到基于词的句子特征向量及基于字的句子特征向量;
根据所述基于词的句子特征向量及所述基于字的句子特征向量,使用逻辑回归判断所述句子的标签类型。
8.一种涉及金融投研的数据处理终端,包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-7中任一所述的一种涉及金融投研的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010950256.4A CN111815426B (zh) | 2020-09-11 | 2020-09-11 | 一种涉及金融投研的数据处理方法及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010950256.4A CN111815426B (zh) | 2020-09-11 | 2020-09-11 | 一种涉及金融投研的数据处理方法及终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111815426A CN111815426A (zh) | 2020-10-23 |
CN111815426B true CN111815426B (zh) | 2020-12-15 |
Family
ID=72860075
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010950256.4A Active CN111815426B (zh) | 2020-09-11 | 2020-09-11 | 一种涉及金融投研的数据处理方法及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111815426B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114612104B (zh) * | 2020-12-09 | 2024-08-13 | 支付宝(杭州)信息技术有限公司 | 风险识别方法、装置和电子设备 |
CN113761928B (zh) * | 2021-09-09 | 2024-07-30 | 深圳市大数据研究院 | 一种基于词频打分算法获取法律文书案件地点的方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108108433A (zh) * | 2017-12-19 | 2018-06-01 | 杭州电子科技大学 | 一种基于规则和数据网络融合的情感分析方法 |
CN110888983A (zh) * | 2019-11-26 | 2020-03-17 | 厦门市美亚柏科信息股份有限公司 | 一种正负面情感分析方法、终端设备及存储介质 |
CN111241410A (zh) * | 2020-01-22 | 2020-06-05 | 深圳司南数据服务有限公司 | 一种行业新闻推荐方法及终端 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11501076B2 (en) * | 2018-02-09 | 2022-11-15 | Salesforce.Com, Inc. | Multitask learning as question answering |
-
2020
- 2020-09-11 CN CN202010950256.4A patent/CN111815426B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108108433A (zh) * | 2017-12-19 | 2018-06-01 | 杭州电子科技大学 | 一种基于规则和数据网络融合的情感分析方法 |
CN110888983A (zh) * | 2019-11-26 | 2020-03-17 | 厦门市美亚柏科信息股份有限公司 | 一种正负面情感分析方法、终端设备及存储介质 |
CN111241410A (zh) * | 2020-01-22 | 2020-06-05 | 深圳司南数据服务有限公司 | 一种行业新闻推荐方法及终端 |
Non-Patent Citations (1)
Title |
---|
"融合多头自注意力机制的金融新闻极性分析";赵亚南等;《计算机工程》;20200831;第46卷(第8期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111815426A (zh) | 2020-10-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108363743B (zh) | 一种智能问题生成方法、装置和计算机可读存储介质 | |
Nguyen et al. | Distinguishing antonyms and synonyms in a pattern-based neural network | |
CN109726745B (zh) | 一种融入描述知识的基于目标的情感分类方法 | |
Poostchi et al. | BiLSTM-CRF for Persian named-entity recognition ArmanPersoNERCorpus: the first entity-annotated Persian dataset | |
Li et al. | Word embedding and text classification based on deep learning methods | |
CN111339772B (zh) | 俄语文本情感分析方法、电子设备和存储介质 | |
CN111159405B (zh) | 基于背景知识的讽刺检测方法 | |
CN112860896A (zh) | 语料泛化方法及用于工业领域的人机对话情感分析方法 | |
Suchdev et al. | Twitter sentiment analysis using machine learning and knowledge-based approach | |
CN111815426B (zh) | 一种涉及金融投研的数据处理方法及终端 | |
Suyanto | Synonyms-based augmentation to improve fake news detection using bidirectional LSTM | |
Elhadad et al. | Sentiment analysis of Arabic and English tweets | |
CN116362591A (zh) | 基于情感分析的多维度教师评价辅助方法和系统 | |
Hicham et al. | Customer sentiment analysis for Arabic social media using a novel ensemble machine learning approach | |
Jha et al. | Hsas: Hindi subjectivity analysis system | |
CN113782123A (zh) | 一种基于网络数据的在线医疗患者满意度测量方法 | |
Arora et al. | Sentimental analysis on imdb movies review using bert | |
Ananth et al. | Grammatical tagging for the Kannada text documents using hybrid bidirectional long-short term memory model | |
Ferrero-Jaurrieta et al. | Non-symmetric over-time pooling using pseudo-grouping functions for convolutional neural networks | |
Su et al. | Automatic ontology population using deep learning for triple extraction | |
Seresangtakul et al. | Thai-Isarn dialect parallel corpus construction for machine translation | |
CN114676699A (zh) | 实体情感分析方法、装置、计算机设备和存储介质 | |
Praveena et al. | Chunking based malayalam paraphrase identification using unfolding recursive autoencoders | |
CN112101001A (zh) | 一种非结构化文本相似性判断的方法及系统 | |
Gomez et al. | CICBUAPnlp: graph-based approach for answer selection in community question answering task |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |