基于机器学习算法识别负面金融资讯的方法和装置
技术领域
本发明涉及人工智能技术领域,具体涉及一种基于机器学习算法识别负面金融资讯的方法和装置。
背景技术
金融资讯是以金融领域为界,能够在相对较短的时间内给使用者带来有价值的信息。负面金融资讯和该资讯所涉及金融产品的投资价值有较高相关性,投资者可根据负面金融资讯内容,控制投资风险。
市面上现有的产品中,主要通过两种方式进行负面金融资讯的识别和分类,第一种是人工编辑,以人力方式将金融资讯中的负面资讯筛选出来并进行标记;第二种是负面词集合和/或负面规则集合可以借助计算机实现,预先设定文本中可能会出现的负面词和/或负面规则,通过判断一条资讯中负面词和/或负面规则出现的情况来判断该条资讯是否为负面金融资讯。第一种人工编辑的判断方式相应准确度较高,但花费时间较长,不具备向大体量资讯进行扩展的能力;第二种负面词和/或负面规则的判断方式可以借助计算机实现,能够快速处理大体量的资讯,但由于负面词的挑选和负面规则的制定无法穷举,所以在进行自然语言的情绪处理时,需要不断的补充新发现的负面词或负面规则,另外由于自然语言内容的更新速度很快,需要不断调整判断规则,资讯中一些“时髦”词语的使用很可能会影响资讯情绪的判断。
发明内容
本发明要解决的技术问题在于克服现有技术中的缺陷,提供一种既能够通过计算机实现大体量资讯的处理,同时又能够通过预构建的算法模型更准确判断自然语言所表达的情绪是否为负面的基于机器学习算法识别负面金融资讯的方法和装置。
为此,采用的技术方案为一种基于机器学习算法识别负面金融资讯的方法,包括获取待判断的金融资讯文本,对所述待判断的金融资讯文本进行句子的拆分;
根据拆分的所有句子,运用预构建的算法模型一,对所有句子进行向量化处理,得到所有句子的负面或非负面分类结果;
根据所述所有句子的负面或非负面分类结果,运用预构建的算法模型二,得到所述待判断的金融资讯文本是否为负面的判断结果。
优选的,还包括训练数据收集步骤,包括获取多个金融资讯文本作为预构建的算法模型一和算法模型二的训练集,所述训练集包括第一训练集和第二训练集,所述第一训练集包括对金融资讯文本进行句子拆分,采用人工标注的方法对句子进行负面或非负面分类结果标注,所述第二训练集包括采用人工标注的方法对金融资讯文本句子和对金融资讯文本整体分别进行负面或非负面分类结果标注。
优选的,包括获取句子信息作为输入,以及获取所述第一训练集中句子分类结果作为输入对模型进行训练,得到算法模型一的训练参数;其中,在模型训练过程中首先要对金融资讯文本句子信息做向量化参数表示;根据所述算法模型一的训练参数优化构建算法模型一。
优选的,包括获取所述第二训练集中金融资讯文本句子分类结果和金融资讯文本整体分类结果作为输入对模型进行训练,得到算法模型二的训练参数;根据所述算法模型二的训练参数优化构建算法模型二。
优选的,所述算法模型一和所述算法模型二基于机器学习算法中的循环神经网络处理文本信息。
一种基于机器学习算法识别负面金融资讯的装置,包括:
文本获取模块,用于获取待判断的金融资讯文本,对所述待判断的金融资讯文本进行句子的拆分;
第一判断模块,用于根据拆分的所有句子,运用预构建的算法模型一,对所有句子进行向量化处理,得到所有句子的负面或非负面分类结果;
第二判断模块,根据所述所有句子的负面或非负面分类结果,运用预构建的算法模型二,得到所述待判断的金融资讯文本是否为负面的判断结果。
优选的,还包括训练数据收集模块,用于获取多个金融资讯文本作为预构建的算法模型一和算法模型二的训练集,所述训练集包括第一训练集和第二训练集,所述第一训练集包括对金融资讯文本进行句子拆分,采用人工标注的方法对句子进行负面或非负面分类结果标注,所述第二训练集包括采用人工标注的方法对金融资讯文本句子和对金融资讯文本整体分别进行负面或非负面分类结果标注。
优选的,包括第一构建模块,用于获取句子信息作为输入,以及获取所述第一训练集中句子分类结果作为输入对模型进行训练,得到算法模型一的训练参数;其中,在模型训练过程中首先要对句子信息做向量化参数表示;根据所述算法模型一的训练参数优化构建算法模型一。
优选的,包括第二构建模块,用于获取所述第二训练集中金融资讯文本句子分类结果和金融资讯文本整体分类结果作为输入对模型进行训练,得到算法模型二的训练参数;
根据所述算法模型二的训练参数优化构建算法模型二。
本发明提供的基于机器学习算法识别负面金融资讯的方法,通过采用人工标注句子和文本的方法来训练算法模型,并基于机器学习算法优选使用循环神经网络(RNN)的一种算法模型——长短期记忆模型(LSTM),这样可以更好的处理文本信息,得到满足实际需要的分类结果,从而实现利用机器学习算法解析金融资讯,对金融资讯表达的情绪进行判断,判断其是否为负面资讯;因此,本发明的优势在于既能够通过计算机实现大体量资讯的处理,同时又能够通过机器学习算法更准确的提取资讯所表达的负面信息,从而更好的判断自然语言所表达的情绪是否为负面;由于负面金融资讯和该资讯所涉及金融产品的投资价值有较高相关性,从而有利于投资者可根据识别出的负面金融资讯内容,控制投资风险。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种基于机器学习算法识别负面金融资讯的方法的流程图;
图2为本发明提供的算法模型的训练方法流程图;
图3为本发明提供的基于机器学习算法识别负面金融资讯的装置。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
机器学习算法是人工智能的核心,是实现人工智能应用的根本途径。计算机通过模拟和学习人类实现目标的行为方式和思考路径,来替代人完成工作。循环神经网络(Recurrent Neural Network,简称RNN)是一种具体的机器学习算法,一种节点定向连接成环的人工神经网络,该模型擅长对自然语言序列建模,把任意长度的句子转化为特定维度的浮点数向量,同时“记住”句子中比较重要的单词,让“记忆”保存比较长的时间。长短期记忆模型(LSTM)是RNN模型的一种,其增加了输入门、输出门、忘记门三个控制单元,提高了序列依赖的处理能力。
图1是本发明提供的一种基于机器学习算法识别负面金融资讯的方法的流程图,包括以下步骤:
获取待判断的金融资讯文本,对所述待判断的金融资讯文本进行句子的拆分;
根据拆分的所有句子,运用预构建的算法模型一,对所有句子进行向量化处理,得到所有句子的负面或非负面分类结果;
根据所述所有句子的负面或非负面分类结果,运用预构建的算法模型二,得到所述待判断的金融资讯文本是否为负面的判断结果。
本发明的算法模型一和算法模型二是基于机器学习算法所构建的,这样利用机器学习算法分析以自然语言描述的金融资讯,对资讯文本进行分析,以判断文本所反映的情绪是否为负面。
图2是本发明提供的算法模型的训练方法流程图,该流程如下:
基于机器学习算法识别负面金融资讯的方法还包括训练数据收集步骤,包括获取多个金融资讯文本作为预构建的算法模型一和算法模型二的训练集,所述训练集包括第一训练集和第二训练集,所述第一训练集包括对金融资讯文本进行句子拆分,采用人工标注的方法对句子进行负面或非负面分类结果标注,所述第二训练集包括采用人工标注的方法对金融资讯文本句子和对金融资讯文本整体分别进行负面或非负面分类结果标注。
包括获取句子信息作为输入,以及获取所述第一训练集中句子分类结果作为输入对模型进行训练,得到算法模型一的训练参数;其中,在模型训练过程中首先要对随机获取的多个句子信息做向量化参数表示;根据所述算法模型一的训练参数优化构建算法模型一。
包括获取所述第二训练集中金融资讯文本句子分类结果和金融资讯文本整体分类结果作为输入对模型进行训练,得到算法模型二的训练参数;根据所述算法模型二的训练参数优化构建算法模型二。
所述算法模型一和所述算法模型二基于机器学习算法中的循环神经网络处理文本信息。
本发明提供的算法模型的训练方法的具体步骤如下:
首先,选择机器学习算法,经过一系列算法比较,使用循环神经网络(RNN)中的算法模型之一,即长短期记忆模型(LSTM)可以更好的处理文本信息,得到满足实际需要的分类结果。
其次,挑选一定数量的金融资讯文本作为模型的训练集。由于整个流程中涉及两次模型的应用,并且两次模型的输入、输出内容不同,因此需要两批人工标注的分类结果作为训练集。算法模型一应用的训练集为人工标注的句子的负面或非负面分类结果,即第一训练集。算法模型二应用的训练集为人工标注的金融资讯文本句子和金融资讯文本整体的负面或非负面分类结果,即第二训练集。
再次,对模型进行参数训练,得到可用的算法模型一。用随机获取的句子信息作为输入,以及人工标注的句子分类结果作为输入对模型进行训练,得到算法模型一的训练参数;在模型训练过程中,首先要对该随机获取的句子信息做向量化参数表示。
接着,对模型继续进行参数训练,得到可用的算法模型二。用人工标注的金融资讯文本句子分类结果和金融资讯文本整体分类结果作为输入对模型进行训练,得到算法模型二的训练参数。
模型在训练过程中,所使用的的训练集可以是同一批资讯对象,也可以不是同一批资讯对象。但是训练过程对于两个模型而言是相互独立的,也就是说,第二个模型在训练过程中的输入与第一个模型的输出无关。只有在实际应用模型时,第一个模型的输出才会成为第二个模型的输入。
在本实施例中,使用长短期记忆模型(LSTM)作为识别负面金融资讯的模型;对于使用其他RNN模型,也可以实现识别负面金融资讯的功能,在此处不做过多限定。相比较而言,使用长短期记忆模型(LSTM),识别效果更符合预期。
算法模型训练的实施例:
样本文本信息为“①近期关于XX集团的负面新闻层出不穷,从拖欠员工工资到大量出售4S店,再到控股股东股份被冻结,XX集团似乎经历着一场关乎生死的重大变革,而资金链问题已成为其激进扩张下难以挥去的阴霾。②2011年,XX集团登陆上海证券交易所,上市筹集资金高达63亿元。③彼时,XX集团是“中国XXXX十大企业集团”第一名,全球市值最高的XX经销商集团。④如今,控股股东股权质押、冻结,卖资产断臂瘦身等事件让昔日XX经销商第一股黯然失色。⑤同时员工工资拖欠多月、高管减持、4S店携保险押金跑路。”
人工标注结果为:
文本内容 |
标注结果(负面为1,非负面为0) |
资讯整体 |
1 |
句子① |
1 |
句子② |
0 |
句子③ |
0 |
句子④ |
1 |
句子⑤ |
1 |
对该样本文本的句子文本进行向量化操作,将其结果作为输入,将句子的标注结果作为输入,用于训练算法模型一(RNN模型)的参数。使用随机选取的若干句子样本重复上述过程,以达到训练算法模型一的目的。训练完成后,算法模型一可用于句子文本的负面判断。
仍以上述资讯文本为例,对于资讯文本的句子进行拆分并人工判断句子的分类结果和资讯文本整体的分类结果,将其结果作为输入,用于训练算法模型二(RNN模型)的参数。
使用随机选取的若干金融资讯文本样本重复上述过程,以达到训练算法模型二的目的。训练完成后,算法模型一和算法模型二可以用于金融资讯文本是否为负面的判断。
判断金融资讯文本是否为负面的实施例:
待判断样本原始信息为“①近日,XXXX向债权人发送了债务重组方案,而这一重组方案引起债权人不满。②无独有偶,XX集团的债转股方案也遭到投资人质疑。③一旦债权人不同意,这些债转股方案将被迫搁置。④这背后到底是企业给出的方案缺乏诚意,还是债权人“刚兑”心理使然不肯让步?⑤中国证券报记者调查了数家企业的债转股情况。⑥调查显示,由于种种原因,企业和债权人难以建立信任。⑦债权人质疑企业逃废债,而企业则认为债权人一直寄望“刚兑”是债转股难以推进的重要原因。⑧业内人士指出,培育市场化困境投资机构,是打破僵局、盘活债转股市场的关键。”
对上述待判断资讯文本进行句子的拆分,将其结果作为算法模型一的输入,使用算法模型一进行判断,结果为:
然后将对句子的判断结果作为算法模型二的输入,使用算法模型二进行判断,结果判断资讯文本为“负面”金融资讯。
如图3所示,一种基于机器学习算法识别负面金融资讯的装置,包括:
文本获取模块310,用于获取待判断的金融资讯文本,对所述待判断的金融资讯文本进行句子的拆分;
第一判断模块320,用于根据拆分的所有句子,运用预构建的算法模型一,对所有句子进行向量化处理,得到所有句子的负面或非负面分类结果;
第二判断模块330,根据所述所有句子的负面或非负面分类结果,运用预构建的算法模型二,得到所述待判断的金融资讯文本是否为负面的判断结果。
识别负面金融资讯的装置还包括训练数据收集模块,用于获取多个金融资讯文本作为预构建的算法模型一和算法模型二的训练集,所述训练集包括第一训练集和第二训练集,所述第一训练集包括对金融资讯文本进行句子拆分,采用人工标注的方法对句子进行负面或非负面分类结果标注,所述第二训练集包括采用人工标注的方法对金融资讯文本句子和对金融资讯文本整体分别进行负面或非负面分类结果标注。
识别负面金融资讯的装置还包括第一构建模块,用于获取句子信息作为输入,以及获取所述第一训练集中句子分类结果作为输入对模型进行训练,得到算法模型一的训练参数;其中,在模型训练过程中首先要对句子信息做向量化参数表示;根据所述算法模型一的训练参数优化构建算法模型一。
识别负面金融资讯的装置还包括第二构建模块,用于获取所述第二训练集中金融资讯文本句子分类结果和金融资讯文本整体分类结果作为输入对模型进行训练,得到算法模型二的训练参数;根据所述算法模型二的训练参数优化构建算法模型二。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。