CN115983268B - 一种金融事件链分析方法和计算机可读存储介质 - Google Patents

一种金融事件链分析方法和计算机可读存储介质 Download PDF

Info

Publication number
CN115983268B
CN115983268B CN202310263332.8A CN202310263332A CN115983268B CN 115983268 B CN115983268 B CN 115983268B CN 202310263332 A CN202310263332 A CN 202310263332A CN 115983268 B CN115983268 B CN 115983268B
Authority
CN
China
Prior art keywords
event
financial
chain
verb
chinese
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310263332.8A
Other languages
English (en)
Other versions
CN115983268A (zh
Inventor
马永亮
许木璠
周明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Lanzhou Technology Co ltd
Original Assignee
Beijing Lanzhou Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Lanzhou Technology Co ltd filed Critical Beijing Lanzhou Technology Co ltd
Priority to CN202310263332.8A priority Critical patent/CN115983268B/zh
Publication of CN115983268A publication Critical patent/CN115983268A/zh
Application granted granted Critical
Publication of CN115983268B publication Critical patent/CN115983268B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及计算机信息处理技术领域,特别涉及一种金融事件链分析方法和计算机可读存储介质,该金融事件链分析方法先获取源文本,基于源文本获取共指消解结果以得到事件成分;接着获取金融实体列表和扩充版中文停用词库,基于金融实体列表和扩充版中文停用词库对事件成分进行筛选以提取结构化事件数据;再基于结构化事件数据,使用金融实体库进行匹配判断以筛选出时序链条;最后基于聚类算法,通过时序链条设计事件链序列预测优化模型输出预测结果,即从源文本抽取事件成分,通过金融实体列表和扩充版中文停用词库初步筛选生成结构化事件数据,大幅提升了中文事件识别率以及中文事件抽取结果可解释性,使其在中文金融场景下的应用具有明显优势。

Description

一种金融事件链分析方法和计算机可读存储介质
【技术领域】
本发明涉及计算机信息处理技术领域,其特别涉及一种金融事件链分析方法和计算机可读存储介质。
【背景技术】
事件链分析技术包括事件提取、事件链构建、事件链预测分析等步骤,是对事件整体发展流程的预测分析手段。事件链分析技术从新闻报刊、网络文本中获取事件及事件参与者信息,并依据时间顺序以及参与者将事件构建成时序事件序列。基于已有的事件链条,事件链分析技术可以对即将发生的事件进行预测或是评估未来发展趋势等。
在事件链分析过程中,事件的内容至关重要。事件链分析预测技术最早仅关注代表事件的动词短语,最新的技术开始关注与事件动词有关的短语信息,事件表征趋于完整。当前主流事件链抽取模型有两种:其一是基于句法规则的抽取方法,使用句法分析工具从语句中分析词性,查找事件动词并抽取与事件动词有句法依赖关系的成分;另一种是使用预训练语言模型进行事件生成,通过预测文档中是否存在某种事件并使用填空的方式生成事件信息。当前技术存在的缺陷如下:
首先,当前基于句法规则的事件抽取方法过程依赖于英语句法结构特征,其抽取规则中主谓宾关系明确且成分词多为单个词汇。而在中文场景下,相关句法成分间通常通过多重句法依赖关系相连,且补充成分多、句法成分中短语短句多,句法结构复杂。因此,当前句法抽取规则并不适用于中文场景。而基于预训练生成式模型的方法使用预训练模型预测事件种类并在人为设定好的事件模板中生成事件成分,生成结果过程解释性较差。同时,使用预训练事件生成模型容易在置信概率强的事件位置重复使用模板生成多个内涵一致但成分互不相同的事件,提取事件质量不可控性较高。
其次,已有事件链预测模型架构并不能直接进行事件预测。当前模型仅能够针对特定事件序列给出评分,通过比较评分大小选择更为合适的候选事件。在不人为给定候选事件集合时,所有可能发生的事件总量庞大,如果一一进行评估将会极其耗时,将难以在实际场景下应用。
最后,当前在金融领域还没有成熟的事件链抽取预测方案,已有事件链抽取技术仅使用较为泛用的动词停用词表作为事件筛选依据,并不能保证事件链条上的事件都具有一定的金融含义,这将会为金融分析过程引入噪声。在将事件链预测模型应用到金融新闻上时,需要在技术流程中加入对相关信息的筛选过程。
【发明内容】
为了解决现有事件链分析中适用场景局限及基于预训练生成式模型进行的中文金融事件抽取过程中的不可解释性的问题,本发明提供一种金融事件链分析方法和计算机可读存储介质。
本发明为解决上述技术问题,提供如下的技术方案:一种金融事件链分析方法,包括以下步骤:
获取源文本,基于源文本获取共指消解结果以得到事件成分;其中,获取源文本,基于源文本获取共指消解结果以得到事件成分还包括以下步骤:获取中文句法结构,基于中文句法结构设计事件自动提取模块,通过事件自动提取模块从源文本中提取共指消解结果;获取初始动词,基于共指消解结果获取源文本中的名词位置列表,将初始动词作为锚点,根据句法依赖特定关系种类从源文本中提取与初始动词相关联的事件成分;获取金融实体列表和扩充版中文停用词库,基于金融实体列表和扩充版中文停用词库对事件成分进行筛选以提取结构化事件数据;基于结构化事件数据,使用金融实体库进行匹配判断以筛选出时序链条;基于聚类算法,通过时序链条设计事件链序列预测优化模型输出预测结果;其中,基于聚类算法,通过时序链条设计事件链序列预测优化模型输出预测结果还包括以下步骤:汇总结构化事件数据出现的所有事件动词,使用事件动词对应的预训练词嵌入向量进行相似度见图,筛选相似度较高并无金融含义的动词联通所有事件动词以创建预训练词向量库;通过聚类算法获取聚类信息以替换预测目标;基于金融事件链预测优化模型进行训练,输出预测结果。
优选地,获取中文句法结构,基于中文句法结构设计事件自动提取模块,通过事件自动提取模块从源文本中提取共指消解结果具体为:基于中文句法结构,使用开源文本语法分析工具从源文本中提取共指消解结果。
优选地,所述事件成分包含直接与初始动词相关联的成分词、及通过除初始动词之外指代词汇间接与锚点相连的成分词。
优选地,所述结构化事件数据包括事件动词、事件主体成分、事件次要成分、事件补足成分、事件时间成分和事件所在句子。
优选地,基于结构化事件数据,使用金融实体库进行匹配判断以筛选出时序链条具体为:基于结构化事件数据,使用金融实体库进行匹配判断,筛选出单个金融实体在源文本中提及参与的所有事件组成的时序链条。
优选地,通过聚类算法获取聚类信息以替换预测目标具体为:使用聚类算法对无金融含义的事件动词进行聚类,界定聚类类别数目,将所有事件动词作为聚类类别数目内的动词类别以获取动词聚类结果,通过动词聚类结果替换预测目标。
优选地,基于金融事件链预测优化模型进行训练,输出预测结果具体为:根据时序链条对动词类别进行打分,根据分数获得金融事件链预测优化模型预测出的动词类别种类,基于动词类别种类输出预测结果。
本发明为解决上述技术问题,提供又一技术方案如下:一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述任一项所述的一种事件链分析方法。
与现有技术相比,本发明所提供的一种金融事件链分析方法和计算机可读存储介质,具有如下的有益效果:
1、本发明的步骤中关于金融事件链分析方法,首先获取源文本,基于源文本获取共指消解结果以得到事件成分;接着获取金融实体列表和扩充版中文停用词库,基于金融实体列表和扩充版中文停用词库对事件成分进行筛选以提取结构化事件数据;然后基于结构化事件数据,使用金融实体库进行匹配判断以筛选出时序链条;最后基于聚类算法,通过时序链条设计事件链序列预测优化模型输出预测结果,即先从源文本中抽取事件成分,通过金融实体列表和扩充版中文停用词库进行初步筛选生成新闻-事件链原始数据,即结构化事件数据;然后从结构化时间数据中获取时序链条并训练事件链序列预测优化模型对与金融实体有关的、即将发生的事件进行预测,大幅提升了中文事件识别率以及中文事件抽取结果可解释性,对事件模型在中文金融场景下的应用具有明显优势。
2、本发明的步骤中获取源文本,基于源文本获取共指消解结果以得到事件成分具体包括以下步骤:获取中文句法结构,基于中文句法结构设计事件自动提取模块,通过事件自动提取模块从源文本中提取共指消解结果;获取初始动词,基于共指消解结果获取源文本中的名词位置列表,将初始动词作为锚点,根据句法依赖特定关系种类从源文本中提取与初始动词相关联的事件成分;其中,所述事件成分包含直接与初始动词相关联的成分词、及通过除初始动词之外指代词汇间接与锚点相连的成分词;采用事件自动提取模块,提升了事件识别率并提升了事件抽取过程的可解释性;且采用该种提取方法有效地规避了生成式模型中可能使用同一个事件动词生成多个重复事件的问题。
3、本发明的步骤中获取中文句法结构,基于中文句法结构设计事件自动提取模块,通过事件自动提取模块从源文本中提取共指消解结果具体为:基于中文句法结构,使用开源文本语法分析工具从源文本中提取共指消解结果;基于中文句法结构能够扩大该事件链分析方法的适用领域,使其不仅能够适应英文,还能在中文金融领域中适用。
4、本发明的步骤中基于结构化事件数据,使用金融实体库进行匹配判断以筛选出时序链条具体为:基于结构化事件数据,使用金融实体库进行匹配判断,筛选出单个金融实体在源文本中提及参与的所有事件组成的时序链条,此设置使后续设计的模型能够更加专注地提取金融场景的相关事件。
5、本发明的步骤中基于聚类算法,通过时序链条设计事件链序列预测优化模型输出预测结果具体包括以下步骤:首先汇总结构化事件数据出现的所有事件动词,使用事件动词对应的预训练词嵌入向量进行相似度见图,筛选相似度较高并无金融含义的动词联通所有事件动词以创建预训练词向量库;然后通过聚类算法获取聚类信息以替换预测目标;最后基于金融事件链预测优化模型进行训练,输出预测结果;通过上述步骤不仅能够提升结构化事件数据的质量,还能将语义相近的事件更好地归纳,从而使事件链序列预测优化模型能够更好地掌握整体事件类型发展。
6、本发明的步骤中通过聚类算法获取聚类信息以替换预测目标具体为:使用聚类算法对无金融含义的事件动词进行聚类,界定聚类类别数目,将所有事件动词作为聚类类别数目内的动词类别以获取动词聚类结果,通过动词聚类结果替换预测目标;此设置大幅降低了需要预测的动词种类,使得事件链序列预测优化模型最终进行预测任务时能够在可控类别范围内进行评估。
7、本发明的步骤中基于金融事件链预测优化模型进行训练,输出预测结果具体为:根据时序链条对动词类别进行打分,根据分数获得金融事件链预测优化模型预测出的动词类别种类,基于动词类别种类输出预测结果,此设置使得事件链序列预测优化模型能够快速在事件动词语义空间中预测出未来事件的语义倾向。
8、本发明还提供一种计算机可读存储介质,具有与上述金融事件链分析方法相同的有益效果,在此不做赘述。
【附图说明】
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明第一实施例提供的一种金融事件链分析方法的步骤流程图。
图2是本发明第一实施例提供的一种金融事件链分析方法之步骤S1的步骤流程图。
图3是本发明第一实施例提供的一种金融事件链分析方法之示例图一。
图4是本发明第一实施例提供的一种金融事件链分析方法之步骤S4的步骤流程图。
图5是本发明第一实施例提供的一种金融事件链分析方法之示例图二。
图6是本发明第一实施例提供的一种金融事件链分析方法之示例图三。
【具体实施方式】
为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图及实施实例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参阅图1,本发明第一实施例提供一种金融事件链分析方法,包括以下步骤:
S 1:获取源文本,基于源文本获取共指消解结果以得到事件成分;
S2:获取金融实体列表和扩充版中文停用词库,基于金融实体列表和扩充版中文停用词库对事件成分进行筛选以提取结构化事件数据;
S3:基于结构化事件数据,使用金融实体库进行匹配判断以筛选出时序链条;
S4:基于聚类算法,通过时序链条设计事件链序列预测优化模型输出预测结果。
可以理解地,本发明的步骤中先从源文本中抽取事件成分,通过金融实体列表和扩充版中文停用词库进行初步筛选生成新闻-事件链原始数据,即结构化事件数据;然后从结构化时间数据中获取时序链条并训练事件链序列预测优化模型对与金融实体有关的、即将发生的事件进行预测,大幅提升了中文事件识别率以及中文事件抽取结果可解释性,对事件模型在中文金融场景下的应用具有明显优势。
可以理解地,金融分析过程中对于事件种类以及事件参与者的限制,使用金融实体列表和扩充版中文停用词库对事件成分进行筛选,去除了大部分无金融意义事件及金融实体无关的事件,利于扩大事件链分析方法的适用领域,避免了该方法的使用存在局限性。
进一步地,结构化事件数据包括事件动词、事件主体成分、事件次要成分、事件补足成分、事件时间成分和事件所在句子。
具体地,事件动词为表征事件本身行为的实义动词,部分可替换系动词将会被替换为其语法补足成分中的动词;事件主体成分为事件主要参与者,一般为公司机构或个人,与事件动词关系为“主语”、“主语:被动语态”等;事件次要成分:事件次要参与者,可以是某种货币(包括金额)、货物、条款、公司机构等,与事件动词关系为“直接宾语”、“间接宾语”等,同时如果涉及到对于货币货物数量、条款名称等的修饰词,如出现与事件次要成分连接的“数词修饰语”或是“数词单位”对象,则需要并入事件主体成分中;事件补足成分为对事件动词的补充,事件牵扯到的其余个体或是他人对具体事件动作的评价等信息,与事件动词关系为“从句补充”等,同时如果从句成分中包含动词等成分,需要进一步分析从句中的句法依赖关系合并补充成分使其完整;事件时间成分为事件发生时间,仅在源文本中声明时间的情况下进行提取;事件所在句子为后续用来放入预训练语言模型获取事件句子级嵌入。
进一步地,步骤S3具体为:基于结构化事件数据,使用金融实体库进行匹配判断,筛选出单个金融实体在源文本中提及参与的所有事件组成的时序链条,此设置使后续设计的模型能够更加专注地提取金融场景的相关事件。
请结合图2和图3,进一步地,步骤S1具体包括以下步骤:
S 11:获取中文句法结构,基于中文句法结构设计事件自动提取模块,通过事件自动提取模块从源文本中提取共指消解结果;
S 12:获取初始动词,基于共指消解结果获取源文本中的名词位置列表,将初始动词作为锚点,根据句法依赖特定关系种类从源文本中提取与初始动词相关联的事件成分。
进一步地,步骤S11具体为:基于中文句法结构,使用开源文本语法分析工具从源文本中提取共指消解结果;可以说明的是,基于中文句法结构能够扩大该事件链分析方法的适用领域,使其不仅能够适应英文,还能在中文金融领域中适用。
进一步地,事件成分包含直接与初始动词相关联的成分词、及通过除初始动词之外指代词汇间接与锚点相连的成分词。
可以理解地,采用事件自动提取模块,提升了事件识别率并提升了事件抽取过程的可解释性;且采用该种提取方法有效地规避了生成式模型中可能使用同一个事件动词生成多个重复事件的问题。
可以说明的是,事件自动提取模块是基于中文句法结构进行设计的,既能提升事件识别率,又能提升事件抽取过程的可解释性;而使用开源文本语法分析工具stanfordcorenlp从输入中文金融新闻文本提取包括分词、分词词性、句法依赖关系、名词共指消解等信息,根据上述信息来设计基于中文语法规则的事件抽取流程,首先使用共指消解结果获取源文本中多次提及的名词位置列表,之后将初始动词视为单个事件在源文本中的锚点,依赖句法特定关系种类从文本中获取与初始动词存在关联的事件成分,该种提取方法有效地规避了现有的生成式模型中可能使用同一个初始动词生成多个重复事件的问题;且由于中文与英文的语法差异,本发明中关于中文事件提取过程涉及部分句法成分的拼接及代词替换等方法,以扩大该事件链分析方法的适用领域,使其不仅能够适应英文,还能在中文金融领域中适用。
为更好地说明,本发明给出一示例,假设“‘公司在不断提高5G技术产品创新能力和主营业务盈利水平的同时,将前瞻布局6G,助力推动我国移动通信产业实现历史性跨越。’某某移动通信技术股份有限公司董事长罗某在日前表示”为源文本。
进一步地,根据源文本获取词依赖关系结果,首先对源文本进行词切分,并给每一个词进行词性标注,如动词标注为VV,名词标注为NN等,在标注词上方连接关系表示两个词之间存在所标出的依赖关系,通过实际得到的数据获取相应地依赖关系信息;比如源文本中,依赖关系信息以三元组形式存在:{依赖主体词,依赖关系种类,依赖对象词},即{“跨越”,副词修饰,“历史性”},描述“历史性跨越”这个短语中两个语义部分之间的句法依赖关系。
进一步地,依靠开源工具分析源文本中对于同一实体的多次描述,比如源文本中,“公司”作为指代词多次提及,而根据共指消解结果可以得到同一篇源文本中关于“公司”所有被提到的句子位置,从而针对特定公司构建在源文本中所参与的事件链。
可以理解地,依据开源工具分析结果,构建事件链的具体步骤为:首先清洗整理共指消解结果,以上市公司名称库为参照进行筛选,获取能够确信是指代“公司”实体的时序链条,然后通过事件主体、事件类型、事件参与者等诸多信息进行事件的构建。
可以说明的是,根据上述源文本提取到的一个事件为:主体词:“公司”;事件内容:“提高5G技术、推动移动实现跨越”;程度:“不断”;即对事件内容进行有效性判断,主要使用人工停用词库进行筛选,从一篇新闻文章中获取同一实体参与的所有事件得到所需金融事件链。
请结合图4和图5,进一步地,步骤S4具体包括以下步骤:
S41:汇总结构化事件数据出现的所有事件动词,使用事件动词对应的预训练词嵌入向量进行相似度见图,筛选相似度较高并无金融含义的动词联通所有事件动词以创建预训练词向量库;
S42:通过聚类算法获取聚类信息以替换预测目标;
S43:基于金融事件链预测优化模型进行训练,输出预测结果。
可以说明的是,步骤S41通过相似度以进行筛选进一步提升了结构化事件数据的质量;还能将语义相近的事件更好地归纳,从而使事件链序列预测优化模型能够更好地掌握整体事件类型发展。
进一步地,步骤S42具体为使用聚类算法对无金融含义的事件动词进行聚类,界定聚类类别数目,将所有事件动词作为聚类类别数目内的动词类别以获取动词聚类结果,通过动词聚类结果替换预测目标;此设置大幅降低了需要预测的动词种类,使得事件链序列预测优化模型最终进行预测任务时能够在可控类别范围内进行评估。
可以理解地,对无金融含义的事件动词的词嵌入向量使用聚类算法进行聚类,假设聚类类别数目小于100,从而将所有事件动词总结为100类以内的动词类别成员,即在训练事件链初始模型时使用上述动词聚类结果替换原先的预测对象,从而将训练过程的预测目标替换为预测即将发生的动词类别;该做法大幅降低了需要预测的动词种类,使得最终进行预测任务时金融事件链预测优化模型能够在可控类别范围内进行评估。
进一步地,步骤S43具体为根据时序链条对动词类别进行打分,根据分数获得金融事件链预测优化模型预测出的动词类别种类,基于动词类别种类输出预测结果,此设置使得事件链序列预测优化模型能够快速在事件动词语义空间中预测出未来事件的语义倾向。
作为一种可选的实施方式,金融事件链预测优化模型为腾讯AI Lab预训练的word2vec中文词汇库。
可以说明的是,Attention Scoring layer即注意力机制打分层;Transformerlayer即变压器层;linear layer即线性层。
具体地,基于结构化事件数据筛选出时序链条以获取中文金融事件链训练数据集;接着汇总所有事件动词作出筛选以创建预训练词向量库;再基于聚类算法获取相应的聚类信息,根据动词聚类结果替换原先的预测对象,将训练过程的预测目标替换为预测即将发生的动词类别,即将获取到的事件成分输入到word2vec中文词汇库进行嵌入,使用Albert-tiny对事件所在句子进行嵌入,拼接两者嵌入向量,嫁接到linear layer汇聚为事件表征向量,分解事件序列,基于Transformer layer替换为预测即将发生的动词类别;然后通过Attention Scoring layer对动词类别进行打分,根据评估分数预测出的动词类别种类,基于动词类别种类输出预测结果。
可以理解地,采用金融事件链预测优化模型对事件成分进行嵌入,使用Albert-tiny对事件所在句子进行嵌入,拼接上述嵌入向量,嫁接线性层汇聚为200维度事件表征;再将事件序列输入序列模型,使用输出的序列输入评分模块获得当前序列评分,即基于输入序列对所有动词类别进行打分,根据分数获得金融事件链预测优化模型预测出的动词类别种类,每个动词类别均可以使用靠近类别中心的事件动词查看其具体语义倾向,从而使得预测模型能够快速在事件动词语义空间中预测出未来事件的语义倾向;同时,在将金融事件链预测优化模型嫁接到下游金融任务时,可以使用对应类别的分数作为权重对所有动词类别的类别中心嵌入向量进行加权求和,从而在事件向量空间中预测出一个明确的新事件向量,得到输出预测结果。
请参阅图6,具体地,首先获取需要进行金融分析的源文本,通过开源文本语法分析工具得到分析结果,即词依赖关系结果、共指消解结果;根据分析结果得到事件成分并设计一套基于中文语法规则的事件抽取流程,基于金融实体列表和扩充版中文停用词库对事件成分进行筛选以提取结构化事件数据;提取出所有事件动词,使用聚类算法对动词词嵌入的动词进行聚类;再进行事件链的构建,基于结构化事件数据和聚类结果增加停用词,使用金融实体库进行匹配判断以筛选出时序链条以创建事件链数据集;通过聚类算法替换掉原先的预测目标,使用中文金融事件链预测模型对预测目标和事件链数据集进行训练,使其能够针对给定序列输出预测结果,从而完成对未来事件类型预测、事件嵌入预测,根据提供事件预测信息将中文金融事件链预测模型嫁接到金融分析下游任务,而预测出一个明确的新事件。
可以说明的是,本发明的步骤中设计并应用了基于中文语法规则的中文金融事件抽取方法,大幅提升了中文事件识别率以及中文事件抽取结果可解释性,对事件模型在中文金融场景下的应用具有明显优势;同时,针对当前事件链预测模型的由于自身架构设计导致的应用场景限制,提出了使用动词聚类结果进行替换的事件链优化训练方法,使得中文金融事件链预测模型能够有效地对于未来即将发生事件给出一个合理预测,同时也能够让中文金融事件链预测模型快速地生成一个预测事件嵌入向量;总而言之,本发明使得事件链预测模型能够在中文金融场景下落地实现,为下游金融分析任务提供有效信息支撑,实用性更强。
本发明第二实施例提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现本发明第一实施例提供的一种事件链分析方法。
在本发明所提供的实施例中,应理解,“与A对应的B”表示B与A相关联,根据A可以确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其他信息确定B。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定特征、结构或特性可以以任意适合的方式结合在一个或多个实施例中。本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在本发明的各种实施例中,应理解,上述各过程的序号的大小并不意味着执行顺序的必然先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在本发明的附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方案中,方框中所标注的功能也可以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,在此基于涉及的功能而确定。需要特别注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
与现有技术相比,本发明所提供的一种金融事件链分析方法和计算机可读存储介质,具有如下的有益效果:
1、本发明的步骤中关于金融事件链分析方法,首先获取源文本,基于源文本获取共指消解结果以得到事件成分;接着获取金融实体列表和扩充版中文停用词库,基于金融实体列表和扩充版中文停用词库对事件成分进行筛选以提取结构化事件数据;然后基于结构化事件数据,使用金融实体库进行匹配判断以筛选出时序链条;最后基于聚类算法,通过时序链条设计事件链序列预测优化模型输出预测结果,即先从源文本中抽取事件成分,通过金融实体列表和扩充版中文停用词库进行初步筛选生成新闻-事件链原始数据,即结构化事件数据;然后从结构化时间数据中获取时序链条并训练事件链序列预测优化模型对与金融实体有关的、即将发生的事件进行预测,大幅提升了中文事件识别率以及中文事件抽取结果可解释性,对事件模型在中文金融场景下的应用具有明显优势。
2、本发明的步骤中获取源文本,基于源文本获取共指消解结果以得到事件成分具体包括以下步骤:获取中文句法结构,基于中文句法结构设计事件自动提取模块,通过事件自动提取模块从源文本中提取共指消解结果;获取初始动词,基于共指消解结果获取源文本中的名词位置列表,将初始动词作为锚点,根据句法依赖特定关系种类从源文本中提取与初始动词相关联的事件成分;其中,所述事件成分包含直接与初始动词相关联的成分词、及通过除初始动词之外指代词汇间接与锚点相连的成分词;采用事件自动提取模块,提升了事件识别率并提升了事件抽取过程的可解释性;且采用该种提取方法有效地规避了生成式模型中可能使用同一个事件动词生成多个重复事件的问题。
3、本发明的步骤中获取中文句法结构,基于中文句法结构设计事件自动提取模块,通过事件自动提取模块从源文本中提取共指消解结果具体为:基于中文句法结构,使用开源文本语法分析工具从源文本中提取共指消解结果;基于中文句法结构能够扩大该事件链分析方法的适用领域,使其不仅能够适应英文,还能在中文金融领域中适用。
4、本发明的步骤中基于结构化事件数据,使用金融实体库进行匹配判断以筛选出时序链条具体为:基于结构化事件数据,使用金融实体库进行匹配判断,筛选出单个金融实体在源文本中提及参与的所有事件组成的时序链条,此设置使后续设计的模型能够更加专注地提取金融场景的相关事件。
5、本发明的步骤中基于聚类算法,通过时序链条设计事件链序列预测优化模型输出预测结果具体包括以下步骤:首先汇总结构化事件数据出现的所有事件动词,使用事件动词对应的预训练词嵌入向量进行相似度见图,筛选相似度较高并无金融含义的动词联通所有事件动词以创建预训练词向量库;然后通过聚类算法获取聚类信息以替换预测目标;最后基于金融事件链预测优化模型进行训练,输出预测结果;通过上述步骤不仅能够提升结构化事件数据的质量,还能将语义相近的事件更好地归纳,从而使事件链序列预测优化模型能够更好地掌握整体事件类型发展。
6、本发明的步骤中通过聚类算法获取聚类信息以替换预测目标具体为:使用聚类算法对无金融含义的事件动词进行聚类,界定聚类类别数目,将所有事件动词作为聚类类别数目内的动词类别以获取动词聚类结果,通过动词聚类结果替换预测目标;此设置大幅降低了需要预测的动词种类,使得事件链序列预测优化模型最终进行预测任务时能够在可控类别范围内进行评估。
7、本发明的步骤中基于金融事件链预测优化模型进行训练,输出预测结果具体为:根据时序链条对动词类别进行打分,根据分数获得金融事件链预测优化模型预测出的动词类别种类,基于动词类别种类输出预测结果,此设置使得事件链序列预测优化模型能够快速在事件动词语义空间中预测出未来事件的语义倾向。
8、本发明还提供一种计算机可读存储介质,具有与上述金融事件链分析方法相同的有益效果,在此不做赘述。
以上对本发明实施例公开的一种金融事件链分析方法和计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制,凡在本发明的原则之内所作的任何修改,等同替换和改进等均应包含本发明的保护范围之内。

Claims (8)

1.一种金融事件链分析方法,其特征在于:包括以下步骤:
获取源文本,基于源文本获取共指消解结果以得到事件成分;
其中,获取源文本,基于源文本获取共指消解结果以得到事件成分还包括以下步骤:
获取中文句法结构,基于中文句法结构设计事件自动提取模块,通过事件自动提取模块从源文本中提取共指消解结果;
获取初始动词,基于共指消解结果获取源文本中的名词位置列表,将初始动词作为锚点,根据句法依赖特定关系种类从源文本中提取与初始动词相关联的事件成分;
获取金融实体列表和扩充版中文停用词库,基于金融实体列表和扩充版中文停用词库对事件成分进行筛选以提取结构化事件数据;
基于结构化事件数据,使用金融实体库进行匹配判断以筛选出时序链条;
基于聚类算法,通过时序链条设计事件链序列预测优化模型输出预测结果;
其中,基于聚类算法,通过时序链条设计事件链序列预测优化模型输出预测结果还包括以下步骤:
汇总结构化事件数据出现的所有事件动词,使用事件动词对应的预训练词嵌入向量进行相似度见图,筛选相似度较高并无金融含义的动词联通所有事件动词以创建预训练词向量库;
通过聚类算法获取聚类信息以替换预测目标;
基于金融事件链预测优化模型进行训练,输出预测结果。
2.如权利要求1所述的金融事件链分析方法,其特征在于:获取中文句法结构,基于中文句法结构设计事件自动提取模块,通过事件自动提取模块从源文本中提取共指消解结果具体为:基于中文句法结构,使用开源文本语法分析工具从源文本中提取共指消解结果。
3.如权利要求1所述的金融事件链分析方法,其特征在于:所述事件成分包含直接与初始动词相关联的成分词、及通过除初始动词之外指代词汇间接与锚点相连的成分词。
4.如权利要求1所述的金融事件链分析方法,其特征在于:所述结构化事件数据包括事件动词、事件主体成分、事件次要成分、事件补足成分、事件时间成分和事件所在句子。
5.如权利要求1所述的金融事件链分析方法,其特征在于:基于结构化事件数据,使用金融实体库进行匹配判断以筛选出时序链条具体为:基于结构化事件数据,使用金融实体库进行匹配判断,筛选出单个金融实体在源文本中提及参与的所有事件组成的时序链条。
6.如权利要求1所述的金融事件链分析方法,其特征在于:通过聚类算法获取聚类信息以替换预测目标具体为:使用聚类算法对无金融含义的事件动词进行聚类,界定聚类类别数目,将所有事件动词作为聚类类别数目内的动词类别以获取动词聚类结果,通过动词聚类结果替换预测目标。
7.如权利要求6所述的金融事件链分析方法,其特征在于:基于金融事件链预测优化模型进行训练,输出预测结果具体为:根据时序链条对动词类别进行打分,根据分数获得金融事件链预测优化模型预测出的动词类别种类,基于动词类别种类输出预测结果。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的一种金融事件链分析方法。
CN202310263332.8A 2023-03-17 2023-03-17 一种金融事件链分析方法和计算机可读存储介质 Active CN115983268B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310263332.8A CN115983268B (zh) 2023-03-17 2023-03-17 一种金融事件链分析方法和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310263332.8A CN115983268B (zh) 2023-03-17 2023-03-17 一种金融事件链分析方法和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN115983268A CN115983268A (zh) 2023-04-18
CN115983268B true CN115983268B (zh) 2023-06-30

Family

ID=85962673

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310263332.8A Active CN115983268B (zh) 2023-03-17 2023-03-17 一种金融事件链分析方法和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN115983268B (zh)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IN2013MU02339A (zh) * 2013-07-11 2015-06-19 Tata Consultancy Services Ltd
CN106021229B (zh) * 2016-05-19 2018-11-02 苏州大学 一种中文事件同指消解方法
CN113255321B (zh) * 2021-06-10 2021-10-29 之江实验室 基于文章实体词依赖关系的金融领域篇章级事件抽取方法
CN113934909A (zh) * 2021-10-08 2022-01-14 中电积至(海南)信息技术有限公司 基于预训练语言结合深度学习模型的金融事件抽取方法
CN113887836B (zh) * 2021-11-04 2024-04-19 南开大学 一种融合事件环境信息的叙述性事件预测方法
CN115422368A (zh) * 2022-08-30 2022-12-02 中国人民解放军国防科技大学 一种事件共指消解方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN115983268A (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
Kausar et al. A sentiment polarity categorization technique for online product reviews
Dos Santos et al. Deep convolutional neural networks for sentiment analysis of short texts
CN110337645B (zh) 可适配的处理组件
CN109299228B (zh) 计算机执行的文本风险预测方法及装置
CN111401077A (zh) 语言模型的处理方法、装置和计算机设备
Carvalho et al. A critical survey on the use of fuzzy sets in speech and natural language processing
JP2020135135A (ja) 対話コンテンツ作成支援方法およびシステム
CN114217766A (zh) 基于预训练语言微调与依存特征的半自动需求抽取方法
CN111339772B (zh) 俄语文本情感分析方法、电子设备和存储介质
Abdallah et al. Age and gender prediction in open domain text
Smaïli et al. A first summarization system of a video in a target language
Azad et al. Picking pearl from seabed: Extracting artefacts from noisy issue triaging collaborative conversations for hybrid cloud services
CN111858894A (zh) 语义缺失的识别方法及装置、电子设备、存储介质
CN115983268B (zh) 一种金融事件链分析方法和计算机可读存储介质
Celikyilmaz et al. An empirical investigation of word class-based features for natural language understanding
Stoness et al. Incremental parsing with reference interaction
Iori et al. The direction of technical change in AI and the trajectory effects of government funding
Marques-Lucena et al. Framework for customers’ sentiment analysis
CN113094471A (zh) 交互数据处理方法和装置
Huo et al. Accelerating the support of conversational interfaces for RPAs through APIs
Loyola et al. UNSL at eRisk 2022: Decision policies with history for early classification.
Choi et al. An integrated dialogue analysis model for determining speech acts and discourse structures
Üveges Comprehensibility and Automation: Plain Language in the Era of Digitalization
Aparna et al. A review on different approaches of pos tagging in NLP
Aneja et al. Neural Machine Translation model for University Email Application

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant