CN117093728A - 一种金融领域事理图谱构建方法、装置、设备及存储介质 - Google Patents

一种金融领域事理图谱构建方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN117093728A
CN117093728A CN202311355792.XA CN202311355792A CN117093728A CN 117093728 A CN117093728 A CN 117093728A CN 202311355792 A CN202311355792 A CN 202311355792A CN 117093728 A CN117093728 A CN 117093728A
Authority
CN
China
Prior art keywords
event
triples
arguments
preset
fruit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311355792.XA
Other languages
English (en)
Other versions
CN117093728B (zh
Inventor
陈家银
吴海胖
章汗雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Tonghuashun Data Development Co ltd
Original Assignee
Hangzhou Tonghuashun Data Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Tonghuashun Data Development Co ltd filed Critical Hangzhou Tonghuashun Data Development Co ltd
Priority to CN202311355792.XA priority Critical patent/CN117093728B/zh
Publication of CN117093728A publication Critical patent/CN117093728A/zh
Application granted granted Critical
Publication of CN117093728B publication Critical patent/CN117093728B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)

Abstract

本申请公开了一种金融领域事理图谱构建方法、装置、设备及存储介质,涉及自然语言处理领域,包括:对金融文本数据进行编码处理,以得到若干三元组;基于预设实体类型对若干三元组中的因事件以及果事件进行细粒度实体识别,以得到对应的事件论元;对事件论元进行相似度计算,并对确定的相似论元进行对齐操作,以得到对齐论元;对若干三元组进行筛选,并对筛选后三元组中包含的对齐论元进行筛选,以基于得到的目标若干三元组构建目标事理图谱。这样一来,可以对事件进行细粒度操作,并基于得到的三元组构建事理图谱,使事理图谱可以有效对接不同业务场景,并且在构建事理图谱之前可以对论元进行对齐操作,以对得到的事理图谱进行有效的质量控制。

Description

一种金融领域事理图谱构建方法、装置、设备及存储介质
技术领域
本发明涉及自然语言处理领域,特别涉及一种金融领域事理图谱构建方法、装置、设备及存储介质。
背景技术
事理图谱是以结构化的方式描述客观世界中的事件及其关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。在金融领域,每天产生大量金融事件,以及事件之间因果逻辑关系。识别金融事件的因果逻辑,构建事理图谱,有助于金融事件的影响因素探究以及因果逻辑推理,进而可对未来经济指标进行预测,并指导投资建议。
现有技术中,定义事理图谱,大多数采用“事件1,关系,事件2”的三元组结构,技术上主要涉及事件关系抽取和事件对齐等,但通过现有技术构建的事理图谱结构太过简单,难以满足更复杂业务场景的需求,并且没有对事件进行细粒度拆分处理,导致事件涵盖的实体信息,如公司、行业、产品、指标等信息无法知道,并且缺乏对抽取的知识有效的质量控制,容易导致数据噪声大,会对下游应用带来不利影响。
发明内容
有鉴于此,本发明的目的在于提供一种金融领域事理图谱构建方法、装置、设备及存储介质,可以对事件进行细粒度操作,并基于得到的三元组构建事理图谱,使事理图谱可以有效对接不同业务场景,并且在构建事理图谱之前可以对论元进行对齐操作,以对得到的事理图谱进行有效的质量控制。其具体方案如下:
第一方面,本申请公开了一种金融领域事理图谱构建方法,包括:
基于预训练模型对输入的金融文本数据进行编码处理,以得到与所述金融文本数据对应的若干三元组;所述若干三元组包括因事件、事件关系、果事件;
基于预设实体类型对所述若干三元组中的所述因事件以及所述果事件进行细粒度实体识别,以得到与所述因事件以及所述果事件对应的事件论元;
对所述事件论元进行相似度计算,并对确定的相似论元进行对齐操作,以得到对齐论元;
对所述若干三元组进行筛选,并基于所述对齐论元对筛选后三元组再次进行筛选,以确定目标三元组,并基于所述目标若干三元组构建目标事理图谱。
可选的,所述基于预训练模型对输入的金融文本数据进行编码处理,以得到与所述金融文本数据对应的若干三元组,包括:
将接收的金融文本数据输入至第一预训练模型,以将所述金融文本数据转换为序列数据;
将所述序列数据转换为序列数据表格,以基于所述序列数据表格确定与所述金融文本数据中对应的若干三元组。
可选的,所述将所述序列数据转换为序列数据表格,以基于所述序列数据表格确定与所述金融文本数据中对应的若干三元组,包括:
将所述序列数据转换为因事件序列数据表格、事件关系序列数据表格、果事件序列数据表格;
判断所述因事件序列数据表格以及所述果事件序列数据表格中首尾索引单元格的单元格值是否为预设单元格值,以基于第一当前判断结果生成事件预测值;
判断所述事件关系序列数据表格中首索引单元格的单元格值是否为预设单元格值,以基于第二当前判断结果生成关系预测值;
基于预设第一S型生长曲线函数对所述生成事件预测值以及所述关系预测值处理,得到与所述金融文本数据中对应的若干三元组。
可选的,所述基于预设实体类型对所述若干三元组中的所述因事件以及所述果事件进行细粒度实体识别,以得到与所述因事件以及所述果事件对应的事件论元,包括:
基于第二预训练模型对所述若干三元组中的所述因事件以及所述果事件进行编码学习,以得到与所述因事件以及所述果事件对应的表征向量;
通过所述表征向量生成初始预测表格,并对所述初始预测表格进行最大池化操作,以得到全局特征向量;
通过所述全局特征向量生成最终预测表格,以通过预设激活函数对所述最终预测表格进行解码得到与所述因事件以及所述果事件对应的事件论元。
可选的,所述对所述事件论元进行相似度计算,并对确定的相似论元进行对齐操作,以得到对齐论元,包括:
将所述事件论元输入至预设对齐模型,以对所述事件论元进行相似度计算,得到相似度矩阵;
并通过预设第二S型生长曲线函数对所述相似度矩阵进行处理,以确定所述事件论元中的相似论元,并对所述相似论元进行对齐,得到对齐论元。
可选的,所述对所述若干三元组进行筛选,并基于所述对齐论元对筛选后三元组再次进行筛选,以确定目标三元组,并基于所述目标若干三元组构建目标事理图谱,包括:
基于预设概率预测模型确定所述若干三元组中每个三元组的抽取概率,并剔除所述抽取概率小于预设抽取概率阈值的三元组,以得到第一筛选后三元组;
通过预设语言模型确定所述第一筛选后三元组中每一个三元组的流畅度,并剔除所述流畅度小于预设流畅度阈值的三元组,以得到第二筛选后三元组;
确定所述第二筛选后三元组中所述对齐论元满足预设论元格式的三元组,以得到目标三元组,并基于所述目标三元组构建目标事理图谱。
可选的,所述基于预设概率预测模型确定所述若干三元组中每个三元组的抽取概率,包括:
基于所述预设概率预测模型确定所述若干三元组中每个三元组的因事件预测概率、事件关系预测概率、果事件预测概率,并将所述因事件预测概率、所述事件关系预测概率、所述果事件预测概率的乘积确定为所述抽取概率。
第二方面,本申请公开了一种金融领域事理图谱构建装置,应用于目标框架,包括:
三元组确定模块,用于基于预训练模型对输入的金融文本数据进行编码处理,以得到与所述金融文本数据对应的若干三元组;所述若干三元组包括因事件、事件关系、果事件;
事件论元确定模块,用于基于预设实体类型对所述若干三元组中的所述因事件以及所述果事件进行细粒度实体识别,以得到与所述因事件以及所述果事件对应的事件论元;
对齐论元确定模块,用于对所述事件论元进行相似度计算,并对确定的相似论元进行对齐操作,以得到对齐论元;
事理图谱构建模块,用于对所述若干三元组进行筛选,并基于所述对齐论元对筛选后三元组再次进行筛选,以确定目标三元组,并基于所述目标若干三元组构建目标事理图谱。
第三方面,本申请公开了一种电子设备,包括:
存储器,用于保存计算机程序;
处理器,用于执行所述计算机程序以实现如前述的金融领域事理图谱构建方法。
第四方面,本申请公开了一种计算机可读存储介质,用于保存计算机程序,所述计算机程序被处理器执行时实现如前述的金融领域事理图谱构建方法。
本申请中,首先基于预训练模型对输入的金融文本数据进行编码处理,以得到与所述金融文本数据对应的若干三元组;所述若干三元组包括因事件、事件关系、果事件,然后基于预设实体类型对所述若干三元组中的所述因事件以及所述果事件进行细粒度实体识别,以得到与所述因事件以及所述果事件对应的事件论元,对所述事件论元进行相似度计算,并对确定的相似论元进行对齐操作,以得到对齐论元,最后对所述若干三元组进行筛选,并基于所述对齐论元对筛选后三元组再次进行筛选,以确定目标三元组,并基于所述目标若干三元组构建目标事理图谱。由此可见,通过本申请所述金融领域事理图谱构建方法,可以对输入的金融文本数据进行编码,以得到相应的包含因事件、事件关系、果事件的若干三元组,然后基于预设的实体类型对确定的因事件以及果事件进行细粒度识别,以确定事件论元,并确定相似的事件论元,以对相似的事件论元进行对齐,最后对三元组进行筛选,并基于对齐论元再次对筛选后三元组进行筛选,以基于最终确定的三元组构建事理图谱。这样一来,可以对事件进行细粒度操作,并基于得到的三元组构建事理图谱,使事理图谱可以有效对接不同业务场景,并且在构建事理图谱之前可以对论元进行对齐操作,以对得到的事理图谱进行有效的质量控制。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请公开的一种金融领域事理图谱构建方法流程图;
图2为本申请公开的一种金融领域事理图谱构建方法时序图;
图3为本申请公开的一种金融领域事理图谱框架结构示意图;
图4为本申请公开的一种具体的金融领域事理图谱框架结构示意图;
图5为本申请公开的一种事件确定示意图;
图6为本申请公开的一种具体的金融领域事理图谱框架结构示意图;
图7为本申请公开的一种论元抽取示意图;
图8为本申请公开的一种具体的金融领域事理图谱框架结构示意图;
图9为本申请公开的一种论元对齐示意图;
图10为本申请公开的一种具体的金融领域事理图谱框架结构示意图;
图11为本申请公开的一种三元组剔除流程图;
图12为本申请公开的一种金融领域事理图谱构建装置结构示意图;
图13为本申请公开的一种电子设备结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
通过现有技术构建的事理图谱结构太过简单,难以满足更复杂业务场景的需求,并且没有对事件进行细粒度拆分处理,导致事件涵盖的实体信息,如公司、行业、产品、指标等信息无法知道,并且缺乏对抽取的知识有效的质量控制,容易导致数据噪声大,会对下游应用带来不利影响。
为了克服上述问题,本申请公开了一种金融领域事理图谱构建方法、装置、设备及存储介质,可以对事件进行细粒度操作,并基于得到的三元组构建事理图谱,使事理图谱可以有效对接不同业务场景,并且在构建事理图谱之前可以对论元进行对齐操作,以对得到的事理图谱进行有效的质量控制。
参见图1所示,本发明实施例公开了一种金融领域事理图谱构建方法,包括:
步骤S11、基于预训练模型对输入的金融文本数据进行编码处理,以得到与所述金融文本数据对应的若干三元组;所述若干三元组包括因事件、事件关系、果事件。
本实施例中,如果想要构建事理图谱,如图2所示,需要分为五个步骤:金融事理图谱Schema设计、金融事件因果关系抽取、金融事件论元抽取、事件对齐模型构建、质量控制模块构建,其中首先需要确定事理图谱Schema,也即确定事理图谱的规格,事理图谱的结构,本实施例中,对于需要构建的金融领域事理图谱,如图3所示,将金融领域事理图谱分为三层结构:事件层、复合层、概念层。在事件层主要提取输入的金融领域文本数据的实体类型以及实体关系,并将实体类型定义为事件,将实体关系定义为事件之间的影响关系;在复合层主要将实体分为复合实体以及复合指标;在概念层主要定位更小粒度的实体类型,其中定义的实体类型分为9类,分别为:指标、状态、程度、机构、产品、行业、地区、维度、否定词。例如,输入的金融领域文本为“事件冲突爆发导致商品价格大幅度上涨,进而导致国内宏观指标上行”,则在事件层得到的因事件为“事件冲突”、事件关系为“商品价格大幅上涨”、果事件为“国内宏观指标上行”;在复合层得到的复合实体为“事件冲突、复合指标为“商品价格、国内宏观指标”;在概念层得到的地区为“国内”、状态为“爆发”、“上涨”以及“上行”、产品为“商品”、指标为“价格”以及“指标”、程度为“大幅度”。
因此,当金融领域事理图谱的结构构建完成之后,如果接收到输入的金融文本数据,则需要基于预训练模型提取金融领域文本数据中的因事件、事件关系以及果事件,然后将提取到的因事件、事件关系以及果事件转换为因事件序列数据表格、事件关系序列数据表格、果事件序列数据表格,并基于确定的表格确定与输入的金融领域文本数据对应的若干三元组。
步骤S12、基于预设实体类型对所述若干三元组中的所述因事件以及所述果事件进行细粒度实体识别,以得到与所述因事件以及所述果事件对应的事件论元。
本实施例中,主要通过产品、行业、机构、地点、状态、程度、概念指标、否定词、维度,这9类实体,以及自定义的复合实体、复合指标两类实体作为预设实体类型,来对得到的若干三元组中的因事件以及果事件进行细粒度实体识别,具体的,可以通过预训练模型对得到的事件进行编码,以得到事件与果事件的表征向量,然后基于表征向量生成预测表格,并对预测表格进行最大池化操作,以得到全局特征向量,最终基于全局特征向量生成最终预测表格,并通过连接softmax层对生成的最终预测表格进行解码,以得到与因事件以及果事件对应的事件论元。
步骤S13、对所述事件论元进行相似度计算,并对确定的相似论元进行对齐操作,以得到对齐论元。
本实施例中,在得到因事件以及果事件对应的事件论元之后,可能得到的事件论元中在语义层面存在重复的问题,例如“商品价格上涨”以及“商品价格上行”的含义是相同的,因此需要对事件论元进行对齐操作,以减少事理图谱的图谱冗余问题。具体的,可以构建对齐模型,并通过构建的对齐模型对事件论元进行相似度计算,以确定事件论元中含义相同的相似论元,并对相似论元进行对齐操作,以得到对齐论元。这样一来,可以减少构建的事理图谱的冗余,有效提高事理图谱的处理效率。
步骤S14、对所述若干三元组进行筛选,并基于所述对齐论元对筛选后三元组再次进行筛选,以确定目标三元组,并基于所述目标若干三元组构建目标事理图谱。
本实施例中,在确定了对齐论元之后,需要对得到的若干三元组进行筛选,首先需要通过预设的概率预测模型确定若干三元组中每个三元组的抽取概率,然后剔除抽取概率小于预设抽取概率阈值的三元组,并且由于三元组中可能存在关键字缺失的情况,因此需要基于三元组的流畅度再次对三元组进行筛选,需要通过预设语言模型确定筛选后三元组中每一个三元组的流畅度,并剔除流畅度小于预设流畅度阈值的三元组,然后从通过二次筛选的三元组中确定出用于构建事理图谱的三元组,具体的,可以基于预设论元格式从通过筛选的三元组中确定出目标三元组,例如三元组中因事件以及果事件必须包含“复合指标/复合实体+状态”的格式,以确定出目标三元组,并基于目标三元组对确定的事理图谱结构进行填充,以构建目标事理图谱。
由此可见,本实施例中首先基于预训练模型对输入的金融文本数据进行编码处理,以得到与所述金融文本数据对应的若干三元组;所述若干三元组包括因事件、事件关系、果事件,然后基于预设实体类型对所述若干三元组中的所述因事件以及所述果事件进行细粒度实体识别,以得到与所述因事件以及所述果事件对应的事件论元,对所述事件论元进行相似度计算,并对确定的相似论元进行对齐操作,以得到对齐论元,最后对所述若干三元组进行筛选,并基于所述对齐论元对筛选后三元组再次进行筛选,以确定目标三元组,并基于所述目标若干三元组构建目标事理图谱。由此可见,通过本申请所述金融领域事理图谱构建方法,可以对输入的金融文本数据进行编码,以得到相应的包含因事件、事件关系、果事件的若干三元组,然后基于预设的实体类型对确定的因事件以及果事件进行细粒度识别,以确定事件论元,并确定相似的事件论元,以对相似的事件论元进行对齐,最后对三元组进行筛选,并基于对齐论元再次对筛选后三元组进行筛选,以基于最终确定的三元组构建事理图谱。这样一来,一方面,可以构建详细的事理图谱结构,使事理图谱可以有效对接不同业务场景;另一方面,可以对事件进行细粒度操作,并基于得到的三元组构建事理图谱,使构建的事理图谱更加详细可靠;另一方面,可以在构建事理图谱之前可以对论元进行对齐操作,以对得到的事理图谱进行有效的质量控制。
基于前述实施例可知,在构建金融领域事理图谱时,需要提取金融文本数据中的因事件、事件关系以及果事件,为此本实施例对如何提取金融文本数据中的因果关系进行了详细的说明,参见图4所示,本发明实施例公开了一种金融领域事理图谱构建方法,包括:
步骤S21、将接收的金融文本数据输入至第一预训练模型,以将所述金融文本数据转换为序列数据。
本实施例中,为了提取金融文本数据中的金融事件因果关系,可以定义“因事件,事件关系,果事件”的三元组抽取任务,并且抽取模型采用事件和关系联合抽取的学习方式,具体采用GPLinker(GlobalPointer-based Linking)关系抽取框架,并在其基础上,本发明中使用数据增强与EMA(Exponential Moving Average,指数平均数指标)以及FGM(Fast Gradient Method,快速对抗训练)结合的训练策略,其中模型框架如图5所示,具体的,当接收到金融文本数据后,需要将金融文本数据输入至预训练模型,所述预训练模包括但不限于BERT(Bidirectional Encoder Representation from Transformers)模型,RoBERTa(A Robustly Optimized BERT Pretraining Approach)模型,然后通过预训练模型对金融文本数据进行编码学习,并将抽取任务转换为三种任务,也即因事件识别任务、果事件识别任务、事件关系判断任务,以通过预训练模型基于因事件识别任务、果事件识别任务、事件关系判断任务将金融文本数据编码为相应的序列数据。
步骤S22、将所述序列数据转换为序列数据表格,以基于所述序列数据表格确定与所述金融文本数据中对应的若干三元组。
本实施例中,将所述序列数据转换为序列数据表格,以基于所述序列数据表格确定与所述金融文本数据中对应的若干三元组,包括:将所述序列数据转换为因事件序列数据表格、事件关系序列数据表格、果事件序列数据表格;判断所述因事件序列数据表格以及所述果事件序列数据表格中首尾索引单元格的单元格值是否为预设单元格值,以基于第一当前判断结果生成事件预测值;判断所述事件关系序列数据表格中首索引单元格的单元格值是否为预设单元格值,以基于第二当前判断结果生成关系预测值;基于预设第一S型生长曲线函数对所述生成事件预测值以及所述关系预测值处理,得到与所述金融文本数据中对应的若干三元组。也即,在得到与金融文本数据对应的序列数据后,需要通过用tablefilling的表格填充方式,将序列数据转变为相应的序列表格,如图5所示,以输入的金融文本数据为“事件冲突导致商品价格大幅上涨,进而带动宏观指标上涨”为例,得到的序列表格分别为图5中展示的事件-因表格、事件-果表格、关系-Influence表格,其中基于序列表格确定因事件、事件关系、果事件的具体方法可以为:对于因事件以及果事件的识别,可以通过识别表格中首尾索引所代表的单元格值是否为1,在本实施例中,对于因事件,可以为识别“事,突”字符代表的单元格值是否为1,对于果事件,可以为识别“商,涨”字符以及“宏,涨”字符代表的单元格值是否为1,并且根据对称性,对于事件的识别只需要识别上半矩阵;对于事件关系的识别,可以通过识别表格中首索引所代表的单元格值是否为1,在本实施例中,对于事件关系,可以为识别“事,宏”字符所代表的单元格值是否为1。在上述识别完成后,分别生成三张表格对应的预测值,然后将预测值接入sigmoid激活函数(S型生长曲线函数),并根据预测值是否大于预设阈值进行预测,需要进行说明的是,所述预设阈值可以根据用户需求进行设定,在本实施例中所述预设阈值为0.5,如果大于则提取表格中相应的数据,以解码出与输入的金融文本数据对应的若干三元组,在本实施例中,如图5所示,提取出的三元组为“事件冲突,Influence,商品价格大幅上涨”以及“商品价格大幅上涨,Influence,宏观指标上涨”。
步骤S23、基于预设实体类型对所述若干三元组中的所述因事件以及所述果事件进行细粒度实体识别,以得到与所述因事件以及所述果事件对应的事件论元。
步骤S24、对所述事件论元进行相似度计算,并对确定的相似论元进行对齐操作,以得到对齐论元。
步骤S25、对所述若干三元组进行筛选,并基于所述对齐论元对筛选后三元组再次进行筛选,以确定目标三元组,并基于所述目标若干三元组构建目标事理图谱。
需要进行说明的是,本实施例中对于步骤S23、步骤S24、步骤S25更加详细的描述可以参考前述实施例,在此不再进行赘述。
由此可见,本实施例中可以将接收的金融文本数据输入至第一预训练模型,以将所述金融文本数据转换为序列数据,然后将所述序列数据转换为序列数据表格,以基于所述序列数据表格确定与所述金融文本数据中对应的若干三元组,也即通过GPLinker关系抽取框架对输入的金融文本数据进行处理,以将所述金融文本数据转化为序列数据,然后过用table filling方式,将序列数据转变为相应的序列表格,以基于表格以及相应的事件索引生成相应的预测值,以便根据预测值解码出与金融文本数据对应的三元组。这样一来,通过GPLinker关系抽取框架提取金融文本数据中的三元组,可以提高本申请所述金融领域事理图谱构建方法的可靠性。
基于前述实施例可知,在构建金融领域事理图谱时,需要对输入的金融文本数据的事件论元进行提取,为此本实施例对如何提取事件论元进行了详细的说明,参见图6所示,本发明实施例公开了一种金融领域事理图谱构建方法,包括:
步骤S31、基于预训练模型对输入的金融文本数据进行编码处理,以得到与所述金融文本数据对应的若干三元组;所述若干三元组包括因事件、事件关系、果事件。
步骤S32、基于第二预训练模型对所述若干三元组中的所述因事件以及所述果事件进行编码学习,以得到与所述因事件以及所述果事件对应的表征向量。
本实施例中,需要对通过前述实施例得到的因事件以及果事件进行细粒度实体识别,具体的,可以通过定义的产品、行业、机构、地点、状态、程度、概念指标、否定词、维度,这9类实体,以及自定义的复合实体、复合指标两类实体作为预设实体类型构建论元抽取任务,以对因事件以及果事件中的论元进行论元抽取,如图7所示,首先可以通过本申请提出的论元抽取模型,也即通过GFNER模型对输入的因事件文本以及果事件文本进行Encoder编码学习,以得到与因事件以及果事件对应的表征向量H,并将所述表征向量H转换为行向量Hb以及列向量He
步骤S33、通过所述表征向量生成初始预测表格,并对所述初始预测表格进行最大池化操作,以得到全局特征向量。
本实施例中,可以基于得到的表征向量生成初始的预测表格,也即通过得到的行向量Hb以及列向量He生成如图7所示的初始预测表格,并且每个单元格代表一个实体的起始索引。在生成所述初始预测表格之,需要按行和列对所述初始预测表格进行Maxpooling最大池化操作,以得到全局的特征向量Fb和Fe
步骤S34、通过所述全局特征向量生成最终预测表格,以通过预设激活函数对所述最终预测表格进行解码得到与所述因事件以及所述果事件对应的事件论元。
本实施例中,需要对得到的全局的特征向量Fb和Fe进行交互注意力机制学习,也即依次对特征向量Fb和Fe进行Multi-head Self-attention多头自注意力机制、Multi-headCross-attention多头交叉注意力机制,然后通过FNN(feedforward neural network,FNN)前馈神经网络,也即全连接层输出处理后的特征向量,以生成对应的交互向量Pb,Pe以基于所述交互向量生成最终预测表格,在得到所述最终预测表格之后,需要将所述族中预测表格连接一个softmax层,以通过连接的softmax层对所述最终预测表格进行解码,以生成与所述因事件以及所述果事件对应的事件论元。并且,如表一所示,通过本申请中提出的所述GFNER模型,在1131条测试上可以达到85%的解码预测准确率。
表一
步骤S35、对所述事件论元进行相似度计算,并对确定的相似论元进行对齐操作,以得到对齐论元。
步骤S36、对所述若干三元组进行筛选,并基于所述对齐论元对筛选后三元组再次进行筛选,以确定目标三元组,并基于所述目标若干三元组构建目标事理图谱。
需要进行说明的是,本实施例中关于步骤S31、步骤S35、步骤S36更加详细的描述可以参考前述实施例,在此不再进行赘述。
本实施例中,在确定了因事件以及果事件之后,需要通过本申请提出的论元抽取模型对输入的因事件文本以及果事件文本进行编码学习,以得到与因事件以及果事件对应的表征向量,然后通过表征向量生成初始预测表格,并对初始预测表格进行最大池化操作,以得到全局特征向量,最后需要对得到的全局的特征向量进行交互注意力机制学习,以生成对应的交互向量,并基于交互向量生成最终预测表格,以通过对最终预测表格进行解码得到与因事件以及果事件对应的事件论元。这样一来,可以通过本申请中提出的论元抽取模型,也即GFNER模型对输入的事件文本进行处理,确保了论元提取的准确性。
基于前述实施例可知,在构建金融领域事理图谱时,需要对相似的事件论元进行对齐操作,为此本实施例对如何对事件论元进行对齐进行了详细的描述,参见图8所示,本发明实施例公开了一种金融领域事理图谱构建方法,包括:
步骤S41、基于预训练模型对输入的金融文本数据进行编码处理,以得到与所述金融文本数据对应的若干三元组;所述若干三元组包括因事件、事件关系、果事件。
步骤S42、基于预设实体类型对所述若干三元组中的所述因事件以及所述果事件进行细粒度实体识别,以得到与所述因事件以及所述果事件对应的事件论元。
步骤S43、将所述事件论元输入至预设对齐模型,以对所述事件论元进行相似度计算,得到相似度矩阵。
本实施例中,在构建金融事理图谱时,存在大量事件在语义层面重复的问题,如“商品价格下跌”与“商品的价格大幅下跌”描述的是同一件事,需要构建一个模型实现事件对齐,减少图谱冗余的问题,本实施例中提出一种对其模型,用来实现事件对齐,减少构建的事理图谱的冗余,将事件中包含的指标、实体、状态等论元进行对齐,实现更精确的对齐效果,并且构建的对齐模型如图9所示,为了实现对事件的对齐,首先需要将得到的事件论元输入至预设对齐模型,以根据事件论元抽取的结果,对它们包含相同的论元进行拼接与表征学习,并通过对齐模型中的RoBerta模型对事件论元进行相似度计算,生成与事件论元对应的相似度矩阵,如图9所示,例如输入的事件为“商品价格下跌”以及“商品的价格大幅下跌”,则提取到的论元可以为“商品价格”、“商品的价格”、“下跌”、“下降”,然后对提取到的论元进行相似度计算,以得到相应的相似度矩阵。需要进行说明的是,RoBerta模型中含有一些标志位,例如CLS标志放在第一个句子的首位,也即classification的意思,可以理解为用于下游的分类任务;SEP标志分开两个句子,例如输入句子A和B,要在句子A,B间增加SEP标志。其中ind、ent、sta均为参照表一所示的论元标签。
步骤S44、通过预设第二S型生长曲线函数对所述相似度矩阵进行处理,以确定所述事件论元中的相似论元,并对所述相似论元进行对齐,得到对齐论元。
本实施例中,需要通过预设第二S型生长曲线函数对相似度矩阵进行分类预测,也即通过sigmoid激活函数对相似度矩阵进行分类预测,其中当存在两个论元之间的预测结果为1,则可以将两个论元视为相似,进而实现论元的对齐,以便在构建事理图谱时将两个论元作为同类型的论元进行处理,避免重复进行操作。这样一来,可以对事件论元进行对齐操作,有效减少相似论元的重复处理,进而提高构建金融领域事理图谱的效率。
步骤S45、对所述若干三元组进行筛选,并基于所述对齐论元对筛选后三元组再次进行筛选,以确定目标三元组,并基于所述目标若干三元组构建目标事理图谱。
需要进行说明的是,本实施例中关于步骤S41、步骤S42、步骤S45更加详细的描述可以参考前述实施例,在此不再进行赘述。
本实施例中,在得到事件论元之后,需要将所述事件论元输入至预设对齐模型,以对所述事件论元进行相似度计算,得到相似度矩阵,进而通过sigmoid激活函数对相似度矩阵进行分类预测,以对相似的论元进行对齐操作。这样一来,可以对事件论元进行对齐操作,有效减少相似论元的重复处理,进而提高构建金融领域事理图谱的效率。
基于前述实施例可知,在构建金融领域事理图谱时,构建事理图谱用到的数据可能存在一些缺陷,进而对事理图谱的质量产生一定的影响,为此本实施例对如何消除数据缺陷进行了详细的描述,参见图10所示,本发明实施例公开了一种金融领域事理图谱构建方法,包括:
步骤S51、基于预训练模型对输入的金融文本数据进行编码处理,以得到与所述金融文本数据对应的若干三元组;所述若干三元组包括因事件、事件关系、果事件。
步骤S52、基于预设实体类型对所述若干三元组中的所述因事件以及所述果事件进行细粒度实体识别,以得到与所述因事件以及所述果事件对应的事件论元。
步骤S53、对所述事件论元进行相似度计算,并对确定的相似论元进行对齐操作,以得到对齐论元。
步骤S54、基于预设概率预测模型确定所述若干三元组中每个三元组的抽取概率,并剔除所述抽取概率小于预设抽取概率阈值的三元组,以得到第一筛选后三元组。
本实施例中,抽取的事件三元组在入库前,会存在一些噪声问题,例如抽取的事件因果逻辑存在问题,和/或事件存在关键字缺失,和/或抽取的事件过于泛化,对下游应用意义不大,因此本实施例中提出一种规则与模型融合的方法,以克服数据噪声对事理图谱构建产生的影响,具体流程如图11所示。首先,基于预设概率预测模型确定所述若干三元组中每个三元组的抽取概率,包括:基于所述预设概率预测模型确定所述若干三元组中每个三元组的因事件预测概率、事件关系预测概率、果事件预测概率,并将所述因事件预测概率、所述事件关系预测概率、所述果事件预测概率的乘积确定为所述抽取概率。也即,需要根据预设概率预测模型对因事件、事件关系、果事件进行概率预测,以得到相应的因事件预测概率、事件关系预测概率、果事件预测概率,并按照按因事件预测概率*果事件预测概率*事件关系预测概率作为事件三元组概率,当事件三元组概率小于0.9时,可视为抽取的三元组信息置信度低,并进行剔除,以得到第一筛选后三元组,需要进行说明的是,所述预设抽取概率阈值可以根据用户需求进行设置,在本实施例中设置为0.9。
步骤S55、通过预设语言模型确定所述第一筛选后三元组中每一个三元组的流畅度,并剔除所述流畅度小于预设流畅度阈值的三元组,以得到第二筛选后三元组。
本实施例中,如图11所示,需要确定的第一筛选后三元组的流畅度,也即确定第一筛选后三元组中是否存在关键字确实导致语义不完整的情况,具体的,可以通过GPT2-chinese(Generative Pre-Trained Transformer2-chinese)对第一筛选后三元组进行处理,以确定第一筛选后三元组中每个三元组的流畅度得分,当某个事件缺少一些关键字导致语义不完整时,模型会输出较低的概率,当流畅度得分小于预设流畅度阈值0.75时,认为抽取的三元组存在事件关键字缺失问题,并进行剔除,以得到第二筛选后三元组。需要进行说明的是,所述预设流畅度阈值可以根据用户需求进行设置,在本实施例中设置为0.75。
步骤S56、确定所述第二筛选后三元组中所述对齐论元满足预设论元格式的三元组,以得到目标三元组,并基于所述目标三元组构建目标事理图谱。
本实施例中,如图11所示,在得到第二筛选后三元组后,需要根据预先指定的输出规则,再次对第二筛选后三元组进行筛选,并且所述输出规则可以根据用户的输出需求进行设置,例如,因果事件的论元格式必须包含“复合指标/复合实体+状态”的格式,并将对齐论元满足预设论元格式的三元组确定为需要输出的目标三元组。这样一来,可以对三元组包含的论元进行质量控制,减少数据噪声,以保证构建事理图谱用到的数据的质量,进而提高构建金融领域事理图谱的质量。
需要进行说明的是,本实施例中对于步骤S51、步骤S52、步骤S53更加详细的描述可以参考前述实施例,在此不再进行赘述。
由此可见,本实施例中在完成论元对齐操作后,需要基于预设概率预测模型确定所述若干三元组中每个三元组的抽取概率,并剔除所述抽取概率小于预设抽取概率阈值的三元组,以得到第一筛选后三元组,然后通过预设语言模型确定所述第一筛选后三元组中每一个三元组的流畅度,并剔除所述流畅度小于预设流畅度阈值的三元组,以得到第二筛选后三元组,最后根据预先指定的输出规则,再次对第二筛选后三元组进行筛选,以得到最终输出的目标三元组。这样一来,三元组包含的论元进行质量控制,减少数据噪声,以保证构建事理图谱用到的数据的质量,进而提高构建金融领域事理图谱的质量。
参见图12所示,本发明实施例公开了一种金融领域事理图谱构建装置,包括:
三元组确定模块11,用于基于预训练模型对输入的金融文本数据进行编码处理,以得到与所述金融文本数据对应的若干三元组;所述若干三元组包括因事件、事件关系、果事件;
事件论元确定模块12,用于基于预设实体类型对所述若干三元组中的所述因事件以及所述果事件进行细粒度实体识别,以得到与所述因事件以及所述果事件对应的事件论元;
对齐论元确定模块13,用于对所述事件论元进行相似度计算,并对确定的相似论元进行对齐操作,以得到对齐论元;
事理图谱构建模块14,用于对所述若干三元组进行筛选,并基于所述对齐论元对筛选后三元组再次进行筛选,以确定目标三元组,并基于所述目标若干三元组构建目标事理图谱。
由此可见,本实施例中首先基于预训练模型对输入的金融文本数据进行编码处理,以得到与所述金融文本数据对应的若干三元组;所述若干三元组包括因事件、事件关系、果事件,然后基于预设实体类型对所述若干三元组中的所述因事件以及所述果事件进行细粒度实体识别,以得到与所述因事件以及所述果事件对应的事件论元,对所述事件论元进行相似度计算,并对确定的相似论元进行对齐操作,以得到对齐论元,最后对所述若干三元组进行筛选,并基于所述对齐论元对筛选后三元组再次进行筛选,以确定目标三元组,并基于所述目标若干三元组构建目标事理图谱。由此可见,通过本申请所述金融领域事理图谱构建方法,可以对输入的金融文本数据进行编码,以得到相应的包含因事件、事件关系、果事件的若干三元组,然后基于预设的实体类型对确定的因事件以及果事件进行细粒度识别,以确定事件论元,并确定相似的事件论元,以对相似的事件论元进行对齐,最后对三元组进行筛选,并基于对齐论元再次对筛选后三元组进行筛选,以基于最终确定的三元组构建事理图谱。这样一来,可以对事件进行细粒度操作,并基于得到的三元组构建事理图谱,使事理图谱可以有效对接不同业务场景,并且在构建事理图谱之前可以对论元进行对齐操作,以对得到的事理图谱进行有效的质量控制。
在一些实施例中,所述三元组确定模块11,具体可以包括:
数据转换子模块,用于将接收的金融文本数据输入至第一预训练模型,以将所述金融文本数据转换为序列数据;
三元组确定子模块,用于将所述序列数据转换为序列数据表格,以基于所述序列数据表格确定与所述金融文本数据中对应的若干三元组。
在一些实施例中,所述三元组确定子模块,具体可以包括:
数据转换单元,用于将所述序列数据转换为因事件序列数据表格、事件关系序列数据表格、果事件序列数据表格;
第一预测值生成单元,用于判断所述因事件序列数据表格以及所述果事件序列数据表格中首尾索引单元格的单元格值是否为预设单元格值,以基于第一当前判断结果生成事件预测值;
第二预测值生成单元,用于判断所述事件关系序列数据表格中首索引单元格的单元格值是否为预设单元格值,以基于第二当前判断结果生成关系预测值;
三元组确定单元,用于基于预设第一S型生长曲线函数对所述生成事件预测值以及所述关系预测值处理,得到与所述金融文本数据中对应的若干三元组。
在一些实施例中,所述事件论元确定模块12,具体可以包括:
数据编码单元,用于基于第二预训练模型对所述若干三元组中的所述因事件以及所述果事件进行编码学习,以得到与所述因事件以及所述果事件对应的表征向量;
向量转换单元,用于通过所述表征向量生成初始预测表格,并对所述初始预测表格进行最大池化操作,以得到全局特征向量;
论元确定单元,用于通过所述全局特征向量生成最终预测表格,以通过预设激活函数对所述最终预测表格进行解码得到与所述因事件以及所述果事件对应的事件论元。
在一些实施例中,所述对齐论元确定模块13,具体可以包括:
论元转换单元,用于将所述事件论元输入至预设对齐模型,以对所述事件论元进行相似度计算,得到相似度矩阵;
对齐论元确定单元,用于并通过预设第二S型生长曲线函数对所述相似度矩阵进行处理,以确定所述事件论元中的相似论元,并对所述相似论元进行对齐,得到对齐论元。
在一些实施例中,所述事理图谱构建模块14,具体可以包括:
第一筛选子模块,用于基于预设概率预测模型确定所述若干三元组中每个三元组的抽取概率,并剔除所述抽取概率小于预设抽取概率阈值的三元组,以得到第一筛选后三元组;
第二筛选子模块,用于通过预设语言模型确定所述第一筛选后三元组中每一个三元组的流畅度,并剔除所述流畅度小于预设流畅度阈值的三元组,以得到第二筛选后三元组;
事理图谱构建子模块,用于确定所述第二筛选后三元组中所述对齐论元满足预设论元格式的三元组,以得到目标三元组,并基于所述目标三元组构建目标事理图谱。
在一些实施例中,所述第一筛选子模块,具体可以包括:
概率确定单元,用于基于所述预设概率预测模型确定所述若干三元组中每个三元组的因事件预测概率、事件关系预测概率、果事件预测概率,并将所述因事件预测概率、所述事件关系预测概率、所述果事件预测概率的乘积确定为所述抽取概率。
进一步的,本申请实施例还公开了一种电子设备,图13是根据一示例性实施例示出的电子设备20结构图,图中的内容不能认为是对本申请的使用范围的任何限制。
图13为本申请实施例提供的一种电子设备20的结构示意图。该电子设备 20,具体可以包括:至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以实现前述任一实施例公开的金融领域事理图谱构建方法中的相关步骤。另外,本实施例中的电子设备20具体可以为电子计算机。
本实施例中,电源23用于为电子设备20上的各硬件设备提供工作电压;通信接口24能够为电子设备20创建与外界设备之间的数据传输通道,其所遵 循的通信协议是能够适用于本申请技术方案的任意通信协议,在此不对其进 行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、 磁盘或者光盘等,其上所存储的资源可以包括操作系统221、计算机程序222 等,存储方式可以是短暂存储或者永久存储。
其中,操作系统221用于管理与控制电子设备20上的各硬件设备以及计算 机程序222,其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的金融领域事理图谱构建方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。
进一步的,本申请还公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的金融领域事理图谱构建方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容,在此不再进行赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本申请所提供的技术方案进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种金融领域事理图谱构建方法,其特征在于,包括:
基于预训练模型对输入的金融文本数据进行编码处理,以得到与所述金融文本数据对应的若干三元组;所述若干三元组包括因事件、事件关系、果事件;
基于预设实体类型对所述若干三元组中的所述因事件以及所述果事件进行细粒度实体识别,以得到与所述因事件以及所述果事件对应的事件论元;
对所述事件论元进行相似度计算,并对确定的相似论元进行对齐操作,以得到对齐论元;
对所述若干三元组进行筛选,并基于所述对齐论元对筛选后三元组再次进行筛选,以确定目标三元组,并基于所述目标若干三元组构建目标事理图谱。
2.根据权利要求1所述的金融领域事理图谱构建方法,其特征在于,所述基于预训练模型对输入的金融文本数据进行编码处理,以得到与所述金融文本数据对应的若干三元组,包括:
将接收的金融文本数据输入至第一预训练模型,以将所述金融文本数据转换为序列数据;
将所述序列数据转换为序列数据表格,以基于所述序列数据表格确定与所述金融文本数据中对应的若干三元组。
3.根据权利要求2所述的金融领域事理图谱构建方法,其特征在于,所述将所述序列数据转换为序列数据表格,以基于所述序列数据表格确定与所述金融文本数据中对应的若干三元组,包括:
将所述序列数据转换为因事件序列数据表格、事件关系序列数据表格、果事件序列数据表格;
判断所述因事件序列数据表格以及所述果事件序列数据表格中首尾索引单元格的单元格值是否为预设单元格值,以基于第一当前判断结果生成事件预测值;
判断所述事件关系序列数据表格中首索引单元格的单元格值是否为预设单元格值,以基于第二当前判断结果生成关系预测值;
基于预设第一S型生长曲线函数对所述生成事件预测值以及所述关系预测值处理,得到与所述金融文本数据中对应的若干三元组。
4.根据权利要求1所述的金融领域事理图谱构建方法,其特征在于,所述基于预设实体类型对所述若干三元组中的所述因事件以及所述果事件进行细粒度实体识别,以得到与所述因事件以及所述果事件对应的事件论元,包括:
基于第二预训练模型对所述若干三元组中的所述因事件以及所述果事件进行编码学习,以得到与所述因事件以及所述果事件对应的表征向量;
通过所述表征向量生成初始预测表格,并对所述初始预测表格进行最大池化操作,以得到全局特征向量;
通过所述全局特征向量生成最终预测表格,以通过预设激活函数对所述最终预测表格进行解码得到与所述因事件以及所述果事件对应的事件论元。
5.根据权利要求1所述的金融领域事理图谱构建方法,其特征在于,所述对所述事件论元进行相似度计算,并对确定的相似论元进行对齐操作,以得到对齐论元,包括:
将所述事件论元输入至预设对齐模型,以对所述事件论元进行相似度计算,得到相似度矩阵;
并通过预设第二S型生长曲线函数对所述相似度矩阵进行处理,以确定所述事件论元中的相似论元,并对所述相似论元进行对齐,得到对齐论元。
6.根据权利要求1至5任一项所述的金融领域事理图谱构建方法,其特征在于,所述对所述若干三元组进行筛选,并基于所述对齐论元对筛选后三元组再次进行筛选,以确定目标三元组,并基于所述目标若干三元组构建目标事理图谱,包括:
基于预设概率预测模型确定所述若干三元组中每个三元组的抽取概率,并剔除所述抽取概率小于预设抽取概率阈值的三元组,以得到第一筛选后三元组;
通过预设语言模型确定所述第一筛选后三元组中每一个三元组的流畅度,并剔除所述流畅度小于预设流畅度阈值的三元组,以得到第二筛选后三元组;
确定所述第二筛选后三元组中所述对齐论元满足预设论元格式的三元组,以得到目标三元组,并基于所述目标三元组构建目标事理图谱。
7.根据权利要求6所述的金融领域事理图谱构建方法,其特征在于,所述基于预设概率预测模型确定所述若干三元组中每个三元组的抽取概率,包括:
基于所述预设概率预测模型确定所述若干三元组中每个三元组的因事件预测概率、事件关系预测概率、果事件预测概率,并将所述因事件预测概率、所述事件关系预测概率、所述果事件预测概率的乘积确定为所述抽取概率。
8.一种金融领域事理图谱构建装置,其特征在于,应用于目标框架,包括:
三元组确定模块,用于基于预训练模型对输入的金融文本数据进行编码处理,以得到与所述金融文本数据对应的若干三元组;所述若干三元组包括因事件、事件关系、果事件;
事件论元确定模块,用于基于预设实体类型对所述若干三元组中的所述因事件以及所述果事件进行细粒度实体识别,以得到与所述因事件以及所述果事件对应的事件论元;
对齐论元确定模块,用于对所述事件论元进行相似度计算,并对确定的相似论元进行对齐操作,以得到对齐论元;
事理图谱构建模块,用于对所述若干三元组进行筛选,并基于所述对齐论元对筛选后三元组再次进行筛选,以确定目标三元组,并基于所述目标若干三元组构建目标事理图谱。
9.一种电子设备,其特征在于,包括:
存储器,用于保存计算机程序;
处理器,用于执行所述计算机程序以实现如权利要求1至7任一项所述的金融领域事理图谱构建方法。
10.一种计算机可读存储介质,其特征在于,用于保存计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的金融领域事理图谱构建方法。
CN202311355792.XA 2023-10-19 2023-10-19 一种金融领域事理图谱构建方法、装置、设备及存储介质 Active CN117093728B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311355792.XA CN117093728B (zh) 2023-10-19 2023-10-19 一种金融领域事理图谱构建方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311355792.XA CN117093728B (zh) 2023-10-19 2023-10-19 一种金融领域事理图谱构建方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN117093728A true CN117093728A (zh) 2023-11-21
CN117093728B CN117093728B (zh) 2024-02-02

Family

ID=88780123

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311355792.XA Active CN117093728B (zh) 2023-10-19 2023-10-19 一种金融领域事理图谱构建方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN117093728B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108153729A (zh) * 2017-12-22 2018-06-12 武汉数博科技有限责任公司 一种面向金融领域的知识抽取方法
CN109582949A (zh) * 2018-09-14 2019-04-05 阿里巴巴集团控股有限公司 事件元素抽取方法、装置、计算设备及存储介质
CN112199511A (zh) * 2020-09-28 2021-01-08 西南电子技术研究所(中国电子科技集团公司第十研究所) 跨语言多来源垂直领域知识图谱构建方法
US20210200947A1 (en) * 2020-03-20 2021-07-01 Beijing Baidu Netcom Science And Technology Co., Ltd. Event argument extraction method and apparatus and electronic device
US20210295098A1 (en) * 2020-03-20 2021-09-23 Beijing Baidu Netcom Science And Technology Co., Ltd. Event argument extraction method, event argument extraction apparatus and electronic device
CN114297394A (zh) * 2022-03-11 2022-04-08 中国科学院自动化研究所 对文本中的事件论元进行抽取的方法和电子设备
CN114330318A (zh) * 2021-12-20 2022-04-12 华南师范大学 一种金融领域中文细粒度实体识别方法及装置
WO2023065545A1 (zh) * 2021-10-19 2023-04-27 平安科技(深圳)有限公司 风险预测方法、装置、设备及存储介质
US20230196127A1 (en) * 2021-05-11 2023-06-22 Xi'an Jiaotong University Method and device for constructing legal knowledge graph based on joint entity and relation extraction
CN116383430A (zh) * 2022-05-20 2023-07-04 商汤国际私人有限公司 知识图谱构建方法、装置、设备及存储介质
CN116663540A (zh) * 2023-06-13 2023-08-29 华东师范大学 基于小样本的金融事件抽取方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108153729A (zh) * 2017-12-22 2018-06-12 武汉数博科技有限责任公司 一种面向金融领域的知识抽取方法
CN109582949A (zh) * 2018-09-14 2019-04-05 阿里巴巴集团控股有限公司 事件元素抽取方法、装置、计算设备及存储介质
US20210200947A1 (en) * 2020-03-20 2021-07-01 Beijing Baidu Netcom Science And Technology Co., Ltd. Event argument extraction method and apparatus and electronic device
US20210295098A1 (en) * 2020-03-20 2021-09-23 Beijing Baidu Netcom Science And Technology Co., Ltd. Event argument extraction method, event argument extraction apparatus and electronic device
CN112199511A (zh) * 2020-09-28 2021-01-08 西南电子技术研究所(中国电子科技集团公司第十研究所) 跨语言多来源垂直领域知识图谱构建方法
US20230196127A1 (en) * 2021-05-11 2023-06-22 Xi'an Jiaotong University Method and device for constructing legal knowledge graph based on joint entity and relation extraction
WO2023065545A1 (zh) * 2021-10-19 2023-04-27 平安科技(深圳)有限公司 风险预测方法、装置、设备及存储介质
CN114330318A (zh) * 2021-12-20 2022-04-12 华南师范大学 一种金融领域中文细粒度实体识别方法及装置
CN114297394A (zh) * 2022-03-11 2022-04-08 中国科学院自动化研究所 对文本中的事件论元进行抽取的方法和电子设备
CN116383430A (zh) * 2022-05-20 2023-07-04 商汤国际私人有限公司 知识图谱构建方法、装置、设备及存储介质
CN116663540A (zh) * 2023-06-13 2023-08-29 华东师范大学 基于小样本的金融事件抽取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘如;周京艳;李佳娱;吴晨生;: "基于数据科学思维的情报事理逻辑揭示与科学解读", 情报理论与实践, no. 08, pages 26 - 31 *
项威;: "事件知识图谱构建技术与应用综述", 计算机与现代化, no. 01, pages 14 - 20 *

Also Published As

Publication number Publication date
CN117093728B (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
CN113268610B (zh) 基于知识图谱的意图跳转方法、装置、设备及存储介质
CN111339260A (zh) 一种基于bert和qa思想的细粒度情感分析方法
CN111353013A (zh) 一种智能投顾的实现方法及系统
CN113312912B (zh) 一种用于交通基础设施检测文本的机器阅读理解方法
CN112883153B (zh) 基于信息增强bert的关系分类方法及装置
CN113836866B (zh) 文本编码方法、装置、计算机可读介质及电子设备
CN112069781B (zh) 一种评语生成方法、装置、终端设备及存储介质
CN114186978A (zh) 简历与岗位匹配度预测方法及相关设备
CN116595406A (zh) 基于角色一致性的事件论元角色分类方法及系统
CN111597816A (zh) 一种自注意力命名实体识别方法、装置、设备及存储介质
CN114490954A (zh) 一种基于任务调节的文档级生成式事件抽取方法
CN117093728B (zh) 一种金融领域事理图谱构建方法、装置、设备及存储介质
CN116308219B (zh) 一种基于Tranformer的生成式RPA流程推荐方法及系统
CN112257432A (zh) 一种自适应意图识别方法、装置及电子设备
Sur Tpsgtr: Neural-symbolic tensor product scene-graph-triplet representation for image captioning
CN111353728A (zh) 一种风险分析方法和系统
CN115860002A (zh) 一种基于事件抽取的作战任务生成方法及系统
CN115617666A (zh) 基于gpt2模型中文测试用例补全方法
CN113010635B (zh) 一种文本纠错方法及装置
CN112818688B (zh) 文本处理方法、装置、设备及存储介质
CN112200255B (zh) 一种针对样本集的信息去冗余方法
WO2021027283A1 (zh) 文本信息提取方法及装置
CN111046934A (zh) 一种swift报文软条款识别方法及装置
CN110390010A (zh) 一种自动文本摘要方法
CN117151867B (zh) 一种基于大数据的企业异常识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant