CN112784580A - 基于事件抽取的金融数据分析方法及装置 - Google Patents

基于事件抽取的金融数据分析方法及装置 Download PDF

Info

Publication number
CN112784580A
CN112784580A CN202110095467.9A CN202110095467A CN112784580A CN 112784580 A CN112784580 A CN 112784580A CN 202110095467 A CN202110095467 A CN 202110095467A CN 112784580 A CN112784580 A CN 112784580A
Authority
CN
China
Prior art keywords
financial
data
information
event
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110095467.9A
Other languages
English (en)
Inventor
王立林
杨丹
施生燊
徐克宝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202110095467.9A priority Critical patent/CN112784580A/zh
Publication of CN112784580A publication Critical patent/CN112784580A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Development Economics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Accounting & Taxation (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于事件抽取的金融数据分析方法及装置,其中,该方法包括:获取资讯数据,资讯数据包含:多条资讯的资讯标题和对应的日期信息;从每条资讯的资讯标题中,抽取结构化的金融事件数据;将抽取的金融事件数据输入到预先训练好的金融主体情感分析模型中,输出每个金融事件的情感分类;统计各个情感分类对应的金融事件量,生成一个偏差向量,与待分析金融数据的特征向量进行融合,得到融合后的特征向量;将融合后的特征向量,输入到预先训练好的金融时间序列分析网络模型中,输出待分析金融数据的金融时间序列,其中,金融时间序列用于反映待分析金融数据的数据变化趋势。本发明能够有效提升金融数据分析预测的准确性。

Description

基于事件抽取的金融数据分析方法及装置
技术领域
本发明涉及人工智能领域,尤其涉及一种基于事件抽取的金融数据分析方法及装置。
背景技术
本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
随着金融行业的不断发展,对社会经济运行的重要性越来越强,对金融数据进行有效分析,是整个社会经济活动的重要工作之一。
金融时间序列数据,是金融领域中随时间推移具有一定变化规律的时序数据,例如,股票数据、期货数据等。由于金融时间序列数据是时间序列数据的一种,具有很强的时间性,前后数据往往存在较强的依赖关系或周期关系,可基于统计的方式根据现有数据对未来数据进行预测。由于金融时间序列数据受多种因素影响,具有非线性、非平稳性、复杂性等特点,是金融数据分析中极具挑战性的研究课题。
目前,现有技术中主要采用数据建模的方式,对金融数据进行分析预测。但因金融数据受到政策、基本面、市场情绪、自然灾害、重大风险提示等多方面事件因素影响,若只针对数据本身进行分析,很难准确预测未来的走势。在金融领域,各种金融事件的载体(例如,新闻、评论等资讯数据),能够在一定程度上反映出市场走向与投资者的情绪,从而影响投资决策和市场走势。
对于金融事件的抽取,目前主要是依靠研究人员采用人工总结的方式来实现,这种人工总结方式不仅效率低下,且要求研究人员具有丰富的专业背景,门槛较高。
因而,如何提供一种自动抽取金融事件、自适应分析金融数据走势的分析方法,以提升金融数据预测的精确度与效率,是本领域亟待解决的技术问题。
发明内容
本发明实施例中提供了一种基于事件抽取的金融数据分析方法,用以解决现有技术中依靠人工总结方式抽取金融事件并对金融数据走势进行预测的方法,存在预测精确度和效率均比较低下的技术问题,该方法包括:获取资讯数据,资讯数据包含:多条资讯的资讯标题和对应的日期信息;从每条资讯的资讯标题中,抽取结构化的金融事件数据;将抽取的金融事件数据输入到预先训练好的金融主体情感分析模型中,输出每个金融事件的情感分类;统计各个情感分类对应的金融事件量,生成一个偏差向量,与待分析金融数据的特征向量进行融合,得到融合后的特征向量;将融合后的特征向量,输入到预先训练好的金融时间序列分析网络模型中,输出待分析金融数据的金融时间序列,其中,金融时间序列用于反映待分析金融数据的数据变化趋势。
本发明实施例中还提供了一种基于事件抽取的金融数据分析方法装置,用以解决现有技术中依靠人工总结方式抽取金融事件并对金融数据走势进行预测的方法,存在预测精确度和效率均比较低下的技术问题,该装置包括:数据获取模块,用于获取资讯数据,资讯数据包含:多条资讯的资讯标题和对应的日期信息;金融事件抽取模块,用于从每条资讯的资讯标题中,抽取结构化的金融事件数据;金融主体情感分析模块,用于将抽取的金融事件数据输入到预先训练好的金融主体情感分析模型中,输出每个金融事件的情感分类;特征转换模块,用于统计各个情感分类对应的金融事件量,生成一个偏差向量,与待分析金融数据的特征向量进行融合,得到融合后的特征向量;金融时间序列分析模块,用于将融合后的特征向量,输入到预先训练好的金融时间序列分析网络模型中,输出待分析金融数据的金融时间序列,其中,金融时间序列用于反映待分析金融数据的数据变化趋势。
本发明实施例中还提供了一种计算机设备,用以解决现有技术中依靠人工总结方式抽取金融事件并对金融数据走势进行预测的方法,存在预测精确度和效率均比较低下的技术问题,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述基于事件抽取的金融数据分析方法。
本发明实施例中还提供了一种计算机可读存储介质,用以解决现有技术中依靠人工总结方式抽取金融事件并对金融数据走势进行预测的方法,存在预测精确度和效率均比较低下的技术问题,该计算机可读存储介质存储有执行上述基于事件抽取的金融数据分析方法的计算机程序。
本发明实施例中,从采集的资讯数据中抽取结构化的金融事件数据,并将抽取的金融事件数据输入到预先训练好的金融主体情感分析模型中,输出每个金融事件的情感分类,进而统计各个情感分类对应的金融事件量,生成一个偏差向量,与待分析金融数据的特征向量进行融合后,输入到预先训练好的金融时间序列分析网络模型中,输出待分析金融数据的金融时间序列,以反映待分析金融数据的数据变化趋势。
与现有技术中依靠人工总结方式抽取金融事件并对金融数据走势进行预测的技术方案相比,本发明实施例中,自动对资讯数据进行处理,抽取出金融事件数据,并通过对金融事件进行情感分类,进而将不同情感分类的金融事件进行量化后引入到金融数据分析中,能够有效提升金融数据分析预测的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明实施例中提供的一种基于事件抽取的金融数据分析方法流程图;
图2为本发明实施例中提供的一种资讯数据获取流程图;
图3为本发明实施例中提供的一种事件抽取流程图;
图4为本发明实施例中提供的一种数据去重流程图;
图5为本发明实施例中提供的一种事件抽取算法模型示意图;
图6为本发明实施例中提供的一种对金融事件数据进行情感分析的流程图;
图7为本发明实施例中提供的一种基于注意力机制的金融主体情感分析模型示意图;
图8为本发明实施例中提供的一种数据特征变换流程图;
图9为本发明实施例中提供的一种基于事件抽取的金融数据分析方法具体实现流程图;
图10为本发明实施例中提供的一种基于事件抽取的金融数据分析装置示意图;
图11为本发明实施例中提供的一种数据获取模块的结构示意图;
图12为本发明实施例中提供的一种金融事件抽取模块的结构示意图;
图13为本发明实施例中提供的一种特征转换模块的结构示意图;
图14为本发明实施例中提供的一种可选的基于事件抽取的金融数据分析装置示意图;
图15为本发明实施例中提供的一种计算机设备示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
为了解决人工总结模式下无法高效分析金融数据走势的技术问题,本发明实施例中提供了一种基于事件抽取的金融数据分析方法,支持通过事件抽取方法将一定时间内的非结构化的事件文本数据转化为结构化的数据,并通过金融主题情感分类方法将事件分为利好、利空以及中性三类,有效地将多种影响因素量化为影响因子。将影响因子作为原有数据的一个偏差向量完成数据特征的扩充,使用基于深度学习的时间序列分析算法训练,最终得到一个训练好的算法模型,有效提升金融数据分析预测的准确性。
图1为本发明实施例中提供的一种基于事件抽取的金融数据分析方法流程图,如图1所示,该方法包括如下步骤:
S101,获取资讯数据,资讯数据包含:多条资讯的资讯标题和对应的日期信息。
需要说明的是,本发明实施例中获取的资讯数据可以是基于互联网采集的各种能够影响金融数据变化的资讯数据;在一个实施例中,可以是采用爬虫技术,从财经新闻网站上爬取的各种新闻数据。为了提高数据处理效率,可以从网站页面内容中直接爬取新闻标题和对应的日期信息等内容。
在一个实施例中,上述S101可以通过如下步骤来实现:获取目标网站的网址信息;根据目标网站的网址信息,向目标网站发送HTTP请求,获取目标网站的页面内容;根据预先设定的关键字,使用正则表达式,从目标网站的页面内容中,匹配出相应的资讯标题。
进一步地,在根据预先设定的关键字,使用正则表达式匹配页面内容中相应的资讯标题的时候,可以通过如下步骤来实现:从目标网站的页面内容中解析出一个或多个子页面的网址信息;根据各个子页面的网址信息,向各个子页面发送HTTP请求,获取各个子页面的页面内容;根据预先设定的关键字,使用正则表达式,从目标网站和各个子页面的页面内容中,匹配出相应的资讯标题。
S102,从每条资讯的资讯标题中,抽取结构化的金融事件数据。
需要说明的是,由于从网站页面中爬取的资讯标题文本内容表述存在差异,不同资讯平台针对同一金融事件发布的资讯标题可能不同,为了便于后续高效处理,本发明实施例中,在爬取到每条资讯的资讯标题后,对每条资讯的资讯标题进行结构化处理,得到相应的金融事件数据。例如,针对某一资讯标题为“全球最大规模X集团A股上市”,抽取后的结构化金融事件数据可以为“股票、上市、X集团”。
由于对于同一金融事件,不同资讯平台发布的资讯可能存在重复,为了提高事件抽取的效率,在从抽取金融事件数据之前,可以先对爬取的资讯数据进行去重处理,因而,一个实施例中,上述S102可以通过如下步骤来实现数据的去重处理:获取预先设定的事件触发词;根据预先设定的事件触发词,利用SimHash算法,对匹配出的资讯标题进行去重处理;从去重处理后的资讯标题中,抽取结构化的金融事件数据。
其中,在根据预先配置的事件触发词,利用SimHash算法,对获取的资讯数据进行去重处理的时候,可以具体通过如下步骤来实现:根据预先配置的事件触发词,对每个资讯标题进行分词,得到多个特征向量;利用Hash函数,计算各个特征向量的Hash值;根据每个资讯标题各个特征向量的Hash值和对应的权重值,计算每个资讯标题的SimHash值;根据两个资讯标题的SimHash值,计算两个资讯标题的海明距离,作为两个资讯标题的相似度;如果两个资讯标题的相似度小于预设阈值,则删除其中一个资讯标题。
其中,在从去重处理后的资讯标题中,抽取结构化的金融事件数据的时候,可以具体通过如下步骤来实现:使用BERT模型,对每个资讯标题的句子进行编码,得到每个资讯标题对应的句子向量以及句子中各个事件触发词的向量;根据每个资讯标题对应的句子向量,识别出金融事件的事件类型;根据事件类型对应的句子向量以及句子中各个事件触发词的向量,识别出每个资讯标题中包含的事件元素实体;对每个资讯标题中包含的各个事件元素实体进行角色识别,得到结构化的金融事件数据。
S103,将抽取的金融事件数据输入到预先训练好的金融主体情感分析模型中,输出每个金融事件的情感分类。
需要说明的是,上述S103中的金融主体情感分析模型可以是基于注意力机制的金融主体情感分析模型。在一个实施例中,本发明实施例中提供的基于事件抽取的金融数据分析方法,可以通过如下步骤来训练一个基于注意力机制的金融主体情感分析模型:对结构化的金融事件数据进行情感分类标注;根据标注后的金融事件数据,生成第一训练样本数据;根据第一训练样本数据,训练一个基于注意力机制的金融主体情感分析模型,其中,金融主体情感分析模型包含:词嵌入层、网络层、注意力机制层和全连接层,词嵌入层用于将结构化的金融数据转换为一个固定长度的矩阵向量;网络层用于将词嵌入层输出的矩阵向量输入到双向长短期记忆网络模型进行特征提取,得到特征向量;注意力机制层用于将网络层输出的特征向量进行聚合和加权处理;全连接层用于对注意力机制层输出的特征向量进行融合,使用softmax函数得到金融事件数据的情感分类结果。
S104,统计各个情感分类对应的金融事件量,生成一个偏差向量,与待分析金融数据的特征向量进行融合,得到融合后的特征向量。
需要说明的是,本发明实施例中待分析金融数据可以是股票、基金、债券等任一种金融数据,在具体实施时,针对不同的金融数据,可预先设定不同的金融数据特征。例如,当待分析金融数据为股票的情况下,可以选择昨日收盘价、昨日开盘价、昨日最高价、昨日最低价、昨日成交量、5日平均成交量、20日平均成交量、5日移动平均线、20日移动平均线等数据特征,作为股票的特征向量。
在具体实施时,上述S104可以通过如下步骤来实现:根据预先设定的金融数据特征,生成待分析金融数据的特征向量,对生成的特征向量进行归一化处理,得到待分析金融数据归一化后的特征向量;统计多个时间点各个情感分类对应的金融事件量,并根据每个预设时间点各个情感分类的金融事件量,生成每个预设时间点对应的偏差向量;将多个时间点对应的偏差向量与待分析金融数据归一化的特征向量进行拼接,得到融合后的特征向量。
S105,将融合后的特征向量,输入到预先训练好的金融时间序列分析网络模型中,输出待分析金融数据的金融时间序列,其中,金融时间序列用于反映待分析金融数据的数据变化趋势。
在一个实施例中,本发明实施例中提供的基于事件抽取的金融数据分析方法,可以通过如下步骤来训练一个金融时间序列分析网络模型:对金融数据的特征向量进行数据变化趋势标注;根据标注后的金融数据,生成第二训练样本数据;根据第二训练样本数据,训练一个金融时间序列分析网络模型。
下面,结合图2~图9对本发明实施例中提供的基于事件抽取的金融数据分析方法进行详细说明:
在具体实施时,本发明实施例中提供的基于事件抽取的金融数据分析方法,可以预先设定金融关键词,然后通过网络爬虫技术,通过图2所示的资讯数据获取流程,获取待抽取金融事件的资讯数据。如图2所示,具体包括:
S11,给定初始的国内财经新闻网站的URL;
S12,发送HTTP请求,获取页面内容;
S13,根据给定的关键字,使用正则表达式匹配页面内容中相应的新闻标题;
S14,从页面内容中解析更多的URL;
S15,判断是否满足预设的数据获取停止条件,若页面内容中已无可用的URL或递归深度达到设定的最大值时,结束数据获取操作;否则,重复执行S12~S15。
在获取到资讯数据后,可以通过图3所示的事件抽取流程,从资讯数据中抽取出金融事件数据。如图3所示,具体包括:
S21,定位事件触发词;
S22,利用SimHash算法,对获取到的资讯数据进行去重处理;
S23,对去重处理后的数据进行事件抽取。
可选地,上述S22可通过图4所示的数据去重流程来实现,如图4所示,包括:
S221,根据事件触发词对文本数据进行分词,得到有效的特征向量,为每一个特征向量设置1-5等五个级别的权重;
S222,通过hash函数计算各个特征向量的hash值;
S223,在hash值的基础上,对所有特征向量进行加权累加计算;
S224,对于累加结果,如果大于0则置为1,否则置为0,从而得到该语句的SimHash值;
S225,通过SimHash值计算两个资讯标题的海明距离来确定其相似度;若相似度小于预设阈值(例如,取值为3),则判定两个资讯标题相似,并保留其中任意一条数据。
例如,对第一文本数据“坚决整治各种金融乱象”和“”进行相似度计算。
第一文本数据的分词结果为“坚决(1)整治(5)各种(1)金融(4)乱象(3)”;对应的哈希值为[x1,x2,x3,x4,x5];进行加权累加时对应的正负为[+,-,+,-,+];最终获得第一文本数据的SimHash值为[1,0,1,0,1]。
第二文本数据的分词结果为“增强(3)业务信批(5)全面性(1)和(1)透明度(1)”;对应的哈希值为[y1,y2,y3,y4,y5];进行加权累加时对应的正负为[-,+,-,-,+];最终获得第二文本数据的SimHash值为[0,1,0,0,1]。
最后计算第一文本数据和第二文本数据的海明距离,得到第一文本数据和第二文本数据的相似度。
图5为本发明实施例中提供的一种事件抽取算法模型,如图5所示,本发明实施例中采用的事件抽取算法模型一共有四层,分别为输入编码层21、事件检测层22、事件元素识别层23以及元素角色识别层24。
其中,输入编码层21,用于将文本数据转换为向量;使用BERT模型对输入的句子进行编码,得到句子对应的向量以及句子中每个触发词的向量;事件检测层22,用于将输入编码层21输出的句向量作为输入,预测该句中包含的事件;事件元素识别层23,用于识别句子中参与事件的实体;将句向量与事件检测层22得到的事件类型对应的向量进行拼接作为输入,预测每个触发词对应的BIO标签(一种自然语言处理的标记模式),从而识别出事件元素对应的实体;元素角色识别层24,用于将事件类型和事件元素识别层23得到的事件元素实体对应的嵌入表示求平均后的向量作为查询向量,再对每个事件元素的角色进行识别。
在从资讯数据中抽取出结构化的金融事件数据后,可以通过图6所示的情感分析流程,对抽取出的金融事件数据进行金融主体情感分析。如图6所示,具体包括:
S31,利用专家知识对结构化的金融事件数据进行标注,共标注三类:利好、利空及中性;
S32,利用基于注意力机制的金融文本情感分类模型,对数据进行训练;
S33,利用步骤S32训练好的分类模型,对结构化的金融事件数据进行情感分类。
图7为本发明实施例中提供的一种基于注意力机制的金融主体情感分析模型示意图,如图7所示,该模型总共有四层,词嵌入层31、网络层32、注意力机制层33、全连接层34。其中:
词嵌入层31:使用BERT模型,将步骤S2得到的结构化的数据中的每个词转换为一个固定维度的向量表示,最终将数据表示为一个固定长度的矩阵向量,具体表达式如下:
x=[x1,x2,...,xn] (1)
xi=BERT(wi) (2)
其中:wi表示文本的第i个词,xi表示词i的BERT编码,n表示词向量的维度网络层32:将词嵌入层31得到的矩阵向量输入到网络层的双向长短期记忆网络(Bi-directionalLong Short-Term Memory,Bi-LSTM)中,进行特征提取,具体的表达式如下:
[h1,h2,...,hn]front=Lfront([x1,x2,...,xn]) (3)
[h1,h2,...,hn]back=Lback([x1,x2,...,xn]) (4)
其中,front表示正向连接的长短期记忆网络的表达式,back表示反向连接的长短期记忆网络的表达式,n表示词向量的维度
注意力机制层33:通过注意力机制层对网络层32得到的特征向量进行聚合和加权处理,减少无效信息的影响,提高分类任务的准确率,具体的表达式如下:
Figure BDA0002913794300000091
αi=softmax(Wi·hi) (6)
Figure BDA0002913794300000092
其中,hi为Bi-LSTM网络的输出,αi为计算得到的注意力权重,Wi为权重矩阵,
Figure BDA0002913794300000093
为注意力机制层33的输出向量
全连接层34:全连接层对注意力机制层33处理后的特征进行融合,并使用softmax函数得到最终的分类结果,具体表达式如下:
Figure BDA0002913794300000094
其中,ω是全连接层的权重,维度为c×n,c表示类别数,n表示词向量维度,
Figure BDA0002913794300000095
为注意力机制层33的输出向量。
在对抽取出的金融事件数据进行情感分类后,可以通过图8所示的数据特征变换流程,将金融事件的情感数据与预先设定的待分析金融数据的特征向量进行融合,以将金融事件的影响引入到金融数据分析中,如图8所示,具体包括:
S41,特征选择:根据任务需要进行特征选择,以股票为例,可以选择昨日收盘价、昨日开盘价、昨日最高价、昨日最低价、昨日成交量、5日平均成交量、20日平均成交量、5日移动平均线、20日移动平均线等特征作为输入特征向量x;
S42,特征融合:根据分析对象,选取与其相关的5日、10日、20日的金融事件统计量作为偏差向量,与步骤S41得到的特征向量进行融合:
x′=[x,b1,b2,b3] (9)
Figure BDA0002913794300000101
其中,b1、b2、b3分别表示根据5日、10日、20日的金融事件统计量得到的偏差向量,ci表示金融事件的统计总量,
Figure BDA0002913794300000102
表示类别为利好、利空和中性的金融事件统计量,x′为步骤S41得到的特征向量与根据金融事件统计量得到的偏差向量的拼接,是一个1×N维向量
S43,特征归一化:由于使用算法模型对数据进行分析时,不同维度的数据在数值上的量纲不同,往往无法直接使用,需要对步骤S41选取的特征进行归一化操作。使用(0,1)标准化算法对每一个特征向量进行归一化操作,具体表达式如下:
Figure BDA0002913794300000103
其中,y为某一特征值,ymin为该特征在全局上的最小值,ymax为该特征在全局上的最大值,y′为归一化操作后得到的特征
图9为本发明实施例中提供的一种基于事件抽取的金融数据分析方法具体实现流程图,如图9所示,具体包括:
S51,根据分析对象,选定关键词从已有历史数据中,获取一定数量的经过步骤S4处理的特征向量;
S52,若S51获取的特征向量无标签,则先进行标注,以股票为例,向量记录的最后一个交易日为T,0表示T+5个交易日的走势为“下跌”,1表示T+5个交易日的走势为“上涨”;
S53,选择时间序列分析网络,使用预训练好的参数模型,通过步骤S52标记好的特征向量进行训练微调,得到适合该特征变化规律的网络参数模型;
S54,使用阶段,使用S53得到的网络参数模型,按照S1~S4,动态获取最新的特征向量,完成金融数据走势的分析预测。
由上可知,本发明实施例中提供的基于事件抽取的金融数据分析方法,通过金融事件抽取、金融主体情感分析以及金融时间序列分析等一系列操作,能够有效的将金融事件的作用引入已有的分析方法中,有助于提升原有分析预测方法的准确率。
通过本发明实施例中提供的基于事件抽取的金融数据分析方法,能够实现但不限于如下技术效果:①无需修改已有金融时间序列分析网络的整体架构,只需要根据特征向量维度的变化适当调整各网络层的大小设置,减少了对原有系统的影响;②通过引入偏差的方式,融入了金融事件对市场走势的影响,能够有效提升金融数据分析预测的准确性;③每个步骤都可以单独进行,可以随时检查每一步的处理结果,方便及时发现问题。
基于同一发明构思,本发明实施例中还提供了一种基于事件抽取的金融数据分析装置,如下面的实施例所述。由于该装置解决问题的原理与基于事件抽取的金融数据分析方法相似,因此该装置的实施可以参见基于事件抽取的金融数据分析方法的实施,重复之处不再赘述。
图10为本发明实施例中提供的一种基于事件抽取的金融数据分析装置示意图,如图10所示,该装置包括:数据获取模块101、金融事件抽取模块102、金融主体情感分析模块103、特征转换模块104和金融时间序列分析模块105。
其中,数据获取模块101,用于获取资讯数据,资讯数据包含:多条资讯的资讯标题和对应的日期信息;金融事件抽取模块102,用于从每条资讯的资讯标题中,抽取结构化的金融事件数据;金融主体情感分析模块103,用于将抽取的金融事件数据输入到预先训练好的金融主体情感分析模型中,输出每个金融事件的情感分类;特征转换模块104,用于统计各个情感分类对应的金融事件量,生成一个偏差向量,与待分析金融数据的特征向量进行融合,得到融合后的特征向量;金融时间序列分析模块105,用于将融合后的特征向量,输入到预先训练好的金融时间序列分析网络模型中,输出待分析金融数据的金融时间序列,其中,金融时间序列用于反映待分析金融数据的数据变化趋势。
在一个实施例中,如图11所示,本发明实施例中提供的基于事件抽取的金融数据分析装置中,数据获取模块101可以包括:网址信息获取单元1011、页面内容请求单元1012和页面内容识别单元1013。其中,网址信息获取单元1011,用于获取目标网站的网址信息;页面内容请求单元1012,用于根据目标网站的网址信息,向目标网站发送HTTP请求,获取目标网站的页面内容;页面内容识别单元1013,用于根据预先设定的关键字,使用正则表达式,从目标网站的页面内容中,匹配出相应的资讯标题。
在一个实施例中,如图11所示,本发明实施例中提供的基于事件抽取的金融数据分析装置中,数据获取模块101还可以包括:子页面网址信息解析单元1014,用于从目标网站的页面内容中解析出一个或多个子页面的网址信息;其中,页面内容请求单元1012还用于根据各个子页面的网址信息,向各个子页面发送HTTP请求,获取各个子页面的页面内容;页面内容识别单元1013还用于根据预先设定的关键字,使用正则表达式,从目标网站和各个子页面的页面内容中,匹配出相应的资讯标题。
在一个实施例中,如图12所示,本发明实施例中提供的基于事件抽取的金融数据分析装置中,金融事件抽取模块102包括:事件触发词设定单元1021,用于获取预先设定的事件触发词;内容去重单元1022,用于根据预先设定的事件触发词,利用SimHash算法,对匹配出的资讯标题进行去重处理;事件抽取单元1023,用于从去重处理后的资讯标题中,抽取结构化的金融事件数据。
在一个实施例中,如图12所示,本发明实施例中提供的基于事件抽取的金融数据分析装置中,金融事件抽取模块102还包括:分词单元1024,用于根据预先配置的事件触发词,对每个资讯标题进行分词,得到多个特征向量;Hash值计算单元1025,用于利用Hash函数,计算各个特征向量的Hash值;SimHash值计算单元1026,用于根据每个资讯标题各个特征向量的Hash值和对应的权重值,计算每个资讯标题的SimHash值;其中,内容去重单元1022还用于根据两个资讯标题的SimHash值,计算两个资讯标题的海明距离,作为两个资讯标题的相似度;以及如果两个资讯标题的相似度小于预设阈值,则删除其中一个资讯标题。
可选地,上述事件抽取单元103还用于:使用BERT模型,对每个资讯标题的句子进行编码,得到每个资讯标题对应的句子向量以及句子中各个事件触发词的向量;根据每个资讯标题对应的句子向量,识别出金融事件的事件类型;根据事件类型对应的句子向量以及句子中各个事件触发词的向量,识别出每个资讯标题中包含的事件元素实体;对每个资讯标题中包含的各个事件元素实体进行角色识别,得到结构化的金融事件数据。
在一个实施例中,如图13所示,本发明实施例中提供的基于事件抽取的金融数据分析装置中,特征转换模块104包括:特征向量获取单元1041,用于根据预先设定的金融数据特征,生成待分析金融数据的特征向量,对生成的特征向量进行归一化处理,得到待分析金融数据归一化后的特征向量;偏差向量获取单元1042,用于统计多个时间点各个情感分类对应的金融事件量,并根据每个预设时间点各个情感分类的金融事件量,生成每个预设时间点对应的偏差向量;数据融合单元1043,用于将多个时间点对应的偏差向量与待分析金融数据归一化的特征向量进行拼接,得到融合后的特征向量。
在一个实施例中,如图14所示,本发明实施例中提供的基于事件抽取的金融数据分析装置还包括:金融主体情感分析模型训练模块106,用于:对结构化的金融事件数据进行情感分类标注;根据标注后的金融事件数据,生成第一训练样本数据;根据第一训练样本数据,训练一个基于注意力机制的金融主体情感分析模型,其中,金融主体情感分析模型包含:词嵌入层、网络层、注意力机制层和全连接层,词嵌入层用于将结构化的金融数据转换为一个固定长度的矩阵向量;网络层用于将词嵌入层输出的矩阵向量输入到双向长短期记忆网络模型进行特征提取,得到特征向量;注意力机制层用于将网络层输出的特征向量进行聚合和加权处理;全连接层用于对注意力机制层输出的特征向量进行融合,使用softmax函数得到金融事件数据的情感分类结果。
在一个实施例中,如图14所示,本发明实施例中提供的基于事件抽取的金融数据分析装置还包括:金融时间序列分析网络模型训练模块107,用于对金融数据的特征向量进行数据变化趋势标注;根据标注后的金融数据,生成第二训练样本数据;根据第二训练样本数据,训练一个金融时间序列分析网络模型。
基于同一发明构思,本发明实施例中还提供了一种计算机设备,用以解决现有技术中依靠人工总结方式抽取金融事件并对金融数据走势进行预测的方法,存在预测精确度和效率均比较低下的技术问题,图15为本发明实施例中提供的一种计算机设备示意图,如图15所示,该计算机设备15包括存储器151、处理器152及存储在存储器151上并可在处理器152上运行的计算机程序,处理器152执行计算机程序时实现上述基于事件抽取的金融数据分析方法。
基于同一发明构思,本发明实施例中还提供了一种计算机可读存储介质,用以解决现有技术中依靠人工总结方式抽取金融事件并对金融数据走势进行预测的方法,存在预测精确度和效率均比较低下的技术问题,该计算机可读存储介质存储有执行上述基于事件抽取的金融数据分析方法的计算机程序。
综上所述,本发明实施例中提供了一种基于事件抽取的金融数据分析方法、装置、计算机设备及计算机可读存储介质,从采集的资讯数据中抽取结构化的金融事件数据,并将抽取的金融事件数据输入到预先训练好的金融主体情感分析模型中,输出每个金融事件的情感分类,进而统计各个情感分类对应的金融事件量,生成一个偏差向量,与待分析金融数据的特征向量进行融合后,输入到预先训练好的金融时间序列分析网络模型中,输出待分析金融数据的金融时间序列,以反映待分析金融数据的数据变化趋势。
与现有技术中依靠人工总结方式抽取金融事件并对金融数据走势进行预测的技术方案相比,本发明实施例中,自动对资讯数据进行处理,抽取出金融事件数据,并通过对金融事件进行情感分类,进而将不同情感分类的金融事件进行量化后引入到金融数据分析中,能够有效提升金融数据分析预测的准确性。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (20)

1.一种基于事件抽取的金融数据分析方法,其特征在于,包括:
获取资讯数据,所述资讯数据包含:多条资讯的资讯标题和对应的日期信息;
从每条资讯的资讯标题中,抽取结构化的金融事件数据;
将抽取的金融事件数据输入到预先训练好的金融主体情感分析模型中,输出每个金融事件的情感分类;
统计各个情感分类对应的金融事件量,生成一个偏差向量,与待分析金融数据的特征向量进行融合,得到融合后的特征向量;
将融合后的特征向量,输入到预先训练好的金融时间序列分析网络模型中,输出所述待分析金融数据的金融时间序列,其中,所述金融时间序列用于反映所述待分析金融数据的数据变化趋势。
2.如权利要求1所述的方法,其特征在于,获取资讯数据,包括:
获取目标网站的网址信息;
根据目标网站的网址信息,向所述目标网站发送HTTP请求,获取所述目标网站的页面内容;
根据预先设定的关键字,使用正则表达式,从所述目标网站的页面内容中,匹配出相应的资讯标题。
3.如权利要求2所述的方法,其特征在于,根据预先设定的关键字,使用正则表达式匹配所述页面内容中相应的资讯标题,包括:
从所述目标网站的页面内容中解析出一个或多个子页面的网址信息;
根据各个子页面的网址信息,向各个子页面发送HTTP请求,获取各个子页面的页面内容;
根据预先设定的关键字,使用正则表达式,从所述目标网站和各个子页面的页面内容中,匹配出相应的资讯标题。
4.如权利要求1所述的方法,其特征在于,从每条资讯的资讯标题中,抽取结构化的金融事件数据,包括:
获取预先设定的事件触发词;
根据预先设定的事件触发词,利用SimHash算法,对获取的资讯标题进行去重处理;
从去重处理后的资讯标题中,抽取结构化的金融事件数据。
5.如权利要求4所述的方法,其特征在于,根据预先配置的事件触发词,利用SimHash算法,对获取的资讯数据进行去重处理,包括:
根据预先配置的事件触发词,对每个资讯标题进行分词,得到多个特征向量;
利用Hash函数,计算各个特征向量的Hash值;
根据每个资讯标题各个特征向量的Hash值和对应的权重值,计算每个资讯标题的SimHash值;
根据两个资讯标题的SimHash值,计算两个资讯标题的海明距离,作为两个资讯标题的相似度;
如果两个资讯标题的相似度小于预设阈值,则删除其中一个资讯标题。
6.如权利要求4所述的方法,其特征在于,从去重处理后的资讯标题中,抽取结构化的金融事件数据,包括:
使用BERT模型,对每个资讯标题的句子进行编码,得到每个资讯标题对应的句子向量以及句子中各个事件触发词的向量;
根据每个资讯标题对应的句子向量,识别出金融事件的事件类型;
根据事件类型对应的句子向量以及句子中各个事件触发词的向量,识别出每个资讯标题中包含的事件元素实体;
对每个资讯标题中包含的各个事件元素实体进行角色识别,得到结构化的金融事件数据。
7.如权利要求1所述的方法,其特征在于,在将抽取的金融事件数据输入到预先训练好的金融主体情感分析模型中,输出所述金融事件数据的情感分类结果之前,所述方法还包括:
对结构化的金融事件数据进行情感分类标注;
根据标注后的金融事件数据,生成第一训练样本数据;
根据第一训练样本数据,训练一个基于注意力机制的金融主体情感分析模型,其中,所述金融主体情感分析模型包含:词嵌入层、网络层、注意力机制层和全连接层,所述词嵌入层用于将结构化的金融数据转换为一个固定长度的矩阵向量;所述网络层用于将词嵌入层输出的矩阵向量输入到双向长短期记忆网络模型进行特征提取,得到特征向量;所述注意力机制层用于将所述网络层输出的特征向量进行聚合和加权处理;所述全连接层用于对所述注意力机制层输出的特征向量进行融合,使用softmax函数得到金融事件数据的情感分类结果。
8.如权利要求1所述的方法,其特征在于,统计各个情感分类对应的金融事件量,生成一个偏差向量,与待分析金融数据的特征向量进行融合,得到融合后的特征向量,包括:
根据预先设定的金融数据特征,生成待分析金融数据的特征向量,对生成的特征向量进行归一化处理,得到所述待分析金融数据归一化后的特征向量;
统计多个时间点各个情感分类对应的金融事件量,并根据每个预设时间点各个情感分类的金融事件量,生成每个预设时间点对应的偏差向量;
将所述多个时间点对应的偏差向量与所述待分析金融数据归一化的特征向量进行拼接,得到融合后的特征向量。
9.如权利要求1所述的方法,其特征在于,在将融合后的特征向量,输入到预先训练好的金融时间序列分析网络模型中,输出所述待分析金融数据的金融时间序列之前,所述方法还包括:
对金融数据的特征向量进行数据变化趋势标注;
根据标注后的金融数据,生成第二训练样本数据;
根据第二训练样本数据,训练一个金融时间序列分析网络模型。
10.一种基于事件抽取的金融数据分析装置,其特征在于,包括:
数据获取模块,用于获取资讯数据,所述资讯数据包含:多条资讯的资讯标题和对应的日期信息;
金融事件抽取模块,用于从每条资讯的资讯标题中,抽取结构化的金融事件数据;
金融主体情感分析模块,用于将抽取的金融事件数据输入到预先训练好的金融主体情感分析模型中,输出每个金融事件的情感分类;
特征转换模块,用于统计各个情感分类对应的金融事件量,生成一个偏差向量,与待分析金融数据的特征向量进行融合,得到融合后的特征向量;
金融时间序列分析模块,用于将融合后的特征向量,输入到预先训练好的金融时间序列分析网络模型中,输出所述待分析金融数据的金融时间序列,其中,所述金融时间序列用于反映所述待分析金融数据的数据变化趋势。
11.如权利要求10所述的装置,其特征在于,所述数据获取模块包括:
网址信息获取单元,用于获取目标网站的网址信息;
页面内容请求单元,用于根据目标网站的网址信息,向所述目标网站发送HTTP请求,获取所述目标网站的页面内容;
页面内容识别单元,用于根据预先设定的关键字,使用正则表达式,从所述目标网站的页面内容中,匹配出相应的资讯标题。
12.如权利要求11所述的装置,其特征在于,所述数据获取模块还包括:
子页面网址信息解析单元,用于从所述目标网站的页面内容中解析出一个或多个子页面的网址信息;
其中,页面内容请求单元还用于根据各个子页面的网址信息,向各个子页面发送HTTP请求,获取各个子页面的页面内容;所述页面内容识别单元还用于根据预先设定的关键字,使用正则表达式,从所述目标网站和各个子页面的页面内容中,匹配出相应的资讯标题。
13.如权利要求11或12所述的装置,其特征在于,所述金融事件抽取模块包括:
事件触发词设定单元,用于获取预先设定的事件触发词;
内容去重单元,用于根据预先设定的事件触发词,利用SimHash算法,对获取的资讯标题进行去重处理;
事件抽取单元,用于从去重处理后的资讯标题中,抽取结构化的金融事件数据。
14.如权利要求13所述的装置,其特征在于,所述金融事件抽取模块还包括:
分词单元,用于根据预先配置的事件触发词,对每个资讯标题进行分词,得到多个特征向量;
Hash值计算单元,用于利用Hash函数,计算各个特征向量的Hash值;
SimHash值计算单元,用于根据每个资讯标题各个特征向量的Hash值和对应的权重值,计算每个资讯标题的SimHash值;
其中,所述内容去重单元还用于根据两个资讯标题的SimHash值,计算两个资讯标题的海明距离,作为两个资讯标题的相似度;以及如果两个资讯标题的相似度小于预设阈值,则删除其中一个资讯标题。
15.如权利要求13所述的装置,其特征在于,所述事件抽取单元还用于:
使用BERT模型,对每个资讯标题的句子进行编码,得到每个资讯标题对应的句子向量以及句子中各个事件触发词的向量;
根据每个资讯标题对应的句子向量,识别出金融事件的事件类型;
根据事件类型对应的句子向量以及句子中各个事件触发词的向量,识别出每个资讯标题中包含的事件元素实体;
对每个资讯标题中包含的各个事件元素实体进行角色识别,得到结构化的金融事件数据。
16.如权利要求10所述的装置,其特征在于,所述装置还包括:金融主体情感分析模型训练模块,用于:对结构化的金融事件数据进行情感分类标注;根据标注后的金融事件数据,生成第一训练样本数据;根据第一训练样本数据,训练一个基于注意力机制的金融主体情感分析模型,其中,所述金融主体情感分析模型包含:词嵌入层、网络层、注意力机制层和全连接层,所述词嵌入层用于将结构化的金融数据转换为一个固定长度的矩阵向量;所述网络层用于将词嵌入层输出的矩阵向量输入到双向长短期记忆网络模型进行特征提取,得到特征向量;所述注意力机制层用于将所述网络层输出的特征向量进行聚合和加权处理;所述全连接层用于对所述注意力机制层输出的特征向量进行融合,使用softmax函数得到金融事件数据的情感分类结果。
17.如权利要求10所述的装置,其特征在于,所述特征转换模块包括:
特征向量获取单元,用于根据预先设定的金融数据特征,生成待分析金融数据的特征向量,对生成的特征向量进行归一化处理,得到所述待分析金融数据归一化后的特征向量;
偏差向量获取单元,用于统计多个时间点各个情感分类对应的金融事件量,并根据每个预设时间点各个情感分类的金融事件量,生成每个预设时间点对应的偏差向量;
数据融合单元,用于将所述多个时间点对应的偏差向量与所述待分析金融数据归一化的特征向量进行拼接,得到融合后的特征向量。
18.如权利要求10所述的装置,其特征在于,所述装置还包括:金融时间序列分析网络模型训练模块,用于对金融数据的特征向量进行数据变化趋势标注;根据标注后的金融数据,生成第二训练样本数据;根据第二训练样本数据,训练一个金融时间序列分析网络模型。
19.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至9任一项所述基于事件抽取的金融数据分析方法。
20.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至9任一项所述基于事件抽取的金融数据分析方法的计算机程序。
CN202110095467.9A 2021-01-25 2021-01-25 基于事件抽取的金融数据分析方法及装置 Pending CN112784580A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110095467.9A CN112784580A (zh) 2021-01-25 2021-01-25 基于事件抽取的金融数据分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110095467.9A CN112784580A (zh) 2021-01-25 2021-01-25 基于事件抽取的金融数据分析方法及装置

Publications (1)

Publication Number Publication Date
CN112784580A true CN112784580A (zh) 2021-05-11

Family

ID=75758839

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110095467.9A Pending CN112784580A (zh) 2021-01-25 2021-01-25 基于事件抽取的金融数据分析方法及装置

Country Status (1)

Country Link
CN (1) CN112784580A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113434631A (zh) * 2021-06-25 2021-09-24 平安科技(深圳)有限公司 基于事件的情感分析方法、装置、计算机设备及存储介质
CN114036949A (zh) * 2021-11-08 2022-02-11 中国银行股份有限公司 基于资讯信息分析的投资策略确定方法及装置
CN116501898A (zh) * 2023-06-29 2023-07-28 之江实验室 适用于少样本和有偏数据的金融文本事件抽取方法和装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113434631A (zh) * 2021-06-25 2021-09-24 平安科技(深圳)有限公司 基于事件的情感分析方法、装置、计算机设备及存储介质
WO2022267460A1 (zh) * 2021-06-25 2022-12-29 平安科技(深圳)有限公司 基于事件的情感分析方法、装置、计算机设备及存储介质
CN113434631B (zh) * 2021-06-25 2023-10-13 平安科技(深圳)有限公司 基于事件的情感分析方法、装置、计算机设备及存储介质
CN114036949A (zh) * 2021-11-08 2022-02-11 中国银行股份有限公司 基于资讯信息分析的投资策略确定方法及装置
CN116501898A (zh) * 2023-06-29 2023-07-28 之江实验室 适用于少样本和有偏数据的金融文本事件抽取方法和装置
CN116501898B (zh) * 2023-06-29 2023-09-01 之江实验室 适用于少样本和有偏数据的金融文本事件抽取方法和装置

Similar Documents

Publication Publication Date Title
CN106991085B (zh) 一种实体的简称生成方法及装置
CN109992664B (zh) 争议焦点的标注分类方法、装置、计算机设备和存储介质
CN112199956B (zh) 一种基于深度表示学习的实体情感分析方法
CN112784580A (zh) 基于事件抽取的金融数据分析方法及装置
CN112434535B (zh) 基于多模型的要素抽取方法、装置、设备及存储介质
CN112817561B (zh) 软件需求文档的事务类功能点结构化抽取方法及系统
CN113569050B (zh) 基于深度学习的政务领域知识图谱自动化构建方法和装置
CN113987187A (zh) 基于多标签嵌入的舆情文本分类方法、系统、终端及介质
CN116304748B (zh) 一种文本相似度计算方法、系统、设备及介质
CN111832290A (zh) 用于确定文本相关度的模型训练方法、装置、电子设备及可读存储介质
CN113297379A (zh) 一种文本数据多标签分类方法及装置
CN116956929B (zh) 针对桥梁管养文本数据的多特征融合命名实体识别方法、装置
CN115168541A (zh) 基于框架语义映射和类型感知的篇章事件抽取方法及系统
CN112364664A (zh) 意图识别模型的训练及意图识别方法、装置、存储介质
CN115098706A (zh) 一种网络信息提取方法及装置
CN116150367A (zh) 一种基于方面的情感分析方法及系统
CN115953788A (zh) 基于ocr和nlp技术的绿色金融属性智能认定方法及系统
CN115080750A (zh) 基于融合提示序列的弱监督文本分类方法、系统和装置
CN114742016A (zh) 一种基于多粒度实体异构图的篇章级事件抽取方法及装置
CN112818117A (zh) 标签映射方法、系统、计算机可读存储介质
CN116702765A (zh) 一种事件抽取方法、装置及电子设备
CN115718889A (zh) 针对公司简介的行业分类方法及装置
CN115203206A (zh) 数据内容搜索方法、装置、计算机设备及可读存储介质
AU2019290658B2 (en) Systems and methods for identifying and linking events in structured proceedings
CN116029280A (zh) 一种文档关键信息抽取方法、装置、计算设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination