CN115358201A - 一种期货领域的投研报告处理方法和系统 - Google Patents

一种期货领域的投研报告处理方法和系统 Download PDF

Info

Publication number
CN115358201A
CN115358201A CN202210927239.8A CN202210927239A CN115358201A CN 115358201 A CN115358201 A CN 115358201A CN 202210927239 A CN202210927239 A CN 202210927239A CN 115358201 A CN115358201 A CN 115358201A
Authority
CN
China
Prior art keywords
data
event
futures
text
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210927239.8A
Other languages
English (en)
Other versions
CN115358201B (zh
Inventor
杨胜利
吴福文
康维鹏
唐逐时
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zheshang Futures Co ltd
Original Assignee
Zheshang Futures Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zheshang Futures Co ltd filed Critical Zheshang Futures Co ltd
Priority to CN202210927239.8A priority Critical patent/CN115358201B/zh
Publication of CN115358201A publication Critical patent/CN115358201A/zh
Application granted granted Critical
Publication of CN115358201B publication Critical patent/CN115358201B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/84Mapping; Conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Operations Research (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Marketing (AREA)
  • Quality & Reliability (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及一种期货领域的投研报告处理方法,其中,该方法包括:采集期货行业的原始数据,包括:结构化数据、半结构化数据和非结构化数据,其中,结构化数据可以通过关系型数据库进行管理;对结构化数据和半结构化数据,进行预处理得到第一语义数据,对非结构化数据进行预处理及语义结构化处理,得到第二语义知识数据;基于第一语义知识数据和第二语义知识数据,构建期货结构化基础数据和产业链关联图谱;根据期货结构化基础数据和产业链关联图谱,自动化进行进行投投研报告告选题以及自动化生成投投研报告。通过本申请,解决了期货领域传统投研方式可靠性较差的问题,实现了效率和可靠性。

Description

一种期货领域的投研报告处理方法和系统
技术领域
本申请涉及大数据领域,特别是涉及一种期货领域的投研报告处理方法、系统、计算机设备和计算机可读存储介质。
背景技术
随着大数据、人工智能等技术的发展,金融行业加快了谋求数字化转型的进程,期货行业也在技术的推动下逐渐探索应用场景的新方向,随之智能投资研究应运而生。
传统投研方式普遍存在前期信息采集耗时、内容不完全、数据质量低的缺陷,同时,研究员受自身知识体系和个体工作情绪影响,导致研究报告稳定性差、信息版权混乱等问题。
目前针对期货领域传统投研报告处理方法稳定性较差的问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种期货领域的投研报告处理方法和系统,以至少解决相关技术中期货领域传统投研方式可靠性较差的问题。
第一方面,本申请实施例提供了一种期货领域的投研报告处理方法,所述方法包括:
采集期货行业的原始数据,包括:结构化数据、半结构化数据和非结构化数据,其中,所述结构化数据可以通过关系型数据库进行管理;
对所述结构化数据和所述半结构化数据,进行预处理得到第一语义数据,对所述非结构化数据进行预处理及语义结构化处理,得到第二语义知识数据;
基于所述第一语义知识数据和第二语义知识数据,构建期货结构化基础数据与产业链关联图谱;
根据所述期货结构化基础数据与产业链关联图谱,进行投研报告选题以及及自动化生成投研报告。
在其中一些实施例中,所述结构化数据为关系型数据,可通过关系型数据库进存储和管理;
所述半结构化数据为报表数据,其非关系型数据但具备固定的数据格式;
所述非结构化数据为不具备固定格式的文档数据。
在其中一些实施例中,对所述结构化数据和所述半结构化数据,进行预处理得到第一语义数据包括:
对于所述结构化数据:对其中的缺失数据进行忽略和/或补漏,对其中的重复数据进行合并和/或冗余剔除,以及对其中的噪声数据进行平滑处理;
对于所述半结构化数据,通过Xpath定向抽取模板对所述非结构化数据进行抽取,将数据表格转换为可存储的结构化库表数据;
集合所述预处理之后的结构化数据和所述结构化库表数据,得到所述第一语义知识数据。
在其中一些实施例中,所述对所述非结构化数据进行预处理包括:
提取所述非结构化数据中的文档对应的内容对象流,对所述内容对象流进行解码得到标准字符流;
对所述标准字符流进行信息提取得到目标信息,其中,所述目标信息包括:标题信息、事件信息、来源信息、正文文本信息、发布者信息。
在其中一些实施例中,对所述非结构化数据进行语义结构化处理,包括:
对非结构化数据中的文本进行分词,并通过预训练模型获取所述文本中各个分词的实体识别结果;
采用以Transformer为基础结构的BERT预训练模型,对所述文本中各个分词进行分类标记;
通过抽取所述文本中的事件信息,进行事件结构化处理。
在其中一些实施例中,对非结构化数据中的文本进行分词,并通过预训练模型获取所述文本中各个分词的实体识别结果包括:
将文本拆分为多个单字,基于所述单字、所述单字的拼音和笔画结构,得到所述单字对应的字嵌入向量;
将所述字嵌入向量输入BiLSTM-CRF模型,通过模型的BiLSTM层输出每个字嵌入向量对应于各个命名实体的得分;
通过模型的CRF层基于所述得分,采用BI序列标签体系,输出所述单词对应的实体识别结果。
在其中一些实施例中,抽取所述文本中的事件信息包括:
通过启发式规则方式和模型预测方式,抽取所述文本中的事件信息,其中,
所述启发式规则方式包括:查找所述文本中是否包含事件的触发关键词,若是,将所述触发关键词在预设匹配模板中进行匹配,以获取文本中的事件元素;
所述模型预测方式包括:通过BiLSTM-CRF模型,基于文本的实体识别结果、文本中间语义信息、最佳序列化标签和预设事件类型,获取事件元素及其对应的事件类别。
在其中一些实施例中,构建期货产业链关联知识图谱包括:构建上下游产业链知识信息,和构建事件传导因子关系知识信息,其中:
所述构建上下游产业链知识信息包括:
获取上下游产业链关联关系,将所述文本按照预设窗口长度进行句段划分,得到用于关系抽取的Context上下文;对所述Context上下文中的实体,依次根据所述关联关系进行关联判定,得到所述Context上下文中实体符合所述关联关系的成立概率;
所述构建事件传导因子关系知识信息,包括:
识别所述文本中的期货品种及因子关键词;
将所述文本中的事件进行组合得到事件对,并基于所述上下游产业链知识信息、所述因子关键词、和所述Context上下文对所述事件对进行关系分类。
在其中一些实施例中,所述基于所述期货产业链知识图谱,生成投研报告,包括投研报告选题流程和投研报告生成流程,其中:
所述投研报告选题流程包括:
将所述事件进行事件聚合,获取其中的热点事件,基于所述期货产业链关联图谱,分析所述热点事件的起因链路;基于所述期货产业链关联图谱,参考所述起因链路,通过限定深度的广度优先算法,获取所述热点事件的最佳关联传导链路;基于所述热点事件,所述热点事件的起因链路和关联传导链路,获取选题要素;
所述投研报告生成流程包括包括:
获取与所述选题要素匹配度最高的预设研报生成模板,其中,所述预设投研报告生成模板中定义有样式信息,所述样式信息包括篇章结构、文本片段和数据图;
确定所述选题要素对应的目标热点事件,获取所述目标热点事件的文本信息摘要,其中,所述文本信息摘要包括:事件主体、事件信息、跌幅信息、成交量信息;
根据所述文本信息摘要获取行业指标数据,并按照Echarts图表形式对所述行业指标数据进行渲染,得到反映所述事件走势的可视化图表;
基于所述期货产业链关联图谱,获取所述目标热点事件对应的目标起因事件和目标传导事件,获取所述目标起因事件和所述目标传导事件的文本摘要,并生成所述目标起因事件和所述目标传导事件对应的可视化图表。
第二方面,本申请提供了一种期货领域的投研报告处理系统,所述系统包括:采集模块,预处理模块、知识图谱构建模块和报告生成模块,其中,
所述采集模块用于,采集期货行业的原始数据,包括:结构化数据、半结构化数据和非结构化数据,其中,所述结构化数据可以通过关系型数据库进行管理;
所述预处理模块用于,对所述结构化数据和所述半结构化数据,进行预处理得到第一语义数据,对所述非结构化数据进行预处理及语义结构化处理,得到第二语义知识数据;
所述知识图谱构建模块用于,所述知识图谱构建模块用于,基于所述第一语义知识数据和第二语义知识数据,构建期货结构化基础数据和产业链关联图谱;
所述报告生成模块用于,根据所述期货结构化基础数据和所述产业链关联图谱,自动化进行投研报告选题以及自动化生成投研报告。
相比于相关技术,本申请提供的期货领域的投研报告处理方法,通过采集期货行业的原始数据,包括:结构化数据、半结构化数据和非结构化数据。对结构化数据和半结构化数据,进行预处理得到第一语义数据,对非结构化数据进行预处理及语义结构化处理,得到第二语义知识数据;基于第一语义知识数据和第二语义知识数据,构建期货结构化基础数据和产业链关联图谱;根据所述期货结构化基础数据和所述产业链关联图谱,自动化进行投研报告选题以及自动化生成投研报告。相比较于传统依靠人工采集数据、分析数据及生成投研报告的方式,本申请技术方案基于大数据技术进行自动化的数据采集、处理及报告生成,处理效率更高,节省了大量资源成本,同时,也具备更高的可靠性。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请的一种期货领域的投研报告处理方法的应用环境示意图;
图2是根据本申请实施例的一种期货领域的投研报告处理方法的流程图;
图3是根据本申请实施例的一种分析及实体识别模型的结构示意图;
图4是根据本申请实施例的一种事件抽取模型的示意图
图5是根据本申请实施例的一种事件抽取结果示意图;
图6是根据本申请实施例的一种期货领域的上下游产业链关系示意图;
图7是根据本申请实施例的一种期货领域的事件传导因子的关系示意图;
图8是根据本申请实施例的一种期货领域的投研报告处理系统的结构框图;
图9是根据本申请实施例的电子设备的内部结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
本申请提供的一种期货领域的投研报告处理方法,可以应用在如图1所示的应用环境中,图1是根据本申请的一种期货领域的投研报告处理方法的应用环境示意图。如图1所示,终端10通过互联网从服务器11采集数据,包括来自第三方期货服务机构的关系型数据、来自政府单位、券商企业的图表数据,以及来自财经网站,自媒体网站的不具备固定格式的文档数据等。进一步的,终端10基于大数据技术,结合算法模型对上述数据进行处理、分析和预测,并最终生成反映期货行业热点事件的投资研究报告。
需要说明的是,本申请实施例中的终端10可以是个人电脑、智能手机等,服务器11则可以是云服务器或线下场景的物理服务器。
本申请提供了一种期货领域的投研报告处理方法,图2是根据本申请实施例的一种期货领域的投研报告处理方法的流程图,如图2所示,该流程包括如下步骤:
S201,采集期货行业的原始数据,包括:结构化数据、半结构化数据和非结构化数据,其中,结构化数据可以通过关系型数据库进行管理;
其中,上述结构化数据为关系型数据,可通过关系型数据库进存储和管理,其来源于第三方期货服务机构。对应的,半结构化数据为报表数据,其非关系型数据,但具备固定的数据格式;非结构化数据为不具备固定格式的文档数据,通常来源于网页端或自媒体平台。
具体的,上述结构化数据、半结构化数据和非结构化数据的含义、采集方式和数据来源如下表1所示:
Figure BDA0003780064530000061
Figure BDA0003780064530000071
表1
S202,对结构化数据和半结构化数据,进行预处理得到第一语义数据,对非结构化数据进行预处理及语义结构化处理,得到第二语义知识数据;
需要说明的是,由于结构化数据主要是期货基本面、行情交易、资金流动、现货库存等关系型数据。因此,对于结构化数据,主要处理数据的缺失、重复、噪声等问题,并进行各种细化清洗处理流程,从而保证数据的准确性、完整性、一致性和有效性。
而对于半结构化数据,由于其来自于期货行业网站或者政府网站定向发布的统计报表数据,通常具有固定格式,因此,可以采用Xpath(XML Path Language,XML路径语言)的定向抽取模板进行抽取,从而将数据报表转换为可存储的结构化数据。
另外,经过上述预处理之后,获取到相关结构化的期货基础数据之后。还需按照期货品种、事件频率、指标名称等信息,确定数据唯一性的KEY,并按照KEY进行对齐存储。
其中,数据对齐涉及宏观、微观两个层次;首先,利用大数据技术,把具有不同频率、不同发布事件、不同历史长度、不同表现形式的数据整体对齐。其次,再根据数据类型及数量的不同,采用相应的存储技术系统。例如,微观层面的现货库存信息,可以按期货品种名称、交易日期、仓库名称、所在省份进行数据对齐,而仓库余量、库存变动量等字段信息主要作为内容值进行存储。
综上,上述结构化数据和半结构化数据经预处理和数据对齐之后,由于各项数据间具备一定的关联关系,根据这种关联关系便可得到数据间的关联知识数据。
进一步的,对于非结构化的数据,由于数据中不存在固定规律,因此,需要首先对其进行预处理以获取文档中的文本、标题和事件等信息;进一步的,再基于这些信息,通过命名实体匹配、标签分类、事件抽取等方式,建立数据间的关联关系(即语义结构化处理),从而将杂乱无章的非结构化数据转换为可以操作的结构化语义知识数据。
S203,基于第一语义知识数据和第二语义知识数据,构建期货结构化基础数据和产业链关联图谱;
其中,构建期货产业链关联图谱,包括构建期货上下游产业链和期货事件关联影响因子的知识库,其目的是为后续投研分析提供结构化知识。
进一步的,上下游产业链关系类别包括:期货品种与原材料等之间的上下游生产、供需、替代品、相关品和价格关系等;国家地区与期货品种的生产关系,企业与产品的生产提供关系等;期货品种与现货产品的价差关系、原产地与终端市场/国内市场间的价差关系等。
进一步的,期货事件关联影响关系的构建,包括分析期货市场上下游产业链中各微观因子和宏观因子的相互传导关系和作用大小。微观因子主要包括:期货品种库存、产量、需求、利润、进出口、宏观、现货价格、价差等;宏观因子主要包括:行业政策、货币政策、经济周期、国际汇率等。期货事件传导因子关系的作用为判断事件对之间是否存在关联因果关系,具体关系可包括:因果关系、顺承关系、并列关系等。
S204,基于期货结构化基础数据和产业链关联图谱,自动化进行研报选题以及自动化生成投研报告。
由于期货产业链知识图谱中包括:数据内的事件、以及数据上下游产业链关系和传导因子关系等整体脉络信息。因此,本步骤中可以根据知识图谱中的相关信息,对期货事件进行传导分析,并可利用传导分析信息来自动规划当前研报选题,从而提升投研报告的输出效率和准确性,节省了大量人力资源成本,同时,也可以在输出投研报告的过程中,避免因为人为主观因素产生的不确定性。
另一方面,本实施例中,也可以直接基于上述现有数据和预测结果,自动化的生成投研报告,即按照一定预设规则,无需人员参与即可实现投研报告的批量化生成。
通过上述步骤S201至S204,相比较与传统的期货投研方法,本申请实施例以大数据技术为基础,结合算法模型等人工智能技术,对期货行业的基础数据、事件、观点等信息进行综合性、自动化的处理和分析,进行自动化投研报告选题和投研报告生成。选题过程相比较于现有方式,输出效率更高,节省了大量人力资源成本,同时,由于规避了人员主观因素,生成的研投报告也具备更高的可靠性。
在其中一些实施例中,对结构化数据和半结构化数据,进行预处理得到第一语义数据包括:
首先,对于结构化数据进行预处理,包括:
对其中的缺失数据进行忽略和/或补漏,对其中的重复数据进行合并和/或冗余剔除,以及,对其中的噪声数据进行平滑处理,具体的:
对于缺失数据处理方式包括:忽略该记录、手工填补遗漏值、利用默认值填补、利用均值(或最大值、最小值)补全、利用同类均值(或最大值、最小值)补全和利用概率最大数据补全等;
对于重复性数据的处理:根据数据部分或全部属性值是否相同来判定数据是否重复;进一步的,将重复数据记录合并为一条记录,或简要地清除完全重叠多余数据;
对于噪声数据(指被测变量的一个随机错误或变异),包括噪声的发现和处理。其中,对于数值型数据(如价格、数量等),一般采用Bin算法对异常数据记录的近邻数据记录进行排序之后进行平滑处理;而对于字符串或枚举性质的数据,采用聚类算法将数据集合中相似的数据分别聚合到各个类簇,对于其中数据样本点数小于阈值的聚类或奇异点,可以视为异常数据。再采用线性回归算法对数据记录进行平滑拟合处理,从而去除数据中的错误噪声。当然,还需对错误修复数据进行异常数据的复核检查。
其次,对于半结构化数据进行预处理,
对于半结构化数据,由于其通常来自于期货行业网站或者政府网站定向发布的统计报表数据,通常具有固定格式,因此,可以采用Xpath(XML Path Language,XML路径语言)的定向抽取模板进行抽取,从而将数据报表转换为可存储的结构化数据。
最后,集合预处理之后的结构化数据和可存储的结构化库表数据,得到第一语义知识数据。
在其中一些实施例中,在期货领域非结构化数据主要是舆情资讯或行业资讯研究等文档数据,对非结构化数据进行预处理则包括对文档内容和文档相关信息的提取,具体包括:
由于非结构化文档是数据主要是WORD、PDF等公告、投研报告数据,对于非结构化的数据处理主要包括:抽取标题、事件、来源、发布者、正文内容等。其中,对于以WORD、PDF等形式存储的文档,需要建立相应的文档解析器,将WORD文档、PDF文档内容组织形式转化为相应的JSON或者XML结构形式,并进一步抽取分析其内容数据。需要说明的是,由于WORD和PDF在形式上可以转化,其本质上是同一种数据形式,但PDF在金融行业的投研报告、公告等信息发布中应用更广泛,因此,本实施例只介绍PDF文档内容的解析、获取,具体的:
PDF文档的物理结构包含:文件头、文件体、交叉索引表和文件尾。其中,文件头在PDF存储位置的第一行指明PDF版本号;文件体是PDF文件内容集合,包含PDF所有对象集合,常见的有表格、文本、图片等内容对象;交叉引用表,是一个为了快捷存取而设立地址索引表;文件尾,声明了交叉索引表的位置信息,还保存了PDF加密安全等信息。PDF是树型结构进行逻辑存储表示的,其根节点是目录对象Catalog,通过交叉索引表可以明确出来。考虑到期货金融领域投研报告性质,可以重点对PDF文本、表格内容的抽取。其中,一个PDF文档内容解析流程举例如下:
1)、提取PDF文档各页中的内容对象流;
2)、若PDF文档是经过加密的,需要进一步根据加密信息对内容对象流进行解密,从而得到非加密的内容对象流;
3)、使用Filter解码算法对内容对象流进行解码,得到标准字符流解码信息;
4)、对解码内容进行文本内容及其他相关信息进行提取。
需要说明的是,PDF文件体的Table表格一般有无边框表格、有边框表格、合并单元格、跨页面表格等;对于表格元素抽取,主要根据字符位置信息确定内容字段的表格行列边界,无论是文件体的Text文本元素还是Table表格元素,都需要识别出文档段落分类、索引目录关联、行列视图位置索引等PDF原始文件结构信息。
在其中一些实施例中,对非结构化数据进行语义结构化处理,包括:
对非结构化数据中的文本进行分词,并通过预训练模型获取文本中各个分词的实体识别结果;
其中,在金融领域较为常见的实体类别有:人物(Person)、事件(Time)、数值(Num)、地点(Local)、机构(Org)、期货市场(Future)、交易所(Market)、价格(Price)、交易标的(Goods)、金融指标(Index)等,而非实体的词语类别有名词(norm)、动词(verb)、形容词(adj)、副词(adv)等基本词类。
本实施例中,采用以Transformer为基础结构的BERT预训练模型对文本中各个分词进行分类标记;
其中,期货领域的文本分类标签主要分为:主题类标签、事件类标签、指标名词类标签、舆情情感类标签等;
进一步的,期货事件类型主要分为市场行情类、产业链类、宏观经济类、自然灾害类、国际政治类等。而事件元素主要包括:事件主体、事件事件等结构化信息。因此,对于事件关系抽取,一般将事件类型判别与具体事件元素抽取分成两个阶段进行。
在其中一些实施例中,图3是根据本申请实施例的一种分析及实体识别模型的结构示意图,如图3所示,
首先,将文本拆分为多个单字,基于单字、单字的拼音和笔画结构,得到单字对应的字嵌入向量;
其次,将字嵌入向量输入BiLSTM-CRF模型,通过模型的BiLSTM层输出每个字嵌入向量对应于各个命名实体的得分;
通过模型的CRF层基于上述得分,并采用BI序列标签体系,输出单词对应的实体识别结果。
其中,上述BI序列标签体系,举例如下,“澳洲铁矿石暴跌5%”,“澳洲”表示为:澳/B-Local洲/I-Local;“铁矿石”可以表示为:铁/B-Future矿/I-Future石/I-Future等。进一步的,标签分类(例如B-Local、I-Local)采用One-Hot编码表示,CRF层面采用Viterbi算法进行解码。
在其中一些实施例中,对文本中各个分词进行分类标记包括:
期货领域的文本分类标签主要分为:主题类标签、事件类标签、指标名词类标签、舆情情感类标签等,具体地:
主体类标签梳理归类为:1)、期货交易品种标签(股指、铜、铁矿石、黄金、大豆等);2)、期货行业板块类标签(金融、有色、农产品、化工等);3)、期货地域类标签具体国家(中国、美国、新加坡、日本、澳大利亚等)、地区(东南亚、中东、欧洲等)、城市(上海、伦敦、纽约等);4)、期货市场机构类标签(中金所、上期所、郑商所、大商所、纽约商业交易所等);5)、国家政府机关部门类标签(财政部、央行、证监会等);6)、国外政府机构或世界经济组织类标签(美联储、德国央行、世界银行等)。
事件类标签梳理归类为:1)、舆情类事件(市场暴涨暴跌、创历史新高等);2)、产业链事件(原材料涨价、原材料增减产、进出口限制等);3)、政策类标签(产业鼓励、产业限制、生产费率调整、市场同类品配比政策等);4)、自然灾害类事件(地震、水灾、虫灾、高温等);5)、宏观金融事件(失业率增高、经济持续走强、国际政治事件、区域冲突等)等;
指标名词类标签梳理归类为:1)、宏观经济指数(GDP、CPI数据指标等);2)、微观品种数据指标(产量、成交金额、库存量等);
舆情情感类标签梳理归类为:1)、正负面影响(正面、负面、中性);2)、重要度因子类标签(特别重大、重大、一般、微小等)
本实施例中,采用以Transformer为基础结构的BERT((Bidirectional EncoderRepresentation from Transformers))预训练模型进行分类,BERT模型对MLM(maskedlanguage model,掩码语言模型)任务和下一句子预测任务进行联合训练,并且采用Transformer完全基于注意力机制的模块,能够捕捉长文本词语间的语义关系,使得模型的输出向量矩阵能尽可能准确、全面地刻画原始文本的整体信息,为下游的微调任务提供了很好的模型输入。
在具体分类使用中,在BERT输出层增加Fine-tuned(微调),进行分类预测。首先基于期货文本语料分词,再采用Bert开源训练工具进行字词语义表示学习,最后再按主体、事件、舆情等维度进行多细分任务训练,最后将其用于期货文本的分类。
在其中一些实施例中,抽取文本中的事件信息。包括启发式规则方式和模型预测两种方式,规则方式抽取精确且便于干预,但其泛化能力较差,而模型抽取方式泛化能力则较强。因此,本文采用规则与模型相结合的方式进行抽取,具体的:
启发式规则方式包括:查找文本中是否包含事件的触发关键词,若是,将触发关键词在预设匹配模板中进行匹配,以获取文本中的事件元素;
其中,规则方式由规则触发词与匹配模板组成,触发词语一般是事件关键词语,例如:暴跌、暴涨、创新低等事件关键词语,而匹配模板组要是由:实体词语、词类、泛化匹配符、重叠次数、前后逻辑符号组成。
对于期货品种下跌事件,可以写成如下表2所示的规则模板:
触发词 模板
下跌|暴跌|跌幅|跌超 ?$(DATE)&$(Future)~k(下跌|暴跌|跌幅|跌超)
表2
进一步的,规则匹配虽然精确,但是泛化能力不足,对于不能由规则匹配的文本,需要采用模型方式进行抽取。模型预测方式包括:通过BiLSTM-CRF模型,基于文本的实体识别结果、文本中间语义信息、最佳序列化标签和预设事件类型,获取事件元素及其对应的事件类别。
图4是根据本申请实施例的一种事件抽取模型的示意图,如图4所示,对新闻资讯进行文本分类确定事件类型,然后再根据事件类型采用BiLSTM-CRF模型进行事件元素序列标注,最后得到事件元素和事件类别。
需要说明的是,该事件抽取流程与上述实体识别流程相似,两者的区别在于,事件抽取流程中,通过事件联合抽取模型将事件类别、事件元素抽取进行一体化联合建模及训练抽取。
具体的事件抽取结果举例如图5所示,图5是根据本申请实施例的一种事件抽取结果示意图。
在其中一些实施例中,在获取得到文本分词、标签分类、及事件信息之后,这些数据信息一方面为智能投研提供了结构化语义素材,另一方面也是构建期货上下游产业链与事件关联影响知识图谱的语料基础。进一步的,基于上述信息构建关联图谱包括:构建上下游产业链知识信息,以及构建事件传导因子关系知识信息;
其中,构建上下游产业链知识信息包括:获取上下游产业链关联关系,将文本按照预设窗口长度进行句段划分,得到用于关系抽取的Context上下文,并对Context上下文中的实体,依次根据关联关系信息进行关联判定,得到Context上下文中实体符合关联关系的成立概率;
具体的,首先整理确定上下游产业链关系类别,主要包括:期货品种与原材料等之间的上下游生产、供需、替代品、相关品、价格关系等;国家地区与期货品种的生产关系,企业与产品的生产提供关系等;期货品种与现货产品的价差关系、原产地与终端市场/国内市场间的价差关系等。
然后基于期货语义文本对文本中的实体间关系进行抽取,实体上下游关系可以标为:<实体1,产业链关系x,实体2>。具体抽取计算方法为:依次遍历文档,按照一定窗口长度对文本进行句段划分,形成关系抽取的Context上下文;然后对每个上下文Context中的潜在实体,依据<实体1、实体2>进行关系判别。即在该上下文内,依次对每个产业链关系判别<实体1,关系x,实体2,Context>的关系是否成立,具体可以采用分类(1,0)来分别表示关系成立或不成立,同时也得到相应的成立概率。
经过上述处理后,可以得到了<实体1,关系x,实体2>关系全部成立的语义片段。最后,在全语料集中验证关系与否,将满足成立与不成立的Context全部语料进行概率加权,得到最终<实体1,关系x,实体2>成立概率。
例如,对于期货资讯文本:“甲醇价格将在煤制成本和MTO利润之间波动。上游动力煤上涨挤压成本利润,下游MTO综合利润亏损压制甲醇价格上行”,
利用上下游产业链抽取规则于关系分类模型可以确定:<甲醇,上游,动力煤>,<甲醇,下游,MTO>等产业链知识关系。
图6是根据本申请实施例的一种期货领域的上下游产业链关系示意图。
进一步的,构建事件传导因子关系知识信息包括:
识别文本中的期货品种及因子关键词;将文本中的事件进行组合得到事件对,并基于上下游产业链知识信息、因子关键词、和Context上下文对事件对进行关系分类。
具体的,
期货领域中事件传导关系构建,主要分析期货市场上下游产业链中各微观因子和宏观因子的相互传导关系和作用大小。微观因子主要包括:期货品种库存、产量、需求、利润、进出口、宏观、现货价格、价差等,宏观因子主要包括:行业政策、货币政策、经济周期、国际汇率等。期货事件传导因子关系主要是判断事件对之间是否存在关联因果关系,具体关系包括:因果关系、顺承关系、并列关系等,进一步的,具体构建方法如下:
1)、识别文本段落中的期货品种及因子关键词;
2)、识别文本段落中的基本事件;
3)、对文本中按事件对进行组合<事件1,事件2>,并根据期货品种上下游关系、因子关键词以及文本关联特征等Context上下文信息。进行事件对关系分类。可选的,采用基于深度学习的TextCNN分类模型进行问句类别划分,举例如下:
a)、训练以期货文本全体实体、分词、因子关键词为词表的word2vec预训练模型;
b)、将事件对的上下文Context关联文本,以及事件对信息转化为向量表示;
c)、对句子进行补0操作,变成等长向量化表示;
d)、构建TextCNN模型并迭代训练,用验证集进行准确率测试以得到最佳模型。
图7是根据本申请实施例的一种期货领域的事件传导因子的关系示意图。
在其中一些实施例中,在经过数据采集、数据清洗、语义结构化处理、结构化知识挖掘之后,便可进行自动研投报告生成,期货金融关联预测等方面的业务实现。基于期货产业链知识图谱,生成投研报告包括投研报告选题流程和投研报告生成流程,其中:
投研报告选题流程包括:
将事件进行事件聚合,获取其中的热点事件,基于期货产业链关联图谱,分析热点事件的起因链路;基于期货产业链关联图谱,参考起因链路,通过限定深度的广度优先算法,获取热点事件的最佳关联传导链路;基于热点事件,热点事件的起因链路和关联传导链路,获取选题要素;
本实施例中,智能投研报告选题,主要用于解决期货金融研究员面对大量信息时,存在选题困难的问题。包括对舆情事件及实时行情事件进行分析计算,筛选出热点事件、事件起因、事件影响等各方面生成要素。具体过程距离如下:
1)、对事件按主体、事件、事件类型等关键要素进行事件聚合,具体可采用Canopy、Kmeans等聚合过程算法,而对于事件之间的相似性度量,则可以将事件转化为向量,采用Cosine相似度算法进行;
2)、发现检测热点(重点)事件,主要按事件发生事件、传播热度、传报渠道,及行情事件规则(如品种主力涨跌幅大于8%以上)等各种信息发现当前主体或事件的热点(重点)事件;
3)、分析计算热点与重要事件的事件起因链路,主要通过产业链知识库、事例逻辑知识库及期货舆情事件库等知识信息,计算分析当前事件发生的原因。同时计算该事件后继影响的关联传导链路,最后整合各种选题要素,按事件主体、事件类型、事件元素、发生事件、事发起因、关联影响等各维度进行整合。具体实现层面可以基于上下游产业链和事件逻辑传导图谱,进行限定深度的广度优先算法进行事件起因链路推导;
4)、分析计算事件关联传导链路,跟步骤3)中的事件起因链路分析一样,都是基于产业链与事例逻辑关联图谱进行限定深度的广度优先算法进行最佳可能事件传导链路分析;
5)、整合选题要素最终汇总确定选题内容,包括:主体、事件、起因、影响等方面因素。
通过上述步骤,能够根据期货领域依据实时行情交易、资讯研报等数据信息,自动规划选题,以及确定当前市场热点、分析热点起因以及传导链路等。可选的,这些选题结果可以提供给研究人员进行投研报告生成,或者输出给机器进行自动投研报告生成。
投研报告生成流程包括包括:
获取与选题要素匹配度最高的预设投研报告生成模板,其中,预设投研报告生成模板中定义有样式信息,样式信息包括篇章结构、文本片段和数据图;
确定选题要素对应的目标热点事件,获取目标热点事件的文本信息摘要,其中,文本信息摘要包括:事件主体、事件信息、跌幅信息、成交量信息;
根据文本信息摘要获取行业指标数据,并按照Echarts图表形式对行业指标数据进行渲染,得到反映事件走势的可视化图表;
基于期货产业链关联图谱,获取目标热点事件对应的目标起因事件和目标传导事件,获取目标起因事件和目标传导事件的文本摘要,生并生成目标起因事件和目标传导事件对应的可视化图表。
智能投研报告主要利用自然语言生成技术实现对研究结果的全模版、半模版和全自动生成。全模版生成主要是基于预设好的期货投研报告模版,自动替换文字片段、数据、图表等关键内容,自动化生产大量固定格式的报告;半模版生成是在全模版的基础上,从历史投研报告中抽取相似结论植入当前投研报告,从而辅助研究员回溯历史,观照现实;而全自动生成则是基于确定好主题和关键信息,汇聚和分析当天所有互联网投研报告观点与重要事件,采用自然语言生成技术,整合精选内容形成整篇报告。
全模板生成技术路径较为简单,本实施例中不再赘述。半模板生成,对非结论部分的图表、数据等采用模板变量通过取数替换而产生,而对结论部分则先通过计算与历史投研报告数据在宏观、行情、品种等方面的特征相似度,获得相似研报数据,再结合当前状态与历史投研报告结论采用自动摘要的方式产生。
全自动的投研报告生成,需要根据选题的各内容要素信息(主体、事件、事件、起因、影响等),从投研报告模板知识库中选择该选题最佳书写匹配的投研报告模板或类型。一般而言,选报模板或类型都基本确定了投研报告的内容按“三段式”进行结构组织规划,具体包括:期货主体现状或事件描述章节、现状或事件起因分析章节、该现状或事件可能关联传导的后继事件或结论章节。每个章节都由内容文摘,以及相关数据指标的图表说明所组成。整体生成流程大致如下:
1)、确定选题要素,按照期货品种及舆情资讯等结构化事件数据信息,确定投研报告内容要素信息事件类型、事件主体、事件事件、起因事件、传导影响事件等;
2)、确定投研报告生成模板,主要根据选题要素和投研报告模板的匹配度进行选择。可以定义较为丰富的投研报告模板知识库及投研报告内容信息,在投研报告模板中则主要定义篇章结构及文本片段、数据图等内容及样式;
3)、对期货品种热点或重点事件进行文本摘要,文摘可以采用模板方式进行,也可以采用目前已于Seq2Seq序列到序列的深度学习技术。为了语言准确规范可控,可采用模板方式。例如“动力煤暴跌”,需要摘要说明事件主体、事件、暴跌比例、成交量、厂库等关键信息
4)、生成当前主体行情或指标走势的可视化图表。根据当前主体、事件从实时行情、日K线表、现货仓库等相关库表中获取行情/指标数据,并按照Echarts图表形式进行渲染生成图表;
5)、生成起因事件的文本摘要及关联逻辑,可以根据事件传导关联知识库获取得到<起因事件,主体当前事件>传导路径及关联逻辑,并采用模板摘要方式转化为具体文本描述;
6)、生成起因事件的主体行情或指标图示,当起因事件主体与当前主体不一致时,投研报告生成一般都需要分析起因事件主体当前的行情/指标数据;
7)、生成后继传导影响事件的文本摘要及传导逻辑;
8)、生成后继传导影响事件主体相关行情及指标数据。
经过上述处理操作,智能投研平台就能够根据当前期货市场资讯及行情数据,自动确定投研报告选题、素材搜集、事件起因、传导链路分析等研究分析,并按照相关模板进行自动生成。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本实施例还提供了一种期货领域的投研报告处理系统,该系统用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图8是根据本申请实施例的一种期货领域的投研报告处理系统的结构框图,如图8所示,该系统包括:采集模块80,预处理模块81、知识图谱构建模块82和报告生成模块83,其中,
采集模块80用于,采集期货行业的原始数据,包括:结构化数据、半结构化数据和非结构化数据,其中,结构化数据可以通过关系型数据库进行管理;
预处理模块81用于,对结构化数据和半结构化数据,进行预处理得到第一语义数据,对非结构化数据进行预处理及语义结构化处理,得到第二语义知识数据;
知识图谱构建模块82用于,基于第一语义知识数据和第二语义知识数据,构建期货结构化基础数据和产业链关联图谱;
报告生成模块83用于,基于期货结构化基础数据和产业链关联图谱,自动化进行投研报告选题以及自动化生成投研报告。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种期货领域的投研报告处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
在一个实施例中,图9是根据本申请实施例的电子设备的内部结构示意图,如图9所示,提供了一种电子设备,该电子设备可以是服务器,其内部结构图可以如图9所示。该电子设备包括通过内部总线连接的处理器、网络接口、内存储器和非易失性存储器,其中,该非易失性存储器存储有操作系统、计算机程序和数据库。处理器用于提供计算和控制能力,网络接口用于与外部的终端通过网络连接通信,内存储器用于为操作系统和计算机程序的运行提供环境,计算机程序被处理器执行时以实现一种期货领域的投研报告处理方法,数据库用于存储数据。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种期货领域的投研报告处理方法,其特征在于,所述方法包括:
采集期货行业的原始数据,包括:结构化数据、半结构化数据和非结构化数据,其中,所述结构化数据可以通过关系型数据库进行管理;
对所述结构化数据和所述半结构化数据,进行预处理,到第一语义数据,对所述非结构化数据进行预处理及语义结构化处理,得到第二语义知识数据;
基于所述第一语义知识数据和所述第二语义知识数据,构建期货结构化基础数据和产业链关联图谱;
根据所述期货结构化基础数据和所述产业链关联图谱,自动化进行投研报告选题以及自动化生成投研报告。
2.根据权利要求1所述的方法,其特征在于,
所述结构化数据为关系型数据,可通过关系型数据库进存储和管理;
所述半结构化数据为报表数据,其非关系型数据但具备固定的数据格式;
所述非结构化数据为不具备固定格式的文档数据。
3.根据权利要求2所述的方法,其特征在于,对所述结构化数据和所述半结构化数据,进行预处理,到第一语义数据包括:
对于所述结构化数据:对其中的缺失数据进行忽略和/或补漏,对其中的重复数据进行合并和/或冗余剔除,以及对其中的噪声数据进行平滑处理;
对于所述半结构化数据,通过Xpath定向抽取模板对所述非结构化数据进行抽取,将数据表格转换为可存储的结构化库表数据;
集合所述预处理之后的结构化数据和所述结构化库表数据,得到所述第一语义知识数据。
4.根据权利要求2所述的方法,其特征在于,所述对所述非结构化数据进行预处理包括:
提取所述非结构化数据中的文档对应的内容对象流,对所述内容对象流进行解码得到标准字符流;
对所述标准字符流进行信息提取得到目标信息,其中,所述目标信息包括:标题信息、事件信息、来源信息、正文文本信息、发布者信息。
5.根据权利要求1所述的方法,其特征在于,对所述非结构化数据进行语义结构化处理,包括:
对非结构化数据中的文本进行分词,并通过预训练模型获取所述文本中各个分词的实体识别结果;
采用以Transformer为基础结构的BERT预训练模型,对所述文本中各个分词进行分类标记;
通过抽取所述文本中的事件信息,进行事件结构化处理。
6.根据权利要求5所述的方法,其特征在于,对非结构化数据中的文本进行分词,并通过预训练模型获取所述文本中各个分词的实体识别结果包括:
将文本拆分为多个单字,基于所述单字、所述单字的拼音和笔画结构,得到所述单字对应的字嵌入向量;
将所述字嵌入向量输入BiLSTM-CRF模型,通过模型的BiLSTM层输出每个字嵌入向量对应于各个命名实体的得分;
通过模型的CRF层基于所述得分,采用BI序列标签体系,输出所述单词对应的实体识别结果。
7.根据权利要求5所述的方法,其特征在于,抽取所述文本中的事件信息包括:
通过启发式规则方式和模型预测方式,抽取所述文本中的事件信息,其中,
所述启发式规则方式包括:查找所述文本中是否包含事件的触发关键词,若是,将所述触发关键词在预设匹配模板中进行匹配,以获取文本中的事件元素;
所述模型预测方式包括:通过BiLSTM-CRF模型,基于文本的实体识别结果、文本中间语义信息、最佳序列化标签和预设事件类型,获取事件元素及其对应的事件类别。
8.根据权利要求1所述的方法,其特征在于,构建期货产业链关联知识图谱包括:构建上下游产业链知识信息,和构建事件传导因子关系知识信息,其中:
所述构建上下游产业链知识信息包括:
获取上下游产业链关联关系,将所述文本按照预设窗口长度进行句段划分,得到用于关系抽取的Context上下文;对所述Context上下文中的实体,依次根据所述关联关系进行关联判定,得到所述Context上下文中实体符合所述关联关系的成立概率;
所述构建事件传导因子关系知识信息,包括:
识别所述文本中的期货品种及因子关键词;
将所述文本中的事件进行组合得到事件对,并基于所述上下游产业链知识信息、所述因子关键词、和所述Context上下文对所述事件对进行关系分类。
9.根据权利要求1所述的方法,其特征在于,所述基于所述期货产业链知识图谱,生成投研报告,包括投研报告选题流程和投研报告生成流程,其中:
所述投研报告选题流程包括:
将所述事件进行事件聚合,获取其中的热点事件,基于所述期货产业链关联图谱,分析所述热点事件的起因链路;基于所述期货产业链关联图谱,参考所述起因链路,通过限定深度的广度优先算法,获取所述热点事件的最佳关联传导链路;基于所述热点事件,所述热点事件的起因链路和关联传导链路,获取选题要素;
所述投研报告生成流程包括包括:
获取与所述选题要素匹配度最高的预设投研报告生成模板,其中,所述预设投研报告生成模板中定义有样式信息,所述样式信息包括篇章结构、文本片段和数据图;
确定所述选题要素对应的目标热点事件,获取所述目标热点事件的文本信息摘要,其中,所述文本信息摘要包括:事件主体、事件信息、跌幅信息、成交量信息;
根据所述文本信息摘要获取行业指标数据,并按照Echarts图表形式对所述行业指标数据进行渲染,得到反映所述事件走势的可视化图表;
基于所述期货产业链关联图谱,获取所述目标热点事件对应的目标起因事件和目标传导事件,获取所述目标起因事件和所述目标传导事件的文本摘要,并生成所述目标起因事件和所述目标传导事件对应的可视化图表。
10.一种期货领域的投研报告处理系统,其特征在于,所述系统包括:采集模块,预处理模块、知识图谱构建模块和报告生成模块,其中,
所述采集模块用于,采集期货行业的原始数据,包括:结构化数据、半结构化数据和非结构化数据,其中,所述结构化数据可以通过关系型数据库进行管理;
所述预处理模块用于,对所述结构化数据和所述半结构化数据,进行预处理得到第一语义数据,对所述非结构化数据进行预处理及语义结构化处理,得到第二语义知识数据;
所述知识图谱构建模块用于,基于所述第一语义知识数据和第二语义知识数据,构建期货结构化基础数据和产业链关联图谱;
所述报告生成模块用于,根据所述期货结构化基础数据和所述产业链关联图谱,自动化进行投研报告选题以及自动化生成投研报告。
CN202210927239.8A 2022-08-03 2022-08-03 一种期货领域的投研报告处理方法和系统 Active CN115358201B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210927239.8A CN115358201B (zh) 2022-08-03 2022-08-03 一种期货领域的投研报告处理方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210927239.8A CN115358201B (zh) 2022-08-03 2022-08-03 一种期货领域的投研报告处理方法和系统

Publications (2)

Publication Number Publication Date
CN115358201A true CN115358201A (zh) 2022-11-18
CN115358201B CN115358201B (zh) 2023-06-20

Family

ID=84001134

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210927239.8A Active CN115358201B (zh) 2022-08-03 2022-08-03 一种期货领域的投研报告处理方法和系统

Country Status (1)

Country Link
CN (1) CN115358201B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116955639A (zh) * 2023-04-24 2023-10-27 浙商期货有限公司 期货产业链知识图谱构建方法、装置及计算机设备
CN117131935A (zh) * 2023-10-25 2023-11-28 浙商期货有限公司 一种面向期货领域的知识图谱构建方法
CN117332180A (zh) * 2023-12-01 2024-01-02 浙商期货有限公司 基于大语言模型的研报智能写作方法、设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649223A (zh) * 2016-12-23 2017-05-10 北京文因互联科技有限公司 基于自然语言处理的金融报告自动生成方法
CN106815293A (zh) * 2016-12-08 2017-06-09 中国电子科技集团公司第三十二研究所 一种面向情报分析的构建知识图谱的系统及方法
CN111598702A (zh) * 2020-04-14 2020-08-28 徐佳慧 一种基于知识图谱的风险投资语义搜索的方法
CN112463981A (zh) * 2020-11-26 2021-03-09 福建正孚软件有限公司 一种基于深度学习的企业内部经营管理风险识别提取方法及系统
CN112860908A (zh) * 2021-01-27 2021-05-28 云南电网有限责任公司电力科学研究院 基于多源异构电力设备数据的知识图谱自动化构建方法
CN114817481A (zh) * 2022-06-08 2022-07-29 中星智慧云企(山东)科技有限责任公司 基于大数据的智慧供应链可视化方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106815293A (zh) * 2016-12-08 2017-06-09 中国电子科技集团公司第三十二研究所 一种面向情报分析的构建知识图谱的系统及方法
CN106649223A (zh) * 2016-12-23 2017-05-10 北京文因互联科技有限公司 基于自然语言处理的金融报告自动生成方法
CN111598702A (zh) * 2020-04-14 2020-08-28 徐佳慧 一种基于知识图谱的风险投资语义搜索的方法
CN112463981A (zh) * 2020-11-26 2021-03-09 福建正孚软件有限公司 一种基于深度学习的企业内部经营管理风险识别提取方法及系统
CN112860908A (zh) * 2021-01-27 2021-05-28 云南电网有限责任公司电力科学研究院 基于多源异构电力设备数据的知识图谱自动化构建方法
CN114817481A (zh) * 2022-06-08 2022-07-29 中星智慧云企(山东)科技有限责任公司 基于大数据的智慧供应链可视化方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116955639A (zh) * 2023-04-24 2023-10-27 浙商期货有限公司 期货产业链知识图谱构建方法、装置及计算机设备
CN117131935A (zh) * 2023-10-25 2023-11-28 浙商期货有限公司 一种面向期货领域的知识图谱构建方法
CN117332180A (zh) * 2023-12-01 2024-01-02 浙商期货有限公司 基于大语言模型的研报智能写作方法、设备和存储介质
CN117332180B (zh) * 2023-12-01 2024-03-12 浙商期货有限公司 基于大语言模型的研报智能写作方法、设备和存储介质

Also Published As

Publication number Publication date
CN115358201B (zh) 2023-06-20

Similar Documents

Publication Publication Date Title
US20230222366A1 (en) Systems and methods for semantic analysis based on knowledge graph
CN115358201B (zh) 一种期货领域的投研报告处理方法和系统
WO2019043381A1 (en) CONTENT RATING
Akhter et al. Exploring deep learning approaches for Urdu text classification in product manufacturing
Waaijer et al. On the map: Nature and Science editorials
Feng et al. User group based emotion detection and topic discovery over short text
CN113656805A (zh) 一种面向多源漏洞信息的事件图谱自动构建方法及系统
Da et al. Non-financial indicators for credit risk analysis of Chinese technology-oriented micro and small enterprises
Wang et al. Detecting fake news by enhanced text representation with multi-EDU-structure awareness
Rezaei et al. Early multi-class ensemble-based fake news detection using content features
Zhong et al. Fast detection of deceptive reviews by combining the time series and machine learning
Kamaruddin et al. A text mining system for deviation detection in financial documents
Azizov et al. Frank at CheckThat!-2023: Detecting the Political Bias of News Articles and News Media.
Singh et al. A comparative study of hybrid machine learning approaches for fake news detection that combine multi-stage ensemble learning and NLP-based framework
Wong et al. Predictive power of public emotions as extracted from daily news articles on the movements of stock market indices
Wu et al. Incorporating peer reviews and rebuttal counter-arguments for meta-review generation
Deng Research and Application of Webpage Information Recognition Method Based on KNN Algorithm.
Singh et al. Detection of fake news using NLP and various single and ensemble learning classifiers
Han et al. Characterizing peer review comments of academic articles in multiple rounds
CN113626618A (zh) 基于跨篇章事件提取的案件串联方法、装置及相关组件
Harshvardhan et al. Topic modelling Twitterati sentiments using Latent Dirichlet allocation during demonetization
Gao et al. Identification of Deceptive Reviews by Sentimental Analysis and Characteristics of Reviewers.
Hossain et al. An Ensemble Method-Based Machine Learning Approach Using Text Mining to Identify Semantic Fake News
Zhu et al. Commentary generation for financial markets
Chaudhary et al. Fake News Detection During 2016 US Elections Using Bootstrapped Metadata-Based Naïve Bayesian Classifier

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant