CN110377693A - 财经新闻的模型训练方法和生成方法、装置、设备及介质 - Google Patents

财经新闻的模型训练方法和生成方法、装置、设备及介质 Download PDF

Info

Publication number
CN110377693A
CN110377693A CN201910492235.XA CN201910492235A CN110377693A CN 110377693 A CN110377693 A CN 110377693A CN 201910492235 A CN201910492235 A CN 201910492235A CN 110377693 A CN110377693 A CN 110377693A
Authority
CN
China
Prior art keywords
notice information
news
financial
real
bulletin
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910492235.XA
Other languages
English (en)
Inventor
郭鑫润
宣森炎
李金波
徐常亮
唐志伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinhua Wisdom Cloud Technology Co Ltd
Original Assignee
Xinhua Wisdom Cloud Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinhua Wisdom Cloud Technology Co Ltd filed Critical Xinhua Wisdom Cloud Technology Co Ltd
Priority to CN201910492235.XA priority Critical patent/CN110377693A/zh
Publication of CN110377693A publication Critical patent/CN110377693A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/55Push-based network services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Accounting & Taxation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Databases & Information Systems (AREA)
  • Finance (AREA)
  • Biophysics (AREA)
  • Operations Research (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Evolutionary Computation (AREA)
  • Technology Law (AREA)
  • Strategic Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Marketing (AREA)
  • Biomedical Technology (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明提供了一种财经新闻的模型训练方法和生成方法、装置、设备及介质,属于数据处理技术领域。它解决了现有财经新闻可读性不强等问题。本财经新闻的生成方法包括以下步骤:实时公告信息获取:通过监控数据库中上市公司第一时间发布的公告,获取实时公告信息;公告预处理:将获取的PDF形式的实时公告信息转换成文本形式,并清洗获取的实时公告信息中不需要的数据;公告信息精炼:应用上述的一种财经新闻的模型训练方法训练好的公告模型,将获取的实时公告信息精炼成新闻形式;新闻推送:将新闻推送到客户端。本发明具有可读性强等优点。

Description

财经新闻的模型训练方法和生成方法、装置、设备及介质
技术领域
本发明属于数据处理技术领域,涉及一种财经新闻的模型训练方法和生成方法、装置、设备及介质。
背景技术
上市公司需要向投资者披露经营活动中的动态,接受投资者监督。信息的披露采取向交易所提交公告、以及在三大报播送公告的形式。上市公司公告会影响公司股价走势和投资者投资决策,对投资者来说,需要很强的时效性。
然而投资者不能每时每刻关注交易所和三大报信息,而且公告往往冗长,不利于普通投资者阅读。因此,由机器自动根据公告生成简短的财经新闻,成为投资者的刚需。
现有的自动财经新闻生成方法,主要为收集上市公司业绩数据,填写事先准备好的新闻模板。
一方面,现有的财经新闻生成方法都是基于模板,收集上市公司业绩数据,填写模板,生成新闻。只有业绩报告,类型单一。
另一方面,现有的财经新闻生成方法无法利用非结构化的上市公司公告,要么就是直接拷贝公告全文,冗长、可读性不强。
发明内容
本发明的目的是针对现有技术中存在的上述问题,提供了一种财经新闻的模型训练方法、一种财经新闻的生成方法、一种自动生成财经新闻的装置、一种自动生成财经新闻的设备、一种介质。
本发明的第一个目的可通过下列技术方案来实现:一种财经新闻的模型训练方法,其特征在于,包括以下步骤:S1:历史公告信息获取:通过监控数据库中上市公司发布的公告,获取历史公告信息;S2:历史公告预处理:将获取的PDF形式的历史公告信息转换成文本形式,并清洗获取的历史公告信息中不需要的数据;S3:历史公告信息词典制作:对历史公告信息进行分词并获取词汇,将词汇作为深度学习的输入单元,制作词典;S4:词向量转换:使用词典将分好的词汇转换成词向量;S5:公告模型训练:通过深度学习算法生成公告模型。
在上述的财经新闻的模型训练方法中,所述的步骤S5中,还能够识别已人工标注的历史公告信息文本。
在上述的财经新闻的模型训练方法中,所述的步骤S5中,生成的公告模型包括实体识别模型和摘要抽取模型。
在上述的财经新闻的模型训练方法中,所述的步骤S5中,深度学习算法学习的公告信息包括但不限于业绩、股份增减持、股份转让、重大合同、人事变动信息。
本发明的第二个目的可通过下列技术方案来实现:一种财经新闻的生成方法,其特征在于,包括以下步骤:S101:实时公告信息获取:通过监控数据库中上市公司第一时间发布的公告,获取实时公告信息;S102:公告预处理:将获取的PDF形式的实时公告信息转换成文本形式,并清洗获取的实时公告信息中不需要的数据;S103:公告信息精炼:应用上述的一种财经新闻的模型训练方法训练好的公告模型,将获取的实时公告信息精炼成新闻形式;S104:新闻推送:将新闻推送到客户端。
在上述的财经新闻的生成方法中,所述的步骤S101中,采用mysql语言进行实时查询和筛选公告。
在上述的财经新闻的生成方法中,所述的步骤S104中,使用post请求,根据新闻客户端关联的url查询字符串,将生成的财经新闻实时推送到推送给客户端软件,呈现给目标人群。
本发明的第三个目的可通过下列技术方案来实现:一种自动生成财经新闻的装置,其特征在于,包括:用于历史公告信息获取的装置:通过监控数据库中上市公司发布的公告,获取历史公告信息;用于历史公告预处理的装置:将获取的PDF形式的历史公告信息转换成文本形式,并清洗获取的历史公告信息中不需要的数据;用于历史公告信息词典制作的装置:对历史公告信息进行分词并获取词汇,将词汇作为深度学习的输入单元,制作词典;用于词向量转换的装置:使用词典将分好的词汇转换成词向量;用于公告模型训练的装置:通过深度学习算法生成公告模型,用于实时公告信息获取的装置:通过监控数据库中上市公司第一时间发布的公告,获取实时公告信息;用于公告预处理的装置:将获取的PDF形式的实时公告信息转换成文本形式,并清洗获取的实时公告信息中不需要的数据;用于公告信息精炼的装置:应用用于公告模型训练的装置训练好的公告模型,将获取的实时公告信息精炼成新闻形式;用于新闻推送的装置:将新闻推送到客户端。
在上述的自动生成财经新闻的装置中,所述的用于公告模型训练装置还能够识别已人工标注的历史公告信息文本。
在上述的自动生成财经新闻的装置中,所述的用于公告模型训练装置生成的公告模型包括实体识别模型和摘要抽取模型。
在上述的自动生成财经新闻的装置中,所述的用于公告模型训练装置深度学习算法学习的公告信息包括但不限于业绩、股份增减持、股份转让、重大合同、人事变动信息。
在上述的自动生成财经新闻的装置中,所述的用于实时公告信息获取的装置采用mysql语言进行实时查询和筛选公告。
在上述的自动生成财经新闻的装置中,所述的用于新闻推送的装置使用post请求,根据新闻客户端关联的url查询字符串,将生成的财经新闻实时推送到推送给客户端软件,呈现给目标人群。
本发明的第四个目的可通过下列技术方案来实现:一种自动生成财经新闻的设备,包括:客户端;一个或多个处理器;存储器,以及一个或多个程序,其中所述一种或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,其特征在于,所述程序包括以下步骤:S101:实时公告信息获取:通过监控数据库中上市公司第一时间发布的公告,获取实时公告信息;S102:公告预处理:将获取的PDF形式的实时公告信息转换成文本形式,并清洗获取的实时公告信息中不需要的数据;S103:公告信息精炼:应用上述的一种财经新闻的模型训练方法训练好的公告模型,将获取的实时公告信息精炼成新闻形式;S104:新闻推送:将新闻推送到客户端。
在上述的自动生成财经新闻的设备中,所述的步骤S101中,采用mysql语言进行实时查询和筛选公告。
在上述的自动生成财经新闻的设备中,所述的步骤S104中,使用post请求,根据新闻客户端关联的url查询字符串,将生成的财经新闻实时推送到推送给客户端软件,呈现给目标人群。
本发明的第五个目的可通过下列技术方案来实现:一种介质,存储有与客户端结合使用的计算机程序,其特征在于,所述的计算机程序可被处理器执行以完成以下步骤:S101:实时公告信息获取:通过监控数据库中上市公司第一时间发布的公告,获取实时公告信息;S102:公告预处理:将获取的PDF形式的实时公告信息转换成文本形式,并清洗获取的实时公告信息中不需要的数据;S103:公告信息精炼:应用上述的一种财经新闻的模型训练方法训练好的公告模型,将获取的实时公告信息精炼成新闻形式;S104:新闻推送:将新闻推送到客户端。
在上述的自动生成财经新闻的设备中,所述的步骤S101中,采用mysql语言进行实时查询和筛选公告。
在上述的自动生成财经新闻的设备中,所述的步骤S104中,使用post请求,根据新闻客户端关联的url查询字符串,将生成的财经新闻实时推送到推送给客户端软件,呈现给目标人群。
与现有技术相比,本发明具有能够通过监控上市公司公告数据库,获取实时公告信息;预处理所述原始公告信息;用深度学习算法学习公告中的业绩、股份增减持、股份转让、重大合同、人事变动等信息;并推送到客户端,呈现给目标人群。从而达到解析、提炼上市公司公告,实时生成简短、易读、包含要点的财经新闻。覆盖类型多样,包括业绩报告在内的所有披露信息。方便用户获取关注的实时财经新闻。
附图说明
图1是本发明中财经新闻的模型训练方法的步骤原理示意图。
图2是本发明中财经新闻的生成方法的步骤原理示意图。
图3是本发明中深度学习算法学习公告内容的示意图。
图4是本发明中深度学习算法实时生成财经新闻的示意图。
图5是本发明中自动生成财经新闻的装置结构示意图。
图6是本发明的实施例中对股东增减持类型的财经新闻界面示意图。
具体实施方式
以下是本发明的具体实施例并结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于这些实施例。
如图1、图2所示,本财经新闻的模型训练方法包括以下步骤:
S1:历史公告信息获取:通过监控数据库中上市公司发布的公告,获取历史公告信息。
针对上市公司公告数据库,获取主要来源于交易所和三大报的数据;通过筛选公告类别,公告发布时间,公告关联的公司证券代码,获取上市公司的原始公告数据。
S2:历史公告预处理:将获取的PDF形式的历史公告信息转换成文本形式,并清洗获取的历史公告信息中不需要的数据。清洗文本数据时,能够清洗不需要的页码,读者须知文件,不需要的表格数据。
S3:历史公告信息词典制作:对历史公告信息进行分词并获取词汇,将词汇作为深度学习的输入单元,制作词典。
例如一篇新闻文章包含如下词汇:“上海*1新南洋昂立*1教育*1科技*1股份*1有限公司*1”,注:*表示词汇出现几次,其中“新南洋昂立”不在词典里,因此不考虑。其余的词汇在词典里序号分别是:上海:10教育:11科技:12股份:13有限公司:14,则转换成向量形式为:(0,0,...5,...1,...2,...3...),其中“5”位于向量的第10维,其余类推。
S4:词向量转换:使用词典将分好的词汇转换成词向量。
S5:公告模型训练:通过深度学习算法生成公告模型。
针对每种类型的财经新闻,对比从开发平台中获取对应类型的上市公司公告,提炼对应的财经新闻题目模版,确定每种题目对应需要从文本从抽取的信息。例如针对股东增减持的类型的财经新闻,使用“股东xx减持xx股”的模版,其中股东名称、增持还是减持、增减持的数量都是需要从文本中进行信息抽取的标签。因此从个别公告中可以抽取出“股东珠海高瓴减持435.36万股”的题目信息。
进一步细说,步骤S5中,还能够识别已人工标注的历史公告信息文本。
针对每种类型的财经新闻和/或对应需要信息抽取的标签,采用人工标注的方式,对每份上市公告标注出所有对应的标签。将标签的标注结果存储在结构化文档中。
根据所述人工标注的题目标签,使用实体识别算法,包括但不仅限于crf(Conditional random field)、bi-lstm(Bidirectional Long short-term memory)模型,对上市公司公告的题目标签作为训练集进行学习;
根据所述人工标注的摘要信息,使用摘要抽取式算法,包括但不仅限于bert(Bidirectional Encoder Representation from Transformers)、tfidf(TermFrequency/Inverse Document Frequency)、page rank模型,对上市公司公告的摘要信息作为训练集进行学习。
进一步细说,步骤S5中,生成的公告模型包括实体识别模型和摘要抽取模型。
进一步细说,步骤S5中,深度学习算法学习的公告信息包括但不限于业绩、股份增减持、股份转让、重大合同、人事变动等信息。
针对每种类型的财经新闻和对应需要信息抽取的标签,采用人工标注的方式,对每份上市公告标注出所有对应的标签。将标签的标注结果存储在结构化文档中。
针对每种类型的财经新闻,采用人工标注的方式,对每份上市公告标注出对应的摘要内容。将摘要内容的标注结果作为训练集存储在结构化文档中。
根据所述人工标注的题目标签,使用实体识别算法,包括但不仅限于crf(Conditional random field)、bi-lstm(Bidirectional Long short-term memory)模型,对上市公司公告的题目标签作为训练集进行学习;
根据所述人工标注的摘要信息,使用摘要抽取式算法,包括但不仅限于bert(Bidirectional Encoder Representation from Transformers)、tfidf(TermFrequency/Inverse Document Frequency)、page rank模型,对上市公司公告的摘要信息作为训练集进行学习。
本财经新闻的生成方法包括以下步骤:
S101:实时公告信息获取:通过监控数据库中上市公司第一时间发布的公告,获取实时公告信息。
S102:公告预处理:将获取的PDF形式的实时公告信息转换成文本形式,并清洗获取的实时公告信息中不需要的数据。
清洗文本数据时,能够清洗不需要的页码,读者须知文件,不需要的表格数据。
S103:公告信息精炼:应用上述的一种财经新闻的模型训练方法训练好的公告模型,将获取的实时公告信息精炼成新闻形式。
根据关联的公告类别、公告发布时间、上市公司、证券代码筛选公司公告,获取实时通过筛选的上市公司公告;对实时通过筛选的上市公司公告进行处理;生成所述上市公司公告对应的题目信息;根据所述上市公司公告对应的题目信息,应用一定模版生成题目信息;生成所述上市公司公告对应的摘要信息;据所述召回的题目和摘要信息,根据专家经验构建的新闻模版,自动生成原始公告信息对应的财经新闻。
根据该上市公司公告类型对应的财经新闻题目模版,例如股东增减持类型对应的“股东xx减持xx股”题目模版,选择对应的需要信息抽取的标签。应用训练好的实体识别算法模型抽取该公告对应的标签信息。根据上述题目模版,将抽取好的标签信息填充到题目模版中,生成该上市公司公告对应的财经新闻题目;应用有监督的抽取式摘要抽取模型,生成所述上市公司公告对应的摘要信息;跟据所述召回的题目和摘要信息,根据专家经验构建的新闻模版,自动生成原始公告信息对应的财经新闻。
S104:新闻推送:将新闻推送到客户端。针对上市公司公告数据库,监控程序每隔一小段时间轮询数据库,实时获得新进入原始上市公司公告。使得能够获取实时的公告信息,使得生成的财经新闻更加及时。
进一步细说,步骤S101中,采用mysql语言进行实时查询和筛选公告。mysql语言支持多线程查询、多处理器查询,有利于快速实时获取上市公司公告信息。另外,mysql语言开放源代码且无版权制约,自主性强、使用成本低。
进一步细说,步骤S104中,使用post请求,根据新闻客户端关联的url查询字符串,将生成的财经新闻实时推送到推送给客户端软件,呈现给目标人群。
本自动生成财经新闻的装置包括:用于历史公告信息获取的装置:通过监控数据库中上市公司发布的公告,获取历史公告信息;用于历史公告预处理的装置:将获取的PDF形式的历史公告信息转换成文本形式,并清洗获取的历史公告信息中不需要的数据;用于历史公告信息词典制作的装置:对历史公告信息进行分词并获取词汇,将词汇作为深度学习的输入单元,制作词典;用于词向量转换的装置:使用词典将分好的词汇转换成词向量;用于公告模型训练的装置:通过深度学习算法生成公告模型。用于实时公告信息获取的装置:通过监控数据库中上市公司第一时间发布的公告,获取实时公告信息;用于公告预处理的装置:将获取的PDF形式的实时公告信息转换成文本形式,并清洗获取的实时公告信息中不需要的数据;用于公告信息精炼的装置:应用用于公告模型训练的装置训练好的公告模型,将获取的实时公告信息精炼成新闻形式;用于新闻推送的装置:将新闻推送到客户端。
进一步细说,用于公告模型训练装置还能够识别已人工标注的历史公告信息文本。
进一步细说,用于公告模型训练装置生成的公告模型包括实体识别模型和摘要抽取模型。
进一步细说,用于公告模型训练装置深度学习算法学习的公告信息包括但不限于业绩、股份增减持、股份转让、重大合同、人事变动信息。
进一步细说,用于实时公告信息获取的装置采用mysql语言进行实时查询和筛选公告。
进一步细说,用于新闻推送的装置使用post请求,根据新闻客户端关联的url查询字符串,将生成的财经新闻实时推送到推送给客户端软件,呈现给目标人群。
本自动生成财经新闻的设备,包括:客户端;一个或多个处理器;存储器,以及一个或多个程序,其中一种或多个程序被存储在存储器中,并且被配置成由一个或多个处理器执行,其特征在于,程序包括以下步骤:S101:实时公告信息获取:通过监控数据库中上市公司第一时间发布的公告,获取实时公告信息;S102:公告预处理:将获取的PDF形式的实时公告信息转换成文本形式,并清洗获取的实时公告信息中不需要的数据;S103:公告信息精炼:应用上述的一种财经新闻的模型训练方法训练好的公告模型,将获取的实时公告信息精炼成新闻形式;S104:新闻推送:将新闻推送到客户端。
进一步细说,步骤S101中,采用mysql语言进行实时查询和筛选公告。
进一步细说,步骤S104中,使用post请求,根据新闻客户端关联的url查询字符串,将生成的财经新闻实时推送到推送给客户端软件,呈现给目标人群。
本介质,存储有与客户端结合使用的计算机程序,其特征在于,计算机程序可被处理器执行以完成以下步骤:S101:实时公告信息获取:通过监控数据库中上市公司第一时间发布的公告,获取实时公告信息;S102:公告预处理:将获取的PDF形式的实时公告信息转换成文本形式,并清洗获取的实时公告信息中不需要的数据;S103:公告信息精炼:应用上述的一种财经新闻的模型训练方法训练好的公告模型,将获取的实时公告信息精炼成新闻形式;S104:新闻推送:将新闻推送到客户端。
进一步细说,步骤S101中,采用mysql语言进行实时查询和筛选公告。
进一步细说,步骤S104中,使用post请求,根据新闻客户端关联的url查询字符串,将生成的财经新闻实时推送到推送给客户端软件,呈现给目标人群。
深度学习是指多层的人工神经网络和训练它的方法。一层神经网络会把大量矩阵数字作为输入,通过非线性激活方法取权重,再产生另一个数据集合作为输出。这就像生物神经大脑的工作机理一样,通过合适的矩阵数量,多层组织链接一起,形成神经网络“大脑”进行精准复杂的处理,就像人们识别物体标注图片一样。
深度学习是从机器学习中的人工神经网络发展出来的新领域。早期所谓的“深度”是指超过一层的神经网络。但随着深度学习的快速发展,其内涵已经超出了传统的多层神经网络,甚至机器学习的范畴,逐渐朝着人工智能的方向快速发展。
深度学习的实质,是通过构建具有很多隐层的机器学习模型和海量的训练数据,来学习更有用的特征,从而最终提升分类或预测的准确性。因此,“深度模型”是手段,“特征学习”是目的。区别于传统的浅层学习,深度学习的不同在于:1)强调了模型结构的深度,通常有5层、6层,甚至10多层的隐层节点;2)明确突出了特征学习的重要性,也就是说,通过逐层特征变换,将样本在原空间的特征表示变换到一个新特征空间,从而使分类或预测更加容易。与人工规则构造特征的方法相比,利用大数据来学习特征,更能够刻画数据的丰富内在信息。
如果对所有层同时训练,时间复杂度会太高;如果每次训练一层,偏差就会逐层传递。这会面临跟上面监督学习中相反的问题,会严重欠拟合(因为深度网络的神经元和参数太多了)。
2006年,hinton提出了在非监督数据上建立多层神经网络的一个有效方法,简单的说,分为两步,一是每次训练一层网络,二是调优,使原始表示x向上生成的高级表示r和该高级表示r向下生成的x'尽可能一致。方法是:
1)首先逐层构建单层神经元,这样每次都是训练一个单层网络。
2)当所有层训练完后,Hinton使用wake-sleep算法进行调优。
将除最顶层的其它层间的权重变为双向的,这样最顶层仍然是一个单层神经网络,而其它层则变为了图模型。向上的权重用于“认知”,向下的权重用于“生成”。然后使用Wake-Sleep算法调整所有的权重。让认知和生成达成一致,也就是保证生成的最顶层表示能够尽可能正确的复原底层的结点。比如顶层的一个结点表示人脸,那么所有人脸的图像应该激活这个结点,并且这个结果向下生成的图像应该能够表现为一个大概的人脸图像。Wake-Sleep算法分为醒(wake)和睡(sleep)两个部分。
1)wake阶段:认知过程,通过外界的特征和向上的权重(认知权重)产生每一层的抽象表示(结点状态),并且使用梯度下降修改层间的下行权重(生成权重)。也就是“如果现实跟我想象的不一样,改变我的权重使得我想象的东西就是这样的”。
2)sleep阶段:生成过程,通过顶层表示(醒时学得的概念)和向下权重,生成底层的状态,同时修改层间向上的权重。也就是“如果梦中的景象不是我脑中的相应概念,改变我的认知权重使得这种景象在我看来就是这个概念”。
deep learning训练过程具体如下:
1)自顶向下的监督学习(就是通过带标签的数据去训练,误差自顶向下传输,对网络进行微调):
基于第一步得到的各层参数进一步fine-tune整个多层模型的参数,这一步是一个有监督训练过程;第一步类似神经网络的随机初始化初值过程,由于DL的第一步不是随机初始化,而是通过学习输入数据的结构得到的,因而这个初值更接近全局最优,从而能够取得更好的效果;所以deep learning效果好很大程度上归功于第一步的featurelearning过程。
图3为深度学习算法学习公告内容的示意图。该深度学习算法学习公告内容的流程示意图包括:上市公司公告数据库S201、历史公告S202、历史文本和实体S203、历史文本和摘要S204、实体识别模型S205和摘要抽取式模型S206。
其中,上市公司公告数据库S201,目前主要收集来自于交易所和三大报的A股上市公司公告数据。
历史公告S202,从上市公司公告数据库中获取较长历史的上市公司公告,以获得大量的历史文本训练数据集。
历史文本、实体S203,经过数据预处理模块处理之后生成文本信息,使用人工标注的方法,从每份历史文本数据中标注出财经新闻题目所需要的题目实体数据。例如股东增减持财经类型的新闻题目中,需要股东实体、增持还是减持信息、增持股份数量的实体。标注完的实体数据和文本数据一起用以作为实体识别深度模型的输入数据。
历史文本、摘要S204,使用人工标注的方法,从每份历史文本数据中标注出公告所对应的摘要。例如股东增减持财经类型的公告摘要中,说明了主要股东xx通过xx方式减持了xx股份,这段文本作为股东增减持文本中的最提炼的内容,作为公告的摘要。标注完的摘要数据和文本数据一起用以作为抽取式摘要抽取模型的输入数据。
实体识别模型S205,(Named Entity Recognition Model,简称NER),是一种序列标注模型,这类模型可以识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等,以及时间、数量、货币、比例数值等文字。在这个股东增减持新闻的实例中,实体主要是指股东、减持还是增持、增持或减持的股份数量,增持或减持的方式等等。
摘要抽取式模型S206,(Extractive Summarization Model),通过抽取文档已存在的摘要文本,来形成摘要。对比生成式自动文摘方法(Abstraction SummarizationModel),不需要复杂的自然语言理解和生成技术支持,应用领域较少受限。因此摘要抽取式方法成为摘要生成的主流方法。在本实例中,股东增减持类型公告摘要主要描述了主要股东通过某种方式减持了公司一定数量的股份。
图4为深度学习算法实时生成财经新闻的流程示意图。该深度学习算法实时生成财经新闻的示意图包括:上市公司公告数据库S301、实时公告S302、实时文本S303、已训练实体识别模型S304、已训练抽取式摘要抽取模型S305、实时实体S306、实时摘要S307、实时财经新闻S308。
其中,上市公司公告数据库S301与S201相同。
实时公告S302,获得方法为:监控程序每隔一小段时间轮询上市公司公告数据库(时间可以是10秒内,也可以更短,取决于程序的运行效率),实时获得新进入的原始上市公司公告;
实时文本S303,获得方法为:对获得的实时公告进行数据预处理(即将pdf形式数据转成文本形式,对文本进行数据清洗,对文本进行分词之后,根据词典,把文本转化为多维向量的形式),获得多维向量形式的实时文本信息。
已训练实体识别模型S304,获得方法为:采用经过步骤S103用深度学习算法学习公告中信息的实体识别模型S205。
已训练抽取式摘要抽取模型S305,获得方法为:采用经过步骤S103用深度学习算法学习公告中信息的抽取式摘要抽取模型S206。
实时实体S306,获得方法为:将实时文本数据S303输入到已训练实体识别模型S304后得到该文本对应的实时实体。
实时摘要S307,获得方法为:将实时文本数据S303输入到已训练抽取式摘要抽取模型S305后得到该文本对应的实时摘要。
实时财经新闻S308,获得方法为:使用多个实时实体S306,根据专家经验构成的财经新闻题目模版,生成财经新闻题目。另外,使用数据库中的结构化数据和模版,生成财经新闻的公告出处细节。最后,使用实时摘要S307,作为新闻摘要的主要细节内容。
实际应用中,通过人工编辑生成的财经新闻,人工编辑成本高,而且难以实时保证新闻的超高时效性。另一方面,现有的财经新闻生成方法都是基于模板,收集上市公司业绩数据,填写模板,生成新闻。只有业绩报告,类型单一。本实施例中,由于股东增减持的财经新闻是采用基础框架采用人工智能方法生成的,不再依赖人工进行编辑,从而能够针对各种类型的公告生成财经新闻,从而能满足投资者对财经新闻实时性较高的需求。
图5为本发明自动生成财经新闻的装置结构示意图。该自动生成财经新闻的装置包括:数据获取模块S401、数据预处理模块S402、深度学习模块S403、新闻生成模块S404、推送模块S405。
其中,数据获取模块S401,用于从指定的上市公司公告数据库中获取公告的结构化数据。
数据预处理模块S402,用于将pdf形式的原始公告信息自动转换成文本形式,清洗文本数据,将文本进行分词,制作词典,将词汇转换成多维向量的形式。
深度学习模块S403,用于对打好标签的公告文本信息进行学习。
新闻生成模块S404,应用训练好的深度学习模块,对实时获取的上市公司公告进行抽取,填充构建好的专家新闻模块,生成实时财经新闻。
推送模块S405,用于将上述生成好的财经新闻推送到指定客户端。
图6为一个实施例中对股东增减持类型的财经新闻界面示意图。该股东增减持类型的财经新闻包括:财经新闻题目信息S501,财经新闻模版信息S502,财经新闻文本详细信息S503。
财经新闻题目信息S501,是一个由模版构成的财经新闻题目,题目的填充内容由实体识别深度模型的文本抽取结果进行填充,如该实例中的国大集团是股东抽取结果,1800万股是金额抽取结果。
财经新闻模版信息S502,是一个由模版构成的财经新闻信息,由数据库中的结构化数据填充模版信息。
财经新闻文本详细信息S503,是一段财经新闻摘要,摘要是使用摘要抽取式算法从公告文本中抽取出来。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
尽管本文较多地使用了大量术语,但并不排除使用其它术语的可能性。使用这些术语仅仅是为了更方便地描述和解释本发明的本质;把它们解释成任何一种附加的限制都是与本发明精神相违背的。

Claims (10)

1.一种财经新闻的模型训练方法,其特征在于,其特征在于,包括以下步骤:
S1:历史公告信息获取:通过监控数据库中上市公司发布的公告,获取历史公告信息;
S2:历史公告预处理:将获取的PDF形式的历史公告信息转换成文本形式,并清洗获取的历史公告信息中不需要的数据;
S3:历史公告信息词典制作:对历史公告信息进行分词并获取词汇,将词汇作为深度学习的输入单元,制作词典;
S4:词向量转换:使用词典将分好的词汇转换成词向量;
S5:公告模型训练:通过深度学习算法生成公告模型。
2.根据权利要求1所述的一种财经新闻的模型训练方法,其特征在于,所述的步骤S5中,还能够识别已人工标注的历史公告信息文本。
3.根据权利要求1所述的一种财经新闻的模型训练方法,其特征在于,所述的步骤S5中,生成的公告模型包括实体识别模型和摘要抽取模型。
4.根据权利要求1所述的一种自动生成财经新型的模型训练方法,其特征在于,所述的步骤S5中,深度学习算法学习的公告信息包括但不限于业绩、股份增减持、股份转让、重大合同、人事变动信息。
5.一种财经新闻的生成方法,其特征在于,包括以下步骤:
S101:实时公告信息获取:通过监控数据库中上市公司第一时间发布的公告,获取实时公告信息;
S102:公告预处理:将获取的PDF形式的实时公告信息转换成文本形式,并清洗获取的实时公告信息中不需要的数据;
S103:公告信息精炼:应用如权利要求1-4任意一项所述的一种财经新闻的模型训练方法训练好的公告模型,将获取的实时公告信息精炼成新闻形式;
S104:新闻推送:将新闻推送到客户端。
6.根据权利要求5所述的一种财经新闻的生成方法,其特征在于,所述的步骤S101中,采用mysql语言进行实时查询和筛选公告。
7.根据权利要求5所述的一种财经新闻的生成方法,其特征在于,所述的步骤S104中,使用post请求,根据新闻客户端关联的url查询字符串,将生成的财经新闻实时推送到推送给客户端软件,呈现给目标人群。
8.一种自动生成财经新闻的装置,其特征在于,包括:
用于历史公告信息获取的装置:通过监控数据库中上市公司发布的公告,获取历史公告信息;
用于历史公告预处理的装置:将获取的PDF形式的历史公告信息转换成文本形式,并清洗获取的历史公告信息中不需要的数据;
用于历史公告信息词典制作的装置:对历史公告信息进行分词并获取词汇,将词汇作为深度学习的输入单元,制作词典;
用于词向量转换的装置:使用词典将分好的词汇转换成词向量;
用于公告模型训练的装置:通过深度学习算法生成公告模型。
用于实时公告信息获取的装置:通过监控数据库中上市公司第一时间发布的公告,获取实时公告信息;
用于公告预处理的装置:将获取的PDF形式的实时公告信息转换成文本形式,并清洗获取的实时公告信息中不需要的数据;
用于公告信息精炼的装置:应用用于公告模型训练的装置训练好的公告模型,将获取的实时公告信息精炼成新闻形式;
用于新闻推送的装置:将新闻推送到客户端。
9.一种自动生成财经新闻的设备,包括:
客户端;
一个或多个处理器;
存储器,以及
一个或多个程序,其中所述一种或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,其特征在于,所述程序包括用于执行如权利要求5-7任意一项所述的一种自动生成财经新闻的方法。
10.一种介质,存储有与客户端结合使用的计算机程序,其特征在于,所述的计算机程序可被处理器执行以完成如权利要求5-7任意一项所述的一种自动生成财经新闻的方法。
CN201910492235.XA 2019-06-06 2019-06-06 财经新闻的模型训练方法和生成方法、装置、设备及介质 Pending CN110377693A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910492235.XA CN110377693A (zh) 2019-06-06 2019-06-06 财经新闻的模型训练方法和生成方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910492235.XA CN110377693A (zh) 2019-06-06 2019-06-06 财经新闻的模型训练方法和生成方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN110377693A true CN110377693A (zh) 2019-10-25

Family

ID=68249945

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910492235.XA Pending CN110377693A (zh) 2019-06-06 2019-06-06 财经新闻的模型训练方法和生成方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN110377693A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160023A (zh) * 2019-12-23 2020-05-15 华南理工大学 一种基于多路召回的医疗文本命名实体识别方法
CN111639176A (zh) * 2020-05-29 2020-09-08 厦门大学 一种基于一致性监测的实时事件摘要方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107403375A (zh) * 2017-04-19 2017-11-28 北京文因互联科技有限公司 一种基于深度学习的上市公司公告分类及摘要生成方法
KR20180017639A (ko) * 2016-08-10 2018-02-21 김태수 헤드헌팅사의 순위정보를 제공하는 비즈니스 모델 시스템
CN107797993A (zh) * 2017-11-13 2018-03-13 成都蓝景信息技术有限公司 一种基于序列标注的事件抽取方法
CN109558492A (zh) * 2018-10-16 2019-04-02 中山大学 一种适于事件归因的上市公司知识图谱构建方法及装置
CN109657058A (zh) * 2018-11-29 2019-04-19 东莞理工学院 一种公告信息的抽取方法
CN109766524A (zh) * 2018-12-28 2019-05-17 重庆邮电大学 一种并购重组类公告信息抽取方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180017639A (ko) * 2016-08-10 2018-02-21 김태수 헤드헌팅사의 순위정보를 제공하는 비즈니스 모델 시스템
CN107403375A (zh) * 2017-04-19 2017-11-28 北京文因互联科技有限公司 一种基于深度学习的上市公司公告分类及摘要生成方法
CN107797993A (zh) * 2017-11-13 2018-03-13 成都蓝景信息技术有限公司 一种基于序列标注的事件抽取方法
CN109558492A (zh) * 2018-10-16 2019-04-02 中山大学 一种适于事件归因的上市公司知识图谱构建方法及装置
CN109657058A (zh) * 2018-11-29 2019-04-19 东莞理工学院 一种公告信息的抽取方法
CN109766524A (zh) * 2018-12-28 2019-05-17 重庆邮电大学 一种并购重组类公告信息抽取方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
戴国强等: "《科技大数据》", 30 August 2018 *
曹祺: "《情报学视域下的数据研究 理论、原理与方法》", 30 October 2018 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160023A (zh) * 2019-12-23 2020-05-15 华南理工大学 一种基于多路召回的医疗文本命名实体识别方法
CN111160023B (zh) * 2019-12-23 2023-06-20 华南理工大学 一种基于多路召回的医疗文本命名实体识别方法
CN111639176A (zh) * 2020-05-29 2020-09-08 厦门大学 一种基于一致性监测的实时事件摘要方法
CN111639176B (zh) * 2020-05-29 2022-07-01 厦门大学 一种基于一致性监测的实时事件摘要方法

Similar Documents

Publication Publication Date Title
CN113177124B (zh) 一种垂直领域知识图谱构建方法及系统
Nguyen et al. Establishing trustworthiness through algorithmic approaches to qualitative research
CN107239444B (zh) 一种融合词性与位置信息的词向量训练方法及系统
Jackson et al. The social construction of technology in studies of the workplace
US11823074B2 (en) Intelligent communication manager and summarizer
CN108829678A (zh) 一种汉语国际教育领域命名实体识别方法
CN110019839A (zh) 基于神经网络和远程监督的医学知识图谱构建方法和系统
Wang et al. How ideas flow across multiple social groups
CN109558492A (zh) 一种适于事件归因的上市公司知识图谱构建方法及装置
CN113901208B (zh) 融入主题特征的中越跨语言评论情感倾向性分析方法
CN110377693A (zh) 财经新闻的模型训练方法和生成方法、装置、设备及介质
CN110929714A (zh) 一种基于深度学习的密集文本图片的信息提取方法
Turner et al. The multifaceted sensemaking theory: A systematic literature review and content analysis on sensemaking
CN111091002B (zh) 一种中文命名实体的识别方法
Xu et al. Exploitation for multimedia asian information processing and artificial intelligence-based art design and teaching in colleges
Fezari et al. Augmanting Reality: The Power of Generative AI
CN116306653A (zh) 一种正则化领域知识辅助的命名实体识别方法
Boyd Davis et al. ‘A dialogue between the real-world and the operational model’–The realities of design in Bruce Archer’s 1968 doctoral thesis
Yue et al. Opening knowledge graph model building of artificial intelligence curriculum
Jacks et al. A cultural sociology perspective on IT occupational culture
Li An English Writing Grammar Error Correction Technology Based on Similarity Algorithm
CN117807999B (zh) 基于对抗学习的域自适应命名实体识别方法
Yao Epistemic neural network based evaluation of online teaching status during epidemic period
CN113688876B (zh) 一种基于lda和bert的金融文本机器阅读理解方法
Wu et al. An English teaching ability assessment method based on fuzzy mean-shift clustering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191025