CN112990110B - 从研报中进行关键信息提取方法及相关设备 - Google Patents
从研报中进行关键信息提取方法及相关设备 Download PDFInfo
- Publication number
- CN112990110B CN112990110B CN202110421724.3A CN202110421724A CN112990110B CN 112990110 B CN112990110 B CN 112990110B CN 202110421724 A CN202110421724 A CN 202110421724A CN 112990110 B CN112990110 B CN 112990110B
- Authority
- CN
- China
- Prior art keywords
- research
- report
- extracting
- file
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于数据处理技术领域,具体涉及一种从研报中进行关键信息提取方法及相关设备。其中方法包括:获取研报文件,型对研报文件进行目标检测,得到目标检测结果,目标检测结果为多个目标在研报文件中的位置及类别信息;解析研报文件,获取研报文件内每一页中的字符信息,根据目标检测结果,将位于同一个目标内的字符进行合并,得到文本信息和对应的坐标位置;通过预设的文本分类模型对文本信息进行主题分类,对研报文件按主题分类进行分类存储和输出。本发明可以对不同主题的研报文件进行分类,通过对研报主题进行分类,可以快速的筛选出自己所关注的研报类别,忽略不相关的研报。
Description
技术领域
本发明属于数据处理技术领域,具体涉及一种从研报中进行关键信息提取方法及相关设备。
背景技术
随着互联网的快速发展,为方便更多投资者进行投资,许多券商或投资机构对于上市公司都会定期做一个专业的研究报告。目前,研究报告的数量与日俱增,并且涵盖了公司研究、行业研究、宏观研究、投资策略、晨会报告、基金研究等不同的主题,如何从海量的研报文档中,筛选自己关心的研究报告,提取有效的信息,进行快速阅读是一个亟待解决的问题。
中国专利“CN201710067220一种PDF文件的信息抽取方法及装置”获取了研报每页的标题、正文、图表、图表标题和图表结尾等信息对研报进行了半结构化处理,一定程度上简化了用户分析研报内容的过程。但该专利所做工作有限,并没有对研报的关键信息进行提取。
数量巨大的研究报告不仅具有不同的研究主题,还包含了各种不同的关键信息,如:研报标题、发行日期、发行机构、分析师、目标价、评级、公司名称或行业等。这些关键信息可以帮助分析人员从海量研报中快速的筛选出自己需要的研报,过滤掉不需要的信息,提高研报阅读效率。但目前并没有方法介绍如何对研报的主题进行分类,并且从研报中有效的提取出这些关键信息。
发明内容
本发明针对现有技术无法从数量巨大的研究报告中快速精确的提取有效信息的技术问题,目的在于提供一种从研报中进行关键信息提取方法及相关设备。
一种从研报中进行关键信息提取方法,包括:
获取研报文件,通过预设的版面分析模型对所述研报文件进行目标检测,得到目标检测结果,所述目标检测结果为多个目标在所述研报文件中的位置及类别信息;
解析所述研报文件,获取所述研报文件内每一页中的字符信息,根据所述目标检测结果,将位于同一个目标内的字符进行合并,得到文本信息和对应的坐标位置;
通过预设的文本分类模型对所述文本信息进行主题分类,对所述研报文件按所述主题分类进行分类存储和输出。
可选的,所述主题分类的类别包括公司研究、行业研究、宏观研究、投资策略、晨会报告、基金研究、债券研究或期货研究中的至少一种或组合。
可选的,预设的所述文本分类模型采用TextCNN分类模型。
可选的,当所述目标检测结果中包含研报标题类别时,提取所述研报文件中的关键信息包括提取研报标题:
以所述目标检测结果中研报标题类别在文件中的位置,定位所述坐标位置,提取所述坐标位置对应的所述文本信息,得到所述研报文件的研报标题,将所述研报标题进行输出。
可选的,提取所述研报文件中的关键信息包括提取发布日期:
通过日期正则表达式提取所述文本信息中所有的日期和对应的坐标位置;
当所述目标检测结果中包含正文类别及表格类别时,过滤掉位于所述正文类别及所述表格类别对应坐标位置的日期;
通过预设的日期排序规则对过滤后的日期进行排序,筛选出所述研报文件的发布日期,将所述发布日期进行输出。
可选的,所述预设的日期排序规则为按相同日期的出现次数、日期的坐标位置或日期与当前日期的差值进行排序中的一种。
可选的,提取所述研报文件中的关键信息包括提取发布机构:
遍历所述文本信息,提取出包含在预设券商词库中的券商名称及对应的坐标位置;
当所述目标检测结果中包含正文类别时,过滤掉位于所述正文类别对应坐标位置的券商名称;
通过券商名称出现次数将过滤后的券商名称进行排序,最终提取出券商名称出现次数最多的券商名称作为所述研报文件的发布机构并进行输出。
可选的,提取所述研报文件中的关键信息包括提取分析师名字:
遍历所述文本信息,根据预设的分析师编号规则提取出所有分析师编号及对应的坐标位置;
在所述分析师编号的坐标位置预设范围内查找出所有的名字及对应的坐标位置;
根据所述名字和所述分析师编号的坐标位置之间的距离进行排序,确定所述分析师编号对应的名字作为分析师名字进行输出。
可选的,在所述分析师编号的坐标位置预设范围内查找出所有的名字及对应的坐标位置之前,包括:
判断所述分析师编号是否收录在预设的分析师索引表内;
若所述分析师编号收录在所述分析师索引表内,则从所述分析师索引表内提取所述分析师编号对应的分析师名字并进行输出;
若所述分析师编号不在所述分析师索引表内,则继续进行在所述分析师编号的坐标位置预设范围内查找出所有的名字及对应的坐标位置步骤。
可选的,当所述研报主题类别为公司研究类别时,提取所述研报文件中的关键信息包括提取公司名称:
遍历所述研报文件的文本信息,根据预设的股票代码正则表达式提取出所述研报文件中披露的公司股票代码,从预设的公司索引表内查找出所述公司股票代码对应的公司名称,最终提取出公司名称及对应的公司股票代码并进行输出。
可选的,当所述研报主题类别为公司研究类别时,提取所述研报文件中的关键信息还包括提取目标价:
遍历所述研报文件的文本信息,根据预设的目标价正则表达式提取出所述研报文件中目标价并进行输出。
可选的,当所述研报主题类别为行业研究类别时,提取所述研报文件中的关键信息包括提取行业名称:
遍历所述研报文件的文本信息,根据预设的行业名称词库提取出所述研报文件中的所有行业名称;
根据行业名称出现次数进行排序,提取出行业名称次数出现最多的行业名字作为所述研报文件的行业名称进行输出。
可选的,当所述研报主题类别为公司研究类别或行业研究类别时,提取所述研报文件中的关键信息包括提取研报评级:
遍历所述研报文件的文本信息,根据预设的评级词库,提取出所述研报文件中的评级信息并进行输出。
可选的,所述获取研报文件,通过预设的版面分析模型对所述研报文件进行目标检测,得到目标检测结果包括:
获取所述研报文件,将所述研报文件内每一页的页面转换为图片,得到图片文件,调用训练好的版面分析模型,将所述图片文件输入所述版面分析模型进行目标检测,得到所述目标检测结果。
可选的,所述类别信息包括研报标题、特殊结构、统计图、结构图、表格、图表标题、图表注释、页眉、页脚、正文或正文标题中的至少一种或组合。
一种从研报中进行关键信息提取装置,包括:
确定目标检测结果模块,用于获取研报文件,通过预设的版面分析模型对所述研报文件进行目标检测,得到目标检测结果,所述目标检测结果为多个目标在所述研报文件中的位置及类别信息;
解析模块,用于获取所述研报文件内每一页中的字符信息,根据所述目标检测结果,将位于同一个目标内的字符进行合并,得到文本信息和对应的坐标位置;
主题分类模块,用于通过预设的文本分类模型对所述文本信息进行主题分类,对所述研报文件按所述主题分类进行分类存储和输出;
信息提取模块,用于根据所述目标检测结果,在主题分类后的所述研报文件中提取出研报关键信息。
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述从研报中进行关键信息提取方法的步骤。
一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述从研报中进行关键信息提取方法的步骤。
本发明的积极进步效果在于:本发明采用从研报中进行关键信息提取方法及相关设备,可以对不同主题的研报文件进行分类,通过对研报主题进行分类,可以快速的筛选出自己所关注的研报类别,忽略不相关的研报。根据不同主题的研报文件,可以对应提取出不同的关键信息,可以帮助筛选出需要的研报文件,过滤掉不需要的信息,大大提高研报阅读效率,而且通过使用不同的关键信息,从不同的维度对研报文件进行检索,简化了分析研报内容的过程。
附图说明
图1为本发明方法的一种流程示意图;
图2为本发明的一种关键信息提取流程图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体图示进一步阐述本发明。
参照图1,一种从研报中进行关键信息提取方法,包括:
S1,确定目标检测结果:获取研报文件,通过预设的版面分析模型对研报文件进行目标检测,得到目标检测结果,目标检测结果为多个目标在研报文件中的位置及类别信息。
本步骤的研报文件是一种券商发布的研究报告,多以PDF文件公开,针对一篇研报PDF文件,在进行目标检测之前,需要首先对其进行格式转换,再通过版面分析模型进行目标检测,得到目标检测结果。
在一个实施例中,步骤S1,包括:
获取研报文件,将研报文件内每一页的页面转换为图片,得到图片文件,调用训练好的版面分析模型,将图片文件输入版面分析模型进行目标检测,得到目标检测结果。
本实施例中的目标检测结果是研报文件中每一页页面的目标检测结果,该目标检测结果包括目标、目标在图片中的坐标位置和目标类别信息。采用版面分析模型,对研报PDF文件从视觉上进行了版面分析,不仅定位出每个数据块,即目标的位置,而且给出了该数据块相对应的类别信息。
本实施例的类别信息包括研报标题、特殊结构、统计图、结构图、表格、图表标题、图表注释、页眉、页脚、正文或正文标题中的至少一种或组合。
在进行步骤S1之前,还可以对版面分析模型预先进行训练,得到训练后的版面分析模型,训练时优选采用SSD目标检测算法、YOLO目标检测算法或Faster-rcnn目标检测算法中的一种目标检测算法,通过选定不同的特征提取网络,训练出适用于研报文件的版面分析模型。
S2,解析研报文件:解析研报文件,获取研报文件内每一页中的字符信息,根据目标检测结果,将位于同一个目标内的字符进行合并,得到文本信息和对应的坐标位置;
对研报文件进行解析时,可以采用现有技术中的解析工具,如pdfminer、pdfplumber等。当前解析到的信息是离散的,只包含字符位置、大小或颜色等没有结构化意义的信息,遍历解析到的字符信息,结合上个步骤得到的页面目标检测结果,将位于同一个目标内的字符进行合并,从而将离散的字符信息转为连续的有意义而且具有特定类别的结构化信息,且本步骤中的结构化信息为具有目标类别的结构化信息。这种结构化对研报后续的关键信息提取及检索等功能的开发能够提供很大的帮助,大大简化后续的开发工作。
本步骤在解析研报PDF文件时候,参考目标检测模型对数据块的定位结果,可以简化解析流程并提高解析结果的准确率。
S3,研报文件的主题分类:通过预设的文本分类模型对文本信息进行主题分类,对研报文件按主题分类进行分类存储和输出。
不同主题的研究报告研究的内容是不同的,也具有不同的关键信息,比如公司研究主要是针对单个上市公司进行研究,该研报就包含了被研究公司的公司名称,但行业研究类的研究报告,是针对某个行业进行的研究,并不是针对某个具体的公司,该研报就包含了所研究的行业类别,而其他主题类别的研究报告则侧重于研究别的内容。所以对研报文件的主题进行分类是非常有必要的,通过对研报文件的主题进行分类,可以快速的筛选出阅读人员所关注的研报类别,忽略不相关的研报。
本步骤中预设的文本分类模型优选采用TextCNN分类模型,在进行步骤S3之前,先对文本分类模型进行训练,训练时通过收集不同主题类别的研报文件,使用解析工具解析研报文件并结合目标检测结果获取这些研报文件的文本信息,将这些文本信息分成训练数据和测试数据,训练文本分类模型,得到训练后的适用于研报文件主题分类的文本分类模型,最终实现了对研报文件的分类,并具有较好的分类效果。
本步骤中主题分类的类别包括公司研究、行业研究、宏观研究、投资策略、晨会报告、基金研究、债券研究或期货研究中的至少一种或组合。
本发明通过训练好的文本分类模型将研报主题分类为公司研究、行业研究和宏观研究等类别,将研报按主题类别分类之后,可以按照主题类别去检索需要的研报文件,快速的筛选出所关注的研报类别,忽略不相关的研报。
S4,提取关键信息:根据不同的类别信息和研报主题类别,提取研报文件中的多个研报关键信息并输出。
针对于所有的研报文件提取的关键信息包括研报标题、发布日期、发布机构和分析师名字。
1)当目标检测结果中包含研报标题类别时,提取研报标题:
以目标检测结果中研报标题类别在文件中的位置,定位坐标位置,提取坐标位置对应的文本信息,得到研报文件的研报标题,将研报标题进行输出。
由于解析工具解析到的研报文件内容是纯文本的信息,只包含了文字信息及相应的坐标位置、字体大小等信息,并没有额外的信息指明哪句话是研报的标题,而且不同的研报文件具有不同的版面格式,所以从解析到的文本句子中找出研报标题具有一定的难度,但是从视觉角度对研报标题进行定位可以很好的解决这个问题。本发明通过训练版面分析模型的时候,将研报标题也作为一个类别进行了标注和训练,用如下方式识别出研报标题:
使用解析工具对待提取标题的研报文件进行解析,得到研报文件中的文本信息及相应的坐标位置。将待提取标题的研报文件转为图片格式,送入训练好的版面分析模型中,定位出研报标题所在的坐标位置。结合解析到的文本内容及定位到的研报标题坐标位置,就可以准确的从文本句子中识别出研报标题。
2)提取发布日期:
通过日期正则表达式提取文本信息中所有的日期和对应的坐标位置;当目标检测结果中包含正文类别及表格类别时,过滤掉位于正文类别及表格类别对应坐标位置的日期;通过预设的日期排序规则对过滤后的日期进行排序,筛选出研报文件的发布日期,将发布日期进行输出。
预设的日期排序规则为按相同日期的出现次数、日期的坐标位置或日期与当前日期的差值进行排序中的一种。
如果想要通过日期从大量研报文件中检索出阅读人员需要的研报,就需要从研报文件中提取出研报的发布日期,但是研报文件中存在不同的日期,并位于不同的位置,所以需要一定的方法才能从研报中提取出正确的发布日期。本发明通过上述提取方式准确的提取出该研报文件的发布日期。
3)提取发布机构:
遍历文本信息,提取出包含在预设券商词库中的券商名称及对应的坐标位置;当目标检测结果中包含正文类别时,过滤掉位于正文类别对应坐标位置的券商名称;通过券商名称出现次数将过滤后的券商名称进行排序,最终提取出券商名称出现次数最多的券商名称作为研报文件的发布机构并进行输出。
不同券商机构发布的研报文件具有不同的质量,所以研报发布机构也是研报筛选的一个重要维度,所以本发明对研报的发布机构进行了提取。本发明收集了现有发布研报文件的券商机构的名称,及各种缩写名称,作为提取研报发布机构的预设券商词库,遍历研报文本数据,提取出包含在词库中的券商名称及相对应的坐标位置,然后通过版面分析模型,过滤掉正文类别中出现的券商名称,最后通过出现次数将提取到的券商名称进行排序,出现次数最多的作为最终的研报发布机构进行输出。
4)提取分析师名字:
遍历文本信息,根据预设的分析师编号规则提取出所有分析师编号及对应的坐标位置;在分析师编号的坐标位置预设范围内查找出所有的名字及对应的坐标位置;根据名字和分析师编号的坐标位置之间的距离进行排序,确定分析师编号对应的名字作为分析师名字进行输出。
分析师的分析水平差异很大,如果想重点关注某些分析师发布的研报文件,就需要将研报文件的分析师提取出来进行筛选。但是研报文件中除了分析师的名字之外,还存在其他人的名字,如何提取出分析师的名字及过滤其他人的名字都是比较困难的问题。在研报文件中每个分析师的附近都存在该分析师的编号,而且该编号是唯一的,一个编号对应一个人名,所以本发明先根据分析师编号的规则找出研报中的分析师编号,然后在分析师编号附近的文本中使用实体识别算法找出所有的名字。根据名字与分析师编号坐标位置之间的距离进行排序,给每个分析师编号找出一个最优的名字,作为该分析师编号对应的名字。通过这种方法,分析师编号的准确率和召回率都很高,但是由于名字的复杂性,分析师编号对应的名字准确率和召回率都不太高。
为了提高分析师名字提取的准确率和召回率,本发明进行如下优化:
在分析师编号的坐标位置预设范围内查找出所有的名字及对应的坐标位置之前,包括:判断分析师编号是否收录在预设的分析师索引表内;若分析师编号收录在分析师索引表内,则从分析师索引表内提取分析师编号对应的分析师名字并进行输出;若分析师编号不在分析师索引表内,则继续进行在分析师编号的坐标位置预设范围内查找出所有的名字及对应的坐标位置步骤。
本发明根据已有的分析师编号及对应的名字建立分析师索引表,并定期维护更新该分析师索引表。遍历提取到的分析师编号,若该分析师编号已收录在分析师索引表中,就将分析师索引表中的该分析师编号对应的名字作为研报中该分析师编号的分析师名字进行输出,若该分析师编号不在分析师索引表中,就将通过实体识别算法找出的名字作为该分析师编号对应的分析师名字输出。这样就可以准确的提取出研报文件的分析师名字。
针对于研报主题类别为公司研究类别,提取的关键信息包括公司名称、目标价。
5)当研报主题类别为公司研究类别时,提取公司名称:
遍历研报文件的文本信息,根据预设的股票代码正则表达式提取出研报文件中披露的公司股票代码,从预设的公司索引表内查找出公司股票代码对应的公司名称,最终提取出公司名称及对应的公司股票代码并进行输出。
公司研究类研报是券商对特定公司进行的研究,该公司名称可以帮助阅读人员了解该研报文件是否是需要关注的公司研报,大大加快阅读速度。首先,本发明预先收集所有上市公司名称及各种简称作为基础词库,并建立{“股票代码”:“公司名称”}的公司索引表,然后,通过股票代码正则表达式,提取研报文件中披露的公司股票代码,同时使用公司索引表找出研报文件中披露公司的公司名称,通过公司索引表,提取出该研报文件中的公司名称及股票代码输出。
6)当研报主题类别为公司研究类别时,提取目标价:
遍历研报文件的文本信息,根据预设的目标价正则表达式提取出研报文件中目标价并进行输出。
公司研究类别的研报文件中有分析师对相应公司股价的估值,是公司研报的一个关键信息,为此本发明通过“目标价”等关键词与数字进行组合,构建目标价正则表达式,从研报文件中提取公司研报的目标价并输出。
针对于研报主题类别为行业研究类别,提取的关键信息包括行业名称。
7)当研报主题类别为行业研究类别时,提取行业名称:
遍历研报文件的文本信息,根据预设的行业名称词库提取出研报文件中的所有行业名称;根据行业名称出现次数进行排序,提取出行业名称次数出现最多的行业名字作为研报文件的行业名称进行输出。
行业研究类研报是券商针对特定行业进行的研究,是研报文件中的关键信息,能帮助阅读人员对行业研报进行筛选,重点关注特定的行业类别,所以本发明提取了行业研报中的行业名称。本发明预先收集现有研报文件中的行业名称作为提取行业名称的行业名称词库,通过遍历研报文本数据,提取出该研报文件中包含的所有行业名称,然后通过出现次数进行排数,挑选最优的行业名称作为该研报文件所研究行业的行业名称进行输出。
针对于研报主题类别为公司研究类别或行业研究类别,提取研报文件中的关键信息包括研报评级。
8)当研报主题类别为公司研究类别或行业研究类别时,提取报评级:
遍历研报文件的文本信息,根据预设的评级词库,提取出研报文件中的评级信息并进行输出。
公司研究和行业研究类别的研究报告都会给出分析师对公司或行业的评级,是研报的一个重要信息,所以本发明也提取了研报评级,通过预先收集评级词汇,构建评级词库,然后遍历研报文本句子,就可以提取出研报文件中的评级信息并输出。
参照图2,在一个实施例中,对一份研报文件进行主题分类和关键信息提取包括如下步骤:
1)使用版面分析模型得到目标检测结果;
2)使用PDF解析工具生成文本文件,该文本文件包括文本信息和对应的坐标位置;
3)通过文本分类模型进行主题分类;
4)对主题分类后的研报文件进行研报关键信息提取;
针对所有研报文件,进行标题提取、发布日期提取、发布机构提取和分析师名字提取;
针对公司研究类别,进行公司名称提取、目标价提取和评级提取;
针对行业研究类别,进行行业名称提取和评级提取。
本发明还使用不同的提取方法,提取了研报文件中不同的关键信息,这些关键信息可以大大提高研报阅读效率,也可以从不同的维度实现对研报的检索,简化研报阅读流程,解决大量研报看不完的问题。
在一个实施例中,提出了一种从研报中进行关键信息提取装置,包括:
确定目标检测结果模块,用于获取研报文件,通过预设的版面分析模型对研报文件进行目标检测,得到目标检测结果,目标检测结果为多个目标在研报文件中的位置及类别信息;
解析模块,用于获取研报文件内每一页中的字符信息,根据目标检测结果,将位于同一个目标内的字符进行合并,得到文本信息和对应的坐标位置;
主题分类模块,用于通过预设的文本分类模型对文本信息进行主题分类,对研报文件按主题分类进行分类存储和输出;
信息提取模块,用于根据目标检测结果,在主题分类后的研报文件中提取出研报关键信息。
在一个实施例中,提出了一种计算机设备,包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述各实施例从研报中进行关键信息提取方法中的步骤。
在一个实施例中,提出了一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述各实施例从研报中进行关键信息提取方法中的步骤。其中,存储介质可以为非易失性存储介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。
以上各实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (17)
1.一种从研报中进行关键信息提取方法,其特征在于,包括:
获取研报文件,通过预设的版面分析模型对所述研报文件进行目标检测,得到目标检测结果,所述目标检测结果为多个目标在所述研报文件中的位置及类别信息,所述类别信息包括研报标题、特殊结构、统计图、结构图、表格、图表标题、图表注释、页眉、页脚、正文或正文标题中的至少一种或组合;
解析所述研报文件,获取所述研报文件内每一页中的字符信息,根据所述目标检测结果,将位于同一个目标内的字符进行合并,得到文本信息和对应的坐标位置;
通过预设的文本分类模型对所述文本信息进行主题分类,对所述研报文件按所述主题分类进行分类存储和输出;
根据不同的所述类别信息和研报主题类别,提取主题分类后的所述研报文件中的多个研报关键信息并输出。
2.如权利要求1所述的从研报中进行关键信息提取方法,其特征在于,所述主题分类的类别包括公司研究、行业研究、宏观研究、投资策略、晨会报告、基金研究、债券研究或期货研究中的至少一种或组合。
3.如权利要求1所述的从研报中进行关键信息提取方法,其特征在于,预设的所述文本分类模型采用TextCNN分类模型。
4.如权利要求1所述的从研报中进行关键信息提取方法,其特征在于,当所述目标检测结果中包含研报标题类别时,提取所述研报文件中的关键信息包括提取研报标题:
以所述目标检测结果中研报标题类别在文件中的位置,定位所述坐标位置,提取所述坐标位置对应的所述文本信息,得到所述研报文件的研报标题,将所述研报标题进行输出。
5.如权利要求1所述的从研报中进行关键信息提取方法,其特征在于,提取所述研报文件中的关键信息包括提取发布日期:
通过日期正则表达式提取所述文本信息中所有的日期和对应的坐标位置;
当所述目标检测结果中包含正文类别及表格类别时,过滤掉位于所述正文类别及所述表格类别对应坐标位置的日期;
通过预设的日期排序规则对过滤后的日期进行排序,筛选出所述研报文件的发布日期,将所述发布日期进行输出。
6.如权利要求5所述的从研报中进行关键信息提取方法,其特征在于,所述预设的日期排序规则为按相同日期的出现次数、日期的坐标位置或日期与当前日期的差值进行排序中的一种。
7.如权利要求1所述的从研报中进行关键信息提取方法,其特征在于,提取所述研报文件中的关键信息包括提取发布机构:
遍历所述文本信息,提取出包含在预设券商词库中的券商名称及对应的坐标位置;
当所述目标检测结果中包含正文类别时,过滤掉位于所述正文类别对应坐标位置的券商名称;
通过券商名称出现次数将过滤后的券商名称进行排序,最终提取出券商名称出现次数最多的券商名称作为所述研报文件的发布机构并进行输出。
8.如权利要求1所述的从研报中进行关键信息提取方法,其特征在于,提取所述研报文件中的关键信息包括提取分析师名字:
遍历所述文本信息,根据预设的分析师编号规则提取出所有分析师编号及对应的坐标位置;
在所述分析师编号的坐标位置预设范围内查找出所有的名字及对应的坐标位置;
根据所述名字和所述分析师编号的坐标位置之间的距离进行排序,确定所述分析师编号对应的名字作为分析师名字进行输出。
9.如权利要求8所述的从研报中进行关键信息提取方法,其特征在于,在所述分析师编号的坐标位置预设范围内查找出所有的名字及对应的坐标位置之前,包括:
判断所述分析师编号是否收录在预设的分析师索引表内;
若所述分析师编号收录在所述分析师索引表内,则从所述分析师索引表内提取所述分析师编号对应的分析师名字并进行输出;
若所述分析师编号不在所述分析师索引表内,则继续进行在所述分析师编号的坐标位置预设范围内查找出所有的名字及对应的坐标位置步骤。
10.如权利要求1所述的从研报中进行关键信息提取方法,其特征在于,当所述研报主题类别为公司研究类别时,提取所述研报文件中的关键信息包括提取公司名称:
遍历所述研报文件的文本信息,根据预设的股票代码正则表达式提取出所述研报文件中披露的公司股票代码,从预设的公司索引表内查找出所述公司股票代码对应的公司名称,最终提取出公司名称及对应的公司股票代码并进行输出。
11.如权利要求1所述的从研报中进行关键信息提取方法,其特征在于,当所述研报主题类别为公司研究类别时,提取所述研报文件中的关键信息还包括提取目标价:
遍历所述研报文件的文本信息,根据预设的目标价正则表达式提取出所述研报文件中目标价并进行输出。
12.如权利要求1所述的从研报中进行关键信息提取方法,其特征在于,当所述研报主题类别为行业研究类别时,提取所述研报文件中的关键信息包括提取行业名称:
遍历所述研报文件的文本信息,根据预设的行业名称词库提取出所述研报文件中的所有行业名称;
根据行业名称出现次数进行排序,提取出行业名称次数出现最多的行业名字作为所述研报文件的行业名称进行输出。
13.如权利要求1所述的从研报中进行关键信息提取方法,其特征在于,当所述研报主题类别为公司研究类别或行业研究类别时,提取所述研报文件中的关键信息包括提取研报评级:
遍历所述研报文件的文本信息,根据预设的评级词库,提取出所述研报文件中的评级信息并进行输出。
14.如权利要求1所述的从研报中进行关键信息提取方法,其特征在于,所述获取研报文件,通过预设的版面分析模型对所述研报文件进行目标检测,得到目标检测结果包括:
获取所述研报文件,将所述研报文件内每一页的页面转换为图片,得到图片文件,调用训练好的版面分析模型,将所述图片文件输入所述版面分析模型进行目标检测,得到所述目标检测结果。
15.一种从研报中进行关键信息提取装置,其特征在于,包括:
确定目标检测结果模块,用于获取研报文件,通过预设的版面分析模型对所述研报文件进行目标检测,得到目标检测结果,所述目标检测结果为多个目标在所述研报文件中的位置及类别信息,所述类别信息包括研报标题、特殊结构、统计图、结构图、表格、图表标题、图表注释、页眉、页脚、正文或正文标题中的至少一种或组合;
解析模块,用于获取所述研报文件内每一页中的字符信息,根据所述目标检测结果,将位于同一个目标内的字符进行合并,得到文本信息和对应的坐标位置;
主题分类模块,用于通过预设的文本分类模型对所述文本信息进行主题分类,对所述研报文件按所述主题分类进行分类存储和输出;
信息提取模块,用于根据所述目标检测结果,在主题分类后的所述研报文件中提取出研报关键信息。
16.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至14中任一项权利要求所述的从研报中进行关键信息提取方法的步骤。
17.一种存储有计算机可读指令的存储介质,其特征在于,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至14中任一项权利要求所述的从研报中进行关键信息提取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110421724.3A CN112990110B (zh) | 2021-04-20 | 2021-04-20 | 从研报中进行关键信息提取方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110421724.3A CN112990110B (zh) | 2021-04-20 | 2021-04-20 | 从研报中进行关键信息提取方法及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112990110A CN112990110A (zh) | 2021-06-18 |
CN112990110B true CN112990110B (zh) | 2022-03-25 |
Family
ID=76341229
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110421724.3A Active CN112990110B (zh) | 2021-04-20 | 2021-04-20 | 从研报中进行关键信息提取方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112990110B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113887361B (zh) * | 2021-09-23 | 2024-01-09 | 苏州浪潮智能科技有限公司 | 一种文献校对方法、系统、存储介质及设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111125355A (zh) * | 2018-10-31 | 2020-05-08 | 北京国双科技有限公司 | 一种信息处理方法及相关设备 |
CN112036395A (zh) * | 2020-09-04 | 2020-12-04 | 联想(北京)有限公司 | 基于目标检测的文本分类识别方法及装置 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8693043B2 (en) * | 2003-12-19 | 2014-04-08 | Kofax, Inc. | Automatic document separation |
US20110251977A1 (en) * | 2010-04-13 | 2011-10-13 | Michal Cialowicz | Ad Hoc Document Parsing |
CN102855264B (zh) * | 2011-07-01 | 2015-11-25 | 富士通株式会社 | 文档处理方法及其装置 |
CN108717519B (zh) * | 2018-04-03 | 2021-02-19 | 北京捷通华声科技股份有限公司 | 一种文本分类方法及装置 |
CN108614898B (zh) * | 2018-05-10 | 2021-06-25 | 爱因互动科技发展(北京)有限公司 | 文档解析方法与装置 |
CN110889311A (zh) * | 2018-09-07 | 2020-03-17 | 上海怀若智能科技有限公司 | 金融电子传真文档识别系统及方法 |
CN110348294B (zh) * | 2019-05-30 | 2024-04-16 | 平安科技(深圳)有限公司 | Pdf文档中图表的定位方法、装置及计算机设备 |
CN110442772A (zh) * | 2019-08-13 | 2019-11-12 | 深圳司南数据服务有限公司 | 一种智能研报生成方法及终端 |
CN110717044A (zh) * | 2019-10-08 | 2020-01-21 | 创新奇智(南京)科技有限公司 | 一种研报正文的文本分类方法 |
CN110909226B (zh) * | 2019-11-28 | 2023-06-06 | 达而观信息科技(上海)有限公司 | 金融类文档信息处理方法、装置、电子设备及存储介质 |
CN111860524A (zh) * | 2020-07-28 | 2020-10-30 | 上海兑观信息科技技术有限公司 | 一种数字档案智能分类的装置及方法 |
-
2021
- 2021-04-20 CN CN202110421724.3A patent/CN112990110B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111125355A (zh) * | 2018-10-31 | 2020-05-08 | 北京国双科技有限公司 | 一种信息处理方法及相关设备 |
CN112036395A (zh) * | 2020-09-04 | 2020-12-04 | 联想(北京)有限公司 | 基于目标检测的文本分类识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112990110A (zh) | 2021-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111783394B (zh) | 事件抽取模型的训练方法、事件抽取方法和系统及设备 | |
US20220237230A1 (en) | System and method for automated file reporting | |
CN111259631B (zh) | 一种裁判文书结构化方法及装置 | |
CN109933796B (zh) | 一种公告文本关键信息提取方法及设备 | |
CN111723564B (zh) | 一种针对随案电子卷宗的事件抽取及处理方法 | |
Graliński et al. | Kleister: A novel task for information extraction involving long documents with complex layout | |
CN102332028A (zh) | 一种面向网页的不良Web内容识别方法 | |
JP2007535771A (ja) | 文書情報マイニングツール | |
CN112990110B (zh) | 从研报中进行关键信息提取方法及相关设备 | |
Sandhiya et al. | A review of topic modeling and its application | |
CN114239579A (zh) | 基于正则表达式和crf模型的电力可研文档提取方法及装置 | |
CN111274354B (zh) | 一种裁判文书结构化方法及装置 | |
Papanikolaou et al. | Protest event analysis: A longitudinal analysis for Greece | |
CN113159969A (zh) | 一种金融长文本复核系统 | |
JP2006309347A (ja) | 対象文書からキーワードを抽出する方法、システムおよびプログラム | |
Olensky | Data accuracy in bibliometric data sources and its impact on citation matching | |
Barale et al. | Automated refugee case analysis: An nlp pipeline for supporting legal practitioners | |
CN114492362B (zh) | 一种研报问答生成方法、系统及计算机可读存储介质 | |
CN116401343A (zh) | 一种数据合规分析方法 | |
CN112990091A (zh) | 基于目标检测的研报解析方法、装置、设备和存储介质 | |
Yaohui et al. | An Artificial-Intelligence-Based Semantic Assist Framework for Judicial Trials | |
CN109597879B (zh) | 一种基于“引文关系”数据的业务行为关系抽取方法及装置 | |
Zydziunaite | Automatic content analysis of social media short texts: Scoping review of methods and tools | |
CN117608565B (zh) | 基于屏幕截图分析的rpa中ai类组件推荐方法及系统 | |
Henley et al. | On the Books: Jim Crow and Algorithms of Resistance White Paper |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |