CN110750643B - 上市公司非定期公告的分类方法、装置及存储介质 - Google Patents
上市公司非定期公告的分类方法、装置及存储介质 Download PDFInfo
- Publication number
- CN110750643B CN110750643B CN201910936610.5A CN201910936610A CN110750643B CN 110750643 B CN110750643 B CN 110750643B CN 201910936610 A CN201910936610 A CN 201910936610A CN 110750643 B CN110750643 B CN 110750643B
- Authority
- CN
- China
- Prior art keywords
- bulletin
- keywords
- text
- advertisement
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 230000000737 periodic effect Effects 0.000 title claims abstract description 54
- 238000010801 machine learning Methods 0.000 claims abstract description 42
- 238000004422 calculation algorithm Methods 0.000 claims description 36
- 230000001788 irregular Effects 0.000 claims description 27
- 238000000605 extraction Methods 0.000 claims description 15
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 abstract description 8
- 238000012545 processing Methods 0.000 description 16
- 230000005540 biological transmission Effects 0.000 description 4
- 230000007547 defect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000013145 classification model Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种上市公司非定期公告的分类方法、装置及存储介质。其中,上市公司非定期公告的分类方法,包括:获取待分类的非定期公告的公告文本;对所述提取所述公告文本的特征关键词;以及利用预先训练的机器学习模型,根据所提取出的特征关键词,确定所述非定期公告的类别。通过这种方式,提高上市公司非定期公告分类的准确率,自动化公告分类流程,提高了上市公司非定期公告的自动化文本解析的精度和准确度。
Description
技术领域
本申请涉及信息的分类领域,特别是涉及一种上市公司非定期公告的分类方法、装置及存储介质。
背景技术
沪市与深市每日产生的非定期公告数量巨大,涵盖主板所有上市公司企业经营变动信息,而且包含的种类繁多且内容复杂,比如重大事项公告,交易提示公告,配股公告,增发公告等等。不断增加的公告数量对于投资人对于信息的获取以及监管等方面都带来了极大的挑战,想要在这些海量的非定期公告书中通过传统的人工方式高效准确地找到所需要的信息已经变得十分困难。因此,公告的自动化解析正在积极被用于金融分析和金融监管领域。作为公告解析的前序步骤,公告的精准分类是公告正确解析的基础。
上市公司信息披露的种类繁多,如上交所将上市公司公告分为35大类,376个小类(上海证券交易所,2013)。传统的人工非定期公告分类会依据公告标题等进行粗略的划分。然而,由于公告的多样性,往往存在标题相似,而公告实质内容应分属不同类别的情况。因此,非定期报告的分类,应不仅仅依赖于其标题,而须要根据其发布内容进行更加精细的类别划分。然而当前并无实际有效的非定期公告分类标准去依据实行。因此,如何对上市公司非定期公告进行细粒度分类是目前需要解决的技术问题。
现有的公告分类技术,通常基于规则,根据不同非定期公告所特有的领域行业知识,建立不同公告类型的关键词词库,根据关键词词库来判断其公告所属的类别。然而,这样的分类粒度较粗,只能对几种类型的公告分类具有较高精度,对于细分公告类别的分类精度较差。同时,为了提高精度,需要技术人员撰写大量规则才能覆盖不同类别的公告中的特征,效率低下。
机器学习算法在文本分类上有着广泛应用。然而有监督分类方法需要大量的标注数据作为训练集,而目前的上市公司企业非定期公告类别较多,不同的人判断标准无法统一,因此基于机器学习的公告分类方法仍需要不断探索提高。
针对上述的现有技术中存在的基于规则的非定期公告的分类方法在进行细粒度分类时精度不足以及效率低下的技术问题,目前尚未提出有效的解决方案。
发明内容
本公开的实施例提供了一种上市公司非定期公告的分类方法、装置及存储介质,以至少解决现有技术中存在的基于规则的非定期公告的分类方法在进行细粒度分类时精度不足以及效率低下的技术问题。
根据本公开实施例的一个方面,提供了一种上市公司非定期公告的分类方法,包括:获取待分类的非定期公告的公告文本;提取公告文本的特征关键词;以及利用预先设置的机器学习模型,根据所提取出的特征关键词,确定非定期公告的类别。
根据本公开实施例的另一个方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时由处理器执行以上任意一项所述的方法。
根据本公开实施例的另一个方面,还提供了一种上市公司非定期公告的分类装置,包括:获取模块,用于获取待分类的上市公司非定期公告的公告文本;提取模块,用于提取公告文本的特征关键词;以及确定模块,用于利用预先训练的机器学习模型,根据所提取出的特征关键词,确定非定期公告的类别。
根据本公开实施例的另一个方面,还提供了一种上市公司非定期公告的分类装置,包括:处理器;以及存储器,与处理器连接,用于为处理器提供处理以下处理步骤的指令:获取待分类的非定期公告的公告文本;提取公告文本的特征关键词;以及利用预先训练的机器学习模型,根据所提取出的特征关键词,确定非定期公告的类别。
在本公开实施例中,提取上市公司非定期公告的公告文本中的特征关键词,根据标题和公告利用分词、TextRank算法及TF-IDF算法提取公告文本的特征关键词。然后基于机器学习模型实现上市公司非定期公告分类自动化。通过这种方式,提高上市公司非定期公告分类的准确率,自动化公告分类流程,提高了上市公司非定期公告的自动化文本解析的精度和准确度。并将基于领域知识的规则公告分类与基于机器学习算法的公告分类相结合,弥补了通过规则分类在细粒度分类上的的精度不足,有效提高分类准确率。进而解决了现有技术中存在的基于规则的非定期公告的分类方法在进行细粒度分类时精度不足以及效率低下的技术问题。
附图说明
此处所说明的附图用来提供对本公开的进一步理解,构成本申请的一部分,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。在附图中:
图1是用于实现根据本公开实施例1所述的方法的【计算机终端(或移动设备)】的硬件结构框图;
图2是根据本公开实施例1的第一个方面所述的上市公司非定期公告的分类方法的流程示意图;
图3是根据本公开实施例1的第一个方面所述的上市公司非定期公告的分类流程图;
图4是根据本公开实施例2所述的上市公司非定期公告的分类装置的示意图;以及
图5是根据本公开实施例3所述的上市公司非定期公告的分类装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本公开的技术方案,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本公开一部分的实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本公开保护的范围。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本实施例,提供了一种上市公司非定期公告的分类方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现上市公司非定期公告的分类方法的计算机终端(或移动设备)的硬件结构框图。如图1所示,计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本公开实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本公开实施例中的非定期公告的分类方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的上市公司非定期公告的分类方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
此处需要说明的是,在一些可选实施例中,上述图1所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是,图1仅为特定具体实例的一个实例,并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。
在上述运行环境下,根据本实施例的第一个方面,提供了一种上市公司非定期公告的分类方法方法。图2示出了该方法的流程示意图,参考图2所示,该方法包括:
S202:获取待分类的非定期公告的公告文本;
S204:提取公告文本的特征关键词;以及
S206:利用预先训练的机器学习模型,根据所提取出的特征关键词,确定非定期公告的类别。
正如前面背景技术中所述的,现有的公告分类技术,通常基于规则,根据不同非定期公告所特有的领域行业知识,建立不同公告类型的关键词词库,根据关键词词库来判断其公告所属的类别。然而,这样的分类粒度较粗,只能对几种类型的公告分类具有较高精度,对于细分公告类别的分类精度较差。同时,为了提高精度,需要技术人员撰写大量规则才能覆盖不同类别的公告中的特征,效率低下。
针对上述背景技术中存在的问题,结合图2所示,本实施例首先获取待分类的非定期公告的公告文本,然后提取公告文本中的特征关键词。其中所提取出的特征关键词例如但不限于可以为“交易”以及“金额”。然后利用预先设置的机器学习模型,根据所提取出的特征关键词,确定非定期公告的类别。例如:利用预先训练的机器学习模型,根据所提取出的特征关键词“交易”以及“金额”,确定非定期公告的类别为“交易提示公告”。其中,机器学习模型可以为分类模型,分类模型例如但不限于可以为贝叶斯分类器。
从而,通过这种方式,可以提高上市公司非定期公告分类的准确率,自动化公告分类流程,提高了上市公司非定期公告的自动化文本解析的精度和准确度。进而解决了现有技术中存在的基于规则的非定期公告的分类方法在进行细粒度分类时精度不足以及效率低下的技术问题。
可选地,公告文本包括标题以及正文,并且对公告文本进行特征关键词的提取的操作,包括:对标题进行分词,得到标题词;对正文进行分词处理,得到正文词;利用关键词提取算法,对正文词进行关键词的提取,得到正文关键词;根据标题词以及正文关键词,对公告文本进行特征关键词的提取。
具体地,通过提取公告文本中的特征关键词,进行更细粒度的分类。其中,公告文本包括标题以及正文。示例性的,首先对标题和正文进行分词,分别得到标题词和正文词。然后利用关键词提取算法抽取正文词中的正文关键词。然后根据提取出的正文关键词以及标题词,对公告文本进行特征关键词的提取。从而,通过这种方式,可以高效、准确地对公告文本进行特征关键词的提取。
可选地,根据标题词以及正文关键词,对公告文本进行特征关键词的提取的操作,包括:将标题词以及正文关键词合并为文本信息;利用TF-IDF算法对文本信息进行特征合并,提取出特征关键词。
具体地,将提取出的正文词中的正文关键词和标题词这两部分合并成一段文本信息。然后采用TF-IDF算法对这段文本信息进行特征合并,最终提取出待分类的非定期公告的公告文本所对应的特征关键词。从而,通过这种方式,保障了所提取出的特征关键词准确性。
可选地,关键词提取算法为TextRank算法。
可选地,利用预先训练的机器学习模型,根据所提取出的特征关键词,确定非定期公告的类别的操作,包括:利用预先训练的机器学习模型,判定与特征关键词的联合概率关系最大的公告类别,其中联合概率关系用于表征特征关键词与公告类别之间的联合概率所反映的关系;以及将所判定的公告类别确定为非定期公告的类别。
具体地,预先训练的机器学习模型可以由一组特征关键词与各个公告类别的联合概率关系组成,因此利用预先训练的机器学习模型,判定与特征关键词的联合概率关系最大的公告类别。其中联合概率关系用于表征特征关键词与公告类别之间的联合概率所反映的关系。然后将所判定的公告类别确定为非定期公告的类别。从而,通过这种方式,可以提高上市公司非定期公告分类的准确率,提高了上市公司非定期公告的自动化文本解析的精度和准确度。
可选地,提取公告文本的特征关键词的操作之前,还包括:建立分类的规则词库;将公告文本的标题中的关键词与规则词库中的规则进行匹配;以及根据匹配的结果,对公告文本进行预分类。
具体地,可以根据行业领域知识建立分类的规则词库。对待分类公告的公告文本的标题中的关键词与规则词库中的规则进行匹配,然后根据匹配的结果,对公告文本进行粗粒度的预分类。从而,通过这种方式,预先筛选出直接通过规则匹配就可以确定公告类别的待分类公告,进而提高了分类的效率。
可选地,还包括通过以下操作对机器学习模型进行训练:获取已标注公告类别的样本公告文本对应的样本特征关键词;统计样本特征关键词与公告类别之间的概率关系,其中概率关系用于表征特征关键词与公告类别之间的概率所反映的关系;以及根据概率关系,计算样本特征关键词与公告类别之间的联合概率关系,其中联合概率关系用于表征特征关键词与公告类别之间的联合概率所反映的关系。
具体地,机器学习模型可以为分类模型,可以通过机器学习分类算法来训练该分类模型。本实施例使用的是贝叶斯分类器作为分类算法。但在此不做限定,也可以为其他具有可以实现多分类的分类器。此时,可以通过以下操作对机器学习模型进行训练:首先统计特征关键词与公告类别的概率关系。然后根据上述步骤所计算出的概率关系,计算特征关键词与公告类别之间的联合概率关系。从而,通过这种方式,不断的对机器学习模型进行训练,进而不断提高机器学习模型的识别精度和准确度。
可选地,统计样本特征关键词与公告类别之间的概率关系的操作,包括:根据预先获取的已标注公告类别的公告数据集,统计样本特征关键词与公告类别之间的概率关系。
具体地,根据已经分类标注好公告类别的公告数据集,统计每个特征关键词和公告类别之间的概率关系。具体为,对公告文本进行分词处理,然后计算概率关系P(wi|Cj),其中概率关系的计算公式如下:
其中wi表示第i个特征关键词,Cj表示第j个公告类别,|wi∈Cj|表示在该类别Cj中的特征关键词wi数量,表示在Cj中的所有特征关键词的数量和。
可选地,根据概率关系,计算样本特征关键词与公告类别之间的联合概率关系的操作,包括:根据概率关系,利用贝叶斯公式计算样本特征关键词与公告类别之间的联合概率关系。
具体地,利用贝叶斯公式计算特征关键词和公告类别之间的联合概率关系P(wi,Cj),其中联合概率关系计算公式如下:
P(wi,Cj)=P(wi|Cj)*P(Cj)
其中,wi表示第i个特征关键词,Cj表示公告类别,P(wi|Cj)表示在类别Cj下关键词wi的概率,由上述步骤计算得到,P(Cj)表示类别Cj在已分类好的数据集中的概率,
进一步地,为了便于理解,参照图3所示,对本实施例的技术方案按时间顺序步骤的补充说明如下:
S1:基于规则的初步分类。根据行业领域知识建立分类的触发词库。对待分类公告的标题做关键词和触发逻辑匹配,进行粗粒度的预分类。
S2:提取关键词特征,进行更细粒度的分类。对已经分类标注好的上市公告文本进行预处理,选取文本中的关键词。具体做法为,对标题和正文进行分词,其中正文利用关键词提取算法TextRank抽取关键词。然后将两部分合并成一段文本,采用TF-IDF对这段文本进行特征合并,最终提取出每个公告所对应的特征关键词。
S3:根据机器学习算法训练分类模型。本公开使用了支持多类别分类的贝叶斯分类器作为学习算法。步骤如下:
S3.1:统计关键词特征与公告类别的概率关系。根据已经分类标注好的公告数据集,统计每个关键词和分类结果之间的概率关系。具体为,对公告文本进行分词处理,然后计算其中wi表示第i个特征关键词,Cj表示第j个公告类别,|wi∈Cj|表示在该类别Cj中的特征关键词wi数量,/>表示在Cj中的所有特征关键词的数量和。
S3.2:计算关键词特征与公告类别的联合概率关系。利用贝叶斯公式计算关键词和类比之间的联合概率关系P(wi,Cj),具体为P(wi,Cj)=P(wi|Cj)*P(Cj),其中,wi表示第i个特征关键词,Cj表示公告类别,P(wi|Cj)表示在类别Cj下关键词wi的概率,由上述步骤计算得到,P(Cj)表示类别Cj在已分类好的数据集中的概率,
S4:基于机器学习预测模型推断待分类公告所属类别。对于无法用规则进行分类的公告,将利用训练好的机器学习模型预测其所属类别。具体为,对待分类公告进行与S2相同的预处理,提取特征关键词。然后,根据特征关键词以及机器学习分类预测模型,确定该公告所属类别。
此外,参考图1所示,根据本实施例的第二个方面,提供了一种存储介质104。存储介质104包括存储的程序,其中,在程序运行时由处理器执行以上任意一项所述的方法。
从而,本实施例提取上市公司非定期公告的公告文本中的特征关键词,根据标题和公告利用分词、TextRank算法及TF-IDF算法提取公告文本的特征关键词。然后基于机器学习算法实现上市公司非定期公告分类自动化。通过这种方式,提高上市公司非定期公告分类的准确率,自动化公告分类流程,提高了上市公司非定期公告的自动化文本解析的精度和准确度。并基于领域知识的规则公告分类与基于机器学习算法的公告分类相结合,弥补了通过规则分类在细粒度分类上的的精度不足,有效提高分类准确率。进而解决了现有技术中存在的基于规则的非定期公告的分类方法在进行细粒度分类时精度不足以及效率低下的技术问题。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
图4示出了根据本实施例所述的上市公司非定期公告的分类装置400,该装置400与根据实施例1的第一个方面所述的方法相对应。参考图4所示,该装置400包括:获取模块410,用于获取待分类的非定期公告的公告文本;提取模块420,用于提取公告文本的特征关键词;以及确定模块430,用于利用预先训练的机器学习模型,根据所提取出的特征关键词,确定上市公司非定期公告的类别。
可选地,公告文本包括标题以及正文,并且提取模块420包括:第一分词子模块,用于对标题进行分词,得到标题词;第二分词子模块,用于对正文进行分词处理,得到正文词;第一提取子模块,用于利用关键词提取算法,对正文词进行关键词的提取,得到正文关键词;第二提取子模块,用于根据标题词以及正文关键词,对公告文本进行特征关键词的提取。
可选地,第二提取子模块包括:合并单元,用于将标题词以及正文关键词合并为文本信息;提取单元,用于利用TF-IDF算法对文本信息进行特征合并,提取出特征关键词。
可选地,关键词提取算法为TextRank算法。
可选地,确定模块430包括:判定子模块,用于利用预先训练的机器学习模型,判定与特征关键词的联合概率关系最大的公告类别,其中联合概率关系用于表征特征关键词与公告类别之间的联合概率所反映的关系;以及确定子模块,用于将所判定的公告类别确定为非定期公告的类别。
可选地,还包括:建立模块,用于提取公告文本的特征关键词的操作之前,建立分类的规则词库;匹配模块,用于将公告文本的标题中的关键词与规则词库中的规则进行匹配;以及预分类模块,用于根据匹配的结果,对公告文本进行预分类。
可选地,还包括训练模块,用于通过以下操作对机器学习模型进行训练:获取已标注公告类别的样本公告文本对应的样本特征关键词;统计样本特征关键词与公告类别之间的概率关系,其中概率关系用于表征特征关键词与公告类别之间的概率所反映的关系;以及根据概率关系,计算样本特征关键词与公告类别之间的联合概率关系,其中联合概率关系用于表征特征关键词与公告类别之间的联合概率所反映的关系。
可选地,统计样本特征关键词与公告类别之间的概率关系的操作,包括:根据预先获取的已标注公告类别的公告数据集,统计样本特征关键词与公告类别之间的概率关系。
可选地,根据概率关系,计算样本特征关键词与公告类别之间的联合概率关系的操作,包括:根据概率关系,利用贝叶斯公式计算样本特征关键词与公告类别之间的联合概率关系。
从而根据本实施例,提取上市公司非定期公告的公告文本中的特征关键词,根据标题和公告利用分词、TextRank算法及TF-IDF算法提取公告文本的特征关键词。然后基于机器学习模型实现上市公司非定期公告分类自动化。通过这种方式,提高上市公司非定期公告分类的准确率,自动化公告分类流程,提高了上市公司非定期公告的自动化文本解析的精度和准确度。并基于领域知识的规则公告分类与基于机器学习算法的公告分类相结合,弥补了通过规则分类在细粒度分类上的的精度不足,有效提高分类准确率。进而解决了现有技术中存在的基于规则的非定期公告的分类方法在进行细粒度分类时精度不足以及效率低下的技术问题。
实施例3
图5示出了根据本实施例所述的上市公司非定期公告的分类装置500,该装置500与根据实施例1的第一个方面所述的方法相对应。参考图5所示,该装置500包括:处理器510;以及存储器520,与处理器510连接,用于为处理器510提供处理以下处理步骤的指令:获取待分类的非定期公告的公告文本;提取公告文本的特征关键词;以及利用预先设置的机器学习模型,根据所提取出的特征关键词,确定非定期公告的类别。
可选地,公告文本包括标题以及正文,并且对公告文本进行特征关键词的提取的操作,包括:对标题进行分词,得到标题词;对正文进行分词处理,得到正文词;利用关键词提取算法,对正文词进行关键词的提取,得到正文关键词;根据标题词以及正文关键词,对公告文本进行特征关键词的提取。
可选地,根据标题词以及正文关键词,对公告文本进行特征关键词的提取的操作,包括:将标题词以及正文关键词合并为文本信息;利用TF-IDF算法对文本信息进行特征合并,提取出特征关键词。
可选地,关键词提取算法为TextRank算法。
可选地,利用预先训练的机器学习模型,根据所提取出的特征关键词,确定上市公司非定期公告的类别的操作,包括:利用预先训练的机器学习模型,判定与特征关键词的联合概率关系最大的公告类别,其中联合概率关系用于表征特征关键词与公告类别之间的联合概率所反映的关系;以及将所判定的公告类别确定为非定期公告的类别。
可选地,存储器520还用于为处理器510提供处理以下处理步骤的指令:提取公告文本的特征关键词的操作之前,建立分类的规则词库;将公告文本的标题中的关键词与规则词库中的规则进行匹配;以及根据匹配的结果,对公告文本进行预分类。
可选地,存储器520还用于为处理器510提供处理以下处理步骤的指令:通过以下操作对机器学习模型进行训练:获取已标注公告类别的样本公告文本对应的样本特征关键词;统计样本特征关键词与公告类别之间的概率关系,其中概率关系用于表征特征关键词与公告类别之间的概率所反映的关系;以及根据概率关系,计算样本特征关键词与公告类别之间的联合概率关系,其中联合概率关系用于表征特征关键词与公告类别之间的联合概率所反映的关系。
可选地,统计样本特征关键词与公告类别之间的概率关系的操作,包括:根据预先获取的已标注公告类别的公告数据集,统计样本特征关键词与公告类别之间的概率关系。
可选地,根据概率关系,计算样本特征关键词与公告类别之间的联合概率关系的操作,包括:根据概率关系,利用贝叶斯公式计算样本特征关键词与公告类别之间的联合概率关系。
从而根据本实施例,提取上市公司非定期公告的公告文本中的特征关键词,根据标题和公告利用分词、TextRank算法及TF-IDF算法提取公告文本的特征关键词。然后基于机器学习模型实现上市公司非定期公告分类自动化。通过这种方式,提高上市公司非定期公告分类的准确率,自动化公告分类流程,提高了上市公司非定期公告的自动化文本解析的精度和准确度。并基于领域知识的规则公告分类与基于机器学习算法的公告分类相结合,弥补了通过规则分类在细粒度分类上的的精度不足,有效提高分类准确率。进而解决了现有技术中存在的基于规则的非定期公告的分类方法在进行细粒度分类时精度不足以及效率低下的技术问题。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (6)
1.一种上市公司非定期公告的分类方法,其特征在于,包括:
一、获取待分类的非定期公告的公告文本,
公告文本包括标题以及正文,对所述标题进行分词,得到标题词;
对所述正文进行分词处理,得到正文词;
利用关键词提取算法,对所述正文词进行关键词的提取,得到正文关键词;
根据所述标题词以及所述正文关键词,对所述公告文本进行特征关键词的提取;
二,提取所述公告文本的特征关键词,
将所述标题词以及所述正文关键词合并为文本信息;
利用TF-IDF算法对所述文本信息进行特征合并,提取出所述特征关键词;
三,利用预先设置的机器学习模型,根据所提取出的特征关键词,确定所述非定期公告的类别,
利用预先训练的机器学习模型,判定与所述特征关键词的联合概率关系最大的公告类别,其中所述联合概率关系用于表征所述特征关键词与所述公告类别之间的联合概率所反映的关系;以及
将所判定的公告类别确定为所述非定期公告的类别;
四、通过以下操作对所述机器学习模型进行训练:
获取已标注公告类别的样本公告文本对应的样本特征关键词;
统计所述样本特征关键词与所述公告类别之间的概率关系,其中所述概率关系用于表征所述特征关键词与所述公告类别之间的概率所反映的关系;以及
根据所述概率关系,计算所述样本特征关键词与所述公告类别之间的联合概率关系,其中所述联合概率关系用于表征所述特征关键词与所述公告类别之间的联合概率所反映的关系。
2.根据权利要求1所述的方法,其特征在于,所述关键词提取算法为TextRank算法。
3.根据权利要求1所述的方法,其特征在于,提取所述公告文本的特征关键词的操作之前,还包括:
建立分类的触发词库;
将所述公告文本的标题中的关键词与所述触发词库中的触发逻辑进行匹配;以及
根据所述匹配的结果,对所述公告文本进行预分类。
4.根据权利要求1所述的方法,其特征在于,统计所述样本特征关键词与所述公告类别之间的概率关系的操作,包括:根据预先获取的已标注公告类别的公告数据集,统计所述样本特征关键词与所述公告类别之间的概率关系。
5.根据权利要求4所述的方法,其特征在于,根据所述概率关系,计算所述样本特征关键词与所述公告类别之间的联合概率关系的操作,包括:根据所述概率关系,利用贝叶斯公式计算所述样本特征关键词与所述公告类别之间的联合概率关系。
6.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时由处理器执行权利要求1至5中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910936610.5A CN110750643B (zh) | 2019-09-29 | 2019-09-29 | 上市公司非定期公告的分类方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910936610.5A CN110750643B (zh) | 2019-09-29 | 2019-09-29 | 上市公司非定期公告的分类方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110750643A CN110750643A (zh) | 2020-02-04 |
CN110750643B true CN110750643B (zh) | 2024-02-09 |
Family
ID=69277455
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910936610.5A Active CN110750643B (zh) | 2019-09-29 | 2019-09-29 | 上市公司非定期公告的分类方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110750643B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113486149A (zh) * | 2021-07-09 | 2021-10-08 | 深圳证券时报社有限公司 | 一种基于关键词匹配的上市公司公告分类及情感分析方法 |
US20230297966A1 (en) * | 2022-03-15 | 2023-09-21 | Sap Se | Being parents |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008084064A (ja) * | 2006-09-28 | 2008-04-10 | National Institute Of Advanced Industrial & Technology | テキスト分類処理方法、テキスト分類処理装置ならびにテキスト分類処理プログラム |
US7783642B1 (en) * | 2005-10-31 | 2010-08-24 | At&T Intellectual Property Ii, L.P. | System and method of identifying web page semantic structures |
WO2017107010A1 (zh) * | 2015-12-21 | 2017-06-29 | 浙江核新同花顺网络信息股份有限公司 | 基于事件回测的信息分析系统及方法 |
CN107403375A (zh) * | 2017-04-19 | 2017-11-28 | 北京文因互联科技有限公司 | 一种基于深度学习的上市公司公告分类及摘要生成方法 |
WO2018032937A1 (zh) * | 2016-08-19 | 2018-02-22 | 中兴通讯股份有限公司 | 一种文本信息分类方法及其装置 |
CN107808011A (zh) * | 2017-11-20 | 2018-03-16 | 北京大学深圳研究院 | 信息的分类抽取方法、装置、计算机设备和存储介质 |
CN109543032A (zh) * | 2018-10-26 | 2019-03-29 | 平安科技(深圳)有限公司 | 文本分类方法、装置、计算机设备和存储介质 |
CN109741190A (zh) * | 2018-12-27 | 2019-05-10 | 清华大学 | 一种个股公告分类的方法、系统及设备 |
CN109933796A (zh) * | 2019-03-19 | 2019-06-25 | 厦门商集网络科技有限责任公司 | 一种公告文本关键信息提取方法及设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108073568B (zh) * | 2016-11-10 | 2020-09-11 | 腾讯科技(深圳)有限公司 | 关键词提取方法和装置 |
-
2019
- 2019-09-29 CN CN201910936610.5A patent/CN110750643B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7783642B1 (en) * | 2005-10-31 | 2010-08-24 | At&T Intellectual Property Ii, L.P. | System and method of identifying web page semantic structures |
JP2008084064A (ja) * | 2006-09-28 | 2008-04-10 | National Institute Of Advanced Industrial & Technology | テキスト分類処理方法、テキスト分類処理装置ならびにテキスト分類処理プログラム |
WO2017107010A1 (zh) * | 2015-12-21 | 2017-06-29 | 浙江核新同花顺网络信息股份有限公司 | 基于事件回测的信息分析系统及方法 |
WO2018032937A1 (zh) * | 2016-08-19 | 2018-02-22 | 中兴通讯股份有限公司 | 一种文本信息分类方法及其装置 |
CN107403375A (zh) * | 2017-04-19 | 2017-11-28 | 北京文因互联科技有限公司 | 一种基于深度学习的上市公司公告分类及摘要生成方法 |
CN107808011A (zh) * | 2017-11-20 | 2018-03-16 | 北京大学深圳研究院 | 信息的分类抽取方法、装置、计算机设备和存储介质 |
CN109543032A (zh) * | 2018-10-26 | 2019-03-29 | 平安科技(深圳)有限公司 | 文本分类方法、装置、计算机设备和存储介质 |
CN109741190A (zh) * | 2018-12-27 | 2019-05-10 | 清华大学 | 一种个股公告分类的方法、系统及设备 |
CN109933796A (zh) * | 2019-03-19 | 2019-06-25 | 厦门商集网络科技有限责任公司 | 一种公告文本关键信息提取方法及设备 |
Non-Patent Citations (2)
Title |
---|
张俊.略论上市公司信息披露文件的分级加工与处理.情报杂志.2004,(12),全文. * |
武永亮 ; 赵书良 ; 李长镜 ; 魏娜娣 ; 王子晏 ; .基于TF-IDF和余弦相似度的文本分类方法.中文信息学报.2017,(05),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN110750643A (zh) | 2020-02-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109872162B (zh) | 一种处理用户投诉信息的风控分类识别方法及系统 | |
CN107967575A (zh) | 一种人工智能保险咨询服务人工智能平台系统 | |
CN106844407B (zh) | 基于数据集相关性的标签网络产生方法和系统 | |
Weichselbraun et al. | A context-dependent supervised learning approach to sentiment detection in large textual databases | |
CN112733042A (zh) | 推荐信息的生成方法、相关装置及计算机程序产品 | |
CN110750643B (zh) | 上市公司非定期公告的分类方法、装置及存储介质 | |
CN104834651A (zh) | 一种提供高频问题回答的方法和装置 | |
WO2018171295A1 (zh) | 一种给文章标注标签的方法、装置、终端及计算机可读存储介质 | |
CN114416998A (zh) | 文本标签的识别方法、装置、电子设备及存储介质 | |
CN116468460A (zh) | 基于人工智能的消费金融客户画像识别系统及其方法 | |
CN112102049A (zh) | 一种模型训练方法、业务处理方法、装置及设备 | |
Han et al. | Semi-supervised clustering for financial risk analysis | |
CN113378090B (zh) | 一种互联网网站相似度分析方法、装置以及可读存储介质 | |
CN110675238A (zh) | 客户标签配置方法、系统、可读存储介质及电子设备 | |
CN114240568A (zh) | 关联产品的推荐方法和推荐装置 | |
CN114996579A (zh) | 信息推送方法、装置、电子设备和计算机可读介质 | |
CN112182020B (zh) | 金融行为识别与分类的方法、装置及计算机可读存储介质 | |
CN114741501A (zh) | 舆情预警方法、装置、可读存储介质及电子设备 | |
CN111860606B (zh) | 图像分类的方法、装置以及存储介质 | |
CN113837836A (zh) | 模型推荐方法、装置、设备及存储介质 | |
CN113505293A (zh) | 信息推送方法、装置、电子设备及存储介质 | |
CN112380321A (zh) | 基于票据知识图谱的主次数据库分配方法及相关设备 | |
CN113536788B (zh) | 信息处理方法、装置、存储介质及设备 | |
CN115861606B (zh) | 一种针对长尾分布文档的分类方法、装置及存储介质 | |
US20220358150A1 (en) | Natural language processing and machine-learning for event impact analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |