CN109741190A

CN109741190A - 一种个股公告分类的方法、系统及设备

Info

Publication number: CN109741190A
Application number: CN201811613626.4A
Authority: CN
Inventors: 赵岑; 陈世敏; 冯采; 张小平; 罗广超
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2018-12-27
Filing date: 2018-12-27
Publication date: 2019-05-10

Abstract

本申请公开了一种个股公告分类的方法，包括：根据接收到的分类样例建立训练集和测试集；利用训练集对预设模型进行训练，得到分类模型；利用测试集对分类模型进行测试，并判断分类模型是否通过测试；若是，则利用分类模型对接收到的个股公告进行分类。本申请所提供的技术方案，通过先利用测试集对得到的分类模型进行测试，并判断分类模型是否通过测试，当测试通过时，再利用分类模型对接收到的个股公告进行分类，以得到分类后的各类个股公告，方便用户快速准确的获取到目标类型的个股公告中的信息，进而便于用户做出相应决策。本申请同时还提供了一种个股公告分类的系统、设备及计算机可读存储介质，具有上述有益效果。

Description

一种个股公告分类的方法、系统及设备

技术领域

本申请涉及个股公告分类领域，特别涉及一种个股公告分类的方法、系统、设备及计算机可读存储介质。

背景技术

个股公告是上市公司最权威、最及时的信息展示窗口，其内容很可能会对投资者判断公司基本面，产生重要影响。个股公告中往往包括各类精确、客观的数据信息，重要时间段及时间节点信息，很多事项的进展、运作、实施的前提条件等。

针对于所公开的事件类型不同，个股公告中的内容也不尽相同，个股公告的类型大致可以包括业绩公告、股东高管任免公告、资产重组公告和会议召开公告等类型；对于投资者来说，快速准确的获取到个股公告中的信息显得尤为重要，而随着互联网技术的发展，互联网上的信息量呈爆炸式增长，各种类型的个股公告混杂在一起，这使得用户无法快速准确的获取到目标类型的个股公告中的信息。

因此，如何对个股公告进行分类是本领域技术人员目前需要解决的技术问题。

发明内容

本申请的目的是提供一种个股公告分类的方法、系统、设备及计算机可读存储介质，用于对个股公告进行分类。

为解决上述技术问题，本申请提供一种个股公告分类的方法，该方法包括：

根据接收到的分类样例建立训练集和测试集；

利用所述训练集对预设模型进行训练，得到分类模型；

利用所述测试集对所述分类模型进行测试，并判断所述分类模型是否通过测试；

若是，则利用所述分类模型对接收到的个股公告进行分类。

可选的，在利用所述分类模型对接收到的个股公告进行分类之前，还包括：

依据预设金融辞典对各所述个股公告进行分词处理对应得到各文本文件；

将各所述文本文件作为训练语料对词向量文件进行训练；

从所述词向量文件中提取出相似程度在第一阈值以上的词语并输出，以使用户对各所述相似程度在第一阈值以上的词语进行人工标注；

当接收用户输入的第一标注文件时，解析所述第一标注文件得到各同义词语，并将各所述文本文件中的同义词语进行替换。

可选的，所述预设金融辞典的建立过程包括：

在接收到的样例文件中提取出高频词汇及重要词语并输出，以使用户对所述及所述进行人工标注；

当接收用户输入的第二标注文件时，根据所述第二标注文件建立jieba分词的用户自定义辞典；

当接收用户输入的用户金融辞典时，为所述用户金融词典中的词语设置词频，并根据所述用户金融辞典对所述用户自定义辞典进行补充，得到所述预设金融辞典。

提取各所述个股公告的标题中的频繁子集；

获取各所述频繁子集中的关键字在各所述个股公告的正文中出现的频率，并按照各所述频率对各所述关键字进行排序；

根据排序后的频繁子集对各所述个股公告的标题进行匹配分类。

本申请还提供一种个股公告分类的系统，该系统包括：

第一建立模块，用于根据接收到的分类样例建立训练集和测试集；

第一训练模块，用于利用所述训练集对预设模型进行训练，得到分类模型；

测试模块，用于利用所述测试集对所述分类模型进行测试，并判断所述分类模型是否通过测试；

分类模块，用于当所述分类模型通过测试时，利用所述分类模型对接收到的个股公告进行分类。

可选的，还包括：

分词模块，用于依据预设金融辞典对各所述个股公告进行分词处理对应得到各文本文件；

第二训练模块，用于将各所述文本文件作为训练语料对词向量文件进行训练；

第一提取模块，用于从所述词向量文件中提取出相似程度在第一阈值以上的词语并输出，以使用户对各所述相似程度在第一阈值以上的词语进行人工标注；

替换模块，用于当接收用户输入的第一标注文件时，解析所述第一标注文件得到各同义词语，并将各所述文本文件中的同义词语进行替换。

可选的，还包括：

第二提取模块，用于在接收到的样例文件中提取出高频词汇及重要词语并输出，以使用户对所述及所述进行人工标注；

第二建立模块，用于当接收用户输入的第二标注文件时，根据所述第二标注文件建立jieba分词的用户自定义辞典；

补充模块，用于当接收用户输入的用户金融辞典时，为所述用户金融词典中的词语设置词频，并根据所述用户金融辞典对所述用户自定义辞典进行补充，得到所述预设金融辞典。

可选的，还包括：

第三提取模块，用于提取各所述个股公告的标题中的频繁子集；

排序模块，用于获取各所述频繁子集中的关键字在各所述个股公告的正文中出现的频率，并按照各所述频率对各所述关键字进行排序；

匹配分类模块，用于根据排序后的频繁子集对各所述个股公告的标题进行匹配分类。

本申请还提供一种个股公告分类设备，该个股公告分类设备包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述任一项所述个股公告分类的方法的步骤。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一项所述个股公告分类的方法的步骤。

本申请所提供个股公告分类的方法，包括：根据接收到的分类样例建立训练集和测试集；利用训练集对预设模型进行训练，得到分类模型；利用测试集对分类模型进行测试，并判断分类模型是否通过测试；若是，则利用分类模型对接收到的个股公告进行分类。

本申请所提供的技术方案，通过先根据接收到的分类样例建立训练集和测试集，再利用训练集对预设模型进行训练，得到分类模型；同时，为防止得到的分类模型不符合要求，利用测试集对分类模型进行测试，并判断分类模型是否通过测试，当测试通过时，再利用分类模型对接收到的个股公告进行分类，以得到分类后的各类个股公告，方便用户快速准确的获取到目标类型的个股公告中的信息，进而便于用户做出相应决策。本申请同时还提供了一种个股公告分类的系统、设备及计算机可读存储介质，具有上述有益效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的一种个股公告分类的方法的流程图；

图2为本申请实施例所提供的另一种个股公告分类的方法的流程图；

图3为本申请实施例所提供的一种个股公告分类的系统的结构图；

图4为本申请实施例所提供的另一种个股公告分类的系统的结构图；

图5为本申请实施例所提供的一种个股公告分类设备的结构图。

具体实施方式

本申请的核心是提供一种个股公告分类的方法、系统、设备及计算机可读存储介质，用于对个股公告进行分类。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参考图1，图1为本申请实施例所提供的一种个股公告分类的方法的流程图。

其具体包括如下步骤：

S101：根据接收到的分类样例建立训练集和测试集；

基于现有技术中个股公告的类型大致可以包括业绩公告、股东高管任免公告、资产重组公告和会议召开公告等类型，而随着互联网技术的发展，互联网上的信息量呈爆炸式增长，各种类型的个股公告混杂在一起，这使得用户无法快速准确的获取到目标类型的个股公告中的信息，本申请提供了一种个股公告分类的方法，用于对个股公告进行分类；

这里提到的分类样例具体为人工分类完成的个股公告样例，进一步的，训练集可以根据“资产重组”事件的正负样例、“利润分配”事件的正负样例，按照正负样本中数量较少的一组的90％的比例随机抽取建立得到；其中，正负样例分别为属于该类别的数据和不属于该类别的数据；测试集可以为从分类样例中去除训练集剩余的数据。

S102：利用训练集对预设模型进行训练，得到分类模型；

优选的，这里提到的训练图像集训练预设的卷积神经网络，可以包括如下训练步骤：

利用训练集训练预设的Facebook开源的Fasttext软件包，可以在迭代三十万次后停止训练，得到分类模型，并达到通过该分类模型，当接收到一份个股公告时，可以快速确定该个股公告的类型的效果；由于本申请是基于训练个股公告的模式发现其类别特征规则，因此在训练过程中可以通过设置合适的学习率及批大小(每次迭代的个股公告数量)达到使模型收敛的目的。

S103：利用测试集对分类模型进行测试，并判断分类模型是否通过测试；

若是，则进入步骤S104；

当该分类模型通过测试时，则表明该分类模型能够完成训练集中的分类任务，即该分类模型符合要求，此时进入步骤S104中，利用该分类模型对接收到的个股公告进行分类；

这里提到的判断分类模型是否通过测试，其具体可以为根据分类正确度来判断，当分类正确度超过阈值时，则认为该分类模型通过测试；

可选的，当该分类模型未通过测试时，则证明该分类模型准确度较低，此时还可输出相关提示信息，以使用户对分类模型或测试集进行调整。

S104：利用分类模型对接收到的个股公告进行分类。

这里提到的个股公告的类型可以包括业绩公告、股东高管任免公告、资产重组公告和会议召开公告等类型中的至少一项；

优选的，为进一步提高个股公告分类的准确度，在利用分类模型对接收到的个股公告进行分类之前，还可以现根据个股公告的标题进行匹配分类，其具体可包括如下步骤：

提取各个股公告的标题中的频繁子集；

获取各频繁子集中的关键字在各个股公告的正文中出现的频率，并按照各频率对各关键字进行排序；

根据排序后的频繁子集对各个股公告的标题进行匹配分类。

具体的，可以利用Spark实现的FP-growth算法进行各个股公告的标题中频繁子集的提取，挖掘出标题中的频繁子集，对其中的词语按照在文中出现频率进行排序，再根据排序后的频繁子集对各个股公告的标题进行匹配分类；

进一步的，还可以输出各频繁子集，以使用户标记频繁子集中各个词语是否相连，并将所得结果进行人工标注，提取出对分类问题有意义的频繁子集，将其输入到系统中，系统根据接收到的频繁子集对各个股公告的标题进行匹配分类。

基于上述技术方案，本申请所提供的一种个股公告分类的方法，通过先根据接收到的分类样例建立训练集和测试集，再利用训练集对预设模型进行训练，得到分类模型；同时，为防止得到的分类模型不符合要求，利用测试集对分类模型进行测试，并判断分类模型是否通过测试，当测试通过时，再利用分类模型对接收到的个股公告进行分类，以得到分类后的各类个股公告，方便用户快速准确的获取到目标类型的个股公告中的信息，进而便于用户做出相应决策。

针对于上一实施例的步骤S104，在利用分类模型对接收到的个股公告进行分类之前，还可以通过将个股公告中的同义词语进行合并，以降低系统计算量，下面结合图2进行说明。

请参考图2，图2为本申请实施例所提供的另一种个股公告分类的方法的流程图。

其具体包括以下步骤：

S201：依据预设金融辞典对各个股公告进行分词处理对应得到各文本文件；

优选的，这里提到的预设金融词典的建立过程具体可以为：

在接收到的样例文件中提取出高频词汇及重要词语并输出，以使用户对及进行人工标注；

当接收用户输入的第二标注文件时，根据第二标注文件建立jieba分词的用户自定义辞典；

当接收用户输入的用户金融辞典时，为用户金融词典中的词语设置词频，并根据用户金融辞典对用户自定义辞典进行补充，得到预设金融辞典。

可选的，为进一步在增加分词的准确性，还可以利用FP-growth算法，在支持度为0.0003的情况下提取频繁子集，再进一步提取通过“包含关系”提取出最长串，并区分长串中各个词语在文本中连接与否，以使用户通过人工标注确定应连接为一个词语的串，对进行进一步的补充，进而使得在分词过程中金融领域的词语以及相关词语分词准确。

S202：将各文本文件作为训练语料对词向量文件进行训练；

S203：从词向量文件中提取出相似程度在第一阈值以上的词语并输出，以使用户对各相似程度在第一阈值以上的词语进行人工标注；

S204：当接收用户输入的第一标注文件时，解析第一标注文件得到各同义词语，并将各文本文件中的同义词语进行替换。

基于不同的个股公告的文本中存在着不同词语含义相同的情况，或者这些词语在分类任务中含义相似，可以视为一个词，例如“高管”、“高级管理人员”、“总裁”等，可以将这些词语映射为同一个词语，以便于排除干扰；

具体的，可以利用Google开源的word2vec软件，以全部分词后的文本作为训练语料训练词向量文件，从中提取出相似程度在0.85以上的词语进行人工标注，对于可以认为是同义的词语，在标题和文本分词阶段进行替换，进而排除干扰，并降低系统计算量。

请参考图3，图3为本申请实施例所提供的一种个股公告分类的系统的结构图。

该系统可以包括：

第一建立模块100，用于根据接收到的分类样例建立训练集和测试集；

第一训练模块200，用于利用训练集对预设模型进行训练，得到分类模型；

测试模块300，用于利用测试集对分类模型进行测试，并判断分类模型是否通过测试；

分类模块400，用于当分类模型通过测试时，利用分类模型对接收到的个股公告进行分类。

请参考图4，图4为本申请实施例所提供的另一种个股公告分类的系统的结构图。

该系统还可以包括：

分词模块，用于依据预设金融辞典对各个股公告进行分词处理对应得到各文本文件；

第二训练模块，用于将各文本文件作为训练语料对词向量文件进行训练；

第一提取模块，用于从词向量文件中提取出相似程度在第一阈值以上的词语并输出，以使用户对各相似程度在第一阈值以上的词语进行人工标注；

替换模块，用于当接收用户输入的第一标注文件时，解析第一标注文件得到各同义词语，并将各文本文件中的同义词语进行替换。

该系统还可以包括：

第二提取模块，用于在接收到的样例文件中提取出高频词汇及重要词语并输出，以使用户对及进行人工标注；

第二建立模块，用于当接收用户输入的第二标注文件时，根据第二标注文件建立jieba分词的用户自定义辞典；

补充模块，用于当接收用户输入的用户金融辞典时，为用户金融词典中的词语设置词频，并根据用户金融辞典对用户自定义辞典进行补充，得到预设金融辞典。

该系统还可以包括：

第三提取模块，用于提取各个股公告的标题中的频繁子集；

排序模块，用于获取各频繁子集中的关键字在各个股公告的正文中出现的频率，并按照各频率对各关键字进行排序；

匹配分类模块，用于根据排序后的频繁子集对各个股公告的标题进行匹配分类。

以上系统中的各个组成部分可实际应用于以下的实施例中：

第一建立模块根据接收到的分类样例建立训练集和测试集；第一训练模块利用训练集对预设模型进行训练，得到分类模型；测试模块利用测试集对分类模型进行测试，并判断分类模型是否通过测试；当分类模型通过测试时，分类模块利用分类模型对接收到的个股公告进行分类。

第二提取模块在接收到的样例文件中提取出高频词汇及重要词语并输出，以使用户对及进行人工标注；当接收用户输入的第二标注文件时，第二建立模块根据第二标注文件建立jieba分词的用户自定义辞典；当接收用户输入的用户金融辞典时，补充模块为用户金融词典中的词语设置词频，并根据用户金融辞典对用户自定义辞典进行补充，得到预设金融辞典；

分词模块依据预设金融辞典对各个股公告进行分词处理对应得到各文本文件；第二训练模块将各文本文件作为训练语料对词向量文件进行训练；第一提取模块从词向量文件中提取出相似程度在第一阈值以上的词语并输出，以使用户对各相似程度在第一阈值以上的词语进行人工标注；当接收用户输入的第一标注文件时，替换模块解析第一标注文件得到各同义词语，并将各文本文件中的同义词语进行替换；

第三提取模块提取各个股公告的标题中的频繁子集；

排序模块获取各频繁子集中的关键字在各个股公告的正文中出现的频率，并按照各频率对各关键字进行排序；

匹配分类模块根据排序后的频繁子集对各个股公告的标题进行匹配分类。

请参考图5，图5为本申请实施例所提供的一种个股公告分类设备的结构图。

该个股公告分类设备600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)622(例如，一个或一个以上处理器)和存储器632，一个或一个以上存储应用程序642或数据644的存储介质630(例如一个或一个以上海量存储设备)。其中，存储器632和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对装置中的一系列指令操作。更进一步地，中央处理器622可以设置为与存储介质630通信，在个股公告分类设备600上执行存储介质630中的一系列指令操作。

个股公告分类设备600还可以包括一个或一个以上电源626，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口658，和/或，一个或一个以上操作系统641，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述图1至图2所描述的个股公告分类的方法中的步骤由个股公告分类设备基于该图5所示的结构实现。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置、设备和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，功能调用装置，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上对本申请所提供的一种个股公告分类的方法、系统、设备及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种个股公告分类的方法，其特征在于，包括：

根据接收到的分类样例建立训练集和测试集；

利用所述训练集对预设模型进行训练，得到分类模型；

若是，则利用所述分类模型对接收到的个股公告进行分类。

2.根据权利要求1所述的方法，其特征在于，在利用所述分类模型对接收到的个股公告进行分类之前，还包括：

将各所述文本文件作为训练语料对词向量文件进行训练；

3.根据权利要求2所述的方法，其特征在于，所述预设金融辞典的建立过程包括：

4.根据权利要求1所述的方法，其特征在于，在利用所述分类模型对接收到的个股公告进行分类之前，还包括：

提取各所述个股公告的标题中的频繁子集；

5.一种个股公告分类的系统，其特征在于，包括：

6.根据权利要求5所述的系统，其特征在于，还包括：

7.根据权利要求6所述的系统，其特征在于，还包括：

8.根据权利要求5所述的系统，其特征在于，还包括：

9.一种个股公告分类设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至4任一项所述个股公告分类的方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述个股公告分类的方法的步骤。