CN106227722B

CN106227722B - 一种基于上市公司公告摘要的自动提取方法

Info

Publication number: CN106227722B
Application number: CN201610817960.6A
Authority: CN
Inventors: 郑子彬; 李阳
Original assignee: National Sun Yat Sen University
Current assignee: National Sun Yat Sen University
Priority date: 2016-09-12
Filing date: 2016-09-12
Publication date: 2019-07-05
Anticipated expiration: 2036-09-12
Also published as: CN106227722A

Abstract

本发明涉及一种基于上市公司公告摘要的自动提取方法，包括以下步骤：S1：从证券交易所中爬取上市公司公告文档形成公告文档数据库；S2：采用word2vec模型，从文本语料得到词向量；S3：计算句子之间相似度，构建句子图模型；S4：计算句子的权重；S5：根据句子位置调整句子权重矩阵；S6:选择权重最大且无冗余的句子组成摘要。基于上市公司公告摘要的自动提取技术，为金融市场的投资者提供准确且可读性较高的摘要文档，帮助投资者更短时间理解以及更好的做出投资判断，同时为量化基金公司提供重要的指标。

Description

一种基于上市公司公告摘要的自动提取方法

技术领域

本发明涉及数据提取领域，特别涉及一种基于上市公司公告摘要的自动提取方法。

背景技术

截至2016年6月中旬，沪深两市一共有2832只股票，每天发布的公告高达几百到上千篇。随着互联网的高速发展，编辑的成本越来越低，信息的传播越来越快，每天的公告数也在迅速增加。当前上市公司公告普遍较为冗长而且术语专业，然而目前中国大部分投资者是散户，没有充裕的时间仔细阅读公告，而且对于普通投资者来说很难快速甄别其中重要内容，做出合理的判断，所以将冗长的公告信息转化成摘要(由几个关键句子组成的短文档，短文档对于公告信息具有总结和概括作用)是非常重要且有价值的，将会有利于普通消费者更好、更加快速的识别内容，同时更短时间地进行解读以及做出判断，另外现在量化交易在国内非常的火，所以自动摘要提取也可以为量化交易人员快速的提取关键内容，通过对其量化，形成一系列有价值的指标，从而产生一定的价值，更加利于指导量化投资。

自动摘要技术现主要为抽取型摘要，即从原文中抽取最重要的句子组成摘要，常见的文档摘要技术包括基于特征的方法以及基于图排序的方法。

基于特征的方法。Luhn在1958年发表的论文指出，频繁出现的单词与文章主题有比较大的关联，因此可以根据各单词出现的频率给文中的句子计分，TF*IDF是最常见的一种方法，通过这种方法可以选择出得分最高的几个句子组成文章的摘要，这一类的方法计算方便，易于实现，但是该方法偏于高频词，往往只会涵盖部分的主题，特别对于上市公司公告而言，很多词频较高的句子并不是最核心的句子，所以这种自动摘要提取的方式准确率比较低。到了20世纪90年代，随着机器学习在自然语言处理领域的兴起，很多方法将自动摘要问题转化成一个分类问题，例如通过朴素贝叶斯分类模型去判定文章里的每个句子是否应该抽取为摘要，通过有监督的训练，从而找出应该抽取为摘要的句子，当然也有通过聚类的方式，即对候选的文本摘要句子进行聚类，通过对每一个聚类的句子排序，最后取每个聚类的前n个句子作为文档摘要。最近提出了有关于结合LDA的模型，具体是首先提取句子的基础特征，然后通过文档和句子的LDA主题概率分布模型，得到句子模型和文档模型之间的主题相似度特征，最后融合以上两类特征抽取得分高的句子作为摘要。但是在公司公告摘要的提取中，并没有取得很好的效果，另外在分类的时候，需要标注数据，不同的人的判断标准不一样，具有一定主观性，所以机器学习的方式仍然需要一定的发展。

基于图排序的方法。基于图排序的自动摘要技术一般思想是把文章分解成若干个单元，将其映射到图模型，每一个句子对应一个图的顶点，句子与句子之间形成无向边，句子与句子之间的相似度为无向边的权重，最后通过图排序的算法(PageRank、HITS等)迭代计算节点句子的权重，最后将权重较大的句子按照出现在文档中的先后顺序加入摘要。但是基于图排序的方法在计算句子间的相似度中存在缺陷，忽略了上市公司公告所特有的特征。上市公司公告文档的标题往往含有了很多关键信息，那么与公告的标题相似度高的句子成为摘要的可能性较大，那么这个句子对周围的句子的影响也会比较大，另外上市公司发布公告往往包含很多的关键术语(重组、配股、回购、增发、净利润、同期增减、风险等)，而这些关键术语所在的句子成为摘要的可能性也比较大，当然公司公告往往比较规范，所以句子在段落中的位置也包含了很多的信息，所以仅用句子之间的相似性的方法没有考虑到这诸多的因素，导致影响了节点句子权重的准确性，影响了形成的摘要的准确性。

发明内容

本发明的目的是针对上述问题，提供一种基于上市公司公告摘要的自动提取方法。

本发明的技术方案是：

一种基于上市公司公告摘要的自动提取方法，包括以下步骤：

S1：从证券交易所中爬取上市公司公告文档形成公告文档数据库；

S2：采用word2vec模型，从文本语料得到词向量；

S3：计算句子之间相似度，构建句子图模型；

S4：计算句子的权重；

S5：根据句子位置调整句子权重矩阵；

S6:选择权重最大且无冗余的句子组成摘要。

进一步的，步骤S1中每一个文档作为待提取摘要的目标文档。

进一步的，在于步骤S2具体包括以下步骤：

(1)对公告文档进行分词处理；

(2)构建Huffman树；

(3)采用CBOW模型进行词向量的训练。

进一步的，步骤S2的步骤(1)具体为过滤掉低频词以及去掉停用词、特殊符号、标点符号和一些标记信息。

进一步的，步骤S2的步骤(2)具体为在构建的Huffman树中，所有的非叶节点存储有一个参数向量，所有的叶节点分别代表了词典中的一个词，参数向量初始值为0，Huffman树构建完成之后，将对应的Huffman码分配给每个单词，随机初始化每个单词的词向量。

进一步的，步骤S2的步骤(3)具体为CBOW模型，采用分层训练的策略，优化的目标函数为：

L＝Σlogp(w|Context(w))

其中w为单词，Context(w)为上下文，代表单词w前后有c个单词，其中c称为预选窗口，在构造p(w|Context(w))中，同时CBOW采用了层次softmax算法，该算法结合了Huffman编码，每个词w都可以从树的根结点root沿着唯一一条路径被访问到，其路径也就形成了其编码code，假设n(w，j)为这条路径上的第j个结点，且L(w)为这条路径的长度，j从1开始编码，即n(w，1)＝root，n(w，L(w))＝w,对于第j个结点，层次Softmax定义的Label为1-code[j]，在构造完成之后，从根节点依次到目标词w通过概率乘积，即可得到目标词w在当前网络下的概率p(w|Context(w))，接下来用梯度下降的方法求解参数。

进一步的，所述用梯度下降的方法求解参数具体为利用正负样本不断训练，求解输出值与真实值误差，然后用梯度下降的方法求解各边权重参数值的，从而依次可以得到每一个单词的词向量。

进一步的，步骤S3具体包括以下步骤：句子相似度主要通过三个维度计算得到：

第一个维度计算句子与句子之间的相似度，采用词向量的余弦关系来表示：

其中分别代表句子s_i，s_j的特征词向量集合，均是经过word2vec训练得到的，为了保证句子向量的长度是相同的，我们采用添加停用词和删掉不重要的词的方式；

第二个维度计算句子与标题的相似度，通过如下公式获得：

其中|p₀|，|p_j|分别代表句子p₀，p_j中特征词的个数，w_k代表第k个特征词；

第三个维度计算句子与候选关键术语的相似度，通过如下公式获得：

其中|p_j|，|q|分别代表句子p_j，q中特征词的个数，w_k代表第k个特征词；

将每一个句子作为图模型的顶点，而上述计算得到句子与句子之间的相似度作为图模型中节点句子与节点句子之间的权重，构建的图模型为一个有权无向图。

进一步的，步骤S4具体包括以下步骤：利用步骤S3的所得到的句子之间的相关性以及句子初始权重利用如下公式迭代更新各个节点的权重，直到收敛；

由于最后的迭代会收敛，即跟初始权重没有关系，所以定义初始权重为平均初始权重：

更新迭代公式为：

其中，wt(s_i)代表句子s_i的权重，d为阻尼系数，取值范围为0-1，通常情况优先选0.85，group(s_j)表示和s_j相连的所有句子集合的相似度总和。α代表句子与句子的相似度权重，β代表句子与标题的相似度权重，γ代表句子与关键术语的相似度权重，其中α，β，γ可以人工动态调整或通过有监督的形式，利用遗传算法学习得到。

进一步的，步骤S5具体包括以下步骤：根据句子在每一个段落的位置，调整相关的权重，通过如下公式获得：

B(s_i)＝ω×e^-i/θ

其中，ω为一个控制句子权重相对大小的常数，θ为一个控制句子权重衰减的常数，i代表在一个段落中第i个句子；

在步骤S4得到的句子的权重基础上，利用每一个段落中句子的位置同时更新句子权重矩阵，得到最终的权重矩阵：wt＝wt*B^T

其中B^T代表上述根据句子位置调整的权重矩阵的转置。

进一步的，步骤S6具体包括以下步骤：选择S5中形成的权重矩阵中得分Top k作为目标文档的摘要句子，并且按照相关顺序组成完整的摘要文档。

本发明的有益效果是，基于上市公司公告摘要的自动提取技术，为金融市场的投资者提供准确且可读性较高的摘要文档，帮助投资者更短时间理解以及更好的做出投资判断，同时为量化基金公司提供重要的指标。

附图说明

图1为一种基于上市公司公告摘要的自动提取方法流程图。

具体实施方式

为了使本发明的目的、技术方案以及优点阐述的更加清楚明白，以下参照附图1做进一步详细的说明。

一种基于上市公司公告摘要的自动提取方法，具体包含如下步骤：

S1:从证券交易所中爬取上市公司公告文档形成公告文档数据库，其中每一个文档作为待提取摘要的目标文档；

S2:采用word2vec模型，从文本语料得到词向量；

具体步骤包含:

(1)分词；

对公告文档进行分词处理，过滤掉低频词以及去掉停用词、特殊符号、标点符号和一些标记信息；

(2)构建Huffman树；

构建的Huffman树中，所有的非叶节点存储有一个参数向量，所有的叶节点分别代表了词典中的一个词，参数向量初始值为0，Huffman树构建完成之后，将对应的Huffman码分配给每个单词，随机初始化每个单词的词向量；

(3)训练；

word2vec常用的训练模型为CBOW(continuous bag-of-words model)与Skip-Gram，这里采用CBOW进行词向量的训练，具体为：

CBOW模型，采用分层训练的策略，优化的目标函数为：

L＝∑logp(w|Context(w))

其中w为单词，Context(w)为上下文，代表单词w前后有c个单词，其中c称为预选窗口，在构造p(w|Context(w))中，CBOW模型共分为三层:输入层、隐含层和输出层，输入层是初始词向量，隐含层是向量累加和，输出层为哈夫曼二叉树，父节点的左孩子节点代表所表示单词向量在父节点单词向量前面的概率，父节点的右孩子节点代表所表示单词向量在父节点单词向量后面的概率，隐层节点和输出层二叉树所有非叶节点连接。

同时CBOW采用了层次softmax算法，该算法结合了Huffman编码，每个词w都可以从树的根结点root沿着唯一一条路径被访问到，其路径也就形成了其编码code。假设n(w，j)为这条路径上的第j个结点，且L(w)为这条路径的长度，j从1开始编码，即n(w，1)＝root，n(w，L(w))＝w。对于第j个结点，层次Softmax定义的Label为1-code[j]。

在构造完成之后，从根节点依次到目标词w通过概率乘积，即可得到目标词w在当前网络下的概率p(w|Context(w))，接下来用梯度下降的方法求解参数即可。原理与神经网络训练方法相似，利用正负样本不断训练，求解输出值与真实值误差，然后用梯度下降的方法求解各边权重参数值的，从而依次可以得到每一个单词的词向量。

S3:计算句子之间相似度，构建句子图模型；

句子相似度主要通过三个维度计算得到：

第一个维度计算句子与句子之间的相似度，由于句子与句子之间的关系复杂，简单的通过词对比的方式并不能有效的找出其中的相似关系，所以采用词向量的余弦关系来表示：

其中分别代表句子s_i，s_j的特征词向量集合，均是经过word2vec训练得到的，为了保证句子向量的长度是相同的，我们采用添加停用词和删掉不重要的词的方式。

第二个维度计算句子与标题的相似度，由于标题形成的词向量只包含几个特定而且精确的词语，所以比较适合用一般相似性的计算方法，通过如下公式获得：

其中|p₀|，|p_j|分别代表句子p₀，p_j中特征词的个数，w_k代表第k个特征词。

第三个维度计算句子与候选关键术语的相似度，由于候选关键术语也是具有特定而且精确的描述，所以比较适合用与标题同样的计算方法，通过如下公式获得：

其中|p_j|，|q|分别代表句子p_j，q中特征词的个数，w_k代表第k个特征词。

S4:计算句子的权重；

经典的TextRank算法是在Google公司PageRank算法的启发下，利用投票的原理让每一个节点为它的邻居节点投赞成票，票的权重取决于节点本身的票数，在TextRank算法中，句子相当于节点，而句子与句子的相似度为节点与节点之间的链接关系，表示为边的权重，依次可以构成一个有权无向的网络图，同时TextRank算法借鉴了PageRank的计算方法，采用矩阵迭代的方式解决这个问题。具体的权重更新根据如下公式得到：

其中，wt(s_i)代表句子s_i的权重，d为阻尼系数，取值范围为0-1，通常情况优先选0.85，group(s_j)表示和s_j相连的句子集合的相似度总和。

但是经典的TextRank算法只考虑了句子与句子之间的相似性，而忽略了上市公司公告文档中很多重要的信息，首先基于词频的句子相似性，并不能很好的表征两个句子之间的相似性，所以在本发明中，采用word2vec将句子的词转化为数值词向量，可以很好的表征两个句子之间的相似度，另外，公告文档的标题一般是对公告的概述和总结，出现在标题中的词很可能是重要的特征词，这些特征词很大程度反映了公告的信息主题，所以文章中句子与标题相似度越高，说明这个句子的影响力越大，那么它被抽成摘要的可能性越大，以及它对与其周围相似的句子的影响力越大，另外上市公司公告文档基本上由关键的术语(重组、配股、回购、增发、净利润、同期增减、风险等)组成，所以句子中有类似关键术语的句子成为摘要的可能性也会增大。由于标题和关键术语特定而且精确，所以采用一般相似度计算，具体计算参照步骤S3。

利用步骤S3的所得到的句子之间的相关性以及句子初始权重利用如下公式迭代更新各个节点的权重，直到收敛。

更新迭代公式为：

其中，wt(s_i)代表句子s_i的权重，d为阻尼系数，取值范围为0-1，通常情况优先选0.85，group(s_j)表示和s_j相连的所有句子集合的相似度总和。α代表句子与句子的相似度权重，β代表句子与标题的相似度权重，γ代表句子与关键术语的相似度权重，其中α，β，γ可以人工动态调整，也可以通过有监督的形式，利用遗传算法学习得到。

S5:根据句子位置调整句子权重矩阵；

在一个段落中，句子的位置也会影响句子成为摘要的概率，美国RE.Baxendale的研究结果显示：人工摘要中选取段首句作为摘要的比例为85％，选取段尾句作为摘要的比例为7％，而上市公司公告通常在段首表明主要信息，然后详细陈述，基于以上信息，可以得到文档中段落句子位置是影响选取摘要的重要因素，基于此，对每一个段落中靠前的句子给予越大的权重提升，而越往后的句子给予递减的权重。

根据句子在每一个段落的位置，调整相关的权重，通过如下公式获得：

B(s_i)＝ω×e^-i/θ

其中，ω为一个控制句子权重相对大小的常数，θ为一个控制句子权重衰减的常数，i代表在一个段落中第i个句子。

在步骤S4得到的句子的权重基础上，利用每一个段落中句子的位置同时更新句子权重矩阵，得到最终的权重矩阵。

wt＝wt*B^T

其中B^T代表上述根据句子位置调整的权重矩阵的转置。

S6:选择权重最大且无冗余的句子组成摘要；

选择步骤S5中形成的权重矩阵中得分Top k作为目标文档的摘要句子，并且按照相关顺序组成完整的摘要文档。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于上市公司公告摘要的自动提取方法，其特征在于包括以下步骤：

S2：采用word2vec模型，从文本语料得到词向量；

S3：计算句子之间相似度，构建句子图模型；

S4：计算句子的权重；

S5：根据句子位置调整句子权重矩阵；

S6：选择权重最大且无冗余的句子组成摘要；

句子相似度主要通过三个维度计算得到：

其中分别代表句子si，sj的特征词向量集合，均是经过word2vec训练得到的，为了保证句子向量的长度是相同的，我们采用添加停用词和删掉不重要的词的方式；

第二个维度计算句子与标题的相似度，通过如下公式获得：

2.根据权利要求1所述的方法，其特征在于步骤S1中每一个文档作为待提取摘要的目标文档。

3.根据权利要求1所述的方法，其特征在于步骤S2具体包括以下步骤：

(1)对公告文档进行分词处理；

(2)构建Huffman树；

(3)采用CBOW模型进行词向量的训练。

4.根据权利要求3所述的方法，其特征在于步骤S2的步骤(1)具体为过滤掉低频词以及去掉停用词、特殊符号、标点符号和一些标记信息。

5.根据权利要求3所述的方法，其特征在于步骤S2的步骤(2)具体为在构建的Huffman树中，所有的非叶节点存储有一个参数向量，所有的叶节点分别代表了词典中的一个词，参数向量初始值为0，Huffman树构建完成之后，将对应的Huffman码分配给每个单词，随机初始化每个单词的词向量。

6.根据权利要求3所述的方法，其特征在于步骤S2的步骤(3)具体为CBOW模型，采用分层训练的策略，优化的目标函数为：

L＝∑logp(w|Context(w))

其中w为单词，Context(w)为上下文，代表单词w前后有c个单词，其中c称为预选窗口，在构造p(w|Context(w))中，同时CBOW采用了层次softmax算法，该算法结合了Huffman编码，每个词w都可以从树的根结点root沿着唯一一条路径被访问到，其路径也就形成了其编码code，假设n(w，j)为这条路径上的第j个结点，且L(w)为这条路径的长度，j从1开始编码，即n(w，1)＝root，n(w，L(w))＝w，对于第j个结点，层次Softmax定义的Label为1-code[j]，在构造完成之后，从根节点依次到目标词w通过概率乘积，即可得到目标词w在当前网络下的概率p(w|Context(w))，接下来用梯度下降的方法求解参数。

7.根据权利要求6所述的方法，其特征在于所述用梯度下降的方法求解参数具体为利用正负样本不断训练，求解输出值与真实值误差，然后用梯度下降的方法求解各边权重参数值的，从而依次可以得到每一个单词的词向量。

8.根据权利要求1所述的方法，其特征在于步骤S4具体包括以下步骤：利用步骤S3的所得到的句子之间的相关性以及句子初始权重利用如下公式迭代更新各个节点的权重，直到收敛；

N表示句子初始权重数；

更新迭代公式为：

其中，wt(s_i)代表句子s_i的权重，d为阻尼系数，取值范围为0-1，group(S_j)表示和S_j相连的所有句子集合的相似度总和；α代表句子与句子的相似度权重，β代表句子与标题的相似度权重，γ代表句子与关键术语的相似度权重，其中α，β，γ人工动态调整或通过有监督的形式，利用遗传算法学习得到。

9.根据权利要求1所述的方法，其特征在于步骤S5具体包括以下步骤：根据句子在每一个段落的位置，调整相关的权重，通过如下公式获得：

B(s_i)＝ω×e^-i/θ

其中B^T代表上述根据句子位置调整的权重矩阵的转置。