CN106227722A - 一种基于上市公司公告摘要的自动提取方法 - Google Patents
一种基于上市公司公告摘要的自动提取方法 Download PDFInfo
- Publication number
- CN106227722A CN106227722A CN201610817960.6A CN201610817960A CN106227722A CN 106227722 A CN106227722 A CN 106227722A CN 201610817960 A CN201610817960 A CN 201610817960A CN 106227722 A CN106227722 A CN 106227722A
- Authority
- CN
- China
- Prior art keywords
- sentence
- weight
- word
- similarity
- bulletin
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 10
- 239000011159 matrix material Substances 0.000 claims abstract description 16
- 239000000203 mixture Substances 0.000 claims abstract description 10
- 238000000034 method Methods 0.000 claims description 33
- 230000015572 biosynthetic process Effects 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 230000002068 genetic effect Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 241000208340 Araliaceae Species 0.000 claims 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims 2
- 235000003140 Panax quinquefolius Nutrition 0.000 claims 2
- 235000008434 ginseng Nutrition 0.000 claims 2
- 238000005516 engineering process Methods 0.000 abstract description 6
- 239000000284 extract Substances 0.000 description 7
- 238000000205 computational method Methods 0.000 description 3
- 230000000875 corresponding effect Effects 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 101000911390 Homo sapiens Coagulation factor VIII Proteins 0.000 description 2
- 230000001276 controlling effect Effects 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 102000057593 human F8 Human genes 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 229940047431 recombinate Drugs 0.000 description 2
- 101000911753 Homo sapiens Protein FAM107B Proteins 0.000 description 1
- 102100026983 Protein FAM107B Human genes 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于上市公司公告摘要的自动提取方法,包括以下步骤:S1:从证券交易所中爬取上市公司公告文档形成公告文档数据库;S2:采用word2vec模型,从文本语料得到词向量;S3:计算句子之间相似度,构建句子图模型;S4:计算句子的权重;S5:根据句子位置调整句子权重矩阵;S6:选择权重最大且无冗余的句子组成摘要。基于上市公司公告摘要的自动提取技术,为金融市场的投资者提供准确且可读性较高的摘要文档,帮助投资者更短时间理解以及更好的做出投资判断,同时为量化基金公司提供重要的指标。
Description
技术领域
本发明涉及数据提取领域,特别涉及一种基于上市公司公告摘要的自动提取方法。
背景技术
截至2016年6月中旬,沪深两市一共有2832只股票,每天发布的公告高达几百到上千篇。随着互联网的高速发展,编辑的成本越来越低,信息的传播越来越快,每天的公告数也在迅速增加。当前上市公司公告普遍较为冗长而且术语专业,然而目前中国大部分投资者是散户,没有充裕的时间仔细阅读公告,而且对于普通投资者来说很难快速甄别其中重要内容,做出合理的判断,所以将冗长的公告信息转化成摘要(由几个关键句子组成的短文档,短文档对于公告信息具有总结和概括作用)是非常重要且有价值的,将会有利于普通消费者更好、更加快速的识别内容,同时更短时间地进行解读以及做出判断,另外现在量化交易在国内非常的火,所以自动摘要提取也可以为量化交易人员快速的提取关键内容,通过对其量化,形成一系列有价值的指标,从而产生一定的价值,更加利于指导量化投资。
自动摘要技术现主要为抽取型摘要,即从原文中抽取最重要的句子组成摘要,常见的文档摘要技术包括基于特征的方法以及基于图排序的方法。
基于特征的方法。Luhn在1958年发表的论文指出,频繁出现的单词与文章主题有比较大的关联,因此可以根据各单词出现的频率给文中的句子计分,TF*IDF是最常见的一种方法,通过这种方法可以选择出得分最高的几个句子组成文章的摘要,这一类的方法计算方便,易于实现,但是该方法偏于高频词,往往只会涵盖部分的主题,特别对于上市公司公告而言,很多词频较高的句子并不是最核心的句子,所以这种自动摘要提取的方式准确率比较低。到了20世纪90年代,随着机器学习在自然语言处理领域的兴起,很多方法将自动摘要问题转化成一个分类问题,例如通过朴素贝叶斯分类模型去判定文章里的每个句子是否应该抽取为摘要,通过有监督的训练,从而找出应该抽取为摘要的句子,当然也有通过聚类的方式,即对候选的文本摘要句子进行聚类,通过对每一个聚类的句子排序,最后取每个聚类的前n个句子作为文档摘要。最近提出了有关于结合LDA的模型,具体是首先提取句子的基础特征,然后通过文档和句子的LDA主题概率分布模型,得到句子模型和文档模型之间的主题相似度特征,最后融合以上两类特征抽取得分高的句子作为摘要。但是在公司公告摘要的提取中,并没有取得很好的效果,另外在分类的时候,需要标注数据,不同的人的判断标准不一样,具有一定主观性,所以机器学习的方式仍然需要一定的发展。
基于图排序的方法。基于图排序的自动摘要技术一般思想是把文章分解成若干个单元,将其映射到图模型,每一个句子对应一个图的顶点,句子与句子之间形成无向边,句子与句子之间的相似度为无向边的权重,最后通过图排序的算法(PageRank、HITS等)迭代计算节点句子的权重,最后将权重较大的句子按照出现在文档中的先后顺序加入摘要。但是基于图排序的方法在计算句子间的相似度中存在缺陷,忽略了上市公司公告所特有的特征。上市公司公告文档的标题往往含有了很多关键信息,那么与公告的标题相似度高的句子成为摘要的可能性较大,那么这个句子对周围的句子的影响也会比较大,另外上市公司发布公告往往包含很多的关键术语(重组、配股、回购、增发、净利润、同期增减、风险等),而这些关键术语所在的句子成为摘要的可能性也比较大,当然公司公告往往比较规范,所以句子在段落中的位置也包含了很多的信息,所以仅用句子之间的相似性的方法没有考虑到这诸多的因素,导致影响了节点句子权重的准确性,影响了形成的摘要的准确性。
发明内容
本发明的目的是针对上述问题,提供一种基于上市公司公告摘要的自动提取方法。
本发明的技术方案是:
一种基于上市公司公告摘要的自动提取方法,包括以下步骤:
S1:从证券交易所中爬取上市公司公告文档形成公告文档数据库;
S2:采用word2vec模型,从文本语料得到词向量;
S3:计算句子之间相似度,构建句子图模型;
S4:计算句子的权重;
S5:根据句子位置调整句子权重矩阵;
S6:选择权重最大且无冗余的句子组成摘要。
进一步的,步骤S1中每一个文档作为待提取摘要的目标文档。
进一步的,在于步骤S2具体包括以下步骤:
(1)对公告文档进行分词处理;
(2)构建Huffman树;
(3)采用CBOW模型进行词向量的训练。
进一步的,步骤S2的步骤(1)具体为过滤掉低频词以及去掉停用词、特殊符号、标点符号和一些标记信息。
进一步的,步骤S2的步骤(2)具体为在构建的Huffman树中,所有的非叶节点存储有一个参数向量,所有的叶节点分别代表了词典中的一个词,参数向量初始值为0,Huffman树构建完成之后,将对应的Huffman码分配给每个单词,随机初始化每个单词的词向量。
进一步的,步骤S2的步骤(3)具体为CBOW模型,采用分层训练的策略,优化的目标函数为:
L=Σlogp(w|Context(w))
其中w为单词,Context(w)为上下文,代表单词w前后有c个单词,其中c称为预选窗口,在构造p(w|Context(w))中,同时CBOW采用了层次softmax算法,该算法结合了Huffman编码,每个词w都可以从树的根结点root沿着唯一一条路径被访问到,其路径也就形成了其编码code,假设n(w,j)为这条路径上的第j个结点,且L(w)为这条路径的长度,j从1开始编码,即n(w,1)=root,n(w,L(w))=w,对于第j个结点,层次Softmax定义的Label为1-code[j],在构造完成之后,从根节点依次到目标词w通过概率乘积,即可得到目标词w在当前网络下的概率p(w|Context(w)),接下来用梯度下降的方法求解参数。
进一步的,所述用梯度下降的方法求解参数具体为利用正负样本不断训练,求解输出值与真实值误差,然后用梯度下降的方法求解各边权重参数值的,从而依次可以得到每一个单词的词向量。
进一步的,步骤S3具体包括以下步骤:句子相似度主要通过三个维度计算得到:
第一个维度计算句子与句子之间的相似度,采用词向量的余弦关系来表示:
其中分别代表句子si,sj的特征词向量集合,均是经过word2vec训练得到的,为了保证句子向量的长度是相同的,我们采用添加停用词和删掉不重要的词的方式;
第二个维度计算句子与标题的相似度,通过如下公式获得:
其中|p0|,|pj|分别代表句子p0,pj中特征词的个数,wk代表第k个特征词;
第三个维度计算句子与候选关键术语的相似度,通过如下公式获得:
其中|pj|,|q|分别代表句子pj,q中特征词的个数,wk代表第k个特征词;
将每一个句子作为图模型的顶点,而上述计算得到句子与句子之间的相似度作为图模型中节点句子与节点句子之间的权重,构建的图模型为一个有权无向图。
进一步的,步骤S4具体包括以下步骤:利用步骤S3的所得到的句子之间的相关性以及句子初始权重利用如下公式迭代更新各个节点的权重,直到收敛;
由于最后的迭代会收敛,即跟初始权重没有关系,所以定义初始权重为平均初始权重:
更新迭代公式为:
其中,wt(si)代表句子si的权重,d为阻尼系数,取值范围为0-1,通常情况优先选0.85,group(sj)表示和sj相连的所有句子集合的相似度总和。α代表句子与句子的相似度权重,β代表句子与标题的相似度权重,γ代表句子与关键术语的相似度权重,其中α,β,γ可以人工动态调整或通过有监督的形式,利用遗传算法学习得到。
进一步的,步骤S5具体包括以下步骤:根据句子在每一个段落的位置,调整相关的权重,通过如下公式获得:
B(si)=ω×e-i/θ
其中,ω为一个控制句子权重相对大小的常数,θ为一个控制句子权重衰减的常数,i代表在一个段落中第i个句子;
在步骤S4得到的句子的权重基础上,利用每一个段落中句子的位置同时更新句子权重矩阵,得到最终的权重矩阵:wt=wt*BT
其中BT代表上述根据句子位置调整的权重矩阵的转置。
进一步的,步骤S6具体包括以下步骤:选择S5中形成的权重矩阵中得分Top k作为目标文档的摘要句子,并且按照相关顺序组成完整的摘要文档。
本发明的有益效果是,基于上市公司公告摘要的自动提取技术,为金融市场的投资者提供准确且可读性较高的摘要文档,帮助投资者更短时间理解以及更好的做出投资判断,同时为量化基金公司提供重要的指标。
附图说明
图1为一种基于上市公司公告摘要的自动提取方法流程图。
具体实施方式
为了使本发明的目的、技术方案以及优点阐述的更加清楚明白,以下参照附图1做进一步详细的说明。
一种基于上市公司公告摘要的自动提取方法,具体包含如下步骤:
S1:从证券交易所中爬取上市公司公告文档形成公告文档数据库,其中每一个文档作为待提取摘要的目标文档;
S2:采用word2vec模型,从文本语料得到词向量;
具体步骤包含:
(1)分词;
对公告文档进行分词处理,过滤掉低频词以及去掉停用词、特殊符号、标点符号和一些标记信息;
(2)构建Huffman树;
构建的Huffman树中,所有的非叶节点存储有一个参数向量,所有的叶节点分别代表了词典中的一个词,参数向量初始值为0,Huffman树构建完成之后,将对应的Huffman码分配给每个单词,随机初始化每个单词的词向量;
(3)训练;
word2vec常用的训练模型为CBOW(continuous bag-of-words model)与Skip-Gram,这里采用CBOW进行词向量的训练,具体为:
CBOW模型,采用分层训练的策略,优化的目标函数为:
L=∑logp(w|Context(w))
其中w为单词,Context(w)为上下文,代表单词w前后有c个单词,其中c称为预选窗口,在构造p(w|Context(w))中,CBOW模型共分为三层:输入层、隐含层和输出层,输入层是初始词向量,隐含层是向量累加和,输出层为哈夫曼二叉树,父节点的左孩子节点代表所表示单词向量在父节点单词向量前面的概率,父节点的右孩子节点代表所表示单词向量在父节点单词向量后面的概率,隐层节点和输出层二叉树所有非叶节点连接。
同时CBOW采用了层次softmax算法,该算法结合了Huffman编码,每个词w都可以从树的根结点root沿着唯一一条路径被访问到,其路径也就形成了其编码code。假设n(w,j)为这条路径上的第j个结点,且L(w)为这条路径的长度,j从1开始编码,即n(w,1)=root,n(w,L(w))=w。对于第j个结点,层次Softmax定义的Label为1-code[j]。
在构造完成之后,从根节点依次到目标词w通过概率乘积,即可得到目标词w在当前网络下的概率p(w|Context(w)),接下来用梯度下降的方法求解参数即可。原理与神经网络训练方法相似,利用正负样本不断训练,求解输出值与真实值误差,然后用梯度下降的方法求解各边权重参数值的,从而依次可以得到每一个单词的词向量。
S3:计算句子之间相似度,构建句子图模型;
句子相似度主要通过三个维度计算得到:
第一个维度计算句子与句子之间的相似度,由于句子与句子之间的关系复杂,简单的通过词对比的方式并不能有效的找出其中的相似关系,所以采用词向量的余弦关系来表示:
其中分别代表句子si,sj的特征词向量集合,均是经过word2vec训练得到的,为了保证句子向量的长度是相同的,我们采用添加停用词和删掉不重要的词的方式。
第二个维度计算句子与标题的相似度,由于标题形成的词向量只包含几个特定而且精确的词语,所以比较适合用一般相似性的计算方法,通过如下公式获得:
其中|p0|,|pj|分别代表句子p0,pj中特征词的个数,wk代表第k个特征词。
第三个维度计算句子与候选关键术语的相似度,由于候选关键术语也是具有特定而且精确的描述,所以比较适合用与标题同样的计算方法,通过如下公式获得:
其中|pj|,|q|分别代表句子pj,q中特征词的个数,wk代表第k个特征词。
将每一个句子作为图模型的顶点,而上述计算得到句子与句子之间的相似度作为图模型中节点句子与节点句子之间的权重,构建的图模型为一个有权无向图。
S4:计算句子的权重;
经典的TextRank算法是在Google公司PageRank算法的启发下,利用投票的原理让每一个节点为它的邻居节点投赞成票,票的权重取决于节点本身的票数,在TextRank算法中,句子相当于节点,而句子与句子的相似度为节点与节点之间的链接关系,表示为边的权重,依次可以构成一个有权无向的网络图,同时TextRank算法借鉴了PageRank的计算方法,采用矩阵迭代的方式解决这个问题。具体的权重更新根据如下公式得到:
其中,wt(si)代表句子si的权重,d为阻尼系数,取值范围为0-1,通常情况优先选0.85,group(sj)表示和sj相连的句子集合的相似度总和。
但是经典的TextRank算法只考虑了句子与句子之间的相似性,而忽略了上市公司公告文档中很多重要的信息,首先基于词频的句子相似性,并不能很好的表征两个句子之间的相似性,所以在本发明中,采用word2vec将句子的词转化为数值词向量,可以很好的表征两个句子之间的相似度,另外,公告文档的标题一般是对公告的概述和总结,出现在标题中的词很可能是重要的特征词,这些特征词很大程度反映了公告的信息主题,所以文章中句子与标题相似度越高,说明这个句子的影响力越大,那么它被抽成摘要的可能性越大,以及它对与其周围相似的句子的影响力越大,另外上市公司公告文档基本上由关键的术语(重组、配股、回购、增发、净利润、同期增减、风险等)组成,所以句子中有类似关键术语的句子成为摘要的可能性也会增大。由于标题和关键术语特定而且精确,所以采用一般相似度计算,具体计算参照步骤S3。
利用步骤S3的所得到的句子之间的相关性以及句子初始权重利用如下公式迭代更新各个节点的权重,直到收敛。
由于最后的迭代会收敛,即跟初始权重没有关系,所以定义初始权重为平均初始权重:
更新迭代公式为:
其中,wt(si)代表句子si的权重,d为阻尼系数,取值范围为0-1,通常情况优先选0.85,group(sj)表示和sj相连的所有句子集合的相似度总和。α代表句子与句子的相似度权重,β代表句子与标题的相似度权重,γ代表句子与关键术语的相似度权重,其中α,β,γ可以人工动态调整,也可以通过有监督的形式,利用遗传算法学习得到。
S5:根据句子位置调整句子权重矩阵;
在一个段落中,句子的位置也会影响句子成为摘要的概率,美国RE.Baxendale的研究结果显示:人工摘要中选取段首句作为摘要的比例为85%,选取段尾句作为摘要的比例为7%,而上市公司公告通常在段首表明主要信息,然后详细陈述,基于以上信息,可以得到文档中段落句子位置是影响选取摘要的重要因素,基于此,对每一个段落中靠前的句子给予越大的权重提升,而越往后的句子给予递减的权重。
根据句子在每一个段落的位置,调整相关的权重,通过如下公式获得:
B(si)=ω×e-i/θ
其中,ω为一个控制句子权重相对大小的常数,θ为一个控制句子权重衰减的常数,i代表在一个段落中第i个句子。
在步骤S4得到的句子的权重基础上,利用每一个段落中句子的位置同时更新句子权重矩阵,得到最终的权重矩阵。
wt=wt*BT
其中BT代表上述根据句子位置调整的权重矩阵的转置。
S6:选择权重最大且无冗余的句子组成摘要;
选择步骤S5中形成的权重矩阵中得分Top k作为目标文档的摘要句子,并且按照相关顺序组成完整的摘要文档。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (10)
1.一种基于上市公司公告摘要的自动提取方法,其特征在于包括以下步骤:
S1:从证券交易所中爬取上市公司公告文档形成公告文档数据库;
S2:采用word2vec模型,从文本语料得到词向量;
S3:计算句子之间相似度,构建句子图模型;
S4:计算句子的权重;
S5:根据句子位置调整句子权重矩阵;
S6:选择权重最大且无冗余的句子组成摘要。
2.根据权利要求1所述的方法,其特征在于步骤S1中每一个文档作为待提取摘要的目标文档。
3.根据权利要求1所述的方法,其特征在于步骤S2具体包括以下步骤:
(1)对公告文档进行分词处理;
(2)构建Huffman树;
(3)采用CBOW模型进行词向量的训练。
4.根据权利要求3所述的方法,其特征在于步骤S2的步骤(1)具体为过滤掉低频词以及去掉停用词、特殊符号、标点符号和一些标记信息。
5.根据权利要求3所述的方法,其特征在于步骤S2的步骤(2)具体为在构建的Huffman树中,所有的非叶节点存储有一个参数向量,所有的叶节点分别代表了词典中的一个词,参数向量初始值为0,Huffman树构建完成之后,将对应的Huffman码分配给每个单词,随机初始化每个单词的词向量。
6.根据权利要求3所述的方法,其特征在于步骤S2的步骤(3)具体为CBOW模型,采用分层训练的策略,优化的目标函数为:
L=∑logp(w|Context(w))
其中w为单词,Context(w)为上下文,代表单词w前后有c个单词,其中c称为预选窗口,在构造p(w|Context(w))中,同时CBOW采用了层次softmax算法,该算法结合了Huffman编码,每个词w都可以从树的根结点root沿着唯一一条路径被访问到,其路径也就形成了其编码code,假设n(w,j)为这条路径上的第j个结点,且L(w)为这条路径的长度,j从1开始编码,即n(w,1)=root,n(w,L(w))=w,对于第j个结点,层次Softmax定义的Label为1-code[j],在构造完成之后,从根节点依次到目标词w通过概率乘积,即可得到目标词w在当前网络下的概率p(w|Context(w)),接下来用梯度下降的方法求解参数。
7.根据权利要求6所述的方法,其特征在于所述用梯度下降的方法求解参数具体为利用正负样本不断训练,求解输出值与真实值误差,然后用梯度下降的方法求解各边权重参数值的,从而依次可以得到每一个单词的词向量。
8.根据权利要求1所述的方法,其特征在于步骤S3具体包括以下步骤:句子相似度主要通过三个维度计算得到:
第一个维度计算句子与句子之间的相似度,采用词向量的余弦关系来表示:
其中分别代表句子si,sj的特征词向量集合,均是经过word2vec训练得到的,为了保证句子向量的长度是相同的,我们采用添加停用词和删掉不重要的词的方式;
第二个维度计算句子与标题的相似度,通过如下公式获得:
其中|p0|,|pj|分别代表句子p0,pj中特征词的个数,wk代表第k个特征词;
第三个维度计算句子与候选关键术语的相似度,通过如下公式获得:
其中|pj|,|q|分别代表句子pj,q中特征词的个数,wk代表第k个特征词;
将每一个句子作为图模型的顶点,而上述计算得到句子与句子之间的相似度作为图模型中节点句子与节点句子之间的权重,构建的图模型为一个有权无向图。
9.根据权利要求1所述的方法,其特征在于步骤S4具体包括以下步骤:利用步骤S3的所得到的句子之间的相关性以及句子初始权重利用如下公式迭代更新各个节点的权重,直到收敛;
由于最后的迭代会收敛,即跟初始权重没有关系,所以定义初始权重为平均初始权重:
更新迭代公式为:
其中,wt(si)代表句子si的权重,d为阻尼系数,取值范围为0-1,通常情况优先选0.85,group(sj)表示和sj相连的所有句子集合的相似度总和。α代表句子与句子的相似度权重,β代表句子与标题的相似度权重,γ代表句子与关键术语的相似度权重,其中α,β,γ可以人工动态调整或通过有监督的形式,利用遗传算法学习得到。
10.根据权利要求1所述的方法,其特征在于步骤S5具体包括以下步骤:根据句子在每一个段落的位置,调整相关的权重,通过如下公式获得:
B(si)=ω×e-i/θ
其中,ω为一个控制句子权重相对大小的常数,θ为一个控制句子权重衰减的常数,i代表在一个段落中第i个句子;
在步骤S4得到的句子的权重基础上,利用每一个段落中句子的位置同时更新句子权重矩阵,得到最终的权重矩阵:wt=wt*BT
其中BT代表上述根据句子位置调整的权重矩阵的转置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610817960.6A CN106227722B (zh) | 2016-09-12 | 2016-09-12 | 一种基于上市公司公告摘要的自动提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610817960.6A CN106227722B (zh) | 2016-09-12 | 2016-09-12 | 一种基于上市公司公告摘要的自动提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106227722A true CN106227722A (zh) | 2016-12-14 |
CN106227722B CN106227722B (zh) | 2019-07-05 |
Family
ID=58073955
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610817960.6A Active CN106227722B (zh) | 2016-09-12 | 2016-09-12 | 一种基于上市公司公告摘要的自动提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106227722B (zh) |
Cited By (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107133213A (zh) * | 2017-05-06 | 2017-09-05 | 广东药科大学 | 一种基于算法的文本摘要自动提取方法与系统 |
CN107169049A (zh) * | 2017-04-25 | 2017-09-15 | 腾讯科技(深圳)有限公司 | 应用的标签信息生成方法及装置 |
CN107248023A (zh) * | 2017-05-16 | 2017-10-13 | 中国民生银行股份有限公司 | 一种对标企业名单的筛选方法和装置 |
CN107403375A (zh) * | 2017-04-19 | 2017-11-28 | 北京文因互联科技有限公司 | 一种基于深度学习的上市公司公告分类及摘要生成方法 |
CN107622042A (zh) * | 2017-08-29 | 2018-01-23 | 科大讯飞股份有限公司 | 一种文书生成方法、装置、存储介质和电子设备 |
CN107784099A (zh) * | 2017-10-24 | 2018-03-09 | 济南浪潮高新科技投资发展有限公司 | 一种自动生成中文新闻摘要的方法 |
CN107894986A (zh) * | 2017-09-26 | 2018-04-10 | 北京纳人网络科技有限公司 | 一种基于向量化的企业关系划分方法、服务器以及客户端 |
CN107908757A (zh) * | 2017-11-21 | 2018-04-13 | 恒安嘉新(北京)科技股份公司 | 网站分类方法及系统 |
CN108182247A (zh) * | 2017-12-28 | 2018-06-19 | 东软集团股份有限公司 | 文摘生成方法和装置 |
CN108182279A (zh) * | 2018-01-26 | 2018-06-19 | 有米科技股份有限公司 | 基于文本特征的对象分类方法、装置和计算机设备 |
CN108228670A (zh) * | 2016-12-22 | 2018-06-29 | 航天信息股份有限公司 | 一种基于轨迹相似度的目标对象关系识别方法和系统 |
CN108319630A (zh) * | 2017-07-05 | 2018-07-24 | 腾讯科技(深圳)有限公司 | 信息处理方法、装置、存储介质和计算机设备 |
CN108536678A (zh) * | 2018-04-12 | 2018-09-14 | 腾讯科技(深圳)有限公司 | 文本关键信息提取方法、装置、计算机设备和存储介质 |
CN108959318A (zh) * | 2017-05-25 | 2018-12-07 | 郑州大学 | 基于rdf图的分布式关键词查询方法 |
CN109388804A (zh) * | 2018-10-22 | 2019-02-26 | 平安科技(深圳)有限公司 | 利用深度学习模型的证券研报核心观点提取方法及装置 |
CN109408826A (zh) * | 2018-11-07 | 2019-03-01 | 北京锐安科技有限公司 | 一种文本信息提取方法、装置、服务器及存储介质 |
CN109684642A (zh) * | 2018-12-26 | 2019-04-26 | 重庆誉存大数据科技有限公司 | 一种结合页面解析规则和nlp文本向量化的摘要提取方法 |
CN109902284A (zh) * | 2018-12-30 | 2019-06-18 | 中国科学院软件研究所 | 基于论辩挖掘的一种无监督论点提取方法 |
CN109977194A (zh) * | 2019-03-20 | 2019-07-05 | 华南理工大学 | 基于无监督学习的文本相似度计算方法、系统、设备及介质 |
CN110008313A (zh) * | 2019-04-11 | 2019-07-12 | 重庆华龙网海数科技有限公司 | 一种抽取式无监督文本摘要方法 |
CN110020189A (zh) * | 2018-06-29 | 2019-07-16 | 武汉掌游科技有限公司 | 一种基于中文相似性计算的文章推荐方法 |
CN110069622A (zh) * | 2017-08-01 | 2019-07-30 | 武汉楚鼎信息技术有限公司 | 一种个股公告摘要智能提取方法 |
CN110287309A (zh) * | 2019-06-21 | 2019-09-27 | 深圳大学 | 快速提取文本摘要的方法 |
WO2019196314A1 (zh) * | 2018-04-10 | 2019-10-17 | 平安科技(深圳)有限公司 | 文本信息相似度匹配方法、装置、计算机设备及存储介质 |
CN110413986A (zh) * | 2019-04-12 | 2019-11-05 | 上海晏鼠计算机技术股份有限公司 | 一种改进词向量模型的文本聚类多文档自动摘要方法及系统 |
CN110852110A (zh) * | 2018-07-25 | 2020-02-28 | 富士通株式会社 | 目标语句提取方法、问题生成方法以及信息处理设备 |
CN111125349A (zh) * | 2019-12-17 | 2020-05-08 | 辽宁大学 | 基于词频和语义的图模型文本摘要生成方法 |
CN111241268A (zh) * | 2020-01-21 | 2020-06-05 | 上海七印信息科技有限公司 | 一种文本摘要自动生成方法 |
CN112765976A (zh) * | 2020-12-30 | 2021-05-07 | 北京知因智慧科技有限公司 | 文本相似度计算方法、装置、设备及存储介质 |
CN112784585A (zh) * | 2021-02-07 | 2021-05-11 | 新华智云科技有限公司 | 金融公告的摘要提取方法与摘要提取终端 |
CN112836016A (zh) * | 2021-02-05 | 2021-05-25 | 北京字跳网络技术有限公司 | 会议纪要生成方法、装置、设备和存储介质 |
CN112988963A (zh) * | 2021-02-19 | 2021-06-18 | 平安科技(深圳)有限公司 | 基于多流程节点的用户意图预测方法、装置、设备及介质 |
CN116049385A (zh) * | 2023-04-03 | 2023-05-02 | 北京太极信息系统技术有限公司 | 一种生成信创产业研究报告的方法、装置和设备及平台 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103136359A (zh) * | 2013-03-07 | 2013-06-05 | 宁波成电泰克电子信息技术发展有限公司 | 单文档摘要生成方法 |
CN104503958A (zh) * | 2014-11-19 | 2015-04-08 | 百度在线网络技术(北京)有限公司 | 文档摘要的生成方法及装置 |
CN104636456A (zh) * | 2015-02-03 | 2015-05-20 | 大连理工大学 | 一种基于词向量的问题路由方法 |
CN104778161A (zh) * | 2015-04-30 | 2015-07-15 | 车智互联(北京)科技有限公司 | 基于Word2Vec和Query log抽取关键词方法 |
CN104834735A (zh) * | 2015-05-18 | 2015-08-12 | 大连理工大学 | 一种基于词向量的文档摘要自动提取方法 |
CN104881401A (zh) * | 2015-05-27 | 2015-09-02 | 大连理工大学 | 一种专利文献聚类方法 |
CN105243152A (zh) * | 2015-10-26 | 2016-01-13 | 同济大学 | 一种基于图模型的自动文摘方法 |
-
2016
- 2016-09-12 CN CN201610817960.6A patent/CN106227722B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103136359A (zh) * | 2013-03-07 | 2013-06-05 | 宁波成电泰克电子信息技术发展有限公司 | 单文档摘要生成方法 |
CN104503958A (zh) * | 2014-11-19 | 2015-04-08 | 百度在线网络技术(北京)有限公司 | 文档摘要的生成方法及装置 |
CN104636456A (zh) * | 2015-02-03 | 2015-05-20 | 大连理工大学 | 一种基于词向量的问题路由方法 |
CN104778161A (zh) * | 2015-04-30 | 2015-07-15 | 车智互联(北京)科技有限公司 | 基于Word2Vec和Query log抽取关键词方法 |
CN104834735A (zh) * | 2015-05-18 | 2015-08-12 | 大连理工大学 | 一种基于词向量的文档摘要自动提取方法 |
CN104881401A (zh) * | 2015-05-27 | 2015-09-02 | 大连理工大学 | 一种专利文献聚类方法 |
CN105243152A (zh) * | 2015-10-26 | 2016-01-13 | 同济大学 | 一种基于图模型的自动文摘方法 |
Non-Patent Citations (5)
Title |
---|
KHUSHBOO S. THAKKAR 等: "Graph-Based Algorithms for Text Summarization", 《ICETET"10》 * |
MOHAMED ABDEL FATTAH 等: "GA, MR, FFNN, PNN and GMM based models for automatic text summarization", 《COMPUTER SPEECH AND LANGUAGE》 * |
余珊珊 等: "基于改进的TextRank的自动摘要提取方法", 《计算机科学》 * |
宁建飞 等: "融合Word2vec与TextRank的关键词抽取研究", 《现代图书情报技术》 * |
程园 等: "基于综合的句子特征的文本自动摘要", 《计算机科学》 * |
Cited By (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108228670A (zh) * | 2016-12-22 | 2018-06-29 | 航天信息股份有限公司 | 一种基于轨迹相似度的目标对象关系识别方法和系统 |
CN107403375A (zh) * | 2017-04-19 | 2017-11-28 | 北京文因互联科技有限公司 | 一种基于深度学习的上市公司公告分类及摘要生成方法 |
CN107169049A (zh) * | 2017-04-25 | 2017-09-15 | 腾讯科技(深圳)有限公司 | 应用的标签信息生成方法及装置 |
CN107133213A (zh) * | 2017-05-06 | 2017-09-05 | 广东药科大学 | 一种基于算法的文本摘要自动提取方法与系统 |
CN107133213B (zh) * | 2017-05-06 | 2020-09-25 | 广东药科大学 | 一种基于算法的文本摘要自动提取方法与系统 |
CN107248023A (zh) * | 2017-05-16 | 2017-10-13 | 中国民生银行股份有限公司 | 一种对标企业名单的筛选方法和装置 |
CN107248023B (zh) * | 2017-05-16 | 2020-09-25 | 中国民生银行股份有限公司 | 一种对标企业名单的筛选方法和装置 |
CN108959318A (zh) * | 2017-05-25 | 2018-12-07 | 郑州大学 | 基于rdf图的分布式关键词查询方法 |
CN108319630A (zh) * | 2017-07-05 | 2018-07-24 | 腾讯科技(深圳)有限公司 | 信息处理方法、装置、存储介质和计算机设备 |
CN108319630B (zh) * | 2017-07-05 | 2021-12-14 | 腾讯科技(深圳)有限公司 | 信息处理方法、装置、存储介质和计算机设备 |
CN110069622A (zh) * | 2017-08-01 | 2019-07-30 | 武汉楚鼎信息技术有限公司 | 一种个股公告摘要智能提取方法 |
CN107622042A (zh) * | 2017-08-29 | 2018-01-23 | 科大讯飞股份有限公司 | 一种文书生成方法、装置、存储介质和电子设备 |
CN107622042B (zh) * | 2017-08-29 | 2021-07-06 | 科大讯飞股份有限公司 | 一种文书生成方法、装置、存储介质和电子设备 |
CN107894986B (zh) * | 2017-09-26 | 2021-03-30 | 北京纳人网络科技有限公司 | 一种基于向量化的企业关系划分方法、服务器以及客户端 |
CN107894986A (zh) * | 2017-09-26 | 2018-04-10 | 北京纳人网络科技有限公司 | 一种基于向量化的企业关系划分方法、服务器以及客户端 |
CN107784099A (zh) * | 2017-10-24 | 2018-03-09 | 济南浪潮高新科技投资发展有限公司 | 一种自动生成中文新闻摘要的方法 |
CN107908757A (zh) * | 2017-11-21 | 2018-04-13 | 恒安嘉新(北京)科技股份公司 | 网站分类方法及系统 |
CN107908757B (zh) * | 2017-11-21 | 2020-05-26 | 恒安嘉新(北京)科技股份公司 | 网站分类方法及系统 |
CN108182247A (zh) * | 2017-12-28 | 2018-06-19 | 东软集团股份有限公司 | 文摘生成方法和装置 |
CN108182279A (zh) * | 2018-01-26 | 2018-06-19 | 有米科技股份有限公司 | 基于文本特征的对象分类方法、装置和计算机设备 |
WO2019196314A1 (zh) * | 2018-04-10 | 2019-10-17 | 平安科技(深圳)有限公司 | 文本信息相似度匹配方法、装置、计算机设备及存储介质 |
CN108536678A (zh) * | 2018-04-12 | 2018-09-14 | 腾讯科技(深圳)有限公司 | 文本关键信息提取方法、装置、计算机设备和存储介质 |
CN108536678B (zh) * | 2018-04-12 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 文本关键信息提取方法、装置、计算机设备和存储介质 |
CN110020189A (zh) * | 2018-06-29 | 2019-07-16 | 武汉掌游科技有限公司 | 一种基于中文相似性计算的文章推荐方法 |
CN110852110B (zh) * | 2018-07-25 | 2023-08-04 | 富士通株式会社 | 目标语句提取方法、问题生成方法以及信息处理设备 |
CN110852110A (zh) * | 2018-07-25 | 2020-02-28 | 富士通株式会社 | 目标语句提取方法、问题生成方法以及信息处理设备 |
CN109388804A (zh) * | 2018-10-22 | 2019-02-26 | 平安科技(深圳)有限公司 | 利用深度学习模型的证券研报核心观点提取方法及装置 |
CN109408826A (zh) * | 2018-11-07 | 2019-03-01 | 北京锐安科技有限公司 | 一种文本信息提取方法、装置、服务器及存储介质 |
CN109684642A (zh) * | 2018-12-26 | 2019-04-26 | 重庆誉存大数据科技有限公司 | 一种结合页面解析规则和nlp文本向量化的摘要提取方法 |
CN109684642B (zh) * | 2018-12-26 | 2023-01-13 | 重庆电信系统集成有限公司 | 一种结合页面解析规则和nlp文本向量化的摘要提取方法 |
CN109902284A (zh) * | 2018-12-30 | 2019-06-18 | 中国科学院软件研究所 | 基于论辩挖掘的一种无监督论点提取方法 |
CN109977194A (zh) * | 2019-03-20 | 2019-07-05 | 华南理工大学 | 基于无监督学习的文本相似度计算方法、系统、设备及介质 |
CN109977194B (zh) * | 2019-03-20 | 2021-08-10 | 华南理工大学 | 基于无监督学习的文本相似度计算方法、系统、设备及介质 |
CN110008313A (zh) * | 2019-04-11 | 2019-07-12 | 重庆华龙网海数科技有限公司 | 一种抽取式无监督文本摘要方法 |
CN110413986B (zh) * | 2019-04-12 | 2023-08-29 | 上海晏鼠计算机技术股份有限公司 | 一种改进词向量模型的文本聚类多文档自动摘要方法及系统 |
CN110413986A (zh) * | 2019-04-12 | 2019-11-05 | 上海晏鼠计算机技术股份有限公司 | 一种改进词向量模型的文本聚类多文档自动摘要方法及系统 |
CN110287309A (zh) * | 2019-06-21 | 2019-09-27 | 深圳大学 | 快速提取文本摘要的方法 |
CN110287309B (zh) * | 2019-06-21 | 2022-04-22 | 深圳大学 | 快速提取文本摘要的方法 |
CN111125349A (zh) * | 2019-12-17 | 2020-05-08 | 辽宁大学 | 基于词频和语义的图模型文本摘要生成方法 |
CN111241268B (zh) * | 2020-01-21 | 2023-04-14 | 上海七印信息科技有限公司 | 一种文本摘要自动生成方法 |
CN111241268A (zh) * | 2020-01-21 | 2020-06-05 | 上海七印信息科技有限公司 | 一种文本摘要自动生成方法 |
CN112765976A (zh) * | 2020-12-30 | 2021-05-07 | 北京知因智慧科技有限公司 | 文本相似度计算方法、装置、设备及存储介质 |
CN112836016A (zh) * | 2021-02-05 | 2021-05-25 | 北京字跳网络技术有限公司 | 会议纪要生成方法、装置、设备和存储介质 |
CN112784585A (zh) * | 2021-02-07 | 2021-05-11 | 新华智云科技有限公司 | 金融公告的摘要提取方法与摘要提取终端 |
CN112988963A (zh) * | 2021-02-19 | 2021-06-18 | 平安科技(深圳)有限公司 | 基于多流程节点的用户意图预测方法、装置、设备及介质 |
CN112988963B (zh) * | 2021-02-19 | 2024-05-10 | 平安科技(深圳)有限公司 | 基于多流程节点的用户意图预测方法、装置、设备及介质 |
CN116049385A (zh) * | 2023-04-03 | 2023-05-02 | 北京太极信息系统技术有限公司 | 一种生成信创产业研究报告的方法、装置和设备及平台 |
Also Published As
Publication number | Publication date |
---|---|
CN106227722B (zh) | 2019-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106227722A (zh) | 一种基于上市公司公告摘要的自动提取方法 | |
CN109829166B (zh) | 基于字符级卷积神经网络的民宿顾客意见挖掘方法 | |
CN108415953B (zh) | 一种基于自然语言处理技术的不良资产经营知识管理方法 | |
CN108090049B (zh) | 基于句子向量的多文档摘要自动提取方法及系统 | |
CN105740349B (zh) | 一种结合Doc2vec和卷积神经网络的情感分类方法 | |
CN108519890A (zh) | 一种基于自注意力机制的鲁棒性代码摘要生成方法 | |
CN104951548B (zh) | 一种负面舆情指数的计算方法及系统 | |
CN110334212A (zh) | 一种基于机器学习的领域性审计知识图谱构建方法 | |
CN110188351A (zh) | 语句通顺度及句法评分模型的训练方法及装置 | |
CN106980609A (zh) | 一种基于词向量表示的条件随机场的命名实体识别方法 | |
CN106709754A (zh) | 一种用基于文本挖掘的电力用户分群方法 | |
CN105468713A (zh) | 一种多模型融合的短文本分类方法 | |
CN108763402A (zh) | 基于依存关系、词性和语义词典的类中心向量文本分类法 | |
CN103838789A (zh) | 一种文本相似度计算方法 | |
KR20080021017A (ko) | 텍스트 기반의 문서 비교 | |
CN110717654B (zh) | 基于用户评论的产品质量评价方法和系统 | |
CN108388660A (zh) | 一种改进的电商产品痛点分析方法 | |
CN104484380A (zh) | 个性化搜索方法及装置 | |
CN109635083A (zh) | 一种用于搜索ted演讲中话题式查询的文档检索方法 | |
CN106294744A (zh) | 兴趣识别方法及系统 | |
CN107506377A (zh) | 基于推荐系统的互动绘本生成系统 | |
CN108717459B (zh) | 一种面向用户评论信息的移动应用缺陷定位方法 | |
CN108564117A (zh) | 一种基于svm的贫困生辅助认定方法 | |
CN110825850A (zh) | 一种自然语言主题分类方法及装置 | |
CN104572915B (zh) | 一种基于内容环境增强的用户事件相关度计算方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |