CN106227722B - 一种基于上市公司公告摘要的自动提取方法 - Google Patents

一种基于上市公司公告摘要的自动提取方法 Download PDF

Info

Publication number
CN106227722B
CN106227722B CN201610817960.6A CN201610817960A CN106227722B CN 106227722 B CN106227722 B CN 106227722B CN 201610817960 A CN201610817960 A CN 201610817960A CN 106227722 B CN106227722 B CN 106227722B
Authority
CN
China
Prior art keywords
sentence
weight
word
similarity
bulletin
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610817960.6A
Other languages
English (en)
Other versions
CN106227722A (zh
Inventor
郑子彬
李阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Sun Yat Sen University
Original Assignee
National Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Sun Yat Sen University filed Critical National Sun Yat Sen University
Priority to CN201610817960.6A priority Critical patent/CN106227722B/zh
Publication of CN106227722A publication Critical patent/CN106227722A/zh
Application granted granted Critical
Publication of CN106227722B publication Critical patent/CN106227722B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering

Abstract

本发明涉及一种基于上市公司公告摘要的自动提取方法,包括以下步骤:S1:从证券交易所中爬取上市公司公告文档形成公告文档数据库;S2:采用word2vec模型,从文本语料得到词向量;S3:计算句子之间相似度,构建句子图模型;S4:计算句子的权重;S5:根据句子位置调整句子权重矩阵;S6:选择权重最大且无冗余的句子组成摘要。基于上市公司公告摘要的自动提取技术,为金融市场的投资者提供准确且可读性较高的摘要文档,帮助投资者更短时间理解以及更好的做出投资判断,同时为量化基金公司提供重要的指标。

Description

一种基于上市公司公告摘要的自动提取方法
技术领域
本发明涉及数据提取领域,特别涉及一种基于上市公司公告摘要的自动提取方法。
背景技术
截至2016年6月中旬,沪深两市一共有2832只股票,每天发布的公告高达几百到上千篇。随着互联网的高速发展,编辑的成本越来越低,信息的传播越来越快,每天的公告数也在迅速增加。当前上市公司公告普遍较为冗长而且术语专业,然而目前中国大部分投资者是散户,没有充裕的时间仔细阅读公告,而且对于普通投资者来说很难快速甄别其中重要内容,做出合理的判断,所以将冗长的公告信息转化成摘要(由几个关键句子组成的短文档,短文档对于公告信息具有总结和概括作用)是非常重要且有价值的,将会有利于普通消费者更好、更加快速的识别内容,同时更短时间地进行解读以及做出判断,另外现在量化交易在国内非常的火,所以自动摘要提取也可以为量化交易人员快速的提取关键内容,通过对其量化,形成一系列有价值的指标,从而产生一定的价值,更加利于指导量化投资。
自动摘要技术现主要为抽取型摘要,即从原文中抽取最重要的句子组成摘要,常见的文档摘要技术包括基于特征的方法以及基于图排序的方法。
基于特征的方法。Luhn在1958年发表的论文指出,频繁出现的单词与文章主题有比较大的关联,因此可以根据各单词出现的频率给文中的句子计分,TF*IDF是最常见的一种方法,通过这种方法可以选择出得分最高的几个句子组成文章的摘要,这一类的方法计算方便,易于实现,但是该方法偏于高频词,往往只会涵盖部分的主题,特别对于上市公司公告而言,很多词频较高的句子并不是最核心的句子,所以这种自动摘要提取的方式准确率比较低。到了20世纪90年代,随着机器学习在自然语言处理领域的兴起,很多方法将自动摘要问题转化成一个分类问题,例如通过朴素贝叶斯分类模型去判定文章里的每个句子是否应该抽取为摘要,通过有监督的训练,从而找出应该抽取为摘要的句子,当然也有通过聚类的方式,即对候选的文本摘要句子进行聚类,通过对每一个聚类的句子排序,最后取每个聚类的前n个句子作为文档摘要。最近提出了有关于结合LDA的模型,具体是首先提取句子的基础特征,然后通过文档和句子的LDA主题概率分布模型,得到句子模型和文档模型之间的主题相似度特征,最后融合以上两类特征抽取得分高的句子作为摘要。但是在公司公告摘要的提取中,并没有取得很好的效果,另外在分类的时候,需要标注数据,不同的人的判断标准不一样,具有一定主观性,所以机器学习的方式仍然需要一定的发展。
基于图排序的方法。基于图排序的自动摘要技术一般思想是把文章分解成若干个单元,将其映射到图模型,每一个句子对应一个图的顶点,句子与句子之间形成无向边,句子与句子之间的相似度为无向边的权重,最后通过图排序的算法(PageRank、HITS等)迭代计算节点句子的权重,最后将权重较大的句子按照出现在文档中的先后顺序加入摘要。但是基于图排序的方法在计算句子间的相似度中存在缺陷,忽略了上市公司公告所特有的特征。上市公司公告文档的标题往往含有了很多关键信息,那么与公告的标题相似度高的句子成为摘要的可能性较大,那么这个句子对周围的句子的影响也会比较大,另外上市公司发布公告往往包含很多的关键术语(重组、配股、回购、增发、净利润、同期增减、风险等),而这些关键术语所在的句子成为摘要的可能性也比较大,当然公司公告往往比较规范,所以句子在段落中的位置也包含了很多的信息,所以仅用句子之间的相似性的方法没有考虑到这诸多的因素,导致影响了节点句子权重的准确性,影响了形成的摘要的准确性。
发明内容
本发明的目的是针对上述问题,提供一种基于上市公司公告摘要的自动提取方法。
本发明的技术方案是:
一种基于上市公司公告摘要的自动提取方法,包括以下步骤:
S1:从证券交易所中爬取上市公司公告文档形成公告文档数据库;
S2:采用word2vec模型,从文本语料得到词向量;
S3:计算句子之间相似度,构建句子图模型;
S4:计算句子的权重;
S5:根据句子位置调整句子权重矩阵;
S6:选择权重最大且无冗余的句子组成摘要。
进一步的,步骤S1中每一个文档作为待提取摘要的目标文档。
进一步的,在于步骤S2具体包括以下步骤:
(1)对公告文档进行分词处理;
(2)构建Huffman树;
(3)采用CBOW模型进行词向量的训练。
进一步的,步骤S2的步骤(1)具体为过滤掉低频词以及去掉停用词、特殊符号、标点符号和一些标记信息。
进一步的,步骤S2的步骤(2)具体为在构建的Huffman树中,所有的非叶节点存储有一个参数向量,所有的叶节点分别代表了词典中的一个词,参数向量初始值为0,Huffman树构建完成之后,将对应的Huffman码分配给每个单词,随机初始化每个单词的词向量。
进一步的,步骤S2的步骤(3)具体为CBOW模型,采用分层训练的策略,优化的目标函数为:
L=Σlogp(w|Context(w))
其中w为单词,Context(w)为上下文,代表单词w前后有c个单词,其中c称为预选窗口,在构造p(w|Context(w))中,同时CBOW采用了层次softmax算法,该算法结合了Huffman编码,每个词w都可以从树的根结点root沿着唯一一条路径被访问到,其路径也就形成了其编码code,假设n(w,j)为这条路径上的第j个结点,且L(w)为这条路径的长度,j从1开始编码,即n(w,1)=root,n(w,L(w))=w,对于第j个结点,层次Softmax定义的Label为1-code[j],在构造完成之后,从根节点依次到目标词w通过概率乘积,即可得到目标词w在当前网络下的概率p(w|Context(w)),接下来用梯度下降的方法求解参数。
进一步的,所述用梯度下降的方法求解参数具体为利用正负样本不断训练,求解输出值与真实值误差,然后用梯度下降的方法求解各边权重参数值的,从而依次可以得到每一个单词的词向量。
进一步的,步骤S3具体包括以下步骤:句子相似度主要通过三个维度计算得到:
第一个维度计算句子与句子之间的相似度,采用词向量的余弦关系来表示:
其中分别代表句子si,sj的特征词向量集合,均是经过word2vec训练得到的,为了保证句子向量的长度是相同的,我们采用添加停用词和删掉不重要的词的方式;
第二个维度计算句子与标题的相似度,通过如下公式获得:
其中|p0|,|pj|分别代表句子p0,pj中特征词的个数,wk代表第k个特征词;
第三个维度计算句子与候选关键术语的相似度,通过如下公式获得:
其中|pj|,|q|分别代表句子pj,q中特征词的个数,wk代表第k个特征词;
将每一个句子作为图模型的顶点,而上述计算得到句子与句子之间的相似度作为图模型中节点句子与节点句子之间的权重,构建的图模型为一个有权无向图。
进一步的,步骤S4具体包括以下步骤:利用步骤S3的所得到的句子之间的相关性以及句子初始权重利用如下公式迭代更新各个节点的权重,直到收敛;
由于最后的迭代会收敛,即跟初始权重没有关系,所以定义初始权重为平均初始权重:
更新迭代公式为:
其中,wt(si)代表句子si的权重,d为阻尼系数,取值范围为0-1,通常情况优先选0.85,group(sj)表示和sj相连的所有句子集合的相似度总和。α代表句子与句子的相似度权重,β代表句子与标题的相似度权重,γ代表句子与关键术语的相似度权重,其中α,β,γ可以人工动态调整或通过有监督的形式,利用遗传算法学习得到。
进一步的,步骤S5具体包括以下步骤:根据句子在每一个段落的位置,调整相关的权重,通过如下公式获得:
B(si)=ω×e-i/θ
其中,ω为一个控制句子权重相对大小的常数,θ为一个控制句子权重衰减的常数,i代表在一个段落中第i个句子;
在步骤S4得到的句子的权重基础上,利用每一个段落中句子的位置同时更新句子权重矩阵,得到最终的权重矩阵:wt=wt*BT
其中BT代表上述根据句子位置调整的权重矩阵的转置。
进一步的,步骤S6具体包括以下步骤:选择S5中形成的权重矩阵中得分Top k作为目标文档的摘要句子,并且按照相关顺序组成完整的摘要文档。
本发明的有益效果是,基于上市公司公告摘要的自动提取技术,为金融市场的投资者提供准确且可读性较高的摘要文档,帮助投资者更短时间理解以及更好的做出投资判断,同时为量化基金公司提供重要的指标。
附图说明
图1为一种基于上市公司公告摘要的自动提取方法流程图。
具体实施方式
为了使本发明的目的、技术方案以及优点阐述的更加清楚明白,以下参照附图1做进一步详细的说明。
一种基于上市公司公告摘要的自动提取方法,具体包含如下步骤:
S1:从证券交易所中爬取上市公司公告文档形成公告文档数据库,其中每一个文档作为待提取摘要的目标文档;
S2:采用word2vec模型,从文本语料得到词向量;
具体步骤包含:
(1)分词;
对公告文档进行分词处理,过滤掉低频词以及去掉停用词、特殊符号、标点符号和一些标记信息;
(2)构建Huffman树;
构建的Huffman树中,所有的非叶节点存储有一个参数向量,所有的叶节点分别代表了词典中的一个词,参数向量初始值为0,Huffman树构建完成之后,将对应的Huffman码分配给每个单词,随机初始化每个单词的词向量;
(3)训练;
word2vec常用的训练模型为CBOW(continuous bag-of-words model)与Skip-Gram,这里采用CBOW进行词向量的训练,具体为:
CBOW模型,采用分层训练的策略,优化的目标函数为:
L=∑logp(w|Context(w))
其中w为单词,Context(w)为上下文,代表单词w前后有c个单词,其中c称为预选窗口,在构造p(w|Context(w))中,CBOW模型共分为三层:输入层、隐含层和输出层,输入层是初始词向量,隐含层是向量累加和,输出层为哈夫曼二叉树,父节点的左孩子节点代表所表示单词向量在父节点单词向量前面的概率,父节点的右孩子节点代表所表示单词向量在父节点单词向量后面的概率,隐层节点和输出层二叉树所有非叶节点连接。
同时CBOW采用了层次softmax算法,该算法结合了Huffman编码,每个词w都可以从树的根结点root沿着唯一一条路径被访问到,其路径也就形成了其编码code。假设n(w,j)为这条路径上的第j个结点,且L(w)为这条路径的长度,j从1开始编码,即n(w,1)=root,n(w,L(w))=w。对于第j个结点,层次Softmax定义的Label为1-code[j]。
在构造完成之后,从根节点依次到目标词w通过概率乘积,即可得到目标词w在当前网络下的概率p(w|Context(w)),接下来用梯度下降的方法求解参数即可。原理与神经网络训练方法相似,利用正负样本不断训练,求解输出值与真实值误差,然后用梯度下降的方法求解各边权重参数值的,从而依次可以得到每一个单词的词向量。
S3:计算句子之间相似度,构建句子图模型;
句子相似度主要通过三个维度计算得到:
第一个维度计算句子与句子之间的相似度,由于句子与句子之间的关系复杂,简单的通过词对比的方式并不能有效的找出其中的相似关系,所以采用词向量的余弦关系来表示:
其中分别代表句子si,sj的特征词向量集合,均是经过word2vec训练得到的,为了保证句子向量的长度是相同的,我们采用添加停用词和删掉不重要的词的方式。
第二个维度计算句子与标题的相似度,由于标题形成的词向量只包含几个特定而且精确的词语,所以比较适合用一般相似性的计算方法,通过如下公式获得:
其中|p0|,|pj|分别代表句子p0,pj中特征词的个数,wk代表第k个特征词。
第三个维度计算句子与候选关键术语的相似度,由于候选关键术语也是具有特定而且精确的描述,所以比较适合用与标题同样的计算方法,通过如下公式获得:
其中|pj|,|q|分别代表句子pj,q中特征词的个数,wk代表第k个特征词。
将每一个句子作为图模型的顶点,而上述计算得到句子与句子之间的相似度作为图模型中节点句子与节点句子之间的权重,构建的图模型为一个有权无向图。
S4:计算句子的权重;
经典的TextRank算法是在Google公司PageRank算法的启发下,利用投票的原理让每一个节点为它的邻居节点投赞成票,票的权重取决于节点本身的票数,在TextRank算法中,句子相当于节点,而句子与句子的相似度为节点与节点之间的链接关系,表示为边的权重,依次可以构成一个有权无向的网络图,同时TextRank算法借鉴了PageRank的计算方法,采用矩阵迭代的方式解决这个问题。具体的权重更新根据如下公式得到:
其中,wt(si)代表句子si的权重,d为阻尼系数,取值范围为0-1,通常情况优先选0.85,group(sj)表示和sj相连的句子集合的相似度总和。
但是经典的TextRank算法只考虑了句子与句子之间的相似性,而忽略了上市公司公告文档中很多重要的信息,首先基于词频的句子相似性,并不能很好的表征两个句子之间的相似性,所以在本发明中,采用word2vec将句子的词转化为数值词向量,可以很好的表征两个句子之间的相似度,另外,公告文档的标题一般是对公告的概述和总结,出现在标题中的词很可能是重要的特征词,这些特征词很大程度反映了公告的信息主题,所以文章中句子与标题相似度越高,说明这个句子的影响力越大,那么它被抽成摘要的可能性越大,以及它对与其周围相似的句子的影响力越大,另外上市公司公告文档基本上由关键的术语(重组、配股、回购、增发、净利润、同期增减、风险等)组成,所以句子中有类似关键术语的句子成为摘要的可能性也会增大。由于标题和关键术语特定而且精确,所以采用一般相似度计算,具体计算参照步骤S3。
利用步骤S3的所得到的句子之间的相关性以及句子初始权重利用如下公式迭代更新各个节点的权重,直到收敛。
由于最后的迭代会收敛,即跟初始权重没有关系,所以定义初始权重为平均初始权重:
更新迭代公式为:
其中,wt(si)代表句子si的权重,d为阻尼系数,取值范围为0-1,通常情况优先选0.85,group(sj)表示和sj相连的所有句子集合的相似度总和。α代表句子与句子的相似度权重,β代表句子与标题的相似度权重,γ代表句子与关键术语的相似度权重,其中α,β,γ可以人工动态调整,也可以通过有监督的形式,利用遗传算法学习得到。
S5:根据句子位置调整句子权重矩阵;
在一个段落中,句子的位置也会影响句子成为摘要的概率,美国RE.Baxendale的研究结果显示:人工摘要中选取段首句作为摘要的比例为85%,选取段尾句作为摘要的比例为7%,而上市公司公告通常在段首表明主要信息,然后详细陈述,基于以上信息,可以得到文档中段落句子位置是影响选取摘要的重要因素,基于此,对每一个段落中靠前的句子给予越大的权重提升,而越往后的句子给予递减的权重。
根据句子在每一个段落的位置,调整相关的权重,通过如下公式获得:
B(si)=ω×e-i/θ
其中,ω为一个控制句子权重相对大小的常数,θ为一个控制句子权重衰减的常数,i代表在一个段落中第i个句子。
在步骤S4得到的句子的权重基础上,利用每一个段落中句子的位置同时更新句子权重矩阵,得到最终的权重矩阵。
wt=wt*BT
其中BT代表上述根据句子位置调整的权重矩阵的转置。
S6:选择权重最大且无冗余的句子组成摘要;
选择步骤S5中形成的权重矩阵中得分Top k作为目标文档的摘要句子,并且按照相关顺序组成完整的摘要文档。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (9)

1.一种基于上市公司公告摘要的自动提取方法,其特征在于包括以下步骤:
S1:从证券交易所中爬取上市公司公告文档形成公告文档数据库;
S2:采用word2vec模型,从文本语料得到词向量;
S3:计算句子之间相似度,构建句子图模型;
S4:计算句子的权重;
S5:根据句子位置调整句子权重矩阵;
S6:选择权重最大且无冗余的句子组成摘要;
句子相似度主要通过三个维度计算得到:
第一个维度计算句子与句子之间的相似度,采用词向量的余弦关系来表示:
其中分别代表句子si,sj的特征词向量集合,均是经过word2vec训练得到的,为了保证句子向量的长度是相同的,我们采用添加停用词和删掉不重要的词的方式;
第二个维度计算句子与标题的相似度,通过如下公式获得:
其中|p0|,|pj|分别代表句子p0,pj中特征词的个数,wk代表第k个特征词;
第三个维度计算句子与候选关键术语的相似度,通过如下公式获得:
其中|pj|,|q|分别代表句子pj,q中特征词的个数,wk代表第k个特征词;
将每一个句子作为图模型的顶点,而上述计算得到句子与句子之间的相似度作为图模型中节点句子与节点句子之间的权重,构建的图模型为一个有权无向图。
2.根据权利要求1所述的方法,其特征在于步骤S1中每一个文档作为待提取摘要的目标文档。
3.根据权利要求1所述的方法,其特征在于步骤S2具体包括以下步骤:
(1)对公告文档进行分词处理;
(2)构建Huffman树;
(3)采用CBOW模型进行词向量的训练。
4.根据权利要求3所述的方法,其特征在于步骤S2的步骤(1)具体为过滤掉低频词以及去掉停用词、特殊符号、标点符号和一些标记信息。
5.根据权利要求3所述的方法,其特征在于步骤S2的步骤(2)具体为在构建的Huffman树中,所有的非叶节点存储有一个参数向量,所有的叶节点分别代表了词典中的一个词,参数向量初始值为0,Huffman树构建完成之后,将对应的Huffman码分配给每个单词,随机初始化每个单词的词向量。
6.根据权利要求3所述的方法,其特征在于步骤S2的步骤(3)具体为CBOW模型,采用分层训练的策略,优化的目标函数为:
L=∑logp(w|Context(w))
其中w为单词,Context(w)为上下文,代表单词w前后有c个单词,其中c称为预选窗口,在构造p(w|Context(w))中,同时CBOW采用了层次softmax算法,该算法结合了Huffman编码,每个词w都可以从树的根结点root沿着唯一一条路径被访问到,其路径也就形成了其编码code,假设n(w,j)为这条路径上的第j个结点,且L(w)为这条路径的长度,j从1开始编码,即n(w,1)=root,n(w,L(w))=w,对于第j个结点,层次Softmax定义的Label为1-code[j],在构造完成之后,从根节点依次到目标词w通过概率乘积,即可得到目标词w在当前网络下的概率p(w|Context(w)),接下来用梯度下降的方法求解参数。
7.根据权利要求6所述的方法,其特征在于所述用梯度下降的方法求解参数具体为利用正负样本不断训练,求解输出值与真实值误差,然后用梯度下降的方法求解各边权重参数值的,从而依次可以得到每一个单词的词向量。
8.根据权利要求1所述的方法,其特征在于步骤S4具体包括以下步骤:利用步骤S3的所得到的句子之间的相关性以及句子初始权重利用如下公式迭代更新各个节点的权重,直到收敛;
由于最后的迭代会收敛,即跟初始权重没有关系,所以定义初始权重为平均初始权重:
N表示句子初始权重数;
更新迭代公式为:
其中,wt(si)代表句子si的权重,d为阻尼系数,取值范围为0-1,group(Sj)表示和Sj相连的所有句子集合的相似度总和;α代表句子与句子的相似度权重,β代表句子与标题的相似度权重,γ代表句子与关键术语的相似度权重,其中α,β,γ人工动态调整或通过有监督的形式,利用遗传算法学习得到。
9.根据权利要求1所述的方法,其特征在于步骤S5具体包括以下步骤:根据句子在每一个段落的位置,调整相关的权重,通过如下公式获得:
B(si)=ω×e-i/θ
其中,ω为一个控制句子权重相对大小的常数,θ为一个控制句子权重衰减的常数,i代表在一个段落中第i个句子;
在步骤S4得到的句子的权重基础上,利用每一个段落中句子的位置同时更新句子权重矩阵,得到最终的权重矩阵:wt=wt*BT
其中BT代表上述根据句子位置调整的权重矩阵的转置。
CN201610817960.6A 2016-09-12 2016-09-12 一种基于上市公司公告摘要的自动提取方法 Active CN106227722B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610817960.6A CN106227722B (zh) 2016-09-12 2016-09-12 一种基于上市公司公告摘要的自动提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610817960.6A CN106227722B (zh) 2016-09-12 2016-09-12 一种基于上市公司公告摘要的自动提取方法

Publications (2)

Publication Number Publication Date
CN106227722A CN106227722A (zh) 2016-12-14
CN106227722B true CN106227722B (zh) 2019-07-05

Family

ID=58073955

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610817960.6A Active CN106227722B (zh) 2016-09-12 2016-09-12 一种基于上市公司公告摘要的自动提取方法

Country Status (1)

Country Link
CN (1) CN106227722B (zh)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228670A (zh) * 2016-12-22 2018-06-29 航天信息股份有限公司 一种基于轨迹相似度的目标对象关系识别方法和系统
CN107403375A (zh) * 2017-04-19 2017-11-28 北京文因互联科技有限公司 一种基于深度学习的上市公司公告分类及摘要生成方法
CN107169049B (zh) * 2017-04-25 2023-04-28 腾讯科技(深圳)有限公司 应用的标签信息生成方法及装置
CN107133213B (zh) * 2017-05-06 2020-09-25 广东药科大学 一种基于算法的文本摘要自动提取方法与系统
CN107248023B (zh) * 2017-05-16 2020-09-25 中国民生银行股份有限公司 一种对标企业名单的筛选方法和装置
CN108959318A (zh) * 2017-05-25 2018-12-07 郑州大学 基于rdf图的分布式关键词查询方法
CN108319630B (zh) * 2017-07-05 2021-12-14 腾讯科技(深圳)有限公司 信息处理方法、装置、存储介质和计算机设备
CN110069622A (zh) * 2017-08-01 2019-07-30 武汉楚鼎信息技术有限公司 一种个股公告摘要智能提取方法
CN107622042B (zh) * 2017-08-29 2021-07-06 科大讯飞股份有限公司 一种文书生成方法、装置、存储介质和电子设备
CN107894986B (zh) * 2017-09-26 2021-03-30 北京纳人网络科技有限公司 一种基于向量化的企业关系划分方法、服务器以及客户端
CN107784099A (zh) * 2017-10-24 2018-03-09 济南浪潮高新科技投资发展有限公司 一种自动生成中文新闻摘要的方法
CN107908757B (zh) * 2017-11-21 2020-05-26 恒安嘉新(北京)科技股份公司 网站分类方法及系统
CN108182247A (zh) * 2017-12-28 2018-06-19 东软集团股份有限公司 文摘生成方法和装置
CN108182279B (zh) * 2018-01-26 2019-10-01 有米科技股份有限公司 基于文本特征的对象分类方法、装置和计算机设备
CN108628825A (zh) * 2018-04-10 2018-10-09 平安科技(深圳)有限公司 文本信息相似度匹配方法、装置、计算机设备及存储介质
CN108536678B (zh) * 2018-04-12 2023-04-07 腾讯科技(深圳)有限公司 文本关键信息提取方法、装置、计算机设备和存储介质
CN110020189A (zh) * 2018-06-29 2019-07-16 武汉掌游科技有限公司 一种基于中文相似性计算的文章推荐方法
CN110852110B (zh) * 2018-07-25 2023-08-04 富士通株式会社 目标语句提取方法、问题生成方法以及信息处理设备
CN109388804A (zh) * 2018-10-22 2019-02-26 平安科技(深圳)有限公司 利用深度学习模型的证券研报核心观点提取方法及装置
CN109408826A (zh) * 2018-11-07 2019-03-01 北京锐安科技有限公司 一种文本信息提取方法、装置、服务器及存储介质
CN109684642B (zh) * 2018-12-26 2023-01-13 重庆电信系统集成有限公司 一种结合页面解析规则和nlp文本向量化的摘要提取方法
CN109902284A (zh) * 2018-12-30 2019-06-18 中国科学院软件研究所 基于论辩挖掘的一种无监督论点提取方法
CN109977194B (zh) * 2019-03-20 2021-08-10 华南理工大学 基于无监督学习的文本相似度计算方法、系统、设备及介质
CN110008313A (zh) * 2019-04-11 2019-07-12 重庆华龙网海数科技有限公司 一种抽取式无监督文本摘要方法
CN110413986B (zh) * 2019-04-12 2023-08-29 上海晏鼠计算机技术股份有限公司 一种改进词向量模型的文本聚类多文档自动摘要方法及系统
CN110287309B (zh) * 2019-06-21 2022-04-22 深圳大学 快速提取文本摘要的方法
CN111125349A (zh) * 2019-12-17 2020-05-08 辽宁大学 基于词频和语义的图模型文本摘要生成方法
CN111241268B (zh) * 2020-01-21 2023-04-14 上海七印信息科技有限公司 一种文本摘要自动生成方法
CN112765976A (zh) * 2020-12-30 2021-05-07 北京知因智慧科技有限公司 文本相似度计算方法、装置、设备及存储介质
CN112836016B (zh) * 2021-02-05 2022-02-22 北京字跳网络技术有限公司 会议纪要生成方法、装置、设备和存储介质
CN112784585A (zh) * 2021-02-07 2021-05-11 新华智云科技有限公司 金融公告的摘要提取方法与摘要提取终端
CN112988963A (zh) * 2021-02-19 2021-06-18 平安科技(深圳)有限公司 基于多流程节点的用户意图预测方法、装置、设备及介质
CN116049385B (zh) * 2023-04-03 2023-06-13 北京太极信息系统技术有限公司 一种生成信创产业研究报告的方法、装置和设备及平台

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103136359A (zh) * 2013-03-07 2013-06-05 宁波成电泰克电子信息技术发展有限公司 单文档摘要生成方法
CN104503958A (zh) * 2014-11-19 2015-04-08 百度在线网络技术(北京)有限公司 文档摘要的生成方法及装置
CN104636456A (zh) * 2015-02-03 2015-05-20 大连理工大学 一种基于词向量的问题路由方法
CN104778161A (zh) * 2015-04-30 2015-07-15 车智互联(北京)科技有限公司 基于Word2Vec和Query log抽取关键词方法
CN104834735A (zh) * 2015-05-18 2015-08-12 大连理工大学 一种基于词向量的文档摘要自动提取方法
CN104881401A (zh) * 2015-05-27 2015-09-02 大连理工大学 一种专利文献聚类方法
CN105243152A (zh) * 2015-10-26 2016-01-13 同济大学 一种基于图模型的自动文摘方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103136359A (zh) * 2013-03-07 2013-06-05 宁波成电泰克电子信息技术发展有限公司 单文档摘要生成方法
CN104503958A (zh) * 2014-11-19 2015-04-08 百度在线网络技术(北京)有限公司 文档摘要的生成方法及装置
CN104636456A (zh) * 2015-02-03 2015-05-20 大连理工大学 一种基于词向量的问题路由方法
CN104778161A (zh) * 2015-04-30 2015-07-15 车智互联(北京)科技有限公司 基于Word2Vec和Query log抽取关键词方法
CN104834735A (zh) * 2015-05-18 2015-08-12 大连理工大学 一种基于词向量的文档摘要自动提取方法
CN104881401A (zh) * 2015-05-27 2015-09-02 大连理工大学 一种专利文献聚类方法
CN105243152A (zh) * 2015-10-26 2016-01-13 同济大学 一种基于图模型的自动文摘方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
GA, MR, FFNN, PNN and GMM based models for automatic text summarization;Mohamed Abdel Fattah 等;《Computer Speech and Language》;20080504;第23卷(第1期);第128页第2节
Graph-Based Algorithms for Text Summarization;Khushboo S. Thakkar 等;《ICETET"10》;20101121;516-519
基于改进的TextRank的自动摘要提取方法;余珊珊 等;《计算机科学》;20160615;第43卷(第6期);第242页第3.2节,第243页第4.1节
基于综合的句子特征的文本自动摘要;程园 等;《计算机科学》;20150415;第42卷(第4期);226-229
融合Word2vec与TextRank的关键词抽取研究;宁建飞 等;《现代图书情报技术》;20160625;第20页摘要,第21-23页第3-4节

Also Published As

Publication number Publication date
CN106227722A (zh) 2016-12-14

Similar Documents

Publication Publication Date Title
CN106227722B (zh) 一种基于上市公司公告摘要的自动提取方法
CN105740349B (zh) 一种结合Doc2vec和卷积神经网络的情感分类方法
CN105824922B (zh) 一种融合深层特征和浅层特征的情感分类方法
CN106777274B (zh) 一种中文旅游领域知识图谱构建方法及系统
CN109829166B (zh) 基于字符级卷积神经网络的民宿顾客意见挖掘方法
CN108519890A (zh) 一种基于自注意力机制的鲁棒性代码摘要生成方法
CN108874997A (zh) 一种面向电影评论的人名命名实体识别方法
CN110188351A (zh) 语句通顺度及句法评分模型的训练方法及装置
CN109255027B (zh) 一种电商评论情感分析降噪的方法和装置
CN107944027A (zh) 创建语义键索引的方法及系统
CN109597747A (zh) 一种基于多目标优化算法nsga-ⅱ推荐跨项目关联缺陷报告的方法
CN110059177A (zh) 一种基于用户画像的活动推荐方法及装置
CN107679031B (zh) 基于堆叠降噪自编码机的广告博文识别方法
CN112905739B (zh) 虚假评论检测模型训练方法、检测方法及电子设备
CN111737427B (zh) 融合论坛互动行为与用户阅读偏好的慕课论坛帖推荐方法
CN106886565A (zh) 一种基础房型自动聚合方法
CN109033132A (zh) 利用知识图谱计算文本和主体相关度的方法以及装置
CN108717459B (zh) 一种面向用户评论信息的移动应用缺陷定位方法
CN112966117A (zh) 实体链接方法
CN113934835B (zh) 结合关键词和语义理解表征的检索式回复对话方法及系统
CN110781300B (zh) 基于百度百科知识图谱的旅游资源文化特色评分算法
CN108319584A (zh) 一种基于改进FP-Growth算法的微博类短文本的新词发现方法
CN113220964B (zh) 一种基于网信领域短文本的观点挖掘方法
CN114116965A (zh) 评论文本的观点提取方法以及电子设备
CN109189919A (zh) 文本多视角情感分类的方法、系统、终端及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant