CN106599148A - 一种文摘生成方法及装置 - Google Patents
一种文摘生成方法及装置 Download PDFInfo
- Publication number
- CN106599148A CN106599148A CN201611111235.3A CN201611111235A CN106599148A CN 106599148 A CN106599148 A CN 106599148A CN 201611111235 A CN201611111235 A CN 201611111235A CN 106599148 A CN106599148 A CN 106599148A
- Authority
- CN
- China
- Prior art keywords
- target sentences
- similarity
- digest
- word
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000004422 calculation algorithm Methods 0.000 claims description 20
- 235000013399 edible fruits Nutrition 0.000 claims 1
- 238000005516 engineering process Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种文摘生成方法和装置,实现了自动生成文摘的目的。其中,所述方法包括:获取待处理文本的关键词集合,并分别计算所述关键词集合中各个关键词的权重,所述关键词用于表达所述待处理文本的内容,所述关键词的权重表示所述关键词在所述待处理文本中的重要程度;以句子为单位对所述待处理文本进行划分,得到目标句子;确定所述目标句子中包含的关键词,并根据所述目标句子中包含的关键词的数量和关键词的权重得到所述目标句子的第一相似度;根据所述目标句子的第一相似度得到所述目标句子是否能够加入文摘的判断结果。
Description
技术领域
本发明涉及自然语言文本智能分析领域,尤其涉及一种文摘生成方法及装置。
背景技术
随着信息技术的飞速发展,信息传输的瓶颈已被打破,人们可以方便的接触到海量的信息内容,如何从中快速的了解信息内容,成为当前智能信息处理发展的方向和技术研究的热点。特别是随着互联网上文档信息的急剧膨胀,用于面对大量的文档信息,迫切需要能够有效处理这些文档信息的工具。自动生成文摘,是以自然语言处理技术为基础,通过对文档内容进行分析处理,自动生成文档摘要内容的智能文本处理应用技术。自动生成文摘可以为用户提供文档内容的概要性描述,便于用户在有限的时间内了解更多的文档信息。
发明内容
本发明提供了一种文摘生成方法和装置,实现了自动生成文摘的目的。
本发明实施例提供了一种文摘生成方法,所述方法包括:
获取待处理文本的关键词集合,并分别计算所述关键词集合中各个关键词的权重,所述关键词用于表达所述待处理文本的内容,所述关键词的权重表示所述关键词在所述待处理文本中的重要程度;
以句子为单位对所述待处理文本进行划分,得到目标句子;
确定所述目标句子中包含的关键词,并根据所述目标句子中包含的关键词的数量和关键词的权重得到所述目标句子的第一相似度;
根据所述目标句子的第一相似度得到所述目标句子是否能够加入文摘的判断结果。
优选的,所述根据所述目标句子中包含的关键词的数量和关键词的权重得到所述目标句子的第一相似度包括:
将所述目标句子中包含的关键词的权重之和与所述包含的关键词的数量的乘积作为所述目标句子的第一相似度。
优选的,所述方法还包括:
确定所述目标句子与所述关键词集合之间的语义相关度,和/或所述目标句子在所述待处理文本中的位置;
所述根据所述目标句子中包含的关键词的数量和关键词的权重得到所述目标句子的第一相似度包括:
根据所述目标句子与所述关键词集合之间的语义相关度和所述目标句子在所述待处理文本中的位置的至少其一,以及所述目标句子中包含的关键词的数量和关键词的权重得到所述目标句子的第一相似度。
优选的,所述确定所述目标句子与所述关键词集合之间的语义相关度包括:
对所述目标句子进行分词,得到各个特征词;
分别计算所述关键词集合中各个关键词与所述目标句子的各个特征词之间的词相似度;
根据所述关键词集合中各个关键词与所述目标句子的各个特征词之间的词相似度,利用加权二部图的最大权重匹配算法来得到所述目标句子与所述关键词集合之间的语义相关度。
优选的,所述方法还包括:
获取所述目标句子与已加入文摘的文摘句之间的第二相似度;
所述根据所述目标句子的第一相似度得到所述目标句子是否能够加入文摘的判断结果包括:
根据所述目标句子的第一相似度和所述第二相似度得到所述目标句子是否能够加入文摘的判断结果。
优选的,所述获取所述目标句子与已加入文摘的文摘句之间的第二相似度包括:
获取所述目标句子与所述已加入文摘的文摘句的重合词,并计算所述重合词的权重,所述重合词的权重表示所述重合词在所述文本中的重要程度;
根据所述目标句子中包含的重合词的数量和重合词的权重,得到所述目标句子与已加入文摘的文摘句之间的第二相似度。
优选的,所述根据所述目标句子中包含的重合词的数量和重合词的权重,得到所述目标句子与已加入文摘的文摘句之间的第二相似度包括:
将所述目标句子中包含的重合词的权重之和,与包含的重合词的数量的乘积,作为所述目标句子与已加入文摘的文摘句之间的第二相似度。
优选的,所述获取所述目标句子与已加入文摘的文摘句之间的第二相似度还包括:
获取所述目标句子与所述已加入文摘的文摘句之间的语义相似度;
所述根据所述目标句子中包含的重合词的数量和重合词的权重,得到所述目标句子与已加入文摘的文摘句之间的第二相似度包括:
根据所述目标句子中包含的重合词的数量和重合词的权重,以及所述目标句子与所述已加入文摘的文摘句之间的语义相似度,得到所述目标句子与已加入文摘的文摘句之间的第二相似度。
优选的,所述方法还包括:
若所述目标句子为对所述待处理文本进行划分得到的句子集合中第一相似度最高的句子,则将所述目标句子加入所述文摘作为首个文摘句。
优选的,所述获取待处理文本的关键词集合包括:
获取所述待处理文本的特征词,并获取所述特征词的第一参数和第二参数,所述第一参数表示利用ATF*PSF算法得到的所述特征词在所述待处理文本中的频率信息,所述第二参数表示利用TextRank算法得到的所述特征词在所述待处理文本中的重要程度;
根据所述特征词的第一参数和第二参数选取所述待处理文本的关键词集合。
本发明实施例还提供了一种文摘生成装置,所述装置包括:关键词集合获取单元、目标句子获取单元、关键词确定单元、第一相似度确定单元和判断单元;
其中,所述关键词集合获取单元,用于获取待处理文本的关键词集合,并分别计算所述关键词集合中各个关键词的权重,所述关键词用于表达所述待处理文本的内容,所述关键词的权重表示所述关键词在所述待处理文本中的重要程度;
所述目标句子获取单元,用于以句子为单位对所述待处理文本进行划分,得到目标句子;
所述关键词确定单元,用于确定所述目标句子中包含的关键词;
所述第一相似度确定单元,用于根据所述目标句子中包含的关键词的数量和关键词的权重得到所述目标句子的第一相似度;
所述判断单元,用于根据所述目标句子的第一相似度得到所述目标句子是否能够加入文摘的判断结果。
优选的,所述装置还包括:语义相关度确定单元,和/或目标句子位置确定单元;
所述语义相关度确定单元,用于确定所述目标句子与所述关键词集合之间的语义相关度;
所述目标句子位置确定单元,用于确定所述目标句子在所述待处理文本中的位置;
所述第一相似度确定单元,具体用于根据所述目标句子与所述关键词集合之间的语义相关度和所述目标句子在所述待处理文本中的位置的至少其一,以及所述目标句子中包含的关键词的数量和关键词的权重得到所述目标句子的第一相似度。
优选的,所述语义相关度单元确定单元包括:分词单元、词相似度计算单元和语义相关度确定子单元;
其中,所述分词单元,用于对所述目标句子进行分词,得到各个特征词;
所述词相似度计算单元,用于分别计算所述关键词集合中各个关键词与所述目标句子的各个特征词之间的词相似度;
所述语义相关度确定子单元,用于根据所述关键词集合中各个关键词与所述目标句子的各个特征词之间的词相似度,利用加权二部图的最大权重匹配算法来得到所述目标句子与所述关键词集合之间的语义相关度。
优选的,所述装置还包括:
第二相似度获取单元,用于获取所述目标句子与已加入文摘的文摘句之间的第二相似度;
所述判断单元,具体用于根据所述目标句子的第一相似度和所述第二相似度得到所述目标句子是否能够加入文摘的判断结果。
优选的,所述第二相似度获取单元,具体用于:
获取所述目标句子与所述已加入文摘的文摘句的重合词,并计算所述重合词的权重,所述重合词的权重表示所述重合词在所述文本中的重要程度,根据所述目标句子中包含的重合词的数量和重合词的权重,得到所述目标句子与已加入文摘的文摘句之间的第二相似度。
优选的,所述第二相似度获取单元,具体用于:
获取所述目标句子与所述已加入文摘的文摘句的重合词,并计算所述重合词的权重,所述重合词的权重表示所述重合词在所述文本中的重要程度;获取所述目标句子与所述已加入文摘的文摘句之间的语义相似度;根据所述目标句子中包含的重合词的数量和重合词的权重,以及所述目标句子与所述已加入文摘的文摘句之间的语义相似度,得到所述目标句子与已加入文摘的文摘句之间的第二相似度。
本发明通过获取待处理文本的关键词集合,并分别计算所述关键词集合中各个关键词的权重,以句子为单位对所述待处理文本进行划分,得到目标句子,确定所述目标句子中包含的关键词,并根据所述目标句子中包含的关键词的数量和关键词的权重得到所述目标句子的第一相似度,根据所述目标句子的第一相似度得到所述目标句子是否能够加入文摘的判断结果,实现了从所述待处理文本的句子中选取部分句子得到文摘的目的。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例一提供的一种文摘生成方法的流程图;
图2为本发明实施例一中计算所述目标句子与所述关键词集合的语义相关度的流程图;
图3为本发明实施例一中Kuhn-Munkras算法原理示意图;
图4为本发明实施例二提供的一种文摘生成方法的流程图;
图5为本发明实施例二中计算第二相似度的流程图;
图6为本发明实施例三提供的一种文摘生成装置的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
参见图1,该图为本发明实施例一提供的一种文摘生成方法的流程图。
本实施例提供的文摘生成方法包括如下步骤:
步骤S101:获取待处理文本的关键词集合,并分别计算所述关键词集合中各个关键词的权重。
所述待处理文本可以是关于任何题材的文本,其所用语言可以是中文、英文或其他语言。所述待处理文本的关键词属于含义完整且独立的词汇,用于表达所述待处理文本的内容。例如,在一篇关于“2016年国内经济形势分析”的待处理文本中,所述关键词可能包括“经济”“物价”“投资”“贸易”“融资”“政策”等。从词性来讲,所述关键词可以是名词、动词、形容词等,本发明不做具体限定。所述关键词集合中的关键词可以是预先指定的,也可以通过一定的方法从所述待处理文本中选取得到,至于具体如何选取,将在后文详细阐述,此处不再细说。所述关键词集合中关键词的数量可以是一个,也可以是多个,本发明不做具体限定。
所述关键词的权重表示所述关键词在所述待处理文本中的重要程度。计算关键词权重的方式有很多种,例如,可以采用所述关键词在所述待处理文本中出现的次数(即词频)作为所述关键词的权重;再例如,所述关键词的权重还可以为tf-idf(term frequency–inverse document frequency,词频-逆向文件频率)值。tf-idf值综合考虑了一个关键词在所述待处理文本中每句话出现的次数以及在整个所述待处理文本中出现的次数,在表达关键词在所述待处理文本中的重要程度时,比前一种方式更为准确。
步骤S102:以句子为单位对所述待处理文本进行划分,得到目标句子。
在本实施例中,所述待处理文本文件格式可以是.txt、.doc等能够从中提取句子的格式。
本实施例可以通过表示句子的结束的标点符号(例如句号、问号、感叹号等),来对所述待处理文本进行划分,得到目标句子。
步骤S103:确定所述目标句子中包含的关键词,并根据所述目标句子中包含的关键词的数量和关键词的权重得到所述目标句子的第一相似度。
所述目标句子包含关键词的含义是指所述目标句子中出现了与所述关键词集合中的关键词一模一样的词。例如,若所述关键词集合中存在有关键词“圣诞”,那么若所述目标句子中出现了“圣诞”这个词,则认为所述目标句子包含所述关键词。
本实施例综合考虑目标句子中包含的关键词的数量和关键词的权重,根据二者得到所述目标句子的第一相似度。具体的,可以将所述目标句子中包含的关键词的权重之和,与包含的关键词的数量的乘积,作为所述目标句子的第一相似度。例如,假设目标句子A包含3个关键词,各个关键词的权重分别是0.1、0.2和0.1,目标句子B仅包含一个关键词,该关键词的权重为0.5。目标句子A的第一相似度为(0.1+0.2+0.1)×3=1.2,大于目标句子B的第一相似度0.5×1=0.5,因此目标句子A加入文摘的可能性要高于目标句子B。由此可见,综合考虑关键词的权重和数量得到的目标句子的第一相似度,来表示所述目标句子能够代表待处理文本的程度更加准确。当然,可以理解的是,上述举例得到所述第一相似度的方式并不构成对本发明的限定,本领域技术人员可以自行设计。
步骤S104:根据所述目标句子的第一相似度得到所述目标句子是否能够加入文摘的判断结果。
具体的,可以计算所有对所述待处理文本划分得到的目标句子的第一相似度,并按照第一相似度从大到小的顺序选择前N个目标句子加入文摘;或者,也可以判断所述目标句子的第一相似度是否大于或等于某个阈值,若是,则将所述目标句子加入文摘等。
本实施例通过获取待处理文本的关键词集合,并分别计算所述关键词集合中各个关键词的权重,以句子为单位对所述待处理文本进行划分,得到目标句子,确定所述目标句子中包含的关键词,并根据所述目标句子中包含的关键词的数量和关键词的权重得到所述目标句子的第一相似度,根据所述目标句子的第一相似度得到所述目标句子是否能够加入文摘的判断结果,实现了从所述待处理文本的句子中选取部分句子得到文摘的目的。。
此外,在实际应用中,所述待处理文本中可能包含有关键词的简称、缩略语、近义词等与关键词在语义上相近的词,这些词由于种种原因没有被选为关键词,为了得到更加准确的目标句子的第一相似度,除了考虑目标句子中包含的关键词,还需要考虑这些在语义上相近的词对于目标句子与所述关键词集合之间相关度的贡献。比如,假设关键词为“北京大学”和“教育”,那么若所述目标句子C出现了一次“北大”和一次“教育”,那么我们认为该目标句子C比仅出现一次“教育”的目标句子D与上述两个关键词的相似度更高,因为“北京大学”和“北大”是在语义上是有相似性的。
在本实施例中,可以采用加权二部图的最大匹配算法来计算所述目标句子与所述关键词集合之间的语义相关度。当然,该方法并不构成对本发明的限定。
参见图2,计算所述目标句子与所述关键词集合的语义相关度的过程如下:
步骤S201:将所述目标句子进行分词,得到各个特征词。
所述特征词为含义完整且独立的词汇。分词可以利用现有技术的手段,此处不再赘述。在实际应用中,在分词之后,还可以去停用词,即将停用词去除。不同的用户对停用词的定义可能有不同,但通常指的是一些没有什么实际含义的功能词,例如“的”“呢”“了”“the”“that”“this”等。去掉停用词的目的是为了提高特征词的质量和计算效率。
步骤S202:分别计算所述关键词集合中各个关键词与所述目标句子的各个特征词之间的词相似度。
为了计算各个特征词与各个关键词之间的词相似度,首先我们可以为所述关键词集合中的每个关键词和所述目标句子中的每个特征词均分别构建对应的词向量。词向量的构建方法为公知技术,例如采用工具word2vec中的CBOW模型或Skip-gram模型,此处不再详述。在构建了词向量后,采用余弦算法,分别计算任意一个关键词的词向量和任意一个特征词的词向量之间的夹角,根据该夹角得到该关键词和该特征词之间的词相似度。其中,夹角越大,表示关键词和特征词之间的词相似度越低;夹角越小,表示关键词和特征词之间的词相似度越高。根据词向量之间的夹角得到词相似度的方法有很多,简单的例如计算词向量之间夹角的余弦值,用该余弦值来作为二者的词相似度。
步骤S203:根据所述关键词集合中各个关键词与所述目标句子的各个特征词之间的词相似度,利用加权二部图的最大权重匹配算法来得到所述目标句子与所述关键词集合之间的语义相关度。
二部图模型(Bipartite Model)又称二分图模型,是图论(Graph Theory)中的一种特殊模型。图论中的图是由若干给定的点及连接两点的线所构成的图形,这种图形通常用来描述某些事物之间的某种特定关系,用点代表事物,用连接两点的线表示相应两个事物间具有这种关系。如果一个图的顶点可以分为两个集合X和Y,图的所有边一定是有一个顶点属于集合X,另外一个顶点属于集合Y,则该图为二部图。加权二部图是指每条边都有对应的权重。二部图或加权二部图常用在解决任务分配的问题,但是发明人突破常规思维,将加权二部图应用在文摘生成领域中,具体应用在目标句子和关键词集合之间的语义相关度的计算中。在本实施例中,集合X中的各个顶点表示所述目标句子中的特征词,集合Y中的各个顶点表示关键词集合中的各个关键词,边对应的权重即为特征词与关键词之间的词相似度。
加权二部图G=<X,E,Y>中包含边集E的子集M称为G的一个匹配,其中边集E中的任意两条边都没有公共顶点。若子集M中边集E的总权重在所有匹配中权重最大,则将该子集M称为最大权重匹配。对于加权二部图来讲,计算最大权重匹配的算法通常采用Kuhn-Munkras算法。
下面以举例的方式介绍Kuhn-Munkras算法的原理。参见图3,假设Wi1和Wi2分别为目标句子中的两个特征词,属于集合X;Wj1、Wj2和Wj3均为关键词,属于集合Y;Wi1、Wi2、Wj1、Wj2和Wj3之间的连线表示边。该加权二部图的所有匹配包括:Wi1-Wj1和Wi2-Wj3、Wi1-Wj2和Wi2-Wj3以及Wi1-Wj3和Wi2-Wj1。其中,匹配Wi1-Wj1和Wi2-Wj3中Wi1-Wj1的权重为4,Wi2-Wj3的权重为8,总权重为12;匹配Wi1-Wj2和Wi2-Wj3中Wi1-Wj2的权重为5,Wi2-Wj3的权重为8,总权重为13;匹配Wi1-Wj3和Wi2-Wj1中Wi1-Wj3的权重为6,Wi2-Wj1的权重为3,总权重为9。所以,该加权二部图的最大权重匹配为Wi1-Wj2和Wi2-Wj3,目标句子与关键词的语义相关度为13。
在得到每个目标句子对应的语义相关度后,根据所述目标句子与所述关键词集合之间的语义相关度,以及所述目标句子中包含的关键词的数量和关键词的权重得到所述目标句子的第一相似度。例如,所述第一相似度Sim1可以为aFoverlap+bFsim,其中Foverlap为所述目标句子与关键词集合的重合度(即前面提到的仅根据所述目标句子中包含的关键词的数量和关键词的权重得到的第一相似度),所述Fsim为所述目标句子与关键词集合的语义相关度,a为与Foverlap对应的权重,b为与Fsim对应的权重,a≥0,b≥0,且a+b=1。
除了考虑所述目标句子与关键词集合之间的语义相关度,还可以考虑目标句子在所述待处理文本中的位置。发明人发现,目标句子在所述待处理文本中的位置越靠前,越有可能表达所述待处理文本的中心思想,因此,在判断所述目标句子是否能够加入文摘时,可以将所述目标句子在所述待处理文本中的位置考虑进来,作为其中一个要素之一。
例如,可以通过如下参数Fpos来体现目标句子的位置:
Fpos=1-logi/logn
其中i为目标句子在待处理文本中的序号,n为所述待处理文本的目标句子总数。可以发现,i值越大,Fpos值越小;i值越小,Fpos值越大。
所述第一相似度Sim1可以仅关于Foverlap和Fpos,也可以同时考虑Foverlap、Fpos和Fsim,若是后者,所述第一相似度Sim1可以为aFoverlap+bFsim+cFpos,其中c为与Fpos对应的权重,a≥0,b≥0,c≥0且a+b+c=1。
若所述Foverlap、Fpos和Fsim其中任意一个计算得到的值不在0-1范围内,则可以通过如下公式进行归一化处理,以更符合对这三个值赋予权重来计算第一相似度Sim1的要求:
F(Si)表示与目标句子Si对应的需要归一化的参数,Min(F)为所有目标句子中所述需要归一化参数的最小值,Max(F)为所有目标句子中所述需要归一化参数的最大值,所述Fnormalize(Si)为与所述目标句子Si对应的归一化后的参数。
举个例子,假设所有目标句子对应的Foverlap的值在10-100范围内,与目标句子Si对应的Foverlap为20,所有目标句子对应的Foverlap的最大值为100,最小值为10,那么与所述目标句子对应的归一化后的Foverlap值为
本实施例通过综合考虑所述目标句子与关键词集合之间的重合度、语义相关度,以及目标句子在所述待处理文本中的位置,使得根据目标句子的第一相似度生成的文摘较为准确,较能代表所述待处理文本的内容。
实施例二
实施例一仅依据所述目标句子的第一相似度来判断目标句子是否能够加入文摘,但是这种方式得到的文摘可能会包含多个含义极为相似的句子,为了避免这种情况出现,本实施例在考虑目标句子与关键词的相似程度的基础上,进一步考虑目标句子与已经加入到文摘中的文摘句之间的相似程度,以降低一些与文摘句极为相似的目标句子加入文摘的可能性。
参见图4,该图为本发明实施例二提供的一种文摘生成方法的流程图。
本实施例提供的文摘生成方法包括如下步骤:
步骤S301:获取待处理文本的关键词集合,并分别计算所述关键词集合中各个关键词的权重。
所述关键词用于表达所述待处理文本的内容,所述关键词的权重表示所述关键词在所述待处理文本中的重要程度。
步骤S302:以句子为单位对所述待处理文本进行划分,得到目标句子。
步骤S303:确定所述目标句子中包含的关键词,并根据所述目标句子中包含的关键词的数量和关键词的权重得到所述目标句子的第一相似度。
当然,如前文所述,所述第一相似度还可以根据所述目标句子与所述关键词集合之间的语义相关度和所述目标句子在所述待处理文本中的位置的至少其一,以及所述目标句子中包含的关键词的数量和关键词的权重得到。
步骤S304:获取所述目标句子与已加入文摘的文摘句之间的第二相似度。
在本发明中,所述目标句子指的是所述待处理文本中待判断是否加入到文摘的句子。在实际应用中,若所述目标句子为对所述待处理文本进行划分得到的句子集合中第一相似度最高的句子,则可以将该目标句子加入文摘作为首个文摘句,其余句子仍然为目标句子。那么除了表达与关键词集合相近程度的第一相似度,这些目标句子是否能加入到文摘的第二个指标为表达与文摘句相似度的第二相似度。若所述第二相似度较高,则需要降低所述目标句子加入文摘的可能性;若所述第二相似度较低,则可以增加所述目标句子加入文摘的可能性,通过这样一种方式提高文摘的内容丰富度,减少文摘句发生内容重复的概率。
计算第二相似度的方法与计算第一相似度的方法类似,在计算第二相似度时,可以仅考虑所述目标句子和所述已加入文摘的文摘句的重合程度,也可以同时考虑重合程度和语义相近程度。参见图5,下面是具体步骤:
步骤S3041:获取所述目标句子与所述已加入文摘的文摘句的重合词,并计算所述重合词的权重,所述重合词的权重表示所述重合词在所述文本中的重要程度。
在本实施例中,所述目标句子与所述文摘句的重合度,可以根据所述目标句子和所述文摘句之间的重合词的权重得到。为了更加准确,优选的,所述重合度根据所述重合词的权重和数量得到。例如,将所述目标句子中包含的重合词的权重之和,与包含的重合词的数量的乘积,作为所述目标句子与已加入文摘的文摘句之间的重合度。
所述重合词是指所述目标句子中包含的、且出现在所述文摘句中的特征词。所述重合词包括但不限于上文提到的关键词。所述重合词的权重可以是所述重合词的tf-idf值。计算所述目标句子与所述文摘句的重合度的方式和计算所述目标句子与所述关键词集合的重合度的方式基本相同,只要将所述文摘句中的特征词看成是所述关键词集合中的各个关键词即可,此处不再赘述。
步骤S3042:获取所述目标句子与所述已加入文摘的文摘句之间的语义相似度。
同理,计算所述目标句子与所述文摘句之间的语义相似度,与计算所述目标句子与所述关键词之间的语义相似度的方法也基本相同,只要将所述文摘句中的特征词看成是所述关键词集合中的各个关键词即可,此处也不再赘述。
步骤S3043:根据所述目标句子中包含的重合词的数量和重合词的权重,以及所述目标句子与所述已加入文摘的文摘句之间的语义相似度,得到所述目标句子与已加入文摘的文摘句之间的第二相似度。
在本实施例中,所述第二相似度综合考虑了所述目标句子中包含的重合词的数量和重合词的权重,以及所述目标句子与所述已加入文摘的文摘句之间的语义相似度,以使所述第二相似度更好的表达所述目标句子与文摘句之间的相似度。当然可以理解的是,在实际应用中,仅考虑二者其一也是可以的。
步骤S305:根据所述目标句子的第一相似度和所述第二相似度得到所述目标句子是否能够加入文摘的判断结果。
本实施例综合考虑所述目标句子与所述文摘句的重合度以及语义相似度,得到所述目标句子与所述文摘句之间的第二相似度,所述第二相似度表示所述目标句子与所述文摘句的相似度。
具体的,根据所述第一相似度和所述第二相似度可以得到所述目标句子的分值:
其中,所述MMR(Di)表示目标句子Di的分值,Q表示关键词集合,Sim1(Di,Q)表示所述目标句子的第一相似度。Sim2(Di,Dj)表示目标句子Di与文摘句Dj之间的第二相似度,表示目标句子Di与所有文摘句之间的第二相似度的最大值。S表示所述已加入文摘的摘要句。λ表示Sim1(Di,Q)的权重值。
通过该公式可以看出,所述目标句子的分值与第一相似度呈正相关关系,与第二相似度呈负相关关系。当得到所述目标句子的分值后,根据该分值判断所述目标句子是否能够加入文摘。例如,若所述目标句子的分值大于某个阈值,则将所述目标句子加入该文摘,否则不加入。再例如,将所有目标句子的分值计算出来,按照分值由高到低的顺序,提取分值最高的前N个目标句子加入文摘。
下面介绍如何获取待处理文本的关键词集合。现有技术在确定待处理文本的关键词时,首先将所述待处理文本进行分词处理,得到各个特征词,然后,根据所述特征词在所述待处理文本出现的频率信息来确定所述待处理文本的关键词。具体算法可以例如为ATF(Average Term Frequency,平均词频)*PSF(Proportional Sentence Frequency,比例句子频率)算法。其中的ATF指的是特征词在待处理文本的各个句子中出现的平均频率;PSF指的是包含该特征词的句子占整篇待处理文本句子总数的比例。
具体计算公式如下:
其中,wi表示第i个特征词,ATF*PSF(wi)为特征词wi对应的ATF*PSF值,N表示待处理文本句子的个数;ni表示待处理文本中包含特征词wi的句子数量,tfij表示特征词wi在句子j中的词频。
在该公式中,包含特征词wi的句子数量的多少表示该特征词反映待处理文本主题的程度,PSF值越大,表示该特征词wi越能反映主题。由于句子越长,特征词在句子中出现的次数可能会越多,如果单纯以一个特征词在一个句子中出现的次数来衡量该特征词在该句子中的重要程度是不准确的。例如,假设特征词A在字数为20的句子E中出现两次,在字数为10的句子F里出现一次。如果不考虑句子长度,则特征词A在句子E和句子F中的重要程度分别为2和1,但特征词A在两个句子中的重要程度应该是相同的。为了降低句子长度对词频的影响,在本实施例中,优选将所述特征词在每个句子的词频进行归一化,即:
其中,n为句子j中包含的特征词的总个数。
通过将特征词在每个句子的词频进行归一化,弱化了句子长度对词频的影响,使得特征词在所述待处理文本出现的频率信息更为准确。
进一步,本实施例不仅考虑特征词在待处理文本中出现的频率信息,还考虑特征词在待处理文本中的重要程度。具体的算法可以例如为TextRank算法。顾名思义,TextRank原本是用于对文本进行排序的算法,但是在本实施例中,用于对待处理文本中的关键词进行提取。TextRank定义一个窗口,该窗口的大小为m,每个特征词在与其前后距离在m以内的特征词之间具有连接关系,该连接关系称为边,且每个边的权重在本实施例中设置为1。通过迭代的方式可以计算每个特征词的重要程度,具体的计算公式如下:
等式左边WS(Vi)表示特征词Vi的重要程度分值(权重),等式右边表示与特征词Vi相邻的每个特征词对特征词Vi的贡献度的加权求和。d是阻尼系数,一般取0.85(阻尼系数作用,使得链接循环中WS传递能够稳定延续,不至于中断或者无限放大),wji表示特征词Vi和特征词Vj之间边的权重值,Vj∈S(Vi)表示与特征词Vi有连接关系的特征词Vj,Vk∈S(Vj)表示与特征词Vj有连接关系的特征词Vk。
在得到特征词wi对应的ATF*PSF(wi)(第一参数)以及WS(Vi)(第二参数)(特征词wi和Vi表示同一个特征词)后,根据所述第一参数和第二参数选取所述待处理文本的关键词。例如,可以求所述第一参数和第二参数的均值,作为该特征词的权重,然后按照特征词权重由高到低的顺序选取前S个特征词作为关键词。
基于以上实施例提供的一种文摘生成方法,本发明实施例还提供了一种文摘生成装置,下面结合附图来详细说明其工作原理。
实施例三
参见图6,该图为本发明实施例三提供的一种文摘生成装置的结构框图。
本实施例提供的文摘生成装置包括:关键词集合获取单元101、目标句子获取单元102、关键词确定单元103、第一相似度确定单元104和判断单元105;
其中,所述关键词集合获取单元101,用于获取待处理文本的关键词集合,并分别计算所述关键词集合中各个关键词的权重,所述关键词用于表达所述待处理文本的内容,所述关键词的权重表示所述关键词在所述待处理文本中的重要程度;
所述目标句子获取单元102,用于以句子为单位对所述待处理文本进行划分,得到目标句子;
所述关键词确定单元103,用于确定所述目标句子中包含的关键词;
所述第一相似度确定单元104,用于根据所述目标句子中包含的关键词的数量和关键词的权重得到所述目标句子的第一相似度;
所述判断单元105,用于根据所述目标句子的第一相似度得到所述目标句子是否能够加入文摘的判断结果。
本实施例通过获取待处理文本的关键词集合,并分别计算所述关键词集合中各个关键词的权重,以句子为单位对所述待处理文本进行划分,得到目标句子,确定所述目标句子中包含的关键词,并根据所述目标句子中包含的关键词的数量和关键词的权重得到所述目标句子的第一相似度,根据所述目标句子的第一相似度得到所述目标句子是否能够加入文摘的判断结果,实现了从所述待处理文本的句子中选取部分句子得到文摘的目的。
可选的,所述装置还包括:语义相关度确定单元,和/或目标句子位置确定单元;
所述语义相关度确定单元,用于确定所述目标句子与所述关键词集合之间的语义相关度;
所述目标句子位置确定单元,用于确定所述目标句子在所述待处理文本中的位置;
所述第一相似度确定单元,具体用于根据所述目标句子与所述关键词集合之间的语义相关度和所述目标句子在所述待处理文本中的位置的至少其一,以及所述目标句子中包含的关键词的数量和关键词的权重得到所述目标句子的第一相似度。
可选的,所述语义相关度单元确定单元包括:分词单元、词相似度计算单元和语义相关度确定子单元;
其中,所述分词单元,用于对所述目标句子进行分词,得到各个特征词;
所述词相似度计算单元,用于分别计算所述关键词集合中各个关键词与所述目标句子的各个特征词之间的词相似度;
所述语义相关度确定子单元,用于根据所述关键词集合中各个关键词与所述目标句子的各个特征词之间的词相似度,利用加权二部图的最大权重匹配算法来得到所述目标句子与所述关键词集合之间的语义相关度。
可选的,所述装置还包括:
第二相似度获取单元,用于获取所述目标句子与已加入文摘的文摘句之间的第二相似度;
所述判断单元,具体用于根据所述目标句子的第一相似度和所述第二相似度得到所述目标句子是否能够加入文摘的判断结果。
可选的,所述第二相似度获取单元,具体用于:
获取所述目标句子与所述已加入文摘的文摘句的重合词,并计算所述重合词的权重,所述重合词的权重表示所述重合词在所述文本中的重要程度,根据所述目标句子中包含的重合词的数量和重合词的权重,得到所述目标句子与已加入文摘的文摘句之间的第二相似度。
可选的,所述第二相似度获取单元,具体用于:
获取所述目标句子与所述已加入文摘的文摘句的重合词,并计算所述重合词的权重,所述重合词的权重表示所述重合词在所述文本中的重要程度;获取所述目标句子与所述已加入文摘的文摘句之间的语义相似度;根据所述目标句子中包含的重合词的数量和重合词的权重,以及所述目标句子与所述已加入文摘的文摘句之间的语义相似度,得到所述目标句子与已加入文摘的文摘句之间的第二相似度。
当介绍本发明的各种实施例的元件时,冠词“一”、“一个”、“这个”和“所述”都意图表示有一个或多个元件。词语“包括”、“包含”和“具有”都是包括性的并意味着除了列出的元件之外,还可以有其它元件。
需要说明的是,本领域普通技术人员可以理解实现上述方法实施例中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccess Memory,RAM)等。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元及模块可以是或者也可以不是物理上分开的。另外,还可以根据实际的需要选择其中的部分或者全部单元和模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本发明的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种文摘生成方法,其特征在于,所述方法包括:
获取待处理文本的关键词集合,并分别计算所述关键词集合中各个关键词的权重,所述关键词用于表达所述待处理文本的内容,所述关键词的权重表示所述关键词在所述待处理文本中的重要程度;
以句子为单位对所述待处理文本进行划分,得到目标句子;
确定所述目标句子中包含的关键词,并根据所述目标句子中包含的关键词的数量和关键词的权重得到所述目标句子的第一相似度;
根据所述目标句子的第一相似度得到所述目标句子是否能够加入文摘的判断结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标句子中包含的关键词的数量和关键词的权重得到所述目标句子的第一相似度包括:
将所述目标句子中包含的关键词的权重之和与所述包含的关键词的数量的乘积作为所述目标句子的第一相似度。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
确定所述目标句子与所述关键词集合之间的语义相关度,和/或所述目标句子在所述待处理文本中的位置;
所述根据所述目标句子中包含的关键词的数量和关键词的权重得到所述目标句子的第一相似度包括:
根据所述目标句子与所述关键词集合之间的语义相关度和所述目标句子在所述待处理文本中的位置的至少其一,以及所述目标句子中包含的关键词的数量和关键词的权重得到所述目标句子的第一相似度。
4.根据权利要求3所述的方法,其特征在于,所述确定所述目标句子与所述关键词集合之间的语义相关度包括:
对所述目标句子进行分词,得到各个特征词;
分别计算所述关键词集合中各个关键词与所述目标句子的各个特征词之间的词相似度;
根据所述关键词集合中各个关键词与所述目标句子的各个特征词之间的词相似度,利用加权二部图的最大权重匹配算法来得到所述目标句子与所述关键词集合之间的语义相关度。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述目标句子与已加入文摘的文摘句之间的第二相似度;
所述根据所述目标句子的第一相似度得到所述目标句子是否能够加入文摘的判断结果包括:
根据所述目标句子的第一相似度和所述第二相似度得到所述目标句子是否能够加入文摘的判断结果。
6.根据权利要求5所述的方法,其特征在于,所述获取所述目标句子与已加入文摘的文摘句之间的第二相似度包括:
获取所述目标句子与所述已加入文摘的文摘句的重合词,并计算所述重合词的权重,所述重合词的权重表示所述重合词在所述文本中的重要程度;
根据所述目标句子中包含的重合词的数量和重合词的权重,得到所述目标句子与已加入文摘的文摘句之间的第二相似度。
7.根据权利要求6所述的方法,其特征在于,所述根据所述目标句子中包含的重合词的数量和重合词的权重,得到所述目标句子与已加入文摘的文摘句之间的第二相似度包括:
将所述目标句子中包含的重合词的权重之和,与包含的重合词的数量的乘积,作为所述目标句子与已加入文摘的文摘句之间的第二相似度。
8.根据权利要求6或7所述的方法,其特征在于,所述获取所述目标句子与已加入文摘的文摘句之间的第二相似度还包括:
获取所述目标句子与所述已加入文摘的文摘句之间的语义相似度;
所述根据所述目标句子中包含的重合词的数量和重合词的权重,得到所述目标句子与已加入文摘的文摘句之间的第二相似度包括:
根据所述目标句子中包含的重合词的数量和重合词的权重,以及所述目标句子与所述已加入文摘的文摘句之间的语义相似度,得到所述目标句子与已加入文摘的文摘句之间的第二相似度。
9.根据权利要求5所述的方法,其特征在于,所述方法还包括:
若所述目标句子为对所述待处理文本进行划分得到的句子集合中第一相似度最高的句子,则将所述目标句子加入所述文摘作为首个文摘句。
10.根据权利要求1所述的方法,其特征在于,所述获取待处理文本的关键词集合包括:
获取所述待处理文本的特征词,并获取所述特征词的第一参数和第二参数,所述第一参数表示利用ATF*PSF算法得到的所述特征词在所述待处理文本中的频率信息,所述第二参数表示利用TextRank算法得到的所述特征词在所述待处理文本中的重要程度;
根据所述特征词的第一参数和第二参数选取所述待处理文本的关键词集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611111235.3A CN106599148A (zh) | 2016-12-02 | 2016-12-02 | 一种文摘生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611111235.3A CN106599148A (zh) | 2016-12-02 | 2016-12-02 | 一种文摘生成方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106599148A true CN106599148A (zh) | 2017-04-26 |
Family
ID=58596173
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611111235.3A Pending CN106599148A (zh) | 2016-12-02 | 2016-12-02 | 一种文摘生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106599148A (zh) |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107239574A (zh) * | 2017-06-29 | 2017-10-10 | 北京神州泰岳软件股份有限公司 | 一种智能问答系统知识‑问题匹配的方法及装置 |
CN108182247A (zh) * | 2017-12-28 | 2018-06-19 | 东软集团股份有限公司 | 文摘生成方法和装置 |
CN108304377A (zh) * | 2017-12-28 | 2018-07-20 | 东软集团股份有限公司 | 一种长尾词的提取方法及相关装置 |
CN108664465A (zh) * | 2018-03-07 | 2018-10-16 | 珍岛信息技术(上海)股份有限公司 | 一种自动生成文本方法以及相关装置 |
CN109033087A (zh) * | 2018-08-07 | 2018-12-18 | 中证征信(深圳)有限公司 | 计算文本语义距离的方法、去重方法、聚类方法以及装置 |
CN109063184A (zh) * | 2018-08-24 | 2018-12-21 | 广东外语外贸大学 | 多语言新闻文本聚类方法、存储介质及终端设备 |
CN109325235A (zh) * | 2018-10-17 | 2019-02-12 | 武汉斗鱼网络科技有限公司 | 一种基于词权的文本摘要提取方法及计算装置 |
CN109657227A (zh) * | 2018-10-08 | 2019-04-19 | 平安科技(深圳)有限公司 | 合同可行性判定方法、设备、存储介质及装置 |
CN109684642A (zh) * | 2018-12-26 | 2019-04-26 | 重庆誉存大数据科技有限公司 | 一种结合页面解析规则和nlp文本向量化的摘要提取方法 |
CN110147425A (zh) * | 2019-05-22 | 2019-08-20 | 华泰期货有限公司 | 一种关键词提取方法、装置、计算机设备及存储介质 |
CN110162778A (zh) * | 2019-04-02 | 2019-08-23 | 阿里巴巴集团控股有限公司 | 文本摘要的生成方法及装置 |
CN110298028A (zh) * | 2019-05-21 | 2019-10-01 | 浙江省北大信息技术高等研究院 | 一种文本段落的关键句提取方法和装置 |
WO2019196314A1 (zh) * | 2018-04-10 | 2019-10-17 | 平安科技(深圳)有限公司 | 文本信息相似度匹配方法、装置、计算机设备及存储介质 |
CN110472203A (zh) * | 2019-08-14 | 2019-11-19 | 上海智臻智能网络科技股份有限公司 | 一种文章的查重检测方法、装置、设备及存储介质 |
CN110598123A (zh) * | 2019-08-14 | 2019-12-20 | 平安科技(深圳)有限公司 | 基于画像相似性的信息检索推荐方法、装置及存储介质 |
CN110597978A (zh) * | 2018-06-12 | 2019-12-20 | 北京京东尚科信息技术有限公司 | 物品摘要生成方法、系统、电子设备及可读存储介质 |
CN110705287A (zh) * | 2019-09-27 | 2020-01-17 | 北京妙笔智能科技有限公司 | 一种用于文本摘要的生成方法和系统 |
CN110781669A (zh) * | 2019-10-24 | 2020-02-11 | 泰康保险集团股份有限公司 | 文本关键信息提取方法与装置、电子设备、存储介质 |
CN111125348A (zh) * | 2019-11-25 | 2020-05-08 | 北京明略软件系统有限公司 | 一种文本摘要的提取方法及装置 |
CN112836016A (zh) * | 2021-02-05 | 2021-05-25 | 北京字跳网络技术有限公司 | 会议纪要生成方法、装置、设备和存储介质 |
WO2021164231A1 (zh) * | 2020-02-18 | 2021-08-26 | 平安科技(深圳)有限公司 | 公文摘要提取方法、装置、设备及计算机可读存储介质 |
CN113535940A (zh) * | 2020-04-17 | 2021-10-22 | 阿里巴巴集团控股有限公司 | 事件摘要生成方法、装置及电子设备 |
CN114428851A (zh) * | 2021-12-29 | 2022-05-03 | 北京百度网讯科技有限公司 | 摘要生成方法、装置、电子设备和存储介质 |
CN116108165A (zh) * | 2023-04-04 | 2023-05-12 | 中电科大数据研究院有限公司 | 文本摘要生成方法、装置、存储介质及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1341899A (zh) * | 2000-09-07 | 2002-03-27 | 国际商业机器公司 | 为文字文档自动生成摘要的方法 |
CN101446940A (zh) * | 2007-11-27 | 2009-06-03 | 北京大学 | 为文档集自动生成摘要的方法及装置 |
CN103699525A (zh) * | 2014-01-03 | 2014-04-02 | 江苏金智教育信息技术有限公司 | 一种基于文本多维度特征自动生成摘要的方法和装置 |
US9053090B2 (en) * | 2006-10-10 | 2015-06-09 | Abbyy Infopoisk Llc | Translating texts between languages |
-
2016
- 2016-12-02 CN CN201611111235.3A patent/CN106599148A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1341899A (zh) * | 2000-09-07 | 2002-03-27 | 国际商业机器公司 | 为文字文档自动生成摘要的方法 |
US9053090B2 (en) * | 2006-10-10 | 2015-06-09 | Abbyy Infopoisk Llc | Translating texts between languages |
CN101446940A (zh) * | 2007-11-27 | 2009-06-03 | 北京大学 | 为文档集自动生成摘要的方法及装置 |
CN103699525A (zh) * | 2014-01-03 | 2014-04-02 | 江苏金智教育信息技术有限公司 | 一种基于文本多维度特征自动生成摘要的方法和装置 |
Non-Patent Citations (3)
Title |
---|
朱征宇等: "一种基于最大权匹配计算的信息检索方法", 《计算机工程与应用》 * |
李小平: "《网络影视课程编导论》", 30 April 2016, 北京理工大学出版社 * |
杨洁等: "基于TextRank的多文档关键词抽取技术", 《第四届全国信息检索与内容安全学术会议论文集(上)》 * |
Cited By (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107239574A (zh) * | 2017-06-29 | 2017-10-10 | 北京神州泰岳软件股份有限公司 | 一种智能问答系统知识‑问题匹配的方法及装置 |
CN107239574B (zh) * | 2017-06-29 | 2018-11-02 | 北京神州泰岳软件股份有限公司 | 一种智能问答系统知识-问题匹配的方法及装置 |
CN108182247A (zh) * | 2017-12-28 | 2018-06-19 | 东软集团股份有限公司 | 文摘生成方法和装置 |
CN108304377A (zh) * | 2017-12-28 | 2018-07-20 | 东软集团股份有限公司 | 一种长尾词的提取方法及相关装置 |
CN108304377B (zh) * | 2017-12-28 | 2021-08-06 | 东软集团股份有限公司 | 一种长尾词的提取方法及相关装置 |
CN108664465A (zh) * | 2018-03-07 | 2018-10-16 | 珍岛信息技术(上海)股份有限公司 | 一种自动生成文本方法以及相关装置 |
WO2019196314A1 (zh) * | 2018-04-10 | 2019-10-17 | 平安科技(深圳)有限公司 | 文本信息相似度匹配方法、装置、计算机设备及存储介质 |
CN110597978B (zh) * | 2018-06-12 | 2023-12-08 | 北京京东尚科信息技术有限公司 | 物品摘要生成方法、系统、电子设备及可读存储介质 |
CN110597978A (zh) * | 2018-06-12 | 2019-12-20 | 北京京东尚科信息技术有限公司 | 物品摘要生成方法、系统、电子设备及可读存储介质 |
CN109033087B (zh) * | 2018-08-07 | 2024-01-26 | 中证数智科技(深圳)有限公司 | 计算文本语义距离的方法、去重方法、聚类方法以及装置 |
CN109033087A (zh) * | 2018-08-07 | 2018-12-18 | 中证征信(深圳)有限公司 | 计算文本语义距离的方法、去重方法、聚类方法以及装置 |
CN109063184A (zh) * | 2018-08-24 | 2018-12-21 | 广东外语外贸大学 | 多语言新闻文本聚类方法、存储介质及终端设备 |
CN109063184B (zh) * | 2018-08-24 | 2020-09-01 | 广东外语外贸大学 | 多语言新闻文本聚类方法、存储介质及终端设备 |
CN109657227A (zh) * | 2018-10-08 | 2019-04-19 | 平安科技(深圳)有限公司 | 合同可行性判定方法、设备、存储介质及装置 |
CN109325235A (zh) * | 2018-10-17 | 2019-02-12 | 武汉斗鱼网络科技有限公司 | 一种基于词权的文本摘要提取方法及计算装置 |
CN109684642B (zh) * | 2018-12-26 | 2023-01-13 | 重庆电信系统集成有限公司 | 一种结合页面解析规则和nlp文本向量化的摘要提取方法 |
CN109684642A (zh) * | 2018-12-26 | 2019-04-26 | 重庆誉存大数据科技有限公司 | 一种结合页面解析规则和nlp文本向量化的摘要提取方法 |
CN110162778B (zh) * | 2019-04-02 | 2023-05-26 | 创新先进技术有限公司 | 文本摘要的生成方法及装置 |
CN110162778A (zh) * | 2019-04-02 | 2019-08-23 | 阿里巴巴集团控股有限公司 | 文本摘要的生成方法及装置 |
CN110298028A (zh) * | 2019-05-21 | 2019-10-01 | 浙江省北大信息技术高等研究院 | 一种文本段落的关键句提取方法和装置 |
CN110298028B (zh) * | 2019-05-21 | 2023-08-18 | 杭州未名信科科技有限公司 | 一种文本段落的关键句提取方法和装置 |
CN110147425A (zh) * | 2019-05-22 | 2019-08-20 | 华泰期货有限公司 | 一种关键词提取方法、装置、计算机设备及存储介质 |
CN110147425B (zh) * | 2019-05-22 | 2021-04-06 | 华泰期货有限公司 | 一种关键词提取方法、装置、计算机设备及存储介质 |
CN110472203A (zh) * | 2019-08-14 | 2019-11-19 | 上海智臻智能网络科技股份有限公司 | 一种文章的查重检测方法、装置、设备及存储介质 |
CN110598123B (zh) * | 2019-08-14 | 2023-12-29 | 平安科技(深圳)有限公司 | 基于画像相似性的信息检索推荐方法、装置及存储介质 |
CN110598123A (zh) * | 2019-08-14 | 2019-12-20 | 平安科技(深圳)有限公司 | 基于画像相似性的信息检索推荐方法、装置及存储介质 |
CN110705287A (zh) * | 2019-09-27 | 2020-01-17 | 北京妙笔智能科技有限公司 | 一种用于文本摘要的生成方法和系统 |
CN110781669A (zh) * | 2019-10-24 | 2020-02-11 | 泰康保险集团股份有限公司 | 文本关键信息提取方法与装置、电子设备、存储介质 |
CN111125348A (zh) * | 2019-11-25 | 2020-05-08 | 北京明略软件系统有限公司 | 一种文本摘要的提取方法及装置 |
WO2021164231A1 (zh) * | 2020-02-18 | 2021-08-26 | 平安科技(深圳)有限公司 | 公文摘要提取方法、装置、设备及计算机可读存储介质 |
CN113535940A (zh) * | 2020-04-17 | 2021-10-22 | 阿里巴巴集团控股有限公司 | 事件摘要生成方法、装置及电子设备 |
CN112836016A (zh) * | 2021-02-05 | 2021-05-25 | 北京字跳网络技术有限公司 | 会议纪要生成方法、装置、设备和存储介质 |
CN114428851A (zh) * | 2021-12-29 | 2022-05-03 | 北京百度网讯科技有限公司 | 摘要生成方法、装置、电子设备和存储介质 |
CN116108165A (zh) * | 2023-04-04 | 2023-05-12 | 中电科大数据研究院有限公司 | 文本摘要生成方法、装置、存储介质及电子设备 |
CN116108165B (zh) * | 2023-04-04 | 2023-06-13 | 中电科大数据研究院有限公司 | 文本摘要生成方法、装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106599148A (zh) | 一种文摘生成方法及装置 | |
Verma et al. | Extractive summarization using deep learning | |
Mendoza et al. | Extractive single-document summarization based on genetic operators and guided local search | |
Bafna et al. | Feature based summarization of customers’ reviews of online products | |
CN109241294A (zh) | 一种实体链接方法及装置 | |
JP6848091B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
JP2005322245A5 (zh) | ||
Asghar et al. | Medical opinion lexicon: an incremental model for mining health reviews | |
CN110019668A (zh) | 一种文本检索方法及装置 | |
CN105512277B (zh) | 一种面向图书市场书名的短文本聚类方法 | |
CN105069143A (zh) | 提取文档中关键词的方法及装置 | |
Zvonarev et al. | A Comparison of Machine Learning Methods of Sentiment Analysis Based on Russian Language Twitter Data. | |
Štajner et al. | Automatic assessment of conceptual text complexity using knowledge graphs | |
Günther et al. | Jina embeddings: A novel set of high-performance sentence embedding models | |
CN110019670A (zh) | 一种文本检索方法及装置 | |
Lee et al. | Detecting suicidality with a contextual graph neural network | |
Chen et al. | Using deep belief nets for Chinese named entity categorization | |
González et al. | ELiRF-UPV at SemEval-2019 task 3: Snapshot ensemble of hierarchical convolutional neural networks for contextual emotion detection | |
KR101246101B1 (ko) | 바이오 텍스트 데이터로부터 개체 간의 관계를 도출하는 방법 | |
CN110609997B (zh) | 生成文本的摘要的方法和装置 | |
JP2012208917A (ja) | ドキュメントランク付け方法および装置 | |
de Souza et al. | Incorporating Multiple Feature Groups to a Siamese Neural Network for Semantic Textual Similarity Task in Portuguese Texts. | |
CN110929501B (zh) | 文本分析方法和装置 | |
Haggag et al. | Keyword Extraction using Clustering and Semantic Analysis | |
Ilham et al. | Comparative Analysis of Using Word Embedding in Deep Learning for Text Classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170426 |