CN105868175A - 摘要生成方法及装置 - Google Patents
摘要生成方法及装置 Download PDFInfo
- Publication number
- CN105868175A CN105868175A CN201510882825.5A CN201510882825A CN105868175A CN 105868175 A CN105868175 A CN 105868175A CN 201510882825 A CN201510882825 A CN 201510882825A CN 105868175 A CN105868175 A CN 105868175A
- Authority
- CN
- China
- Prior art keywords
- statement
- combination
- candidate
- submodule
- pending document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 239000002131 composite material Substances 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 10
- 238000011524 similarity measure Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012163 sequencing technique Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000005252 bulbus oculi Anatomy 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本公开实施例提供了一种摘要生成方法及装置,所述方法包括以下步骤:将待处理文档划分为多个语句组合,每个所述语句组合中均包含预设数量个语句;计算每个所述语句组合中所有语句的权重值;针对每个语句组合,选取所述语句组合中权重值最大的语句作为候选语句;将部分所述语句组合对应的所述候选语句组合成所述待处理文档的摘要。本公开提供的该方法能够通过自动根据文档内容生成摘要,方便用户快速通过阅读文摘获取所需信息,帮助人们了解文档概况,并根据文档概况确定是否应该详读原文。
Description
技术领域
本公开涉及计算机技术,尤其涉及摘要生成方法及装置。
背景技术
随着互联网的普及、以及信息获取途径的增加,每天都有不短涌现的海量信息。所以目前的新闻一般都设有新闻标题,新闻标题是在新闻正文内容前面,对新闻内容加以概括或评价的简短文字,作用是划分、组织、揭示、评价新闻内容、吸引读者阅读。
但是由于目前网络上新闻数据比较多,某些媒体为吸引用户眼球,以获取更大的用户的浏览量,某些新闻标题可能会设置的过分夸大,而且与文章内容无多大关联,用户在读取完这样的新闻之后可能并没有得到需要的信息,浪费用户时间及精力。
发明内容
本公开提供一种摘要生成方法及装置,用以解决现有技术中新闻标题与新闻内容不符,用户通过读取这样的新闻可能无法获取到所需内容的技术问题。
根据本公开实施例的第一方面,提供一种摘要生成方法,包括:
将待处理文档划分为多个语句组合,每个所述语句组合中均包含预设数量个语句;
计算每个所述语句组合中所有语句的权重值;
针对每个语句组合,选取所述语句组合中权重值最大的语句作为候选语句;
将部分所述语句组合对应的所述候选语句组合成所述待处理文档的摘要。
可选地,所述计算每个所述语句组合中所有语句的权重值包括:
将文档中的文字分割为多个词语;
为每个词语标注词性;
将每个语句中分割得到的多个词语中词性为预设词性的词语,以及,位于预设黑名单中的词语删除;
计算所述语句组合中每两个语句的相似度;
利用所述相似度计算每个所述语句组合中所有语句的权重值。
可选地,所述将待处理文档划分为多个语句组合包括:
将待处理文档的内容按照预设标点划分为多个语句;
针对每个语句,按照语句在所述待处理文档中的排序,选取所述语句以及所述语句之后的预设数量个连续的语句作为一个语句组合。
可选地,所述将部分所述语句组合对应的所述候选语句组合成所述待处理文档的摘要包括:
将每个语句组合中最大的权重值对应的语句确定为目标语句;
将预设数量个目标语句确定为候选语句。
可选地,所述将部分所述语句组合对应的所述候选语句组合成所述待处理文档的摘要包括:
获取部分所述语句组合对应的所述候选语句在待处理文档中的排序;
按照所述排序生成所述待处理文档的摘要。
根据本公开实施例的第二方面,提供一种摘要生成装置,包括:
划分模块,用于将待处理文档划分为多个语句组合,每个所述语句组合中均包含预设数量个语句;
计算模块,用于计算每个所述语句组合中所有语句的权重值;
选取模块,用于针对每个语句组合,选取所述语句组合中权重值最大的语句作为候选语句;
组合模块,用于将部分所述语句组合对应的所述候选语句组合成所述待处理文档的摘要。
可选地,所述计算模块,包括:
分割子模块,用于将文档中的文字分割为多个词语;
标注子模块,用于为每个词语标注词性;
删除子模块,用于将每个语句中分割得到的多个词语中词性为预设词性的词语,以及,位于预设黑名单中的词语删除;
相似度计算子模块,用于计算所述语句组合中每两个语句的相似度;
权重计算子模块,用于利用所述相似度计算每个所述语句组合中所有语句的权重值。
可选地,所述划分模块,包括:
划分子模块,用于将待处理文档的内容按照预设标点划分为多个语句;
选取子模块,用于针对每个语句,按照语句在所述待处理文档中的排序,选取所述语句以及所述语句之后的预设数量个连续的语句作为一个语句组合。
可选地,所述组合模块,包括:
第一确定子模块,用于将每个语句组合中最大的权重值对应的语句确定为目标语句;
第二确定子模块,用于将预设数量个目标语句确定为候选语句。
可选地,所述组合模块,包括:
获取子模块,用于获取部分所述语句组合对应的所述候选语句在待处理文档中的排序;
生成子模块,用于按照所述排序生成所述待处理文档的摘要。
本公开的实施例提供的技术方案可以包括以下有益效果:
本公开通过将待处理文档划分为多个语句组合,每个所述语句组合中均包含预设数量个语句;计算每个所述语句组合中所有语句的权重值;针对每个语句组合,选取所述语句组合中权重值最大的语句作为候选语句;可以将部分所述语句组合对应的所述候选语句组合成所述待处理文档的摘要。
本公开提供的该方法能够通过自动根据文档内容生成摘要,方便用户快速通过阅读文摘获取所需信息,帮助人们了解文档概况,并根据文档概况确定是否应该详读原文。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种摘要生成方法的流程图;
图2是图1中步骤S102的流程图;
图3是图1中步骤S101的流程图;
图4是图1中步骤S104的流程图;
图5是图1中步骤S104的流程图;
图6是根据一示例性实施例示出的一种摘要生成装置的装置图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
随着互联网的普、信息获取途径的增加,每天都有不短涌现的海量信息。为了从这些海量信息中快速、准确地获取有用信息,文档的自动摘要处理变得越来越重要。为此,如图1所示,在本公开的一个实施例中,提供一种摘要生成方法,包括以下步骤。
在步骤S101中,将待处理文档划分为多个语句组合,每个所述语句组合中均包含预设数量个语句。
在该步骤中,可以按照句号、叹号、问号等表示长停顿的标点来将文档划分为多个语句,并且可以将预设数量个语句组合成一个语句组合,在本公开实施例中每个语句组合中可以包含五个语句。
在步骤S102中,计算每个所述语句组合中所有语句的权重值。
在该步骤中,可以利用TextRank公式计算语句在待处理文档中的权重,并且可以利用BM25算法来计算两个语句之间的相似度。
在步骤S103中,针对每个语句组合,选取所述语句组合中权重值最大的语句作为候选语句。
例如:如果存在一个语句组合M中包含5个语句A、B、C、D和E的话,在经过TextRank公式计算A、B、C、D和E五个语句在待处理文档中的权重之后,得到C语句权重最大,则可以选取C作为候选语句,同理,如果存在一个语句组合N中包含5个语句F、G、H、I和J,则可以选取计算后权重最大的F语句作为候选语句,以此类推,除了候选语句C和F,还可以得到候选语句P、Q、R、S等。
在步骤S104中,将部分所述语句组合对应的所述候选语句组合成所述待处理文档的摘要。
在该步骤中,当候选语句为C、F、P、Q、R和S时,可以从中选取权重最大的预设数量个作为待处理文档的摘要,例如:CPQRS、CFPQS等等。
本公开能够通过自动根据文档内容生成摘要,方便用户快速通过阅读文摘获取所需信息,帮助人们了解文档概况,并根据文档概况确定是否应该详读原文。
如图2所示,在本公开的又一实施例中,所述步骤S102包括以下步骤。
在步骤S201中,将文档中的文字分割为多个词语。
在步骤S202中,为每个词语标注词性。
在步骤S201和步骤S202中,可以将待处理文档利用分词器来对文本进行分词,实现人名、地名等实体识别,得到词语以及其词性。
在步骤S203中,将每个语句中分割得到的多个词语中词性为预设词性的词语,以及,位于预设黑名单中的词语删除。
在该步骤中,可以根据预设词性和预设黑名单,来过滤掉属于预设词性的词语以及位于预设黑名单中的词语,例如:当预设词性包括名字时,可以将待处理文档中出现的人名删除,当预设黑名单中包括地名时,可以将待处理文档中的地名删除等。
在步骤S204中,计算所述语句组合中每两个语句的相似度。
在该步骤中,可以利用BM25算法计算两个语句之间的相似度,BM25算法如下:
在本公开实施例中,Q和d所代表的是两个句子,qi是句子中的一个词,Wi表示qi的权重,R(qi,d)表示语素qi与待处理文档d的相关性得分,这样Score(Q,d)就是Q和d两个句子的相似度。
在步骤S205中,利用所述相似度计算每个所述语句组合中所有语句的权重值。
在该步骤中,可以利用TextRank公式计算语句的权重值,TextRank公式如下:
其中,等式左边WS(Vi)表示一个句子的权重(WS是weight_sum的缩写),右侧的求和表示每个相邻句子对本句子的贡献程度,求和的分子wji表示两个句子的相似程度,分母又是一个weight_sum,WS(Vj)代表上次迭代j的权重。In(vi)表示指向结点vi的结点集合,Out(vj)表示结点vi所指向的结点的集合,d为阻尼系数(DampingFac-tor),一般取值为0.85,整个公式是一个迭代的过程。
本公开实施例提供的该方法,能够把每篇文章作为一个整体,体现出句子间的关联性,方便计算权重,并且能够兼顾语句间的相似性,避免提取出的摘要中出现重复的语句。
如图3所示,在本公开的又一实施例中,所述步骤S101包括以下步骤。
在步骤S301中,将待处理文档的内容按照预设标点划分为多个语句。
在步骤S302中,针对每个语句,按照语句在所述待处理文档中的排序,选取所述语句以及所述语句之后的预设数量个连续的语句作为一个语句组合。
例如:划分语句后的文档包括A语句、B语句、C语句、D语句、E语句、F语句和G语句,则可以将A语句、B语句、C语句、D语句和E语句作为一个第一语句组合,将B语句、C语句、D语句、E语句和F语句作为第二语句组合,将C语句、D语句、E语句、F语句和G语句作为第三语句组合。
本公开实施例提供的该方法,能够将每个语句分别与其相邻的语句构成语句组合,这样计算的句子之间的相似性及权重值将更加准确。
如图4所示,在本公开的又一个实施例中,所述步骤S104包括以下步骤。
在步骤S401中,在将每个语句组合中最大的权重值对应的语句确定为目标语句。
在步骤S402中,将预设数量个目标语句确定为候选语句。
在该步骤中,可以将所有目标语句按照权重值大小进行排序后,选取其中权重值最大的预设数量个目标语句作为候选语句。
本公开实施例能够将每个语句组合中“最重要”即权重值最大的语句确定为目标语句,并将所有目标语句进行排序后选取“最重要”的语句作为候选语句,能够准确的选取出文档中最重要的候选语句,以便根据这些候选语句生成摘要,计算量小,且选取范围更全面。
如图5所示,在本公开的又一实施例中,所述步骤S104包括以下步骤。
在步骤S501中,获取部分所述语句组合对应的所述候选语句在待处理文档中的排序。
在该步骤中,可以获取部分语句组合在文档中的位置,或者在文档中的先后顺序。
在步骤S502中,按照所述排序生成所述待处理文档的摘要。
在该步骤中,可以按照部分语句组合在文档中的先后顺序生成文档的摘要。
本公开实施例提供的该方法,能够将最终选取的候选语句按照其在文档中的先后顺序进行显示,方便用户理解。
如图6所示,在本公开的又一实施例中,提供一种摘要生成装置,包括:划分模块601、计算模块602、选取模块603和组合模块604。
划分模块601,用于将待处理文档划分为多个语句组合,每个所述语句组合中均包含预设数量个语句。
计算模块602,用于计算每个所述语句组合中所有语句的权重值。
选取模块603,用于针对每个语句组合,选取所述语句组合中权重值最大的语句作为候选语句。
组合模块604,用于将部分所述语句组合对应的所述候选语句组合成所述待处理文档的摘要。
在本公开的又一实施例中,所述计算模块602,包括:分割子模块、标注子模块、删除子模块、相似度计算子模块和权重计算子模块。
分割子模块,用于将文档中的文字分割为多个词语。
标注子模块,用于为每个词语标注词性。
删除子模块,用于将每个语句中分割得到的多个词语中词性为预设词性的词语,以及,位于预设黑名单中的词语删除。
相似度计算子模块,用于计算所述语句组合中每两个语句的相似度。
权重计算子模块,用于利用所述相似度计算每个所述语句组合中所有语句的权重值。
在本公开的又一实施例中,所述划分模块601,包括:划分子模块和选取子模块。
划分子模块,用于将待处理文档的内容按照预设标点划分为多个语句。
选取子模块,用于针对每个语句,按照语句在所述待处理文档中的排序,选取所述语句以及所述语句之后的预设数量个连续的语句作为一个语句组合。
在本公开的又一实施例中,所述组合模块604,包括:第一确定子模块和第二确定子模块。
第一确定子模块,用于将每个语句组合中最大的权重值对应的语句确定为目标语句;
第二确定子模块,用于将预设数量个目标语句确定为候选语句。
在本公开的又一实施例中,所述组合模块604,包括:获取子模块和生成子模块。
获取子模块,用于获取部分所述语句组合对应的所述候选语句在待处理文档中的排序;
生成子模块,用于按照所述排序生成所述待处理文档的摘要。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由所附的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (10)
1.一种摘要生成方法,其特征在于,包括:
将待处理文档划分为多个语句组合,每个所述语句组合中均包含预设数量个语句;
计算每个所述语句组合中所有语句的权重值;
针对每个语句组合,选取所述语句组合中权重值最大的语句作为候选语句;
将部分所述语句组合对应的所述候选语句组合成所述待处理文档的摘要。
2.根据权利要求1所述的摘要生成方法,其特征在于,所述计算每个所述语句组合中所有语句的权重值包括:
将文档中的文字分割为多个词语;
为每个词语标注词性;
将每个语句中分割得到的多个词语中词性为预设词性的词语,以及,位于预设黑名单中的词语删除;
计算所述语句组合中每两个语句的相似度;
利用所述相似度计算每个所述语句组合中所有语句的权重值。
3.根据权利要求1所述的摘要生成方法,其特征在于,所述将待处理文档划分为多个语句组合包括:
将待处理文档的内容按照预设标点划分为多个语句;
针对每个语句,按照语句在所述待处理文档中的排序,选取所述语句以及所述语句之后的预设数量个连续的语句作为一个语句组合。
4.根据权利要求1所述的摘要生成方法,其特征在于,所述将部分所述语句组合对应的所述候选语句组合成所述待处理文档的摘要包括:
将每个语句组合中最大的权重值对应的语句确定为目标语句;
将预设数量个目标语句确定为候选语句。
5.根据权利要求1所述的摘要生成方法,其特征在于,所述将部分所述语句组合对应的所述候选语句组合成所述待处理文档的摘要包括:
获取部分所述语句组合对应的所述候选语句在待处理文档中的排序;
按照所述排序生成所述待处理文档的摘要。
6.一种摘要生成装置,其特征在于,包括:
划分模块,用于将待处理文档划分为多个语句组合,每个所述语句组合中均包含预设数量个语句;
计算模块,用于计算每个所述语句组合中所有语句的权重值;
选取模块,用于针对每个语句组合,选取所述语句组合中权重值最大的语句作为候选语句;
组合模块,用于将部分所述语句组合对应的所述候选语句组合成所述待处理文档的摘要。
7.根据权利要求6所述的摘要生成装置,其特征在于,所述计算模块,包括:
分割子模块,用于将文档中的文字分割为多个词语;
标注子模块,用于为每个词语标注词性;
删除子模块,用于将每个语句中分割得到的多个词语中词性为预设词性的词语,以及,位于预设黑名单中的词语删除;
相似度计算子模块,用于计算所述语句组合中每两个语句的相似度;
权重计算子模块,用于利用所述相似度计算每个所述语句组合中所有语句的权重值。
8.根据权利要求6所述的摘要生成装置,其特征在于,所述划分模块,包括:
划分子模块,用于将待处理文档的内容按照预设标点划分为多个语句;
选取子模块,用于针对每个语句,按照语句在所述待处理文档中的排序,选取所述语句以及所述语句之后的预设数量个连续的语句作为一个语句组合。
9.根据权利要求6所述的摘要生成装置,其特征在于,所述组合模块,包括:
第一确定子模块,用于将每个语句组合中最大的权重值对应的语句确定为目标语句;
第二确定子模块,用于将预设数量个目标语句确定为候选语句。
10.根据权利要求6所述的摘要生成装置,其特征在于,所述组合模块,包括:
获取子模块,用于获取部分所述语句组合对应的所述候选语句在待处理文档中的排序;
生成子模块,用于按照所述排序生成所述待处理文档的摘要。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510882825.5A CN105868175A (zh) | 2015-12-03 | 2015-12-03 | 摘要生成方法及装置 |
PCT/CN2016/088929 WO2017092316A1 (zh) | 2015-12-03 | 2016-07-06 | 摘要生成方法及装置 |
US15/239,768 US20170161259A1 (en) | 2015-12-03 | 2016-08-17 | Method and Electronic Device for Generating a Summary |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510882825.5A CN105868175A (zh) | 2015-12-03 | 2015-12-03 | 摘要生成方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105868175A true CN105868175A (zh) | 2016-08-17 |
Family
ID=56624346
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510882825.5A Pending CN105868175A (zh) | 2015-12-03 | 2015-12-03 | 摘要生成方法及装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20170161259A1 (zh) |
CN (1) | CN105868175A (zh) |
WO (1) | WO2017092316A1 (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106708932A (zh) * | 2016-11-21 | 2017-05-24 | 百度在线网络技术(北京)有限公司 | 问答类网站的回复的摘要提取方法及装置 |
CN106959945A (zh) * | 2017-03-23 | 2017-07-18 | 北京百度网讯科技有限公司 | 基于人工智能的为新闻生成短标题的方法和装置 |
CN108197103A (zh) * | 2017-12-27 | 2018-06-22 | 掌阅科技股份有限公司 | 电子缩略书生成方法、电子设备及计算机存储介质 |
CN108304445A (zh) * | 2017-12-07 | 2018-07-20 | 新华网股份有限公司 | 一种文本摘要生成方法和装置 |
CN108399265A (zh) * | 2018-03-23 | 2018-08-14 | 北京奇虎科技有限公司 | 基于搜索的实时热点新闻提供方法及装置 |
CN108628833A (zh) * | 2018-05-11 | 2018-10-09 | 北京三快在线科技有限公司 | 原创内容摘要确定方法及装置,原创内容推荐方法及装置 |
CN108897852A (zh) * | 2018-06-29 | 2018-11-27 | 北京百度网讯科技有限公司 | 对话内容连贯性的判断方法、装置以及设备 |
CN108959269A (zh) * | 2018-07-27 | 2018-12-07 | 首都师范大学 | 一种语句自动排序方法及装置 |
CN109299454A (zh) * | 2017-07-24 | 2019-02-01 | 北京京东尚科信息技术有限公司 | 基于聊天日志的摘要生成方法及装置、存储介质及电子终端 |
CN109726282A (zh) * | 2018-12-26 | 2019-05-07 | 东软集团股份有限公司 | 一种生成文章摘要的方法、装置、设备和存储介质 |
CN109947929A (zh) * | 2017-07-24 | 2019-06-28 | 北京京东尚科信息技术有限公司 | 会话摘要生成方法及装置、存储介质及电子终端 |
CN110245230A (zh) * | 2019-05-15 | 2019-09-17 | 北京思源智通科技有限责任公司 | 一种图书分级方法、系统、存储介质和服务器 |
CN110334192A (zh) * | 2019-07-15 | 2019-10-15 | 河北科技师范学院 | 文本摘要生成方法及系统、电子设备及存储介质 |
CN111241267A (zh) * | 2020-01-10 | 2020-06-05 | 科大讯飞股份有限公司 | 摘要提取和摘要抽取模型训练方法及相关装置、存储介质 |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11544306B2 (en) | 2015-09-22 | 2023-01-03 | Northern Light Group, Llc | System and method for concept-based search summaries |
US11886477B2 (en) | 2015-09-22 | 2024-01-30 | Northern Light Group, Llc | System and method for quote-based search summaries |
US11226946B2 (en) | 2016-04-13 | 2022-01-18 | Northern Light Group, Llc | Systems and methods for automatically determining a performance index |
US10127323B1 (en) | 2017-07-26 | 2018-11-13 | International Business Machines Corporation | Extractive query-focused multi-document summarization |
CN110781659A (zh) * | 2018-07-11 | 2020-02-11 | 株式会社Ntt都科摩 | 基于神经网络的文本处理方法和文本处理装置 |
CN114595684A (zh) * | 2022-02-11 | 2022-06-07 | 北京三快在线科技有限公司 | 一种摘要生成方法、装置、电子设备及存储介质 |
CN114328883B (zh) * | 2022-03-08 | 2022-06-28 | 恒生电子股份有限公司 | 一种机器阅读理解的数据处理方法、装置、设备及介质 |
US20230334248A1 (en) * | 2022-04-13 | 2023-10-19 | Servicenow, Inc. | Multi-dimensional n-gram preprocessing for natural language processing |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6397209B1 (en) * | 1996-08-30 | 2002-05-28 | Telexis Corporation | Real time structured summary search engine |
CN1828609A (zh) * | 2006-04-13 | 2006-09-06 | 北大方正集团有限公司 | 一种基于簇排列的面向主题或查询的多文档摘要方法 |
CN102411621A (zh) * | 2011-11-22 | 2012-04-11 | 华中师范大学 | 一种基于云模型的中文面向查询的多文档自动文摘方法 |
CN102945228A (zh) * | 2012-10-29 | 2013-02-27 | 广西工学院 | 一种基于文本分割技术的多文档文摘方法 |
CN103246687A (zh) * | 2012-06-13 | 2013-08-14 | 苏州大学 | 基于特征信息的Blog自动摘要方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7017114B2 (en) * | 2000-09-20 | 2006-03-21 | International Business Machines Corporation | Automatic correlation method for generating summaries for text documents |
US20040133560A1 (en) * | 2003-01-07 | 2004-07-08 | Simske Steven J. | Methods and systems for organizing electronic documents |
US8055713B2 (en) * | 2003-11-17 | 2011-11-08 | Hewlett-Packard Development Company, L.P. | Email application with user voice interface |
US20110295612A1 (en) * | 2010-05-28 | 2011-12-01 | Thierry Donneau-Golencer | Method and apparatus for user modelization |
US9461876B2 (en) * | 2012-08-29 | 2016-10-04 | Loci | System and method for fuzzy concept mapping, voting ontology crowd sourcing, and technology prediction |
US20140250376A1 (en) * | 2013-03-04 | 2014-09-04 | Microsoft Corporation | Summarizing and navigating data using counting grids |
CN103136359B (zh) * | 2013-03-07 | 2016-01-20 | 宁波成电泰克电子信息技术发展有限公司 | 单文档摘要生成方法 |
CN104156452A (zh) * | 2014-08-18 | 2014-11-19 | 中国人民解放军国防科学技术大学 | 一种网页文本摘要生成方法和装置 |
-
2015
- 2015-12-03 CN CN201510882825.5A patent/CN105868175A/zh active Pending
-
2016
- 2016-07-06 WO PCT/CN2016/088929 patent/WO2017092316A1/zh active Application Filing
- 2016-08-17 US US15/239,768 patent/US20170161259A1/en not_active Abandoned
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6397209B1 (en) * | 1996-08-30 | 2002-05-28 | Telexis Corporation | Real time structured summary search engine |
CN1828609A (zh) * | 2006-04-13 | 2006-09-06 | 北大方正集团有限公司 | 一种基于簇排列的面向主题或查询的多文档摘要方法 |
CN102411621A (zh) * | 2011-11-22 | 2012-04-11 | 华中师范大学 | 一种基于云模型的中文面向查询的多文档自动文摘方法 |
CN103246687A (zh) * | 2012-06-13 | 2013-08-14 | 苏州大学 | 基于特征信息的Blog自动摘要方法 |
CN102945228A (zh) * | 2012-10-29 | 2013-02-27 | 广西工学院 | 一种基于文本分割技术的多文档文摘方法 |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106708932A (zh) * | 2016-11-21 | 2017-05-24 | 百度在线网络技术(北京)有限公司 | 问答类网站的回复的摘要提取方法及装置 |
CN106959945A (zh) * | 2017-03-23 | 2017-07-18 | 北京百度网讯科技有限公司 | 基于人工智能的为新闻生成短标题的方法和装置 |
CN109299454A (zh) * | 2017-07-24 | 2019-02-01 | 北京京东尚科信息技术有限公司 | 基于聊天日志的摘要生成方法及装置、存储介质及电子终端 |
CN109947929A (zh) * | 2017-07-24 | 2019-06-28 | 北京京东尚科信息技术有限公司 | 会话摘要生成方法及装置、存储介质及电子终端 |
CN108304445A (zh) * | 2017-12-07 | 2018-07-20 | 新华网股份有限公司 | 一种文本摘要生成方法和装置 |
CN108304445B (zh) * | 2017-12-07 | 2021-08-03 | 新华网股份有限公司 | 一种文本摘要生成方法和装置 |
CN108197103A (zh) * | 2017-12-27 | 2018-06-22 | 掌阅科技股份有限公司 | 电子缩略书生成方法、电子设备及计算机存储介质 |
CN108399265A (zh) * | 2018-03-23 | 2018-08-14 | 北京奇虎科技有限公司 | 基于搜索的实时热点新闻提供方法及装置 |
WO2019214236A1 (zh) * | 2018-05-11 | 2019-11-14 | 北京三快在线科技有限公司 | 原创内容摘要确定和原创内容推荐 |
CN108628833A (zh) * | 2018-05-11 | 2018-10-09 | 北京三快在线科技有限公司 | 原创内容摘要确定方法及装置,原创内容推荐方法及装置 |
CN108897852A (zh) * | 2018-06-29 | 2018-11-27 | 北京百度网讯科技有限公司 | 对话内容连贯性的判断方法、装置以及设备 |
CN108897852B (zh) * | 2018-06-29 | 2020-10-23 | 北京百度网讯科技有限公司 | 对话内容连贯性的判断方法、装置以及设备 |
CN108959269A (zh) * | 2018-07-27 | 2018-12-07 | 首都师范大学 | 一种语句自动排序方法及装置 |
CN109726282A (zh) * | 2018-12-26 | 2019-05-07 | 东软集团股份有限公司 | 一种生成文章摘要的方法、装置、设备和存储介质 |
CN110245230A (zh) * | 2019-05-15 | 2019-09-17 | 北京思源智通科技有限责任公司 | 一种图书分级方法、系统、存储介质和服务器 |
CN110334192A (zh) * | 2019-07-15 | 2019-10-15 | 河北科技师范学院 | 文本摘要生成方法及系统、电子设备及存储介质 |
CN110334192B (zh) * | 2019-07-15 | 2021-09-24 | 河北科技师范学院 | 文本摘要生成方法及系统、电子设备及存储介质 |
CN111241267A (zh) * | 2020-01-10 | 2020-06-05 | 科大讯飞股份有限公司 | 摘要提取和摘要抽取模型训练方法及相关装置、存储介质 |
CN111241267B (zh) * | 2020-01-10 | 2022-12-06 | 科大讯飞股份有限公司 | 摘要提取和摘要抽取模型训练方法及相关装置、存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2017092316A1 (zh) | 2017-06-08 |
US20170161259A1 (en) | 2017-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105868175A (zh) | 摘要生成方法及装置 | |
Lin et al. | Weakly supervised joint sentiment-topic detection from text | |
US8386240B2 (en) | Domain dictionary creation by detection of new topic words using divergence value comparison | |
JP2009521029A (ja) | 非構造的データから多言語電子コンテンツを自動的に生成する方法およびシステム | |
Ljubešić et al. | Predicting the level of text standardness in user-generated content | |
Mukund et al. | A vector space model for subjectivity classification in Urdu aided by co-training | |
Weisser et al. | Pseudo-document simulation for comparing LDA, GSDMM and GPM topic models on short and sparse text using Twitter data | |
JP6626917B2 (ja) | 英語の音節計算法に基づいた可読性評価方法及びシステム | |
Yun Ying et al. | Opinion mining on Viet Thanh Nguyen’s the sympathizer using topic modelling and sentiment analysis | |
Spatiotis et al. | Examining the impact of feature selection on sentiment analysis for the Greek language | |
Ibrohim et al. | Sentiment analysis for the natural environment: A systematic review | |
Kotelnikova et al. | SentiRusColl: Russian collocation lexicon for sentiment analysis | |
Nama et al. | Sentiment analysis of movie reviews: A comparative study between the naive-bayes classifier and a rule-based approach | |
Creutz et al. | Morfessor and hutmegs: Unsupervised morpheme segmentation for highly-inflecting and compounding languages | |
Manjunathan | Cross-Domain Opinion Mining Using a Thesaurus in Social Media Content | |
Zosa et al. | Evaluating the robustness of embedding-based topic models to OCR noise | |
JP5284761B2 (ja) | 文書検索装置及び方法及びプログラム及びプログラムを記録した記録媒体 | |
CN107729509B (zh) | 基于隐性高维分布式特征表示的篇章相似度判定方法 | |
JP2017021523A (ja) | 用語意味コード判定装置、方法、及びプログラム | |
Rakhimova et al. | The Task of Generating Text Based on a Semantic Approach for a Low-Resource Kazakh Language | |
MuthuSelvi et al. | Author attribution using stylometry for multi-author scientific publications | |
Damiano et al. | An effective corpus-based question answering pipeline for Italian | |
Bouhoun et al. | Information Retrieval Using Domain Adapted Language Models: Application to Resume Documents for HR Recruitment Assistance | |
Luong et al. | Assessing vietnamese text readability using multi-level linguistic features | |
Mahdavi et al. | Question-worthy sentence selection for question generation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160817 |