CN112765344A - 一种基于会议记录生成会议摘要的方法、装置及存储介质 - Google Patents
一种基于会议记录生成会议摘要的方法、装置及存储介质 Download PDFInfo
- Publication number
- CN112765344A CN112765344A CN202110045581.0A CN202110045581A CN112765344A CN 112765344 A CN112765344 A CN 112765344A CN 202110045581 A CN202110045581 A CN 202110045581A CN 112765344 A CN112765344 A CN 112765344A
- Authority
- CN
- China
- Prior art keywords
- word
- node
- sub
- abstract
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明实施例公开了一种基于会议记录生成会议摘要的方法、装置及存储介质;该方法可以包括:按照设定的聚类策略将会议记录语料中的句子划分为至少一个子话题集合;针对每个子话题集合,采用设定的多语句压缩方案生成与所述每个子话题集合对应的摘要语句;根据所述摘要语句形成的摘要集生成所述会议记录对应的会议摘要。
Description
技术领域
本发明实施例涉及自然语言处理技术领域,尤其涉及一种基于会议记录生成会议摘要的方法、装置及存储介质。
背景技术
会议是指有组织、有领导、有目的的议事活动,它是在指定的时间和地点,按照一定的程序进行,在办公场景中十分普遍。在会议进行过程中所记录的会议内容将被制作成会议记录,并且基于会议记录生成一段简短的、包含会议关键信息的文本描述,即会议摘要。
目前,会议记录系统或会议语音转录系统已通过借助语音识别技术实现自动快速地得到会议记录,包括发言人、发言内容等。常规的会议语音转写系统,甚至能够实现对会议进行实时转写,或者是对录音文件进行转写。但是,对于会议摘要,则需要在会议完成之后花费专门的人力进行整理,导致耗时耗力,降低了会议摘要的生成效率。
发明内容
有鉴于此,本发明实施例期望提供一种基于会议记录生成会议摘要的方法、装置及存储介质;能够提升从会议记录生成会议摘要的效率。
本发明实施例的技术方案是这样实现的:
第一方面,本发明实施例提供了一种基于会议记录生成会议摘要的方法,所述方法包括:
按照设定的聚类策略将会议记录语料中的句子划分为至少一个子话题集合;
针对每个子话题集合,采用设定的多语句压缩方案生成与所述每个子话题集合对应的摘要语句;
根据所述摘要语句形成的摘要集生成所述会议记录对应的会议摘要。
第二方面,本发明实施例提供了一种基于会议记录生成会议摘要的装置,所述装置包括:集合划分部分、压缩部分以及生成部分;其中,
所述集合划分部分,经配置为按照设定的聚类策略将会议记录语料中的句子划分为至少一个子话题集合;
所述压缩部分,经配置为针对每个子话题集合,采用设定的多语句压缩方案生成与所述每个子话题集合对应的摘要语句;
所述生成部分,经配置为根据所述摘要语句形成的摘要集生成所述会议记录对应的会议摘要。
第三方面,本发明实施例提供了一种计算机存储介质,所述计算机存储介质存储有基于会议记录生成会议摘要的程序,所述基于会议记录生成会议摘要的程序被至少一个处理器执行时实现第一方面中所述基于会议记录生成会议摘要的方法步骤。
本发明实施例提供了一种基于会议记录生成会议摘要的方法、装置及存储介质;通过将会议记录语料划分为多个子话题集合,并且结合以图为基础的多语句压缩方案生成各子话题集合对应的摘要语句,并最终根据所有摘要语句形成会议记录对应的会议摘要,从而能够快捷准确地形成会议摘要,提升从会议记录生成会议摘要的效率,节省了资源成本。
附图说明
图1为本发明实施例提供的生成文本摘要的示意图;
图2为本发明实施例提供的一种基于会议记录生成会议摘要的方法流程示意图;
图3为本发明实施例提供的将会议记录语料划分为子话题集合的流程示意图;
图4为本发明实施例提供的生成与每个子话题集合对应的摘要语句的流程示意图;
图5为本发明实施例提供的一种基于会议记录生成会议摘要的装置组成示意图;
图6为本发明实施例提供的另一种基于会议记录生成会议摘要的装置组成示意图;
图7为本发明实施例提供的能够实施基于会议记录生成会议摘要的装置的计算设备的具体硬件结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
随着信息数量飞速增加的影响,当前处于信息爆炸这一不寻常的环境之中。在这一环境下,如何从庞大的信息中提炼出使用者亟需的部分,成为了现阶段研究的热点问题。对于这一研究热点,文本摘要生成问题应运而生。从本质上来说,如图1所示,生成文本摘要可以简单的看作一个以文本Document为输入,以摘要Summary为输出,通过设计一种从文本到摘要的转化方式,以使得通过转化所生成的摘要满足特定任务需求的问题。利用以下几种分类标准,可以对生成文本摘要这一任务进行简单的分类:
首先,按照文本进行分类,主要分为单文本摘要与多文本摘要。容易看出,两者的区别在于源文本数目的不同,需要注意的是,由于本文的研究默认以单文本摘要形式进行;
其次,按照不同的摘要需求进行分类,可以分为指示性(Indicative)摘要,即仅包含源文本的特定部分信息;报道性(Informative)摘要,即包含源文本的所有信息;关键词摘要,即摘要为词或短语而非完整句子;标题摘要,即摘要需要为单行比如类似大字标题headline形式;
然后,按照生成方式进行分类,主要分为抽取式摘要与生成式摘要;其中,抽取式摘要指的是从源文本中抽取特定句子进行重组而构成摘要,即摘要中所有词句都能够在源文本中找到出处;而生成式摘要则截然不同,生成式摘要需要提取源文本中的关键特征并以生成文本的方式获得最终的摘要。
由上述阐述可以获知,生成会议摘要可以看作是生成文本摘要这一大类任务所涵盖的具体子问题,因此,生成会议摘要与常规的生成文本摘要相比,同样具有自身的独特特点:
首先,在源文本体裁方面,生成文本摘要所使用的源文本大多为第三人称客观文章,而生成会议摘要所使用的为会议记录,其中必然包含着多种不同角色的对话。因此,对话中不同角色的重要性区别(例如:项目管理人主要负责会议,其话语往往在会议中起重要作用,即需要重点关注),是生成会议摘要任务需要面对的全新问题。
其次,从源文本内容来看,会议记录文本的第一人称对话中大量出现口语词、停用词,这与常规的客观文章有很大区别,因此在文本预处理时需要额外关注。与此同时,会议中也往往会产生大量生僻或专有词汇,而这些词几乎均与会议主题相关即重要性很高。在常规的生成文本摘要的处理方案中,由于词汇量Vocabulary的限制,这类生僻或专有词汇会被过滤,但在生成会议摘要中需要在预处理阶段进行额外操作,以使得在这类生僻或专有词汇不被过滤的同时,利用例如注意力机制等手段重点关注这些关键词句。
当然,生成会议摘要与常规的生成文本摘要这两者之间也存在着相同之处。第一,不管是客观性文章还是会议记录往往都存在着总结性词句,这些语句在一定情况下能直接作为摘要的一部分使用,因此可以利用外部词句支持预先挑选出这些总结性词句,进而进行摘要生成;第二,可读性依然是衡量两者生成质量的重要依据,并且在生成会议摘要过程中可以适当将第一人称对话更改为第三人称旁白形式,以符合摘要的一般标准。
基于以上阐述,本发明实施例期望提供一种基于会议记录生成会议摘要的方案,该方案将抽取式摘要作为技术基础,以期寻找一种能够让图结构摆脱抽取式局限的无监督生成方案,并融入生成式摘要的性质与特点,达到兼具抽取式摘要与生成式摘要两者优势的效果,提升从会议记录生成会议摘要的效率。
基于此,参见图2,其示出了本发明实施例提供的一种基于会议记录生成会议摘要的方法,该方法可以包括:
S21:按照设定的聚类策略将会议记录语料中的句子划分为至少一个子话题集合;
S22:针对每个子话题集合,采用设定的多语句压缩方案生成与所述每个子话题集合对应的摘要语句;
S23:根据所述摘要语句形成的摘要集生成所述会议记录对应的会议摘要。
通过上述技术方案,通过将会议记录语料划分为多个子话题集合,并且结合以图为基础的多语句压缩方案生成各子话题集合对应的摘要语句,并最终根据所有摘要语句形成会议记录对应的会议摘要,从而能够快捷准确地形成会议摘要,提升从会议记录生成会议摘要的效率,节省了资源成本。
对于图2所示的技术方案,在一些可能的实现方式中,参见图3,所述按照设定的聚类策略将会议记录语料中的句子划分为至少一个子话题集合,包括:
S211:将所述会议记录语料按照句子为切割单位进行切割,获得每个句子中所包括的各个词语;
S212:计算所述每个句子中所包括的各个词语对应的词频-逆文本频率 (TF-IDF,Term Frequency–Inverse Document Frequency)值;
S213:根据所述每个句子中所包括的各个词语对应的TF-IDF值将所述会议记录语料映射至向量空间以形成原始词-句矩阵;
将所述原始词-句矩阵通过潜在语义分析(LSA,Latent Semantic Analysis) 进行降维,获得降维后的词-句矩阵;
采用所述降维后的词-句矩阵以及设定的聚类算法按语义进行聚类,获得至少一个子话题集合;其中,每个子话题集合中包括多个句子且每个子话题集合可以被一个摘要语句所概括。
对于上述图3所示的实现方式,需要说明的是,将会议记录语料进行聚类,又可以被称作为社区检测(Community Detection),即寻找出给定网络中联系紧密的部分。对于会议记录语料而言,主题往往都不是单一的,为了能够得到覆盖性更强、内容更全面的会议摘要,发掘出会议记录语料中所有存在的子话题就成为了需要关注的重点。从这一角度出发,步骤S21以及上述实现方式的目的,就是为了将会议记录语料分割成数个子话题集合,并且每个子话题集合包含了会议记录语料中一定数目且联系密切的句子,而且每个子话题集合都能被一个共同的摘要句子概括。
对于步骤S21及上述图3所示的实现方式,首先需要将源文本映射到向量空间从而进行聚类,通常情况下可以采用词嵌入(Word Embedding),但是对于会议记录语料而言却不那么有效。这是因为与常规生成文本摘要的源文本不同,会议记录中大部分情况下对于同一事物仅采用一种方式表达,即一意多词的情况鲜有出现,因此对于这一种强有效的捕捉同义词的手段,在实施过程中效果欠佳。况且对于同义词的捕捉,会对句子之间的距离产生影响,例如:某两个句子因为同义词捕捉而呈现出联系密切的情况,而现实状态下它们涉及的是两个完全不相关的子话题,这就会影响聚类的质量。综合上述考虑,本发明实施例优选采用TF-IDF与LSA进行处理。
对于TF-IDF来说,其是一种通常用来描述语料或文本文档中特定词的重要程度的统计方法,其中词频即TF,通过特定词语在文本中出现的次数除以文本中的词语总数量计算得到;逆文档频率即IDF,通过下式计算获得:
IDF=log(文本总数/(包含该词的文本数+1))
词语的重要性描述与该词语与在当前句子或文档中的出现频率呈正相关,与该词语在整个语料中的出现频率呈负相关,因此,对于词语来说,其TF-IDF 值可以为该词语的TF值乘以该词语的IDF值。
举例来说,首先可以将整个会议记录语料按句子为切割单元进行分割,需要计算的即为每个句子中各个词对应的TF-IDF值。通过这种计算方式,就能够将源英文文本映射到向量空间,最终即得到一个稀疏矩阵,即上述实现方式中所述的原始词-句矩阵,在该稀疏矩阵中,行索引代表词,列索引代表句子,词对应的TF-IDF值即为矩阵中的元素。但仅依赖于TF-IDF完全不足以处理句子之间的语义关系,因此本发明实施例优选采用LSA进行处理,并同时解决原始词-句矩阵太大不便于计算机处理,以及原始词-句矩阵中含有的噪声,比如无关信息影响聚类效果的问题。
沿用上例,LSA的处理过程可以包括:首先,对原始词-句矩阵进行SVD 奇异值分解;其次,利用分解后的矩阵进行降维处理,得到原始词-句矩阵对应的去除噪声的低阶近似矩阵;最后,采用降维后的矩阵重构所需的词-句矩阵。利用潜在语义分析即能挖掘出句子的内在语义,即更加清晰地显示句子之间存在的语义联系。在此基础上,通过LSA方法得到降维后的词-句矩阵以及K均值(K-means)聚类方法,即能够对会议记录语料中的句子按语义进行聚类,最终构成所需要的子话题集合(Communities)。
对于图2所示的技术方案,在一些可能的实现方式中,参见图4,所述针对每个子话题集合,采用设定的多语句压缩方案生成与所述每个子话题集合对应的摘要语句,包括:
S221:以每个子话题集合中的句子所包括的词语为节点构建每个子话题集合对应的词图;
S222:在所述词图中为任意两个节点之间的边分配所对应的权值;
S223:基于所述词图中各边对应的权值从所述词图中选取设定数目的最短路径以形成候选摘要语句;
S224:从所述候选摘要语句中按照设定的选取规则选取所述词图对应的子话题集合所对应的最优摘要语句。
需要说明的是,上述图4所示的实现方式阐述了多语句压缩方案的具体内容,可以分解为词图构建、边权分配、路径选择及重分配三个任务。可以理解地,步骤S221对应于词图构建任务、步骤S222对应于边权分配任务,步骤S223 对应于路径选择任务,步骤S224对应于重分配任务。
对于上述图4所示的实现方式,在一些示例中,所述以每个子话题集合中的句子所包括的词语为节点构建每个子话题集合对应的词图,包括:
从每个子话题集合中任意选取一个句子;
根据被选取句子中的词语顺序将所述被选取句子中的词语所对应的节点按照设定的添加规则添加在开始节点为首节点且结束节点为末节点的单链中以创建每个子话题集合对应的初始词图;其中,所述被选取句子中的两个词语之间的相邻关系设置为所述两个词语对应两个中间节点之间的边;
对于所述每个子话题集合中除所述被选取句子之外的其他句子,根据所述其他句子中的词语顺序将所述其他句子中的词语所对应的节点按照所述添加规则添加在所述初始词图中以构建所述每个子话题集合对应的词图;
其中,所述添加规则包括:
同一句子中的任意两个词不被映射到同一节点;
相应于待添加词语为非停用词,若所述词图中存在所述待添加词语对应的一个匹配节点,则将所述待添加词语映射至所述匹配节点;若所述词图中存在所述待添加词语对应的多个匹配节点,则将所述待添加词语映射至与所述待添加词语具有最大上下文重复次数的匹配节点,当所述词图中不存在任何存在上下文重复的匹配节点,则将所述待添加词语映射至被映射次数最多的匹配节点;若所述词图中不存在所述待添加词语的匹配节点,则在所述词图中新建所述待添加词语对应的节点;
相应于所述待添加词语为停用词,若所述待添加词语在所述词图中存在匹配节点且所述待添加词语的后续词与所述匹配节点的后续节点至少有一个以上的连续重叠,则将所述待添加词语映射到所述匹配节点;否则,在所述词图中新建所述待添加词语对应的节点。
对于上述示例,具体来说,多语句压缩的核心是多语句压缩图(MSCG, Multi-Sentences Compression Graph),因此,词图的构建成为了实现多语句压缩的首要任务,对于词图构建来说,主要可以分为两个部分:词图的创建以及节点的添加。
举例来说,对于创建词图这一部分,由于每一个子话题集合,都包含着若干句子,其中每个句子均可以视为由词语构成的有序列表,因此,本发明实施例将词语视为词图的节点,将两个词语在原始语句中的相邻关系视为两个节点之间的边,那么句子即为词图中的路径。基于此,可以任意选取子话题集合中的一个句子,按照该句子中词语的正常顺序以及上述原则,并额外添加开始 START节点与结束END节点分别表示句子首末,即完成了词图的创建部分,也就是说在初始情况下,词图可以表现为一条以START节点开头,END节点结尾,词语为中间节点的单链。
沿用上例,在完成创建初始词图之后,可以将子话题集合中除上述被选取句子以外的剩余的所有句子按照上述方式添加到词图或单链之中,但是在添加过程中必然会遇到词语已经在词图或单链中以及词语尚未在词图或单链中这两种情况,对于这两种情况,具体解决方式如下:首先,对于词语节点的添加,需要注意同一个句子中的任意两个词语不能被映射到同一节点上,即保证每一个句子在词图或单链中都被表现为一条无环路径,并且也保证了词图或单链中存在比原先句子数量更多的路径以用于后续的压缩处理。其次,对于某一个需要添加的词word,则在前述保持同一语句无环的条件下,按照以下的规则进行:
相应于word为非停用词,当词图中存在一个与word小写形式相同且词性相同的节点时,该节点可以被称之为word的匹配节点,此时仅需将word映射到该匹配节点即可;当词图中存在word的多个匹配节点时,考察word的前后文以及所有匹配节点的前后节点,即将word映射到词图中与word具有最大上下文重复词数的节点,可以理解地,上下文重复词数表示word与节点上下文的接近程度;若不存在任何存在上下文重复的匹配节点,则将word映射到被映射次数最多的匹配节点上;当词图中不存在word的匹配节点时,则在词图中新建该词对应的词节点,并添加在图中。
相应于word为停用词,当满足以下两个条件时:1、word在词图中有匹配节点;2、word的后续词与匹配节点的后续节点至少有一个以上的连续重叠,则将word映射到词图中已有匹配节点;当不满足以上两个条件中的任一条件时,则在词图中新建word对应的词语节点,并添加在词图中。
通过对以上两种情况的处理,即可以完成对于各个子话题集合相对应的词图的构建。
基于上述图4所示的实现方式,完成词图构建任务之后即开始进行步骤S222所对应的边权分配任务,由于后续任务会对句子进行压缩,所以需要寻找词图中最短的路径作为生成结果,因此如何合理的设置和分配边权,使得压缩提取出的语句能够不遗漏重要信息且具有较好的语法流畅性,同样成为了需要重点关注的问题。在一些示例中,所述在所述词图中为任意两个节点之间的边分配所对应的权值,包括:
在所述词图中按照节点M和节点N之间的联系程度基于下式为节点M和节点N之间的边分配所对应的权值:
其中,F(M)表示节点M的出现频率,F(M)表示节点N的出现频率,F(a,MN) 表示节点M和节点N的共现频率;
或者,在所述词图中按照节点M和节点N之间联系的紧密程度基于下式为节点M和节点N之间的边分配所对应的权值:
其中,R表示节点M和节点N之间的路径,dis(R,M,N)表示节点M和节点N之间的路径长度,graph表示所述词图;
或者,在所述词图中基于下式为节点M和节点N之间的边分配所对应的权值:
或者,在所述词图中基于下式为节点M和节点N之间的边分配所对应的权值:
其中,d(M,N)表示节点M和节点N在嵌入embedding空间的欧几里得距离。
对于上述示例,从多语句压缩的目标出发,最终需要寻找词图中最短的路径,且该路径的任意相邻节点间相关联程度应当较强,因此需要设置合适的边权,即满足任意两个节点之间的边权应当由两个节点的相关联程度决定,且保证前提条件:两个节点联系越紧密,对应的边权越小。
对于词图中两个节点之间的联系程度,本发明实施例所采用的最佳量化标准为两个节点之间的共现频率,那么词图中的两个节点M与N,定义节点的出现频率为映射到该节点的词数,分别记录为F(M)、F(N);定义节点的共现频率为节点M与节点N的共同出现次数,记录为F(a,MN)。显然若两个节点之间的联系越密切,即表示两个节点之间的共现频率越大,那么节点间的边权重就应当越小。因此节点M与节点N之间的边权W(M,N)可以初步表示为下式:
进一步来说,上式考虑了两个节点直接相连接的情况,若两个节点之间存在着一条以上的通路,即两个节点通过其他词语节点间接相连,那么这些路径对于两个节点之间联系的正面作用是不能够被忽略的。基于此,同时考虑两个节点之间的所有路径,若路径长度越短,则该路径对于节点之间联系的影响越强;若路径长度越长,则该路径对于节点间联系的影响越弱,即路径对于节点间联系的影响强弱与路径长度成反比,因此本发明实施例可选地利用路径长度为指标衡量边权。对于节点M与N,选用R表示节点M和节点N之间的路径, dis(R,M,N)表示节点M和节点N之间的路径长度,graph表示所述词图,那么为了考虑所有路径对于节点M和节点N之间联系紧密性的影响及两者之间的反比性质,节点M与节点N之间的边权W(M,N)可以进一步被优化表示为如下式所示:
进一步来说,通过利用上述边权公式,能够解析出两个词语之间联系的紧密程度,但是上述边权分配方式对于频繁出现在相邻位置的低频词,则拥有很好的相性。考虑到多语句压缩的首要目的是为了使得最终压缩得到的路径尽可能经过出现频率较高的节点,则需要额外考虑节点出现频率的因素。当两节点之间路径长度dis相同,即紧密程度相同时,若节点M与N的出现频率较大,则对应的边权W(M,N)即较小,表现为在最短路径选取过程中较容易被选中;反之若M、N节点对应的词语为低频词,则对应的边权W(M,N)即较大,而不容易被选中,这样才能够符合了压缩路径经过频率较高的节点的需求,基于此,节点M与节点N之间的边权W(M,N)可以进一步被优化表示为如下式所示:
进一步来说,上述边权分配方式已经完全足以直接使用,本发明实施例还期望能够考虑更多的参数以衡量两个节点之间的关系。考虑到进一步地保证压缩语句的可读性,避免生成的句子中存在从一个词跳转到另一个完全无关的词的现象,因此需要选择的两个语义相似性相对较高的连续词。对于语义相似性,利用词语之间的距离来衡量,利用d(M,N)表示节点M和节点N在嵌入embedding 空间的欧几里得距离,可以得知,当距离d(M,N)较大时,表现为M与N的语义相似性较弱,对应于边权W(M,N)较大;当距离d(M,N)较小时,表现为M与N 的语义相似性较强,对应于边权W(M,N)较小。总体而言,词语之间的距离应当与边权成正相关,那么融入语义相似性后的最终边权分配如下式所示:
通过上述针对边权的公式,最终计算得到的边权分配方式集中考虑了边的两节点的联系程度、两节点的出现频率以及两节点的语义相似性,为路径选取部分中选择得到包含出现频率较高的词、上下文联系紧密且文本流畅可读性强的候选摘要句提供了保证。可以理解地,以上所有的边权分配公式可以被适应性地选择使用,本发明实施例对此不做赘述。
基于上述图4所示的实现方式,完成边权分配任务之后即开始进行步骤 S223所对应的路径选择任务,需要说明的是,根据多语句压缩的需求以及上述边权分配,其目的是为了选取词图中的K条最短路径作为候选摘要语句,也就是说,在词图中寻找K条由STRAT节点开始,END节点结尾的路径并使得该寻找到的路径拥有最小的边权和。基于此,在一些示例中,S223所述的基于所述词图中各边对应的权值从所述词图中选取设定数目的最短路径以形成候选摘要语句,在具体实施过程中可以视为对下式问题的求解:
上式即为K条最短路径K-shortest paths问题,本发明实施例优选采用延氏算法Yen’s Algorithm作为处理手段。该手段主要基于迪杰斯特拉Dijkstra算法,分为两部分:首先,利用迪杰斯特拉算法计算得到一条最短路径P1;其次,以P1为基础迭代计算出其他的K-1条最短路径。对于上述第二部分内容可以简单描述如下:在计算路径Pi时,将Pi-1上除末节点外的所有节点均视作为偏离节点,进而分别计算出每个偏离节点与末节点之间的最短路径,并合并这一路径与 Pi-1上首节点到偏离节点之间的路径,从而构成一条候选路径,最终在所有的候选路径中挑选边权和最小的路径即作为Pi。需要注意的是,在得到最终的K条最短路径即K个候选摘要语句的同时,需要过滤掉其中长度小于阈值或不包含任何动词的候选摘要语句。
通过上述示例获得针对每个子话题集合对应的K个候选摘要语句之后,就可以从所述候选摘要语句中按照设定的选取规则选取所述词图对应的子话题集合所对应的最优摘要语句,在一些示例中,步骤S224可以包括:
根据所述候选摘要语句P在所述词图中的路径长度|P|、路径的边权和 W(P)、语句的信息覆盖率C(P)、语句流畅程度F(P)以及语句的内容多样性 D(P)按照下式为所述候选摘要语句P进行评分:
其中,SCORE(P)为候选摘要语句P的评分;
将评分最低的候选摘要语句确定为所述词图对应的子话题集合所对应的最优摘要语句。
对于上述示例中所涉及的五个评分因素,具体来说:
首先,摘要语句的信息覆盖率一定程度上受到路径长度的影响,因此选择候选摘要语句P在所述词图中的路径长度|P|作为其中的一个评分因素。
其次,尽管得到的候选摘要语句P为K条最短路径,但这K条路径之间仍然存在边权和的差别,这些差别同样衡量了候选摘要语句P的优劣,因此候选摘要语句P的路径的边权和W(P)也能够作为评分因素之一。
再次,对于信息覆盖率而言,其表示了针对于重要词句的覆盖程度,可以转化为量化语句中词语的重要性,因此,通过计算整个候选摘要语句P中所有词语的重要性评分值之和,来衡量信息覆盖率。对于词句重要性评分,自然能够想到TF-IDF统计方法,因此引入一个类似的核排序-逆文档频率 (CoreRank-IDF)方法进行计算,并且同样分为两部分,即CoreRank以及IDF:
第一部分是CoreRank值的获取,针对于每一个子话题集合,构建一个无向加权的词共现图,节点为词,边为连接的两个词之间存在共现关系,边权为共现的次数。将所有节点按照其相邻节点的个数划分为不同的核core,例如:1-core 表示该core内的节点最多包含2个相邻节点,而2-core表示该core内的节点有且仅有3个相邻节点等等,并定义节点的Core number值为其所处的core层数。因此某个节点的CoreRank值即可定义为该节点所有相邻节点的core number之和。第二部分是IDF值,该值的计算与TF-IDF中的IDF计算方式相同,本发明实施例对此不再赘述。综合以上两个部分,CoreRank-IDF即可以如下式所示:
CoreRank-IDF(w,s,S)=CoreRank(w,s)*IDF(w,S)
其中,S表示所有的子话题集合,w表示其中某个子话题集合s中的某个词语。需要注意的是,词语重要性评分应当对于所有非停用词而言,即停用词的重要性程度不应当也不会对候选摘要语句的优劣产生影响,因此信息覆盖率 C(P)的表示定义如下:
其中,pi表示路径P中的非停用词,‖pi‖表示路径P中非停用词的个数。
然后,语句流畅程度F(P)也应当作为衡量候选摘要语句P优劣的重要因素之一。在对语句流畅程度F(P)进行量化时,本发明实施例优选基于马尔科夫假设的N元n-gram语言模型进行处理,定义|n-gram|表示候选摘要语句P中 n-gram元组的个数;表示在已知的条件下,下一个词为pi的条件概率,比如若取n=3,概率表达即为P(pi|pi-2,pi-1),表示每一个词的出现概率与其前两个词相关。那么,语句流畅程度F(P)的计算方式如下式所示:
最后一个评分因素优选为语句的内容多样性D(P),该性质需要针对整个会议记录语料上进行计算,而非针对单独的子话题集合进行。在本发明实施例中,对于所有词图中的词节点,需要在全体会议记录语料空间下做K-means聚类,并定义一个语句的内容多样性为该语句P中词语pi所经过的不同簇Cj的个数,如下式所示:
综合以上五个因素,就可以对候选摘要语句P进行评分以获得SCORE(P)。需要说明的是,SCORE(P)得分越低则表示该候选摘要语句在以上五个方面表现更优,并最终按照得分排序选择SCORE(P)最小的候选摘要语句作为子话题集合对应的最优摘要语句。对于每一个子话题集合均按照以上内容进行计算,即能够得到一个包含若干摘要语句的摘要集,其中每一个摘要语句对应于1个子话题集合。
在具体实施过程中,当获取到摘要集之后,摘要集中的摘要句子就已经足够作为会议记录语料所对应的会议摘要,但是,该会议摘要潜在地会出现两个问题:首先,所有的摘要语句的总长度可能超过所需要的摘要最大长度限制,况且冗长的摘要也违背了摘要本身概括性强、简洁明晰的要求;其次,在划分得到的子话题集合中,存在有部分子话题与会议整体的主题不一致,即摘要中有存在多余或与会议主题不相关联的部分的可能性,需要将这一部分剔除。基于此,本发明实施例优选引入次模预算最大化(budgeted submodularmaximization)以从摘要集中生成会议记录对应的会议摘要,对于图2所示的技术方案,在一些可能的实现方式中,所述根据所述摘要语句形成的摘要集生成所述会议记录对应的会议摘要,包括:
基于次模预算最大化策略从所述摘要集中选取候选摘要子集;
利用贪婪算法从所述候选摘要子集中求取最优摘要子集以生成所述会议记录对应的最优会议摘要。
对于上述实现方式,具体来说,次模预算最大化就是指从整个摘要集中挑选出满足一定限制条件的最优子集合,可以理解地,此时的最优子集合中摘要的总质量评分最高,所以,该问题的限制条件如下所示:
其中,S为经过步骤S22所获得的摘要语句所组成的原始摘要集;Costs为子摘要集S′中某一摘要句s的开销,比如词语数;threshold为需求的总词数上限,即预算;f为摘要质量评分函数,需要注意的是,该函数将对于整个摘要集合生成唯一的评分数值。那么,上式反应了次模预算最大化即在满足总长度开销Cost 小于等于总长度阈值threshold的情况下,寻找一个使函数值f(S′)趋于最大的S 的最优子集S′。注意到“趋于最大”这一需求,一般的最优化问题都是求取满足条件的最大值,所以该预算最大化问题是非确定的多项式NP-hard问题,无法求取出确切的最大值,因此本发明实施例优选利用贪婪算法求取最接近于最优的问题解,即迭代地从原始摘要集中选取摘要语句,同时保证每一步后摘要语句质量评分的增加与语句开销的比率最大,即如下式所示:
其中,S′为当前子摘要集,r≥0为比例系数,s为本次迭代选取的摘要句。
对于摘要质量评分函数f,从本质上来说,次模预算最大化即是对于“边际效用递减”这一说法的形式化表示。基于本发明实施例表现为对于整体摘要集而言,随着子摘要集合中语句数量的增加,添加剩下摘要语句时获得摘要质量的提升则越来越小。综合上述考虑,以及为了保证贪婪算法的正确性,次模函数f应当单调非减且函数值非负。优选地,在本发明实施例中,摘要质量评分函数f的设计如下式所示:
上式中的前半部分可以视作为重排序部分的信息覆盖率指标,si为当前子集合S′的语句中的所有词,为si在整个会议语料中的出现次数,为 si的CoreRank值;上式中的后半部分可以视作为重排序部分的内容多样性,λ为比例常数,即统计所有摘要语句中的词si经过的不同簇Clusterj的个数,同样聚类需要在全体会议记录语料空间内进行。利用该摘要质量评分函数f及贪婪算法,就可以得到最终需要的最优子摘要集,且该子摘要集为满足条件的子集中摘要质量评分最高的一组,因此最终生成的会议语料对应的会议纪要即为该最优子摘要集。
基于以上阐述,在具体实施过程中,需要值得注意的是,由于会议记录的特殊性,即具有发言人和发言内容的标示以及使用口语交流语气词过多等特点,在按照以上阐述内容生成会议摘要过程之前,本发明实施例优选对会议记录源文本进行了必要的预处理。基于此,对于图2所示的技术方案,在一些可能的实现方式中,所述方法还包括:将会议记录源文本中的无意义词语进行清洗,获得所述会议记录语料。
对于上述实现方式,需要说明的是,由于会议记录的原始语料即为直接的对话记录,因此必然存在着大量无意义的口语填充词或语气词,即过滤词filler words,例如:ah、huh、hmm、mm、uh、um等等,具体filler words列表参见《AMI语料库-正规拼写列表》(“AMICorpus-List of Regularised Spellings”)中关于反向频道BACKCHANNELS、犹豫HESITATIONS、标签问题TAG QUESTIONS这些部分的内容,这些单词的去除不会对会议整体的内容与意思产生任何改变。若这些语气助词大量且频繁地出现,反而会影响会议摘要的生成效果,因此对会议记录源文本中filler words进行清洗是保障会议摘要生成质量的一项重要工作。此外和常规的自然语言处理任务相同,语料中的停用词 stopwords也应当被去除,同时还用当去除停用词后,若句子词数小于一定阈值则也应当被去除。
基于以上阐述相同的发明构思,参见图5,其示出了本发明实施例提供的一种基于会议记录生成会议摘要的装置50,所述装置50可以包括:集合划分部分501、压缩部分502以及生成部分503;其中,
所述集合划分部分501,经配置为按照设定的聚类策略将会议记录语料中的句子划分为至少一个子话题集合;
所述压缩部分502,经配置为针对每个子话题集合,采用设定的多语句压缩方案生成与所述每个子话题集合对应的摘要语句;
所述生成部分503,经配置为根据所述摘要语句形成的摘要集生成所述会议记录对应的会议摘要。
在上述方案中,所述集合划分部分501,经配置为:
将所述会议记录语料按照句子为切割单位进行切割,获得每个句子中所包括的各个词语;
计算所述每个句子中所包括的各个词语对应的词频-逆文本频率TF-IDF值;
根据所述每个句子中所包括的各个词语对应的TF-IDF值将所述会议记录语料映射至向量空间以形成原始词-句矩阵;
将所述原始词-句矩阵通过潜在语义分析LSA进行降维,获得降维后的词- 句矩阵;
采用所述降维后的词-句矩阵以及设定的聚类算法按语义进行聚类,获得至少一个子话题集合;其中,每个子话题集合中包括多个句子且每个子话题集合可以被一个摘要语句所概括。
在上述方案中,所述压缩部分502,经配置为:
以每个子话题集合中的句子所包括的词语为节点构建每个子话题集合对应的词图;
在所述词图中为任意两个节点之间的边分配所对应的权值;
基于所述词图中各边对应的权值从所述词图中选取设定数目的最短路径以形成候选摘要语句;
从所述候选摘要语句中按照设定的选取规则选取所述词图对应的子话题集合所对应的最优摘要语句。
在上述方案中,所述压缩部分502,经配置为:
从每个子话题集合中任意选取一个句子;
根据被选取句子中的词语顺序将所述被选取句子中的词语所对应的节点按照设定的添加规则添加在开始节点为首节点且结束节点为末节点的单链中以创建每个子话题集合对应的初始词图;其中,所述被选取句子中的两个词语之间的相邻关系设置为所述两个词语对应两个中间节点之间的边;
对于所述每个子话题集合中除所述被选取句子之外的其他句子,根据所述其他句子中的词语顺序将所述其他句子中的词语所对应的节点按照所述添加规则添加在所述初始词图中以构建所述每个子话题集合对应的词图;
其中,所述添加规则包括:
同一句子中的任意两个词不被映射到同一节点;
相应于待添加词语为非停用词,若所述词图中存在所述待添加词语对应的一个匹配节点,则将所述待添加词语映射至所述匹配节点;若所述词图中存在所述待添加词语对应的多个匹配节点,则将所述待添加词语映射至与所述待添加词语具有最大上下文重复次数的匹配节点,当所述词图中不存在任何存在上下文重复的匹配节点,则将所述待添加词语映射至被映射次数最多的匹配节点;若所述词图中不存在所述待添加词语的匹配节点,则在所述词图中新建所述待添加词语对应的节点;
相应于所述待添加词语为停用词,若所述待添加词语在所述词图中存在匹配节点且所述待添加词语的后续词与所述匹配节点的后续节点至少有一个以上的连续重叠,则将所述待添加词语映射到所述匹配节点;否则,在所述词图中新建所述待添加词语对应的节点。
在上述方案中,所述压缩部分502,经配置为:
在所述词图中按照节点M和节点N之间的联系程度基于下式为节点M和节点N之间的边分配所对应的权值:
其中,F(M)表示节点M的出现频率,F(M)表示节点N的出现频率,F(a,MN)表示节点M和节点N的共现频率;
或者,在所述词图中按照节点M和节点N之间联系的紧密程度基于下式为节点M和节点N之间的边分配所对应的权值:
其中,R表示节点M和节点N之间的路径,dis(R,M,N)表示节点M和节点N 之间的路径长度,graph表示所述词图;
或者,在所述词图中基于下式为节点M和节点N之间的边分配所对应的权值:
或者,在所述词图中基于下式为节点M和节点N之间的边分配所对应的权值:
其中,d(M,N)表示节点M和节点N在嵌入embedding空间的欧几里得距离。
在上述方案中,所述压缩部分502,经配置为:
根据所述候选摘要语句P在所述词图中的路径长度|P|、路径的边权和 W(P)、语句的信息覆盖率C(P)、语句流畅程度F(P)以及语句的内容多样性 D(P)按照下式为所述候选摘要语句P进行评分:
其中,SCORE(P)为候选摘要语句P的评分;
将评分最低的候选摘要语句确定为所述词图对应的子话题集合所对应的最优摘要语句。
在上述方案中,所述生成部分503,经配置为:
基于次模预算最大化策略从所述摘要集中选取候选摘要子集;
利用贪婪算法从所述候选摘要子集中求取最优摘要子集以生成所述会议记录对应的最优会议摘要。
在上述方案中,参见图6,所述装置50还包括:预处理部分504,经配置为将会议记录源文本中的无意义词语进行清洗,获得所述会议记录语料。
上述为本实施例的一种基于会议记录生成会议摘要的装置50的示意性方案。需要说明的是,该基于会议记录生成会议摘要的装置50的技术方案与上述的基于会议记录生成会议摘要的方法的技术方案属于同一构思,基于会议记录生成会议摘要的装置50的技术方案未详细描述的细节内容,均可以参见上述基于会议记录生成会议摘要的方法的技术方案的描述。
可以理解地,在本实施例中,“部分”可以是部分电路、部分处理器、部分程序或软件等等,当然也可以是单元,还可以是模块也可以是非模块化的。
另外,在本实施例中的各组成部分可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
所述集成的单元如果以软件功能模块的形式实现并非作为独立的产品进行销售或使用时,可以存储在一个计算机可读取存储介质中,基于这样的理解,本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或processor(处理器)执行本实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM, Read Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
因此,本实施例提供了一种计算机存储介质,所述计算机存储介质存储有基于会议记录生成会议摘要的程序,所述基于会议记录生成会议摘要的程序被至少一个处理器执行时实现权利要求1至8任一项中所述基于会议记录生成会议摘要的方法步骤。
根据上述基于会议记录生成会议摘要的装置50以及计算机存储介质,参见图7,其示出了本发明实施例提供的一种能够实施上述基于会议记录生成会议摘要的装置50的计算设备70的具体硬件结构,该计算设备70可以为无线装置、移动或蜂窝电话(包含所谓的智能电话)、个人数字助理(PDA)、视频游戏控制台(包含视频显示器、移动视频游戏装置、移动视频会议单元)、膝上型计算机、桌上型计算机、电视机顶盒、平板计算装置、电子书阅读器、固定或移动媒体播放器,等。计算设备70包括:通信接口701,存储器702和处理器703;各个组件通过总线系统704耦合在一起。可理解,总线系统704用于实现这些组件之间的连接通信。总线系统704除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图7中将各种总线都标为总线系统704。其中,
所述通信接口701,用于在与其他外部网元之间进行收发信息过程中,信号的接收和发送;
所述存储器702,用于存储能够在所述处理器703上运行的计算机程序;
所述处理器703,用于在运行所述计算机程序时,执行以下步骤:
按照设定的聚类策略将会议记录语料中的句子划分为至少一个子话题集合;
针对每个子话题集合,采用设定的多语句压缩方案生成与所述每个子话题集合对应的摘要语句;
根据所述摘要语句形成的摘要集生成所述会议记录对应的会议摘要。
可以理解,本发明实施例中的存储器702可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM,DRRAM)。本文描述的系统和方法的存储器702旨在包括但不限于这些和任意其它适合类型的存储器。
而处理器703可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器703中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器703可以是通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器702,处理器703读取存储器702 中的信息,结合其硬件完成上述方法的步骤。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits,ASIC)、数字信号处理器(Digital Signal Processing,DSP)、数字信号处理设备(DSP Device,DSPD)、可编程逻辑设备(Programmable LogicDevice,PLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
具体来说,处理器703还配置为运行所述计算机程序时,执行前述技术方案中所述基于会议记录生成会议摘要的方法步骤,这里不再进行赘述。
需要说明的是:本发明实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种基于会议记录生成会议摘要的方法,其特征在于,所述方法包括:
按照设定的聚类策略将会议记录语料中的句子划分为至少一个子话题集合;
针对每个子话题集合,采用设定的多语句压缩方案生成与所述每个子话题集合对应的摘要语句;
根据所述摘要语句形成的摘要集生成所述会议记录对应的会议摘要。
2.根据权利要求1所述的方法,其特征在于,所述按照设定的聚类策略将会议记录语料中的句子划分为至少一个子话题集合,包括:
将所述会议记录语料按照句子为切割单位进行切割,获得每个句子中所包括的各个词语;
计算所述每个句子中所包括的各个词语对应的词频-逆文本频率TF-IDF值;
根据所述每个句子中所包括的各个词语对应的TF-IDF值将所述会议记录语料映射至向量空间以形成原始词-句矩阵;
将所述原始词-句矩阵通过潜在语义分析LSA进行降维,获得降维后的词-句矩阵;
采用所述降维后的词-句矩阵以及设定的聚类算法按语义进行聚类,获得至少一个子话题集合;其中,每个子话题集合中包括多个句子且每个子话题集合可以被一个摘要语句所概括。
3.根据权利要求1所述的方法,其特征在于,所述针对每个子话题集合,采用设定的多语句压缩方案生成与所述每个子话题集合对应的摘要语句,包括:
以每个子话题集合中的句子所包括的词语为节点构建每个子话题集合对应的词图;
在所述词图中为任意两个节点之间的边分配所对应的权值;
基于所述词图中各边对应的权值从所述词图中选取设定数目的最短路径以形成候选摘要语句;
从所述候选摘要语句中按照设定的选取规则选取所述词图对应的子话题集合所对应的最优摘要语句。
4.根据权利要求3所述的方法,其特征在于,所述以每个子话题集合中的句子所包括的词语为节点构建每个子话题集合对应的词图,包括:
从每个子话题集合中任意选取一个句子;
根据被选取句子中的词语顺序将所述被选取句子中的词语所对应的节点按照设定的添加规则添加在开始节点为首节点且结束节点为末节点的单链中以创建每个子话题集合对应的初始词图;其中,所述被选取句子中的两个词语之间的相邻关系设置为所述两个词语对应两个中间节点之间的边;
对于所述每个子话题集合中除所述被选取句子之外的其他句子,根据所述其他句子中的词语顺序将所述其他句子中的词语所对应的节点按照所述添加规则添加在所述初始词图中以构建所述每个子话题集合对应的词图;
其中,所述添加规则包括:
同一句子中的任意两个词不被映射到同一节点;
相应于待添加词语为非停用词,若所述词图中存在所述待添加词语对应的一个匹配节点,则将所述待添加词语映射至所述匹配节点;若所述词图中存在所述待添加词语对应的多个匹配节点,则将所述待添加词语映射至与所述待添加词语具有最大上下文重复次数的匹配节点,当所述词图中不存在任何存在上下文重复的匹配节点,则将所述待添加词语映射至被映射次数最多的匹配节点;若所述词图中不存在所述待添加词语的匹配节点,则在所述词图中新建所述待添加词语对应的节点;
相应于所述待添加词语为停用词,若所述待添加词语在所述词图中存在匹配节点且所述待添加词语的后续词与所述匹配节点的后续节点至少有一个以上的连续重叠,则将所述待添加词语映射到所述匹配节点;否则,在所述词图中新建所述待添加词语对应的节点。
5.根据权利要求3所述的方法,其特征在于,所述在所述词图中为任意两个节点之间的边分配所对应的权值,包括:
在所述词图中按照节点M和节点N之间的联系程度基于下式为节点M和节点N之间的边分配所对应的权值:
其中,F(M)表示节点M的出现频率,F(M)表示节点N的出现频率,F(a,MN)表示节点M和节点N的共现频率;
或者,在所述词图中按照节点M和节点N之间联系的紧密程度基于下式为节点M和节点N之间的边分配所对应的权值:
其中,R表示节点M和节点N之间的路径,dis(R,M,N)表示节点M和节点N之间的路径长度,graph表示所述词图;
或者,在所述词图中基于下式为节点M和节点N之间的边分配所对应的权值:
或者,在所述词图中基于下式为节点M和节点N之间的边分配所对应的权值:
其中,d(M,N)表示节点M和节点N在嵌入embedding空间的欧几里得距离。
7.根据权利要求1所述的方法,其特征在于,所述根据所述摘要语句形成的摘要集生成所述会议记录对应的会议摘要,包括:
基于次模预算最大化策略从所述摘要集中选取候选摘要子集;
利用贪婪算法从所述候选摘要子集中求取最优摘要子集以生成所述会议记录对应的最优会议摘要。
8.根据权利要求1至4任一项所述的方法,其特征在于,所述方法还包括:
将会议记录源文本中的无意义词语进行清洗,获得所述会议记录语料。
9.一种基于会议记录生成会议摘要的装置,其特征在于,所述装置包括:集合划分部分、压缩部分以及生成部分;其中,
所述集合划分部分,经配置为按照设定的聚类策略将会议记录语料中的句子划分为至少一个子话题集合;
所述压缩部分,经配置为针对每个子话题集合,采用设定的多语句压缩方案生成与所述每个子话题集合对应的摘要语句;
所述生成部分,经配置为根据所述摘要语句形成的摘要集生成所述会议记录对应的会议摘要。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有基于会议记录生成会议摘要的程序,所述基于会议记录生成会议摘要的程序被至少一个处理器执行时实现权利要求1至8任一项中所述基于会议记录生成会议摘要的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110045581.0A CN112765344B (zh) | 2021-01-12 | 2021-01-12 | 一种基于会议记录生成会议摘要的方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110045581.0A CN112765344B (zh) | 2021-01-12 | 2021-01-12 | 一种基于会议记录生成会议摘要的方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112765344A true CN112765344A (zh) | 2021-05-07 |
CN112765344B CN112765344B (zh) | 2022-07-08 |
Family
ID=75700413
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110045581.0A Active CN112765344B (zh) | 2021-01-12 | 2021-01-12 | 一种基于会议记录生成会议摘要的方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112765344B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113204627A (zh) * | 2021-05-13 | 2021-08-03 | 哈尔滨工业大学 | 利用DialoGPT作为特征标注器的对话摘要生成系统 |
JP7169031B1 (ja) | 2022-05-16 | 2022-11-10 | 株式会社RevComm | プログラム、情報処理装置、情報処理システム、情報処理方法、情報処理端末 |
WO2023089481A1 (en) * | 2021-11-18 | 2023-05-25 | International Business Machines Corporation | Creation of a minute from a record of a teleconference |
CN116720044A (zh) * | 2023-08-10 | 2023-09-08 | 南通话时代信息科技有限公司 | 一种会议记录数据智能清洗方法及系统 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105243152A (zh) * | 2015-10-26 | 2016-01-13 | 同济大学 | 一种基于图模型的自动文摘方法 |
CN105893410A (zh) * | 2015-11-18 | 2016-08-24 | 乐视网信息技术(北京)股份有限公司 | 一种关键词提取方法和装置 |
CN106484797A (zh) * | 2016-09-22 | 2017-03-08 | 北京工业大学 | 基于稀疏学习的突发事件摘要抽取方法 |
WO2018036555A1 (zh) * | 2016-08-25 | 2018-03-01 | 腾讯科技(深圳)有限公司 | 会话处理方法及装置 |
CN108804432A (zh) * | 2017-04-26 | 2018-11-13 | 慧科讯业有限公司 | 一种基于网络媒体数据流发现并跟踪热点话题的方法、系统和装置 |
CN109960724A (zh) * | 2019-03-13 | 2019-07-02 | 北京工业大学 | 一种基于tf-idf的文本摘要方法 |
CN110046255A (zh) * | 2019-04-19 | 2019-07-23 | 江南大学 | 一种基于抗噪移动时间势能聚类的文本分类方法 |
CN110413986A (zh) * | 2019-04-12 | 2019-11-05 | 上海晏鼠计算机技术股份有限公司 | 一种改进词向量模型的文本聚类多文档自动摘要方法及系统 |
US20200117751A1 (en) * | 2018-10-10 | 2020-04-16 | Twinword Inc. | Context-aware computing apparatus and method of determining topic word in document using the same |
WO2020158409A1 (ja) * | 2019-01-28 | 2020-08-06 | 日本電信電話株式会社 | 要約生成装置、方法、プログラム、及び記憶媒体 |
CN111797226A (zh) * | 2020-06-30 | 2020-10-20 | 北京百度网讯科技有限公司 | 会议纪要的生成方法、装置、电子设备以及可读存储介质 |
CN112148863A (zh) * | 2020-10-15 | 2020-12-29 | 哈尔滨工业大学 | 一种融入常识知识的生成式对话摘要方法 |
-
2021
- 2021-01-12 CN CN202110045581.0A patent/CN112765344B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105243152A (zh) * | 2015-10-26 | 2016-01-13 | 同济大学 | 一种基于图模型的自动文摘方法 |
CN105893410A (zh) * | 2015-11-18 | 2016-08-24 | 乐视网信息技术(北京)股份有限公司 | 一种关键词提取方法和装置 |
WO2018036555A1 (zh) * | 2016-08-25 | 2018-03-01 | 腾讯科技(深圳)有限公司 | 会话处理方法及装置 |
CN106484797A (zh) * | 2016-09-22 | 2017-03-08 | 北京工业大学 | 基于稀疏学习的突发事件摘要抽取方法 |
CN108804432A (zh) * | 2017-04-26 | 2018-11-13 | 慧科讯业有限公司 | 一种基于网络媒体数据流发现并跟踪热点话题的方法、系统和装置 |
US20200117751A1 (en) * | 2018-10-10 | 2020-04-16 | Twinword Inc. | Context-aware computing apparatus and method of determining topic word in document using the same |
WO2020158409A1 (ja) * | 2019-01-28 | 2020-08-06 | 日本電信電話株式会社 | 要約生成装置、方法、プログラム、及び記憶媒体 |
CN109960724A (zh) * | 2019-03-13 | 2019-07-02 | 北京工业大学 | 一种基于tf-idf的文本摘要方法 |
CN110413986A (zh) * | 2019-04-12 | 2019-11-05 | 上海晏鼠计算机技术股份有限公司 | 一种改进词向量模型的文本聚类多文档自动摘要方法及系统 |
CN110046255A (zh) * | 2019-04-19 | 2019-07-23 | 江南大学 | 一种基于抗噪移动时间势能聚类的文本分类方法 |
CN111797226A (zh) * | 2020-06-30 | 2020-10-20 | 北京百度网讯科技有限公司 | 会议纪要的生成方法、装置、电子设备以及可读存储介质 |
CN112148863A (zh) * | 2020-10-15 | 2020-12-29 | 哈尔滨工业大学 | 一种融入常识知识的生成式对话摘要方法 |
Non-Patent Citations (2)
Title |
---|
RUI SUN 等: "《Query-Biased Multi-document Abstractive Summarization via Submodular Maximization Using Event Guidance》", 《SPRINGER INTERNATIONAL PUBLISHING》 * |
王凯祥: "面向查询的自动文本摘要技术研究综述", 《计算机科学》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113204627A (zh) * | 2021-05-13 | 2021-08-03 | 哈尔滨工业大学 | 利用DialoGPT作为特征标注器的对话摘要生成系统 |
WO2023089481A1 (en) * | 2021-11-18 | 2023-05-25 | International Business Machines Corporation | Creation of a minute from a record of a teleconference |
US11837219B2 (en) | 2021-11-18 | 2023-12-05 | International Business Machines Corporation | Creation of a minute from a record of a teleconference |
JP7169031B1 (ja) | 2022-05-16 | 2022-11-10 | 株式会社RevComm | プログラム、情報処理装置、情報処理システム、情報処理方法、情報処理端末 |
JP2023168692A (ja) * | 2022-05-16 | 2023-11-29 | 株式会社RevComm | プログラム、情報処理装置、情報処理システム、情報処理方法、情報処理端末 |
CN116720044A (zh) * | 2023-08-10 | 2023-09-08 | 南通话时代信息科技有限公司 | 一种会议记录数据智能清洗方法及系统 |
CN116720044B (zh) * | 2023-08-10 | 2023-11-17 | 南通话时代信息科技有限公司 | 一种会议记录数据智能清洗方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112765344B (zh) | 2022-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112765344B (zh) | 一种基于会议记录生成会议摘要的方法、装置及存储介质 | |
US11055355B1 (en) | Query paraphrasing | |
Koh et al. | An empirical survey on long document summarization: Datasets, models, and metrics | |
Mairesse et al. | Stochastic language generation in dialogue using factored language models | |
US20190258660A1 (en) | System and method for summarizing a multimedia content item | |
Liu et al. | A supervised framework for keyword extraction from meeting transcripts | |
Xie et al. | Improving supervised learning for meeting summarization using sampling and regression | |
CN111241267A (zh) | 摘要提取和摘要抽取模型训练方法及相关装置、存储介质 | |
Lin et al. | Leveraging Kullback–Leibler divergence measures and information-rich cues for speech summarization | |
Chen et al. | Extractive speech summarization using evaluation metric-related training criteria | |
Lin et al. | A risk minimization framework for extractive speech summarization | |
US20230214382A1 (en) | Systems and methods for interpreting natural language search queries | |
Chen et al. | Sentence modeling for extractive speech summarization | |
Chen et al. | A risk-aware modeling framework for speech summarization | |
Chen | Latent topic modelling of word co-occurence information for spoken document retrieval | |
US20220414338A1 (en) | Topical vector-quantized variational autoencoders for extractive summarization of video transcripts | |
Lease | Natural language processing for information retrieval: the time is ripe (again) | |
Kong et al. | Improved spoken document summarization using probabilistic latent semantic analysis (plsa) | |
Vysotska et al. | Correlation Analysis of Text Author Identification Results Based on N-Grams Frequency Distribution in Ukrainian Scientific and Technical Articles. | |
Lin et al. | Enhanced BERT-based ranking models for spoken document retrieval | |
Liu et al. | Enhanced language modeling with proximity and sentence relatedness information for extractive broadcast news summarization | |
Chen et al. | Leveraging word embeddings for spoken document summarization | |
Lin et al. | Leveraging evaluation metric-related training criteria for speech summarization | |
Chen et al. | Learning to distill: the essence vector modeling framework | |
Lin et al. | Improved speech summarization with multiple-hypothesis representations and kullback-leibler divergence measures. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |