CN112836016B - 会议纪要生成方法、装置、设备和存储介质 - Google Patents

会议纪要生成方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN112836016B
CN112836016B CN202110164414.8A CN202110164414A CN112836016B CN 112836016 B CN112836016 B CN 112836016B CN 202110164414 A CN202110164414 A CN 202110164414A CN 112836016 B CN112836016 B CN 112836016B
Authority
CN
China
Prior art keywords
sentence
target
keyword
weight
conference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110164414.8A
Other languages
English (en)
Other versions
CN112836016A (zh
Inventor
郑翔
杨晶生
陈可蓉
耿心昀
杜春赛
徐文铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zitiao Network Technology Co Ltd
Original Assignee
Beijing Zitiao Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zitiao Network Technology Co Ltd filed Critical Beijing Zitiao Network Technology Co Ltd
Priority to CN202110164414.8A priority Critical patent/CN112836016B/zh
Publication of CN112836016A publication Critical patent/CN112836016A/zh
Application granted granted Critical
Publication of CN112836016B publication Critical patent/CN112836016B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开实施例涉及一种会议纪要生成方法、装置、设备和存储介质。该方法包括:获取会议文本中的多个目标语句;基于目标语句中包含的关键词的词权重,确定每个目标语句的语句权重;基于各语句权重,从各目标语句中确定一个目标语句作为纪要语句;若已确定出的纪要语句未满足会议纪要生成条件,则降低各其他目标语句中的目标关键词的词权重,并继续从各其他目标语句中确定新的纪要语句,直至已确定出的纪要语句满足会议纪要生成条件。通过上述技术方案,降低了会议文本中错误内容和无效信息的影响,提高了纪要语句提取的抗干扰性;且使得各纪要语句中包含尽可能多且重复性低的关键词,提高了会议纪要的多样性、信息覆盖面和准确性。

Description

会议纪要生成方法、装置、设备和存储介质
技术领域
本公开涉及计算机技术领域,尤其涉及一种会议纪要生成方法、装置、设备和存储介质。
背景技术
随着互联网技术的发展,线上会议的应用越来越频繁。为了提高会议效率,一般会在会议过程中进行录音,会后再基于录音文件来整理会议文本和会议纪要。例如,利用自动语音识别技术(Automatic Speech Recognition,ASR)来处理录音文件,得到会议文本,进而基于会议文本的内容进行会议纪要提取。
但是,目前的会议纪要提取方式存在如下问题:一方面,受限于录音文件的音频质量和ASR转录技术,所得的会议文本中可能包含较多误识别的错误内容。另外,因会议的对话形式,使得会议录音文件中包含较多的口语化的无效信息。这些错误内容和无效信息对会议纪要的提取带来了较大的干扰,造成会议纪要的准确性较低。另一方面,一场会议可能包含多个会议议题,基于会议内容的纪要提取方式,无法兼顾到各个议题,降低了会议纪要的多样性和信息含量。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种会议纪要生成方法、装置、设备和存储介质。
本公开实施例提供了一种会议纪要生成方法,该方法包括:
获取会议文本,并确定所述会议文本中的多个目标语句;
基于所述目标语句中包含的关键词的词权重,确定每个所述目标语句的语句权重;
基于各所述语句权重,从各所述目标语句中确定一个目标语句,作为纪要语句;
若已确定出的纪要语句未满足会议纪要生成条件,则降低各其他目标语句中的目标关键词的词权重,并继续从各所述其他目标语句中确定新的纪要语句,直至所述已确定出的纪要语句满足所述会议纪要生成条件;其中,所述其他目标语句是除了所述已确定出的纪要语句之外的所述目标语句,所述目标关键词是所述已确定出的纪要语句中出现的关键词。
本公开实施例还提供了一种会议纪要生成装置,所述装置包括:
目标语句确定模块,用于获取会议文本,并确定所述会议文本中的多个目标语句;
语句权重确定模块,用于基于所述目标语句中包含的关键词的词权重,确定每个所述目标语句的语句权重;
纪要语句确定模块,用于基于各所述语句权重,从各所述目标语句中确定一个目标语句,作为纪要语句;
循环触发模块,用于若已确定出的纪要语句未满足会议纪要生成条件,则降低各其他目标语句中的目标关键词的词权重,并继续从各所述其他目标语句中确定新的纪要语句,直至所述已确定出的纪要语句满足所述会议纪要生成条件;其中,所述其他目标语句是除了所述已确定出的纪要语句之外的所述目标语句,所述目标关键词是所述已确定出的纪要语句中出现的关键词。
本公开实施例还提供了一种的电子设备,该电子设备包括:
处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行本公开任意实施例中所述方法的步骤。
本公开实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储程序或指令,所述程序或所述指令使计算机执行本公开任意实施例中所述方法的步骤。
本公开实施例提供的技术方案与现有技术相比具有如下优点:本公开实施例提供的会议纪要生成方案,通过获取会议文本中的多个目标语句;基于目标语句中包含的关键词的词权重,确定每个目标语句的语句权重;基于各语句权重,从各目标语句中确定一个目标语句,作为纪要语句。实现了利用目标语句和语句权重来过滤会议文本中的无效信息,降低会议文本中错误内容对会议纪要的影响,提高纪要语句提取的抗干扰性,从而提高生成的会议纪要的准确性。通过在已确定出的纪要语句未满足会议纪要生成条件的情况下,降低各其他目标语句中的目标关键词的词权重,并继续从各其他目标语句中确定新的纪要语句,直至已确定出的纪要语句满足会议纪要生成条件。实现了会议纪要提取过程中动态降低某些关键词的词权重,使得所得各纪要语句中包含尽可能多且重复性低的关键词,提高会议纪要的多样性和信息覆盖面,从而进一步提高会议纪要的准确性。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例提供的一种会议纪要生成方法的流程示意图;
图2为本公开实施例提供的另一种会议纪要生成方法的流程示意图;
图3为本公开实施例提供的一种会议纪要生成装置的结构示意图;
图4为本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步的详细描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
本公开实施例提供的会议纪要生成方法,主要适用于为各种会议(含线上和线下)生成会议纪要的场景。本公开实施例提供的会议纪要生成方法可以由会议纪要生成装置来执行,该装置可以由软件和/或硬件的方式实现,该装置可以集成在具有文本处理功能的电子设备中,例如手机、掌上电脑、平板电脑、笔记本电脑、台式电脑或服务器等。
图1是本公开实施例提供的一种会议纪要生成方法的流程图。参见图1,该会议纪要生成方法具体包括:
S110、获取会议文本,并确定会议文本中的多个目标语句。
其中,目标语句是从会议文本中获取的、满足一些条件的语句,例如可以是剔除无效信息后的语句。
获取会议的字幕文本,即会议文本。在一些实施例中,可以通过对会议过程中录制的录音文件进行转换而获得会议文本。在一些实施例中,可以通过人工记录来获得会议文本。在一些实施例中,还可以通过对语音转换而获得的会议文本和人工记录所得的会议文本进行融合,来获得准确性更高的会议文本。
获取会议文本之后,考虑到该会议文本中包含有错误信息和无效信息,且会议纪要的生成是以语句为处理单位,故对会议文本进行语句拆分、语句过滤等处理,获得该会议文本中的多个目标语句。这些目标语句为后续会议纪要生成的基础数据。
在一些实施例中,在获取会议文本之后,对会议文本进行关键词提取操作,获得会议文本中包含的各关键词以及每个关键词的词权重。其中,词权重是指关键词在文本中的重要程度,越重要的关键词,其词权重越高。考虑到关键词可以一定程度上反映相关文本的主要内容信息,故本公开实施例以关键词为基础进行会议纪要的生成。具体地,在获取会议文本后,可以采用现有的关键词提取算法对该会议文本进行关键词提取操作。可采用的关键词提取算法有诸如词频-逆向文件频率算法(term frequency-inverse documentfrequency,TF-IDF)、topic相似度等无监督的算法,诸如基于统计机器翻译SMT模型、基于序列标注模型等有监督的算法。实际应用时可根据业务需求的精度和效率等选择合适的关键词提取算法。这些关键词提取算法基本都具有为关键词打分(分值可作为词权重)的功能,故通过算法的执行,在获取会议文本中的各关键词的同时,可以获取到每个关键词的词权重。
S120、基于目标语句中包含的关键词的词权重,确定每个目标语句的语句权重。
其中,语句权重是指某语句在文本中的重要程度以及该语句成为纪要语句的可能性大小,语句权重越高,该语句越重要,其越有可能成为纪要语句。
针对每个目标语句,以其中包含的关键词及其词权重为基础,从语句通顺程度、语句包含内容的重要程度、语句长度是否适合作为纪要语句等至少一个方面,计算该目标语句的语句权重。
S130、基于各语句权重,从各目标语句中确定一个目标语句,作为纪要语句。
相关技术中,在确定出每个目标语句的语句权重后,会根据某些规则一次性从各目标语句中确定出多个纪要语句,进而生成会议纪要。但是,该种纪要生成方式容易造成关键词热点效应,即包含词权重越高的关键词被选中的概率越大,生成的会议纪要中包含较多的词权重较高的部分关键词,且这些关键词的重复率较高,进而导致生成的会议纪要的关键词覆盖率低,无法很好地兼顾各个会议议题。基于此,本公开实施例中每次只从所有可选的目标语句中提取出一个纪要语句,然后降低被选目标语句(即已确定出的纪要语句)中包含的关键词的词权重,以一定程度上降低包含这些关键词的其他目标语句后续被继续选为纪要语句的可能性。
在一些实施例中,考虑到会议文本中的错误信息和无效信息无法完全滤除,可能会造成某些语句权重异常,而为了避免这些异常语句权重引起的噪声数据对会议纪要的影响,可以根据各语句权重构建语句权重累积直方图,并选择某一设定比例(如97%)处的语句权重对应的目标语句,作为纪要语句。
在一些实施例中,如果前期的会议文本的处理比较到位,目标语句中几乎不包含错误信息和无效信息,那么所得的每个目标语句的语句权重就能够正确反映相应目标语句的重要性。所以,为了找出会议文本中最为重要的语句,本实施例中可以从各语句权重中确定出权重值最高的语句权重(即最大语句权重),并将该最大语句权重对应的目标语句确定为本次选定的纪要语句。
S140、若已确定出的纪要语句未满足会议纪要生成条件,则降低各其他目标语句中的目标关键词的词权重,并继续从各其他目标语句中确定新的纪要语句,直至已确定出的纪要语句满足会议纪要生成条件。
其中,会议纪要生成条件是指结束循环式提取纪要语句的条件,其可以根据业务需求来设定。在一些实施例中,会议纪要生成条件包括:已确定出的纪要语句的语句总数达到预设语句数量;和/或,已确定出的纪要语句的关键词覆盖比例达到预设覆盖比例。本实施例中的会议纪要生成条件是会议纪要中至少包含预设语句数量的语句,或者会议纪要中包含的关键词占会议文本中包含的关键词的比例达到一个预先给定的比例(即预设覆盖比例,如85%),或者会议纪要中包含的语句数量超过预设语句数量的同时,关键词的覆盖比例达到预设覆盖比例。其他目标语句是除了已确定出的纪要语句之外的目标语句,目标关键词是已确定出的纪要语句中出现的关键词。
本公开实施例中的会议纪要是通过循环式地确定纪要语句而生成的。所以,在S130每次确定出一个纪要语句之后,便判断已确定出的纪要语句是否满足会议纪要生成条件。如果不满足条件,那么就进入下一次循环。该循环过程为:降低已确定出的纪要语句中包含的目标关键词的词权重。然后,以调整后的词权重和除了目标关键词之外的其他关键词的原有权重为基础,重新确定每个其他目标语句的语句权重,并返回执行S130和S140。按照该过程循环确定出各个纪要语句,直至已确定出的纪要语句满足会议纪要生成条件,此时结束循环,由已确定出的纪要语句来构成最终的会议纪要。
本公开实施例的上述技术方案,通过获取会议文本中的多个目标语句;基于目标语句中包含的关键词的词权重,确定每个目标语句的语句权重;基于各语句权重,从各目标语句中确定一个目标语句,作为纪要语句。实现了利用目标语句和语句权重来过滤会议文本中的无效信息,降低会议文本中错误内容对会议纪要的影响,提高纪要语句提取的抗干扰性,从而提高生成的会议纪要的准确性。通过在已确定出的纪要语句未满足会议纪要生成条件的情况下,降低各其他目标语句中的目标关键词的词权重,并继续从各其他目标语句中确定新的纪要语句,直至已确定出的纪要语句满足会议纪要生成条件。实现了会议纪要提取过程中动态降低某些关键词的词权重,使得所得各纪要语句中包含尽可能多且重复性低的关键词,提高会议纪要的多样性和信息覆盖面,从而进一步提高会议纪要的准确性。
图2是本公开实施例提供的又一种会议纪要生成方法的流程图。其对“确定出会议文本中的多个目标语句”进行了进一步优化。在此基础上,还可以进一步对“基于目标语句中包含的关键词的词权重,确定每个目标语句的语句权重”进行优化。在上述基础上,还可以进一步增加确定语句通顺度的相关步骤。其中与上述各实施例相同或相应的术语的解释在此不再赘述。参见图2,该会议纪要生成方法包括:
S210、获取会议文本。
S220、将会议文本中的各语句输入预先训练的语言模型,并根据模型输出结果确定每个语句的语句通顺度。
为了更加快速且准确地确定出每个语句的通顺程度,可以预先收集不同通顺程度的多个语句作为训练样本,并对初始的语言模型进行模型训练,获得训练后的语言模型。该语言模型的输入为语句或语句的数字化表征(如语句向量),输出为该输入语句的通顺程度(即语句通顺度)。具体实施时,将会议文本中的每个语句输入训练后的语言模型,便可获得每个语句的语句通顺度。
S230、基于语句长度、语句通顺度和是否包含关键词中的至少一项,对会议文本中的各语句进行筛选,确定出多个目标语句。
会议纪要是对整个会议文本进行概括的语句组合,其内包含的纪要语句应当具有较好的语句通顺度。为了确保会议纪要的准确性,其内的纪要语句应当包含会议文本中的至少一个关键词。此外,考虑到过长的语句中一般包含较多的细节性的说明,故纪要语句的语句长度应当不宜太长。基于此,本公开实施例中在提取纪要语句之前,先对会议文本中的所有语句进行初步的筛选。具体实施时,根据每个语句的语句长度是否处于合适的范围内(语句长度范围可预先经验设定)、语句通顺度是否满足预先设定的通顺度阈值以及语句中是否包含关键词中的至少一项,对这些语句进行过滤,不满足要求的语句被滤除,满足要求的语句则保留,成为目标语句。
S240、基于每个目标语句中包含的各关键词的词权重,确定相应目标语句中相应关键词的关键词贡献值。
其中,关键词贡献值用于表征相应关键词在相应语句被确定为纪要语句中的重要程度和贡献程度。
纪要语句的提取是以会议内容为对象的,而会议内容很大程度上可以通过关键词来反映。但是,考虑到关键词提取算法确定的关键词及其词权重可能因算法局限而无法完备且准确地反映会议内容的重点,本公开实施例中以每个关键词的词权重为基础数据,结合关键词的其他信息,如关键词的出现次数、出现顺序、出现位置等,对每个目标语句中的关键词的词权重进行进一步加工,获得相应目标语句中相应关键词的关键词贡献值。
在一些实施例中,S240包括:针对任一目标语句中的任一关键词,基于关键词的词权重和关键词在会议文本中的分布属性对应的属性权重,确定关键词在目标语句中的关键词贡献值。
其中,分布属性包括全文出现次数和/或全文出现顺序。全文出现次数是某关键词在整个会议文本中出现的总次数。全文出现顺序是某关键词在整个会议文本中出现的先后顺序,例如首次出现、第二次出现、末次出现等。
本实施例中,以一个目标语句中的一个关键词为处理单位,对词权重的处理方式则是根据关键词在会议文本中的分布属性来确定分布属性权重,再计算分布属性权重和词权重的乘积,确定为关键词贡献值。如果分布属性为全文出现次数,则关键词贡献值为词权重与全文出现次数对应的次数权重的乘积。如果分布属性为全文出现顺序,则关键词贡献值为词权重与全文出现顺序对应的顺序权重的乘积。如果分布属性为全文出现次数和全文出现顺序,那么关键词贡献值为上述两个权重乘积的加和。
上述次数权重取决于次数值,例如出现次数越多,次数权重越大。顺序权重取决于会议习惯,例如会议习惯是将重要的内容在会议开头部分总体介绍一遍,中间部分详细介绍,又在结尾部分整体总结一遍,那么全文出现顺序为靠前和靠后的顺序权重则相对较高。在一些实施例中,所述全文出现顺序与相应属性权重之间满足以下对应关系:全文中首次出现的所述关键词的属性权重大于全文中最后一次出现的所述关键词的属性权重,且全文中最后一次出现的所述关键词的属性权重大于全文中其它所述关键词的属性权重;其中,所述其它所述关键词为全文中,除首次出现和最后一次出现的所述关键词。本实施例中,某个关键词在全文中首次出现时,其属性权重(此处可称为顺序权重)最高;该关键词在全文中最后一次出现时,其顺序权重次高;该关键词在除了首次出现和最后一次出现的中间顺序出现时,其顺序权重又低于最后一次出现时对应的顺序权重。在一些实施例中,所述其它所述关键词的属性权重随其在全文中的出现顺序呈先逐渐递减再逐渐递增的关联关系。对于该关键词在中间顺序时的顺序权重,其随着出现顺序往后而逐渐降低,在达到某个出现顺序时,顺序权重最低;之后,随着出现顺序再往后,顺序权重又逐渐升高,直至趋近于该关键词最后一次出现时的顺序权重。
需要说明的是,如果一个目标语句中出现了多个相同的关键词,那么该关键词在该目标语句中的关键词贡献值可以是这几个相同关键词计算所得的关键词贡献值的均值或者中值。
S250、基于各目标语句对应的关键词贡献值,确定相应目标语句的语句权重。
如果目标语句中只包含一个关键词,则将该关键词的关键词贡献值确定为该目标语句的语句权重。如果目标语句中包含多个关键词,可以将这些关键词的关键词贡献值进行加权求和处理,所得结果作为该目标语句的语句权重。
在一些实施例中,S250包括:基于关键词贡献值以及语句长度、语句通顺度、语句位置和语句是否包含预设指示词中的至少一项,确定每个目标语句的语句权重。其中,语句位置可以是目标语句在会议文本中出现的绝对位置,也可以是目标语句在其所在段落中出现的相对位置。预设指示词是用于指示语句较大概率属于纪要语句的词,例如可以是“第一部分”、“重点”、“注意”等词。本实施例中,计算语句权重时,除了关键词贡献值之外,还可以引入语句长度、语句通顺度、语句位置、语句是否包含预设指示词等至少一个指标,以增加语句权重的可靠性,进而提高后续纪要语句提取的准确性。根据多个指标确定语句权重时,可以根据各指标对纪要语句的重要程度,为每个指标设置一个相应的指标权重,然后对指标值及其匹配的指标权重进行加权求和,得到目标语句的语句权重。在一些实施例中,上述语句位置对应的位置权重的分布同样取决于会议习惯。例如可以将绝对位置和相对位置对应的位置权重的变化趋势设置为与顺序权重相同的变化趋势,即随着关键词在文本或段落中的语句位置越来越靠后,位置权重的数值变化呈现先递减而后递增的趋势。
在一些实施例中,基于关键词贡献值以及语句长度、语句通顺度、语句位置和语句是否包含预设指示词中的至少一项,确定每个目标语句的语句权重包括:基于语句长度与语句权重成负相关关系,语句通顺度、语句包含预设指示词、语句位置和关键词贡献值分别与语句权重成正相关关系,确定每个目标语句的语句权重。目标语句是对语句长度过短的语句进行筛选所得,而语句长度越长,其被选为纪要语句的可能性越小,故本实施例中语句长度与语句权重呈反比关系。而语句越通顺、语句位置越靠前或靠后、关键词贡献值越大、语句中包含预设指示词,都会增加目标语句被选定为纪要语句的可能性,所以本实施例中语句通顺度、语句包含预设指示词、语句位置和关键词贡献值分别与语句权重成正相关关系。例如,可以按照如下公式的形式(变量系数不限定),由语句长度F、语句通顺度B、语句包含预设指示词C、语句位置D和关键词贡献值E来计算语句权重A:
Figure BDA0002937161750000111
S260、基于各语句权重,从各目标语句中确定一个目标语句,作为纪要语句。
S270、若已确定出的纪要语句未满足会议纪要生成条件,则降低各其他目标语句中的目标关键词的词权重,并继续从各其他目标语句中确定新的纪要语句,直至已确定出的纪要语句满足会议纪要生成条件。
本公开实施例的上述技术方案,通过基于语句长度、语句通顺度和是否包含关键词中的至少一项,对会议文本中的各语句进行筛选,确定出多个目标语句。实现了对会议文本包含的语句的过滤处理,进一步提高了会议纪要生成过程中对错误信息、无效信息和会议细节的抗干扰能力,从而提高生成的会议纪要对会议文本的鲁棒性。通过基于每个目标语句中包含的各关键词的词权重,确定相应目标语句中相应关键词的关键词贡献值;基于各目标语句对应的关键词贡献值,确定相应目标语句的语句权重。实现了会议纪要生成过程中对关键词及其词权重的进一步处理,降低了关键词及其词权重的不准确对纪要语句提取过程产生的影响,进一步提高了纪要语句提取的全面性和准确性。
图3为本公开实施例提供的一种会议纪要生成装置的结构示意图,该装置可由软件和/或硬件实现,一般可集成在电子设备中,可通过执行会议纪要生成方法来基于关键词生成更为准确且信息覆盖面更广的会议纪要。如图3所示,该装置包括:
目标语句确定模块310,用于获取会议文本,并确定会议文本中的多个目标语句;
语句权重确定模块320,用于基于目标语句中包含的关键词的词权重,确定每个目标语句的语句权重;
纪要语句确定模块330,用于基于各语句权重,从各目标语句中确定一个目标语句,作为纪要语句;
循环触发模块340,用于若已确定出的纪要语句未满足会议纪要生成条件,则降低各其他目标语句中的目标关键词的词权重,并继续从各其他目标语句中确定新的纪要语句,直至已确定出的纪要语句满足会议纪要生成条件;其中,其他目标语句是除了已确定出的纪要语句之外的目标语句,目标关键词是已确定出的纪要语句中出现的关键词。
在一些实施例中,会议纪要生成条件包括:
已确定出的纪要语句的语句总数达到预设语句数量;和/或,
已确定出的纪要语句的关键词覆盖比例达到预设覆盖比例。
在一些实施例中,目标语句确定模块310具体用于:
基于语句长度、语句通顺度和是否包含关键词中的至少一项,对会议文本中的各语句进行筛选,确定出多个目标语句。
在一些实施例中,语句权重确定模块320包括:
关键词贡献值确定子模块,用于基于每个目标语句中包含的各关键词的词权重,确定相应目标语句中相应关键词的关键词贡献值;其中,关键词贡献值用于表征相应关键词在相应语句被确定为纪要语句中的贡献程度;
语句权重确定子模块,用于基于各目标语句对应的关键词贡献值,确定相应目标语句的语句权重。
在一些实施例中,关键词贡献值确定子模块具体用于:
针对任一目标语句中的任一关键词,基于关键词的词权重和关键词在会议文本中的分布属性对应的属性权重,确定关键词在目标语句中的关键词贡献值;其中,分布属性包括全文出现次数和/或全文出现顺序。
在一些实施例中,所述全文出现顺序与相应属性权重之间满足以下对应关系:
全文中首次出现的所述关键词的属性权重大于全文中最后一次出现的所述关键词的属性权重,且全文中最后一次出现的所述关键词的属性权重大于全文中其它所述关键词的属性权重;其中,所述其它所述关键词为全文中,除首次出现和最后一次出现的所述关键词。
在一些实施例中,所述其它所述关键词的属性权重随其在全文中的出现顺序呈先逐渐递减再逐渐递增的关联关系。
在一些实施例中,语句权重确定子模块具体用于:
基于关键词贡献值以及语句长度、语句通顺度、语句位置和语句是否包含预设指示词中的至少一项,确定每个目标语句的语句权重。
进一步地,语句权重确定子模块具体用于:
基于语句长度与语句权重成负相关关系,语句通顺度、语句包含预设指示词、语句位置和关键词贡献值分别与语句权重成正相关关系,确定每个目标语句的语句权重。
在一些实施例中,纪要语句确定模块330具体用于:
将各语句权重中最大语句权重对应的目标语句确定为纪要语句。
在一些实施例中,该装置还包括语句通顺度确定模块,用于:
在获取会议文本之后,将会议文本中的各语句输入预先训练的语言模型,并根据模型输出结果确定每个语句的语句通顺度。
在一些实施例中,该装置还包括关键词及词权重确定模块,用于:
在获取会议文本之后,对会议文本进行关键词提取操作,获得会议文本中包含的各关键词以及每个关键词的词权重。
通过本公开实施例提供的一种会议纪要生成装置,实现了利用目标语句和语句权重来过滤会议文本中的无效信息,降低会议文本中错误内容对会议纪要的影响,提高纪要语句提取的抗干扰性,从而提高生成的会议纪要的准确性。且实现了会议纪要提取过程中动态降低某些关键词的词权重,使得所得各纪要语句中包含尽可能多且重复性低的关键词,提高会议纪要的多样性和信息覆盖面,从而进一步提高会议纪要的准确性。
本公开实施例所提供的会议纪要生成装置可执行本公开任意实施例所提供的会议纪要生成方法,具备执行方法相应的功能模块和有益效果。
值得注意的是,上述会议纪要生成装置的实施例中,所包括的各个模块和子模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能模块/子模块的具体名称也只是为了便于相互区分,并不用于限制本公开的保护范围。
图4为本公开实施例提供的一种电子设备的结构示意图。如图4所示,电子设备400包括一个或多个处理器401和存储器402。
处理器401可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备400中的其他组件以执行期望的功能。
存储器402可以包括一个或多个计算机程序产品,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器401可以运行程序指令,以实现上文所说明的本公开实施例的会议纪要生成方法以及/或者其他期望的功能。在计算机可读存储介质中还可以存储诸如关键词及其词权重、预设指示词、语言模型、语句权重等各种内容。
在一个示例中,电子设备400还可以包括:输入装置403和输出装置404,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。该输入装置403可以包括例如键盘、鼠标等等。该输出装置404可以向外部输出各种信息,包括会议文本和生成的会议纪要等。该输出装置404可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图4中仅示出了该电子设备400中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备400还可以包括任何其他适当的组件。
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本公开实施例所提供的会议纪要生成方法。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本公开实施例所提供的会议纪要生成方法。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
需要说明的是,本公开所用术语仅为了描述特定实施例,而非限制本申请范围。如本公开说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。术语“和/或”包括一个或多个相关所列条目的任何一个和所有组合。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (15)

1.一种会议纪要生成方法,其特征在于,包括:
获取会议文本,并确定所述会议文本中的多个目标语句;
基于所述目标语句中包含的关键词的词权重,确定每个所述目标语句的语句权重;
基于各所述语句权重,从各所述目标语句中确定一个目标语句,作为纪要语句;
若已确定出的纪要语句未满足会议纪要生成条件,则降低各其他目标语句中的目标关键词的词权重,并继续从各所述其他目标语句中确定新的纪要语句,直至所述已确定出的纪要语句满足所述会议纪要生成条件;其中,所述其他目标语句是除了所述已确定出的纪要语句之外的所述目标语句,所述目标关键词是所述已确定出的纪要语句中出现的关键词。
2.根据权利要求1所述的方法,其特征在于,所述会议纪要生成条件包括:
所述已确定出的纪要语句的语句总数达到预设语句数量;和/或,
所述已确定出的纪要语句的关键词覆盖比例达到预设覆盖比例。
3.根据权利要求1所述的方法,其特征在于,所述确定出所述会议文本中的多个目标语句包括:
基于语句长度、语句通顺度和是否包含关键词中的至少一项,对所述会议文本中的各语句进行筛选,确定出所述多个目标语句。
4.根据权利要求1所述的方法,其特征在于,所述基于所述目标语句中包含的关键词的词权重,确定每个所述目标语句的语句权重包括:
基于每个所述目标语句中包含的各所述关键词的词权重,确定相应目标语句中相应关键词的关键词贡献值;其中,所述关键词贡献值用于表征相应关键词在相应语句被确定为纪要语句中的贡献程度;
基于各所述目标语句对应的所述关键词贡献值,确定相应目标语句的语句权重。
5.根据权利要求4所述的方法,其特征在于,所述基于每个所述目标语句中包含的各所述关键词的词权重,确定相应目标语句中相应关键词的关键词贡献值包括:
针对任一所述目标语句中的任一所述关键词,基于所述关键词的词权重和所述关键词在所述会议文本中的分布属性对应的属性权重,确定所述关键词在所述目标语句中的所述关键词贡献值;其中,所述分布属性包括全文出现次数和/或全文出现顺序。
6.根据权利要求5所述的方法,其特征在于,所述全文出现顺序与相应属性权重之间满足以下对应关系:
全文中首次出现的所述关键词的属性权重大于全文中最后一次出现的所述关键词的属性权重,且全文中最后一次出现的所述关键词的属性权重大于全文中其它所述关键词的属性权重;其中,所述其它所述关键词为全文中,除首次出现和最后一次出现的所述关键词。
7.根据权利要求6所述的方法,其特征在于,所述其它所述关键词的属性权重随其在全文中的出现顺序呈先逐渐递减再逐渐递增的关联关系。
8.根据权利要求4所述的方法,其特征在于,所述基于各所述目标语句对应的所述关键词贡献值,确定相应目标语句的语句权重包括:
基于所述关键词贡献值以及语句长度、语句通顺度、语句位置和语句是否包含预设指示词中的至少一项,确定每个所述目标语句的语句权重。
9.根据权利要求8所述的方法,其特征在于,所述基于所述关键词贡献值以及语句长度、语句通顺度、语句位置和语句是否包含预设指示词中的至少一项,确定每个所述目标语句的语句权重包括:
基于所述语句长度与所述语句权重成负相关关系,所述语句通顺度、语句包含预设指示词、所述语句位置和所述关键词贡献值分别与所述语句权重成正相关关系,确定每个所述目标语句的语句权重。
10.根据权利要求1所述的方法,其特征在于,所述基于各所述语句权重,从各所述目标语句中确定一个目标语句,作为所述纪要语句包括:
将各所述语句权重中最大语句权重对应的目标语句确定为所述纪要语句。
11.根据权利要求1-10任一项所述的方法,其特征在于,在所述获取会议文本之后,所述方法还包括:
将所述会议文本中的各语句输入预先训练的语言模型,并根据模型输出结果确定每个所述语句的语句通顺度。
12.根据权利要求1-10任一项所述的方法,其特征在于,在所述获取会议文本之后,所述方法还包括:
对所述会议文本进行关键词提取操作,获得所述会议文本中包含的各关键词以及每个所述关键词的词权重。
13.一种会议纪要的生成装置,其特征在于,包括:
目标语句确定模块,用于获取会议文本,并确定所述会议文本中的多个目标语句;
语句权重确定模块,用于基于所述目标语句中包含的关键词的词权重,确定每个所述目标语句的语句权重;
纪要语句确定模块,用于基于各所述语句权重,从各所述目标语句中确定一个目标语句,作为纪要语句;
循环触发模块,用于若已确定出的纪要语句未满足会议纪要生成条件,则降低各其他目标语句中的目标关键词的词权重,并继续从各所述其他目标语句中确定新的纪要语句,直至所述已确定出的纪要语句满足所述会议纪要生成条件;其中,所述其他目标语句是除了所述已确定出的纪要语句之外的所述目标语句,所述目标关键词是所述已确定出的纪要语句中出现的关键词。
14.一种电子设备,其特征在于,所述电子设备包括:
处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行如权利要求1至12任一项所述方法的步骤。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如权利要求1至12任一项所述方法的步骤。
CN202110164414.8A 2021-02-05 2021-02-05 会议纪要生成方法、装置、设备和存储介质 Active CN112836016B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110164414.8A CN112836016B (zh) 2021-02-05 2021-02-05 会议纪要生成方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110164414.8A CN112836016B (zh) 2021-02-05 2021-02-05 会议纪要生成方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN112836016A CN112836016A (zh) 2021-05-25
CN112836016B true CN112836016B (zh) 2022-02-22

Family

ID=75932442

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110164414.8A Active CN112836016B (zh) 2021-02-05 2021-02-05 会议纪要生成方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN112836016B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114328900A (zh) * 2022-03-14 2022-04-12 深圳格隆汇信息科技有限公司 一种基于关键词的资讯摘要提取方法
CN115174285B (zh) * 2022-07-26 2024-02-27 中国工商银行股份有限公司 会议记录生成方法、装置及电子设备

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100785927B1 (ko) * 2006-06-02 2007-12-17 삼성전자주식회사 데이터 요약 생성 방법 및 장치
CN105488021B (zh) * 2014-09-15 2018-09-28 华为技术有限公司 一种生成多文档摘要的方法和装置
TWI619115B (zh) * 2014-12-30 2018-03-21 鴻海精密工業股份有限公司 會議記錄裝置及其自動生成會議記錄的方法
CN106227722B (zh) * 2016-09-12 2019-07-05 中山大学 一种基于上市公司公告摘要的自动提取方法
CN106708932A (zh) * 2016-11-21 2017-05-24 百度在线网络技术(北京)有限公司 问答类网站的回复的摘要提取方法及装置
CN106599148A (zh) * 2016-12-02 2017-04-26 东软集团股份有限公司 一种文摘生成方法及装置
CN106598949B (zh) * 2016-12-22 2019-01-04 北京金山办公软件股份有限公司 一种词语对文本贡献度的确定方法及装置
CN108197111B (zh) * 2018-01-10 2020-12-22 华南理工大学 一种基于融合语义聚类的文本自动摘要方法
CN108305632B (zh) * 2018-02-02 2020-03-27 深圳市鹰硕技术有限公司 一种会议的语音摘要形成方法及系统
CN108416019A (zh) * 2018-03-06 2018-08-17 王海泉 关联词调整方法及调整系统
CN109960724B (zh) * 2019-03-13 2021-06-04 北京工业大学 一种基于tf-idf的文本摘要方法
CN110162595B (zh) * 2019-03-29 2023-08-29 深圳市腾讯计算机系统有限公司 用于生成文本摘要的方法、装置、设备以及可读存储介质
CN110704608A (zh) * 2019-08-29 2020-01-17 中国平安人寿保险股份有限公司 文本主题生成方法、装置和计算机设备
CN110781291A (zh) * 2019-10-25 2020-02-11 北京市计算中心 一种文本摘要提取方法、装置、服务器及可读存储介质
CN110837556A (zh) * 2019-10-30 2020-02-25 深圳价值在线信息科技股份有限公司 摘要生成方法、装置、终端设备及存储介质
CN112100365A (zh) * 2020-08-31 2020-12-18 电子科技大学 双阶段文本摘要方法
CN111986677A (zh) * 2020-09-02 2020-11-24 深圳壹账通智能科技有限公司 会议纪要生成方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN112836016A (zh) 2021-05-25

Similar Documents

Publication Publication Date Title
CN110765244B (zh) 获取应答话术的方法、装置、计算机设备及存储介质
CN110491383B (zh) 一种语音交互方法、装置、系统、存储介质及处理器
CN108140019B (zh) 语言模型生成装置、语言模型生成方法以及记录介质
CN110148416A (zh) 语音识别方法、装置、设备和存储介质
WO2018157789A1 (zh) 一种语音识别的方法、计算机、存储介质以及电子装置
WO2017084334A1 (zh) 一种语种识别方法、装置、设备及计算机存储介质
CN109584865B (zh) 一种应用程序控制方法、装置、可读存储介质及终端设备
CN112599128B (zh) 一种语音识别方法、装置、设备和存储介质
CN112673421A (zh) 训练和/或使用语言选择模型以自动确定用于口头话语的话音辨识的语言
JP5932869B2 (ja) N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム
CN114580382A (zh) 文本纠错方法以及装置
CN112836016B (zh) 会议纪要生成方法、装置、设备和存储介质
JP2016512609A (ja) 自動音声認識のための方法およびシステム
CN111445898B (zh) 语种识别方法、装置、电子设备和存储介质
US11170763B2 (en) Voice interaction system, its processing method, and program therefor
CN111241813B (zh) 语料扩展方法、装置、设备及介质
CN110738061B (zh) 古诗词生成方法、装置、设备及存储介质
CN112487824B (zh) 客服语音情感识别方法、装置、设备及存储介质
CN109492085B (zh) 基于数据处理的答案确定方法、装置、终端及存储介质
WO2011071174A1 (ja) テキストマイニング方法、テキストマイニング装置及びテキストマイニングプログラム
CN111161730B (zh) 语音指令匹配方法、装置、设备及存储介质
CN112861510A (zh) 纪要处理方法、装置、设备和存储介质
CN115174285A (zh) 会议记录生成方法、装置及电子设备
CN114254634A (zh) 一种多媒体数据的挖掘方法、装置、存储介质及设备
CN109684442B (zh) 一种文本检索方法、装置、设备及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant