CN108305632B

CN108305632B - 一种会议的语音摘要形成方法及系统

Info

Publication number: CN108305632B
Application number: CN201810105172.3A
Authority: CN
Inventors: 李明; 刘胜强
Original assignee: Shenzhen Eaglesoul Technology Co Ltd
Current assignee: Shenzhen Eaglesoul Technology Co Ltd
Priority date: 2018-02-02
Filing date: 2018-02-02
Publication date: 2020-03-27
Anticipated expiration: 2038-02-02
Also published as: CN108305632A; WO2019148584A1

Abstract

本发明公开了一种会议的语音摘要形成方法及系统，涉及语音识别领域。本发明通过分析发言人在会议中的发言位置、身份信息、个人资料等信息，确定发言人的权重系数，从而根据权重系数来用不同的预设策略获取不同发言人对应的候选关键发言片段，进一步根据发言内容本身的特点，例如发言的重要内容出现在发言时间轴上的概率较大的位置，或者发言的重要内容所跟的关键转折词、连接词，来截取候选关键发言片段集合，再对截取的候选关键发言片段集合进行处理以获取形成语音摘要的音频/视频片段集合，能够针对重要发言提取更多的内容，针对不重要的发言提取相对较少的内容，使最终形成的摘要内容更加合理，为用户提供更有效的帮助。

Description

一种会议的语音摘要形成方法及系统

技术领域

本发明涉及一种会议的语音摘要形成方法及系统，尤其涉及一种识别不同发言者的关键发言内容自动合成语音形式的会议摘要的方法及系统。

背景技术

现如今，每天召开的各类会议数不胜数，为了记录会议内容，通常可以使用摄像机或者录音笔等采集工具记录下会议现场的视频或者音频数据，将视频数据或音频数据保存成多媒体文件，通过回放保存的文件，可以随时观看或收听到会议内容，或者事后人工将其转化为记录文本，满足备忘、培训等需求。此外，会议现场通常会安排专门的记录员或者参会者自己通过笔记本电脑或者手写等方式进行记录，记录下召开的会议内容。但是，视频或者音频数据通常较大，保存时要占用大量硬件存储空间，且会议时间较长时回放过程中不容易定位到所需的内容，用户寻找到感兴趣的对象内容需要花费很多时间，用户体验很差。采用人工的方式记录会议内容虽然有助于记录关键内容且查找方便，但对记录人的要求较高，不经过专门训练的人员通常很难跟上会议讲话的进度，容易发生疏漏。

自动摘要提取技术可对输入的文本、语音、视频等信息进行处理，获得输入数据中的摘要内容，将处理后的摘要结果呈现给用户浏览。自动摘要提取技术不仅节约了用户访问信息的时间，而且提高了用户的工作效率。现有技术中存在多种自动生成会议摘要或总结的方式。

专利文献1(CN107409061A)提供了一种语音总结的方法、系统，计算机基于比较参与者的图像与讲话者和非讲话者面部的模板图像判断哪个参与者正在讲话。计算机通过将隐马尔可夫模型应用到参与者声音波形的简要记录确定讲话参与者的声纹，并将确定的声纹与讲话参与者的面部相关联。计算机识别并转录讲话者所做陈述的内容，确定关键点，并在视频会议中参与者的面部上方显示它们。

专利文献2(CN102572356A)提供了一种记录会议的方法，设置配置文件，定义会议的关键信息(例如举手问问题场景)以及会议摘要的格式，在会议时间线上特定时间点，基于配置文件提取各个会场的关键信息，将各个会场的关键信息组合成关键索引点，所述关键索引点用作与会议摘要进行互动或编辑的索引点；将对应于多个时间点的多个关键索引点结合为会议摘要；根据所述会议摘要中的关键信息与所述会议摘要进行互动或编辑。

但是，无论专利文献1虽然能够识别讲话参与者并将讲话的关键内容与参与者关联起来显示，但是，其对所有参与者提取其讲话信息的方式都是相同的，并不能根据不同参与者的不同情况有选择的提取不同参与者的讲话内容。在实际会议中，不同参与者的重要性通常是不同的，如果对每位参与者使用同样的方式提取其讲话信息，则有可能针对不重要的参与者讲话内容提取的信息过多造成资源浪费，而针对重要的参与者讲话内容提取的信息过少造成信息疏漏。并且专利文献1中识别并转录讲话者所做陈述的内容，确定关键点后是生成文字等信息显示出来供用户观看阅读，丧失了语音文件自身的优势。此外，专利文献1 通过比较参与者的图像与讲话者和非讲话者面部的模板图像判断哪个参与者正在讲话，再计算机通过将隐马尔可夫模型应用到参与者声音波形的简要记录确定讲话参与者的声纹，识别参与者的过程比较复杂，效率较低。

对于专利文献2，需要提取会场的关键信息，将会场的关键信息组合成关键索引点，基于多个时间点的多个关键索引点结合为会议摘要，一方面对会场环境数据的采集提出了更高的要求，另一方面容易受外部环境因素影响，其关键索引点并不一定代表会议的重要信息，其形成的会议摘要可能并不准确。

发明内容

基于上述问题，本发明的目的在于提供一种会议的语音摘要形成方法及系统，能够识别不同发言者的关键发言内容，并自动合成语音形式的会议摘要。

所述会议的语音摘要形成方法包括：

步骤101、在会议进行期间，采集会议音频/视频数据。

可选地，由用户手动启动和停止音频/视频数据采集以录制需要的内容。

可选地，令录制用麦克风循环检测语音信息，当检测到发言人开始发言的语音信息时，触发录制开始命令，采集发言人的音频/视频数据，记录下发言开始时间。根据采集到的音频/视频数据的属性(例如语音强度大小)判断当前发言人的发言在继续还是已经停止，当采集到的音频/视频数据满足预设条件时，例如发言停止超过一定时间则认为该与会者发言结束，触发录制暂停或停止命令，记录下发言结束时间。录制用麦克风继续循环检测语音信息，检测到下一发言人开始发言的语音信息时，触发继续录制命令或者录制开始命令，录制下一位发言人的音频/视频数据。

步骤102、对录制的音频/视频数据进行预处理后存储。

录制暂停后或者结束后记录下该发言人发言的开始时间和结束时间，并获取该发言人的姓名。

可选的，读取预先存储的会议议程表，会议议程表存储有会议议程，以及会议中各发言人的发言时间段，根据会议议程表获取当前时间对应的发言人，将发言人、发言开始时间、发言结束时间与采集的音频 /视频数据关联处理，并存储于存储装置中。

可选的，利用声纹识别技术识别当前发言的与会者。预先采集与会发言者的声音数据，识别与会发言者的声纹特征数据并将其与与会发言者姓名对应存储。根据当前采集的音频/视频数据识别其中的声纹特征数据，将识别出的声纹特征数据与预先采集存储的与会者声纹特征数据进行匹配，匹配成功后获取当前发言人的姓名，将发言人、发言开始时间、发言结束时间与采集的音频/视频数据关联处理，并存储于存储装置中。

步骤103、确定不同发言人的权重系数。

可选地，根据会议议程表存储的会议议程确定发言人的发言位置，根据发言人的发言位置对不同发言人赋予不同的权重系数A。

可选地，通过网络搜索发言人的相关身份信息和/或个人资料，根据获取的身份信息和/或个人资料基于预设算法计算该发言人的权重系数B。

进一步地，综合发言人对应的权重系数A与权重系数B确定该发言人最终的权重系数C。或者仅利用发言人的权重系数A或者权重系数B作为该发言人的最终权重系数。发言人的权重系数越大表示其发言内容重要程度越大。

步骤104、根据发言人获取其对应的候选关键发言片段集合。

根据发言人的姓名在存储的音频/视频中检索，找到其对应的具体发言片段，利用预设的策略在发言片段中截取候选的关键发言片段。

进一步地，具有不同权重系数的发言人对应的截取候选关键发言片段的预设策略不同。权重系数越高，截取的音频/视频片段数量越多和/或长度越长；权重系数越低，截取的音频/视频片段数量越少和/或长度越短。

可选地，结合该发言人对应发言音频/视频片段的时间轴，截取其特定时间段的音频/视频片段作为候选的关键发言片段。权重系数越高，截取的特定时间段音频/视频片段数量越多和/或长度越长；权重系数越低，截取的特定时间段音频/视频片段数量越少和/或长度越短。

可选地，预先设置关键词库，对发言人对应发言音频/视频片段进行语音识别处理，使用预设的关键词库对识别出的语音信息进行匹配，匹配成功后截取识别出的关键词后预设时间段的音频/视频片段作为候选的关键发言片段。不同权重发言人对应的关键词库和/或截取的预设时间段长度不同。权重系数越高，对应的关键词库中关键词数量越多和/或截取的音频/视频片段长度越长；权重系数越低，对应的关键词库中关键词数量越少和/或截取的音频/视频片段长度越短。

上述结合该发言人对应发言音频/视频片段的时间轴，截取其特定时间段的音频/视频片段作为候选的关键发言片段的方式，以及对发言人对应发言音频/视频片段进行语音识别处理，使用预设的关键词库对识别出的语音信息进行匹配，匹配成功后截取识别出的关键词后预设时间段的音频/视频片段作为候选的关键发言片段的方式，二者可以选择一种作为截取候选的关键发言片段的方式，也可以综合两种方式来截取候选的关键发言片段，例如先采用第一种方式，后采用第二种方式，截取出候选关键发言片段集合。

步骤105、对获取的候选关键发言片段集合进行语音识别处理，筛选定位重点发言内容对应的音频/视频片段集合。

具体地，结合会议主题可确定重点发言内容，所述重点发言内容可以为与会议主题相关的一系列关键词。对步骤104中获取的候选关键发言片段进行语音识别处理，将其转化为文本数据，转化后的文本数据具有与音频/视频数据相对应的时间轴，根据文本数据中的内容能够定位到相应时间段的音频/视频数据。利用重点发言内容对应的关键词对转化后的文本数据进行筛选，最终确定重点发言内容对应的音频/视频片段集合。

106、对步骤105中筛选出的音频/视频片段集合进行合成，形成语音摘要。

具体地，将步骤105中筛选出的同一发言人的音频/视频片段集合按时间顺序排序，将排序后的音频/ 视频片段集合拼接为一段音频/视频，作为该发言人发言内容的语音摘要。

进一步地，还可生成整个会议的语音摘要。可根据会议主题、会议议程等信息预先生成摘要的头部信息，并将上述信息生成头部信息语音文件。再根据会议议程等信息生成摘要中承前启后的过渡信息，并将上述过渡信息生成过渡信息语音文件。将头部信息语音文件、过渡信息语音文件、拼接完成的不同发言人的语音摘要按对应关系合成到一起，形成会议的语音摘要。

其中，步骤103可以在步骤101或者步骤102之前进行。

所述会议的语音摘要形成系统包括：

数据采集模块，用于在会议进行期间，采集会议音频/视频数据。

可选地，由用户手动启动、暂停或停止音频/视频数据采集以录制需要的内容。

系统包括音频/视频数据预处理模块，用于对录制的音频/视频数据进行预处理后存储。

数据采集模块录制暂停后或者结束后由音频/视频数据预处理模块记录下该发言人发言的开始时间和结束时间，并获取该发言人的姓名。

可选地，音频/视频数据预处理模块包括会议议程处理模块，用于读取预先存储的会议议程表，会议议程表存储有会议议程，以及会议中各发言人的发言时间段。根据会议议程表获取当前时间对应的发言人，将发言人、发言开始时间、发言结束时间与采集的音频/视频数据关联处理，并存储于存储装置中。

可选地，音频/视频数据预处理模块包括声纹识别模块，用于利用声纹识别技术识别当前发言的与会者。预先采集与会发言者的声音数据，识别与会发言者的声纹特征数据并将其与与会发言者姓名对应存储。声纹识别模块根据当前采集的音频/视频数据识别其中的声纹特征数据，将识别出的声纹特征数据与预先采集存储的与会者声纹特征数据进行匹配，匹配成功后获取当前发言人的姓名，将发言人、发言开始时间、发言结束时间与采集的音频/视频数据关联处理，并存储于存储装置中。

系统包括发言人权重确定模块，用于确定不同发言人的权重系数。

可选地，发言人权重确定模块根据会议议程表存储的会议议程确定发言人的发言位置，根据发言人的发言位置对不同发言人赋予不同的权重系数A。

可选地，发言人权重确定模块可通过网络搜索发言人的相关身份信息和/或个人资料，根据获取的身份信息基于预设算法计算该发言人的权重系数B。

发言人权重确定模块综合发言人对应的权重系数A与权重系数B确定该发言人最终的权重系数C。发言人权重确定模块也可仅利用发言人的权重系数A或者权重系数B作为该发言人的最终权重系数。发言人的权重系数越大表示其发言内容重要程度越大。

系统包括候选关键发言片段集合获取模块，用于根据发言人获取其对应的候选关键发言片段集合。

候选关键发言片段集合获取模块根据发言人的姓名在存储的音频/视频中检索，找到其对应的具体发言片段，利用预设的策略在发言片段中截取候选的关键发言片段。

其中，具有不同权重系数的发言人对应的截取候选关键发言片段的预设策略不同。权重系数越高，截取的音频/视频片段数量越多和/或长度越长；权重系数越低，截取的音频/视频片段数量越少和/或长度越短。

可选地，候选关键发言片段集合获取模块包括时间段截取模块，用于结合该发言人对应发言音频/视频片段的时间轴，截取其特定时间段的音频/视频片段作为候选的关键发言片段。权重系数越高，截取的特定时间段音频/视频片段数量越多和/或长度越长；权重系数越低，截取的特定时间段音频/视频片段数量越少和/或长度越短。

可选地，候选关键发言片段集合获取模块包括关键词截取模块，预先设置关键词库，对发言人对应发言音频/视频片段进行语音识别处理，使用预设的关键词库对识别出的语音信息进行匹配，匹配成功后截取识别出的关键词后预设时间段的音频/视频片段作为候选的关键发言片段。不同权重发言人对应的关键词库和/或截取的预设时间段长度不同。权重系数越高，对应的关键词库中关键词数量越多和/或截取的音频/视频片段长度越长；权重系数越低，对应的关键词库中关键词数量越少和/或截取的音频/视频片段长度越短。

上述时间段截取模块，关键词截取模块，二者可以单独存在，也可以综合两个模块来截取候选的关键发言片段，例如先采用时间段截取模块截取，再采用关键词截取模块截取，截取出候选关键发言片段集合。

系统包括音频/视频片段集合筛选模块，用于对获取的候选关键发言片段集合进行语音识别处理，筛选定位重点发言内容对应的音频/视频片段集合。

音频/视频片段集合筛选模块可结合会议主题确定重点发言内容，所述重点发言内容可以为与会议主题相关的一系列关键词。音频/视频片段集合筛选模块对候选关键发言片段集合获取模块404获取的候选关键发言片段进行语音识别处理，将其转化为文本数据，转化后的文本数据具有与音频/视频数据相对应的时间轴，能够根据文本数据中的内容定位到相应时间段的音频/视频数据。利用重点发言内容对应的关键词对转化后的文本数据进行筛选，最终确定重点发言内容对应的音频/视频片段集合。

系统包括语音摘要合成模块，用于对音频/视频片段集合筛选模块筛选出的音频/视频片段集合进行合成，形成语音摘要。

可选地，语音摘要合成模块包括发言人语音摘要合成模块，用于将音频/视频片段集合筛选模块筛选出的同一发言人的音频/视频片段集合按时间顺序排序，将排序后的音频/视频片段集合拼接为一段音频/视频，作为该发言人发言内容的语音摘要。

进一步地，语音摘要合成模块还包括会议语音摘要合成模块，用于生成整个会议的语音摘要。会议语音摘要合成模块可根据会议主题、会议议程等信息生成摘要的头部信息，并将上述信息生成头部信息语音文件。会议语音摘要合成模块再根据会议议程等信息生成摘要中承前启后的过渡信息，并将上述信息生成过渡信息语音文件。会议语音摘要合成模块将头部信息语音文件、过渡信息语音文件、拼接完成的不同发言人的语音摘要按对应关系合成到一起，形成会议的语音摘要。

根据上述方式，本发明能够识别不同发言者的关键发言内容，并自动合成语音形式的会议摘要。通过检测发言人的语音信息自动化的开启和停止音频/视频录制，有效减少了无效内容的录制，节约了存储资源，并且减少了录制时间的长度，方便用户后续查找定位所需内容。通过分析发言人在会议中的发言位置、身份信息、个人资料等信息，确定发言人的权重系数，从而根据权重系数来用不同的预设策略获取不同发言人对应的候选关键发言片段集合，能够针对重要发言提取更多的内容，针对不重要的发言提取相对较少的内容，使最终形成的摘要内容更加合理，为用户提供更有效的帮助。根据发言内容本身的特点，例如发言的重要内容出现在发言时间轴上的概率较大的位置，或者发言的重要内容所跟的关键转折词、连接词，来截取候选关键发言片段集合，再对截取的候选关键发言片段集合进行处理以获取形成语音摘要的音频/视频片段集合，能够大大提升提取出的内容的有效性，并且提取效率高，不会受到环境等其他因素的影响，进一步使最终形成的摘要内容更加合理。

附图说明

图1为本发明方法流程图。

图2为会议议程表的示意图。

图3为权重系数A示意图。

图4为本发明系统结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面结合附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本申请一实施例提供的会议的语音摘要形成方法的流程示意图。如图1所示，该方法包括：

101、在会议进行期间，采集会议音频/视频数据。

通常情况下，会议持续时间并不确定，可能进行很长时间，并非在整个会议过程均有发言者的语音数据需要记录，此时若在会议期间全程录制会造成资源浪费，也会进一步增加对象内容的查找难度。具体地，可由用户手动启动、暂停或停止音频/视频数据采集以录制需要的内容。此外，为了避免用户手动操作产生失误，可令录制用麦克风循环检测语音信息，当检测到发言人开始发言的语音信息时，触发录制开始命令，采集发言人的音频/视频数据，记录下发言开始时间。根据采集到的音频/视频数据的属性(例如语音强度大小)判断当前发言人的发言在继续还是已经停止，当采集到的音频/视频数据满足预设条件时，例如发言停止超过一定时间则认为该与会者发言结束，触发录制暂停或停止命令，记录下发言结束时间。录制用麦克风继续循环检测语音信息，检测到下一发言人开始发言的语音信息时，触发继续录制命令或者录制开始命令，录制下一位发言人的音频/视频数据。

102、对录制的音频/视频数据进行预处理后存储。

可选的，读取预先存储的会议议程表，会议议程表存储有会议议程，以及会议中各发言人的发言时间段。参见图2，9:00～9:10为开幕式，发言人李明对应的发言时间为9:10～9:30，发言人王伟对应的发言时间为9:30～9:50，阶段性总结发言时间为10:30～11:00，会议总结发言时间为16:30～17:00等，根据会议议程表获取当前时间对应的发言人，将发言人、发言开始时间、发言结束时间与采集的音频/视频数据关联处理，并存储于存储装置中。

或者，利用声纹识别技术识别当前发言的与会者。具体地，预先采集与会发言者的声音数据，识别与会发言者的声纹特征数据并将其与与会发言者姓名对应存储。根据当前采集的音频/视频数据识别其中的声纹特征数据，将识别出的声纹特征数据与预先采集存储的与会者声纹特征数据进行匹配，匹配成功后获取当前发言人的姓名，将发言人、发言开始时间、发言结束时间与采集的音频/视频数据关联处理，并存储于存储装置中。

103、确定不同发言人的权重系数。

发言人在会议中的发言位置通常能够反映其在会议中的地位与作用，例如大会的第一位发言人与最后一位发言人通常会占据较重的地位，或者大会开幕式、中场总结发言与终场总结发言也会在会议中占据重要的地位。因此，根据会议议程表存储的会议议程确定发言人的发言位置，根据发言人的发言位置对不同发言人赋予不同的权重系数A。参见附图3，发言人位置不同对应了不同权重系数A。

另外，发言人的身份信息和/或个人资料也能够反映该发言人在会议中占据的地位，例如发言人所属机构，发言人所取得的成就等。举例说明，对于高校研究人员，可获取其所属的高校或研究所，取得的职称 (研究员、副研究员，教授、副教授等)，发表的论文数量，论文发表期刊的级别、影响因子，承担的科研项目级别，获得的科研奖项等信息。对于公司企业人员，可获取其所属的公司、企业，在公司、企业中担任的职位，负责的项目等信息。具体地，可通过网络搜索发言人的相关身份信息和/或个人资料，根据获取的身份信息基于预设算法计算该发言人的权重系数B。

综合发言人对应的权重系数A与权重系数B确定该发言人最终的权重系数C。也可仅利用发言人的权重系数A或者权重系数B作为该发言人的最终权重系数。发言人的权重系数越大表示其发言内容重要程度越大。

上述为发言人确定权重系数的方式区别于传统单一的针对所有发言人提取发言内容相同的方式，能够根据权重系数来用不同的预设策略获取不同发言人对应的候选关键发言片段集合，针对重要发言提取更多的内容，针对不重要的发言提取相对较少的内容，使最终形成的摘要内容更加合理，为用户提供更有效的帮助。

104、根据发言人获取其对应的候选关键发言片段集合。

具体的，根据人们的发言习惯，一般一段发言的重要内容出现在0％～5％，10％～30％及80％～100％之间的概率较大，此时，结合该发言人对应发言音频/视频片段的时间轴，截取其特定时间段(例如0％～5％， 10％～30％及80％～100％)的音频/视频片段作为候选的关键发言片段。时间段的选择可以根据实际情况进行设置，不同权重系数发言人截取的音频/视频片段数量及长度不同。权重系数越高，截取的特定时间段音频/视频片段数量越多和/或长度越长；权重系数越低，截取的特定时间段音频/视频片段数量越少和/或长度越短。举例说明，发言人李明权重系数为0.9，发言人王伟权重系数为0.7，也即发言人李明权重系数大于王伟时，则(1)针对李明的发言片段截取时间段如下：0％～5％、10％～20％、50％～60％、80％～100％，针对王伟的发言片段截取时间段如下：0％～5％、10％～20％、80％～100％。或者(2)针对李明的发言片段截取时间段如下：0％～5％、10％～20％、50％～60％、80％～100％，针对王伟的发言片段截取时间段如下：0％～5％、 10％～15％、50％～60％、90％～100％。或者(3)针对李明的发言片段截取时间段如下：0％～5％、10％～20％、 50％～60％、80％～100％，针对王伟的发言片段截取时间段如下：0％～5％、10％～15％、90％～100％。

或者，一些关键转折词、连接词后通常会引出发言的重要内容，例如“首先、其次、然而、最重要的是、最后”，可预先设置关键词库，对发言人对应发言音频/视频片段进行语音识别处理，使用预设的关键词库对识别出的语音信息进行匹配，匹配成功后截取识别出的关键词后预设时间段的音频/视频片段作为候选的关键发言片段。例如在识别出发言人对应的发言音频/视频片段中包括预先设置的关键词“重要的是”时，截取该关键词后1分钟的音频/视频片段作为候选的关键发言片段。通过设置不同的关键词库可以控制匹配出的关键词数量，通常关键词库中包括的关键词数量越多，使用该关键词库去进行匹配时，识别出的关键词数量相应也会越多。其中预设时间段的长度也可根据实际情况进行调整。因此，不同权重发言人对应的关键词库和/或截取的预设时间段长度不同。权重系数越高，对应的关键词库中关键词数量越多和/或截取的音频/视频片段长度越长；权重系数越低，对应的关键词库中关键词数量越少和/或截取的音频/视频片段长度越短。举例说明，发言人李明权重系数为0.9，发言人王伟权重系数为0.7，也即发言人李明权重系数大于王伟时，关键词库A包括20个关键词，关键词库B包括10个关键词，则(1)使用预设的关键词库A对李明对应的发言音频/视频片段识别出的语音信息进行匹配，匹配成功后截取识别出的关键词后3分钟的音频/视频片段作为候选的关键发言片段；使用预设的关键词库B对李明对应的发言音频/视频片段识别出的语音信息进行匹配，匹配成功后截取识别出的关键词后3分钟的音频/视频片段作为候选的关键发言片段。或者(2)使用预设的关键词库A对李明对应的发言音频/视频片段识别出的语音信息进行匹配，匹配成功后截取识别出的关键词后3分钟的音频/视频片段作为候选的关键发言片段；使用预设的关键词库 A对李明对应的发言音频/视频片段识别出的语音信息进行匹配，匹配成功后截取识别出的关键词后1分钟的音频/视频片段作为候选的关键发言片段。或者(3)使用预设的关键词库A对李明对应的发言音频/视频片段识别出的语音信息进行匹配，匹配成功后截取识别出的关键词后3分钟的音频/视频片段作为候选的关键发言片段；使用预设的关键词库B对李明对应的发言音频/视频片段识别出的语音信息进行匹配，匹配成功后截取识别出的关键词后1分钟的音频/视频片段作为候选的关键发言片段。

上述截取候选的关键发言片段的方式能够根据发言内容本身的特点，例如发言的重要内容出现在发言时间轴上的概率较大的位置，或者发言的重要内容所跟的关键转折词、连接词，来截取候选关键发言片段集合，能够大大提升提取出的内容的有效性，并且提取效率高，不会受到环境等其他因素的影响，进一步使最终形成的摘要内容更加合理

105、对获取的候选关键发言片段集合进行语音识别处理，筛选定位重点发言内容对应的音频/视频片段集合。

具体地，结合会议主题可确定重点发言内容，所述重点发言内容可以为与会议主题相关的一系列关键词。对步骤104中获取的候选关键发言片段进行语音识别处理，将其转化为文本数据，转化后的文本数据具有与音频/视频数据相对应的时间轴，可以根据文本数据中的内容定位到相应时间段的音频/视频数据。利用重点发言内容对应的关键词对转化后的文本数据进行筛选，最终确定重点发言内容对应的音频/视频片段集合。

上述结合会议主题可确定重点发言内容进一步提升了提取出的内容的有效性。

将步骤105中筛选出的同一发言人的音频/视频片段集合按时间顺序排序，将排序后的音频/视频片段集合拼接为一段音频/视频，作为该发言人发言内容的语音摘要。进一步地，还可生成整个会议的语音摘要。可根据会议主题、会议议程等信息预先生成摘要的头部信息，例如：“2017年人工智能大会在上海举行，为期3天，与会人员包括：李明、王伟……”，并将上述信息生成头部信息语音文件。再根据会议议程等信息生成摘要中承前启后的过渡信息，例如：“在开幕式上张三对会议进行致辞”，“会议期间，李四、王伟、李明等进行了发言”，“其中王伟发言主要内容为”，“最后，王五对会议进行总结，具体内容为”，并将上述信息生成过渡信息语音文件。将头部信息语音文件、过渡信息语音文件、拼接完成的不同发言人的语音摘要按对应关系合成到一起，形成会议的语音摘要。例如，生成对应于下列文字的语音摘要文件：2017 年人工智能大会在上海举行，为期3天，与会人员包括：李明、王伟……，在开幕式上张三对会议进行致辞，具体内容为“张三致辞语音摘要”；会议期间，李四、王伟、李明等进行了发言，其中王伟发言主要内容为“王伟发言语音摘要”，最后，王五对会议进行总结，具体内容为“王五总结语音摘要”。

下面结合图4说明根据本发明实施例的会议的语音摘要形成系统的结构示意图。

系统400包括数据采集模块401，用于在会议进行期间，采集会议音频/视频数据。

系统400包括音频/视频数据预处理模块402，用于对录制的音频/视频数据进行预处理后存储。

数据采集模块401录制暂停后或者结束后由音频/视频数据预处理模块402记录下该发言人发言的开始时间和结束时间，并获取该发言人的姓名。

可选的，音频/视频数据预处理模块402包括会议议程处理模块4021，用于读取预先存储的会议议程表，会议议程表存储有会议议程，以及会议中各发言人的发言时间段。参见图2，9:00～9:10为开幕式，发言人李明对应的发言时间为9:10～9:30，发言人王伟对应的发言时间为9:30～9:50，阶段性总结发言时间为 10:30～11:00，大会总结发言时间为16:30～17:00等，根据会议议程表获取当前时间对应的发言人，将发言人、发言开始时间、发言结束时间与采集的音频/视频数据关联处理，并存储于存储装置中。

可选地，音频/视频数据预处理模块402包括声纹识别模块4022，用于利用声纹识别技术识别当前发言的与会者。具体地，预先采集与会发言者的声音数据，识别与会发言者的声纹特征数据并将其与与会发言者姓名对应存储。声纹识别模块4022根据当前采集的音频/视频数据识别其中的声纹特征数据，将识别出的声纹特征数据与预先采集存储的与会者声纹特征数据进行匹配，匹配成功后获取当前发言人的姓名，将发言人、发言开始时间、发言结束时间与采集的音频/视频数据关联处理，并存储于存储装置中。

系统400包括发言人权重确定模块403，用于确定不同发言人的权重系数。

发言人在会议中的发言位置通常能够反映其在会议中的地位与作用，例如大会的第一位发言人与最后一位发言人通常会占据较重的地位，或者大会开幕式、中场总结发言与终场总结发言也会在会议中占据重要的地位。可选地，发言人权重确定模块403根据会议议程表存储的会议议程确定发言人的发言位置，根据发言人的发言位置对不同发言人赋予不同的权重系数A。

另外，发言人的身份信息和/或个人资料也能够反映该发言人在会议中占据的地位，例如发言人所属机构，发言人所取得的成就等。举例说明，对于高校研究人员，可获取其所属的高校或研究所，取得的职称 (研究员、副研究员，教授、副教授等)，发表的论文数量，论文发表期刊的级别、影响因子，承担的科研项目级别，获得的科研奖项等信息。对于公司企业人员，可获取其所属的公司、企业，在公司、企业中担任的职位，负责的项目等信息。可选地，发言人权重确定模块403可通过网络搜索发言人的相关身份信息和/或个人资料，根据获取的身份信息基于预设算法计算该发言人的权重系数B。

发言人权重确定模块403综合发言人对应的权重系数A与权重系数B确定该发言人最终的权重系数 C。发言人权重确定模块403也可仅利用发言人的权重系数A或者权重系数B作为该发言人的最终权重系数。发言人的权重系数越大表示其发言内容重要程度越大。

系统400包括候选关键发言片段集合获取模块404，用于根据发言人获取其对应的候选关键发言片段集合。

候选关键发言片段集合获取模块404根据发言人的姓名在存储的音频/视频中检索，找到其对应的具体发言片段，利用预设的策略在发言片段中截取候选的关键发言片段。

根据人们的发言习惯，一般一段发言的重要内容出现在0％～5％，10％～30％及80％～100％之间的概率较大，可选地，候选关键发言片段集合获取模块404包括时间段截取模块4041，用于结合该发言人对应发言音频/视频片段的时间轴，截取其特定时间段(例如0％～5％，10％～30％及80％～100％)的音频/视频片段作为候选的关键发言片段。时间段的选择可以根据实际情况进行设置，不同权重系数发言人截取的音频/ 视频片段数量及长度不同。权重系数越高，截取的特定时间段音频/视频片段数量越多和/或长度越长；权重系数越低，截取的特定时间段音频/视频片段数量越少和/或长度越短。举例说明，发言人李明权重系数为0.9，发言人王伟权重系数为0.7，也即发言人李明权重系数大于王伟时，则(1)针对李明的发言片段截取时间段如下：0％～5％、10％～20％、50％～60％、80％～100％，针对王伟的发言片段截取时间段如下： 0％～5％、10％～20％、80％～100％。或者(2)针对李明的发言片段截取时间段如下：0％～5％、10％～20％、 50％～60％、80％～100％，针对王伟的发言片段截取时间段如下：0％～5％、10％～15％、50％～60％、90％～100％。或者(3)针对李明的发言片段截取时间段如下：0％～5％、10％～20％、50％～60％、80％～100％，针对王伟的发言片段截取时间段如下：0％～5％、10％～15％、90％～100％。

或者，一些关键转折词、连接词后通常会引出发言的重要内容，例如“首先、其次、然而、最重要的是、最后”，可选地，候选关键发言片段集合获取模块404包括关键词截取模块4042，预先设置关键词库，对发言人对应发言音频/视频片段进行语音识别处理，使用预设的关键词库对识别出的语音信息进行匹配，匹配成功后截取识别出的关键词后预设时间段的音频/视频片段作为候选的关键发言片段。例如在识别出发言人对应的发言音频/视频片段中包括预先设置的关键词“重要的是”时，关键词截取模块4042截取该关键词后1分钟的音频/视频片段作为候选的关键发言片段。通过设置不同的关键词库可以控制匹配出的关键词数量，通常关键词库中包括的关键词数量越多，使用该关键词库去进行匹配时，识别出的关键词数量相应也会越多。其中预设时间段的长度也可根据实际情况进行调整。因此，不同权重发言人对应的关键词库和/或截取的预设时间段长度不同。权重系数越高，对应的关键词库中关键词数量越多和/或截取的音频/视频片段长度越长；权重系数越低，对应的关键词库中关键词数量越少和/或截取的音频/视频片段长度越短。举例说明，发言人李明权重系数为0.9，发言人王伟权重系数为0.7，也即发言人李明权重系数大于王伟时，关键词库A包括20个关键词，关键词库B包括10个关键词，则(1)使用预设的关键词库A对李明对应的发言音频/视频片段识别出的语音信息进行匹配，匹配成功后截取识别出的关键词后3分钟的音频/视频片段作为候选的关键发言片段；使用预设的关键词库B对李明对应的发言音频/视频片段识别出的语音信息进行匹配，匹配成功后截取识别出的关键词后3分钟的音频/视频片段作为候选的关键发言片段。或者(2) 使用预设的关键词库A对李明对应的发言音频/视频片段识别出的语音信息进行匹配，匹配成功后截取识别出的关键词后3分钟的音频/视频片段作为候选的关键发言片段；使用预设的关键词库A对李明对应的发言音频/视频片段识别出的语音信息进行匹配，匹配成功后截取识别出的关键词后1分钟的音频/视频片段作为候选的关键发言片段。或者(3)使用预设的关键词库A对李明对应的发言音频/视频片段识别出的语音信息进行匹配，匹配成功后截取识别出的关键词后3分钟的音频/视频片段作为候选的关键发言片段；使用预设的关键词库B对李明对应的发言音频/视频片段识别出的语音信息进行匹配，匹配成功后截取识别出的关键词后1分钟的音频/视频片段作为候选的关键发言片段。

上述时间段截取模块4041，关键词截取模块4042，二者可以单独存在，也可以综合两个模块来截取候选的关键发言片段，例如先采用时间段截取模块4041截取，再采用关键词截取模块4042截取，截取出候选关键发言片段集合。

系统400包括音频/视频片段集合筛选模块405，用于对获取的候选关键发言片段集合进行语音识别处理，筛选定位重点发言内容对应的音频/视频片段集合。

音频/视频片段集合筛选模块405可结合会议主题确定重点发言内容，所述重点发言内容可以为与会议主题相关的一系列关键词。音频/视频片段集合筛选模块405对候选关键发言片段集合获取模块404获取的候选关键发言片段进行语音识别处理，将其转化为文本数据，转化后的文本数据具有与音频/视频数据相对应的时间轴，能够根据文本数据中的内容定位到相应时间段的音频/视频数据。利用重点发言内容对应的关键词对转化后的文本数据进行筛选，最终确定重点发言内容对应的音频/视频片段集合。

系统400包括语音摘要合成模块406，用于对音频/视频片段集合筛选模块405筛选出的音频/视频片段集合进行合成，形成语音摘要。

可选地，语音摘要合成模块406包括发言人语音摘要合成模块4061，用于将音频/视频片段集合筛选模块405筛选出的同一发言人的音频/视频片段集合按时间顺序排序，将排序后的音频/视频片段集合拼接为一段音频/视频，作为该发言人发言内容的语音摘要。进一步地，语音摘要合成模块406还包括会议语音摘要合成模块4062，用于生成整个会议的语音摘要。会议语音摘要合成模块4062可根据会议主题、会议议程等信息生成摘要的头部信息，例如：“2017年人工智能大会在上海举行，为期3天，与会人员包括：李明、王伟……”，并将上述信息生成头部信息语音文件。会议语音摘要合成模块4062再根据会议议程等信息生成摘要中承前启后的过渡信息，例如：“在开幕式上张三对会议进行致辞”，“会议期间，李四、王伟、李明等进行了发言”，“其中王伟发言主要内容为”，“最后，王五对会议进行总结，具体内容为”，并将上述信息生成过渡信息语音文件。会议语音摘要合成模块4062将头部信息语音文件、过渡信息语音文件、拼接完成的不同发言人的语音摘要按对应关系合成到一起，形成会议的语音摘要。例如，生成对应于下列文字的语音摘要文件：2017年人工智能大会在上海举行，为期3天，与会人员包括：李明、王伟……，在开幕式上张三对会议进行致辞，具体内容为“张三致辞语音摘要”；会议期间，李四、王伟、李明等进行了发言，其中王伟发言主要内容为“王伟发言语音摘要”，最后，王五对会议进行总结，具体内容为“王五总结语音摘要”。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括： U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种会议的语音摘要形成方法，其特征在于包括如下步骤：

步骤101、在会议进行期间，采集会议音频/视频数据；

步骤102、对录制的音频/视频数据进行预处理后存储，其中，记录下发言人发言的开始时间和结束时间，并获取该发言人的姓名，将发言人、发言开始时间、发言结束时间与采集的音频/视频数据关联处理，并存储于存储装置中；

步骤103、确定不同发言人的权重系数；

步骤104、根据发言人获取其对应的候选关键发言片段集合，其中，根据发言人的姓名在存储的音频/视频中检索，找到其对应的具体发言片段，利用预设的策略在发言片段中截取候选的关键发言片段，具有不同权重系数的发言人对应的截取候选关键发言片段的预设策略不同；

步骤105、对获取的候选关键发言片段集合进行语音识别处理，筛选定位重点发言内容对应的音频/视频片段集合；

步骤 106、对步骤105中筛选出的音频/视频片段集合进行合成，形成语音摘要；

其中，步骤103在步骤101或者步骤102之前或之后进行。

2.根据权利要求1所述的会议的语音摘要形成方法，其特征在于：步骤101进一步包括，

由用户手动启动和停止音频/视频数据采集以录制需要的内容；

或者，令录制用麦克风循环检测语音信息，当检测到发言人开始发言的语音信息时，触发录制开始命令，采集发言人的音频/视频数据，记录下发言开始时间，根据采集到的音频/视频数据的属性判断当前发言人的发言在继续还是已经停止，当采集到的音频/视频数据满足预设条件时，触发录制暂停或停止命令，记录下发言结束时间，录制用麦克风继续循环检测语音信息，检测到下一发言人开始发言的语音信息时，触发继续录制命令或者录制开始命令，录制下一位发言人的音频/视频数据。

3.根据权利要求1或2所述的会议的语音摘要形成方法，其特征在于：步骤102进一步包括，

读取预先存储的会议议程表，会议议程表存储有会议议程，以及会议中各发言人的发言时间段，根据会议议程表获取当前时间对应的发言人，将发言人、发言开始时间、发言结束时间与采集的音频/视频数据关联处理，并存储于存储装置中。

4.根据权利要求1或2所述的会议的语音摘要形成方法，其特征在于：步骤102进一步包括，

根据当前采集的音频/视频数据识别其中的声纹特征数据，将识别出的声纹特征数据与预先采集存储的与会者声纹特征数据进行匹配，匹配成功后获取当前发言人的姓名，将发言人、发言开始时间、发言结束时间与采集的音频/视频数据关联处理，并存储于存储装置中。

5.根据权利要求1所述的会议的语音摘要形成方法，其特征在于：步骤103进一步包括，

根据会议议程表存储的会议议程确定发言人的发言位置，根据发言人的发言位置对不同发言人赋予不同的权重系数A；

和/或

通过网络搜索发言人的相关身份信息和/或个人资料，根据获取的身份信息和/或个人资料基于预设算法计算该发言人的权重系数B。

6.根据权利要求1所述的会议的语音摘要形成方法，其特征在于：步骤104进一步包括，

结合该发言人对应发言音频/视频片段的时间轴，截取其特定时间段的音频/视频片段作为候选的关键发言片段，权重系数越高，截取的特定时间段音频/视频片段数量越多和/或长度越长；权重系数越低，截取的特定时间段音频/视频片段数量越少和/或长度越短。

7.根据权利要求1所述的会议的语音摘要形成方法，其特征在于：步骤104进一步包括，

预先设置关键词库，对发言人对应发言音频/视频片段进行语音识别处理，使用预设的关键词库对识别出的语音信息进行匹配，匹配成功后截取识别出的关键词后预设时间段的音频/视频片段作为候选的关键发言片段，不同权重发言人对应的关键词库和/或截取的预设时间段长度不同，权重系数越高，对应的关键词库中关键词数量越多和/或截取的音频/视频片段长度越长，权重系数越低，对应的关键词库中关键词数量越少和/或截取的音频/视频片段长度越短。

8.根据权利要求1所述的会议的语音摘要形成方法，其特征在于：步骤105进一步包括，

结合会议主题确定重点发言内容，对步骤104中获取的候选关键发言片段进行语音识别处理，将其转化为文本数据，转化后的文本数据具有与音频/视频数据相对应的时间轴，根据文本数据中的内容能够定位到相应时间段的音频/视频数据，利用重点发言内容对应的关键词对转化后的文本数据进行筛选，最终确定重点发言内容对应的音频/视频片段集合。

9.根据权利要求1所述的会议的语音摘要形成方法，其特征在于：步骤106进一步包括，

将步骤105中筛选出的同一发言人的音频/视频片段集合按时间顺序排序，将排序后的音频/视频片段集合拼接为一段音频/视频，作为该发言人发言内容的语音摘要。

10.根据权利要求9所述的会议的语音摘要形成方法，其特征在于：步骤106进一步包括，

根据会议主题、会议议程信息预先生成摘要的头部信息，并将上述头部信息生成头部信息语音文件，再根据会议议程信息生成摘要中承前启后的过渡信息，并将上述过渡信息生成过渡信息语音文件，将头部信息语音文件、过渡信息语音文件、拼接完成的不同发言人的语音摘要按对应关系合成到一起，形成会议的语音摘要。

11.一种会议的语音摘要形成系统，其特征在于，包括：

数据采集模块，用于在会议进行期间，采集会议音频/视频数据；

音频/视频数据预处理模块，用于对录制的音频/视频数据进行预处理后存储，其中，记录下发言人发言的开始时间和结束时间，并获取该发言人的姓名，将发言人、发言开始时间、发言结束时间与采集的音频/视频数据关联处理，并存储于存储装置中；

发言人权重确定模块，用于确定不同发言人的权重系数；

候选关键发言片段集合获取模块，用于根据发言人获取其对应的候选关键发言片段集合，其中，候选关键发言片段集合获取模块根据发言人的姓名在存储的音频/视频中检索，找到其对应的具体发言片段，利用预设的策略在发言片段中截取候选的关键发言片段，具有不同权重系数的发言人对应的截取候选关键发言片段的预设策略不同；

音频/视频片段集合筛选模块，用于对获取的候选关键发言片段集合进行语音识别处理，筛选定位重点发言内容对应的音频/视频片段集合；

语音摘要合成模块，用于对音频/视频片段集合筛选模块筛选出的音频/视频片段集合进行合成，形成语音摘要。

12.根据权利要求11所述的会议的语音摘要形成系统，其特征在于：

所述数据采集模块进一步用于：

13.根据权利要求11或12所述的会议的语音摘要形成系统，其特征在于：

所述音频/视频数据预处理模块进一步包括会议议程处理模块，用于读取预先存储的会议议程表，会议议程表存储有会议议程，以及会议中各发言人的发言时间段。根据会议议程表获取当前时间对应的发言人，将发言人、发言开始时间、发言结束时间与采集的音频/视频数据关联处理，并存储于存储装置中。

14.根据权利要求11或12所述的会议的语音摘要形成系统，其特征在于：

所述音频/视频数据预处理模块进一步包括声纹识别模块，预先采集与会发言者的声音数据，识别与会发言者的声纹特征数据并将其与与会发言者姓名对应存储，声纹识别模块根据当前采集的音频/视频数据识别其中的声纹特征数据，将识别出的声纹特征数据与预先采集存储的与会者声纹特征数据进行匹配，匹配成功后获取当前发言人的姓名，将发言人、发言开始时间、发言结束时间与采集的音频/视频数据关联处理，并存储于存储装置中。

15.根据权利要求11所述的会议的语音摘要形成系统，其特征在于：

发言人权重确定模块进一步用于：

和/或

通过网络搜索发言人的相关身份信息和/或个人资料，根据获取的身份信息基于预设算法计算该发言人的权重系数B。

16.根据权利要求11所述的会议的语音摘要形成系统，其特征在于：

候选关键发言片段集合获取模块进一步包括时间段截取模块，用于结合该发言人对应发言音频/视频片段的时间轴，截取其特定时间段的音频/视频片段作为候选的关键发言片段，权重系数越高，截取的特定时间段音频/视频片段数量越多和/或长度越长；权重系数越低，截取的特定时间段音频/视频片段数量越少和/或长度越短。

17.根据权利要求11所述的会议的语音摘要形成系统，其特征在于：

候选关键发言片段集合获取模块进一步包括关键词截取模块，预先设置关键词库，对发言人对应发言音频/视频片段进行语音识别处理，使用预设的关键词库对识别出的语音信息进行匹配，匹配成功后截取识别出的关键词后预设时间段的音频/视频片段作为候选的关键发言片段，不同权重发言人对应的关键词库和/或截取的预设时间段长度不同，权重系数越高，对应的关键词库中关键词数量越多和/或截取的音频/视频片段长度越长，权重系数越低，对应的关键词库中关键词数量越少和/或截取的音频/视频片段长度越短。

18.根据权利要求11所述的会议的语音摘要形成系统，其特征在于：

音频/视频片段集合筛选模块进一步用于，结合会议主题确定重点发言内容，对候选关键发言片段集合获取模块获取的候选关键发言片段进行语音识别处理，将其转化为文本数据，转化后的文本数据具有与音频/视频数据相对应的时间轴，能够根据文本数据中的内容定位到相应时间段的音频/视频数据，利用重点发言内容对应的关键词对转化后的文本数据进行筛选，最终确定重点发言内容对应的音频/视频片段集合。

19.根据权利要求11所述的会议的语音摘要形成系统，其特征在于：

语音摘要合成模块进一步包括发言人语音摘要合成模块，用于将音频/视频片段集合筛选模块筛选出的同一发言人的音频/视频片段集合按时间顺序排序，将排序后的音频/视频片段集合拼接为一段音频/视频，作为该发言人发言内容的语音摘要。

20.根据权利要求19所述的会议的语音摘要形成系统，其特征在于：

语音摘要合成模块进一步包括会议语音摘要合成模块，用于生成整个会议的语音摘要，会议语音摘要合成模块可根据会议主题、会议议程信息生成摘要的头部信息，并将上述头部信息生成头部信息语音文件，会议语音摘要合成模块再根据会议议程信息生成摘要中承前启后的过渡信息，并将上述过渡信息生成过渡信息语音文件，会议语音摘要合成模块将头部信息语音文件、过渡信息语音文件、拼接完成的不同发言人的语音摘要按对应关系合成到一起，形成会议的语音摘要。