CN113779234A

CN113779234A - 会议发言人的讲话纪要生成方法、装置、设备及介质

Info

Publication number: CN113779234A
Application number: CN202111059311.1A
Authority: CN
Inventors: 张榕佐
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2021-09-09
Filing date: 2021-09-09
Publication date: 2021-12-10
Anticipated expiration: 2041-09-09

Abstract

本公开提供一种会议发言人的讲话纪要生成方法、装置、设备及存储介质，方法包括：获取目标区域内的与时间相关联的声音信息和图像信息；对所述声音信息进行语音识别以生成对应的文本信息，所述文本信息包括对应于第一时间段的第一文本数据段；基于所述第一时间段内的所述图像信息进行体态识别，得到所述第一时间段内的听众的体态类型；基于所述体态类型确定所述第一文本数据段为所述讲话纪要。根据本公开，可以准确识别出会议中的重点内容，并据此生成会议总结，提高用户的工作效率。

Description

会议发言人的讲话纪要生成方法、装置、设备及介质

技术领域

本公开涉及数据处理技术领域，尤其涉及一种会议发言人的讲话纪要生成方法、装置、设备及存储介质。

背景技术

目前的智能会议技术能够通过语音识别技术将会议过程中的语音转换为文本，直接生成会议记录。然而，这仅仅只是对所有语音的无差别文本转换，无法区分会议中哪些属于受到大家关注的重点内容或关键内容。此时，当参加过会议的人在回顾会议的内容，或者未参加会议的人想了解会议的内容，只能对整篇会议记录完整地阅读一遍，而无法直接关注到会议中发言人所提及的重点内容或关键内容，给用户带来不便，降低了用户的工作效率。

发明内容

有鉴于此，本公开的目的在于提出一种会议发言人的讲话纪要生成方法、装置、设备及存储介质。

基于上述目的，本公开第一方面，提供了一种会议发言人的讲话纪要生成方法，包括：

获取目标区域内的与时间相关联的声音信息和图像信息；

对所述声音信息进行语音识别以生成对应的文本信息，所述文本信息包括对应于第一时间段的第一文本数据段；

基于所述第一时间段内的所述图像信息进行体态识别，得到所述第一时间段内的听众的第一体态特征；

基于所述第一体态特征确定所述第一文本数据段为所述讲话纪要。

本公开第二方面，提供了一种会议发言人的讲话纪要生成装置，包括：

获取模块，用于获取目标区域内的与时间相关联的声音信息和图像信息；

文本转换模块，用于对所述声音信息进行语音识别以生成对应的文本信息，所述文本信息包括对应于第一时间段的第一文本数据段；

体态识别模块，用于基于所述第一时间段内的所述图像信息进行体态识别，得到所述第一时间段内的听众的第一体态特征；

讲话纪要模块，用于基于所述第一体态特征确定所述第一文本数据段为所述讲话纪要。

本公开第三方面，提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所述的方法。

本公开第四方面，提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使计算机执行第一方面所述方法。

从上面所述可以看出，本公开提供的会议发言人的讲话纪要生成方法、装置、设备及存储介质，通过采集会议室内目标区域中的声音信息和图像信息，将该声音信息转换为包括多个文本数据段的文本信息，并基于图像信息所识别听众的体态变化来确定发言人的讲话纪要，能够更准确地确定出会议中发言人提及的重要内容，提高用户的工作效率。

附图说明

为了更清楚地说明本公开或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为根据本公开实施例的智能会议系统的示意性框图；

图2为根据本公开实施例的会议发言人的讲话纪要生成方法的示意性流程图；

图3为根据本公开实施例的文本信息显示的示意性示例图；

图4为根据本公开实施例的讲话纪要显示的示意性示例图；

图5为根据本公开实施例的讲话纪要显示的又一示意性示例图；

图6为根据本公开实施例的会议纪要的示意性示例图；

图7为根据本公开实施例的会议发言人的讲话纪要生成装置的示意性框图；

图8为根据本公开实施例的电子设备的示意性框图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

需要说明的是，除非另外定义，本公开实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。

目前的智能会议系统能够通过语音识别技术将会议过程中的语音转换为文本，直接生成会议记录。然而，这仅仅只是对所有语音的无差别文本转换，无法区分会议中哪些属于受到大家关注的重点内容或关键内容，例如参会人员都很关注的问题，会议后的工作安排、分工等。此时，当参加过会议的人在回顾会议的内容，或者未参加会议的人想了解会议的内容，只能对整篇会议记录完整地阅读一遍，而无法直接关注到发言人提及的重点内容或关键内容，给用户带来不便，降低了用户的工作效率。同时，由于无法确定会议中的重点内容，目前的智能会议技术只能将语音内容转换为文字，而无法直接生成合理且准确的总结性内容，还需要用户付出时间和精力去写会议摘要或会议总结。如何自动识别会议中的重点内容，以及在会议记录中体现重点内容成为了本公开亟需解决的技术问题。

本公开发现在实际的会议过程中，参会人员的反应与会议的具体内容关联性很大，针对不同的内容，参会人员所作出的反应不同，一般发言人讲到大家需要关注的内容时，或者听众听到自己要关注的内容时，各自的反应会区别于其他内容，这部分受到参会人员关注的内容可以是该会议中的重点内容。如此，可以通过参会人员的反应来判断会议内容是否被大多数人所关注，从而识别出会议中的讲话纪要。

基于上述考虑，本公开提出了一种智能会议系统以及会议发言人的讲话纪要生成方法、装置、设备、介质，基于听众的反应来自动识别会议中的讲话纪要，并在会议记录中体现该讲话纪要。

参见图1，图1中示出了根据本公开实施例的智能会议系统的示意性框图。如图1所示，智能会议系统100包括：

声音采集装置110，用于采集目标区域内的声音信号；

处理装置120，与所述声音采集装置110进行通信，用于对所述声音信号进行语音识别，得到所述声音信号对应的文本。

其中，目标区域可以指会议室内的至少部分区域，例如可以将以会议桌为中心，预设距离为半径的区域作为目标区域，也可以将整个会议室作为目标区域。目标区域内的声音信号可以包括在该目标区域中的任何声音，例如参会人员发言的声音、讨论的声音、翻阅纸张的声音等等。

在一些实施例中，声音采集装置110可以包括麦克风。进一步地，声音采集装置110可以包括全向麦克风阵列。其中，声音采集装置的数量可以根据需要设置为一个或更多个，每个声音采集装置的位置可以设置于便于收集声音的位置，可以是靠近参会人员的位置，例如参会人员的面前，或会议桌的中央位置。

在一些实施例中，处理装置120可以包括处理器。在一些实施例中，处理装置120可以与声音采集装置110连接，通过有线方式实现数据通信。在一些实施例中，处理装置120可以不与声音采集装置110连接，通过无线方式实现数据通信。应了解，处理装置120可以根据需要设置于会议室的任意位置。

在一些实施例中，智能会议系统100还可以包括：

图像采集装置130，与所述处理装置120进行通信，用于采集所述目标区域的图像信息。

在一些实施例中，图像采集装置130可以包括摄像头。其中，图像采集装置130可以设置于会议室中便于采集到更大范围的图像信息的位置，例如能够采集到所有参会人员图像信息的位置。

在一些实施例中，智能会议系统100还可以包括：

显示装置140，与所述处理装置120进行通信，用于显示参会人员需要展示的内容。

在一些实施例中，显示装置140可以包括显示屏。进一步地，显示屏可以包括触摸显示屏。

需要说明的是，声音采集装置110、处理装置120、图像采集装置130和显示装置140中的至少两个可以集成在一个设备中，例如图像采集装置130可以设置于显示装置140中；也可以分别独立设置，在此不做限制。

根据本公开实施例，智能会议系统100可以执行根据本公开实施例提供的会议发言人的讲话纪要生成方法中的至少部分步骤，通过对会议室的声音信息和图像信息进行采集，并进行分析处理，生成标记讲话纪要的文本形式的会议记录，便于用户快速了解或回顾会议中的内容。

如图1所示，在一些实施例中，智能会议系统100可以通过声音采集装置110采集会议室内的声音信息，以及通过图像采集装置130采集会议室的图像信息；声音采集装置110将声音信息传输至处理装置120，图像采集装置130将图像信息传输至处理装置120，处理装置120可以在本地对声音信息和图像信息进行处理，基于声音信息进行语音识别生成对应的文本信息，以及基于图像信息进行体态识别(可以包括例如动作识别、表情识别等)得到参会人员的体态信息，并在本地基于体态信息和声音信息确定出该文本信息中的讲话纪要，将该讲话纪要在文本信息中进行标记，输出标记讲话纪要的文本信息。

如图1所示，在一些实施例中，智能会议系统100可以通过声音采集装置110采集会议室内的声音信息，以及通过图像采集装置130采集会议室的图像信息；智能会议系统100获取上述声音信息和/或图像信息后，发送至服务器150(云端或远端)，经由服务器150对该声音信息和图像信息进行处理，基于声音信息进行语音识别生成对应的文本信息，和/或，基于图像信息进行体态识别得到参会人员的体态信息。可以是继续经由服务器150基于体态信息识别出该文本信息中的讲话纪要，将该讲话纪要在文本信息中进行标记，再将标记过讲话纪要的文本信息发送至智能会议系统100，经由智能会议系统100输出该标记讲话纪要的文本信息；还可以是服务器150将识别的文本信息和/或体态信息发送至智能会议系统100，智能会议系统100在本地基于体态信息识别出该文本信息中的讲话纪要，将该讲话纪要在文本信息中进行标记，最后输出标记讲话纪要的文本信息。

参见图2，图2示出了根据本公开实施例的会议发言人的讲话纪要生成方法的示意性流程图。如图2所示，会议发言人的讲话纪要生成方法200包括：

步骤S210，获取目标区域内的与时间相关联的声音信息和图像信息；

步骤S220，对所述声音信息进行语音识别以生成对应的文本信息，所述文本信息包括对应于第一时间段的第一文本数据段；

步骤S230，基于所述第一时间段内的所述图像信息进行体态识别，得到所述第一时间段内的听众的体态类型；

步骤S240，基于所述体态类型确定所述第一文本数据段为所述讲话纪要。

其中，讲话纪要可以指参会人员认为发言内容中的重要内容或关键内容。通过采集会议室内目标区域中的声音信息和图像信息，将该声音信息转换为文本信息，并基于图像信息所识别出听众的体态特征，从听众的角度能够更准确地确定出会议中的重要内容。相比于传统方法中仅能将语音转换为文字，根据本公开实施例的方法可以准确识别出会议中的讲话纪要，提高用户的工作效率。还有利于在文本信息的基础上，直接生成更准确的会议摘要或总结，减少了用户的工作时间，进一步提高工作效率。

需要说明的是，发言人和听众是相对而言的，并不是特指某一个人。例如，参会人员可以包括A、B、C、D、E，当A发言时，A是发言人，B、C、D、E是听众；B是发言人时，A、C、D、E是听众。

根据本公开实施例，在步骤S210中，获取目标区域内的与时间相关联的声音信息和图像信息。

在一些实施例中，声音信息和图像信息可以是实时信息。例如，如图1中所示，会议开始时，可以从图像采集装置130处获取会议的实时图像信息，可以从声音采集装置120处获取会议的实时声音信息。

在一些实施例中，声音信息和图像信息可以是非实时信息。该非实时信息可以是从其他数据源获取的声音信息和图像信息，例如，某一会议R的会议只是记录了会议当时的视频信息，那么可以将该视频信息发送(可以是通过拷贝该视频信息的方式，也可以是通过网络发送该视频信息)至已经部署本公开实施例的会议发言人的讲话纪要生成方法的设备，也可以确定出该会议R中发言人的讲话纪要，生成相应的文本信息，并在文本信息中突出显示讲话纪要，以及生成会议R的总结性内容。

根据本公开实施例，在步骤S220中，对所述声音信息进行语音识别以生成对应的文本信息，所述文本信息包括对应于第一时间段的第一文本数据段。

在一些实施例中，所述文本信息可以包括多个文本数据段，且每个所述文本数据段具有对应的时间段。

在一些实施例中，文本数据段可以根据发言内容的停顿进行划分。例如，可以基于声音信息中的停顿信息来将整个文本信息划分为多个文本数据段。进一步地，在一些实施例中，文本数据段可以关联地显示其发言人。

其中，根据发言人的声纹特征可以识别不同发言人的发言，可以据此将多个文本数据段按照发言人进行聚类，并对应地显示其发言人。例如，如图3所示，文本数据段可以将根据不同的发言人来分为：在时间T0，发言人B进行的发言内容为Text0；在时间T1，发言人A进行的发言内容为Text1；在时间T2，发言人E进行的发言内容为Text2；在时间T3，发言人E进行的发言内容为Text3和在时间T4，发言人B进行的发言内容为Text4等等。

在实际应用中，可以建立声纹数据库，当声纹数据库已经存储有参加会议的人员的声纹特征时，那么可以直接采用发言人的实际姓名或ID生成会议记录，这样，后期也无需用户对会议记录中的发言人信息进行更新，进一步减少用户的工作量，提高工作效率，提升用户体验。例如，可以将图3中A替换为该发言人的真实姓名。当声纹数据库并未存储参加会议的人员的声纹特征时，可以如图3中所示，采用不同的标记区分发言人的身份。

根据本公开实施例，在步骤S230中，基于所述第一时间段内的所述图像信息进行体态识别，得到所述第一时间段内的听众的体态类型。

其中，听众在听到自己认为重要的内容时，大都会采用比较一致的体态，如看屏幕或发言人等。此时，当听众表现出一致的体态类型(例如注视屏幕等)时，可以指示此时的内容为重点内容。应了解，体态识别可以基于训练好的体态识别模型对图像信息进行处理得到，训练好的体态识别模型可以采用标注体态类型的训练数据对神经网络进行训练得到，将待识别的图像输入该训练好的体态识别模型即可输出该待识别的图像的体态类型。

根据本公开实施例，在步骤S240中，基于所述体态类型确定所述第一文本数据段为所述讲话纪要。

在一些实施例中，基于所述体态类型确定所述第一文本数据段为所述讲话纪要，包括：

响应于所述体态特征符合预设体态条件，确定所述第一文本数据段为所述讲话纪要。

在一些实施例中，预设体态条件可以包括听众中达到第一数量的人员的体态类型为预设体态类型。在一些实施例中，预设体态类型包括：抬头、注视屏幕、写字、翻阅材料等等，预设体态类型还可以根据需要进行设置更多类型。

响应于听众的所述体态特征符合预设体态条件，将所述第一文本数据段的评分加上第一分值；基于所述第一文本数据段的评分确定所述第一文本数据段为所述讲话纪要。

在一些实施例中，第一分值可以大于0。在一些实施例中，第一分值可以是预设的值。

在实际应用中，在发言人讲述到重点内容时，可以根据该发言人或听众的可能的行为，设置不同的维度对文本信息中的每个文本数据段进行评分，最后根据每个文本数据段的评分来确定其中的讲话纪要，从而提高所确定的讲话纪要的准确性。

在一些实施例中，每个文本数据段的评分具有初始值。在一些实施例中，每个文本数据段的评分的初始值可以相同。

根据本公开实施例，方法200还包括：

所述文本信息还包括对应于第二时间段的第二文本数据段，所述第二时间段为早于所述第一时间段的相邻时间段；

基于所述第二时间段内的所述图像信息进行体态识别，得到所述第二时间段内的所述听众的第二体态特征；以及基于所述第一时间段内的所述图像信息进行体态识别，得到所述第一时间段内的所述听众的第一体态特征；

比较所述第二体态特征和所述第一体态特征，得到所述第二时间段到所述第一时间段的所述听众的体态变化；

基于所述体态变化确定所述第一文本数据段为讲话纪要。

在一些实施例中，基于所述体态变化确定所述第一文本数据段为讲话纪要，包括：

响应于所述体态变化符合预设变化特征，确定所述第一文本数据段为所述讲话纪要。

在一些实施例中，预设变化特征可以包括听众中达到第二数量的人员的体态变化为预设体态变化。在一些实施例中，预设体态变化包括：抬头、面向发言人等等，预设体态变化还可以根据需要进行设置更多类型。

其中，第二人数可以是听众人数的一半以上，也可以根据需要进行设置。具体来说，听众一般是坐姿，因个人差异(例如疲劳程度)，听众会在会议中调整自己的姿态，比如朝向方向的轻微改变，前倾与后仰的转换，低头与抬头，由于个人间的差异，体态的调整不会出现一致性，例如参会人员一般不会同时由抬头变为低头，但是，发言人讲到重点时，往往会调动参会人员的体态出现同时的改变，比如，无论听众之前的体态如何，在听到讲话纪要时可能会一起抬头，所有人轻微改变朝向角度面向发言人，也就是说，短时间内，多数听众出现体态的改变，可以将此体态变化时间后的演讲内容作为讲话纪要。

在一些实施例中，基于所述体态变化确定所述第一文本数据段为讲话纪要，包括：响应于所述体态变化符合预设变化特征，确定所述第一文本数据段为所述讲话纪要。

在一些实施例中，方法200还包括：

基于所述第一时间段内的所述声音信息进行第一预设声音识别，判断所述第一时间段内是否包括第一预设声音；

则响应于所述体态变化符合预设变化特征，确定所述第一文本数据段为所述讲话纪要，进一步包括：

响应于所述体态变化符合预设变化特征且所述第一时间段内不包括所述第一预设声音，确定所述第一文本数据段为讲话纪要。

响应于所述体态变化符合预设变化特征，将所述第一文本数据段的评分加上第二分值，所述第二分值大于0；

基于所述第一文本数据段的评分确定所述第一文本数据段为所述讲话纪要。

其中，在实际应用中，听众的体态变化还有可能是一些诸如物品掉落等干扰因素造成，此时体态变化并不是由于听到会议中的重要内容，如果将任何原因引起的体态变化均考虑为是讲话纪要，则容易出错。根据本公开实施例的方法，基于第一预设声音可以排除参会人员由于其他干扰因素引起的体态变化，该采用将体态变化和声音特征相结合的方式，能够排除干扰，提高讲话纪要的准确度。

在一些实施例中，第一预设声音可以包括如下至少一种：物品掉落声、人员进出会议室、包含动作指示性的发言内容。

其中，包含动作指示性的发言内容可以指通过发言指示听众可以执行某一动作的发言内容。当会议中出现物品掉落、人员进出会议室等情况引起听众的注意力转移时，以及发言人讲述诸如“图示是我们去年的业绩统计”、“请看屏幕”等包含动作指示性的发言内容时，可以将体态变化和声音特征结合起来进行判断，以排除干扰事件，提高所确定的讲话纪要的准确度。

在一些实施例中，基于所述第一文本数据段的评分确定所述第一文本数据段为所述讲话纪要，进一步包括：

响应于所述第一时间段内包括所述第一预设声音，将所述第一文本数据段的评分加上第三分值，所述第三分值小于0；其中，所述第一预设声音能够引起所述体态变化；

基于所述第一文本数据段的当前评分确定所述第一文本数据段为所述讲话纪要。

其中，还有可以基于体态变化和第一预设声音对第一文本数据段进行评分，如果第一时间段内同种的体态变化符合预设变化特征，且第一时间段内包括第一预设声音，则说明此时的体态变化有可能是第一预设声音所引起，此时对应的文本数据段不是重要内容。则可以采用小于0的第三分值来将之前判断体态变化的第二分值抵消，以排除非讲话纪要引起的体态变化，提高判断讲话纪要的准确性。

在一些实施例中，所述第一文本数据段的当前评分可以包括初始值、第二分值和第三分值之和。

基于所述第一时间段内的所述声音信息进行噪声识别，得到所述第一时间段内的第一噪声音量；以及基于所述第二时间段内的所述声音信息进行噪声识别，得到所述第二时间段内的第二噪声音量；

比较所述第二噪声音量和所述第一噪声音量，得到所述第二时间段到所述第一时间段的噪声音量变化；

则基于所述第一文本数据段的评分确定所述第一文本数据段为所述讲话纪要，进一步包括：

响应于所述噪声音量变化增加，将所述第一文本数据段的评分加上第四分值；

其中，一般而言，会议室中噪声处于一个均值，一般包括机器排风、电气设备噪声和参会人员的呼吸与小动作，这部分噪声一般波动较小。当发言人讲述重点问题时，听众记录时的写字声和翻阅纸张材料的声音都会明显提高，这类噪声将可能使得噪声音量明显增加，因此可以将噪声增加后的文本数据段作为讲话纪要。

在一些实施例中，方法200还包括：

基于所述第一时间段内的所述声音信息进行发言音量识别，得到所述第一时间段内的发言音量；以及基于所述第二时间段内的所述声音信息进行发言音量识别，得到所述第二时间段内的发言音量；

比较所述第二发言音量和所述第一发言音量，得到所述第二时间段到所述第一时间段的发言音量变化；

响应于所述发言音量变化增加，将所述第一文本数据段的评分加上第五分值；

其中，发言人的发言内容具有一定的逻辑，而发言人往往明白自己讲话的重点，根据行为学相关研究，重点总结前后往往出现声量的突然变大或停顿等，那么可以将发言人音量增加处的文本数据段作为讲话纪要。

在一些实施例中，方法200还包括：

基于所述第一时间段内的所述声音信息进行语句停顿识别，得到所述第一时间段内的第一停顿时长和第一停顿位置；以及基于所述第二时间段内的所述声音信息进行语句停顿识别，得到所述第二时间段内的第二停顿时长和第二停顿位置；

响应于所述第二语句停顿时长大于或等于预设时长且所述第二语句停顿位置位于所述第二时间段的结束位置，将所述第一文本数据段的评分加上第六分值；

响应于所述第一语句停顿时长大于或等于所述预设时长且所述第一语句停顿位置位于所述第一时间段的非结束位置，将所述第一文本数据段的评分加上第七分值；

其中，发言人在总结前后可能会出现停顿来提示听众，那么可以将发言人停顿处的文本数据段作为讲话纪要。具体来说，当停顿时长高于预设时长，且位于一个文件数据段的非结束位置，例如前部或中部，可以认为该文本数据段为讲话纪要。由于文件数据段可能基于语句的停顿进行划分，而当停顿时长高于预设时长，且位于一个文件数据段的结束位置时，可以认为下一相邻的文本数据段为讲话纪要。

在一些实施例中，方法200还包括：

基于所述第一时间段内的所述声音信息进行第二预设声音识别，判断所述第一时间段内是否包括第二预设声音；

响应于所述第一时间段内包括第二预设声音，将所述第一文本数据段的评分加上第八分值，所述第八分值大于0；

其中，第二预设声音可以指预设的发言人在听到讲话纪要时可能发出的声音。具体来说，会议中发言人在讲到重点内容时，可能会通过敲击桌面，黑板或者拍手提醒听众注意，所以，敲击声或单人的拍手声附近的文本数据段可以作为讲话纪要。而多人的拍手声一般是在发言人开始发言或结束发言的时候发出，此刻文本数据段不太可能是讲话纪要。

在一些实施例中，方法200还包括：

基于所述第一时间段内的所述声音信息进行第三预设声音识别，判断所述第一时间段内是否包括第三预设声音；

响应于所述第一时间段内包括所述第三预设声音，将所述第一文本数据段的评分加上第九分值，所述第九分值小于0；

其中，第三预设声音可以指能够明显指示当前内容不是讲话纪要的声音，例如包括如下至少一种：哈欠声、笑声、叹息声等。也就是说，当听众出现哈欠声、笑声、叹息声时，可以表示此时的内容不是讲话纪要。

应了解，上述噪声音量、发言音量、语句停顿、第一预设声音、第二预设声音、第三预设声音分别可以基于对应的训练好的声音识别模型对声音信息进行处理得到，而训练好的声音识别模型可以采用标注相应的声音特征的训练数据对神经网络进行训练得到。本领域技术人员知晓实现声音识别模型的训练过程，在此不再赘述。

需要说明的是，第四分值、第五分值、第六分值、第七分值均可以为大于0的数值。且第一分值到第九分值的具体数值可以根据需要进行设置，在此不做限制。

在一些实施例中，第一文本数据段的当前评分可以是初始值、所述第一分值、所述第二分值、所述第三分值、所述第四分值、所述第五分值、所述第六分值、所述第七分值、所述第八分值、所述第九分值中的至少一个的和。

判断所述第一文本数据段的当前评分是否大于或等于预设分数阈值，或高于预设数量的其他所述文本数据段的当前评分；

响应于所述第一文本数据段的当前评分大于或等于所述预设分数阈值，或高于预设数量的其他所述文本数据段的当前评分时，确定所述第一文本数据段为所述讲话纪要。

在一些实施例中，响应于所述文本数据段的当前评分小于所述预设分数阈值，或没有高于预设数量的其他所述文本数据段的评分时，确定所述文本数据段为非讲话纪要。

其中，预设分数阈值或预设比例可以根据需要进行设置，在此不做限制。

可选地，方法200还可以包括：显示所述讲话纪要。

进一步地，在一些实施例中，显示所述讲话纪要可以包括：

接收显示指令，所述显示模式指令用于指示用户选择的显示模式；

响应于所述显示指令，基于所述显示模式对所述讲话纪要进行显示。

在一些实施例中，显示所述讲话纪要可以包括：显示确定为讲话纪要的文本数据段。进一步地，还可以与所述讲话纪要关联地显示所述讲话纪要的发言人信息。

在一些实施例中，所述显示模式可以包括：在所述文本信息中突出显示讲话纪要。在一些实施例中，突出显示可以包括：采用不同的颜色(可以是不同的字体颜色，也可以使不同的底色进行高亮显示)或标记(可以是在讲话纪要旁进行标记，如☆、！、*、※等符号)进行突出显示，或者采用不同的字体或字号或字体效果(如下划线、斜体、加粗等)进行显示。那么，如图4所示，整个会议的文本信息可以包括：在时间T0，发言人B进行的发言内容为Text0；在时间T1，发言人A进行的发内容为言Text1；在时间T2，发言人E进行的发言内容为Text2；在时间T3，发言人C进行的发言内容为Text3和在时间T4，发言人B进行的发言内容为Text4等等。其中，受关注的内容为Text1和Text4，则可以突出显示Text1和Text4，或者突出显示Text1和Text4及对应的发言时间和发言人。应了解，显示模式还可以包括显示文本数据段，以及文本数据段的发言人和/或发言时间，在此不做限制。

在一些实施例中，所述显示模式可以包括：仅显示讲话纪要以及讲话纪要的发言人、发言时间。那么，如图5所示，可以显示讲话纪要包括：在时间T1，发言人A进行的发内容为言Text1；在时间T4，发言人B进行的发言内容为Text4；在时间T10，发言人A进行的发言内容为Text10和在时间T15，发言人C进行的发内容为Text15等等。应了解，显示模式还可以包括仅显示讲话纪要，以及讲话纪要的发言人和/或发言时间，在此不做限制。

在一些实施例中，所述显示指令还用于指示显示时间范围。在一些实施例中，响应于所述显示指令，基于所述显示模式对所述显示时间范围内的所述讲话纪要进行显示。也就是说，用户还可以选定在一定时间范围内的文本信息，和/或该时间范围内的讲话纪要进行显示。

在一些实施例中，所述显示模式可以包括：将所述声音信息、所述图像信息与所述文本信息合并输出，并突出显示所述讲话纪要。具体来说，根据该音信息和图像信息可以得到会议的视频数据，在该视频数据中将文本信息以字幕的形式进行显示，并以诸如高亮显示、标记的形式显示其中的讲话纪要。如图W所述，根据声音新和图像信息生成会议图像画面，并在该会议图像下方以字幕的形式显示文本信息，对于讲话纪要进行突出显示。便于后期需要对会议进行回放时，能够让用户直观地知晓讲话纪要，可以提醒用户在突出显示的地方应给与更多的关注，以提高用户的观看效果。

可选地，方法200还可以包括：基于所述讲话纪要生成会议总结。进一步地，显示所述会议总结。

如图6所示，根据本公开实施例的方法200可以直接生成会议纪要，会议纪要中可以包括：会议基本信息，例如，会议主题、会议时间、参会人员等，会议概述，以及会议的文本信息；在该文本信息中还可以突出显示讲话纪要。这样，在会议结束之后，即可快速准确的生成会议纪要，而无需人工再对会议内容进行总结，整理会议纪要，减少了用户的工作，提高了用户的工作效率。而且在后续的工作中，需要再次对会议进行回顾时，可以精确的找到会议的重点内容，无需查阅整篇会议纪要，进一步提高了用户的工作效率。

需要说明的是，本公开实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本公开实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

需要说明的是，上述对本公开的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

基于同一发明构思，与上述任意实施例方法相对应的，本公开还提供了一种会议发言人的讲话纪要生成装置。参考图7，所述会议发言人的讲话纪要生成装置，包括：

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本公开时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的装置用于实现前述任一实施例中相应的会议发言人的讲话纪要生成方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本公开还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上任意一实施例所述的会议发言人的讲话纪要生成方法。

图8示出了根据本公开实施例的电子设备的示意性框图，该设备可以包括：处理器810、存储器820、输入/输出接口830、通信接口840和总线850。其中处理器810、存储器820、输入/输出接口830和通信接口840通过总线850实现彼此之间在设备内部的通信连接。

处理器810可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器820可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器820可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器820中，并由处理器810来调用执行。

输入/输出接口830用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口840用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线850包括一通路，在设备的各个组件(例如处理器810、存储器820、输入/输出接口830和通信接口840)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器810、存储器820、输入/输出接口830、通信接口840以及总线850，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

上述实施例的电子设备用于实现前述任一实施例中相应的会议发言人的讲话纪要生成方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本公开还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上任一实施例所述的会议发言人的讲话纪要生成方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的会议发言人的讲话纪要生成方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本公开的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本公开实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本公开实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本公开实施例难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本公开实施例的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本公开的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本公开实施例。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本公开的具体实施例对本公开进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本公开实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本公开实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种会议发言人的讲话纪要生成方法，包括：

获取目标区域内的与时间相关联的声音信息和图像信息；

基于所述第一时间段内的所述图像信息进行体态识别，得到所述第一时间段内的听众的体态类型；

基于所述体态类型确定所述第一文本数据段为所述讲话纪要。

2.根据权利要求1所述的方法，其中，根据权利要求1所述的方法，其中，基于所述体态类型确定所述第一文本数据段为所述讲话纪要，包括：

响应于听众的所述体态类型符合预设体态条件，确定所述第一文本数据段为所述讲话纪要；

或，响应于听众的所述体态特征符合预设体态条件，将所述第一文本数据段的评分加上第一分值；基于所述第一文本数据段的评分确定所述第一文本数据段为所述讲话纪要。

3.根据权利要求1所述的方法，还包括：

基于所述体态变化确定所述第一文本数据段为讲话纪要。

4.根据权利要求3所述的方法，基于所述体态变化确定所述第一文本数据段为讲话纪要，包括：

响应于所述体态变化符合预设变化特征，确定所述第一文本数据段为所述讲话纪要；

或，响应于所述体态变化符合预设变化特征，将所述第一文本数据段的评分加上第二分值，所述第二分值大于0；基于所述第一文本数据段的评分确定所述第一文本数据段为所述讲话纪要。

5.根据权利要求4所述的方法，还包括：

6.根据权利要求5所述的方法，其中，基于所述第一文本数据段的评分确定所述第一文本数据段为所述讲话纪要，进一步包括：

7.根据权利要求4所述的方法，还包括：基于所述第一时间段内的所述声音信息进行噪声识别，得到所述第一时间段内的第一噪声音量；以及基于所述第二时间段内的所述声音信息进行噪声识别，得到所述第二时间段内的第二噪声音量；

8.根据权利要求4所述的方法，还包括：基于所述第一时间段内的所述声音信息进行发言音量识别，得到所述第一时间段内的发言音量；以及基于所述第二时间段内的所述声音信息进行发言音量识别，得到所述第二时间段内的发言音量；

9.根据权利要求4所述的方法，还包括：基于所述第一时间段内的所述声音信息进行语句停顿识别，得到所述第一时间段内的第一停顿时长和第一停顿位置；以及基于所述第二时间段内的所述声音信息进行语句停顿识别，得到所述第二时间段内的第二停顿时长和第二停顿位置；

10.根据权利要求4所述的方法，还包括：基于所述第一时间段内的所述声音信息进行第二预设声音识别，判断所述第一时间段内是否包括第二预设声音；

11.根据权利要求4所述的方法，还包括：基于所述第一时间段内的所述声音信息进行第三预设声音识别，判断所述第一时间段内是否包括第三预设声音；

12.根据权利要求4-11中任一所述的方法，基于所述第一文本数据段的评分确定所述第一文本数据段为所述讲话纪要，进一步包括：

13.根据权利要求1所述的方法，还包括显示所述讲话纪要，具体包括：

14.根据权利要求1所述的方法，所述显示模式可以包括如下至少一种：

在所述文本信息中突出显示所述讲话纪要；

仅显示所述讲话纪要、以及所述讲话纪要的发言人和发言时间；

将所述声音信息、所述图像信息与所述文本信息合并输出，并突出显示所述讲话纪要。

15.根据权利要求1所述的方法，还包括：基于所述讲话纪要生成会议总结。

16.一种会议发言人的讲话纪要生成装置，包括：

17.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1至15任意一项所述的方法。

18.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使计算机执行权利要求1至15任一所述方法。