CN109783642A

CN109783642A - 多人会议场景的结构化内容处理方法、装置、设备及介质

Info

Publication number: CN109783642A
Application number: CN201910017930.0A
Authority: CN
Inventors: 王晓平
Original assignee: Shanghai Jilian Network Technology Co Ltd
Current assignee: Shanghai Jilian Network Technology Co Ltd
Priority date: 2019-01-09
Filing date: 2019-01-09
Publication date: 2019-05-21

Abstract

本发明涉及一种多人会议场景的结构化内容处理方法、装置、计算机设备及可读存储介质，方法包括：建立声纹模型，所述声纹模型包括与会者的声纹和对应于该声纹的与会者的身份信息；获取会议场景的会议内容，对所述会议内容进行记录和分析，得到会议内容的多模态结构化信息；根据所述多模态结构化信息中的语音数据，确定与所述语音数据对应的声纹以及与所述声纹对应的与会者身份信息；结合所述语音数据包含的方位信息进行定位，驱动会议场景中的摄像装置聚焦所述语音数据对应的与会者。本发明的有益效果为：通过对声源方位信息的确定与会者，将摄像装置聚焦发言的与会者，通过多模态结构化信息实现各种类型的信息检索，真实有效地还原会议。

Description

多人会议场景的结构化内容处理方法、装置、设备及介质

技术领域

本发明实施例涉及数据处理技术领域，尤其涉及一种多人会议场景的结构化内容处理方法、装置、设备及介质。

背景技术

处于互联网社会，互联网已经成为语音与视频服务的主要载体，其中，包括语音和视频服务的远程多人会议是互联网应用中的一个重要分支，多人会议被定义为一个终端服务，它允许两人及以上的多数人使用网络与他人之间实现会议中的语音和视频的即时传输，在目前互联网社会中作为常见的工作沟通模式承担着越来越重要的办公职能。

然而，长期以来，会议内容一般是由人工进行记录，即使有视频或者录音等现代工具也仅起到保存会议原始纪录的功能，或者仅通过人脸识别达到参会人员签到的辅助目的，而真正的会议内容则缺乏进一步有价值的结构化、智能化处理和分析，从而给人们在会后按需求定制化查阅会议内容带来了困难。

发明内容

为了克服相关技术中存在的问题，本发明提供一种多人会议场景的结构化内容处理方法、装置、设备及介质，以实现自动记录和分析多人会议的音频和视频，以及根据声纹分析声源进行与会者视频定位。

第一方面，本发明实施例提供了一种多人会议场景的结构化内容处理方法，所述方法包括：

建立声纹模型，所述声纹模型包括与会者的声纹和对应于该声纹的与会者的身份信息；

获取会议场景的会议内容，对所述会议内容进行记录和分析，得到会议内容的多模态结构化信息；

根据所述多模态结构化信息中的语音数据，确定与所述语音数据对应的声纹以及与所述声纹对应的与会者身份信息；

结合所述语音数据包含的方位信息进行定位，驱动会议场景中的摄像装置聚焦所述语音数据对应的与会者。

结合另一方面，本发明另一可行的实施方式中，所述方法还包括：

对所述多模态结构化信息进行分析，确定会议议题信息，所述会议议题信息包括议题内容的自动语义分类、基于关键词的议题内容的语义表征以及议题讨论活跃程度分析统计中的一项或两项及以上的组合。

结合另一方面，本发明另一可行的实施方式中，所述获取会议场景的会议内容，对所述会议内容进行记录和分析，包括：

获取会议场景中的语音数据，通过对语音数据的语音识别生成会议内容文本信息；

根据分析任务的不同，结合分析策略对所述会议内容文本信息进行语义记录和分析。

结合另一方面，本发明另一可行的实施方式中，所述获取会议场景的会议内容，对所述会议内容进行记录和分析，得到会议内容的多模态结构化信息，包括：

获取会议场景中的语音数据，转换成会议内容文本信息；

获取会议场景的语音数据、视频数据以及所述会议内容文本信息组合成会议内容的多模态结构化信息；

根据分析任务，结合分析策略对所述多模态结构化信息进行分析。

结合另一方面，本发明另一可行的实施方式中，所述根据分析任务，结合分析策略对所述多模态结构化信息进行分析，包括：

采用嵌入式词向量空间方法对所述会议内容文本信息进行语义表征，得到会议议题；

获取输入的定制化检索信息；

根据所述定制化检索信息在所述多模态结构化信息中进行检索，得到与所述定制化检索信息关联的多模态结构化信息。

统计会议议题信息的词频；

将词频高于预设阈值的会议议题信息设置为关键词；

获取输入的关键词；

根据所述输入的关键词输出与所述输入的关键词多模态结构化信息。

第二方面，本发明还提供一种多人会议场景的结构化内容处理装置，所述装置包括：

创建单元，用于建立声纹模型，所述声纹模型包括与会者的声纹和对应于该声纹的与会者的身份信息；

结构化单元，用于获取会议场景的会议内容，对所述会议内容进行记录和分析，得到会议内容的多模态结构化信息；

确定单元，用于根据所述多模态结构化信息中的语音数据，确定与所述语音数据对应的声纹以及与所述声纹对应的与会者身份信息；

驱动单元，用于结合所述语音数据包含的方位信息进行定位，驱动会议场景中的摄像装置聚焦所述语音数据对应的与会者。

第三方面，本发明还提供了一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法。

第四方面，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

本发明通过建立的多人会议系统记录在会议过程中的音频、视频、会议过程中展示的文本以及音频转换生成的会议文本等多模态结构化信息，通过多模态结构化信息能够实现各种类型的信息检索，例如议题题目、与会者姓名+议题内容等作为关键词进行信息检索，从而得到与关键词相关联的音频、视频、文本等多模态会议信息，真实、有效地还原会议内容，以及对会议内容的智能分析，在会议过程中，还能够通过对声源方位信息的确定与会者，将摄像装置聚焦发言的与会者。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的多人会议场景的结构化内容处理方法的流程示意图。

图2是根据一示例性实施例示出的多人会议系统的组成结构示意图。

图3是根据一示例性实施例示出的语义分析模块的示意性组成框图。

图4是根据一示例性实施例示出的多人会议场景布局示意图。

图5是根据一示例性实施例示出的多人会议场景的结构化内容处理装置的示意框图。

图6是根据一示例性实施例示出的实现方法的计算机设备的框图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图中将各步骤描述成顺序的处理，但是其中的许多步骤可以并行地、并发地或者同时实施。此外，各步骤的顺序可以被重新安排，当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图内的其它步骤。处理可以对应于方法、函数、规程、子例程、子程序等。

本发明涉及一种多人会议场景的结构化内容处理方法、装置、设备及介质，其主要运用于多人会议场景中，其基本思想是：通过记录与分析得到会议场景的多模态结构化信息，后续能够通过关键词定制化检索并获得与关键词相关的多模态结构化信息，不仅能够得到用户想要的会议文本信息，还能够得到与关键词相关的有效语音数据、与图像数据等，使得在会议之后能够更方便地获取会议数据。

本实施例可适用于带有中央处理模块的多人会议系统中以进行多人会议场景的结构化内容处理方法的情况中，该方法可以由中央处理模块来执行，其中该中央处理模块可以由软件和/或硬件来实现，一般地可集成于服务器端，如图1所示，为本发明中多人会议场景的结构化内容处理方法的基本流程示意图，所述方法具体包括如下步骤：

步骤110，建立声纹模型，所述声纹模型包括与会者的声纹和对应于该声纹的与会者的身份信息；

所述声纹模型在会议开始之前预告采集与会者的个人声纹数据，每一与会者的声纹对得到的个人声纹数据进行训练，所述个人声纹数据与与会者身份信息一一对应，经过训练后，当检测到语音数据时，通过对该语音数据的声纹数据进行分析即可匹配到对应的与会者。

对个人声纹数据进行训练的训练方法可以包括但不限于Gaussian MixtureModel-Universal Background Model(GMM-UBM，高斯混合－通用背景模型)、FactorAnalysis(FA，因子分析)、Joint Factor Analysis(JFA，联合因子分析)、Identity Vector(I-vector，身份认证向量分析)、Identity Vector-Probabilistic Linear DiscriminantAnalysis(经PLDA优化的身份认证向量)、Deep Neural Network(DNN，深度神经网络)等方法，优选地，可使用经PLDA优化的I-vector身份认证向量方法对声纹数据进行训练。

步骤120，获取会议场景的会议内容，对所述会议内容进行记录和分析，得到会议内容的多模态结构化信息；

所述会议内容包括会议在开始之前的准备过程、在会议开始之后与会者的发言、展示所用的演示文稿、会议过程中跟踪发言人的特定镜头形成的视频等。

步骤130，根据所述多模态结构化信息中的语音数据，确定与所述语音数据对应的声纹以及与所述声纹对应的与会者身份信息；

对所述会议内容进行记录和分析，包括在记录过程中进行分析，例如，在跟踪到发言人在演示文档时，将跟踪用的摄像装置聚焦到演示文档，或者在检测到发言人发表评价时，根据麦克风陈列获取的声源的声纹确定发言人的身份信息，并进而驱动摄像装置聚焦摄像焦点至发言人位置。

步骤140，结合所述语音数据包含的方位信息进行定位，驱动会议场景中的摄像装置聚焦所述语音数据对应的与会者。

在生成多模态结构化信息时，不仅包括会议场景中形成的视频和音频，还包括在会议过程中的分析内容，例如在检测到发言人切换时，在显示的多模态结构化信息中及时地显示切换之后的发言人的身份信息，根据麦克风陈列获取的声源位置确定与会者发言人位置，同时驱动摄像装置聚焦发言人使形成的多模态结构化信息在显示时的发言人的音频与视频同步，进一步地，在此过程中还能够使得与会者发言人在此过程中采用的演示文档时，根据发言人设置的操作而能够对当前显示切换至演示文档。

本发明示例性实施例，在会议场景中布置多人会议系统，所述多人会议系统同样也包括远程加入会议的远程与会人员，例如会议的发起者邀请两个与会人员参加远程多人会议，在远程多人会议中同时传送音频和视频数据，该多人会议系统包括摄像模块、声音采集模块、语音端点检测模块、声纹模型训练模块、身份识别模块、语音识别模块、文本内容输出模块、语义分析单元、云平台控制模块、逻辑判断模块等，云平台控制模块能够控制在现场的多人会议系统的各模块，而对于远程加入的与会者，在本发明示例性实施例的一种实施场景中，可通过对远程与会者的客户端虚拟相应的驱动单元、采集模块等实现对远程与会者的视频追踪、演示文档的追踪等。

本发明的方法，通过记录与分析得到会议场景的多模态结构化信息，后续能够通过关键词定制化检索并获得与关键词相关的多模态结构化信息，不仅能够在会议过程中对正在发言的用户身份信息、视频图像等进行追踪，还能够得到与关键词相关的有效语音数据、与图像数据等，使得在会议之后能够更方便地获取会议数据。

在本发明示例性实施例的一种具体的实施场景中，结合图2～4所示，多人会议系统在架构上包括声音采集模块、语音端点检测模块、声纹模型训练模块、声纹识别模块、与会发言人身份信息输出模块、语音识别模块、文本内容输出模块、语义分析模块、议题信息输出模块、语音数据输出模块、声源定位模块、云台控制模块、图像采集模块、摄像机稳定性自动判断模块、检测/跟踪功能逻辑判断模块、人脸检测模块、人脸跟踪模块、与会发言人脸部特写输出模块、数据存储模块。其中，语义分析模块包括文本预处理子模块、语义向量构建及表征子模块、语义跳变侦测子模块、议题池更新维护及议题分类子模块、议题语义表征子模块、议题讨论活跃程度统计分析子模块等6个子模块。

本发明示例性实施例的多人会议系统在工作过程中的步骤包括：

使用声音采集模块的麦克风阵列对会场声音进行采集，然后进行语音端点检测，记录采集获取的有效的语音段并进行后续的分析和处理，避免了记录、分析语音段中的冗余信息(例如会议过程中的背景音、记录过程中形成的底噪等)，节省了硬盘空间和内存空间；利用预先建立的与会者声纹模型，在对语音进行实时声纹识别后确定当前发言用户的身份信息；通过语音识别获得文本化的会议内容信息；对会议文本进行语义分析，针对不同分析任务提出了多样化解决策略：为增强语义分析的鲁棒性，采用了嵌入式词向量空间方法来进行语义的表征、比较，而在对分类后的议题内容进行语义表征时，则提出了改进的基于词频的计算方法以方便人们在会后进行基于关键词的检索；提出包括人员分议题发言踊跃度排序、人员平均发言踊跃度排序、议题讨论热度排序、议题平均发言句数在内的一系列统计指标来对议题讨论活跃程度进行智能分析；从麦克风阵列获取声源的方位信息，并传送给云台控制模块，进而驱动摄像头转向与会发言人特定方向，驱动摄像装置转向至发言的与会者；在对摄像机稳定性进行自动判断的基础上，对摄像装置的焦点聚焦至进行人脸操作，并基于逻辑判断模块进行人脸检测或者人脸跟踪，进而获得与会发言人的特写镜头，使得不仅对基于语义分析实现了声纹分析、控制生成多模态结构化信息的同步性，还使得生成的多模态结构化信息能够对会议过程中的多种实时信息同步展示。

在本发明示例性实施例中，其中的声音采集模块采用高保真麦克风阵列对会场声音进行采集，同时，为保证较高的声源定位精度，使用至少具备6个麦克风的麦克风阵列。

其中的语音端点检测模块用于对声音采集模块输出的声音进行端点检测，输出真正有效的语音段。端点检测方法可以包括但不限于双门限方法、倒谱距离法、GaussianMixture Model(GMM，高斯混合模型)方法。优选地，可使用GMM方法。

其中的声纹模型训练模块根据与会者预先准备的发音数据，训练各自的声纹模型。训练方法可以包括但不限于Gaussian Mixture Model-Universal Background Model(GMM-UBM)、Factor Analysis(FA)、Joint Factor Analysis(JFA)、Identity Vector(I-vector)、Identity Vector-Probabilistic Linear Discriminant Analysis(经PLDA优化的I-vector)、Deep Neural Network(DNN)等方法，优选地，可使用经PLDA优化的I-vector方法。

其中的声纹识别模块对语音端点检测模块输出的有效语音提取特征并进行相应的处理(例如去噪处理)，然后与声纹模型训练模块输出的模型依次进行匹配，遍历后将相似度最高的模型名称作为结果进行输出。

其中的与会发言人身份信息输出模块用于将声纹识别模块输出的与会发言人身份信息进行输出。

其中的语音识别模块用于对语音端点检测模块输出的有效语音，进行语音识别，从而将音频数据转化为对应的文本数据。方法可以包括但不限于Dynamic Time Warping(DTW，动态时间规整)、Hidden Markov Model(HMM，隐马尔可夫模型)、Recurrent NeuralNetwork(RNN，循环神经网络)、Deep Neural Network(DNN，深度神经网络)、Long Short-Term Memory(LSTM，长短期记忆神经网络)等方法。优选地，可使用LSTM方法。

其中的文本内容输出模块用于将语音识别模块输出的文本结果进行输出。

其中的语义分析模块包括文本预处理子模块、语义向量构建及表征子模块、语义跳变侦测子模块、议题池更新维护及议题分类子模块、议题语义表征子模块、议题讨论活跃程度统计分析子模块等6个子模块。

在本发明示例性实施例的一种实施场景中，会议内容文本信息可以是根据获取的会议场景中的语音数据进行音识别生成；根据分析任务的不同，结合分析策略对所述会议内容文本信息进行语义记录和分析，在另一种实施场景中，还可对在会议过程中展示的演示文档等文件添加到所述会议内容文本信息中，并结合语音数据、视频数据等共同组成多模态结构化信息。

对语音识别模块输出的文本内容进行语义分析，目的是能够侦测会议议题内容是否发生改变并进行议题分类，以及对分类后的会议议题进行语义表征以方便会后检索。针对不同分析任务，本发明提出了多样化的解决策略：为了增强语义变化分析的鲁棒性，本发明采用了嵌入式词向量空间方法来进行语义的表征、比较，从而克服了传统方法在进行语义比较时对词语变形、同义词变化、语法形式变化等因素敏感的缺点，并且使用向量累积表征语义的方式能够适应词语数目的不均衡；而在对分类后的议题内容进行语义表征时，为了方便在会后人们进行基于关键词的检索，本发明则提出了改进的基于词频的计算方法。进一步地，为了能够从统计上客观反映议题讨论活跃程度，本发明还提出了包括人员分议题发言踊跃度排序、人员平均发言踊跃度排序、议题讨论热度排序、议题平均发言句数在内的一系列统计指标来进行智能分析。

在本发明示例性实施例的一种实施场景中，本发明的结构化单元可包括语义分析模块，语义分析模块包括若干子模块，其各子模块协同作用以对语音识别模块输出的文本内容进行语义分析，根据具体应用场景的不同，本发明的语义分析模块的各子模块能够适用于不同的应用场景并于相应的应用场景下通过不同的子模块或者子模块的组合解决可能出现的不同的问题，其具体子模块作用及工作时流程包括如下：

(1)文本预处理子模块

对于输入的文本，按照语句分割标志符号(如句号、感叹号等)进行语句分割处理，从而得到有序的语句序列；

对序列中的每一句，进行去除停用词处理，从而将真正有语义的词语保留下来，在减少无语义词语干扰、提高语义处理结果可靠性的同时，也减少了后续的计算量。

(2)语义向量构建及表征子模块

语义的表征方法可以包括但不限于Explicit semantic analysis(ESA，显式语义分析)方法、Latent semantic analysis(LSA，潜在语义分析)方法、Word to Vector(word2vec，词向量)方法、Global Vectors for Word Representation(GloVe，字表示的全局向量)、fastText(快速文本方法)等。优选地，可使用GloVe方法。

构建语义向量的训练数据可来源于各大知识库，优选地，采用百度百科知识库。

对经文本预处理后的每一个词语，从已经构建好的语义向量库中获取其在语义空间中的投影向量，然后将这些词语对应的语义向量相加，从而得到该语句的总体表征。

在根据分析任务，结合分析策略对所述多模态结构化信息进行分析时，根据得到的会议内容文本信息的总体表征构成会议议题信息，根据用户输入的定制化检索信息即可在多模态结构化信息中进行检索，得到与定制化检索信息相关的视频、语音、演示文档等多模态结构化信息。

(3)语义跳变侦测子模块

对预处理后得到的有序的语句序列，按次序对每个语句进行如下操作：

以该句为中心进行加窗，窗口宽度W可根据实际情况而定，

W＝2×R+1

其中，R为窗口半径。优选地，取窗口半径为1，即窗口宽度为3，参考图像处理中PREWITT算子并将其模板降至一维形式后得到的如下邻域模板来对序列进行卷积：

[-1 0 1]

语义梯度按如下方法计算：

E(i)＝Dist(Sen(i-1)，Sen(i+1))

其中，Sen(i)表示索引号为i的语句对应的语义向量，Dist(a，b)表示向量a和向量b之间的距离。

为方便起见，可直接考察相似度度量：

S(i)＝1-E(i)＝Sim(Sen(i-1)，Sen(i+1))

这里，S(i)表示索引号为i的语句的语义跳变度量值，Sim(a，b)表示向量a和向量b的相似度，这里的相似性度量可采用多种度量如Cosine、Cityblock、Euclidean、Mahalanobis、Minkowski、Chebychev等。优选地，采用Cosine相似度。S(i)越小，表明索引号为i的语句发生语义跳变的可能性就越大。

为去除结果的冗余性，当相邻两句都符合语义跳变句条件时，说明它们是前一语义段的末尾和后一语义段的开头，此时只需保留相似度较低的那一句即可；另外，为保证结果的稳定性，当邻域语句中至少有一句在去除停用词后剩余词语数目小于一定数值时的结果不予考虑(具体数值可依经验设定，优选地，可将此数值设为3)。

(4)议题池更新维护及议题分类子模块

本发明定义议题池为属于同一个议题信息的词语的集合，对于两个时序上相邻的语义跳变句之间的所有历史文本可认为属于同一个会议议题，在去除停用词后以词语为单位添加进议题池；定义议题历史数据库为历次从议题池增量导入的词语的集合。当侦测到有最新的语义跳变句出现时，议题池中的所有内容在存入议题历史数据库后将被清空，然后再重新开始。

本发明提出了议题池的更新维护策略，具体定义及流程如下：

定义议题历史数据库DataBase，议题池Pool；定义当前语句的索引为i，定义索引值为i的语句的词语集合Wi:{w1,w2,···,wn}，n为索引号为i的语句在去除停用词后剩余的有效词语数目；定义是否检测到语义跳变句的布尔标志变量ChangeStatus(检测到语义跳变时为TRUE，否则为FALSE)。

INT i＝0；

WHILE(i<语句总数量)

{

IF(ChangeStatus＝＝FALSE)

{

获取当前的Wi；

将Wi添加进议题池Pool中；

}

ELSE

{

将Pool内容及索引i信息写入议题历史数据库DataBase；

清空Pool；

获取当前的Wi；

将Wi添加进议题池Pool中；

记录当前句索引号i，作为更新后的议题池的开始语句索引号；

}

i++；

}

(5)议题语义表征子模块

本发明示例性实施例的一种实施场景中，对主题语义进行表征或分析的过程包括：统计会议议题信息的词频；将词频高于预设阈值的会议议题信息设置为关键词；获取输入的关键词；根据所述输入的关键词输出与所述输入的关键词多模态结构化信息，具体包括如下：

为方便会后进行检索，对于每个议题内容，本发明使用Term Frequency-InverseDocument Frequency(TF-IDF，词频－逆文本频率指数)方法提取出排名最靠前的若干个词语作为当前议题主要语义的表征，词语个数的具体数值可依业内常用数据设定，优选地，可将此数值设为3。

为了适用于本发明的应用场景，本发明对TF-IDF方法中的定义进行了修改，从原先的以文档作为频率统计的参考依据的定义修改为以议题文本作为频率统计的参考依据，具体如下：

对词语w，按如下公式计算TF-IDF得分Score：

Score(w)＝TF(w)×IDF(w)

式中，定义TF为w在当前议题文本中的词频，定义IDF为w的逆向议题频率。

考虑到会存在只有单个议题的会议的情况，如果仍按上述公式计算，所有词的得分都将为0，从而会导致无法对词语进行排序筛选。针对此种情况，本发明将此时的TF-IDF得分计算方式修改为：

Score(w)＝TF(w)

综合以上考虑，本发明提出了面向议题语义表征的得分计算策略：定义N为会议议题总数，对词语w，按如下方式计算其得分Score：

IF(N>1)

{

Score(w)＝TF(w)×IDF(w)；

}

ELSE

{

Score(w)＝TF(w)；

}

在对Score得分排序后，选出排名最靠前的若干个词语作为当前议题主要语义的表征。

(6)议题讨论活跃程度统计分析子模块

本发明认为，对会议上人员的发言情况进行统计能够直接衡量会议议题讨论的活跃程度以及议题的热度，具有实际的参考价值。针对此，本发明提出了如下的统计指标及计算方法：

定义参会总人数为M，会议议题总数为N，

对议题i∈{1，···，N}，Sentence_i表示在议题i中所有人员的发言语句数；

对人员j∈{1，···，M}，Sentence_i,j表示人员j在议题i中的发言语句数。

计算并输出统计指标如下：

人员j在议题i中的发言踊跃度Interaction_j,i：

人员j在所有议题中的平均发言踊跃度Interaction_j：

议题i在所有议题中的讨论热度Hotspot_i：

议题平均发言句数AvgSentence：

上述指标的值如果越大，则表明讨论的活跃程度越高。在对指标进行遍历计算并排序后，可以输出一系列分析结果包括人员分议题发言踊跃度排序、人员平均发言踊跃度排序、议题讨论热度排序、议题平均发言句数，从而从统计上客观反映出议题讨论活跃程度。

其中的议题信息输出模块用于将语义分析单元输出的议题相关信息进行输出，包括：

(a)历史议题池文本内容

(b)历史议题池的分类索引编号

(c)基于若干关键词的议题内容的语义表征

(d)当前语句是否发生了语义跳变

(e)议题讨论活跃程度统计分析结果(人员分议题发言踊跃度排序、人员平均发言踊跃度排序、议题讨论热度排序、议题平均发言句数)。

其中的语音数据输出模块用于将语音端点检测模块输出的有效语音进行输出。

其中的声源定位模块对于声音采集模块输出的音频，根据麦克风阵列的定位功能输出声源的方位信息。

其中的云台控制模块

根据声源定位模块的结果，驱动摄像机转动到特定与会发言人的方向。

其中的图像采集模块使用摄像机将采集的场景图像以数字化形式进行输出。

其中的摄像机稳定性自动判断模块用于当云台控制接收到特定方位指令后在转动过程中摄像机状态将处于不稳定状态，为避免不必要的计算资源消耗，此时人脸检测、人脸跟踪模块无需运行。直到云台转动结束后摄像机状态才会进入稳定状态，这时再根据情况分析进入到人脸检测模块或人脸跟踪模块中的一个分支继续执行。鉴于此，系统需要能够自动判断摄像机的稳定状态，方法如下：

分别计算上一帧图像与当前帧图像的Speeded Up Robust Features(SURF，鲁棒特征加速算法)特征或者Scale-Invariant Feature Transform(SIFT，尺度不变特征变换匹配算法)特征，并用Random Sample Consensus(RANSAC，随机抽样一致算法)方法计算出两组特征间的仿射变换矩阵，进而根据矩阵参数判断两者间是否存在着较大的空间位移，从而能判断出摄像机是否稳定。

其中的检测/跟踪功能逻辑判断模块用于在判断出摄像机处于稳定状态后，即可进行人脸相关操作，接下来就需要对进入人脸检测分支模块还是进入人脸跟踪分支模块进行判断。

本发明提出的逻辑判断方法如下：

设上一帧图像对应的摄像机的稳定状态为S_Stable0，当前帧图像对应的摄像机的稳定状态为S_Stable1。

IF(S_Stable1＝＝TRUE)

{

IF(S_Stable0＝＝TRUE)

{

执行人脸跟踪模块；

}

ELSE

{

执行人脸检测模块；

}

ELSE

{

不执行人脸相关操作；

}。

其中的人脸检测模块根据逻辑判断模块决定是否需进行人脸检测。具体地，对于图像采集模块输出的图像，进行人脸检测的方法可以包括但不限于Adaboost、Region withCNN feature(R-CNN)、Fast Region with CNN feature(Fast R-CNN)、Faster Regionwith CNN feature(Faster R-CNN)、Mask Region with CNN feature(Mask R-CNN)、Single Shot MultiBox Detector(SSD)、You Only Look Once(YOLO)等方法。优选地，可使用YOLO方法。

其中的人脸跟踪模块根据逻辑判断模块决定是否需进行人脸跟踪。具体地，对于图像采集模块输出的图像，以上一帧人脸定位结果为初始框，然后在此基础上进行跟踪，跟踪方法可以包括但不限于Kernelized Correlation Filters(KCF)、Tracking-Learning-Detection(TLD)、ColorNames(CN)、Long-term correlation tracking(LCT)、MultipleExperts using Entropy Minimization(MEEM)、Spatio-Temporal Context(STC)、Structured Output Tracking(Struck)、Multi-Domain Network(MDNet)、ContinuousConvolution Operators for Visual Tracking(C-COT)、Efficient ConvolutionOperators for Tracking(ECO)等方法。优选地，可使用ECO方法。

其中的与会发言人脸部特写输出模块用于将人脸检测模块或人脸跟踪模块输出的定位结果以及相应位置的人脸特写图进行输出。

其中的数据存储模块用于将文本数据(来自与会发言人身份信息输出模块、文本内容输出模块、议题信息输出模块)、语音数据(来自语音数据输出模块)、图像数据(来自与会发言人脸部特写输出模块)写入数据库，完成多模态、结构化的会议信息记录，其好处是可以为工作人员在会后进行检索时提供方便，例如可以用姓名作为关键词进行信息检索，也可以用议题内容作为关键词进行信息检索，还可以用姓名+议题内容作为关键词进行信息检索，从而得到与该关键词相关联的多模态的会议信息。进一步地，还可通过输出的一系列议题讨论活跃程度统计分析指标来客观分析会场发言情况。

本发明的方法和多人会议系统，填补了会议多模态结构化内容记录与分析系统的空白，所提出的系统能够记录音频、视频、文本等多模态结构化信息，为工作人员在会后进行检索时提供方便，例如可以用姓名作为关键词进行信息检索，也可以用议题内容作为关键词进行信息检索，还可以用姓名+议题内容作为关键词进行信息检索，从而得到与关键词相关联的音频、视频、文本等多模态会议信息，真实、有效地还原会议内容；进一步地，为能够客观反映会议情况，本发明还提出了一系列统计指标来对会议议题讨论活跃程度进行了智能分析。

图5为本发明实施例提供的一种多人会议场景的结构化内容处理装置的结构示意图，该装置可由软件和/或硬件实现，一般地集成于智能终端中，可通过多人会议场景的结构化内容处理方法来实现。如图所示，本实施例可以以上述实施例为基础，提供了一种多人会议场景的结构化内容处理装置，其主要包括了创建单元510、结构化单元520、确定单元530以及驱动单元540。

其中的创建单元510，用于建立声纹模型，所述声纹模型包括与会者的声纹和对应于该声纹的与会者的身份信息；

其中的结构化单元520，用于获取会议场景的会议内容，对所述会议内容进行记录和分析，得到会议内容的多模态结构化信息；

其中的确定单元530，用于根据所述多模态结构化信息中的语音数据，确定与所述语音数据对应的声纹以及与所述声纹对应的与会者身份信息；

其中的驱动单元540，用于结合所述语音数据包含的方位信息进行定位，驱动会议场景中的摄像装置聚焦所述语音数据对应的与会者。

上述的装置还包括：分析单元，用于对所述多模态结构化信息进行分析，确定会议议题信息，所述会议议题信息包括议题内容的自动语义分类、基于关键词的议题内容的语义表征以及议题讨论活跃程度分析统计中的一项或两项及以上的组合。

上述实施例中提供的多人会议场景的结构化内容处理装置可执行本发明中任意实施例中所提供的多人会议场景的结构化内容处理方法，具备执行该方法相应的功能模块和有益效果，未在上述实施例中详细描述的技术细节，可参见本发明任意实施例中所提供的多人会议场景的结构化内容处理方法。

将意识到的是，本发明也扩展到适合于将本发明付诸实践的计算机程序，特别是载体上或者载体中的计算机程序。程序可以以源代码、目标代码、代码中间源和诸如部分编译的形式的目标代码的形式，或者以任何其它适合在按照本发明的方法的实现中使用的形式。也将注意的是，这样的程序可能具有许多不同的架构设计。例如，实现按照本发明的方法或者系统的功能性的程序代码可能被再分为一个或者多个子例程。

用于在这些子例程中间分布功能性的许多不同方式将对技术人员而言是明显的。子例程可以一起存储在一个可执行文件中，从而形成自含式的程序。这样的可执行文件可以包括计算机可执行指令，例如处理器指令和/或解释器指令(例如，Java解释器指令)。可替换地，子例程的一个或者多个或者所有子例程都可以存储在至少一个外部库文件中，并且与主程序静态地或者动态地(例如在运行时间)链接。主程序含有对子例程中的至少一个的至少一个调用。子例程也可以包括对彼此的函数调用。涉及计算机程序产品的实施例包括对应于所阐明方法中至少一种方法的处理步骤的每一步骤的计算机可执行指令。这些指令可以被再分成子例程和/或被存储在一个或者多个可能静态或者动态链接的文件中。

另一个涉及计算机程序产品的实施例包括对应于所阐明的系统和/或产品中至少一个的装置中每个装置的计算机可执行指令。这些指令可以被再分成子例程和/或被存储在一个或者多个可能静态或者动态链接的文件中。

计算机程序的载体可以是能够运载程序的任何实体或者装置。例如，载体可以包含存储介质，诸如(ROM例如CDROM或者半导体ROM)或者磁记录介质(例如软盘或者硬盘)。进一步地，载体可以是可传输的载体，诸如电学或者光学信号，其可以经由电缆或者光缆，或者通过无线电或者其它手段传递。当程序具体化为这样的信号时，载体可以由这样的线缆或者装置组成。可替换地，载体可以是其中嵌入有程序的集成电路，所述集成电路适合于执行相关方法，或者供相关方法的执行所用。

应该留意的是，上文提到的实施例是举例说明本发明，而不是限制本发明，并且本领域的技术人员将能够设计许多可替换的实施例，而不会偏离所附权利要求的范围。在权利要求中，任何放置在圆括号之间的参考符号不应被解读为是对权利要求的限制。动词“包括”和其词形变化的使用不排除除了在权利要求中记载的那些之外的元素或者步骤的存在。在元素之前的冠词“一”或者“一个”不排除复数个这样的元素的存在。本发明可以通过包括几个明显不同的组件的硬件，以及通过适当编程的计算机而实现。在列举几种装置的装置权利要求中，这些装置中的几种可以通过硬件的同一项来体现。在相互不同的从属权利要求中陈述某些措施的单纯事实并不表明这些措施的组合不能被用来获益。

如果期望的话，这里所讨论的不同功能可以以不同顺序执行和/或彼此同时执行。此外，如果期望的话，以上所描述的一个或多个功能可以是可选的或者可以进行组合。

如果期望的话，上文所讨论的各步骤并不限于各实施例中的执行顺序，不同步骤可以以不同顺序执行和/或彼此同时执行。此外，在其他实施例中，以上所描述的一个或多个步骤可以是可选的或者可以进行组合。

虽然本发明的各个方面在独立权利要求中给出，但是本发明的其它方面包括来自所描述实施方式的特征和/或具有独立权利要求的特征的从属权利要求的组合，而并非仅是权利要求中所明确给出的组合。

这里所要注意的是，虽然以上描述了本发明的示例实施方式，但是这些描述并不应当以限制的含义进行理解。相反，可以进行若干种变化和修改而并不背离如所附权利要求中所限定的本发明的范围。

本领域普通技术人员应该明白，本发明实施例的装置中的各模块可以用通用的计算装置来实现，各模块可以集中在单个计算装置或者计算装置组成的网络组中，本发明实施例中的装置对应于前述实施例中的方法，其可以通过可执行的程序代码实现，也可以通过集成电路组合的方式来实现，因此本发明并不局限于特定的硬件或者软件及其结合。

本领域普通技术人员应该明白，本发明实施例的装置中的各模块可以用通用的移动终端来实现，各模块可以集中在单个移动终端或者移动终端组成的装置组合中，本发明实施例中的装置对应于前述实施例中的方法，其可以通过编辑可执行的程序代码实现，也可以通过集成电路组合的方式来实现，因此本发明并不局限于特定的硬件或者软件及其结合。

本实施例还提供一种计算机设备，如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。本实施例的计算机设备20至少包括但不限于：可通过系统总线相互通信连接的存储器21、处理器22，如图6所示。需要指出的是，图6仅示出了具有组件21-22的计算机设备20，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

本实施例中，存储器21(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器21可以是计算机设备20的内部存储模块，例如该计算机设备20的硬盘或内存。在另一些实施例中，存储器21也可以是计算机设备20的外部存储设备，例如该计算机设备20上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器21还可以既包括计算机设备20的内部存储模块也包括其外部存储设备。本实施例中，存储器21通常用于存储安装于计算机设备20的操作系统和各类应用软件，例如实施例一的RNNs神经网络的程序代码等。此外，存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器22在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备20的总体操作。本实施例中，处理器22用于运行存储器21中存储的程序代码或者处理数据，例如实现深度学习模型的各层结构，以实现上述实施例的多人会议场景的结构化内容处理方法。

本实施例还提供一种计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储金融小程序，被处理器执行时实现上述实施例的多人会议场景的结构化内容处理方法。

注意，上述仅为本发明的示例性实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种多人会议场景的结构化内容处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述获取会议场景的会议内容，对所述会议内容进行记录和分析，包括：

4.根据权利要求1所述的方法，其特征在于，所述获取会议场景的会议内容，对所述会议内容进行记录和分析，得到会议内容的多模态结构化信息，包括：

获取会议场景中的语音数据，转换成会议内容文本信息；

5.根据权利要求4所述的方法，其特征在于，所述根据分析任务，结合分析策略对所述多模态结构化信息进行分析，包括：

获取输入的定制化检索信息；

6.根据权利要求2所述的方法，其特征在于，所述根据分析任务，结合分析策略对所述多模态结构化信息进行分析，包括：

统计会议议题信息的词频；

将词频高于预设阈值的会议议题信息设置为关键词；

获取输入的关键词；

7.一种多人会议场景的结构化内容处理装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

分析单元，用于对所述多模态结构化信息进行分析，确定会议议题信息，所述会议议题信息包括议题内容的自动语义分类、基于关键词的议题内容的语义表征以及议题讨论活跃程度分析统计中的一项或两项及以上的组合。

9.一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5任一项所述方法的步骤。