CN106982344B

CN106982344B - 视频信息处理方法及装置

Info

Publication number: CN106982344B
Application number: CN201610028108.0A
Authority: CN
Inventors: 郭晓亮
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2016-01-15
Filing date: 2016-01-15
Publication date: 2020-02-21
Anticipated expiration: 2036-01-15
Also published as: CN106982344A

Abstract

本申请提供一种视频信息处理方法及装置。方法包括：对会议介绍过程进行录制，以获得会议介绍片段；对所述会议介绍片段进行语音识别，以获得所述会议的主题内容；根据所述会议的主题内容，生成所述会议的摘要信息。本申请可以更加简便的生成会议的摘要信息，提高生成效率。

Description

视频信息处理方法及装置

【技术领域】

本申请涉及通信技术领域，尤其涉及一种视频信息处理方法及装置。

【背景技术】

在视频会议场景中，会录制大量的视频文件。在后续过程中，如果想要从视频文件中快速查找自己需要的视频文件，往往需要粗略浏览整个视频文件，从而花费比较长的时间，影响工作的效率。

为便于后续检索，可以为视频文件生成摘要。后续可以基于摘要进行视频文件的检索，有利于提高检索效率。其中，一种为视频文件生成摘要的方法是：在会议时间线上的多个时间点中的每个时间点上，基于配置文件提取各个会场的关键信息，将各个会场的关键信息组合成关键索引点，基于多个时间点的多个关键索引点结合为会议摘要，这种方式比较复杂，效率较低。

【发明内容】

本申请的多个方面提供一种视频信息处理方法及装置，用以更加简便的生成会议的摘要信息，提高生成效率。

本申请的一方面，提供一种视频信息处理方法，包括：

对会议介绍过程进行录制，以获得会议介绍片段；

对所述会议介绍片段进行语音识别，以获得所述会议的主题内容；

根据所述会议的主题内容，生成所述会议的摘要信息。

本申请的另一方面，提供一种视频信息处理装置，包括：

录制模块，用于对会议介绍过程进行录制，以获得会议介绍片段；

识别模块，用于对所述会议介绍片段进行语音识别，以获得所述会议的主题内容；

生成模块，用于根据所述会议的主题内容，生成所述会议的摘要信息。

在本申请中，对会议介绍过程进行录制，获得会议介绍片段，对该会议介绍片段进行语音识别，获得会议的主题内容，根据会议的主题内容生成会议的摘要信息，实现相对简单，无需对整个会议过程进行信息提取，有利于提高生成会议摘要的效率。

【附图说明】

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一实施例提供的视频信息处理方法的流程示意图；

图2为本申请另一实施例提供的为视频文件构建索引的方法流程的示意图；

图3为本申请又一实施例提供的视频信息处理装置的结构示意图；

图4为本申请又一实施例提供的视频信息处理装置的结构示意图；

图5为本申请又一实施例提供的构建模块的一种结构示意图。

【具体实施方式】

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请一实施例提供的视频信息处理方法的流程示意图。如图1所示，该方法包括：

101、对会议介绍过程进行录制，以获得会议介绍片段。

102、对会议介绍片段进行语音识别，以获得会议的主题内容。

103、根据会议的主题内容，生成会议的摘要信息。

本实施例提供一种视频信息处理方法，可由视频信息处理装置来执行，用于生成会议摘要。

本实施例不对会议进行限制，也就是说，本实施例提供的方法可用于为任何会议生成摘要。所述会议可以是语音会议、视频会议、两个人参与的会议、或者多人参与的会议等。

一般情况下，在会议开始阶段，都会有会议介绍者(可以是会议的主持人，或者由主持人介绍的其它人员)对会议进行介绍，介绍内容一般包括会议的主题内容、会议的主办方、参会人员、会议过程安排等等。

在本实施例中，在会议开始阶段，对会议介绍过程进行录制，以获得会议介绍片段。在该会议介绍片段中包括会议的主题内容。通过对会议介绍片段进行语音识别，以获得会议的主题内容，根据会议的主题内容生成会议的摘要信息。

上述语音识别也被称为自动语音识别(Automatic Speech Recognition，ASR)，其目标是将语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。在本实施例中，主要是将会议介绍片段中的语音识别为文字，为生成会议的摘要信息提供条件。

在本实施例中，只需对会议介绍过程进行录制，获得会议介绍片段，对该会议介绍片段进行语音识别，获得会议的主题内容，根据会议的主题内容生成会议的摘要信息，实现相对简单，无需对整个会议过程的相关信息进行提取，有利于提高生成会议摘要的效率。

在一可选实施方式中，在对会议介绍过程进行录制之前，可以提示会议介绍者对会议进行介绍。例如，视频信息处理装置可以输出提示音，以提示会议介绍者对会议进行介绍，所示提示音可以是但不限于：“请进行会议介绍”、“请开始会议介绍”等形式。或者，视频信息处理装置也可以在会议屏幕上显示提示信息，以提示会议介绍者对会议进行介绍，所述提示信息可以是但不限于：“请进行会议介绍”、“请开始会议介绍”等形式。

进一步，在提示会议介绍者对会议进行介绍之前，可以对会议介绍者进行检测，在检测到会议介绍者后，提示会议介绍者进行自我介绍，对会议介绍者的自我介绍过程进行录制，以获取自我介绍片段；对自我介绍片段进行内容识别，以获取会议介绍者的个人信息。

例如，视频信息处理装置可以输出提示音，以提示会议介绍者进行自我介绍，所示提示音可以是但不限于：“请进行自我介绍”、“请自我介绍”等形式。或者，视频信息处理装置也可以在会议屏幕上显示提示信息，以提示会议介绍者进行自我介绍，所述提示信息可以是但不限于：“请进行自我介绍”、“请自我介绍”等形式。

对自我介绍片段进行内容识别包括：对自我介绍片段进行人脸识别和语音识别，以获取自我介绍片段包含的人脸图像和语音内容，根据自我介绍片段包含的人脸图像和语音内容生成会议介绍者的个人信息。会议介绍者的个人信息可以包括会议介绍者的人脸图像以及语音介绍的姓名、职位、所在公司名称等。

基于上述，一种生成会议的摘要信息的过程包括：根据会议的主题内容和会议介绍者的个人信息，生成会议的摘要信息。即，将会议的主题内容以及会议介绍者的个人信息整合起来构成会议的摘要信息。

其中，在对会议介绍者进行检测的过程中，如果未能成功检测到会议介绍者，可以提示会议介绍者调整摄像头，以便成功检测会议介绍者。

在对会议介绍过程进行录制的过程中，如何确定会议介绍过程结束是个关键问题。在本实施例中给出以下两种确定方法：

一种确定方法是：在对会议介绍过程进行录制的过程中，检测指定用语，并在检测到指定用语时，确定会议介绍结束。一般情况下，会议介绍结束时，都会有比较明显的用语，例如“那下面正式进入会议”、“我宣布会议正式开始”、“会议介绍告于段落”等，基于此，可以预先存储这些习惯性用语，在录制过程中，若检测到这些用语，可以确定会议介绍过程结束，从而获得会议介绍片段。

另一种确定方法是：在对会议介绍过程进行录制的过程中，判断已录制时间长度是否达到指定时间长度，并在判断结果为是时，确定会议介绍过程结束。一般来说，每个会议都会预先安排好会议各个阶段的时间，会议介绍过程的时间也是预先安排好的。基于此，可以预先存储会议介绍过程的时间长度，即指定时间长度，通过该指定时间长度确定会议介绍过程是否结束。值得说明的是，有时会议不一定按照预先安排的时间执行，可能会超过预先安排的时间，为此上述指定时间长度可以适当大于预先安排给会议介绍过程的时间，从而保证完整的录制整个会议介绍过程。另外，对于一些没有安排会议介绍过程所需时间的会议场景，所述指定时间长度也可以按照经验值设定。

进一步，在上述录制过程中，虽然会议介绍过程结束了，但并不意味着录制过程的结束。在会议介绍过程结束后，还可以继续对会议过程进行录制，这样可以对会议的整个过程进行录制，获得会议的视频文件。其中，只需获取会议介绍过程中录制的内容作为会议介绍片段。处理获得会议的视频文件之外，还可以为视频文件构建索引。

本申请还提供一种为视频文件构建索引的方法。其中，图2为本申请另一实施例提供的为视频文件构建索引的方法流程的示意图。如图2所示，该方法包括：

201、确定视频文件中需要构建索引的目标时间点。

202、获取上述目标时间点对应的视频片段。

203、对视频片段进行内容识别，以获得视频片段包含的内容。

204、根据视频片段包含的内容，生成上述目标时间点对应的索引。

本实施例提供一种为视频文件构建索引的方法，可由视频信息处理装置来执行，用于自动给视频文件构建索引。

本实施例不对视频文件进行限制，也就是说，本实施例提供的方法可用于为任何视频文件自动构建索引。

在为视频文件构建索引时，首先需要确定视频文件中需要构建索引的时间点，为便于描述，将视频文件中需要构建索引的时间点称为目标时间点；之后，获取该目标时间点对应的视频片段，基于该目标时间点对应的视频片段中的内容为该目标时间点构建索引。其中，视频片段中的内容主要是指视频片段中的人脸、情节以及语音等信息。

在一可选实施方式中，可以按照预设的索引构建周期，确定视频文件中需要构建索引的目标时间点。在具体实现上，可以设定一定时器，定时器的定时间隔为该索引构建周期，每当定时器定时结束时对应的时间点即为视频文件中需要构建索引的目标时间点。索引构建周期的取值可以根据应用场景的不同而适应性设置。举例说明，索引构建周期可以是一分钟、两分钟、五分钟等。

在另一可选实施方式中，可以预先设定该视频文件中需要构建索引的时间点数量，基于此，可以按照预设的需要构建索引的时间点数量，确定视频文件中需要构建索引的目标时间点。在具体实现上，可以随机确定视频文件对应时间区间内所述数量个时间点作为需要构建索引的目标时间点。或者，也可以采用均分的方式，按照所述数量将视频文件对应时间区间进行均分，将每个均分点对应的时间点作为需要构建索引的目标时间点。视频文件对应时间区间是指从视频文件开始到结束所限定的时间区间。

在确定视频文件中需要构建索引的目标时间点之后，就要获取该目标时间点对应的视频片段。可选的，可以选择目标时间点前后一小段时间内的视频内容作为该目标时间点对应的视频片段。例如可以选择目标时间点前后10秒或5秒内的视频内容作为目标时间点对应的视频片段。

目标时间点的索引实际上是能够反映该时间点对应的视频片段的内容但要比视频片段相对简单的一些信息，这些信息利于快速检索视频文件。因此，在获取目标时间点对应的视频片段之后，需要对该视频片段进行内容识别以获得视频片段包含的内容，之后，根据视频片段包含的内容生成目标时间点对应的索引。

可选的，一种对视频片段进行内容识别的实施过程包括：

对视频片段进行人脸识别和语音识别，以获得视频片段中的人脸图像和语音内容。

基于上述，一种根据视频片段包含的内容，生成目标时间点对应的索引的实施方式包括：

根据视频片段中的人脸图像和语音内容，生成视频片段的文字介绍；

将文字介绍整合在视频片段中以作为目标时间点对应的索引。

上述人脸识别是指基于人的脸部特征信息进行身份识别的一种生物识别技术。具体的，可以自动在视频片段中检测和跟踪人脸，进而对检测到的人脸进行特征识别，并与预设的人脸特征库中的特征进行比较，从而确定检测到的人脸对应的人物信息。

上述语音识别其目标是将语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。在本实施例中，主要是将视频片段中的语音识别为文字。

然后，将人脸识别出的人脸图像对应的人物信息与语音识别输出的文字进行整合，形成对视频片段的文字介绍。举例说明，假设人脸识别出的人脸图像对应的人物信息为xxx领导，语音识别输出的文字为：……明年公司的前景规划是….，则整合出的文字介绍可以是：演讲者：xxx领导，演讲内容：……明年公司的前景规划是……，或者可以是：xxx领导针对公司明年的前景规划提出了意见，主要是……。

可选的，在上述对视频片段进行人脸识别和语音识别的过程中，可能存在无法准确识别视频片段中的人脸的情况，例如，视频片段中的人物始终仅出现侧面。对于这种情况，如果强行为对应的目标时间点构建索引，所构建的索引可能不够准确，因此可以不对相应目标时间点构建索引，直接结束对当前目标时间点构建索引的操作，并继续为下一个目标时间点构建索引。

在一种具体应用场景中，可以在录制视频文件的过程中，为视频文件构建索引，即边录制视频文件边为视频文件构建索引，从而实现一种在线构建视频索引的方法。

在另一种具体应用场景中，也可以在回放视频文件的过程中，为视频文件构建索引，即在录制完视频文件之后为视频文件构建索引，从而实现一种离线构建视频索引的方法。

其中，在线构建视频索引的实时性更强，但对视频录制系统的性能要求较高；而离线构建视频索引对视频录制系统的性能要求较低，对视频录制过程的影响较小，但实时性较差。在线构建视频索引和离线构建视频索引各有优缺点，可根据具体应用场景选择是在线构建视频索引还是离线构建视频索引。

本实施例提供的为视频文件构建索引的方法尤其适用于对各种视频会议中录制的视频文件构建索引。也就是说，本实施例中需要构建索引的视频文件可以是视频会议中录制的文件。其中，视频会议过程中会录制大量的视频文件，这些视频文件一般只包图像和声音，所以在后续检索过程中耗时比较大。而通过本实施例提供的方法为视频会议中录制的视频文件构建索引后，可以通过索引对视频文件进行检索，有利于快速定位所需的视频文件或视频文件中的视频片段。

由上述可见，视频信息处理装置确定视频文件中需要构建索引的目标时间点，取得该目标时间点对应的视频片段，通过对视频片段进行内容识别，获得识别结果，然后根据识别结果生成目标时间点对应的索引，由于能够识别出视频片段中的内容，所以可以自动构建视频索引，提高了构建视频索引的效率。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

图3为本申请一实施例提供的视频信息处理装置的结构示意图。如图3所示，该装置包括：录制模块31、识别模块32和生成模块33。

录制模块31，用于对会议介绍过程进行录制，以获得会议介绍片段。

识别模块32，用于对会议介绍片段进行语音识别，以获得会议的主题内容。

生成模块33，用于根据会议的主题内容，生成会议的摘要信息。

在一可选实施方式中，如图4所示，该装置还包括：提示模块34。

提示模块34，用于提示会议介绍者对所述会议进行介绍。

在一可选实施方式中，如图4所示，该装置还包括：检测模块35。

检测模块35，用于在提示模块34提示会议介绍者对所述会议进行介绍之前，对会议介绍者进行检测。

所述提示模块34还用于：在所述检测模块35检测到所述会议介绍者后，提示所述会议介绍者进行自我介绍。

所述录制模块31还用于：对所述会议介绍者的自我介绍过程进行录制，以获取自我介绍片段。

所述识别模块32还用于：对所述自我介绍片段进行内容识别，以获取所述会议介绍者的个人信息。可选的，识别模块32具体可用于：对自我介绍片段进行人脸识别和语音识别，以获取自我介绍片段包含的人脸图像和语音内容，根据自我介绍片段包含的人脸图像和语音内容生成会议介绍者的个人信息。所述会议介绍者的个人信息包括但不限于：会议介绍者的人脸图像、姓名、职位、所在公司名称等。

在一可选实施方式中，录制模块31还用于：

检测指定用语，并在检测到所述指定用语时，确定所述会议介绍过程结束；或者

判断已录制时间长度是否达到指定时间长度，并在判断结果为是时，确定所述会议介绍过程结束。

在一可选实施方式中，如图4所示，该装置还包括：构建模块36。

录制模块31还用于：对所述会议的整个过程进行录制，以获取所述会议的视频文件。

所述构建模块36用于：为所述视频文件构建索引。

在一可选实施方式中，如图5所示，构建模块36的一种实现结构包括：

确定单元361，用于确定视频文件中需要构建索引的目标时间点。

获取单元362，用于获取确定单元361所确定的目标时间点对应的视频片段。

内容识别单元363，用于对获取单元362获取的视频片段进行内容识别，以获得视频片段包含的内容。

生成单元364，用于根据识别单元363获得的视频片段包含的内容，生成目标时间点对应的索引。

在一可选实施方式中，确定单元361具体可用于：

按照预设的索引构建周期，确定视频文件中需要构建索引的目标时间点；或者

按照预设的需要构建索引的时间点数量，确定视频文件中需要构建索引的目标时间点。

在一可选实施方式中，内容识别单元363具体用于：

基于此，生成单元364具体用于：

在一可选实施方式中，构建模块36具体用于：

在录制视频文件的过程中，为所述视频文件构建索引；或者

在回放视频文件的过程中，为所述视频文件构建索引。

本实施例提供的视频信息处理装置，可以在线为会议生成会议摘要，也可以在线或离线为会议的视频文件构建索引。

本实施例提供的视频信息处理装置，对会议介绍过程进行录制，获得会议介绍片段，对该会议介绍片段进行语音识别，获得会议的主题内容，根据会议的主题内容生成会议的摘要信息，实现相对简单，无需对整个会议过程进行信息提取，有利于提高生成会议摘要的效率。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种视频信息处理方法，其特征在于，包括：

对会议介绍者进行检测；

在检测到所述会议介绍者后，提示所述会议介绍者进行自我介绍；

对所述会议介绍者的自我介绍过程进行录制，以获取自我介绍片段；

对所述自我介绍片段进行内容识别，以获取所述会议介绍者的个人信息；

对会议介绍过程进行录制，以获得会议介绍片段；

根据所述会议的主题内容和所述会议介绍者的个人信息，生成所述会议的摘要信息。

2.根据权利要求1所述的方法，其特征在于，在对所述会议介绍过程进行录制的过程中包括：

3.根据权利要求1-2任一项所述的方法，其特征在于，还包括：

对所述会议的整个过程进行录制，以获取所述会议的视频文件；

为所述视频文件构建索引。

4.根据权利要求3所述的方法，其特征在于，所述为所述视频文件构建索引，包括：

确定所述视频文件中需要构建索引的目标时间点；

获取所述目标时间点对应的视频片段；

对所述视频片段进行内容识别，以获得所述视频片段包含的内容；

根据所述视频片段包含的内容，生成所述目标时间点对应的索引。

5.根据权利要求4所述的方法，其特征在于，所述确定所述视频文件中需要构建索引的目标时间点，包括：

按照预设的索引构建周期，确定所述视频文件中需要构建索引的目标时间点；或者

按照预设的需要构建索引的时间点数量，确定所述视频文件中需要构建索引的目标时间点。

6.根据权利要求4所述的方法，其特征在于，所述对所述视频片段进行内容识别，以获得所述视频片段包含的内容，包括：

对所述视频片段进行人脸识别和语音识别，以获得所述视频片段中的人脸图像和语音内容。

7.根据权利要求6所述的方法，其特征在于，所述根据所述视频片段包含的内容，生成所述目标时间点对应的索引，包括：

根据所述视频片段中的人脸图像和语音内容，生成所述视频片段的文字介绍；

将所述文字介绍整合在所述视频片段中以作为所述目标时间点对应的索引。

8.根据权利要求3所述的方法，其特征在于，所述为所述视频文件构建索引，包括：

在录制所述视频文件的过程中，为所述视频文件构建索引；或者

在回放所述视频文件的过程中，为所述视频文件构建索引。

9.一种视频信息处理装置，其特征在于，包括：

检测模块，用于对会议介绍者进行检测；

提示模块，用于在所述检测模块检测到所述会议介绍者后，提示所述会议介绍者进行自我介绍；

录制模块，用于对所述会议介绍者的自我介绍过程进行录制，以获取自我介绍片段；

识别模块，用于对所述自我介绍片段进行内容识别，以获取所述会议介绍者的个人信息；

所述录制模块，还用于对会议介绍过程进行录制，以获得会议介绍片段；

所述识别模块，还用于对所述会议介绍片段进行语音识别，以获得所述会议的主题内容；

生成模块，用于根据所述会议的主题内容和所述会议介绍者的个人信息，生成所述会议的摘要信息。

10.根据权利要求9所述的装置，其特征在于，所述录制模块还用于：

11.根据权利要求9-10任一项所述的装置，其特征在于，还包括：构建模块；

所述录制模块还用于：对所述会议的整个过程进行录制，以获取所述会议的视频文件；

所述构建模块用于：为所述视频文件构建索引。

12.根据权利要求11所述的装置，其特征在于，所述构建模块包括：

确定单元，用于确定所述视频文件中需要构建索引的目标时间点；

获取单元，用于获取所述目标时间点对应的视频片段；

内容识别单元，用于对所述视频片段进行内容识别，以获得所述视频片段包含的内容；

生成单元，用于根据所述视频片段包含的内容，生成所述目标时间点对应的索引。

13.根据权利要求12所述的装置，其特征在于，所述确定单元具体用于：

14.根据权利要求12所述的装置，其特征在于，所述识别单元具体用于：

15.根据权利要求14所述的装置，其特征在于，所述生成单元具体用于：

16.根据权利要求11所述的装置，其特征在于，所述构建模块具体用于：

在回放所述视频文件的过程中，为所述视频文件构建索引。