CN109348275B

CN109348275B - 视频处理方法和装置

Info

Publication number: CN109348275B
Application number: CN201811277817.8A
Authority: CN
Inventors: 李会娟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-10-30
Filing date: 2018-10-30
Publication date: 2021-07-30
Anticipated expiration: 2038-10-30
Also published as: CN109348275A

Abstract

本申请提出一种视频处理方法和装置，其中，方法包括：在视频播放过程中，监测用户指令；当监测到所述用户指令时，暂停所述视频的播放，并确定所述视频停留的视频帧；对所述用户指令进行语义识别，以确定搜索对象和搜索意图；根据所述搜索意图，对所述视频帧中呈现有所述搜索对象的区域进行图像识别，得到符合所述搜索意图的对象描述信息；对符合所述搜索意图的对象描述信息进行展示。该方法能够实现基于视频内容进行搜索，获取与用户搜索意图对应的对象描述信息，不仅可以丰富视频搜索方式，还可以满足用户的实际搜索需求，提升用户的使用体验。

Description

视频处理方法和装置

技术领域

本申请涉及图像处理技术领域，尤其涉及一种视频处理方法和装置。

背景技术

随着终端技术以及互联网技术的不断发展，各种应用程序如雨后春笋般不断出现。用户可以根据自身需求在终端设备上安装不同类别的应用程序(Application，简称APP)，例如视频类APP、社交类APP、支付类APP、娱乐类APP等。

相关技术中，对于社交类APP，用户可以通过视频类别、视频名称、演员姓名等相关文本进行搜索，获取相关视频内容。然而，一些场景下，当用户对视频中展现的内容感兴趣时，比如对视频中的车感兴趣时，用户只能通过线下在搜索引擎进行提问或搜索，获取对应的感兴趣信息，操作步骤较为繁琐。

发明内容

本申请提出一种视频处理方法和装置，以实现基于视频内容进行搜索，获取与用户搜索意图对应的对象描述信息，不仅可以丰富视频搜索方式，还可以满足用户的实际搜索需求，提升用户的使用体验。并且，无需用户线下进行提问或搜索，可以简化用户操作，进一步提升用户的使用体验，用于解决现有技术中当用户对视频中展现的内容感兴趣时，用户只能通过线下在搜索引擎进行提问或搜索，获取对应的感兴趣信息，操作步骤较为繁琐的技术问题。

本申请一方面实施例提出了一种视频处理方法，包括：

在视频播放过程中，监测用户指令；

当监测到所述用户指令时，暂停所述视频的播放，并确定所述视频停留的视频帧；

对所述用户指令进行语义识别，以确定搜索对象和搜索意图；

根据所述搜索意图，对所述视频帧中呈现有所述搜索对象的区域进行图像识别，得到符合所述搜索意图的对象描述信息；

对符合所述搜索意图的对象描述信息进行展示。

本申请实施例的视频处理方法，通过在视频播放过程中，监测用户指令，当监测到所述用户指令时，暂停所述视频的播放，并确定所述视频停留的视频帧，而后，对所述用户指令进行语义识别，以确定搜索对象和搜索意图，接着根据所述搜索意图，对所述视频帧中呈现有所述搜索对象的区域进行图像识别，得到符合所述搜索意图的对象描述信息，最后，对符合所述搜索意图的对象描述信息进行展示。由此，可以实现基于视频内容进行搜索，获取与用户搜索意图对应的对象描述信息，不仅可以丰富视频搜索方式，还可以满足用户的实际搜索需求，提升用户的使用体验。并且，无需用户线下进行提问或搜索，可以简化用户操作，进一步提升用户的使用体验。

本申请又一方面实施例提出了一种视频处理装置，包括：

监测模块，用于在视频播放过程中，监测用户指令；

控制模块，用于当监测到所述用户指令时，暂停所述视频的播放，并确定所述视频停留的视频帧；

第一识别模块，用于对所述用户指令进行语义识别，以确定搜索对象和搜索意图；

第二识别模块，用于根据所述搜索意图，对所述视频帧中呈现有所述搜索对象的区域进行图像识别，得到符合所述搜索意图的对象描述信息；

展示模块，用于对符合所述搜索意图的对象描述信息进行展示。

本申请实施例的视频处理装置，通过在视频播放过程中，监测用户指令，当监测到所述用户指令时，暂停所述视频的播放，并确定所述视频停留的视频帧，而后，对所述用户指令进行语义识别，以确定搜索对象和搜索意图，接着根据所述搜索意图，对所述视频帧中呈现有所述搜索对象的区域进行图像识别，得到符合所述搜索意图的对象描述信息，最后，对符合所述搜索意图的对象描述信息进行展示。由此，可以实现基于视频内容进行搜索，获取与用户搜索意图对应的对象描述信息，不仅可以丰富视频搜索方式，还可以满足用户的实际搜索需求，提升用户的使用体验。并且，无需用户线下进行提问或搜索，可以简化用户操作，进一步提升用户的使用体验。

本申请又一方面实施例提出了一种计算机设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如本申请前述实施例提出的视频处理方法。

本申请又一方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请前述实施例提出的视频处理方法。

本申请又一方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，执行如本申请前述实施例提出的视频处理方法。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例一所提供的视频处理方法的流程示意图；

图2为本申请实施例二所提供的视频处理方法的流程示意图；

图3为本申请实施例三所提供的视频处理方法的流程示意图；

图4为本申请实施例四所提供的视频处理方法的流程示意图；

图5为本申请实施例五所提供的视频处理装置的结构示意图；

图6为本申请实施例六所提供的视频处理装置的结构示意图；

图7示出了适于用来实现本申请实施方式的示例性计算机设备的框图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

本申请主要针对现有技术中当用户对视频中展现的内容感兴趣时，用户只能通过线下在搜索引擎进行提问或搜索，获取对应的感兴趣信息，操作步骤较为繁琐的技术问题，提出一种视频处理方法。

下面参考附图描述本申请实施例的视频处理方法和装置。

图1为本申请实施例一所提供的视频处理方法的流程示意图。

本申请实施例以该视频处理方法被配置于视频处理装置中来举例说明，该视频处理装置可以被配置于任何计算机设备中，以该计算机设备可以执行视频处理功能。

其中，计算机设备可以为个人电脑(Personal Computer，简称PC)、云端设备、移动设备等，移动设备例如可以为手机、平板电脑、个人数字助理、穿戴式设备、车载设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。

如图1所示，该视频处理方法包括以下步骤：

步骤101，在视频播放过程中，监测用户指令。

本申请实施例中，用户指令具体可以指语音形式的用户指令。

本申请实施例中，当用户通过计算机设备上的视频类APP观看视频时，或者，当用户通过各大视频网站观看视频时，若用户对视频中的某样事物感兴趣时，用户可以触发用户指令。例如，视频中出现一辆用户感兴趣的车时，用户可以语音输入用户指令为“这是什么车”，或者，视频中出现一朵漂亮的花时，用户可以语音输入用户指令为“这是什么花”。

具体地，在视频播放过程中，视频处理装置可以通过侦听方式，监测用户指令。当侦听到用户语音输入的用户指令时，可以触发步骤102，而当未侦听到用户指令时，可以继续播放视频。

步骤102，当监测到用户指令时，暂停视频的播放，并确定视频停留的视频帧。

本申请实施例中，在视频处理装置监测到用户指令时，可以暂停视频的播放，并确定视频停留的视频帧，以根据该视频帧进行后续处理。

作为一种可能的实现方式，用户还可以根据自身喜好设置唤醒词，当用户语音输入唤醒词时，可以暂停视频的播放，并确定视频停留的视频帧。由此，当计算机设备为移动终端时，可以避免该计算机设备一直处于唤醒状态，提升该计算机设备的续航能力。

步骤103，对用户指令进行语义识别，以确定搜索对象和搜索意图。

作为一种可能的实现方式，在监测到用户指令后，首先可以识别用户指令的类型，根据用户指令的类型，确定用户的实际需求为搜索需求还是控制需求。当用户的实际需求为搜索需求时，可以对用户指令进行语义识别，以确定搜索对象和搜索意图。而当用户的实际需求为控制需求时，可以直接执行对应的用户指令。

举例而言，当用户指令为“这是什么车”时，可以确定用户的实际需求为搜索需求，此时，可以对用户指令进行语义识别，确定搜索对象为“车”，搜索意图为“车型”、“车辆的品牌”等等。而当用户指令为“调大音量”时，可以确定用户的实际需求为控制需求，此时，可以直接执行该用户指令，以调节音量，从而可以准确识别用户的实际需求。

本申请实施例中，当确定用户的实际需求为搜索需求时，可以将用户指令从语言形式转换为文本形式，并对文本形式的用户指令进行语义识别，以确定搜索对象和搜索意图。例如，用户指令为“这个人是谁”，对用户指令进行语义识别，可以确定搜索对象为“人”，搜索意图为“姓名”、“年龄”、“性别”等。

步骤104，根据搜索意图，对视频帧中呈现有搜索对象的区域进行图像识别，得到符合搜索意图的对象描述信息。

本申请实施例中，对象描述信息为描述搜索对象，且符合搜索意图的相关信息，例如，当搜索对象为“车”，搜索意图为“车型”时，对象描述信息为视频帧中呈现的车辆对应的车型的相关信息。

本申请实施例中，视频帧中呈现有搜索对象的区域可以为至少一个，例如，当搜索对象为“车”时，视频帧中可以具有多辆车，此时，可以对视频帧中呈现有搜索对象的每个区域，进行图像识别，获取符合搜索意图的对象描述信息。

作为一种可能的实现方式，可以预先针对不同搜索对象的每个搜索意图，训练与该搜索意图匹配的图像识别模型，例如，当搜索对象为“车”时，搜索意图可以为“车型”、“车辆的品牌”、“车辆的性能”、“车辆的价格”等等，针对每个搜索意图，可以预先训练与该搜索意图匹配的图像识别模型，其中，经过训练后的图像识别模型可以学习得到图像特征与符合相应搜索意图的对象描述信息之间的对应关系。例如，当搜索对象为“车”时，可以预先训练与“车型”匹配的图像识别模型、与“车辆的品牌”匹配的图像识别模型、与“车辆的价格”匹配的图像识别模型等等。

而后，可以建立搜索对象、搜索意图和图像识别模型之间的关联关系，在确定搜索对象和搜索意图后，可以根据搜索对象，查询上述关联关系，获取与搜索对象关联的各图像识别模型，而后再根据搜索意图，从搜索对象关联的各图像识别模型中，确定与搜索意图匹配的图像识别模型，之后，可以对视频帧中呈现有搜索对象的区域进行图像特征提取，将提取到的图像特征输入与搜索意图匹配的图像识别模型，得到符合搜索意图的对象描述信息。

步骤105，对符合搜索意图的对象描述信息进行展示。

可以理解的是，视频帧中呈现有搜索对象的区域只有一个时，此时，为了不影响用户观看当前视频画面，可以将符合搜索意图的对象描述信息在视频帧的预设区域进行展示，例如，可以将对象描述信息展示在当前播放页面的最下端、最右端、最左端等等，或者，还可以将对象描述信息展示在视频帧中搜索对象的下端、上端、左端、右端等等，对此不作限制。

而当中呈现有搜索对象的区域为至少两个时，符合搜索意图的对象描述信息同样为至少两个，为了便于用户区分每个对象描述信息，可以将对象描述信息展示在视频帧中相应搜索对象的下端、上端、左端、或、右端。

举例而言，当用户指令为“这是什么车”时，符合搜索意图的对象描述信息可以为：北汽新能源，此时，可以在视频帧中搜索对象的下端展示符合搜索意图的对象描述信息。

为了清楚说明上一实施例，本实施例提供了另一种视频处理方法，图2为本申请实施例二所提供的视频处理方法的流程示意图。

如图2所示，该视频处理方法可以包括以下步骤：

步骤201，在视频播放过程中，监测用户指令。

步骤202，当监测到用户指令时，暂停视频的播放，并确定视频停留的视频帧。

步骤203，对用户指令进行语义识别，以确定搜索对象和搜索意图。

步骤201至203的执行过程，可以参见上述实施例中步骤101至103的执行过程，在此不做赘述。

步骤204，获取视频的视频基本信息，以及识别视频帧中呈现的对象。

本申请实施例中，视频基本信息可以包括视频类型、导演姓名、演员表、内容梗概、拍摄地点等信息。具体地，在暂停视频的播放后，可以在线获取视频基本信息，或者，可以从预先配置的数据库中，获取视频基本信息，对此不作限制，其中，数据库中保存有视频和视频基本信息之间的映射关系。

可选地，可以采集包含不同对象的图像数据，作为训练样本，并对训练样本中的各对象进行标注，利用标注后的训练样本，对识别模型进行训练，利用训练后的识别模型，对视频帧进行识别，可以确定视频帧中呈现的对象。

步骤205，判断搜索意图是否与视频帧中呈现的对象和/或视频基本信息相关，若是，执行步骤，若否，执行步骤206。

步骤206，继续对视频进行播放。

本申请实施例中，当搜索意图与视频帧中呈现的对象，以及视频基本信息均不相关时，此时，可能表明用户的实际需求并非搜索需求和控制需求，举例而言，用户在和其他观众讨论剧情等，因此，可以继续对视频进行播放。

步骤207，从搜索对象关联的各图像识别模型中，确定与搜索意图匹配的图像识别模型。

其中，图像识别模型预先学习得到图像特征与符合相应搜索意图的对象描述信息之间的对应关系。

本申请实施例中，当搜索意图与视频帧中呈现的对象和/或视频基本信息相关时，表明用户的实际需求为搜索需求，此时，可以从搜索对象关联的各图像识别模型中，确定与搜索意图匹配的图像识别模型。

作为一种可能的实现方式，针对每个搜索对象，可以预先训练对应的图像识别模型，具体地，针对每个搜索对象，可以获取多个训练集；其中，每一训练集对应一个搜索意图，包括所述搜索对象的多张训练图像，每一张训练图像具有用于指示对象描述信息的标注，即可以预先对每一张训练图像中的对象描述信息进行标注，同一训练集中各训练图像的标注符合相同的搜索意图，而后，可以采用多个训练集，对匹配相应搜索意图的图像识别模型进行训练，经过训练后的图像识别模型可以学习得到图像特征与符合相应搜索意图的对象描述信息之间的对应关系。

而后，可以建立搜索对象、搜索意图和图像识别模型之间的关联关系，在确定搜索对象和搜索意图后，可以根据搜索对象，查询上述关联关系，获取与搜索对象关联的各图像识别模型，而后再根据搜索意图，从搜索对象关联的各图像识别模型中，确定与搜索意图匹配的图像识别模型。

步骤208，对视频帧中呈现有搜索对象的区域进行图像特征提取。

可选地，在利用识别模型，对视频帧中呈现的对象进行识别后，可以确定视频帧中呈现有搜索对象的区域，而后可以利用相关技术中的图像识别算法，对呈现有搜索对象的区域进行图像特征提取，获取该区域对应的图像特征，此处不做赘述。

步骤209，将提取到的图像特征输入与搜索意图匹配的图像识别模型，得到符合搜索意图的对象描述信息。

本申请实施例中，由于经过训练后的图像识别模型已学习得到图像特征与符合相应搜索意图的对象描述信息之间的对应关系，因此，在提取到图像特征后，可以将提取到的图像特征输入至与搜索意图匹配的图像识别模型中，得到符合搜索意图的对象描述信息。

步骤210，对符合搜索意图的对象描述信息进行展示。

步骤210的执行过程，可以参见上述实施例中步骤105的执行过程，在此不做赘述。

本申请实施例的视频处理方法，通过采用训练后的图像识别模型，对视频帧中呈现有搜索对象的区域进行图像识别，得到符合搜索意图的对象描述信息，可以保证识别结果的准确性，以及保证识别的效率。

作为一种可能的实现方式，参见图3，在图1至图2所示实施例的基础上，在得到符合搜索意图的对象描述信息之后，该视频处理方法还可以包括以下步骤：

步骤301，将对象描述信息和/或用户指令作为搜索关键词，在搜索引擎上进行搜索。

步骤302，确定是否搜索到相关的页面内容和/或页面链接，若是，执行步骤303，若否，执行步骤304。

本申请实施例中，将对象描述信息和/或用户指令作为搜索关键词，在搜索引擎上进行搜索，以得到相关的页面内容和/或页面链接，从而用户可以了解具体的详情信息。

举例而言，当对象描述信息为“北汽新能源”，用户指令为“这车多少钱”时，将“北汽新能源”和“这车多少钱”作为搜索关键词，在搜索引擎上进行搜索，可以搜索到相关的页面内容，和/或，搜索到相关的页面链接，比如购买链接等。

步骤303，在视频的播放界面，根据页面内容和/或页面链接进行展示。

本申请实施例中，在搜索到相关的页面内容和/或页面链接后，可以在视频的播放界面，根据页面内容和/或页面链接进行展示。由此，用户可以通过该页面内容了解详情信息，和/或，用户可以点击该页面链接，比如购买链接，跳转到相应页面，了解详情信息。

进一步地，当展示完相关的页面内容和/或页面链接后，还可以由用户对此次的搜索体验进行简短评价或评分，然后可以继续播放视频，以根据用户的反馈，不断完善相关算法，为用户提供更好的服务。

步骤304，显示用于执行提问操作的网络链接，或者，根据用户指令以及视频帧，生成提问问题，并在在预设的提问页面，对提问问题进行发布。

本申请实施例中，当未搜索到相关的页面内容和/或页面链接时，可以在视频帧的预设区域显示用于执行提问操作的网络链接，例如百度知道的链接，从而用户可以点击该网络链接跳转至对应问答平台，而后可以登录用户账户并进行提问。

或者，当未搜索到相关的页面内容和/或页面链接时，还可以根据用户指令以及视频帧，生成提问问题，并在在预设的提问页面，例如百度知道，对提问问题进行发布。从而当其他用户对该提问问题进行回复时，可以对用户进行提示，例如可以通过站内消息或短信等方式，对用户进行提示。由此，可以为用户提供不同的处理策略，提升该方法的适用性。

作为一种示例，参见图4，图4为本申请实施例四所提供的视频处理方法的流程示意图。如图4所示，该视频处理方法包括以下步骤：

步骤401，在视频播放过程中，接收唤醒词。

步骤402，监测用户指令。

步骤403，当监测到用户指令时，暂停视频的播放、获取视频基本信息、识别视频帧中呈现的对象，以及对用户指令进行语义识别，以确定搜索对象和搜索意图。

步骤404，判断搜索意图是否与视频帧中呈现的对象，以及视频基本信息中的至少一个相关，即判断搜索意图是否与视频相关，若是，执行步骤406，若否，执行步骤405。

步骤405，对用户进行提示，继续对视频进行播放。

本申请实施例中，当搜索意图与视频不相关时，为了不影响用户观看视频内容，可以对用户进行语音提示，并继续对视频进行播放。

步骤406，基于图像识别技术，确定符合搜索意图的对象描述信息。

步骤407，将对象描述信息和/或用户指令作为搜索关键词，在搜索引擎上进行搜索。

步骤408，确定是否搜索到相关的页面内容和/或页面链接，若是，执行步骤409，若否，执行步骤411。

步骤409，在视频的播放界面，展示页面内容和/或页面链接。

步骤410，获取用户评价信息，并继续对视频进行播放。

步骤411，确定用户账户的登录状态。

步骤412，若为未登录状态，则显示用于执行提问操作的网络链接，从而用户可以点击该网络链接跳转至对应问答平台，而后可以登录用户账户并进行提问。

步骤413，若为已登录状态，则根据用户指令以及视频帧，生成提问问题。

步骤414，在视频的播放界面，提示用户是否将提问问题发布到预设的提问页面，若是，执行步骤415，若否，执行步骤416。

步骤415，在预设的提问页面，对提问问题进行发布。

步骤416，继续对视频进行播放。

为了实现上述实施例，本申请还提出一种视频处理装置。

图5为本申请实施例五所提供的视频处理装置的结构示意图。

如图5所示，该视频处理装置包括：监测模块101、控制模块102、第一识别模块103、第二识别模块104，以及展示模块105。

其中，监测模块101，用于在视频播放过程中，监测用户指令。

控制模块102，用于当监测到用户指令时，暂停视频的播放，并确定视频停留的视频帧。

第一识别模块103，用于对用户指令进行语义识别，以确定搜索对象和搜索意图。

第二识别模块104，用于根据搜索意图，对视频帧中呈现有搜索对象的区域进行图像识别，得到符合搜索意图的对象描述信息。

作为一种可能的实现方式，第二识别模块104，具体用于：从搜索对象关联的各图像识别模型中，确定与搜索意图匹配的图像识别模型；其中，图像识别模型预先学习得到图像特征与符合相应搜索意图的对象描述信息之间的对应关系；对视频帧中呈现有搜索对象的区域进行图像特征提取；将提取到的图像特征输入与搜索意图匹配的图像识别模型，得到符合搜索意图的对象描述信息。

展示模块105，用于对符合搜索意图的对象描述信息进行展示。

进一步地，在本申请实施例的一种可能的实现方式中，参见图6，在图5所示实施例的基础上，该视频处理装置还可以包括：

获取模块106，用于在从搜索对象关联的各图像识别模型中，确定与搜索意图匹配的图像识别模型之前，获取多个训练集；其中，每一训练集对应一个搜索意图，包括搜索对象的多张训练图像，每一张训练图像具有用于指示对象描述信息的标注，同一训练集中各训练图像的标注符合相同的搜索意图。

训练模块107，用于采用多个训练集，对匹配相应搜索意图的图像识别模型进行训练。

处理模块108，用于在根据搜索意图，对视频帧中呈现有搜索对象的区域进行图像识别，得到符合搜索意图的对象描述信息之前，获取视频的视频基本信息，以及识别视频帧中呈现的对象，以及确定搜索意图，与视频帧中呈现的对象，以及视频基本信息中的至少一个相关。

作为一种可能的实现方式，处理模块108，还用于：若确定搜索意图，与视频帧中呈现的对象，以及视频基本信息均不相关，继续对视频进行播放。

搜索模块109，用于在得到符合搜索意图的对象描述信息之后，将对象描述信息和/或用户指令作为搜索关键词，在搜索引擎上进行搜索，以得到相关的页面内容和/或页面链接。

展示模块105，还用于：在视频的播放界面，根据页面内容和/或页面链接进行展示。

显示模块110，用于若未搜索到相关的页面内容和/或页面链接，显示用于执行提问操作的网络链接。

生成模块111，用于若未搜索到相关的页面内容和/或页面链接，根据用户指令以及视频帧，生成提问问题。

发布模块112，用于在预设的提问页面，对提问问题进行发布。

转换模块113，用于在用户指令为语音形式，对用户指令进行语义识别之前，将用户指令从语音形式转换为文本形式。

需要说明的是，前述对视频处理方法实施例的解释说明也适用于该实施例的视频处理装置，此处不再赘述。

为了实现上述实施例，本申请还提出一种计算机设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如本申请前述实施例提出的视频处理方法。

为了实现上述实施例，本申请还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请前述实施例提出的视频处理方法。

为了实现上述实施例，本申请还提出一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，执行如本申请前述实施例提出的视频处理方法。

图7示出了适于用来实现本申请实施方式的示例性计算机设备的框图。图7显示的计算机设备12仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图7所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture；以下简称：ISA)总线，微通道体系结构(Micro Channel Architecture；以下简称：MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation；以下简称：VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection；以下简称：PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory；以下简称：RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图7未显示，通常称为“硬盘驱动器”)。尽管图7中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如：光盘只读存储器(Compact Disc Read OnlyMemory；以下简称：CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory；以下简称：DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network；以下简称：LAN)，广域网(Wide Area Network；以下简称：WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现前述实施例中提及的视频处理方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种视频处理方法，其特征在于，所述方法包括以下步骤：

在视频播放过程中，监测用户指令；

从所述搜索对象关联的各图像识别模型中，确定与所述搜索意图匹配的图像识别模型；其中，所述图像识别模型预先学习得到图像特征与符合相应搜索意图的对象描述信息之间的对应关系；

对所述视频帧中呈现有所述搜索对象的区域进行图像特征提取；

将提取到的图像特征输入与所述搜索意图匹配的图像识别模型，得到符合所述搜索意图的对象描述信息；

在所述视频帧呈现有所述搜索对象的周边区域，对符合所述搜索意图的对象描述信息进行展示。

2.根据权利要求1所述的视频处理方法，其特征在于，所述从所述搜索对象关联的各图像识别模型中，确定与所述搜索意图匹配的图像识别模型之前，还包括：

获取多个训练集；其中，每一训练集对应一个搜索意图，包括所述搜索对象的多张训练图像，每一张训练图像具有用于指示对象描述信息的标注，同一训练集中各训练图像的标注符合相同的搜索意图；

采用所述多个训练集，对匹配相应搜索意图的图像识别模型进行训练。

3.根据权利要求1-2任一项所述的视频处理方法，其特征在于，所述从所述搜索对象关联的各图像识别模型中，确定与所述搜索意图匹配的图像识别模型之前，还包括：

获取所述视频的视频基本信息，以及识别所述视频帧中呈现的对象；

确定所述搜索意图，与所述视频帧中呈现的对象，以及所述视频基本信息中的至少一个相关。

4.根据权利要求3所述的视频处理方法，其特征在于，所述获取所述视频的视频基本信息，以及识别所述视频帧中呈现的对象之后，还包括：

若确定所述搜索意图，与所述视频帧中呈现的对象，以及所述视频基本信息均不相关，继续对所述视频进行播放。

5.根据权利要求1-2任一项所述的视频处理方法，其特征在于，所述得到符合所述搜索意图的对象描述信息之后，还包括：

将所述对象描述信息和/或所述用户指令作为搜索关键词，在搜索引擎上进行搜索，以得到相关的页面内容和/或页面链接；

在所述视频的播放界面，根据所述页面内容和/或页面链接进行展示。

6.根据权利要求5所述的视频处理方法，其特征在于，所述将所述对象描述信息和/或所述用户指令作为搜索关键词，在搜索引擎上进行搜索之后，还包括：

若未搜索到相关的页面内容和/或页面链接，显示用于执行提问操作的网络链接。

7.根据权利要求5所述的视频处理方法，其特征在于，所述将所述对象描述信息和/或所述用户指令作为搜索关键词，在搜索引擎上进行搜索之后，还包括：

若未搜索到相关的页面内容和/或页面链接，根据所述用户指令以及所述视频帧，生成提问问题；

在预设的提问页面，对所述提问问题进行发布。

8.根据权利要求1-2任一项所述的视频处理方法，其特征在于，所述用户指令为语音形式，所述对所述用户指令进行语义识别之前，还包括：

将所述用户指令从语音形式转换为文本形式。

9.一种视频处理装置，其特征在于，所述装置包括：

监测模块，用于在视频播放过程中，监测用户指令；

第二识别模块，用于从所述搜索对象关联的各图像识别模型中，确定与所述搜索意图匹配的图像识别模型；其中，所述图像识别模型预先学习得到图像特征与符合相应搜索意图的对象描述信息之间的对应关系；对所述视频帧中呈现有所述搜索对象的区域进行图像特征提取；将提取到的图像特征输入与所述搜索意图匹配的图像识别模型，得到符合所述搜索意图的对象描述信息；

展示模块，用于在所述视频帧呈现有所述搜索对象的周边区域，对符合所述搜索意图的对象描述信息进行展示。

10.一种计算机设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如权利要求1-8中任一所述的视频处理方法。

11.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-8中任一所述的视频处理方法。