CN108388570A

CN108388570A - 对视频进行分类匹配的方法、装置和挑选引擎

Info

Publication number: CN108388570A
Application number: CN201810019243.8A
Authority: CN
Inventors: 罗江春; 陈锡岩
Original assignee: Beijing Survey Technology Co Ltd
Current assignee: Beijing Survey Technology Co Ltd
Priority date: 2018-01-09
Filing date: 2018-01-09
Publication date: 2018-08-10
Anticipated expiration: 2038-01-09
Also published as: CN108388570B; JP2021510216A; WO2019137391A1; US20200356781A1; EP3739470A4; KR20200102500A; EP3739470A1

Abstract

本发明的目的是提供一种对视频进行分类匹配的方法、装置和挑选引擎。根据本发明的方法，包括：对至少一个视频的内容进行多维度识别，以确定所述至少一个视频的摘要信息；基于所述至少一个视频各自的摘要信息，来生成所述至少一个视频各自的分类属性信息，其中，所述分类标签信息包括所述视频的人文属性信息；其中，所述人文属性信息用于指示所述视频所对应的价值判断。本发明具有以下优点：通过对视频的多维度识别，充分挖掘出视频内容的各项分类属性，并进而获得视频的人文属性。从而能够基于视频的人文属性来进行筛选，将其推荐给更加匹配的用户。

Description

对视频进行分类匹配的方法、装置和挑选引擎

技术领域

本发明涉及计算机技术领域，尤其涉及一种对视频进行分类匹配的方法、装置和挑选引擎。

背景技术

现有技术的搜索引擎中，搜索视频信息时，仅能基于其一些外部标签进行分类，例如，采用视频的标题，剧照等来获得外部标签分类后进行搜索。但是，这种方式无法真实的反映视频本身内容对应的信息，因而仅基于外部标签分类进行搜索获得的结果，其匹配度通常较低。

并且，用户本身的背景、经历、以及价值判断方面的差异，会使得用户偏向于选择不同的视频。因此，如何能将最匹配的视频结果给与其内容价值观真正相近的用户，真正实现精确匹配，是亟待解决的问题。

发明内容

本发明的目的是提供一种对视频进行分类匹配的方法、装置和挑选引擎。

根据本发明的一个方面，提供了一种对视频进行分类匹配的方法，其中，所述方法包括以下步骤：

a对至少一个视频的内容进行多维度识别，以确定所述至少一个视频的摘要信息；

b基于所述至少一个视频各自的摘要信息，来生成所述至少一个视频各自的分类属性信息，其中，所述分类标签信息包括所述视频的人文属性信息；其中，所述人文属性信息用于指示所述视频所对应的价值判断。

根据本发明的一个方面，还提供了一种对视频进行分类匹配的视频分类装置，其中，所述视频分类装置包括：

识别装置，用于对至少一个视频的内容进行多维度识别，以确定所述至少一个视频的摘要信息；

生成装置，用于基于所述至少一个视频各自的摘要信息，来生成所述至少一个视频各自的分类属性信息，其中，所述分类标签信息包括所述视频的人文属性信息；其中，所述人文属性信息用于指示所述视频所对应的价值判断。

根据本发明的另一个方面，还提供一种挑选引擎，其中，所述挑选引擎包括所述的视频分类装置。

与现有技术相比，本发明具有以下优点：与现有的搜索引擎不同，根据本发明的挑选引擎通过对视频的多维度识别，充分挖掘出视频内容的各项分类属性，并进而获得视频的人文属性。从而能够基于视频的人文属性来进行筛选，将其推荐给更加匹配的用户。使得视频推荐更加精准。并且，通过分析用户的使用场景，可进一步为期推荐与各个场景对应的视频，进一步提升用户体验。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1示意出了根据本发明的一个实施例的对视频进行分类匹配的方法流程示意图；

图2示意出了根据本发明的一个实施例的对视频进行分类匹配的视频分类装置的结构示意图；

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本发明作进一步详细描述。

其中，执行本发明方法的视频分类装置通过计算机设备来实现。所述计算机具有存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该处理器执行程序相应的计算机程序时实现如存取装置所执行的方法。此外，通过在计算机可读存储介质上存储相应的计算机程序，以使得处理器执行该程序时可实现如控制装置对应的方法。

其中，所述计算机设备包括一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的电子设备，其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。所述计算机设备可包括网络设备和/或用户设备。

优选地，所述计算机设备包括用户设备和/或网络设备。

其中，所述用户设备包括但不限于任何一种可内嵌于所述车辆中并可与用户触控方式进行人机交互的电子产品，例如，内嵌智能导航设备、平板电脑等。其中，所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(CloudComputing)的由大量主机或网络服务器构成的云，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。

其中，所述网络设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。需要说明的是，所述用户设备、网络设备以及网络仅为举例，其他现有的或今后可能出现网络设备以及网络如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

优选地，根据本发明的视频分类装置包括于一挑选引擎中。

该挑选引擎用于从海量的数据中，挑选出与用户最为匹配的结果。

优选地，该挑选引擎应用于视频挑选过程中，实现向用户推荐最为符合其价值判断的视频。

参照图1，图1示意出了根据本发明的一种优选实施例的对视频进行分类匹配的方法流程示意图。

根据本发明的方法包括步骤S1和步骤S2。

在步骤S1中，视频分类装置对至少一个视频的内容进行多维度识别，以确定所述至少一个视频的摘要信息。

其中，所述多维度识别包括对视频内容从声音、文字、图像等多方面进行的识别操作。

优选地，所述多维度识别包括但不限于以下至少任一种识别方式：

1)声音识别；其中，所述声音识别包括对于所述视频中的声音内容的识别。优选地，所述声音识别操作可包括以下任一项：

a)语音类识别；例如，对于视频中的对话、旁白等语音信息进行识别的操作。

b)非语音类识别。例如，对于视频中的背景音乐、主题曲、音效等等其他非语音类的声音元素的识别操作。

2)文字识别；对于视频图像中的文字的识别操作。具体地，包括对于视频中的字幕信息的识别，或者，对于视频图像中所包含的文字的识别，例如，视频中呈现某一个产品时，对该产品包装上的文字的识别等。

3)图像识别，指对于视频帧的图像中的对象、场景等图像信息的识别，例如，对于其中的人物、物品、动物等对象的识别；或者，识别图像中对应的场景的地点名称信息或场景的类型信息，例如，旅游景点名称等；或者如工作场景类型、咖啡厅场景类型、客厅场景类型等。

具体地，视频分类装置对视频的内容进行多维度识别，以获得与识别结果对应的结果文本信息，并基于该结果文本信息来确定所述视频的摘要信息。

优选地，视频分类装置在获得结果文本信息后，通过对结果文本信息进行诸如去冗余、整合、提炼等所需的文本处理操作后，来确定视频的摘要信息。

接着，在步骤S2中，视频分类装置基于所述至少一个视频各自的摘要信息，来生成所述至少一个视频各自的分类属性信息。

其中，所述分类标签信息包括所述视频的人文属性信息；其中，所述人文属性信息用于指示所述视频所对应的价值判断。例如，动物保护、时尚追求、人生奋斗目的等具有价值判断的内容。

例如，包含奢侈品牌、偶像类人物、场景奢华的视频，往往与新潮、时尚、高级消费等人文属性理念相关联；包含游戏、动画、漫画等内容信息的视频，往往与二次元爱好相关联。

优选地，所述分类属性信息除了所述人文属性信息，还可包括其他基于视频内容识别所确定的多种分类信息，例如，基于对视频展现的场景识别确定的场景分类信息，基于对视频主题识别确定的主题分类信息，基于对于视频内出现的人物的识别确定的人物分类信息等等。

其中一个视频的每种分类下可包含多个同类型的分类信息标签。例如，视频的场景分类信息可以包括多个旅游地标签，演员分类信息下可包括多个演员标签等等。

具体地，视频分类装置可直接基于对所述各个视频的摘要信息进行单独处理来确定其对应的分类属性信息，或者，视频分类装置可基于多个视频的摘要信息，通过对大量视频的摘要信息进行诸如聚合、数据挖掘等综合处理，来确定各个视频各自的分类属性信息；或者，通过单独处理来确定视频的部分分类属性信息，并通过综合处理来视频的另外部分分类属性信息。

更优选地，视频分类装置基于至少一个视频的摘要信息，并结合至少一个学科领域的相关信息来确定至少一个视频各自的人文属性信息。

具体地，视频分类装置基于摘要信息以及各个学科领域的学科特性，建立分别与各个学科领域建立用于确定人文属性信息的机器学习模型。

根据本发明的一个优选方案，分类属性信息还可包括与视频相关其他分类标签信息，例如，视频热度信息等。其中，视频热度信息可基于诸如视频点击量、推荐数、好评数、搜索次数等来确定。

接着，在根据本发明的优选方案的步骤S2中，视频分类装置获取视频的历史用户的用户人文属性，以确定与该视频对应的至少一项人文属性信息。

其中，所述用户人文属性信息包括体现该用户的人文价值观的相关信息。例如，该用户为一动物爱好者，则其对应的人文属性信息可包括：动物保护、抵制皮草、爱护自然等内容。

其中，视频分类装置可根据用户的历史操作和/或用户属性信息，来确定所述用户对应的用户人文属性。

优选地，可根据用户历史观看、搜索、点赞的视频对应的人文属性信息，来更新该用户对应的用户人文属性；或者，根据用户自身上传的用户相关信息，诸如性别，消费能力，职业，收入，爱好，地理位置，生活习惯，家庭背景等等，来确定该用户的用户人文属性信息。

具体地，视频分类装置获取与一视频对应的多个历史用户的用户人文属性，通过对该多个历史用户的用户人文属性的聚合处理，来确定与该视频对应的至少一项人文属性信息。

优选地，根据本发明的方法，还包括步骤S3(图未示)。

在步骤S3中，视频分类装置根据用户的用户人文属性与多个视频的分类属性信息进行筛选，确定与所述用户对应的至少一个视频。

具体地，通过将用户人文属性信息与各个视频的分类属性信息中的人文属性信息进行匹配，从而确定相匹配的至少一个视频，并将该至少一个视频作为与所述用户对应的推荐视频。

根据本发明的一个优选方案，所述方法还包括步骤S4(图未示)、步骤S5(图未示)，所述步骤S3进一步包括步骤S301(图未示)。

在步骤S4中，视频分类装置获取用户的使用需求。

其中，所述使用需求包括但不限于以下至少任一种：

1)使用场景需求，例如，上班公交，午休吃饭，旅行途中，旅行计划中，刚到旅行达目的地等；

2)情感需求，例如，希望观看主题比较温情的视频，又例如，希望观看轻松消遣的视频，又例如，希望观看比较恐怖刺激的视频等。

具体地，视频分类装置通过获取用户的场景相关信息/情感相关信息来确定其使用需求。

其中，所述场景相关信息包括但不限于以下任一种：

1)用户的位置信息，例如，当用户开启定位后，基于用户的定位信息，确定其当前所处的位置。并将该位置信息作为其场景信息。

2)基于用户的网络相关信息。例如，当用户接入其备注为“家庭网络”的网络中时，确定该用户位于自己家中；当用户接入其备注为“旅行wifi”的网络中时，确定该用户当前处于旅途当中。

3)用户自身提交的场景描述信息。

其中，所述情感相关信息包括但不限于以下至少任一种：

1)用户提供的情感需求信息；例如，用户提供的搜索词，又例如，用户发布的弹幕信息等；

2)环境影响信息，例如，情人节时，可能更多用户希望观看温暖的爱情片，又例如，万圣节时，可能会有用户希望观看恐怖视频等。

接着，在步骤S5中，视频分类装置确定与所述使用场景对应的一个或多个视频。

具体地，视频分类装置将使用场景信息与各个视频的分类属性信息和/或摘要信息进行比对，并将分类属性信息和/或摘要信息与场景信息对应的视频作为与用户对应的候选视频。

优选地，所述分类属性信息还包括视频的场景分类信息，视频分类装置将用户的使用场景，与各个视频的场景分类信息进行比对，以获得与所述使用场景匹配的场景分类信息对应的至少一个视频作为推荐视频。

接着，在步骤S301中，视频分类装置基于所述一个或多个视频各自的分类属性信息，以及所述用户的用户人文属性，来确定与所述用户对应的至少一个推荐视频。

具体地，视频分类装置通过步骤S6确定的一个或多个候选视频，并将该一个或多个候选视频各自的人文属性信息与该用户的用户人文属性进行匹配，并将匹配上的候选视频作为与该用户对应的推荐视频。

优选地，视频分类装置还可根据各个候选视频的人文属性信息与用户的用户人文属性的匹配度高低，来确定推荐视频的优先级。

根据本发明的方法，通过对视频的多维度识别，充分挖掘出视频内容的各项分类属性，并进而获得视频的人文属性。从而能够基于视频的人文属性来进行筛选，将其推荐给更加匹配的用户。使得视频推荐更加精准。并且，通过分析用户的使用场景，可进一步为期推荐与各个场景对应的视频，进一步提升用户体验。

参照图2，图2示意出了根据本发明的一种优选实施例的对视频进行分类匹配的视频分类装置的结构示意图。

根据本发明的视频分类装置包括识别装置1和生成装置2。

识别装置1对至少一个视频的内容进行多维度识别，以确定所述至少一个视频的摘要信息。

具体地，识别装置1对视频的内容进行多维度识别，以获得与识别结果对应的结果文本信息，并基于该结果文本信息来确定所述视频的摘要信息。

优选地，识别装置1在获得结果文本信息后，通过对结果文本信息进行诸如去冗余、整合、提炼等所需的文本处理操作后，来确定视频的摘要信息。

接着，生成装置2基于所述至少一个视频各自的摘要信息，来生成所述至少一个视频各自的分类属性信息。

具体地，生成装置2可直接基于对所述各个视频的摘要信息进行单独处理来确定其对应的分类属性信息，或者，生成装置2可基于多个视频的摘要信息，通过对大量视频的摘要信息进行诸如聚合、数据挖掘等综合处理，来确定各个视频各自的分类属性信息；或者，通过单独处理来确定视频的部分分类属性信息，并通过综合处理来视频的另外部分分类属性信息。

更优选地，生成装置2基于至少一个视频的摘要信息，并结合至少一个学科领域的相关信息来确定至少一个视频各自的人文属性信息。

具体地，生成装置2基于摘要信息以及各个学科领域的学科特性，建立分别与各个学科领域建立用于确定人文属性信息的机器学习模型。其中，机器学习模型可以采用诸如神经网络学习等学习算法。

接着，根据本发明的视频分类装置，其中的生成装置2还能够获取视频的历史用户的用户人文属性，以确定与该视频对应的至少一项人文属性信息。

其中，视频分类装置包括第一确定装置(图未示)。

该第一确定装置可根据用户的历史操作和/或用户属性信息，来确定所述用户对应的用户人文属性。

具体地，第一确定装置获取与一视频对应的多个历史用户的用户人文属性，通过对该多个历史用户的用户人文属性的聚合处理，来确定与该视频对应的至少一项人文属性信息。

优选地，根据本发明的视频分类装置还包括第二确定装置(图未示)。

第二确定装置根据用户的用户人文属性与多个视频的分类属性信息进行筛选，确定与所述用户对应的至少一个视频。

根据本发明的一个优选方案，所述视频分类装置还包括获取装置(图未示)和第三确定装置(图未示)。

获取装置获取用户的使用需求。

其中，所述使用需求包括但不限于以下至少任一种：

具体地，获取装置通过获取用户的场景相关信息/情感相关信息来确定其使用需求。

其中，所述场景相关信息包括但不限于以下任一种：

3)用户自身提交的场景描述信息。

其中，所述情感相关信息包括但不限于以下至少任一种：

接着，第三确定装置确定与所述使用场景对应的一个或多个视频。

具体地，第三确定装置将使用场景信息与各个视频的分类属性信息和/或摘要信息进行比对，并将分类属性信息和/或摘要信息与场景信息对应的视频作为与用户对应的候选视频。

优选地，所述分类属性信息还包括视频的场景分类信息，第三确定装置将用户的使用场景，与各个视频的场景分类信息进行比对，以获得与所述使用场景匹配的场景分类信息对应的至少一个视频作为推荐视频。

接着，根据本优选方案的第二确定装置基于所述一个或多个视频各自的分类属性信息，以及所述用户的用户人文属性，来确定与所述用户对应的至少一个推荐视频。

具体地，第三确定装置确定一个或多个候选视频，第二确定装置将该一个或多个候选视频各自的人文属性信息与该用户的用户人文属性进行匹配，并将匹配上的候选视频作为与该用户对应的推荐视频。

优选地，第二确定装置还可根据各个候选视频的人文属性信息与用户的用户人文属性的匹配度高低，来确定推荐视频的优先级。

根据本发明的方案，通过对视频的多维度识别，充分挖掘出视频内容的各项分类属性，并进而获得视频的人文属性。从而能够基于视频的人文属性来进行筛选，将其推荐给更加匹配的用户。使得视频推荐更加精准。并且，通过分析用户的使用场景，可进一步为期推荐与各个场景对应的视频，进一步提升用户体验。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种对视频进行分类匹配的方法，其中，所述方法包括以下步骤：

2.根据权利要求1所述的方法，其中，所述方法还包括以下步骤：

-基于至少一个视频的摘要信息，并结合至少一个学科领域的相关信息来确定至少一个视频各自的人文属性信息。

3.根据权利要求1所述的方法，其中，所述方法还包括以下步骤：

-获取视频的历史用户的用户人文属性，以确定与该视频对应的至少一项人文属性信息。

4.根据权利要求3所述的方法，其中，所述方法还包括以下步骤：

-根据用户的历史操作和/或用户属性信息，来确定所述用户对应的人文属性信息。

5.根据权利要求1至4中任一项所述的方法，其中，所述方法包括以下步骤：

-根据用户的用户人文属性与多个视频的分类属性信息进行筛选，确定与所述用户对应的至少一个视频。

6.根据权利要求1至5中任一项所述的方法，其中，所述方法还包括以下步骤：

x获取用户的使用需求；

y确定与所述使用需求对应的一个或多个视频；

其中，所述步骤c进一步包括：

-基于所述一个或多个视频各自的分类属性信息，以及所述用户的用户人文属性，来确定与所述用户对应的至少一个推荐视频。

7.根据权利要求1至6中任一项所述的方法，其中，所述分类属性信息还包括场景分类信息，所述步骤y进一步包括：

-基于所述使用场景，与各个视频的场景分类信息进行比对，以获得与所述使用场景匹配的场景分类信息对应的至少一个视频作为推荐视频。

8.根据权利要求1至7中任一项所述的方法，其中，所述多维度识别包括以下至少任一项识别操作：

-语音识别；

-文字识别；

-图像识别。

9.一种对视频进行分类匹配的视频分类装置，其中，所述视频分类装置包括：

10.根据权利要求9所述的视频分类装置，其中，所述生成装置还用于：

11.根据权利要求9所述的视频分类装置，其中，所述生成装置还用于：

12.根据权利要求11所述的视频分类装置，其中，所述视频分类装置还包括：

第一确定装置，用于根据用户的历史操作和/或用户属性信息，来确定所述用户对应的人文属性信息。

13.根据权利要求9至12中任一项所述的视频分类装置，其中，所述视频分类装置包括：

第二确定装置，用于根据用户的用户人文属性与多个视频的分类属性信息进行筛选，确定与所述用户对应的至少一个视频。

14.根据权利要求9至13中任一项所述的视频分类装置，其中，所述视频分类装置还包括：

获取装置，用于获取用户的使用需求；

第三确定装置，用于确定与所述使用需求对应的一个或多个视频；

其中，所述第二确定装置进一步用于：

15.根据权利要求9至14中任一项所述的视频分类装置，其中，所述分类属性信息还包括场景分类信息，所述第三确定装置进一步用于：

16.根据权利要求9至15中任一项所述的视频分类装置，其中，所述多维度识别包括以下至少任一项识别操作：

-语音识别；

-文字识别；

-图像识别。

17.一种挑选引擎，其中，所述挑选引擎包括权利要求8至16中任一项所述的视频分类装置。