CN111949820A

CN111949820A - 视频关联兴趣点的处理方法、装置及电子设备

Info

Publication number: CN111949820A
Application number: CN202010586153.4A
Authority: CN
Inventors: 李静; 谢红伟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2020-11-17
Anticipated expiration: 2040-06-24
Also published as: CN111949820B

Abstract

本申请公开了一种视频关联兴趣点的处理方法、装置及电子设备，涉及深度学习、自然语言处理、语音技术及人工智能技术领域。具体实现方案为：获取待处理的视频数据；对视频数据进行解析，以获取视频数据对应的兴趣点检索词；根据兴趣点检索词，从地图数据中获取多个候选兴趣点；根据兴趣点检索词与每个候选兴趣点间的匹配度，确定与视频数据关联的目标兴趣点。由此，通过这种视频关联兴趣点的处理方法，从视频数据中提取兴趣点检索词，以使兴趣点检索词与视频数据高度相关，从而提升了召回的与视频数据关联的兴趣点的召回率和准确度。

Description

视频关联兴趣点的处理方法、装置及电子设备

技术领域

本申请涉及计算机技术领域，尤其涉及深度学习、自然语言处理、语音技术及人工智能技术领域，提出一种视频关联兴趣点的处理方法、装置及电子设备。

背景技术

随着地图类应用和视频类应用在人们生活中的普及，将地图数据中的兴趣点与视频进行关联，以通过地图数据与视频的关联关系，丰富地图的数据内容，从而可以为人们的出行提供更加丰富、具象的行前参考。

相关技术中，通常通过从视频的标题中提取与位置相关的关键信息，进而根据关键信息与兴趣点的匹配度，确定地图数据中与视频关联的兴趣点。但是，这种关联方式，在视频标题缺乏有效信息，或者视频标题与视频内容不相关时，容易导致兴趣点的召回率和准确度较低。

发明内容

本申请提供了一种用于视频关联兴趣点的处理方法、装置、电子设备以及存储介质。

根据本申请的一方面，提供了一种视频关联兴趣点的处理方法，包括：获取待处理的视频数据；对所述视频数据进行解析，以获取所述视频数据对应的兴趣点检索词；根据所述兴趣点检索词，从地图数据中获取多个候选兴趣点；以及根据所述兴趣点检索词与每个所述候选兴趣点间的匹配度，确定与所述视频数据关联的目标兴趣点。

根据本申请的另一方面，提供了一种视频关联兴趣点的处理装置，包括：第一获取模块，用于获取待处理的视频数据；第二获取模块，用于对所述视频数据进行解析，以获取所述视频数据对应的兴趣点检索词；第三获取模块，用于根据所述兴趣点检索词，从地图数据中获取多个候选兴趣点；以及确定模块，用于根据所述兴趣点检索词与每个所述候选兴趣点间的匹配度，确定与所述视频数据关联的目标兴趣点。

根据本申请的再一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如前所述的视频关联兴趣点的处理方法。

根据本申请的又一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行如前所述的视频关联兴趣点的处理方法。

根据本申请的技术方案，解决了相关技术中，根据视频标题确定地图数据中与视频关联的兴趣点的方式，在视频标题缺乏有效信息，或者视频标题与视频内容不相关时，容易导致兴趣点的召回率和准确度较低的问题。通过对待处理的视频数据进行解析，以获取视频数据本身包含的兴趣点检索词，之后根据兴趣点检索词，从地图数据中获取多个候选兴趣点，进而根据兴趣点检索词与每个候选兴趣点间的匹配度，确定与视频数据关联的目标兴趣点。由此，通过从视频数据中提取兴趣点检索词，以使兴趣点检索词与视频数据高度相关，从而提升了召回的与视频数据关联的兴趣点的召回率和准确度。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1为本申请实施例所提供的一种视频关联兴趣点的处理方法的流程示意图；

图2为本申请实施例所提供的另一种视频关联兴趣点的处理方法的流程示意图；

图3为本申请实施例所提供的再一种视频关联兴趣点的处理方法的流程示意图；

图4为本申请实施例提供的一种视频关联兴趣点的处理装置的结构示意图；

图5为用来实现本申请实施例的视频关联兴趣点的处理方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本申请实施例针对相关技术中，根据视频标题确定地图数据中与视频关联的兴趣点的方式，在视频标题缺乏有效信息，或者视频标题与视频内容不相关时，容易导致兴趣点的召回率和准确度较低的问题，提出一种视频关联兴趣点的处理方法。

下面参考附图对本申请提供的视频关联兴趣点的处理方法、装置、电子设备及存储介质进行详细描述。

图1为本申请实施例所提供的一种视频关联兴趣点的处理方法的流程示意图。

如图1所示，该视频关联兴趣点的处理方法，包括以下步骤：

步骤101，获取待处理的视频数据。

需要说明的是，本申请实施例的视频关联兴趣点的处理方法，可以由本申请实施例的视频关联兴趣点的处理装置执行。本申请实施例的视频关联兴趣点的处理装置可以配置在任意电子设备中，以执行本申请实施例的视频关联兴趣点的处理方法。

其中，待处理的视频数据可以是任意的视频数据。比如，可以是从某短视频应用程序中获取的小视频；也可以是用户主动上传的视频；也可以是从网络中随机抓取的视频数据，等等，本申请实施例对此不做限定。

在本申请实施例中，待处理的视频数据的获取方式可以有多种，实际使用时，可以根据实际需要确定待处理的视频数据的获取方式。

可选地，作为一种可能的实现方式，本申请实施例的视频关联兴趣点的处理方法，应用在地图应用程序中时，待处理的视频数据的获取方式，可以是以预设的周期从关联的视频应用中获取在每个获取周期内发布的视频数据。比如，某互联网公司开发了地图应用程序A和小视频应用程序B，从而可以使得地图应用程序A与小视频应用程序B实现数据共享。本申请实施例的视频关联兴趣点的处理方法，应用在地图应用程序A中时，可以将小视频应用程序B作为地图应用程序A的关联视频应用，从而地图应用程序A可以每天从小视频应用程序B中获取一次在小视频应用程序B中发布的视频，作为待处理的视频数据。其中，每次获取的待处理视频为发布时间处于上次获取时刻与当前获取时刻之间的各视频数据。

可选地，作为一种可能的实现方式，本申请实施例的视频关联兴趣点的处理方法，应用在地图应用程序中时，还可以在地图应用程序中提供拍摄与上传视频的控件，从而可以实时获取用户通过地图应用程序拍摄或上传的视频数据，作为待处理的视频数据。比如，在地图应用程序的客户端界面中提供拍摄与上传视频的控件，则用户可以在点击该控件后拍摄视频或上传本地存储视频，从而地图应用程序的服务器可以在用户拍摄完成之后或者从本地选择好视频之后，并点击上传控件之后，获取到用户上传的视频数据，并将获取的视频数据确定为待处理的视频数据。

可选地，作为一种可能的实现方式，本申请实施例的视频关联兴趣点的处理方法，应用在地图应用程序中时，还可以从网络中随机抓取与位置、旅游、出行相关是视频，作为待处理的视频数据。

需要说明的是，待处理的视频数据的获取方式，可以包括但不限于以上列举的情形。实际使用时，可以根据实际需要及具体的应用场景，确定待处理的视频数据的获取方式，本申请实施例对此不做限定。

步骤102，对视频数据进行解析，以获取视频数据对应的兴趣点检索词。

其中，兴趣点检索词，可以是指从视频数据中提取的、与兴趣点的类型相关的信息。比如，兴趣点的类型为地点，则兴趣点检索词可以是从视频数据中提取的与地点、位置等相关的信息；又如，兴趣点的类型为美食，则兴趣点检索词可以是从视频数据中提取的美食名称、美食店铺等信息。

在本申请实施例中，可以通过人工智能的方式对待处理的视频数据进行解析处理，以获取视频数据对应的兴趣点检索词。

作为一种可能的实现方式，可以首先对待处理的视频数据进行切帧处理，以确定待处理的视频数据中包括的各视频帧，之后可以利用基于深度学习的图像识别模型对每个视频帧进行识别处理，以确定每个视频帧对应的图像内容，进而根据每个视频帧对应的图像内容，确定兴趣点检索词。

可选地，在本申请实施例一种可能的实现形式中，可以利用图像识别模型对每个视频帧对应的图像内容进行分类，以确定每个视频帧对应的图像内容的类型，进而将每个视频帧对应的图像内容的类型，确定为兴趣点检索词。

举例来说，待处理的视频数据中包括5个视频帧，前三个视频帧对应的图像内容的类型为沙漠，最后两个视频帧对应的图像内容的类型为河流，则可以将沙漠和河流确定为兴趣点检索词。

可选的，在本申请实施例一种可能的实现形式中，若待处理的视频数据对应的视频帧中包括字幕或视频描述等文字信息，还可以利用图像识别模型从各视频帧中提取文字信息，进而将提取出的文字信息确定为兴趣点检索词；或者对提取的文字信息进行切词处理，并根据兴趣点的类型，将文字信息中包括的与兴趣点的类型相关的分词或短语，确定为兴趣点检索词。

步骤103，根据兴趣点检索词，从地图数据中获取多个候选兴趣点。

在本申请实施例中，确定出待处理的视频数据对应的兴趣点检索词之后，可以将兴趣点检索词作为关键词，在地图应用程序中进行搜索，以使地图应用程序根据兴趣点检索词召回与兴趣点检索词相关的多个候选兴趣点，即从地图数据中获取多个候选兴趣点。

需要说明的是，实际使用时，候选兴趣点的数量可以根据实际需要及具体的应用场景预设，本申请实施例对此不做限定。比如，候选兴趣点的数量可以为10。

步骤104，根据兴趣点检索词与每个候选兴趣点间的匹配度，确定与视频数据关联的目标兴趣点。

其中，兴趣点检索词与候选兴趣点间的匹配度，可以是指兴趣点检索词与候选兴趣点的名称之间的语义相似度。

作为一种可能的实现方式，可以通过自然语言处理模型，对兴趣点检索词与每个候选兴趣点的名称进行语义匹配，以确定兴趣点检索词与每个候选兴趣点间的匹配度。比如，可以利用任意的自然语言处理模型分别对兴趣点检索词和候选兴趣点的名称进行向量映射，以确定兴趣点检索词对应的向量表示，以及候选兴趣点的名称对应的向量表示，进而根据兴趣点检索词对应的向量表示与候选兴趣点的名称对应的向量表示之间的余弦相似度，确定为兴趣点检索词与候选兴趣点间的匹配度。

作为另一种可能的实现方式，还可以将兴趣点检索词与候选兴趣点的名称输入预先训练的语义匹配模型，以通过预先训练的语义匹配模型计算并输出兴趣点检索词与该候选兴趣点的名称之间的语义相似度，进而将该语义相似度确定为兴趣点检索词与该候选兴趣点间的匹配度。

需要说明的是，在兴趣点检索词有多个时，可以将多个兴趣点检索词融合，将多个兴趣点检索词的组合与每个候选兴趣点间的匹配度，确定为兴趣点检索词与每个候选兴趣点的匹配度；或者，还可以确定出每个兴趣点检索词与候选兴趣点间的匹配度，进而将各个兴趣点检索词与该候选兴趣点间的匹配度的均值，确定为兴趣点检索词与该候选兴趣点间的匹配度；或者，还可以确定出每个兴趣点检索词与候选兴趣点间的匹配度，进而将最大匹配度确定为兴趣点检索词与该候选兴趣点间的匹配度。

在本申请实施例中，由于兴趣点检索词与候选兴趣点间的匹配度越大，则说明兴趣点检索词与该候选兴趣点间的关联性越高。因此，在确定出兴趣点检索词与每个候选兴趣点间的匹配度之后，可以将与兴趣点检索词之间的匹配度最大的候选兴趣点，确定为与待处理的视频数据关联的目标兴趣点。

根据本申请实施例的技术方案，通过对待处理的视频数据进行解析，以获取视频数据本身包含的兴趣点检索词，之后根据兴趣点检索词，从地图数据中获取多个候选兴趣点，进而根据兴趣点检索词与每个候选兴趣点间的匹配度，确定与视频数据关联的目标兴趣点。由此，通过从视频数据中提取兴趣点检索词，以使兴趣点检索词与视频数据高度相关，从而提升了召回的与视频数据关联的兴趣点的召回率和准确度。

在本申请一种可能的实现形式中，还可以通过语音技术从待处理的视频文本中提取语音数据，以从语音数据中提取与待处理的视频高度相关的信息，以进一步提升召回的与视频数据关联的兴趣点的准确度。

下面结合图2，对本申请实施例提供的视频关联兴趣点的处理方法进行进一步说明。

图2为本申请实施例所提供的另一种视频关联兴趣点的处理方法的流程示意图。

如图2所示，该视频关联兴趣点的处理方法，包括以下步骤：

步骤201，获取待处理的视频数据。

上述步骤201的具体实现过程及原理，可以参照上述实施例的详细描述，此处不再赘述。

步骤202，从视频数据中提取目标音频数据。

其中，目标音频数据，可以是指视频数据中包含的音频数据。其中，目标音频数据可以是视频数据中包含的全部音频数据，也可以是按照一定的规则从视频数据中抽取的部分音频数据。

在本申请实施例中，由于视频数据中通常包含音频数据，而视频数据中音频数据通常可以包含视频数据所展示的主要信息。因此，可以从待处理的视频数据中提取音频数据，作为待处理的视频数据对应的目标音频数据，以通过目标音频数据生成与待处理的视频数据高度相关的信息。

需要说明的是，实际使用时，可以采用任意的语音提取算法从视频数据中提取目标音频数据，本申请实施例对此不做限定。

进一步的，可以通过统计分析的方式，确定感兴趣的信息通常在视频数据中所处的位置，以使从视频数据中提取部分语音信息，即可获得感兴趣的信息，以降低语音数据提取和处理的数据处理量。即在本申请实施例一种可能的实现形式中，上述步骤202，可以包括：

根据视频数据的时长，确定目标音频数据在视频数据中的位置及目标音频数据的时长；以及

根据目标音频数据在视频数据中的位置及目标音频数据的时长，从视频数据中提取目标音频数据。

在本申请实施例中，由于需要将待处理的视频数据与地图数据中的兴趣点关联，从而感兴趣的信息即为可以代表位置、地点等信息的兴趣点检索词。因此，可以获取大量视频并进行统计分析，以确定兴趣点检索词在视频数据中的各位置出现的概率，进而根据兴趣点检索词在视频数据中的各位置出现的概率，确定目标音频数据在视频数据中的预测位置。

举例来说，通过统计分析，确定兴趣点检索词在视频数据的前20％与最后20％出现的概率为0.8，则可以将视频数据的前20％与视频数据的最后20％确定为目标音频数据在视频数据中的预测位置。

在本申请实施例中，可以根据通过统计分析确定的目标音频数据在视频数据中的预测位置，和待处理的视频数据的时长，确定目标音频数据在待处理的视频数据中的位置和目标音频数据的时长。比如，目标音频数据在视频数据中的预测位置为前20％与视频数据的最后20％，待处理的视频数据的时长为30秒，则目标音频数据在待处理的视频数据中的位置为0-6秒与24-30秒，目标音频数据的时长为12秒。

确定出目标音频数据在待处理的视频数据中的位置和目标音频数据的时长之后，可以根据目标音频数据在待处理的视频数据中的位置和目标音频数据的时长，仅从待处理的视频数据中提取相应位置和时长的音频数据，作为目标音频数据。比如，待处理的视频数据的时长为30秒，则目标音频数据在待处理的视频数据中的位置为0-6秒与24-30秒，目标音频数据的时长为12秒，从而可以从待处理的视频数据的0-6秒与24-30秒提取音频数据，进而将提取的12秒的音频数据作为目标音频数据。

步骤203，将目标音频数据进行文字转换，以获取目标文本。

在本申请实施例中，从待处理的视频数据中提取出目标音频数据之后，可以采用语音转文字算法，对目标音频数据进行文字转换，以生成目标音频数据对应的目标文本。

步骤204，从目标文本中，抽取兴趣点检索词。

在本申请实施例中，可以利用预先训练用于地图兴趣点识别的兴趣点识别模型，从目标文本中抽取兴趣点检索词。具体的，兴趣点识别模型可以对输入的目标文本进行切词处理，以确定目标文本中包括的各分词，进而对目标文本中的各分词进行识别处理，以确定各分词是否为与位置相关的兴趣点检索词；或者，兴趣点识别模型还可以对输入的目标文本从短语粒度进行切分，以确定目标文本中包括的各短语，进而对目标文本中的各短语进行识别处理，以确定各短语是否为兴趣点检索词。

作为一种可能的实现方式，可以将目标文本中的城市信息、位置、地点等兴趣点信息，确定为兴趣点检索词。即在本申请实施例一种可能的实现形式中，上述步骤204，可以包括：

从目标文本中，抽取城市信息及兴趣点信息；以及

根据城市信息及兴趣点信息，确定兴趣点检索词。

在本申请实施例中，可以利用兴趣点识别模型对目标文本中的各分词进行命名实体识别，以确定目标文本中的各分词是否为城市类型的命名实体，若是，则将该分词确定为城市信息；进而对目标文本中包含的位置、地点等信息进行识别，以确定目标文本中的兴趣点信息。之后，可以将城市信息与兴趣点信息确定为兴趣点检索词。

举例来说，目标文本为“如果有喜欢喝散啤的朋友，欢迎来云溪路32号的青岛啤酒啤酒屋打卡”，则可以确定城市信息为“青岛”，兴趣点信息为“青岛啤酒啤酒屋”，从而可以将“青岛”和“青岛啤酒啤酒屋”确定为兴趣点检索词。

步骤205，根据兴趣点检索词，从地图数据中获取多个候选兴趣点。

步骤206，根据兴趣点检索词与每个候选兴趣点间的匹配度，确定与视频数据关联的目标兴趣点。

上述步骤205-206的具体实现过程及原理可以参照上述实施例的详细描述，此处不再赘述。

进一步的，由于一个待处理的视频数据通常只和一个兴趣点相关，因此在确定的与待处理的视频数据关联的兴趣点有多个时，还可以根据多个兴趣点的地址信息，筛选出目标兴趣点，以进一步提升召回的目标兴趣点的准确度。即在本申请实施例一种可能的实现形式中，若兴趣点检索词与N个候选兴趣点间的匹配度相同、且均大于与其他候选兴趣点间的匹配度，N为大于1的正整数，则上述步骤206，可以包括：

获取N个候选兴趣点分别对应的N个地址信息；

对视频数据进行解析，以获取视频数据中包含的目标地址信息；以及

根据目标地址信息分别与N个地址信息的匹配度，从N个候选兴趣点中获取目标兴趣点。

作为一种可能的实现方式，在通过兴趣点检索词与候选兴趣点间的匹配度，从候选兴趣点中选取与待处理的视频数据关联的目标兴趣点时，若存在多个候选兴趣点与兴趣点检索词间的匹配度相同，且均大于其他候选兴趣点与兴趣点检索词间的匹配度，则筛选出的与待处理的视频数据关联的目标兴趣点有多个，从而使得召回的目标兴趣点不准确。因此，可以从地图数据中获取与N个候选兴趣点分别对应的N个地址信息，进而对视频数据进行解析，以获取视频数据中包含的目标地址信息。之后确定目标地址分别与N个地址信息的匹配度，进而将与目标地址间的匹配度最大的地址信息对应的候选兴趣点，确定为目标兴趣点。

根据本申请实施例的技术方案，通过提取待处理的视频数据对应的目标音频数据，并将目标音频数据进行文字转换，以获取目标文本，之后从目标文本中抽取兴趣点检索词，以获取视频数据本身包含的兴趣点检索词，进而根据兴趣点检索词，从地图数据中获取多个候选兴趣点，并根据兴趣点检索词与每个候选兴趣点间的匹配度，确定与视频数据关联的目标兴趣点。由此，由于视频数据的音频数据中通常可以包含视频数据所展示的主要信息，因此通过语音技术从待处理的视频文本中提取语音数据，以从语音数据中提取与待处理的视频数据高度相关的信息，从而进一步提升了与视频数据关联的兴趣点的召回率和准确度。

在本申请一种可能的实现形式中，确定出目标兴趣点之后，还可以将目标兴趣点与待处理的视频数据进行关联，使得用户可以通过待处理的视频数据了解目标兴趣点，以为用户的出行提供更加丰富、具象的行前参考，提升视频关联兴趣点的可交互性和实用性。

下面结合图3，对本申请实施例提供的视频关联兴趣点的处理方法进行进一步说明。

图3为本申请实施例所提供的再一种视频关联兴趣点的处理方法的流程示意图。

如图3所示，该视频关联兴趣点的处理方法，包括以下步骤：

步骤301，获取待处理的视频数据。

步骤302，对视频数据进行解析，以获取视频数据对应的兴趣点检索词。

步骤303，根据兴趣点检索词，从地图数据中获取多个候选兴趣点。

步骤304，根据兴趣点检索词与每个候选兴趣点间的匹配度，确定与视频数据关联的目标兴趣点。

上述步骤301-304的具体实现过程及原理，可以参照上述实施例的详细描述，此处不再赘述。

步骤305，将目标兴趣点与视频数据进行关联。

在本申请实施例中，确定出与待处理的视频数据关联的目标兴趣点之后，可以建立目标兴趣点与待处理的视频数据的映射关系并存储，以将目标兴趣点与待处理的视频数据进行关联。

举例来说，本申请实施例的视频关联兴趣点的处理方法，应用在地图应用程序中时，若确定该地图应用程序对应的地图数据中与待处理的视频数据关联的目标兴趣点为兴趣点A，从而可以建立兴趣点A与待处理的视频数据的映射关系，并存储在该地图应用程序的服务器中，以将兴趣点A与待处理的视频数据进行关联。

步骤306，响应于获取到的兴趣点详情展示请求，播放视频数据。

其中，兴趣点详情展示请求，可以包括兴趣点标识，如兴趣点的具体地址信息等。

在本申请实施例中，若获取到兴趣点详情展示请求，则可以根据兴趣点详情展示请求中包括的兴趣点标识，从兴趣点与视频数据的映射关系中，获取与兴趣点标识对应的视频数据，进而可以将获取的视频数据返回至客户端，以使客户端播放视频数据；或者还可以将获取的视频数据的预览信息(如标题、预览图像等)返回至客户端，并在获取到用户对预览信息的触发操作时，播放视频数据。

需要说明的是，在获取到与兴趣点标识对应的多个视频数据时，可以依次将多个视频数据返回至客户端，并使客户端依次自动播放多个视频数据；或者还可以将多个视频数据分别对应的预览信息返回至客户端，以使客户端以列表方式显示多个视频数据对应的预览信息，从而在获取到用户对预览信息的触发操作时，播放预览信息对应的视频数据。

举例来说，本申请实施例的视频关联兴趣点的处理方法，应用在地图应用程序中时，用户可以在地图应用程序的客户端中对感兴趣的兴趣点进行操作，以生成该兴趣点对应的兴趣点详情展示请求，并发送至地图应用程序的服务器，从而服务器在获取到兴趣点详情展示请求时，可以对兴趣点详情展示请求进行解析处理，以确定兴趣点标识，之后从本地存储的兴趣点与视频数据的映射关系中，获取与兴趣点标识对应的视频数据，并返回至客户端中，以使客户端播放与用户感兴趣的兴趣点对应的视频数据。

根据本申请实施例的技术方案，通过对待处理的视频数据进行解析，以获取视频数据本身包含的兴趣点检索词，并根据兴趣点检索词，从地图数据中获取多个候选兴趣点，之后根据兴趣点检索词与每个候选兴趣点间的匹配度，确定与视频数据关联的目标兴趣点，进而将目标兴趣点与视频数据进行关联，以响应于获取到的兴趣点详情展示请求，播放视频数据。由此，通过将目标兴趣点与待处理的视频数据进行关联，使得用户可以通过待处理的视频数据了解目标兴趣点，以为用户的出行提供更加丰富、具象的行前参考，从而不仅提升了召回的与视频数据关联的兴趣点的召回率和准确度，而且进一步提升了视频关联兴趣点的可交互性和实用性。

为了实现上述实施例，本申请还提出一种视频关联兴趣点的处理装置。

图4为本申请实施例提供的一种视频关联兴趣点的处理装置的结构示意图。

如图4所示，该视频关联兴趣点的处理装置40，包括：

第一获取模块41，用于获取待处理的视频数据；

第二获取模块42，用于对视频数据进行解析，以获取视频数据对应的兴趣点检索词；

第三获取模块43，用于根据兴趣点检索词，从地图数据中获取多个候选兴趣点；以及

确定模块44，用于根据兴趣点检索词与每个候选兴趣点间的匹配度，确定与视频数据关联的目标兴趣点。

在实际使用时，本申请实施例提供的视频关联兴趣点的处理装置，可以被配置在任意电子设备中，以执行前述视频关联兴趣点的处理方法。

在本申请一种可能的实现形式中，上述第二获取模块42，包括：

提取单元，用于从视频数据中提取目标音频数据；

第一获取单元，用于将目标音频数据进行文字转换，以获取目标文本；以及抽取单元，用于从目标文本中，抽取兴趣点检索词。

进一步的，在本申请另一种可能的实现形式中，上述提取单元，包括：

第一确定子单元，用于根据所述视频数据的时长，确定所述目标音频数据在所述视频数据中的位置及所述目标音频数据的时长；以及

提取子单元，用于根据所述目标音频数据在所述视频数据中的位置及所述目标音频数据的时长，从所述视频数据中提取所述目标音频数据。

进一步的，在本申请再一种可能的实现形式中，上述抽取单元，包括：

抽取子单元，用于从目标文本中，抽取城市信息及兴趣点信息；以及

第二确定子单元，用于根据城市信息及兴趣点信息，确定兴趣点检索词。

进一步的，在本申请又一种可能的实现形式中，若上述兴趣点检索词与N个候选兴趣点间的匹配度相同、且均大于与其他候选兴趣点间的匹配度，N为大于1的正整数，则上述确定模块44，包括：

第二获取单元，用于获取N个候选兴趣点分别对应的N个地址信息；

第三获取单元，用于对视频数据进行解析，以获取视频数据中包含的目标地址信息；以及

第四获取单元，用于根据目标地址信息分别与N个地址信息的匹配度，从N个候选兴趣点中获取目标兴趣点。

进一步的，在本申请又一种可能的实现形式中，上述视频关联兴趣点的处理装置40，还包括：

关联模块，用于将目标兴趣点与视频数据进行关联。

进一步的，在本申请另一种可能的实现形式中，上述视频关联兴趣点的处理装置40，还包括：

播放模块，用于响应于获取到的兴趣点详情展示请求，播放视频数据。

需要说明的是，前述对图1、图2、图3所示的视频关联兴趣点的处理方法实施例的解释说明也适用于该实施例的视频关联兴趣点的处理装置40，此处不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图5所示，是根据本申请实施例的视频关联兴趣点的处理方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图5所示，该电子设备包括：一个或多个处理器501、存储器502，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个电子设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图5中以一个处理器501为例。

存储器502即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的视频关联兴趣点的处理方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的视频关联兴趣点的处理方法。

存储器502作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的视频关联兴趣点的处理方法对应的程序指令/模块(例如，附图4所示的第一获取模块41、第二获取模块42、第三获取模块43及确定模块44)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的视频关联兴趣点的处理方法。

存储器502可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据视频关联兴趣点的处理方法的电子设备的使用所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器502可选包括相对于处理器501远程设置的存储器，这些远程存储器可以通过网络连接至视频关联兴趣点的处理方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

视频关联兴趣点的处理方法的电子设备还可以包括：输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接，图5中以通过总线连接为例。

输入装置503可接收输入的数字或字符信息，以及产生与视频关联兴趣点的处理方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种视频关联兴趣点的处理方法，包括：

获取待处理的视频数据；

对所述视频数据进行解析，以获取所述视频数据对应的兴趣点检索词；

根据所述兴趣点检索词，从地图数据中获取多个候选兴趣点；以及

根据所述兴趣点检索词与每个所述候选兴趣点间的匹配度，确定与所述视频数据关联的目标兴趣点。

2.如权利要求1所述的方法，其中，所述对所述视频数据进行解析，以获取所述视频数据对应的兴趣点检索词，包括：

从所述视频数据中提取目标音频数据；

将所述目标音频数据进行文字转换，以获取目标文本；以及

从所述目标文本中，抽取所述兴趣点检索词。

3.如权利要求2所述的方法，其中，所述从所述视频数据中提取目标音频数据，包括：

根据所述视频数据的时长，确定所述目标音频数据在所述视频数据中的位置及所述目标音频数据的时长；以及

根据所述目标音频数据在所述视频数据中的位置及所述目标音频数据的时长，从所述视频数据中提取所述目标音频数据。

4.如权利要求2所述的方法，其中，所述从所述目标文本中，抽取所述兴趣点检索词，包括：

从所述目标文本中，抽取城市信息及兴趣点信息；以及

根据所述城市信息及兴趣点信息，确定所述兴趣点检索词。

5.如权利要求1-4任一所述的方法，其中，若所述兴趣点检索词与N个候选兴趣点间的匹配度相同、且均大于与其他候选兴趣点间的匹配度，N为大于1的正整数，则所述根据所述兴趣点检索词与每个所述候选兴趣点间的匹配度，确定与所述视频数据关联的目标兴趣点，包括：

获取所述N个候选兴趣点分别对应的N个地址信息；

对所述视频数据进行解析，以获取所述视频数据中包含的目标地址信息；以及

根据所述目标地址信息分别与所述N个地址信息的匹配度，从所述N个候选兴趣点中获取目标兴趣点。

6.如权利要求1-4任一所述的方法，其中，在所述确定与所述视频数据关联的目标兴趣点之后，还包括：

将所述目标兴趣点与所述视频数据进行关联。

7.如权利要求6所述的方法，其中，在所述将所述目标兴趣点与所述视频数据进行关联之后，还包括：

响应于获取到的兴趣点详情展示请求，播放所述视频数据。

8.一种视频关联兴趣点的处理装置，包括：

第一获取模块，用于获取待处理的视频数据；

第二获取模块，用于对所述视频数据进行解析，以获取所述视频数据对应的兴趣点检索词；

第三获取模块，用于根据所述兴趣点检索词，从地图数据中获取多个候选兴趣点；以及

确定模块，用于根据所述兴趣点检索词与每个所述候选兴趣点间的匹配度，确定与所述视频数据关联的目标兴趣点。

9.如权利要求8所述的装置，其中，所述第二获取模块，包括：

提取单元，用于从所述视频数据中提取目标音频数据；

第一获取单元，用于将所述目标音频数据进行文字转换，以获取目标文本；以及

抽取单元，用于从所述目标文本中，抽取所述兴趣点检索词。

10.如权利要求9所述的装置，其中，所述提取单元，包括：

11.如权利要求9所述的装置，其中，所述抽取单元，包括：

抽取子单元，用于从所述目标文本中，抽取城市信息及兴趣点信息；以及

第二确定子单元，用于根据所述城市信息及兴趣点信息，确定所述兴趣点检索词。

12.如权利要求8-11任一所述的装置，其中，若所述兴趣点检索词与N个候选兴趣点间的匹配度相同、且均大于与其他候选兴趣点间的匹配度，N为大于1的正整数，则所述确定模块，包括：

第二获取单元，用于获取所述N个候选兴趣点分别对应的N个地址信息；

第三获取单元，用于对所述视频数据进行解析，以获取所述视频数据中包含的目标地址信息；以及

第四获取单元，用于根据所述目标地址信息分别与所述N个地址信息的匹配度，从所述N个候选兴趣点中获取目标兴趣点。

13.如权利要求8-11任一所述的装置，其中，还包括：

关联模块，用于将所述目标兴趣点与所述视频数据进行关联。

14.如权利要求13所述的装置，其中，还包括：

播放模块，用于响应于获取到的兴趣点详情展示请求，播放所述视频数据。

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法。