CN112052352B

CN112052352B - 视频排序方法、装置、服务器及存储介质

Info

Publication number: CN112052352B
Application number: CN202010928462.5A
Authority: CN
Inventors: 张水发
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-09-07
Filing date: 2020-09-07
Publication date: 2024-04-30
Anticipated expiration: 2040-09-07
Also published as: CN112052352A

Abstract

本公开关于一种视频排序方法、装置、服务器及存储介质，属于视频处理技术领域，该方法包括：响应于终端基于目标搜索词的视频搜索请求，获取多个视频的参考文字信息，确定多个视频的文字匹配信息，基于文字匹配信息及对应的图文匹配信息，确定多个视频在终端上的展示顺序。本公开实施例中，由于参考文字信息为视频包含的文字信息，且由于图文匹配信息表示参考文字信息与对应视频的视频帧的匹配程度，因此根据图文匹配信息和文字匹配信息，确定展示顺序，能够确保图文匹配程度大的排序靠前，避免了图文不一致的情况，提高了确定展示顺序的准确性，进而用户能够快速确定出其想要观看的视频，提高了人机交互效率。

Description

视频排序方法、装置、服务器及存储介质

技术领域

本公开涉及视频处理技术领域，尤其涉及一种视频排序方法、装置、服务器及存储介质。

背景技术

计算机技术和移动互联网的飞速发展，为用户随时随地观看视频提供了极大的便利。例如，用户想要观看视频时，可以按照该视频的搜索词进行搜索，进而搜索到该搜索词对应的多个视频，通过浏览该多个视频，找到想要观看的视频，再对想要观看的视频实施点击操作，就可以观看该视频。然而，由于网络视频数量及种类繁多，基于搜索词搜索出的视频也很多，可能会导致用户在浏览多个视频时，需要浏览很长时间才能找到其想要观看的视频。在这种情况下，通常需要对多个视频进行排序，以确定多个视频在终端上的展示顺序，再按照多个视频的展示顺序进行展示，使与搜索词相关的视频的顺序靠前，进而减小用户的浏览时间，使用户能够快速找到其想要观看的视频。

目前，视频排序方法通常为：用户在终端上输入搜索词，点击搜索选项，则终端响应于用户的点击操作，向服务器发送视频搜索请求，服务器在接收到视频搜索请求后，获取多个视频的视频标题或者视频描述，根据该多个视频的视频标题或者视频描述，分别计算该多个视频与该搜索词的文字匹配程度，进而根据文字匹配程度的大小，确定该多个视频在终端上的展示顺序，再向终端返回该多个视频的展示顺序，由该终端根据该多个视频的展示顺序进行展示。

上述技术中，仅仅利用了视频的视频标题和视频描述来确定视频的展示顺序，视频排序的准确性不高，可能会造成用户需要多次搜索才能找到其想要观看的视频，降低了人机交互效率。

发明内容

本公开提供一种视频排序方法、装置、服务器及存储介质，能够提高视频排序的准确性，避免了用户多次搜索才能找到其想要观看的视频，提高了人机交互效率。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种视频排序方法，该方法包括：

响应于终端基于目标搜索词的视频搜索请求，获取多个视频的参考文字信息，该参考文字信息为该多个视频所包含的文字信息；

确定该多个视频的文字匹配信息，该文字匹配信息用于表示该参考文字信息与该目标搜索词之间的文字匹配程度；

基于该多个视频的文字匹配信息以及该多个视频对应的图文匹配信息，确定该多个视频在该终端上的展示顺序，该图文匹配信息用于表示该参考文字信息与对应视频的视频帧的匹配程度。

在一种可能的实现方式中，该方法还包括：

分别提取该多个视频的参考文字信息的语义特征；

分别提取该多个视频的视频帧的内容特征；

基于该参考文字信息的语义特征与该视频帧的内容特征，确定该多个视频的图文匹配信息。

在一种可能的实现方式中，该基于该参考文字信息的语义特征与该视频帧的内容特征，确定该多个视频的图文匹配信息包括：

对于该多个视频中的任一个视频，通过双塔网络中的语义分析网络提取该任一个视频的参考文字信息的语义特征，通过该双塔网络中的特征提取网络提取该任一个视频的视频帧的内容特征，对该语义特征与该内容特征进行匹配程度的预测，得到该任一个视频的图文匹配信息。

在一种可能的实现方式中，该对所述语义特征与所述内容特征进行匹配程度的预测，得到所述任一个视频的图文匹配信息包括：

通过该双塔网络，获取以该语义特征为搜索词得到的该内容特征的点击率；

基于该语义特征与该内容特征，确定该语义特征与该内容特征之间的语义相似度；

对该点击率与该语义相似度，进行加权求和，得到该图文匹配信息。

在一种可能的实现方式中，该多个视频的参考文字信息基于对该多个视频的视频帧所识别出的文字的筛选得到。

在一种可能的实现方式中，该多个视频的参考文字信息的确定过程包括：

分别获取该多个视频的视频帧；

分别对该多个视频的视频帧进行文字检测和文字识别，得到该多个视频的文字信息；

分别基于该多个视频的文字信息的物理特征，对该多个视频的文字信息进行文字筛选，得到该多个视频的参考文字信息，该物理特征用于表示文字在视频帧中的显示形式。

在一种可能的实现方式中，该分别获取该多个视频的视频帧包括下述任一项：

分别获取该多个视频的视频封面帧，作为该多个视频的视频帧；

分别在该多个视频对应的多个视频帧中，选取一个视频帧，作为该多个视频的视频帧。

在一种可能的实现方式中，该物理特征为文字位置、文字大小、文字清晰度、文字高宽、文字倾斜角度、文字字体、文字是否人为编辑、文字是否前景文字、文字是否重复中任意一项或任意多项。

在一种可能的实现方式中，该分别基于该多个视频的文字信息的物理特征，对该多个视频的文字信息进行文字筛选，得到该多个视频的参考文字信息包括：

分别基于该多个视频的文字信息的文字大小和文字清晰度，在该多个视频的文字信息中，筛选出文字大小大于第一阈值且文字清晰度大于第二阈值的文字信息；

将筛选出的文字信息作为该多个视频的参考文字信息。

在一种可能的实现方式中，该基于该多个视频的文字信息的物理特征，分别对该多个视频的文字信息进行文字筛选，得到该多个视频的参考文字信息包括：

分别基于该多个视频的文字信息的文字位置和文字是否人为编辑，在该多个视频的文字信息中，筛选出文字人为编辑或文字处于视频帧的目标位置的文字信息；

将筛选出的文字信息作为该多个视频的参考文字信息。

在一种可能的实现方式中，该分别基于该多个视频的文字信息的文字位置和文字是否人为编辑，在该多个视频的文字信息中，筛选出文字人为编辑或文字处于视频帧的目标位置的文字信息包括：

分别将该多个视频的文字信息输入分类网络，通过该分类网络，确定该文字信息中属于前景文字类型的文字信息，该前景文字类型用于表示人为编辑或处于视频的目标位置的文字类型。

在一种可能的实现方式中，该基于该多个视频的文字匹配信息以及该多个视频对应的图文匹配信息，确定该多个视频在该终端上的展示顺序包括：

基于该多个视频的文字匹配信息、该多个视频的点击率以及该多个视频对应的图文匹配信息，确定该多个视频在该终端上的展示顺序。

根据本公开实施例的第二方面，提供一种视频排序装置，该装置包括：

获取单元，被配置为执行响应于终端基于目标搜索词的视频搜索请求，获取多个视频的参考文字信息，该参考文字信息为该多个视频所包含的文字信息；

确定单元，被配置为执行确定该多个视频的文字匹配信息，该文字匹配信息用于表示该参考文字信息与该目标搜索词之间的文字匹配程度；

排序单元，被配置为执行基于该多个视频的文字匹配信息以及该多个视频对应的图文匹配信息，确定该多个视频在该终端上的展示顺序，该图文匹配信息用于表示该参考文字信息与对应视频的视频帧的匹配程度。

在一种可能的实现方式中，该装置还包括：

语义特征提取单元，被配置为执行分别提取该多个视频的参考文字信息的语义特征；

内容特征提取单元，被配置为执行分别提取该多个视频的视频帧的内容特征；

图文匹配信息确定单元，被配置为执行基于该参考文字信息的语义特征与该视频帧的内容特征，确定该多个视频的图文匹配信息。

在一种可能的实现方式中，该装置还包括预测单元，被配置为执行：

在一种可能的实现方式中，该预测单元包括：

获取子单元，被配置为执行通过该双塔网络，获取以该语义特征为搜索词得到的该内容特征的点击率；

确定子单元，被配置为执行基于该语义特征与该内容特征，确定该语义特征与该内容特征之间的语义相似度；

加权子单元，被配置为执行对该点击率与该语义相似度，进行加权求和，得到该图文匹配信息。

视频帧获取单元，被配置为执行分别获取该多个视频的视频帧；

文字信息获取单元，被配置为执行分别对该多个视频的视频帧进行文字检测和文字识别，得到该多个视频的文字信息；

文字筛选单元，被配置为执行分别基于该多个视频的文字信息的物理特征，对该多个视频的文字信息进行文字筛选，得到该多个视频的参考文字信息，该物理特征用于表示文字在视频帧中的显示形式。

在一种可能的实现方式中，该视频帧获取单元包括下述任一项：

第一视频帧获取单元，被配置为执行分别获取该多个视频的视频封面帧，作为该多个视频的视频帧；

第二视频帧获取单元，被配置为执行分别在该多个视频对应的多个视频帧中，选取一个视频帧，作为该多个视频的视频帧。

在一种可能的实现方式中，该文字筛选单元包括：

第一筛选子单元，被配置为执行分别基于该多个视频的文字信息的文字大小和文字清晰度，在该多个视频的文字信息中，筛选出文字大小大于第一阈值且文字清晰度大于第二阈值的文字信息；

第一确定子单元，被配置为执行将筛选出的文字信息作为该多个视频的参考文字信息。

在一种可能的实现方式中，该文字筛选单元还包括：

第二筛选子单元，被配置为执行分别基于该多个视频的文字信息的文字位置和文字是否人为编辑，在该多个视频的文字信息中，筛选出文字人为编辑或文字处于视频帧的目标位置的文字信息；

第二确定子单元，被配置为执行将筛选出的文字信息作为该多个视频的参考文字信息。

在一种可能的实现方式中，该第二筛选子单元，被配置为执行：

在一种可能的实现方式中，该排序单元，被配置为执行：

根据本公开实施例的第三方面，提供一种服务器，该服务器包括：

一个或多个处理器；

用于存储所述处理器可执行程序代码的存储器；

其中，所述处理器被配置为执行所述程序代码，以实现上述的视频排序方法。

根据本公开实施例的第四方面，提供一种存储介质，该存储介质包括：当所述存储介质中的程序代码由服务器的处理器执行时，使得服务器能够执行上述的视频排序方法。

根据本公开实施例的第五方面，提供一种计算机程序，该计算机程序包括计算机程序代码，该计算机程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该计算机程序代码，处理器执行该计算机程序代码，使得该计算机设备执行上述的视频排序方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开实施例提供的技术方案，服务器响应于基于目标搜索词的视频搜索请求，利用多个视频的参考文字信息，确定参考文字信息与目标搜索词之间的文字匹配信息，由于参考文字信息为视频所包含的文字信息，因此根据参考文字信息确定出的文字匹配信息，能够表示视频内容与目标搜索词的文字匹配程度，再根据图文匹配信息和文字匹配信息，确定多个视频在终端上的展示顺序，由于图文匹配信息用于表示参考文字信息与对应视频的视频帧的匹配程度，因此根据图文匹配信息和文字匹配信息排序，能够确保图文匹配程度大的排序靠前，也即是将文字信息与视频内容相关性较高的视频排序靠前，避免了图文不一致的情况，提高了视频排序的准确性，同时提高了视频展示的准确性，进而在展示多个视频后，用户能够快速确定出其想要观看的视频，提高了人机交互效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种视频排序方法的实施环境示意图；

图2是根据一示例性实施例示出的一种视频排序方法的流程图；

图3是根据一示例性实施例示出的一种视频排序方法的流程图；

图4是根据一示例性实施例示出的一种视频排序装置的框图；

图5是根据一示例性实施例示出的一种服务器的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开所涉及的信息可以为经用户授权或者经过各方充分授权的信息。

图1是本公开实施例提供的一种视频排序方法的实施环境示意图，参见图1，该实施环境中包括：终端101和服务器102。

终端101为智能手机、智能手表、台式电脑、手提电脑、虚拟现实终端、增强现实终端、无线终端和膝上型便携计算机等设备中的至少一种，终端101具有通信功能，能够接入互联网，终端101可以泛指多个终端中的一个，本实施例仅以终端101来举例说明。本领域技术人员可以知晓，上述终端的数量可以更多或更少。终端101上可以安装有具备视频搜索功能的视频应用程序或者浏览器，当用户想要搜索某一视频时，可以在视频应用程序或者浏览器的搜索框中输入搜索词，则终端101上可以展示出与该搜索词相关的多个视频。

服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式文件系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器102与终端101可以通过有线或无线通信方式进行直接或间接的连接，本公开实施例对此不作限定。可选地，上述服务器102的数量可以更多或更少，本公开实施例对此不加以限定。当然，服务器102还可以包括其他功能服务器，以便提供更全面且多样化的服务。本公开实施例中，服务器102可以关联有视频信息库，该视频信息库用于存储多个视频以及多个视频的参考文字信息之间的对应关系。

在实施本公开实施例的过程中，当用户想要搜索某一视频时，在终端101上启动视频应用程序或者浏览器，在视频应用程序或者浏览器的搜索框中输入与该视频相关的搜索词，并点击搜索选项，则终端101响应于用户的点击操作，触发视频搜索指令，进而向服务器102发送视频搜索请求，服务器102在接收到视频搜索请求后，利用本公开实施例提供的视频排序方法，确定出多个视频在该终端101上的展示顺序，并将该多个视频的展示顺序发送至终端101，再由终端101进行该多个视频的展示。本公开实施例中，后续采用目标搜索词来表示用户输入的搜索词。

图2是根据一示例性实施例示出的一种视频排序方法的流程图，如图2所示，该方法包括以下步骤：

在步骤201中，服务器响应于终端基于目标搜索词的视频搜索请求，获取多个视频的参考文字信息，该参考文字信息为该多个视频所包含的文字信息。

在步骤202中，服务器确定该多个视频的文字匹配信息，该文字匹配信息用于表示该参考文字信息与该目标搜索词之间的文字匹配程度。

在步骤203中，服务器基于该多个视频的文字匹配信息以及该多个视频对应的图文匹配信息，确定该多个视频在该终端上的展示顺序，该图文匹配信息用于表示该参考文字信息与对应视频的视频帧的匹配程度。

上述图2所示仅为本公开的基本流程，下面基于一种具体实施方式，来对本公开提供的方案进行进一步阐述，图3是根据一示例性实施例示出的一种视频排序方法的流程图，参见图3，该方法包括：

在步骤301中，终端响应于基于目标搜索词的视频搜索指令，向服务器发送视频搜索请求。

其中，目标搜索词用于表示用户输入的搜索词。视频搜索请求用于指示服务器获取与目标搜索词相关的多个视频并在终端进行展示。视频搜索请求携带有目标搜索词。

在一种可能的实现方式中，当用户想要搜索某一视频时，在终端上启动视频应用程序或者浏览器，在视频应用程序或者浏览器的搜索框中输入与该视频相关的搜索词，并点击搜索选项，则终端响应于用户的点击操作，触发视频搜索指令，进而向服务器发送视频搜索请求，以指示服务器获取与目标搜索词相关的多个视频并在终端进行展示。

在步骤302中，服务器响应于终端基于目标搜索词的视频搜索请求，获取多个视频的参考文字信息，该参考文字信息为该多个视频所包含的文字信息。

其中，参考文字信息为多个视频所包含的文字信息，具体是指多个视频的视频帧内所包含的文字信息。例如，参考文字信息为视频帧的字幕、视频帧内场景所包含的文字等。需要说明的是，参考文字信息基于OCR(Optical Character Recognition，光学字符识别)技术对多个视频的视频帧的识别得到。OCR技术通常包括文字检测和文字识别两个过程，具体是利用光学技术对文本资料进行扫描，将文本资料转换为黑白点阵的图像文件，通过检测暗、亮的模式，确定出图像文件中的文字形状，进而利用字符识别方法将文字形状翻译为文字。

在一种可能的实现方式中，该步骤302采用下述过程实现：服务器响应于终端基于目标搜索词的视频搜索请求，获取视频搜索请求携带的目标搜索词，并在视频信息库中查询，获取视频信息库中的多个视频，基于OCR技术对该多个视频进行文字检测和文字识别，确定该多个视频的参考文字信息。其中，视频信息库用于存储多个视频。在该过程中，服务器响应于视频搜索请求获取多个视频，并确定多个视频的参考文字信息，由于视频信息库存储有已上传的所有视频，这样，服务器能够获取到已上传的所有视频，避免由于漏掉最新上传的视频，而为用户展示出错误的视频。

在另一种可能的实现方式中，该步骤302采用下述过程实现：服务器响应于终端基于目标搜索词的视频搜索请求，获取视频搜索请求携带的目标搜索词，并在视频信息库中查询，获取视频信息库中多个视频的参考文字信息。其中，视频信息库用于存储多个视频以及多个视频的参考文字信息之间的对应关系。通过该过程，服务器直接在视频信息库中查询，即可获取到多个视频的参考文字信息，无需每次响应于视频搜索请求，都要确定多个视频的参考文字信息，提高了获取参考文字信息的效率，进而提高了视频展示的效率。需要说明的是，在该过程中，服务器需要提前确定出多个视频的参考文字信息，并将该多个视频以及该多个视频对应的参考文字信息对应存储至视频信息库中。还需要说明的是，服务器能够确定出最新上传的视频的参考文字信息，并将该最新上传的视频及其参考文字信息对应存储至视频信息库中。这样，服务器同样能够获取到已上传的所有视频，并获取到其参考文字信息，避免由于漏掉最新上传的视频，而为用户展示出错误的视频。

可选地，多个视频的参考文字信息基于对该多个视频的视频帧所识别出的文字的筛选得到。下面对服务器确定多个视频的参考文字信息的过程进行说明，该过程包括下述步骤(1)至(3)：

(1)服务器分别获取该多个视频的视频帧。

可选地，服务器获取多个视频的视频帧的过程包括下述任一项：

一种可能的实现方式中，服务器分别获取该多个视频的视频封面帧，作为该多个视频的视频帧。通常情况下，视频封面帧包含的文字信息是视频的视频标题或者视频简介，因此，视频封面帧所包含的文字信息与视频内容之间的相关性较高，利用视频封面帧进行后续的识别过程，能够获取到包含较多内容且相关性较高的文字信息，因此，基于视频封面帧识别所得到的文字信息，能够确保与视频的图文一致性。

又一种可能的实现方式中，服务器分别在该多个视频对应的多个视频帧中，选取一个视频帧，作为该多个视频的视频帧，或者，服务器在该多个视频对应的多个视频帧中，选取两个或两个以上视频帧，作为该多个视频的视频帧。在该过程中，通过随机地抽取视频中的个别视频帧，再利用随机选取的视频帧进行后续的识别过程，具备一定的可能性和开放性。需要说明的是，上述以服务器随机选取个别视频帧为例进行说明。在另一种可能的实现方式中，在实施本方案之前，对于多个视频中的任一个视频，人为选取该任一个视频中包含重要内容的视频帧，并对该包含重要内容的视频帧进行标记，则服务器在确定该任一个视频的参考文字信息时，可以直接获取该任一个视频中携带标记的视频帧，作为后续用于文字识别的视频帧。通过该过程，服务器能够获取到包含重要内容的视频帧，该包含重要内容的视频帧所包含的文字信息与视频内容之间的相关性较高，因此利用该包含重要内容的视频帧，进行后续的识别过程，能够获取到相关性较高的文字信息，因此，基于该包含重要内容的视频帧识别所得到的文字信息，能够确保与视频的图文一致性。

另一种可能的实现方式中，对于该多个视频中的任一个视频，将该任一个视频的多个视频帧作为后续用于文字识别的视频帧。通过该过程，对视频中的每个视频帧均进行后续的识别过程，能够确定出足够的文字信息，避免漏掉重要的文字信息。本公开实施例对选用何种视频帧不作限定。

(2)服务器分别对该多个视频的视频帧进行文字检测和文字识别，得到该多个视频的文字信息。

可选地，服务器采用R2CNN(Rotational Region CNN，旋转文本检测)来进行视频帧的文字检测。其中，R2CNN能够实现对视频帧内任意角度文字的检测，也就是说，R2CNN能够支持水平框和倾斜框的检测。水平框是一个矩形框。倾斜框是一个能够覆盖倾斜文字区域的倾斜矩形框。可选地，该倾斜框采用水平框各个点的坐标和旋转角度来表示，或者，该倾斜框采用两个相邻点的坐标和高度来表示，高度是指与该两个相邻点相连边区分的另一条边的长度。本公开实施例对选用何种方式表示倾斜框不作限定。R2CNN还利用了基于倾斜框的NMS(Non Maximum Suppression，非最大抑制)算法，该NMS算法用于对预测出的候选文字框进行聚类划分，也即是将属于同一个检测对象(也即是多个文字)的多个候选文字框划分为一类，进而在该多个候选文字框中确定一个候选文字框，或者，将该多个候选文字框合并为一个文字框，以得到最终输出的文字框。

相应地，服务器采用R2CNN进行文字检测的过程为：对于多个视频中的任一个视频，将该任一个视频的视频帧输入R2CNN，通过R2CNN对该任一个视频的视频帧进行检测，输出该任一个视频的视频帧的多个候选文字框，该多个候选文字框中可能包括水平候选框和/或倾斜候选框，并基于NMS算法，对预测出的候选文字框进行聚类划分，得到多个检测对象分别对应的候选文字框，在属于同一检测对象的多个候选文字框中，确定一个候选文字框，作为该任一个视频的视频帧对应的文字框(水平框和/或倾斜框)。本公开实施例中，采用R2CNN来进行文字检测，能够检测出视频帧中的横排文字、竖排文字和倾斜文字，提高了文字检测的精确性，另外，在文字检测过程中，可能存在一个检测对象既对应水平框又对应倾斜框，甚至由于文字重叠、文字接近等原因，会出现一个检测对象对应多个候选文字框的情况，这种情况下，通过上述倾斜框的NMS算法，进行候选文字框的聚类划分，进而在该多个候选文字框中确定一个候选文字框，能够保证一个文字框对应一个检测对象，文字检测的效果较好，避免了一个检测对象对应多个文字框，而造成后续文字识别的不准确。

可选地，服务器采用CRNN(Convolutional Recurrent Neural Network，卷积循环神经网络)来进行视频帧的文字识别。其中，CRNN是一种基于图像的文字序列识别的网络。CRNN的网络结构包括CNN(Convolutional Neural Networks，卷积神经网络)、RNN(Recurrent Neural Network，循环神经网络)和CTC(Connectionist TemporalClassification，时序分类)算法。其中，CNN用于提取视频帧内文字框的文字特征，该文字特征为特征序列的形式。RNN用于基于CNN输出的文字特征进行特征序列的预测。该RNN为双向RNN，双向RNN是指通过特征序列的前向信息和后向信息来进行特征序列的预测。CTC算法用于基于预先存储的词语库以及预测得到的文字特征进行文字特征的翻译。

相应地，服务器采用CRNN进行文字识别的过程为：将经文字检测得到的该任一个视频的视频帧输入CRNN，此时该任一个视频的视频帧包含有文字检测得到的文字框，通过CRNN中的CNN提取该文字框的文字特征，将提取到的文字特征输入CRNN中的RNN，通过CRNN中的RNN，对该文字特征进行特征序列的预测，得到预测后的文字特征，再将预测后的文字特征输入CRNN中的CTC，通过CRNN中CTC的翻译层，基于预先存储的词语库，对预测后的文字特征进行翻译，从而得到该多个视频的文字信息。

(3)服务器分别基于该多个视频的文字信息的物理特征，对该多个视频的文字信息进行文字筛选，得到该多个视频的参考文字信息，该物理特征用于表示文字在视频帧中的显示形式。

其中，该物理特征为文字位置、文字大小、文字清晰度、文字高宽、文字倾斜角度、文字字体、文字是否人为编辑、文字是否前景文字、文字是否重复中任意一项或任意多项。可选地，该物理特征基于对上述文字检测得到的文字框的分析得到。

可选地，服务器进行文字筛选得到参考文字信息的过程包括下述任一项：一种可能的实现方式中，服务器分别基于该多个视频的文字信息的文字大小和文字清晰度，在该多个视频的文字信息中，筛选出文字大小大于第一阈值且文字清晰度大于第二阈值的文字信息，将筛选出的文字信息作为该多个视频的参考文字信息。其中，第一阈值和第二阈值均为技术人员预先设定的固定阈值。

可选地，上述服务器筛选文字大小大于第一阈值且文字清晰度大于第二阈值的文字信息的过程包括：服务器分别将该多个视频的文字信息输入筛选模型，通过该筛选模型，筛选出文字大小大于第一阈值且文字清晰度大于第二阈值的文字信息。其中，筛选模型基于文字检测得到的物理特征以及文字识别的文字信息构建得到。本公开实施例中，将文字大小较小、较模糊的文字，作为视频中不重要的文字信息，将文字大小较小、较模糊的文字作为噪声处理，不进行后续的视频排序过程，在该过程中，利用文字大小较大、较清晰的文字进行后续的视频排序，由于文字大小较大、较清晰的文字，能够更好的体现视频的主体内容，其与视频内容之间的相关性更高，因此根据文字大小较大、较清晰的文字，进行视频排序，提高了视频排序的准确性，进而提高了视频展示的准确性。

又一种可能的实现方式中，服务器分别基于该多个视频的文字信息的文字位置和文字是否人为编辑，在该多个视频的文字信息中，筛选出文字人为编辑或文字处于视频帧的目标位置的文字信息，将筛选出的文字信息作为该多个视频的参考文字信息。其中，目标位置是指视频帧的主体位置、中心位置或者显眼位置。

可选地，上述服务器筛选文字人为编辑或文字处于视频帧的目标位置的文字信息的过程包括：服务器分别将该多个视频的文字信息输入分类网络，通过该分类网络，确定该文字信息中属于前景文字类型的文字信息，该前景文字类型用于表示人为编辑或处于视频的目标位置的文字类型。其中，分类网络也可以理解为文字前景模型，用于确定属于前景文字类型的文字信息。本公开实施例中，将视频中人为编辑的文字、在视频中占主体位置、中心位置或者显眼位置的文字作为前景，其他的场景文字作为背景，从而将背景中的文字信息作为视频中不重要的文字信息，将视频中不重要的文字信息作为噪声处理，不进行后续的视频排序过程，在该过程中，利用视频中属于前景文字类型的文字进行后续的视频排序，由于属于前景文字类型的文字，能够更好的体现视频的主体内容，其与视频内容之间的相关性更高，因此根据属于前景文字类型的文字，进行视频排序，提高了视频排序的准确性。

可选地，上述分类网络基于Resnet50(残差网络)事先训练得到。在一种可能实现方式中，技术人员通过人工标注的方式，标注出多个视频的文字信息中不属于前景文字类型的文字信息，得到多个视频的文字信息的类型标签。将该多个视频的文字信息作为样本文字信息，服务器能够获取到样本文字信息和样本文字信息的类型标签，基于样本文字信息和样本文字信息的类型标签，进行模型训练，能够得到分类网络。相应地，上述分类网络的训练过程具体包括：在第一次迭代过程中，将样本文字信息，输入初始Resnet50模型，得到第一次迭代过程的分类结果。基于第一次迭代过程的分类结果与类型标签，确定损失函数，基于损失函数，对初始Resnet50模型中的模型参数进行调整。将第一次迭代调整后的模型参数作为第二次迭代的模型参数，再进行第二次迭代。重复多次上述迭代过程，在第N次过程中，以第N-1次迭代调整后的模型参数作为新的模型参数，进行模型训练，直到训练满足目标条件，则将满足目标条件的迭代过程所对应的模型获取为分类网络。其中，N为大于等于1的整数。可选地，训练满足的目标条件为初始模型的训练迭代次数达到目标次数，目标次数技术人员预先设定固定迭代次数。或者，训练满足的目标条件为损失值满足目标阈值条件，如损失值小于0.00001。本公开实施例对此不作限定。

上述步骤(3)提供了两种文字筛选的方式。可选地，服务器选用上述两种文字筛选的方式中的任一种方式进行文字筛选，或者，服务器同时采用上述两种文字筛选的方式，来进行文字筛选。本公开实施例对选用何种方式进行文字筛选不作限定。还需要说明的是，在同时采用上述两种文字筛选的方式，进行文字筛选的过程中，服务器先筛选出文字大小大于第一阈值且文字清晰度大于第二阈值的文字信息，再筛选文字人为编辑或文字处于视频帧的目标位置的文字信息，或者，服务器先筛选出文字人为编辑或文字处于视频帧的目标位置的文字信息，再筛选文字大小大于第一阈值且文字清晰度大于第二阈值的文字信息。本公开实施例对文字筛选的先后次序不作限定。本公开实施例中，对于视频帧场景中比较小的、模糊的文字，可能体现不出视频的主体，将这类文字作为视频中不重要的文字信息，其对应的特征权重也更低，而对于位于视频中间位置、清晰的、大的文字，将这类文字作为视频中重要的文字信息，其对应的特征权重也更高。上述过程中，通过对文字信息同时进行文字大小、文字清晰度、文字位置以及文字是否人为编辑方面的筛选，能够筛选出视频中较大、较清晰、人为编辑以及在视频中占主体位置、中心位置或者显眼位置的文字，也即是确定出了视频中与视频内容强相关的文字，进而根据该强相关的文字进行后续视频排序时，不仅提高了视频排序的准确性，还降低了视频排序的计算量，提高了视频排序的效率。

上述步骤(3)提供的两种文字筛选的方式中，以筛选出文字大小大于第一阈值且文字清晰度大于第二阈值的文字信息、文字人为编辑或文字处于视频帧的目标位置的文字信息后，将剩余的文字信息作噪声处理为例对方案进行说明。在另一种可能的实现方式中，服务器在确定出文字大小大于第一阈值且文字清晰度大于第二阈值的文字信息、文字人为编辑或文字处于视频帧的目标位置的文字信息后，为该文字大小大于第一阈值且文字清晰度大于第二阈值的文字信息、文字人为编辑或文字处于视频帧的目标位置的文字信息设置较高的特征权重，为剩余的文字信息设置较低的特征权重，进而，在后续确定文字匹配信息和图文匹配信息时，可以基于筛选出的文字信息的特征权重以及剩余的文字信息的特征权重来确定，这样，实现了基于视频所包含的全部文字信息，确定文字匹配信息和图文匹配信息，提高了确定文字匹配信息和图文匹配信息的准确性。

在步骤303中，服务器确定该多个视频的文字匹配信息，该文字匹配信息用于表示该参考文字信息与该目标搜索词之间的文字匹配程度。

其中，文字匹配程度可理解为文字相似度，该文字匹配程度采用文字之间的距离来表示。应理解地，文字之间的距离越大，文字匹配程度越小，文字之间的距离越小，文字匹配程度越大。

在一种可能的实现方式中，服务器获取到视频搜索请求携带的目标搜索词以及多个视频的参考文字信息后，将该多个视频的参考文字信息与该目标搜索词转换为同一种编码格式的字符串，计算该参考文字信息的字符串与该目标搜索词的字符串之间的距离，将该距离作为该多个视频与该目标搜索词之间的文字匹配程度，从而得到该多个视频的文字匹配信息。本公开实施例中，采用参考文字信息，确定文字匹配程度，由于参考文字信息为视频所包含的文字信息，因此根据参考文字信息确定出的文字匹配信息，能够表示视频内容与目标搜索词的文字匹配程度，保证了参考文字信息与视频的图文一致性。

可选地，距离为余弦距离、欧氏距离、曼哈顿距离、马氏距离、海明距离与切比雪夫距离中任一项。本公开实施例对选用何种距离不作限定。

在步骤304中，服务器获取该多个视频对应的图文匹配信息，该图文匹配信息用于表示该参考文字信息与对应视频的视频帧的匹配程度。

其中，图文匹配信息可理解为参考文字信息与对应视频的内容的一致程度，该视频内容是指视频所要表达的内容。

在一种可能的实现方式中，该步骤304采用下述过程实现：服务器获取到多个视频的参考文字信息后，基于多个视频的参考文字信息以及该参考文字信息对应视频的视频帧，确定该多个视频对应的图文匹配信息。

在另一种可能的实现方式中，该步骤304采用下述过程实现：服务器从视频信息库中查询，得到多个视频对应的图文匹配信息。其中，视频信息库还用于存储多个视频与该多个视频的图文匹配信息之间的对应关系。通过该过程，直接在视频信息库中查询，即可获取到多个视频的图文匹配信息，无需每次响应于视频搜索请求，都要确定多个视频的图文匹配信息，提高了获取图文匹配信息的效率，进而提高了视频展示的效率。需要说明的是，服务器需要提前确定出该多个视频对应的图文匹配信息，并将该多个视频以及该多个对应的图文匹配信息对应存储至视频信息库中。还需要说明的是，服务器能够确定最新上传的视频的参考文字信息和图文匹配信息，从而将该最新上传的视频及其参考文字信息和图文匹配信息对应存储至视频信息库中。这样，服务器能够获取到已上传的所有视频，并获取到其参考文字信息和图文匹配信息。

下面对服务器确定图文匹配信息的过程进行说明，该过程包括步骤(1)至步骤(3)：

(1)服务器分别提取该多个视频的参考文字信息的语义特征。

其中，语义特征是指参考文字信息的语义向量表达。

可选地，服务器通过语义分析网络提取该多个视频的参考文字信息的语义特征。例如该语义分析网络为BERT(Bidirectional-Encoder-Representation-from-Transformers)网络，BERT网络是一种双向编码网络，也就是说，对于一个文本，通过当前词左右两侧的上下文来预测当前词。相应地，通过BERT网络提取语义特征的具体过程包括：对于该多个视频中的任一个视频，将该任一个视频的参考文字信息拼接成为一段文本，将该文本输入BERT网络，通过BERT网络对该文本进行特征提取，得到该文本的语义特征。本公开实施例中，通过双向编码网络，从两个方向来提取参考文字信息的语义特征，能够使编码器尽可能的包含输入的参考文字信息的全局信息，从而提高确定语义特征的准确性。

(2)服务器分别提取该多个视频的视频帧的内容特征。

其中，内容特征可以是视频帧的内容向量表达。

可选地，服务器通过CNN特征提取网络来提取该多个视频的视频帧的内容特征。可选地，CNN特征提取网络为Resnet50、InceptionV3等深度网络中任一项。

(3)服务器基于该参考文字信息的语义特征与该视频帧的内容特征，确定该多个视频的图文匹配信息。

在一种可能的实现方式中，在提取到参考文字信息的语义特征和视频帧的内容特征后，对参考文字信息的语义特征和视频帧的内容特征进行匹配程度的计算，得到语义特征和内容特征的匹配程度，则能够得到多个视频的图文匹配信息。

在另一种可能的实现方式中，采用双塔网络执行步骤(1)至步骤(3)，来确定多个视频的图文匹配信息。双塔网络(Deep Structured Semantic Model，DSSM)也称为深度语义匹配模型，是一种用于预测两个特征之间匹配程度的模型。需要说明的是，双塔网络采用相互独立的两个网络来构建特征，例如，相互独立的两个网络为语义分析网络和CNN特征提取网络。确定图文匹配信息的相应过程为：对于该多个视频中的任一个视频，通过双塔网络中的语义分析网络提取该任一个视频的参考文字信息的语义特征，通过该双塔网络中的特征提取网络提取该任一个视频的视频帧的内容特征，对该语义特征与该内容特征进行匹配程度的预测，得到该任一个视频的图文匹配信息。

可选地，通过该双塔网络对该语义特征与该内容特征进行预测的过程包括：通过该双塔网络，以该语义特征为搜索词进行检索，获取以该语义特征为搜索词得到的该内容特征的点击率，并基于该语义特征与该内容特征，确定该语义特征与该内容特征之间的语义相似度，再对该点击率与该语义相似度，进行加权求和，得到该图文匹配信息。在本公开实施例中，采用了点击率(ctr)来确定语义特征与内容特征的匹配程度。应理解地，用户在采用某一搜索词搜索视频或图片时，通常会对与该搜索词强相关的视频或图片进行点击操作，因此，点击率高表示语义特征与内容特征的匹配程度高，点击率低表示语义特征与内容特征的匹配程度低。通过采用点击率来计算语义特征与内容特征的匹配程度，由于使用了真实检索场景下的点击数据，所确定出的结果可信度很高，进而基于点击率与语义相似度来确定图文匹配信息，能够更加准确地确定出图文匹配信息。另外，上述语义相似度是指语义特征与内容特征之间的语义相似度。可选地，语义相似度采用距离来表示，如余弦距离等。

例如，若视频帧中存在飞机或者机场等场景时，参考文字信息中的空姐、空少、机场、飞机等文字就更重要，而其他不相关的文字就更不重要。本公开实施例中，对于参考文字信息，不仅考虑到参考文字信息的文字内容，还结合参考文字信息在视频帧中图文匹配程度的特征，进行多维度的理解，进而在进行后续视频排序时，使图文匹配程度较高的排序靠前，使图文匹配程度较低的排序靠后，这样能够确保后续展示的视频的图文一致性，提高了视频展示的准确性。

在步骤305中，服务器基于该多个视频的文字匹配信息以及该多个视频对应的图文匹配信息，确定该多个视频在该终端上的展示顺序。

在一种可能的实现方式中，服务器获取到该多个视频的文字匹配信息以及该多个视频对应的图文匹配信息后，对该多个视频的文字匹配信息以及该多个视频对应的图文匹配信息，进行加权求和，得到目标匹配信息，按照该目标匹配信息的数值大小进行排列，得到该多个视频的排列顺序，也即是得到了该多个视频在该终端上的展示顺序。本公开实施例中，在确定多个视频的展示顺序时，不仅利用了文字匹配信息，还利用了图文匹配信息，也就是说，不仅利用了文字内容，还利用了文字的图文一致程度，能够更加精准地确定出多个视频的展示顺序，有效避免了图文不一致的问题。

可选地，上述确定多个视频的展示顺序时，采用XGBoost(eXtreme GradientBoosting，极端梯度提升)、GDBT(Gradient Boosting Decision Tree，梯度提升树)等分类器进行分类排序。

上述步骤仅以根据文字匹配信息和图文匹配信息，确定多个视频的展示顺序为例。在另一种可能的实现方式中，服务器基于该多个视频的文字匹配信息、该多个视频的点击率以及该多个视频对应的图文匹配信息，确定该多个视频在该终端上的展示顺序。应理解地，服务器基于该多个视频的文字匹配信息、该多个视频对应的图文匹配信息以及该多个视频的其他特征，如用户兴趣度、用户历史行为等特征，也能够确定该多个视频的展示顺序。在该过程中，考虑到了点击率，由于点击率能够表示大部分用户对视频的兴趣程度，如一个视频，展现了1W次，没有被点击一次，那说明用户对其不感兴趣，相反被点击了5000次，说明用户非常感兴趣，因此基于点击率进行视频排序时，能够确定出更加符合用户兴趣倾向的视频排序，用户体验感好。

需要说明的是，上述步骤303至步骤305中，以服务器确定多个视频的文字匹配程度，并确定该多个视频的图文匹配信息为例对方案进行说明。在另一种可能的实现方式中，服务器确定多个视频的文字匹配程度后，确定文字匹配程度大于第三阈值的多个视频，再根据该文字匹配程度大于第三阈值的多个视频，确定其对应的图文匹配信息，进而根据该文字匹配程度大于第三阈值的多个视频，进行后续视频展示过程。其中，第三阈值为预先设定的固定阈值。通过该过程，只需对文字匹配程度大于第三阈值的多个视频，进行后续确定图文匹配信息的过程，无需对所有的视频进行后续确定图文匹配信息的过程，减小了服务器的计算量，大大地提高了服务器确定图文匹配程度的效率，同时提高了视频展示的效率。

还需要说明的是，上述步骤305中，以服务器确定多个视频的图文匹配信息，并对多个视频进行排序为例对方案进行说明。在另一种可能的实现方式中，服务器确定多个视频的图文匹配程度后，确定图文匹配程度大于第四阈值的多个视频，进而再对该图文匹配程度大于第四阈值的多个视频进行视频排序。通过该过程，只需对图文匹配程度大于第四阈值的多个视频，进行后续视频排序的过程，无需对所有的视频进行后续视频排序的过程，减小了服务器的计算量，大大地提高了视频排序的效率，同时提高了视频展示的效率。

可选地，上述第三阈值与第四阈值的数值相同，或者，第三阈值与第四阈值的数值不同。本公开实施例对第三阈值与第四阈值是否相同不作限定。

在步骤306中，服务器基于该多个视频以及该展示顺序，确定目标数目的视频，向该终端发送该目标数目的视频以及该目标数目的视频的展示顺序。

其中，目标数目是指终端上待展示视频的数目，该目标数目为技术人员预先设定的固定数值，如15。

在一种可能的实现方式中，服务器确定出该多个视频的展示顺序后，基于该多个视频以及该展示顺序，来向该终端进行展示，相应过程为：服务器在该多个视频中，按照该展示顺序从前到后的顺序，确定目标数目的视频，并将该目标数目的视频以及该目标数目的视频的展示顺序发送至终端。

应理解地，若服务器经步骤305得到的多个视频的数目小于或等于该目标数目，则直接将多个视频以及该多个视频的展示顺序发送至终端即可。

在步骤307中，终端接收该目标数目的视频以及该目标数目的视频的展示顺序，按照该目标数目的视频的展示顺序，展示该目标数目的视频。

在一种可能的实现方式中，终端接收到该目标数目的视频以及该目标数目的视频的展示顺序后，按照该目标数目的视频的展示顺序，在终端界面上展示该目标数目的视频，则用户通过浏览该目标数目的视频，能够快速找到其想要观看的视频，对其想要观看的视频实施点击操作，就可以观看该视频。

图4是根据一示例性实施例示出的一种视频排序装置的框图。参照图4，该装置包括获取单元401，确定单元402和排序单元403。

获取单元401，被配置为执行响应于终端基于目标搜索词的视频搜索请求，获取多个视频的参考文字信息，该参考文字信息为该多个视频所包含的文字信息；

确定单元402，被配置为执行确定该多个视频的文字匹配信息，该文字匹配信息用于表示该参考文字信息与该目标搜索词之间的文字匹配程度；

排序单元403，被配置为执行基于该多个视频的文字匹配信息以及该多个视频对应的图文匹配信息，确定该多个视频在该终端上的展示顺序，该图文匹配信息用于表示该参考文字信息与对应视频的视频帧的匹配程度。

在一种可能的实现方式中，该装置还包括：

对于该多个视频中的任一个视频，通过双塔网络中的语义分析网络提取该任一个视频的参考文字信息的语义特征，通过所述双塔网络中的特征提取网络提取该任一个视频的视频帧的内容特征，对该语义特征与该内容特征进行匹配程度的预测，得到该任一个视频的图文匹配信息。

在一种可能的实现方式中，该预测单元包括：

在一种可能的实现方式中，该文字筛选单元包括：

在一种可能的实现方式中，该文字筛选单元还包括：

在一种可能的实现方式中，该排序单元403，被配置为执行：

图5是根据一示例性实施例示出的一种服务器的框图，该服务器500可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器(Central Processing Units，CPU)501和一个或多个的存储器502，其中，该一个或多个存储器502中存储有至少一条程序代码，该至少一条程序代码由该一个或多个处理器501加载并执行以实现上述各个方法实施例提供的视频排序方法。当然，该服务器500还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器500还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种包括程序代码的存储介质，例如包括程序代码的存储器502，上述程序代码可由服务器500的处理器501执行以完成上述视频排序方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，该非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频排序方法，其特征在于，所述方法包括：

响应于终端基于目标搜索词的视频搜索请求，获取多个视频的参考文字信息，所述参考文字信息为所述多个视频所包含的文字信息，所述多个视频所包含的文字信息为所述多个视频的视频帧内所包含的文字信息；

确定所述多个视频的文字匹配信息，所述文字匹配信息用于表示所述参考文字信息与所述目标搜索词之间的文字匹配程度；

分别提取所述多个视频的参考文字信息的语义特征；分别提取所述多个视频的视频帧的内容特征；基于所述参考文字信息的语义特征与所述视频帧的内容特征，确定所述多个视频的图文匹配信息，所述图文匹配信息用于表示所述参考文字信息与对应视频的视频帧的匹配程度；

基于所述多个视频的文字匹配信息以及所述多个视频对应的图文匹配信息，确定所述多个视频在所述终端上的展示顺序。

2.根据权利要求1所述的视频排序方法，其特征在于，所述图文匹配信息的确定过程包括：

对于所述多个视频中的任一个视频，通过双塔网络中的语义分析网络提取所述任一个视频的参考文字信息的语义特征，通过所述双塔网络中的特征提取网络提取所述任一个视频的视频帧的内容特征，对所述语义特征与所述内容特征进行匹配程度的预测，得到所述任一个视频的图文匹配信息。

3.根据权利要求2所述的视频排序方法，其特征在于，所述对所述语义特征与所述内容特征进行匹配程度的预测，得到所述任一个视频的图文匹配信息包括：

通过所述双塔网络，获取以所述语义特征为搜索词得到的所述内容特征的点击率；

基于所述语义特征与所述内容特征，确定所述语义特征与所述内容特征之间的语义相似度；

对所述点击率与所述语义相似度，进行加权求和，得到所述图文匹配信息。

4.根据权利要求1所述的视频排序方法，其特征在于，所述多个视频的参考文字信息的确定过程包括：

分别获取所述多个视频的视频帧；

分别对所述多个视频的视频帧进行文字检测和文字识别，得到所述多个视频的文字信息；

分别基于所述多个视频的文字信息的物理特征，对所述多个视频的文字信息进行文字筛选，得到所述多个视频的参考文字信息，所述物理特征用于表示文字在视频帧中的显示形式。

5.根据权利要求4所述的视频排序方法，其特征在于，所述分别获取所述多个视频的视频帧包括下述任一项：

分别获取所述多个视频的视频封面帧，作为所述多个视频的视频帧；

分别在所述多个视频对应的多个视频帧中，选取一个视频帧，作为所述多个视频的视频帧。

6.根据权利要求4所述的视频排序方法，其特征在于，所述物理特征为文字位置、文字大小、文字清晰度、文字高宽、文字倾斜角度、文字字体、文字是否人为编辑、文字是否前景文字、文字是否重复中任意一项或任意多项。

7.根据权利要求6所述的视频排序方法，其特征在于，所述分别基于所述多个视频的文字信息的物理特征，对所述多个视频的文字信息进行文字筛选，得到所述多个视频的参考文字信息包括：

分别基于所述多个视频的文字信息的文字大小和文字清晰度，在所述多个视频的文字信息中，筛选出文字大小大于第一阈值且文字清晰度大于第二阈值的文字信息；

将筛选出的文字信息作为所述多个视频的参考文字信息。

8.根据权利要求6所述的视频排序方法，其特征在于，所述分别基于所述多个视频的文字信息的物理特征，对所述多个视频的文字信息进行文字筛选，得到所述多个视频的参考文字信息包括：

分别基于所述多个视频的文字信息的文字位置和文字是否人为编辑，在所述多个视频的文字信息中，筛选出文字人为编辑或文字处于视频帧的目标位置的文字信息；

将筛选出的文字信息作为所述多个视频的参考文字信息。

9.根据权利要求8所述的视频排序方法，其特征在于，所述分别基于所述多个视频的文字信息的文字位置和文字是否人为编辑，在所述多个视频的文字信息中，筛选出文字人为编辑或文字处于视频帧的目标位置的文字信息包括：

分别将所述多个视频的文字信息输入分类网络，通过所述分类网络，确定所述文字信息中属于前景文字类型的文字信息，所述前景文字类型用于表示人为编辑或处于视频中的目标位置的文字类型。

10.根据权利要求1所述的视频排序方法，其特征在于，所述基于所述多个视频的文字匹配信息以及所述多个视频对应的图文匹配信息，确定所述多个视频在所述终端上的展示顺序包括：

基于所述多个视频的文字匹配信息、所述多个视频的点击率以及所述多个视频对应的图文匹配信息，确定所述多个视频在所述终端上的展示顺序。

11.一种视频排序装置，其特征在于，所述装置包括：

获取单元，被配置为执行响应于终端基于目标搜索词的视频搜索请求，获取多个视频的参考文字信息，所述参考文字信息为所述多个视频所包含的文字信息，所述多个视频所包含的文字信息为所述多个视频的视频帧内所包含的文字信息；

确定单元，被配置为执行确定所述多个视频的文字匹配信息，所述文字匹配信息用于表示所述参考文字信息与所述目标搜索词之间的文字匹配程度；

语义特征提取单元，被配置为执行分别提取所述多个视频的参考文字信息的语义特征；

内容特征提取单元，被配置为执行分别提取所述多个视频的视频帧的内容特征；

图文匹配信息确定单元，被配置为执行基于所述参考文字信息的语义特征与所述视频帧的内容特征，确定所述多个视频的图文匹配信息，所述图文匹配信息用于表示所述参考文字信息与对应视频的视频帧的匹配程度；

排序单元，被配置为执行基于所述多个视频的文字匹配信息以及所述多个视频对应的图文匹配信息，确定所述多个视频在所述终端上的展示顺序。

12.根据权利要求11所述的视频排序装置，其特征在于，所述装置还包括预测单元，被配置为执行：

13.根据权利要求12所述的视频排序装置，其特征在于，所述预测单元包括：

获取子单元，被配置为执行通过所述双塔网络，获取以所述语义特征为搜索词得到的所述内容特征的点击率；

确定子单元，被配置为执行基于所述语义特征与所述内容特征，确定所述语义特征与所述内容特征之间的语义相似度；

加权子单元，被配置为执行对所述点击率与所述语义相似度，进行加权求和，得到所述图文匹配信息。

14.根据权利要求11所述的视频排序装置，其特征在于，所述多个视频的参考文字信息的确定过程包括：

视频帧获取单元，被配置为执行分别获取所述多个视频的视频帧；

文字信息获取单元，被配置为执行分别对所述多个视频的视频帧进行文字检测和文字识别，得到所述多个视频的文字信息；

文字筛选单元，被配置为执行分别基于所述多个视频的文字信息的物理特征，对所述多个视频的文字信息进行文字筛选，得到所述多个视频的参考文字信息，所述物理特征用于表示文字在视频帧中的显示形式。

15.根据权利要求14所述的视频排序装置，其特征在于，所述视频帧获取单元包括下述任一项：

第一视频帧获取单元，被配置为执行分别获取所述多个视频的视频封面帧，作为所述多个视频的视频帧；

第二视频帧获取单元，被配置为执行分别在所述多个视频对应的多个视频帧中，选取一个视频帧，作为所述多个视频的视频帧。

16.根据权利要求14所述的视频排序装置，其特征在于，所述物理特征为文字位置、文字大小、文字清晰度、文字高宽、文字倾斜角度、文字字体、文字是否人为编辑、文字是否前景文字、文字是否重复中任意一项或任意多项。

17.根据权利要求16所述的视频排序装置，其特征在于，所述文字筛选单元包括：

第一筛选子单元，被配置为执行分别基于所述多个视频的文字信息的文字大小和文字清晰度，在所述多个视频的文字信息中，筛选出文字大小大于第一阈值且文字清晰度大于第二阈值的文字信息；

第一确定子单元，被配置为执行将筛选出的文字信息作为所述多个视频的参考文字信息。

18.根据权利要求16所述的视频排序装置，其特征在于，所述文字筛选单元还包括：

第二筛选子单元，被配置为执行分别基于所述多个视频的文字信息的文字位置和文字是否人为编辑，在所述多个视频的文字信息中，筛选出文字人为编辑或文字处于视频帧的目标位置的文字信息；

第二确定子单元，被配置为执行将筛选出的文字信息作为所述多个视频的参考文字信息。

19.根据权利要求18所述的视频排序装置，其特征在于，所述第二筛选子单元，被配置为执行：

分别将所述多个视频的文字信息输入分类网络，通过所述分类网络，确定所述文字信息中属于前景文字类型的文字信息，所述前景文字类型用于表示人为编辑或处于视频的目标位置的文字类型。

20.根据权利要求11所述的视频排序装置，其特征在于，所述排序单元，被配置为执行：

21.一种服务器，其特征在于，所述服务器包括：

一个或多个处理器；

用于存储所述处理器可执行程序代码的存储器；

其中，所述处理器被配置为执行所述程序代码，以实现如权利要求1至10中任一项所述的视频排序方法。

22.一种存储介质，其特征在于，当所述存储介质中的程序代码由服务器的处理器执行时，使得所述服务器能够执行如权利要求1至10中任一项所述的视频排序方法。