CN115687701A

CN115687701A - 文本处理方法

Info

Publication number: CN115687701A
Application number: CN202110838857.0A
Authority: CN
Inventors: 丁鑫棚; 张士伟; 蒋建文; 唐铭谦
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2021-07-23
Filing date: 2021-07-23
Publication date: 2023-02-03

Abstract

本申请公开了一种文本处理方法。其中，该方法包括：响应作用于操作界面上的第一输入指令，输入目标文本和目标视频；响应作用于操作界面上的文本定位指令，在操作界面上显示目标视频中与目标文本相匹配的目标视频片段，其中，目标视频片段为基于目标文本的多层语义特征和目标视频的视频特征得到，多层语义特征为从目标文本的多层语义文本中提取出，多层语义文本为对目标文本进行分层处理得到。本申请解决了相关技术中对目标视频进行检索的准确度较低的技术问题。

Description

文本处理方法

技术领域

本申请涉及文本处理领域，具体而言，涉及一种文本处理方法。

背景技术

时序文本定位的目的是在未修剪的长视频中定位与给定句子描述相应的时序片段。由于其在视频理解，视频检索和人机交互中有着广泛的应用，因此引起了工业界和学术界越来越多的关注。

目前，在时序文本定位中，与主句描述对应的片段可能同时出现在视频中的多个视频片段中，这种在视频中的多个视频片段中出现与主句描述对应的片段会忽略主句的作用，从而关注其余的部分，从而导致目标视频检索的准确度较低。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种文本处理方法，以至少解决相关技术中对目标视频进行检索的准确度较低的技术问题。

根据本申请实施例的一个方面，提供了一种文本处理方法，包括：响应作用于操作界面上的第一输入指令，输入目标文本和目标视频；响应作用于操作界面上的文本定位指令，在操作界面上显示目标视频中与目标文本相匹配的目标视频片段，其中，目标视频片段为基于目标文本的多层语义特征和目标视频的视频特征得到，多层语义特征为从目标文本的多层语义文本中提取出，多层语义文本为对目标文本进行分层处理得到。

根据本申请实施例的另一方面，还提供了另一种文本处理方法，包括：响应作用于视频显示页面上的第二输入指令，输入目标文本，其中，视频显示页面上显示有目标视频；响应作用于视频显示页面上的文本定位指令，在视频显示页面上显示目标视频中与目标文本相匹配的目标视频片段，其中，目标视频片段为基于目标文本的多层语义特征和目标视频的视频特征得到，多层语义特征为从目标文本的多层语义文本中提取出，多层语义文本为对目标文本进行分层处理得到。

根据本申请实施例的另一方面，还提供了另一种文本处理方法，包括：从文娱播放平台获取文娱类视频，并在操作界面上显示文娱类视频；响应作用于操作界面上的第三输入指令，输入目标文本；响应作用于操作界面上的文本定位指令，在操作界面上显示文娱类视频中与目标文本相匹配的目标视频片段，其中，目标视频片段为基于目标文本的多层语义特征和文娱类视频的视频特征得到，多层语义特征为从目标文本的多层语义文本中提取出，多层语义文本为对目标文本进行分层处理得到。

根据本申请实施例的另一方面，还提供了一种文本处理装置，包括：第一输入单元，用于响应作用于操作界面上的第一输入指令，输入目标文本和目标视频；第一显示单元，用于响应作用于操作界面上的文本定位指令，在操作界面上显示目标视频中与目标文本相匹配的目标视频片段，其中，目标视频片段为基于目标文本的多层语义特征和目标视频的视频特征得到，多层语义特征为从目标文本的多层语义文本中提取出，多层语义文本为对目标文本进行分层处理得到。

根据本申请实施例的另一方面，还提供了另一种文本处理装置，包括：第二输入单元，用于响应作用于视频显示页面上的第二输入指令，输入目标文本，其中，视频显示页面上显示有目标视频；第二显示单元，用于响应作用于视频显示页面上的文本定位指令，在视频显示页面上显示目标视频中与目标文本相匹配的目标视频片段，其中，目标视频片段为基于目标文本的多层语义特征和目标视频的视频特征得到，多层语义特征为从目标文本的多层语义文本中提取出，多层语义文本为对目标文本进行分层处理得到。

在本申请实施例中，首先响应作用于操作界面上的第一输入指令，输入目标文本和目标视频；响应作用于操作界面上的文本定位指令，在操作界面上显示目标视频中与目标文本相匹配的目标视频片段，其中，目标视频片段为基于目标文本的多层语义特征和目标视频的视频特征得到，多层语义特征为目标文本的多层语义文本中提取出，多层语义文本为对目标文本进行分层处理得到，实现了从目标视频中确定出于目标文本对应的目标视频片段。

容易注意到的是，通过对目标文本进行分层处理，可以得到不同层次的语义文本，每个层次的语义文本中均包含主句，从而能够关注到不同层级的文本信息，通过从不同层级的文本信息中提取多层语义特征，并利用多层语义特征和目标视频的视频特征确定目标视频片段，可以提高对目标视频检索的准确度。

由此，本申请提供的方案解决了相关技术中对目标视频进行检索的准确度较低的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种用于实现文本处理方法的计算机终端(或移动设备)的硬件结构框图；

图2是根据本申请实施例的一种文本处理方法的流程图；

图3是根据本申请实施例的一种文本处理方法的结构框图；

图4是根据本申请实施例的另一种文本处理方法的流程图；

图5是根据本申请实施例的另一种文本处理方法的流程图；

图6是根据本申请实施例的一种文本处理装置的示意图；

图7是根据本申请实施例的另一种文本处理装置的示意图；

图8是根据本申请实施例的另一种文本处理装置的示意图；

图9是根据本申请实施例的一种计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

时序文本定位，指根据给定的一个句子描述，在长视频中定位到句子所描述视频片段的起始时间。

跨膜态，指图像、视频、音频、文本等多个模态的学习，在本申请中特指视频和文本两个模态。

主句，在英语语法中，主从句(也称为独立从句)是一个由主语和谓语组成的单词的组合，其共同表示一个完整的概念，在本申请中，将主句表示为谓语短语。

真值，表示对于一个文本，视频中与该文本对应的时序片段。

实施例1

根据本申请实施例，还提供了一种文本处理方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现文本处理方法的计算机终端(或移动设备)的硬件结构框图。如图1所示，计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本申请实施例中的文本处理方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的漏洞检测方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

此处需要说明的是，在一些可选实施例中，上述图1所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。

在上述运行环境中，本申请提供了如图2所示的文本处理方法，图2是根据本申请实施例1的一种文本处理方法的流程图。如图2所示，该方法可以包括如下步骤：

步骤S202，响应作用于操作界面上的第一输入指令，输入目标文本和目标视频。

上述的操作界面可以是计算机等终端设备的操作界面。

在一种可选的实施例中，用户可以点击操作界面中预先设置的输入控件，以使得该输入控件生成第一输入指令，此时，用户可以根据第一输入指令输入目标文本和目标视频。

上述的目标文本可以是待处理的文本，上述的目标视频可以是待处理的视频。

上述的目标文本可以是道路路段的目标文本，上述的目标视频可以是道路路段的监控视频，通过获取目标文本和监控视频，可以从监控视频中确定目标文本相匹配的目标视频片段。

上述的目标文本可以是教学视频的目标文本，上述的目标视频可以是教学视频，通过获取目标文本和教学视频，可以在教学视频中确定目标文本相匹配的目标视频片段。

上述的目标文本可以是直播平台中的目标文本，上述的目标视频可以是直播平台中的目标视频，通过获取目标文本和直播平台中的目标视频，可以在目标视频中确定出与目标文本相匹配的目标视频片段。

步骤S204，响应作用于操作界面上的文本定位指令，在操作界面上显示目标视频中与目标文本相匹配的目标视频片段，其中，目标视频片段为基于目标文本的多层语义特征和目标视频的视频特征得到，多层语义特征为从目标文本的多层语义文本中提取出，多层语义文本为对目标文本进行分层处理得到。

在一种可选的实施例中，用户在确定输入的目标文本和目标视频之后，可以在操作界面上点击预先设置的确定控件，以使的该确定控件生成文本定位指令，此时，可以在操作界面上显示目标视频中与目标文本相匹配的目标视频片段。

其中，每层语义文本为一个语法层级的语义文本，且包括目标文本的主句。

在一种可选的实施例中，可以通过对目标文本进行分层处理，分别得到不同层次的语义文本，以解决由于目标文本的主句在真值片段和非真值片段中共同存在，从而导致网络忽略主句作用。

在另一种可选的实施例中，可以将目标文本分为三部分，分别为主句、定语从句和状语从句。多级的句子信息通过有序地将定语从句和状语从句加入到主句上得到。上述的多层语义文本可以是三个级别的语义文本，其中，三个级别的语义文本可以从粗略到细致的文本语义信息分别分为主句、主句+定语从句、完整的句子。由此，可以获得不同层级的文本信息，以避免出现忽略主句的问题。

在另一种可选的实施例中，可以将每层语义文本输入到预先训练的模型中进行编码，得到

然后将S_i输入到三层的时间循环神经网络(Recurrent neural network，简称RNN)中，并用其最后一层的隐含单元作为该层语义文本中整个句子的语义特征Q。其中，三层的时间循环神经网络可以为双向长短期记忆(Long Short-Term Memory，LSTM)，每层语义文本所采用的预先训练的模型可以为3D卷积(Convolutional3D，简称为C3D)网络模型。

进一步地，对于多层的语义文本进行上述的编码操作，可以得到多级的句子特征

在另一种可选的实施例中，可以将目标视频输入到预先训练的模型中，得到整个目标视频的视频特征。其中，目标视频所采用的预先训练的模型可以为词向量模型(GlobalVectors for Word Representation，简称为GloVe)。

在另一种可选的实施例中，可以将多层语义特征和视频特征进行融合，基于融合后的特征在目标视频中确定目标文本相匹配的目标视频片段。

在另一种可选的实施例中，对于视频特征，首先可以生成一个二维的时序片段特征，其中，二维时序片段特征可以由视频中的多个时序片段生成，具体的，对多个时序片段中的任意两个片段特征进行最大池化，可以得到二维的时序片段特征。在得到二维的时序片段特征后，可以将多层语义特征和二维的时序片段特征进行特征融合，得到多层语义特征与视频特征进行融合后的多个特征，最后将多个特征再次进行融合，得到融合后的多层特征，并将该多层特征输入到时序定位模块中，预测最终的时序片段。

通过上述步骤，首先响应作用于操作界面上的第一输入指令，输入目标文本和目标视频；响应作用于操作界面上的文本定位指令，在操作界面上显示目标视频中与目标文本相匹配的目标视频片段，其中，目标视频片段为基于目标文本的多层语义特征和目标视频的视频特征得到，多层语义特征为目标文本的多层语义文本中提取出，多层语义文本为对目标文本进行分层处理得到，实现了从目标视频中确定出于目标文本对应的目标视频片段。

容易注意到的是，通过对目标文本进行分层处理，可以得到不同层次的语义文本，每个层次的语义文本中均包含主句，从而能够关注到不同层级的文本信息，通过从不同层级的文本信息中提取多层语义特征，并利用多层语义特征和目标视频的视频特征确定目标视频片段，可以提高对目标视频检索的准确度。由此，本申请提供的方案解决了相关技术中对目标视频进行检索的准确度较低的技术问题。

在本申请上述实施例中，在操作界面上显示目标视频中与目标文本相匹配的目标视频片段，包括：在操作界面上显示目标视频片段和多层语义文本；和/或该方法还包括：响应作用于操作界面上的标注指令，基于多层语义文本对目标文本的层级进行标注。

上述的多层语义文本包括第一层语义文本、第二层语义文本和第三层语义文本，第一层语义文本的完整程度低于第二层语义文本的完整程度，第二层语义文本的完整程度低于第三层语义文本的完整程度。

上述的第一层语义文本可以是主句的语义文本。

上述的第二层语义文本可以是主句的语义文本和定语从句的语义文本。

上述的第三层语义文本可以是完整的句子的语义文本。

在一种可选的实施例中，第一层语义文本、第二层语义文本、第三层语义文本之间可以是由粗略到细致的语义文本。

在另一种可选的实施例中，在显示多层语义文本之后，可以点击操作界面中预先设置的标注控件，以便生成标注指令，可以根据多层语义文本将目标文本的主句标注为第一层语义文本，将目标文本的主句和定语从句标注为第二层语义文本，将语义文本中完成的句子标注为第三层语义文本。

在另一种可选的实施例中，将第一语句确定为第一层语义文本，即将主句确定为第一层语义文本；将第一语句和第二语句合并，可以得到主句和定语从句合并后的语义文本，即第二层语义文本；将第二层语义文本与第三语句合并，可以主句、定语从句、状语从句合并后的完整句子，也即第三层语义文本。

本申请上述实施例中，在目标视频片段的数量为多个的情况下，该方法还包括：在操作界面上显示每个目标视频片段与目标文本之间的第一匹配度，得到多个第一匹配度；响应作用于操作界面上的选择指令，基于多个第一匹配度从多个目标视频片段中选择出第一目标视频片段，并将第一目标视频片段发送至服务器，其中，第一目标视频片段用于由服务器对目标模型进行调整，目标模型用于对目标文本的多层语义特征和目标视频的视频特征进行处理，得到目标视频片段。

上述的目标视频片段可以是与目标文本最匹配的视频片段。

在一种可选的实施例中虹，可以在操作界面上显示每个目标视频片段与目标文本之间的第一匹配度，得到多个第一匹配度，以便用户在看到多个第一匹配度时，可以按下预先设置的选择控件，以便生成选择指令，此时，可以根据该选择指令从多个第一匹配度中选择目标视频片段与目标文本之间匹配度最高的第一匹配度，以便确定该第一匹配对对应的目标视频片段为第一目标视频片段，此时，可以将第一目标视频片段发送至服务器，使得服务器利用该第一目标视频片段对目标模型进行调整，以便得到更加准确的目标模型。

本申请上述实施例中，该方法还包括：响应作用于操作界面上的标题添加指令，在操作界面上显示每个目标视频片段的标题，其中，标题为基于目标文本和目标视频确定。

在一种可选的实施例中，用户还可以按下预先设置的标题添加控件，以便生成标题添加指令，此时，可以根据标题添加指令对每个目标视频片段添加标题。

在另一种可选的实施例中，可以从目标文本中提取出与目标视频片段对应的文本，并将该文本作为该目标视频片段的标题。

本申请实施例中，每层语义文本为一个语法层级的语义文本，且包括目标文本的主句，多层语义文本包括第一层语义文本、第二层语义文本和第三层语义文本，第一层语义文本的完整程度低于第二层语义文本的完整程度，第二层语义文本的完整程度低于第三层语义文本的完整程度。

本申请实施例中，该方法还包括：响应作用于操作界面上的语义文本生成指令，按照目标语法对目标文本进行划分，得到目标文本的第一语句、第二语句和第三语句，并将第一语句确定为第一层语义文本，将第一语句和第二语句合并，得到第二层语义文本，将第二层语义文本与第三语句合并，得到第三层语义文本。

在一种可选的实施例中，可以通过斯坦福自然语言(Natural LanguageProcessing，简称为NLP)按照目标语法对目标文本进行划分，得到第一语句、第二语句和第三语句，其中，第一语句为目标文本的主句，第二语句为目标文本的定语从句，第三语句为目标文本的状语从句。

本申请实施例中，该方法还包括：响应作用于操作界面上的第一模型生成指令，基于视频样本的第一样本集合和/或第二样本集合确定第一损失函数，并基于第一损失函数训练得到第一融合模型；其中，第一融合模型用于对第一层语义文本的第一层语义特征和视频特征的时序片段特征进行融合，得到第一子融合特征，且用于对第二层语义文本的第二层语义特征和时序片段特征进行融合，得到第二子融合特征，第一子融合特征、第二子融合和第三子融合特征用于在目标视频中确定目标视频片段，第三子融合特征为第三层语义文本的第三层语义特征和时序片段特征之间的融合特征。

在一种可选的实施例中，可以基于第一样本集合确定第一卷积层，且基于第二样本集合确定第二卷积层；确定与第一卷积层和第二卷积层对应的第一损失函数；基于第一损失函数对第一卷积层和第二卷积层进行训练，得到第一融合模型。

在领一种可选的实施例中，可以定义g：R^d→R为第一融合模型中的卷积层，进一步地，可以得到X＝g(M)。定义

为损失函数，进一步地，可以得到第一卷积层为X_p＝g(M_p)，第二卷积层为X_u＝g(M_u)。

上述g的损失评估可以写成如下形式被设定为

其中，π_p＝P(Y＝+1)是类先验概率，也即，表示为样本为正的类先验概率；π_u＝P(Y＝-1)＝1-π_p。

在一种可选的实施例中，基于多层语义特征和视频特征，在目标视频中确定与目标文本相匹配的目标视频片段，包括：对多层语义特征和视频特征进行融合，得到融合特征；基于融合特征在目标视频中确定目标视频片段。

在另一种可选的实施例中，可以将三层语义特征分别于视频特征进行融合，得到融合后的三个融合特征，然后将这三个融合特征进行融合，得到一个总的融合特征，并基于该融合特征在目标视频中确定目标视频片段。

在另一种可选的实施例中，可以基于第一融合模型对第一层语义文本的第一层语义特征和时序片段特征进行融合，得到第一子融合特征，其中，第一融合模型为基于视频样本的第一样本集合和第二样本集合训练得到，第一样本集合包括视频样本的第一正时序片段特征样本，第二样本集合包括视频样本的第二正时序片段特征样本和负时序片段特征样本；基于第一融合模型对第二层语义文本的第二层语义特征和时序片段特征进行融合，得到第二子融合特征；基于第二融合模型对第三层语义文本的第三层语义特征和时序片段特征进行融合，得到第三子融合特征，其中，第二融合模型为基于语义特征标签和时序片段标签进行训练得到。

在另一种可选的实施例中，对每层语义特征和视频特征的时序片段特征进行融合，得到多个子融合特征可以为

上述的第一样本集合可以为正样本集合M_p，上述的第二样本集合可以为正样本和负样本集合M_u。

其中，第一样本集合包括n_p个从P(m|Y＝+1)采样的正样本m_p。第二样本集合中包括n_u个从P(m)采样的正样本m_u。其中，Y∈{+1，-1}是输出的随机变量。

在一种可选的实施例中，第一融合模型是通过多实例正样本未标记学习进行训练得到的。

本申请实施例中，响应作用于操作界面上的第一模型生成指令，基于视频样本的第一样本集合和/或第二样本集合确定第一损失函数，包括：响应作用于操作界面上的第一模型生成指令，基于目标视频片段样本的开始时间和结束时间、文本样本与第一样本集合或第二样本集合之间的相似度，确定第二损失函数，并基于第二损失函数确定第一损失函数。

该方法还包括：响应作用于操作界面上的第二模型生成指令，基于语义特征标签和时序片段标签确定第三损失函数，并基于第三损失函数对第一初始模型进行训练，得到第二融合模型，其中，第二融合模型用于对第三层语义文本的第三层语义特征和时序片段特征进行融合，得到第三子融合特征。

上述的第二融合模型可以为特征金字塔网络，第二融合模型是通过有监督学习训练得到的。

在一种可选的实施例中，可以获取视频特征的多个时序片段特征，然后将多个时序片段特征中的任意两个时序片段特征进行最大池化，也称作max-pooling，得到二维的时序片段特征M。然后将每层语义特征和二维的时序片段特征M进行特征融合，得到每层的语义特征的子融合特征。

在另一种可选的实施例中，可以利用特征金字塔网络将每层语义特征的子融合特征进行融合，得到融合的三层融合特征。

在另一种可选的实施例中，可以对每层语义特征和视频特征的时序片段特征进行融合，得到多个子融合特征，其中，每个子融合特征与每层语义特征相对应；基于特征金字塔网络模型对多个子融合特征进行融合，得到融合特征。

在另一种可选的实施例中，对每层语义特征和视频特征的时序片段特征进行融合，得到多个子融合特征，具体可以为获取第一学习参数、每层语义特征和目标向量三者之间的第一积；获取第二学习参数和时序片段特征二者之间的第二积；获取第一积和第二积之间的第三积；对第三积进行归一化处理，得到每层语义特征对应的子融合特征。

上述的第三积可以为哈达玛积。

上述的第一学习参数为语义特征学习的参数，上述的第二学习参数为视频特征的时序片段特征的参数，其中，第一学习参数和第二学习参数用于特征映射。

上述的目标向量可以是一个常量向量，可以为1^T，其中，1^T为所有元素维1的向量的转置，例如，d维度的1^T就是d个1。

在一种可选的实施例中，可以通过如下公式进行特征融合：

F_i＝||(w^q·Q_i·1^T)⊙(w^m·M)||_F；

其中，w^q为第一学习参数，Q_i为每层语义特征，1^T为目标向量，w^m为第二学习参数，M为时序片段特征，⊙表示哈达玛积，||·||_F表示范数(也称为Frobenius)归一化。

在另一种可选的实施例中，上述的时序片段特征M可以基于视频特征得到，具体的，视频特征可以为V，其中，V表示每一个时间段的特征序列，例如，一个视频中有10个片段，每个片段中包含有16帧，那么经过卷积神经网络提取特征会得到

其中，中v_i∈R^d，也就是每个片段是一个d维特征，然后通过对任意两个时间段之间的片段特征，也即时序片段特征可以进行最大池化，也就是max-pooling，得到M∈R^10×10×d。

在另一种可选的实施例中，可以基于第一卷积层、与第一卷积层相关联的第一先验概率、第二卷积层和与第二卷积层相关联的第二先验概率，确定第一损失函数，其中，第一先验概率和第二先验概率由与目标视频片段样本的相似度高于目标阈值的多个候选视频片段样本的数量确定，目标视频片段样本与文本样本相匹配，视频样本中包括多个候选视频片段样本。

在另一种可选的实施例中，可以将真值片段中具有高相似度的候选片段的数量作为先验，由于在正样本中未标记学习中，因此M_u的标签无法得知，此时，可以直接估算

由于π_nP_n(x)＝P(x)-π_pP_p(x)，其中，π_n概率预测公式，其表示输入为x，预测为正样本的概率，由此，R(g)可以直接被下式估计：

其中，

表示无标记数据的损失函数，也即整个视频中的所有片段，其每个片段被当作一个样本。

表示的是样本被预测为+1损失，

表示样本被预测为-1的损失。

在一种可选的实施例中，可以为目标视频片段样本构建候选视频片段样本包，其中，候选视频片段样本包包括多个候选视频片段样本，每个候选视频片段样本为正候选视频片段样本。

在一中可选的实施例中，为目标视频片段样本构建候选视频片段样本包就是把标注的片段中所有的正样本构件为一个包，并且这个包里面一定有正样本。

本申请上述实施例中，该方法还包括：基于目标视频片段样本的开始时间和结束时间、文本样本与第一样本集合或第二样本集合之间的相似度，确定候选视频片段样本包对应的第二损失函数；基于第二损失函数确定第一损失函数。

在一种可选的实施例中，由于式子中可能会出现负数，从而导致训练过程的过拟合，为了避免此情况，非负数的版本被提出：

与标准的正样本未标记学习不同，标记的数据中同时存在正负样本，也就是说，并不确定主句描述的片段在视频中而出发生，但是会该主句会在标注的片段之间；其中，标注的片段指的是标注一段话对应到视频的中某个片段，例如，这段话描述的是视频中1-10秒之间，那么1-10秒的视频片段就是标注片段，其主要在训练时使用。

进一步地，可以为每个标记的真值片段构造其正样本候选片段包，即，B＝{(l_s，l_e)|l_s，l_e∈[t_s，t_e]；l_s≤l_e}。其中，l_s，l_e分别表示真值片段的开始和结束时间。然后得到候选视频片段样本包对应的第二损失函数，也即

其中，M_i，j表示M上的第(i，j)的位置，a_i，j＝<Q，M_i，j>是Q和M_i，j之间的相似度，Q为句子的表征。可以定义分数和相似度的集合为

其中，分数和相似度的集合也称为g函数将当前片段预测成正样本的概率值。

进一步地，基于第二损失函数确定的第一损失函数可以为

其中，

即使和商品的π_p评估方式是相同的，i表示的是第i层，这里i的取值只能1和2。

在另一种可选的实施例中，可以基于语义特征标签和时序片段标签确定第三损失函数；基于第三损失函数对第一初始模型进行训练，得到第二融合模型。

上述的第三损失函数为

其表示为交叉熵损失。

为第i层的π_p，A，n_u，X_n，X_p。

在另一种可选的实施例中，可以基于特征金字塔网络模型将第一子融合特征，确定为第一融合特征；基于特征金字塔网络模型对第一融合特征和第二子融合特征进行融合，得到第二融合特征；基于特征金字塔网络模型对第二融合特征和第三子融合特征进行融合，得到第三融合特征。

在另一种可选的实施例中，输入三层的层级网络基于融合的特征

可以利用特征金字塔网络得到融合的三层特征

第一融合特征可以为G₁＝F₁；第二融合特征可以为G₂＝F₂+UP₁(G₁)；第三融合特征可以为G₃＝F₃+UP₂(G₂)。

其中，UP₁和UP₂分别指两个上采样层。

本申请实施例中，该方法还包括以下至少之一：在操作界面上显示目标视频片段的目标开始时间和目标结束时间；将目标视频片段的目标开始时间和目标结束时间发送至目标客户端；在目标视频中标注出目标视频片段。

在一种可选的实施例中，可以基于时序定位模型对第三融合特征进行处理，得到目标视频片段的目标开始时间和目标结束时间，其中，时序定位模型用于预测与输入特征相关联的时序片段。

在另一种可选的实施例中，可以将得到的

输入时序定位模块，预测最终的时序片段，然后将所有有效的在时序图上的候选片段的得分定义为

其中，l_i表示全部的候选片段数量。每个

表示相应的候选片段和查询句子匹配的置信度。

在另一种可选的实施例中，可以确定视频样本中的多个候选视频片段样本与文本样本之间的置信度，得到多个置信度；获取每个候选视频片段样本与目标视频片段样本之间的交并比值，得到多个交并比值，其中，目标视频片段样本与文本样本相匹配；基于多个置信度和多个交并比值确定第四损失函数，并基于第四损失函数对初始模型进行训练，得到时序定位模型。

在另一种可选的实施例中，可以在训练阶段，采用归一化的IoU值作为真值。

具体的，首先计算每个时序候选片段和真值的IoU值，并将其表示为

然后，将IoU值通过两个超参值t_min和t_max进行归一化，得到如下结果：

可以通过如下的第四损失函数来训练网络：

其中，

最后三层的损失函数可以表达为

在预测阶段，可以选择值最高的候选片段作为与文本最匹配的片段。其中，

就是目标视频的自由损失，3表示第3层。

本申请上述实施例中，该方法还包括：在目标视频中确定与多层语义特征和视频特征之间的融合特征相关联的多个目标候选视频片段；获取每个目标候选视频片段与目标文本之间的第二匹配度，得到多个第二匹配度；将多个第二匹配度中最高匹配度对应的目标候选视频片段，确定为目标视频片段；和/或，对每层语义文本进行编码，得到多个编码结果，其中，每个编码结果包括每层语义文本的词向量；从每个编码结果中提取出每层语义特征。

在一种可选的实施例中，在目标视频中确定与融合特征相关联的多个目标候选视频片段后，可以获取每个目标候选视频片段与目标文本之间的匹配对，得到多个第二匹配度，然后选择第二匹配度中的最高匹配度对应的目标候选视频片段作为目标视频片段，以提高目标视频片段的准确度。

在另一种可选的实施例中，可以对每层语义文本进行编码，得到多个编码结果，其中，每个编码结果包括每层语义文本的词向量；基于时间递归网络模型对每个编码结果进行处理，得到多层语义特征。

在一种可选的实施例中，可以利用GloVe模型对每层予以文本进行编码，得到多个编码结果，例如

然后，利用三层的双向LSTM对每个编码结果分别进行处理，并利用最后一层的隐含单元作为整个句子的表征Q，进一步地，对多级句子进行上述操作得到多级的句子特征

下面结合图3对本申请一种优选的实施例进行详细说明，该方法可以由移动终端或服务器执行，在本申请实施例中，以该方法由服务器执行为例进行说明。

图3为根据本申请实施例的一种文本处理方法的流程图。该方法包括如下步骤：

步骤S301，输入视频；

步骤S302，输入文本；

步骤S303，对输入的文本进行文本分层，得到多层语义文本；

步骤S304，对多层语义文本进行文本特征提取，得到多层语义特征，并将多层语义特征输入至步骤S306中的层级文本网络中；

步骤S305，对输入的视频进行视频提取，得到视频特征，并将视频特征输入至步骤S306中的层级文本网络中；

步骤S306，利用层级文本网络在输入的视频中确定与输入的文本相匹配的视频片段。

在一种可选的实施例中，可以从道路监控平台中获取道路路段的监控视频，并在操作界面上显示道路路段的监控视频；响应作用于操作界面上的第四输入指令，输入目标文本；响应作用于操作界面上的文本定位指令，在操作界面上显示监控视频中与目标文本相匹配的目标视频片段，其中，目标视频片段为基于目标文本的多层语义特征和监控视频的视频特征得到，多层语义特征为从目标文本的多层语义文本中提取出，多层语义文本为对目标文本进行分层处理得到。

进一步地，可以将目标视频片段和多层语义文本发送至道路监控平台，其中，多层语义文本用于在道路监控平台对目标文本的层级进行标注。

上述的道路路段的监控视频可以从预先设置的监控视频数据库中获取，其中，预先设置的监控视频数据库可以包括多个道路路段的监控视频。

上述的目标文本可以从预先设置的车辆信息的数据库中获取，其中，预先设置的车辆信息的数据库中可以包括有多个车辆的车辆信息。

在另一种可选的实施例中，可以从教学平台中获取教学视频，并在操作界面上显示教学视频；响应作用于操作界面上的第五输入指令，输入目标文本；响应作用于操作界面上的文本定位指令，在操作界面上显示教学视频中与目标文本相匹配的目标视频片段，其中，目标视频片段为基于目标文本的多层语义特征和教学视频的视频特征得到，多层语义特征为从目标文本的多层语义文本中提取出，多层语义文本为对目标文本进行分层处理得到。

进一步地，可以将目标视频片段和多层语义文本发送至教学视频平台，其中，多层语义文本用于在教学视频平台对目标文本的层级进行标注。

其中，教学视频中包含了不同教学对象的对象信息，教学对象包括教师和/或不同类型的教学内容，目标文本用于描述目标教学对象的目标对象信息，目标教学对象包括目标教师和/或目标类型的目标教学内容。

上述的教学视频可以从预先设置的教学视频数据库中获取，其中，预先设置的教学视频数据库中可以保存多个教师的教学视频，还可以保存有各种类型的教学视频。

上述的目标文本可以从预先设置的教学对象数据库中获取，其中，预先设置的教学对象数据库中包括多个教师的信息和/或多个类型的教学内容。

在另一种可选的实施例中，可以从直播平台中获取目标视频，并在操作界面上显示目标视频；响应作用于操作界面上的第六输入指令，输入目标文本；响应作用于操作界面上的文本定位指令，在操作界面上显示目标视频中与目标文本相匹配的目标视频片段，其中，目标视频片段为基于目标文本的多层语义特征和目标视频的视频特征得到，多层语义特征为从目标文本的多层语义文本中提取出，多层语义文本为对目标文本进行分层处理得到。

进一步地，可以将目标视频片段和多层语义文本发送至直播平台，其中，多层语义文本用于在直播平台对目标文本的层级进行标注。

上述的目标视频可以是直播平台正在直播的视频，还可以是直播平台保存的之前录制好的视频。

在另一种可选的实施例中，客户端可以获取待处理的目标文本和目标视频，然后客户端将目标文本和目标视频上传至服务器，最后客户端接收服务器返回的目标视频中与目标文本相匹配的目标视频片段。

在另一种可选的实施例中，为了更好的对目标视频进行处理，可以将获取到的目标视频和目标文本传输给相应的处理设备进行处理，例如，直接传输给用户的计算机终端(例如，笔记本电脑、个人电脑等)进行处理，或者通过用户的计算机终端传输给云服务器进行处理。需要说明的是，由于目标视频和目标文本需要大量的计算资源，在本申请实施例中以处理设备为云服务器为例进行说明。

例如，为了方便用户上传目标视频和目标文本，可以提供给用户一个交互界面，用户可以通过点击“选择图像和文本”控件获取到需要上传的目标视频，然后通过点击“上传”控件将用于目标视频和目标文本上传至云服务器。另外，为了方便用户确认上传至云服务器的目标视频和目标文本是否为需要的目标视频和文本，可以在“图像和文本显示”区域中显示选择好的目标视频和目标文本，在用户确认无误之后，通过点击“上传”控件进行目标视频和目标文本的上传。

其中，目标视频片段为基于目标文本的多层语义特征和目标视频的视频特征确定得到，多层语义特征为从目标文本的多层语义文本中提取出，多层语义文本为对目标文本进行分层处理得到，每层语义文本为一个语法层级的语义文本，且包括目标文本的主句。

在另一种可选的实施例中，可以从医疗平台中获取医疗视频，并在操作界面上显示医疗视频；响应作用于操作界面上的第七输入指令，输入目标文本；响应作用于操作界面上的文本定位指令，在操作界面上显示医疗视频中与目标文本相匹配的目标视频片段，其中，目标视频片段为基于目标文本的多层语义特征和医疗视频的视频特征得到，多层语义特征为从目标文本的多层语义文本中提取出，多层语义文本为对目标文本进行分层处理得到。

进一步地，可以将目标视频片段和多层语义文本发送至医疗平台，其中，多层语义文本用于在医疗平台对目标文本的层级进行标注。

上述的医疗视频可以从预先设置的医疗视频数据库中获取，其中，预先设置的医疗视频数据库可以包括多个医疗视频。

上述的目标文本可以从预先设置的医疗信息的数据库中获取，其中，预先设置的医疗信息的数据库中可以包括有多个医疗信息。

在另一种可选的实施例中，可以从会议平台中获取会议视频，并在操作界面上显示会议视频；响应作用于操作界面上的第八输入指令，输入目标文本；响应作用于操作界面上的文本定位指令，在操作界面上显示会议视频中与目标文本相匹配的目标视频片段，其中，目标视频片段为基于目标文本的多层语义特征和会议视频的视频特征得到，多层语义特征为从目标文本的多层语义文本中提取出，多层语义文本为对目标文本进行分层处理得到。

进一步地，可以将目标视频片段和多层语义文本发送至会议平台，其中，多层语义文本用于在会议平台对目标文本的层级进行标注。

上述的会议视频可以从预先设置的会议视频数据库中获取，其中，预先设置的会议视频数据库可以包括多个会议视频。

上述的目标文本可以从预先设置的会议信息的数据库中获取，其中，预先设置的会议信息的数据库中可以包括有多个会议信息。

实施例2

根据本申请实施例，还提供了一种文本处理方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图4是根据本申请实施例的一种文本处理方法的流程图。如图4所示，该方法可以包括以下步骤：

步骤S402，响应作用于视频显示页面上的第二输入指令，输入目标文本，其中，视频显示页面上显示有目标视频。

在一种可选的实施例中，视频显示页面可以为视频网站或者视频类应用的页面，用户可以基于想看的视频输入目标文本，例如，一句话，系统根据输入的目标文本查找到目标视频中与该目标文本对应的目标视频片段。

步骤S404，响应作用于视频显示页面上的文本定位指令，在视频显示页面上显示目标视频中与目标文本相匹配的目标视频片段，其中，目标视频片段为基于目标文本的多层语义特征和目标视频的视频特征得到，多层语义特征为从目标文本的多层语义文本中提取出，多层语义文本为对目标文本进行分层处理得到。

本申请上述实施例中，目标文本的数量为多个，该方法还包括：获取目标视频中与每个目标文本相匹配的至少一个目标视频片段，得到多个目标视频片段；基于多个目标文本和/或目标视频，确定多个目标视频片段之间的关联信息；基于关联信息对多个目标视频片段进行拼接，得到拼接视频。

在一种可选的实施例中，可以获取目标视频中与每个目标文本相匹配的至少一个目标视频片段，得到多个目标视频片段，确定多个目标文本之间的关联信息，并根据该关联信息对多个目标视频片段进行拼接，得到拼接视频。

示例性的，多个目标文本可以为大象、老虎、狮子，那么可以确定多个目标视频片段之间的关联信息为动物，此时可以将多个目标文本对应的目标视频片段进行拼接，得到有关于动物的拼接视频。

在另一种可选的实施例中，可以获取目标视频中与每个目标文本相匹配的至少一个目标视频片段，得到多个目标视频片段，确定多个目标视频之间的关联信息，并根据该关联信息对多个目标视频片段进行拼接，得到拼接视频。

示例性的，多个目标视频可以为多个电视剧，那么可以确定多个目标视频片段之间的关联信息为电视剧，此时，可以根据电视剧将多个目标视频片段进行拼接，得到有关于电视剧的拼接视频。

需要说明的是，本申请上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同，但不仅限于实施例1所提供的方案。

实施例3

图5是根据本申请实施例的一种文本处理方法的流程图。如图5所示，该方法可以包括以下步骤：

步骤S502，从文娱播放平台获取文娱类视频，并在操作界面上显示文娱类视频。

步骤S504，响应作用于操作界面上的第三输入指令，输入目标文本。

步骤S506，响应作用于操作界面上的文本定位指令，在操作界面上显示文娱类视频中与目标文本相匹配的目标视频片段，其中，目标视频片段为基于目标文本的多层语义特征和文娱类视频的视频特征得到，多层语义特征为从目标文本的多层语义文本中提取出，多层语义文本为对目标文本进行分层处理得到。

本申请上述实施例中，该方法还包括：将目标视频片段和多层语义文本发送至文娱播放平台，其中，多层语义文本用于在文娱播放平台对目标文本的层级进行标注。

需要说明的是，本申请上述实施例中涉及到的优选实施方案与实施例1提供的方案以及实施过程相同，但不仅限于实施例1所提供的方案。

实施例4

根据本申请实施例，还提供了一种用于实施上述文本处理方法的文本处理装置，如图6所示，该装置600包括：第一输入单元602、第一显示单元604。

其中，第一输入单元用于响应作用于操作界面上的第一输入指令，输入目标文本和目标视频；第一显示单元用于响应作用于操作界面上的文本定位指令，在操作界面上显示目标视频中与目标文本相匹配的目标视频片段，其中，目标视频片段为基于目标文本的多层语义特征和目标视频的视频特征得到，多层语义特征为从目标文本的多层语义文本中提取出，多层语义文本为对目标文本进行分层处理得到。

此处需要说明的是，上述第一输入单元602、第一显示单元604对应于实施例1中的步骤S202至步骤S204，两个单元与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

本申请上述实施例中，第一显示单元包括：第一显示模块。

其中，第一显示模块用于在操作界面上显示目标视频片段和多层语义文本。

本申请上述实施例中，该装置还包括：第一标注单元。

其中，第一标注单元用于响应作用于操作界面上的标注指令，基于多层语义文本对目标文本的层级进行标注。

本申请上述实施例中，该装置还包括：第一显示单元、第一选择单元。

其中，第一显示单元用于在操作界面上显示每个目标视频片段与目标文本之间的第一匹配度，得到多个第一匹配度；第一选择单元用于响应作用于操作界面上的选择指令，基于多个第一匹配度从多个目标视频片段中选择出第一目标视频片段，并将第一目标视频片段发送至服务器，其中，第一目标视频片段用于由服务器对目标模型进行调整，目标模型用于对目标文本的多层语义特征和目标视频的视频特征进行处理，得到目标视频片段。

本申请上述实施例中，该装置还包括：第二显示单元。

其中，第二显示单元用于响应作用于操作界面上的标题添加指令，在操作界面上显示每个目标视频片段的标题，其中，标题为基于目标文本和目标视频确定。

本申请上述实施例中，每层语义文本为一个语法层级的语义文本，且包括目标文本的主句，多层语义文本包括第一层语义文本、第二层语义文本和第三层语义文本，第一层语义文本的完整程度低于第二层语义文本的完整程度，第二层语义文本的完整程度低于第三层语义文本的完整程度，该装置还包括：第一划分单元。

其中，第一划分单元用于响应作用于操作界面上的语义文本生成指令，按照目标语法对目标文本进行划分，得到目标文本的第一语句、第二语句和第三语句，并将第一语句确定为第一层语义文本，将第一语句和第二语句合并，得到第二层语义文本，将第二层语义文本与第三语句合并，得到第三层语义文本。

本申请上述实施例中，该装置还包括：第一确定单元。

其中，第一确定单元用于响应作用于操作界面上的第一模型生成指令，基于视频样本的第一样本集合和/或第二样本集合确定第一损失函数，并基于第一损失函数训练得到第一融合模型。

其中，第一融合模型用于对第一层语义文本的第一层语义特征和视频特征的时序片段特征进行融合，得到第一子融合特征，且用于对第二层语义文本的第二层语义特征和时序片段特征进行融合，得到第二子融合特征，第一子融合特征、第二子融合和第三子融合特征用于在目标视频中确定目标视频片段，第三子融合特征为第三层语义文本的第三层语义特征和时序片段特征之间的融合特征。

本申请上述实施例中，第一确定单元包括：第一确定模块。

其中，第一确定模块用于响应作用于操作界面上的第一模型生成指令，基于目标视频片段样本的开始时间和结束时间、文本样本与第一样本集合或第二样本集合之间的相似度，确定第二损失函数，并基于第二损失函数确定第一损失函数。

本申请上述实施例中，该装置还包括：第二确定单元。

其中，第二确定单元用于响应作用于操作界面上的第二模型生成指令，基于语义特征标签和时序片段标签确定第三损失函数，并基于第三损失函数对第一初始模型进行训练，得到第二融合模型，其中，第二融合模型用于对第三层语义文本的第三层语义特征和时序片段特征进行融合，得到第三子融合特征。

本申请上述实施例中，该装置还包括：第三显示单元、第一发送单元、第二标注单元。

其中，第三显示单元用于在操作界面上显示目标视频片段的目标开始时间和目标结束时间；第一发送单元用于将目标视频片段的目标开始时间和目标结束时间发送至目标客户端；第二标注单元用于在目标视频中标注出目标视频片段。

本申请上述实施例中，该装置还包括：第二确定单元、第一获取单元、第三确定单元。

其中，第二确定单元用于在目标视频中确定与多层语义特征和视频特征之间的融合特征相关联的多个目标候选视频片段；第一获取单元用于获取每个目标候选视频片段与目标文本之间的第二匹配度，得到多个第二匹配度；第三确定单元用于将多个第二匹配度中最高匹配度对应的目标候选视频片段，确定为目标视频片段。

本申请上述实施例中，该装置还包括：第一编码单元、第一提取单元。

其中，第一编码单元用于对每层语义文本进行编码，得到多个编码结果，其中，每个编码结果包括每层语义文本的词向量；第一提取单元用于从每个编码结果中提取出每层语义特征。

实施例5

根据本申请实施例，还提供了一种用于实施上述文本处理方法的文本处理装置，如图7所示，该装置700包括：第二输入单元702、第二显示单元704。

其中，第二输入单元用于响应作用于视频显示页面上的第二输入指令，输入目标文本，其中，视频显示页面上显示有目标视频；第二显示单元用于响应作用于视频显示页面上的文本定位指令，在视频显示页面上显示目标视频中与目标文本相匹配的目标视频片段，其中，目标视频片段为基于目标文本的多层语义特征和目标视频的视频特征得到，多层语义特征为从目标文本的多层语义文本中提取出，多层语义文本为对目标文本进行分层处理得到。

此处需要说明的是，上述第二输入单元702、第二显示单元704对应于实施例2中的步骤S402至步骤S404，两个单元与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

本申请上述实施例中，目标文本的数量为多个，该装置还包括：第二获取单元、第四确定单元、第一拼接单元。

其中，第二获取单元用于获取目标视频中与每个目标文本相匹配的至少一个目标视频片段，得到多个目标视频片段；第四确定单元用于基于多个目标文本和/或目标视频，确定多个目标视频片段之间的关联信息；第一拼接单元用于基于关联信息对多个目标视频片段进行拼接，得到拼接视频。

实施例6

根据本申请实施例，还提供了一种用于实施上述文本处理方法的文本处理装置，如图8所示，该装置800包括：第三获取单元802、第三输入单元804、第四显示单元806。

其中，第三获取单元用于从文娱播放平台获取文娱类视频，并在操作界面上显示文娱类视频；第三输入单元用于响应作用于操作界面上的第三输入指令，输入目标文本；第四显示单元用于响应作用于操作界面上的文本定位指令，在操作界面上显示文娱类视频中与目标文本相匹配的目标视频片段，其中，目标视频片段为基于目标文本的多层语义特征和文娱类视频的视频特征得到，多层语义特征为从目标文本的多层语义文本中提取出，多层语义文本为对目标文本进行分层处理得到。

此处需要说明的是，上述第第三获取单元802、第三输入单元804、第四显示单元806对应于实施例3中的步骤S502至步骤S506，单个单元与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

本申请上述实施例中，该装置还包括：第二发送单元。

其中，第二发送单元用于将目标视频片段和多层语义文本发送至文娱播放平台，其中，多层语义文本用于在文娱播放平台对目标文本的层级进行标注。

实施例7

根据本申请实施例，还提供了一种文本处理系统，包括：

处理器；

存储器，与处理器相连接，用于响应作用于操作界面上的第一输入指令，输入目标文本和目标视频；响应作用于操作界面上的文本定位指令，在操作界面上显示目标视频中与目标文本相匹配的目标视频片段，其中，目标视频片段为基于目标文本的多层语义特征和目标视频的视频特征得到，多层语义特征为从目标文本的多层语义文本中提取出，多层语义文本为对目标文本进行分层处理得到。

实施例8

本申请的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行文本处理方法中以下步骤的程序代码：响应作用于操作界面上的第一输入指令，输入目标文本和目标视频；响应作用于操作界面上的文本定位指令，在操作界面上显示目标视频中与目标文本相匹配的目标视频片段，其中，目标视频片段为基于目标文本的多层语义特征和目标视频的视频特征得到，多层语义特征为从目标文本的多层语义文本中提取出，多层语义文本为对目标文本进行分层处理得到。

可选地，图9是根据本申请实施例的一种计算机终端的结构框图。如图9所示，该计算机终端A可以包括：一个或多个(图中仅示出一个)处理器902、以及存储器904。

其中，存储器可用于存储软件程序以及模块，如本申请实施例中的文本处理方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的文本处理方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：响应作用于操作界面上的第一输入指令，输入目标文本和目标视频；响应作用于操作界面上的文本定位指令，在操作界面上显示目标视频中与目标文本相匹配的目标视频片段，其中，目标视频片段为基于目标文本的多层语义特征和目标视频的视频特征得到，多层语义特征为从目标文本的多层语义文本中提取出，多层语义文本为对目标文本进行分层处理得到。

可选地，上述处理器还可以执行如下步骤的程序代码：在操作界面上显示目标视频中与目标文本相匹配的目标视频片段，包括：在操作界面上显示目标视频片段和多层语义文本。

可选地，上述处理器还可以执行如下步骤的程序代码：响应作用于操作界面上的标注指令，基于多层语义文本对目标文本的层级进行标注。

可选地，上述处理器还可以执行如下步骤的程序代码：在目标视频片段的数量为多个的情况下，方法还包括：在操作界面上显示每个目标视频片段与目标文本之间的第一匹配度，得到多个第一匹配度；响应作用于操作界面上的选择指令，基于多个第一匹配度从多个目标视频片段中选择出第一目标视频片段，并将第一目标视频片段发送至服务器，其中，第一目标视频片段用于由服务器对目标模型进行调整，目标模型用于对目标文本的多层语义特征和目标视频的视频特征进行处理，得到目标视频片段。

可选地，上述处理器还可以执行如下步骤的程序代码：响应作用于操作界面上的标题添加指令，在操作界面上显示每个目标视频片段的标题，其中，标题为基于目标文本和目标视频确定。

可选地，上述处理器还可以执行如下步骤的程序代码：响应作用于操作界面上的语义文本生成指令，按照目标语法对目标文本进行划分，得到目标文本的第一语句、第二语句和第三语句，并将第一语句确定为第一层语义文本，将第一语句和第二语句合并，得到第二层语义文本，将第二层语义文本与第三语句合并，得到第三层语义文本。

可选地，上述处理器还可以执行如下步骤的程序代码：响应作用于操作界面上的第一模型生成指令，基于视频样本的第一样本集合和/或第二样本集合确定第一损失函数，并基于第一损失函数训练得到第一融合模型；其中，第一融合模型用于对第一层语义文本的第一层语义特征和视频特征的时序片段特征进行融合，得到第一子融合特征，且用于对第二层语义文本的第二层语义特征和时序片段特征进行融合，得到第二子融合特征，第一子融合特征、第二子融合和第三子融合特征用于在目标视频中确定目标视频片段，第三子融合特征为第三层语义文本的第三层语义特征和时序片段特征之间的融合特征。

可选地，上述处理器还可以执行如下步骤的程序代码：响应作用于操作界面上的第一模型生成指令，基于目标视频片段样本的开始时间和结束时间、文本样本与第一样本集合或第二样本集合之间的相似度，确定第二损失函数，并基于第二损失函数确定第一损失函数。

可选地，上述处理器还可以执行如下步骤的程序代码：响应作用于操作界面上的第二模型生成指令，基于语义特征标签和时序片段标签确定第三损失函数，并基于第三损失函数对第一初始模型进行训练，得到第二融合模型，其中，第二融合模型用于对第三层语义文本的第三层语义特征和时序片段特征进行融合，得到第三子融合特征。

可选地，上述处理器还可以执行如下步骤的程序代码：在操作界面上显示目标视频片段的目标开始时间和目标结束时间；将目标视频片段的目标开始时间和目标结束时间发送至目标客户端；在目标视频中标注出目标视频片段。

可选地，上述处理器还可以执行如下步骤的程序代码：在目标视频中确定与多层语义特征和视频特征之间的融合特征相关联的多个目标候选视频片段；获取每个目标候选视频片段与目标文本之间的第二匹配度，得到多个第二匹配度；将多个第二匹配度中最高匹配度对应的目标候选视频片段，确定为目标视频片段。

可选地，上述处理器还可以执行如下步骤的程序代码：对每层语义文本进行编码，得到多个编码结果，其中，每个编码结果包括每层语义文本的词向量；从每个编码结果中提取出每层语义特征。

本领域普通技术人员可以理解，图9所示的结构仅为示意，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(MobileInternet Devices，MID)、PAD等终端设备。图9其并不对上述电子装置的结构造成限定。例如，计算机终端A还可包括比图9中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图9所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

实施例9

本申请的实施例还提供了一种计算机可读存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例所提供的文本处理方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，存储介质被设置为存储用于执行以下步骤的程序代码：响应作用于操作界面上的第一输入指令，输入目标文本和目标视频；响应作用于操作界面上的文本定位指令，在操作界面上显示目标视频中与目标文本相匹配的目标视频片段，其中，目标视频片段为基于目标文本的多层语义特征和目标视频的视频特征得到，多层语义特征为从目标文本的多层语义文本中提取出，多层语义文本为对目标文本进行分层处理得到。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：在操作界面上显示目标视频中与目标文本相匹配的目标视频片段，包括：在操作界面上显示目标视频片段和多层语义文本。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：响应作用于操作界面上的标注指令，基于多层语义文本对目标文本的层级进行标注。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：在目标视频片段的数量为多个的情况下，方法还包括：在操作界面上显示每个目标视频片段与目标文本之间的第一匹配度，得到多个第一匹配度；响应作用于操作界面上的选择指令，基于多个第一匹配度从多个目标视频片段中选择出第一目标视频片段，并将第一目标视频片段发送至服务器，其中，第一目标视频片段用于由服务器对目标模型进行调整，目标模型用于对目标文本的多层语义特征和目标视频的视频特征进行处理，得到目标视频片段。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：响应作用于操作界面上的标题添加指令，在操作界面上显示每个目标视频片段的标题，其中，标题为基于目标文本和目标视频确定。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：响应作用于操作界面上的语义文本生成指令，按照目标语法对目标文本进行划分，得到目标文本的第一语句、第二语句和第三语句，并将第一语句确定为第一层语义文本，将第一语句和第二语句合并，得到第二层语义文本，将第二层语义文本与第三语句合并，得到第三层语义文本。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：响应作用于操作界面上的第一模型生成指令，基于视频样本的第一样本集合和/或第二样本集合确定第一损失函数，并基于第一损失函数训练得到第一融合模型；其中，第一融合模型用于对第一层语义文本的第一层语义特征和视频特征的时序片段特征进行融合，得到第一子融合特征，且用于对第二层语义文本的第二层语义特征和时序片段特征进行融合，得到第二子融合特征，第一子融合特征、第二子融合和第三子融合特征用于在目标视频中确定目标视频片段，第三子融合特征为第三层语义文本的第三层语义特征和时序片段特征之间的融合特征。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：响应作用于操作界面上的第一模型生成指令，基于目标视频片段样本的开始时间和结束时间、文本样本与第一样本集合或第二样本集合之间的相似度，确定第二损失函数，并基于第二损失函数确定第一损失函数。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：响应作用于操作界面上的第二模型生成指令，基于语义特征标签和时序片段标签确定第三损失函数，并基于第三损失函数对第一初始模型进行训练，得到第二融合模型，其中，第二融合模型用于对第三层语义文本的第三层语义特征和时序片段特征进行融合，得到第三子融合特征。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：在操作界面上显示目标视频片段的目标开始时间和目标结束时间；将目标视频片段的目标开始时间和目标结束时间发送至目标客户端；在目标视频中标注出目标视频片段。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：在目标视频中确定与多层语义特征和视频特征之间的融合特征相关联的多个目标候选视频片段；获取每个目标候选视频片段与目标文本之间的第二匹配度，得到多个第二匹配度；将多个第二匹配度中最高匹配度对应的目标候选视频片段，确定为目标视频片段。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：对每层语义文本进行编码，得到多个编码结果，其中，每个编码结果包括每层语义文本的词向量；从每个编码结果中提取出每层语义特征。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对相关技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种文本处理方法，其特征在于，包括：

响应作用于操作界面上的第一输入指令，输入目标文本和目标视频；

响应作用于所述操作界面上的文本定位指令；

在所述操作界面上显示所述目标视频中与所述目标文本相匹配的目标视频片段；

其中，所述目标视频片段为基于所述目标文本的多层语义特征和所述目标视频的视频特征得到，多层所述语义特征为从所述目标文本的多层语义文本中提取出，多层所述语义文本为对所述目标文本进行分层处理得到。

2.根据权利要求1所述的方法，其特征在于，

在所述操作界面上显示所述目标视频中与所述目标文本相匹配的目标视频片段，包括：在所述操作界面上显示所述目标视频片段和多层所述语义文本；和/或

所述方法还包括：响应作用于所述操作界面上的标注指令，基于多层所述语义文本对所述目标文本的层级进行标注。

3.根据权利要求1所述的方法，其特征在于，

在所述目标视频片段的数量为多个的情况下，所述方法还包括：在所述操作界面上显示每个所述目标视频片段与所述目标文本之间的第一匹配度，得到多个所述第一匹配度；响应作用于所述操作界面上的选择指令，基于多个所述第一匹配度从多个所述目标视频片段中选择出第一目标视频片段，并将所述第一目标视频片段发送至服务器，其中，所述第一目标视频片段用于由所述服务器对目标模型进行调整，所述目标模型用于对所述目标文本的多层语义特征和所述目标视频的视频特征进行处理，得到所述目标视频片段；和/或

所述方法还包括：响应作用于所述操作界面上的标题添加指令，在所述操作界面上显示每个所述目标视频片段的标题，其中，所述标题为基于所述目标文本和所述目标视频确定。

4.根据权利要求1所述的方法，其特征在于，每层所述语义文本为一个语法层级的语义文本，且包括所述目标文本的主句，多层所述语义文本包括第一层语义文本、第二层语义文本和第三层语义文本，所述第一层语义文本的完整程度低于所述第二层语义文本的完整程度，所述第二层语义文本的完整程度低于所述第三层语义文本的完整程度，所述方法还包括：

响应作用于所述操作界面上的语义文本生成指令，按照目标语法对所述目标文本进行划分，得到所述目标文本的第一语句、第二语句和第三语句，并将所述第一语句确定为所述第一层语义文本，将所述第一语句和所述第二语句合并，得到所述第二层语义文本，将所述第二层语义文本与所述第三语句合并，得到所述第三层语义文本。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

响应作用于所述操作界面上的第一模型生成指令，基于视频样本的第一样本集合和/或第二样本集合确定第一损失函数，并基于所述第一损失函数训练得到第一融合模型；

其中，所述第一融合模型用于对所述第一层语义文本的第一层语义特征和所述视频特征的时序片段特征进行融合，得到第一子融合特征，且用于对所述第二层语义文本的第二层语义特征和所述时序片段特征进行融合，得到第二子融合特征，所述第一子融合特征、所述第二子融合和第三子融合特征用于在所述目标视频中确定所述目标视频片段，所述第三子融合特征为所述第三层语义文本的第三层语义特征和所述时序片段特征之间的融合特征。

6.根据权利要求5所述的方法，其特征在于，

响应作用于所述操作界面上的第一模型生成指令，基于视频样本的第一样本集合和/或第二样本集合确定第一损失函数，包括：响应作用于所述操作界面上的第一模型生成指令，基于目标视频片段样本的开始时间和结束时间、文本样本与所述第一样本集合或所述第二样本集合之间的相似度，确定第二损失函数，并基于所述第二损失函数确定所述第一损失函数；

所述方法还包括：响应作用于所述操作界面上的第二模型生成指令，基于所述语义特征标签和所述时序片段标签确定第三损失函数，并基于所述第三损失函数对第一初始模型进行训练，得到第二融合模型，其中，所述第二融合模型用于对所述第三层语义文本的第三层语义特征和所述时序片段特征进行融合，得到所述第三子融合特征。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括以下至少之一：

在所述操作界面上显示所述目标视频片段的目标开始时间和目标结束时间；

将所述目标视频片段的目标开始时间和目标结束时间发送至目标客户端；

在所述目标视频中标注出所述目标视频片段。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在所述目标视频中确定与多层所述语义特征和所述视频特征之间的融合特征相关联的多个目标候选视频片段；获取每个所述目标候选视频片段与所述目标文本之间的第二匹配度，得到多个第二匹配度；将所述多个第二匹配度中最高匹配度对应的所述目标候选视频片段，确定为所述目标视频片段；和/或

对每层所述语义文本进行编码，得到多个编码结果，其中，每个所述编码结果包括每层所述语义文本的词向量；从每个所述编码结果中提取出每层所述语义特征。

9.一种文本处理方法，其特征在于，包括：

响应作用于视频显示页面上的第二输入指令，输入目标文本，其中，所述视频显示页面上显示有目标视频；

响应作用于所述视频显示页面上的文本定位指令，在所述视频显示页面上显示所述目标视频中与所述目标文本相匹配的目标视频片段，其中，所述目标视频片段为基于所述目标文本的多层语义特征和所述目标视频的视频特征得到，多层所述语义特征为从所述目标文本的多层语义文本中提取出，多层所述语义文本为对所述目标文本进行分层处理得到。

10.根据权利要求9所述的方法，其特征在于，所述目标文本的数量为多个，所述方法还包括：

获取所述目标视频中与每个所述目标文本相匹配的至少一个目标视频片段，得到多个所述目标视频片段；

基于多个所述目标文本和/或所述目标视频，确定多个所述目标视频片段之间的关联信息；

基于所述关联信息对多个所述目标视频片段进行拼接，得到拼接视频。

11.一种文本处理方法，其特征在于，包括：

从文娱播放平台获取文娱类视频，并在操作界面上显示所述文娱类视频；

响应作用于所述操作界面上的第三输入指令，输入目标文本；

响应作用于所述操作界面上的文本定位指令，在所述操作界面上显示所述文娱类视频中与所述目标文本相匹配的目标视频片段，其中，所述目标视频片段为基于所述目标文本的多层语义特征和所述文娱类视频的视频特征得到，多层所述语义特征为从所述目标文本的多层语义文本中提取出，多层所述语义文本为对所述目标文本进行分层处理得到。

12.根据权利要求11所述的方法，其特征在于，所述方法还包括：

将所述目标视频片段和多层所述语义文本发送至所述文娱播放平台，其中，多层所述语义文本用于在所述文娱播放平台对所述目标文本的层级进行标注。