CN117573870A

CN117573870A - 一种多模态数据的文本标签提取方法、装置、设备及介质

Info

Publication number: CN117573870A
Application number: CN202311549360.2A
Authority: CN
Inventors: 葛斌; 何春辉; 张翀; 李家旭; 杨济伟; 田雪萌; 唐雯; 吴菲
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2023-11-20
Filing date: 2023-11-20
Publication date: 2024-02-20
Anticipated expiration: 2043-11-20
Also published as: CN117573870B

Abstract

本申请涉及一种多模态数据的文本标签提取方法、装置、设备及介质。所述方法包括：获取多模态数据并进行分类；将文本数据、图像数据、语音数据和视频数据转换为文本信息，并将其他数据的文本内容赋值为空字符串，然后获取转换后的文本信息进行预处理，得到预处理后的转换文本并与文本数据、图像数据、语音数据和视频数据对应的原始文件名称进行拼接，并将空字符串与其他数据对应的原始文件名称进行拼接，得到最终的转换文本；最后对最终的转换文本进行分词和词性标注，并根据词性标注结果进行分级开放标签提取，得到多模态数据的文本标签列表。采用本方法能够实现不同场景下多模态数据的文本转换和标签提取。

Description

一种多模态数据的文本标签提取方法、装置、设备及介质

技术领域

本申请涉及多模态数据处理技术领域，特别是涉及一种多模态数据的文本标签提取方法、装置、设备及介质。

背景技术

多模态数据主要包含图像、文本、语音、视频这四大类不同模态的数据。多模态数据的标签提取需要先将不同结构形态的数据转换为目标模态，再对目标模态进行标签提取。然而，现阶段的多模态数据转换方法大部分都只针对两种模态之间的数据对象进行转化建模，例如图像-文本转换、视频-文本转换、语音-文本转换等几大类，由于多模态数据之间的表示异质难题，同时涵盖所有模态的统一特征转换和标签提取技术尚不成熟，无法满足多场景的数据转换和标签提取要求。

发明内容

基于此，有必要针对上述技术问题，提供一种多模态数据的文本标签提取方法、装置、设备及介质。

一种多模态数据的文本标签提取方法，所述方法包括：

获取多模态数据并进行数据分类，将多模态数据划分为文本数据、图像数据、语音数据、视频数据以及其他数据；

将文本数据、图像数据、语音数据和视频数据转换为文本信息，并将其他数据的文本内容赋值为空字符串；其中，对文本数据进行文本内容提取，获取文本数据的转换文本；对图像数据并行开展光学字符识别和图像内容描述生成，获取图像数据的转换文本；对语音数据进行语音识别，获取语音数据的转换文本；对视频数据并行开展语音识别和字幕文字识别，获取视频数据的转换文本；

获取转换后的文本信息并进行预处理，得到预处理后的转换文本，将预处理后的转换文本与文本数据、图像数据、语音数据和视频数据对应的原始文件名称进行拼接，并将空字符串与其他数据对应的原始文件名称进行拼接，得到最终的转换文本；

根据中文词法分析工具对最终的转换文本进行分词和词性标注，并根据词性标注结果进行分级开放标签提取，得到多模态数据的文本标签列表。

在其中一个实施例中，获取多模态数据并进行数据分类，将多模态数据划分为文本数据、图像数据、语音数据、视频数据以及其他数据，包括：

获取多模态数据，根据多模态数据的文件内容和文件后缀名进行数据分类，将多模态数据划分为文本数据、图像数据、语音数据、视频数据以及其他数据，并获取各类多模态数据的文件格式。

在其中一个实施例中，对图像数据并行开展光学字符识别和图像内容描述生成，获取图像数据的转换文本，包括：

根据RBC文字识别模型和Clipcap图像描述生成模型并行对图像数据进行文本转换，其中，RBC文字识别模型用于根据光学字符识别技术提取图像数据中的文本内容，Clipcap图像描述生成模型用于对图像数据中的目标对象进行描述，生成描述内容；

将图像数据中的文本内容和描述内容进行合并，获取图像数据的转换文本。

在其中一个实施例中，对语音数据进行语音识别，获取语音数据的转换文本，包括：

识别语音数据的文件格式，将所有语音数据的文件格式全部转存为wav格式，将wav格式的语音数据输入Vosk语音识别模型进行文本转换，获取语音数据的转换文本。

在其中一个实施例中，对视频数据并行开展语音识别和字幕文字识别，获取视频数据的转换文本，包括：

根据Python中的视频编辑库MoviePy和字幕关键帧定位算法并行对视频数据进行处理，其中，视频编辑库MoviePy将视频数据转换为wav格式的语音数据，字幕关键帧定位算法提取视频数据中包含字幕的静态关键帧图片；

根据Vosk语音识别模型对wav格式的语音数据进行文本转换，根据RBC文字识别模型对包含字幕的静态关键帧图片进行文本转换，将Vosk语音识别模型和RBC文字识别模型输出的转换文本进行合并，得到视频数据的转换文本。

在其中一个实施例中，获取转换后的文本信息并进行预处理，得到预处理后的转换文本，包括：

获取转换后的文本信息，根据文本过滤技术和文本去重技术对转换后的文本信息进行提纯，得到预处理后的转换文本。

在其中一个实施例中，根据中文词法分析工具对最终的转换文本进行分词和词性标注，并根据词性标注结果进行分级开放标签提取，得到多模态数据的文本标签列表，包括：

根据中文词法分析工具LAC对最终的转换文本进行分词和词性标注，并根据词性标注结果提取一级标签和二级标签，得到多模态数据的文本标签列表；其中，一级标签涵盖的词性包括人名、地名、机构名、低置信度的人名、低置信度的地名、低置信度的机构名以及作品名；二级标签涵盖的词性包括一级标签中的词性以及时间、普通名词、名动词、普通动词、数量词、量词和低置信度的时间。

一种多模态数据的文本标签提取装置，所述装置包括：

数据分类模块，用于获取多模态数据并进行数据分类，将多模态数据划分为文本数据、图像数据、语音数据、视频数据以及其他数据；

文本转换模块，用于将文本数据、图像数据、语音数据和视频数据转换为文本信息，并将其他数据的文本内容赋值为空字符串；其中，对文本数据进行文本内容提取，获取文本数据的转换文本；对图像数据并行开展光学字符识别和图像内容描述生成，获取图像数据的转换文本；对语音数据进行语音识别，获取语音数据的转换文本；对视频数据并行开展语音识别和字幕文字识别，获取视频数据的转换文本；

文本收集和预处理模块，用于获取转换后的文本信息并进行预处理，得到预处理后的转换文本，将预处理后的转换文本与文本数据、图像数据、语音数据和视频数据对应的原始文件名称进行拼接，并将空字符串与其他数据对应的原始文件名称进行拼接，得到最终的转换文本；

分级标签提取模块，用于根据中文词法分析工具对最终的转换文本进行分词和词性标注，并根据词性标注结果进行分级开放标签提取，得到多模态数据的文本标签列表。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述一种多模态数据的文本标签提取方法、装置、设备及介质，通过将多模态数据进行分类，自动识别文本、图像、语音和视频等不同模态数据，然后并行对多模态数据进行文本转换，并收集转换后的文本信息进行预处理，最后利用分级开放标签提取方法提取得到多模态数据的文本标签列表，实现不同场景下多模态数据的文本转换和标签提取。

相比于现有技术，本申请的有益效果在于：

1、本申请可以同时兼容所有模态数据的文本转换和标签提取；

2、本申请通过对图像数据并行开展光学字符识别和图像内容描述生成，可以同时兼顾含文字和不含文字的图片数据转文本；通过将所有语音数据的文件格式全部转存为wav格式，并将wav格式的语音数据输入Vosk语音识别模型进行文本转换，可以支持多种格式的语音数据转文本；通过对视频数据并行开展语音识别和字幕文字识别，可以同时兼顾含有字幕和不含字幕以及无声的视频数据转文本；

3、本申请通过对转换的文本进行分词和词性标注，并根据词性标注结果进行分级开放标签提取，提取得到不同粒度的文本标签以适应不同的应用场景。

附图说明

图1为一个实施例中多模态数据的文本标签提取方法的流程示意图；

图2为一个实施例中图像转文本的处理过程示意图；

图3为一个实施例中语音转文本的处理过程示意图；

图4为一个实施例中视频转文本的处理过程示意图；

图5为一个实施例中分级开放标签提取流程示意图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种多模态数据的文本标签提取方法，包括以下步骤：

首先，获取多模态数据并进行数据分类，将多模态数据划分为文本数据、图像数据、语音数据、视频数据以及其他数据。

然后，将文本数据、图像数据、语音数据和视频数据转换为文本信息，并将其他数据的文本内容赋值为空字符串；其中，对文本数据进行文本内容提取，获取文本数据的转换文本；对图像数据并行开展光学字符识别和图像内容描述生成，获取图像数据的转换文本；对语音数据进行语音识别，获取语音数据的转换文本；对视频数据并行开展语音识别和字幕文字识别，获取视频数据的转换文本。

再获取转换后的文本信息并进行预处理，得到预处理后的转换文本，将预处理后的转换文本与文本数据、图像数据、语音数据和视频数据对应的原始文件名称进行拼接，并将空字符串与其他数据对应的原始文件名称进行拼接，得到最终的转换文本。

最后，根据中文词法分析工具对最终的转换文本进行分词和词性标注，并根据词性标注结果进行分级开放标签提取，得到多模态数据的文本标签列表。

获取多模态数据，采用文件查看工具filetype根据多模态数据的文件内容和文件后缀名进行数据分类，将多模态数据划分为文本数据、图像数据、语音数据、视频数据以及其他数据，并获取各类多模态数据的文件格式。其中，各类多模态数据的文件格式如表1所示。

表1各类多模态数据的文件格式

由表1可知，通过数据分类，可以获取10种文本数据，10种图像数据，7种语音数据、9种视频数据以及其他数据，其中，文本数据、图像数据、语音数据和视频数据这四类模态数据对应的原始文件都可以转换为文本内容，而其他数据由于具体类型不明确，无法智能解析其内容，因此会单独标记其文本内容为空字符串，并将其他数据的原始文件名称拼接上空字符串直接作为其对应的最终转换文本。

具体地，本申请在对文本数据进行文本内容提取，基于表1中识别得到的不同格式的文本数据，会自动匹配对应的python解析工具包来完成相关文本内容的提取，其中，常见文本格式与解析工具包的适配情况如表2所示。

表2常见文本格式与解析工具包的适配情况

可以理解，通过自动匹配对应的python解析工具，可以精确高效地实现文本数据的读取和解析。

在其中一个实施例中，如图2所示，对图像数据并行开展光学字符识别和图像内容描述生成，获取图像数据的转换文本，包括：

根据RBC文字识别模型和Clipcap图像描述生成模型并行对图像数据进行文本转换，其中，RBC文字识别模型由深度残差网络ResNet34、Bi-LSTM(双向长短期记忆网络)的骨干网络以及CTC(Connectionist Temporal Classification，连续时序分类网络)组成，用于根据光学字符识别技术提取图像数据中的文本内容，Clipcap图像描述生成模型用于对图像数据中的目标对象进行描述，生成描述内容；

可以理解，本申请考虑到常见的图像数据一般会有三类不同风格。第一种风格的图像数据仅包含文字，第二种风格的图像数据会同时包含文字和目标对象，第三种风格的图像数据仅包含目标对象。因此，对于不同风格的图像文件，采用的文本转换方法也会存在差异。对于只包含纯文字类型的图像数据，本申请基于OCR(Optical CharacterRecognition，光学字符识别)技术实现的RBC模型来完成文字的识别与提取。对于只包含目标对象的图像数据，采用开源的中文Clipcap图像描述生成模型来自动生成一段文本描述内容。对于同时包含文字和目标对象的图像数据，同时开展OCR识别和Clipcap图像描述生成任务，然后将二者结果进行合并后共同作为最终的文本转换结果。考虑到在通常情况下无法预先确定输入图像属于哪种风格。因此，本申请对图像数据并行开展OCR识别和Clipcap图像描述生成任务，可以保证对任意输入的常规图像都可以将其转换成对应的文本内容，从而解决图像数据与文本内容的转换难题。进一步地，本申请还可以采用其他的OCR识别模型来替代RBC识别模型实现图片中的文本提取，采用其他的图像描述生成模型来替代Clipcap图像描述生成模型实现图片内容的描述生成。

在其中一个实施例中，如图3所示，对语音数据进行语音识别，获取语音数据的转换文本，包括：

可以理解，本申请考虑开源的Vosk语音识别模型的精度高、速度快、支持离线部署，因此采用它来完成语音转文本任务，但同时它的缺点也很明显，它目前仅对wav格式16位、单声道、16k采样帧率的语音数据识别效果最佳。为了克服上述缺点，使得Vosk语音识别模型能支持如表1中所列的7种格式的语音数据，本申请根据Python中的音频处理库pydub和FFmpeg进行语音数据的自动转存，将其他格式的语音数据全部转存在16位、单声道、16k采样帧率的wav格式，并将wav格式的语音数据输入vosk-model-cn-0.22的汉语识别模型进行文本转换，获取语音数据的转换文本，从而可以支持多种格式的语音数据转文本。进一步地，本申请还可以采用其他的中文语音识别技术替代Vosk工具进行语音识别。

在其中一个实施例中，如图4所示，对视频数据并行开展语音识别和字幕文字识别，获取视频数据的转换文本，包括：

可以理解，本申请通过对视频数据并行开展语音识别和字幕文字识别，可以同时支持含字幕和不含字幕以及无声的视频数据转文本。

可以理解，考虑到转换后的文本信息中通常会包含一些无用字符，且同一种模态数据进行不同模式的文本转换时，转换结果中可能会出现重复内容的情况，因此，本申请在获取转换后的文本信息后，根据文本过滤技术进行提纯，过滤掉外文字符、乱码、特殊符号、连续空格、Tab键、换行符、标签等无用字符，并结合文本去重技术对不同转换模式获取的文本内容进行去重，可以有效提高转换文本的数据质量。

在其中一个实施例中，如图5所示，根据中文词法分析工具对最终的转换文本进行分词和词性标注，并根据词性标注结果进行分级开放标签提取，得到多模态数据的文本标签列表，包括：

根据中文词法分析工具LAC对最终的转换文本进行分词和词性标注，并根据词性标注结果提取一级标签和二级标签，得到多模态数据的文本标签列表；其中，一级标签涵盖的词性包括人名、地名、机构名、低置信度的人名、低置信度的地名、低置信度的机构名以及作品名；二级标签涵盖的词性包括一级标签中的词性以及时间、普通名词、名动词、普通动词、数量词、量词和低置信度的时间。其中，一级标签和二级标签的筛选规则如表3所示。

表3一级标签和二级标签的筛选规则

由表3可知，一级标签的筛选规则比二级标签更严格，换言之能成为一级标签的一定可以成为二级标签，反之不成立。其中，表3中的PER、LOC、ORG、nr、ns、nt、nz和nw分别表示人名、地名、机构名、低置信度的人名、低置信度的地名、低置信度的机构名以及作品名，TIME、n、vn、v、m、q和t分别表示时间、普通名词、名动词、普通动词、数量词、量词和低置信度的时间。

可以理解，本申请提取的可见标签并不是来自预先定义好的封闭集，而是面向整个开放域，因此被称为开放标签。并且，考虑到面向不同的应用场景时，对标签的粒度和质量要求也会存在一些差别。例如，面向多源混合管理或者多模态数据分类任务时，对文本标签的粒度和质量会要求较高，通常都是提取少量的抽象概念或者实体级别的对象作为一级标签。面向多模态搜索任务时，要求尽可能保留原始模态的特征，以保证搜索性能，因此通常会提取能代表原始模态完整语义的二级标签。为此，本申请设计了两种不同粒度的开放标签提取方案，可以高效解决不同场景下的文本开放标签提取难题。进一步地，本申请还可以采用其它的信息抽取算法来替代分级开放标签提取算法完成不同粒度的标签提取。

应该理解的是，虽然图1至图5的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1至图5中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，提供了一种多模态数据的文本标签提取装置，包括：

关于多模态数据的文本标签提取装置的具体限定可以参见上文中对于多模态数据的文本标签提取方法的限定，在此不再赘述。上述多模态数据的文本标签提取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种多模态数据的文本标签提取方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种多模态数据的文本标签提取方法，其特征在于，所述方法包括：

获取多模态数据并进行数据分类，将所述多模态数据划分为文本数据、图像数据、语音数据、视频数据以及其他数据；

将所述文本数据、图像数据、语音数据和视频数据转换为文本信息，并将所述其他数据的文本内容赋值为空字符串；其中，对所述文本数据进行文本内容提取，获取文本数据的转换文本；对所述图像数据并行开展光学字符识别和图像内容描述生成，获取图像数据的转换文本；对所述语音数据进行语音识别，获取语音数据的转换文本；对所述视频数据并行开展语音识别和字幕文字识别，获取视频数据的转换文本；

获取转换后的文本信息并进行预处理，得到预处理后的转换文本，将所述预处理后的转换文本与所述文本数据、图像数据、语音数据和视频数据对应的原始文件名称进行拼接，并将空字符串与所述其他数据对应的原始文件名称进行拼接，得到最终的转换文本；

根据中文词法分析工具对所述最终的转换文本进行分词和词性标注，并根据词性标注结果进行分级开放标签提取，得到多模态数据的文本标签列表。

2.根据权利要求1所述的方法，其特征在于，获取多模态数据并进行数据分类，将所述多模态数据划分为文本数据、图像数据、语音数据、视频数据以及其他数据，包括：

获取多模态数据，根据所述多模态数据的文件内容和文件后缀名进行数据分类，将所述多模态数据划分为文本数据、图像数据、语音数据、视频数据以及其他数据，并获取各类多模态数据的文件格式。

3.根据权利要求1所述的方法，其特征在于，对所述图像数据并行开展光学字符识别和图像内容描述生成，获取图像数据的转换文本，包括：

根据RBC文字识别模型和Clipcap图像描述生成模型并行对所述图像数据进行文本转换，其中，所述RBC文字识别模型用于根据光学字符识别技术提取所述图像数据中的文本内容，所述Clipcap图像描述生成模型用于对所述图像数据中的目标对象进行描述，生成描述内容；

将所述图像数据中的文本内容和描述内容进行合并，获取图像数据的转换文本。

4.根据权利要求1所述的方法，其特征在于，对所述语音数据进行语音识别，获取语音数据的转换文本，包括：

识别所述语音数据的文件格式，将所有语音数据的文件格式全部转存为wav格式，将wav格式的语音数据输入Vosk语音识别模型进行文本转换，获取语音数据的转换文本。

5.根据权利要求1所述的方法，其特征在于，对所述视频数据并行开展语音识别和字幕文字识别，获取视频数据的转换文本，包括：

根据Python中的视频编辑库MoviePy和字幕关键帧定位算法并行对所述视频数据进行处理，其中，所述视频编辑库MoviePy将所述视频数据转换为wav格式的语音数据，所述字幕关键帧定位算法提取所述视频数据中包含字幕的静态关键帧图片；

根据Vosk语音识别模型对wav格式的语音数据进行文本转换，根据RBC文字识别模型对包含字幕的静态关键帧图片进行文本转换，将所述Vosk语音识别模型和RBC文字识别模型输出的转换文本进行合并，得到视频数据的转换文本。

6.根据权利要求1所述的方法，其特征在于，获取转换后的文本信息并进行预处理，得到预处理后的转换文本，包括：

获取转换后的文本信息，根据文本过滤技术和文本去重技术对所述转换后的文本信息进行提纯，得到预处理后的转换文本。

7.根据权利要求1所述的方法，其特征在于，根据中文词法分析工具对所述最终的转换文本进行分词和词性标注，并根据词性标注结果进行分级开放标签提取，得到多模态数据的文本标签列表，包括：

根据中文词法分析工具LAC对所述最终的转换文本进行分词和词性标注，并根据词性标注结果提取一级标签和二级标签，得到多模态数据的文本标签列表；其中，所述一级标签涵盖的词性包括人名、地名、机构名、低置信度的人名、低置信度的地名、低置信度的机构名以及作品名；所述二级标签涵盖的词性包括一级标签中的词性以及时间、普通名词、名动词、普通动词、数量词、量词和低置信度的时间。

8.一种多模态数据的文本标签提取装置，其特征在于，所述装置包括：

数据分类模块，用于获取多模态数据并进行数据分类，将所述多模态数据划分为文本数据、图像数据、语音数据、视频数据以及其他数据；

文本转换模块，用于将所述文本数据、图像数据、语音数据和视频数据转换为文本信息，并将所述其他数据的文本内容赋值为空字符串；其中，对所述文本数据进行文本内容提取，获取文本数据的转换文本；对所述图像数据并行开展光学字符识别和图像内容描述生成，获取图像数据的转换文本；对所述语音数据进行语音识别，获取语音数据的转换文本；对所述视频数据并行开展语音识别和字幕文字识别，获取视频数据的转换文本；

文本收集和预处理模块，用于获取转换后的文本信息并进行预处理，得到预处理后的转换文本，将所述预处理后的转换文本与所述文本数据、图像数据、语音数据和视频数据对应的原始文件名称进行拼接，并将空字符串与所述其他数据对应的原始文件名称进行拼接，得到最终的转换文本；

分级标签提取模块，用于根据中文词法分析工具对所述最终的转换文本进行分词和词性标注，并根据词性标注结果进行分级开放标签提取，得到多模态数据的文本标签列表。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。