CN117573870A - 一种多模态数据的文本标签提取方法、装置、设备及介质 - Google Patents

一种多模态数据的文本标签提取方法、装置、设备及介质 Download PDF

Info

Publication number
CN117573870A
CN117573870A CN202311549360.2A CN202311549360A CN117573870A CN 117573870 A CN117573870 A CN 117573870A CN 202311549360 A CN202311549360 A CN 202311549360A CN 117573870 A CN117573870 A CN 117573870A
Authority
CN
China
Prior art keywords
data
text
voice
conversion
converted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311549360.2A
Other languages
English (en)
Other versions
CN117573870B (zh
Inventor
葛斌
何春辉
张翀
李家旭
杨济伟
田雪萌
唐雯
吴菲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202311549360.2A priority Critical patent/CN117573870B/zh
Publication of CN117573870A publication Critical patent/CN117573870A/zh
Application granted granted Critical
Publication of CN117573870B publication Critical patent/CN117573870B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种多模态数据的文本标签提取方法、装置、设备及介质。所述方法包括:获取多模态数据并进行分类;将文本数据、图像数据、语音数据和视频数据转换为文本信息,并将其他数据的文本内容赋值为空字符串,然后获取转换后的文本信息进行预处理,得到预处理后的转换文本并与文本数据、图像数据、语音数据和视频数据对应的原始文件名称进行拼接,并将空字符串与其他数据对应的原始文件名称进行拼接,得到最终的转换文本;最后对最终的转换文本进行分词和词性标注,并根据词性标注结果进行分级开放标签提取,得到多模态数据的文本标签列表。采用本方法能够实现不同场景下多模态数据的文本转换和标签提取。

Description

一种多模态数据的文本标签提取方法、装置、设备及介质
技术领域
本申请涉及多模态数据处理技术领域,特别是涉及一种多模态数据的文本标签提取方法、装置、设备及介质。
背景技术
多模态数据主要包含图像、文本、语音、视频这四大类不同模态的数据。多模态数据的标签提取需要先将不同结构形态的数据转换为目标模态,再对目标模态进行标签提取。然而,现阶段的多模态数据转换方法大部分都只针对两种模态之间的数据对象进行转化建模,例如图像-文本转换、视频-文本转换、语音-文本转换等几大类,由于多模态数据之间的表示异质难题,同时涵盖所有模态的统一特征转换和标签提取技术尚不成熟,无法满足多场景的数据转换和标签提取要求。
发明内容
基于此,有必要针对上述技术问题,提供一种多模态数据的文本标签提取方法、装置、设备及介质。
一种多模态数据的文本标签提取方法,所述方法包括:
获取多模态数据并进行数据分类,将多模态数据划分为文本数据、图像数据、语音数据、视频数据以及其他数据;
将文本数据、图像数据、语音数据和视频数据转换为文本信息,并将其他数据的文本内容赋值为空字符串;其中,对文本数据进行文本内容提取,获取文本数据的转换文本;对图像数据并行开展光学字符识别和图像内容描述生成,获取图像数据的转换文本;对语音数据进行语音识别,获取语音数据的转换文本;对视频数据并行开展语音识别和字幕文字识别,获取视频数据的转换文本;
获取转换后的文本信息并进行预处理,得到预处理后的转换文本,将预处理后的转换文本与文本数据、图像数据、语音数据和视频数据对应的原始文件名称进行拼接,并将空字符串与其他数据对应的原始文件名称进行拼接,得到最终的转换文本;
根据中文词法分析工具对最终的转换文本进行分词和词性标注,并根据词性标注结果进行分级开放标签提取,得到多模态数据的文本标签列表。
在其中一个实施例中,获取多模态数据并进行数据分类,将多模态数据划分为文本数据、图像数据、语音数据、视频数据以及其他数据,包括:
获取多模态数据,根据多模态数据的文件内容和文件后缀名进行数据分类,将多模态数据划分为文本数据、图像数据、语音数据、视频数据以及其他数据,并获取各类多模态数据的文件格式。
在其中一个实施例中,对图像数据并行开展光学字符识别和图像内容描述生成,获取图像数据的转换文本,包括:
根据RBC文字识别模型和Clipcap图像描述生成模型并行对图像数据进行文本转换,其中,RBC文字识别模型用于根据光学字符识别技术提取图像数据中的文本内容,Clipcap图像描述生成模型用于对图像数据中的目标对象进行描述,生成描述内容;
将图像数据中的文本内容和描述内容进行合并,获取图像数据的转换文本。
在其中一个实施例中,对语音数据进行语音识别,获取语音数据的转换文本,包括:
识别语音数据的文件格式,将所有语音数据的文件格式全部转存为wav格式,将wav格式的语音数据输入Vosk语音识别模型进行文本转换,获取语音数据的转换文本。
在其中一个实施例中,对视频数据并行开展语音识别和字幕文字识别,获取视频数据的转换文本,包括:
根据Python中的视频编辑库MoviePy和字幕关键帧定位算法并行对视频数据进行处理,其中,视频编辑库MoviePy将视频数据转换为wav格式的语音数据,字幕关键帧定位算法提取视频数据中包含字幕的静态关键帧图片;
根据Vosk语音识别模型对wav格式的语音数据进行文本转换,根据RBC文字识别模型对包含字幕的静态关键帧图片进行文本转换,将Vosk语音识别模型和RBC文字识别模型输出的转换文本进行合并,得到视频数据的转换文本。
在其中一个实施例中,获取转换后的文本信息并进行预处理,得到预处理后的转换文本,包括:
获取转换后的文本信息,根据文本过滤技术和文本去重技术对转换后的文本信息进行提纯,得到预处理后的转换文本。
在其中一个实施例中,根据中文词法分析工具对最终的转换文本进行分词和词性标注,并根据词性标注结果进行分级开放标签提取,得到多模态数据的文本标签列表,包括:
根据中文词法分析工具LAC对最终的转换文本进行分词和词性标注,并根据词性标注结果提取一级标签和二级标签,得到多模态数据的文本标签列表;其中,一级标签涵盖的词性包括人名、地名、机构名、低置信度的人名、低置信度的地名、低置信度的机构名以及作品名;二级标签涵盖的词性包括一级标签中的词性以及时间、普通名词、名动词、普通动词、数量词、量词和低置信度的时间。
一种多模态数据的文本标签提取装置,所述装置包括:
数据分类模块,用于获取多模态数据并进行数据分类,将多模态数据划分为文本数据、图像数据、语音数据、视频数据以及其他数据;
文本转换模块,用于将文本数据、图像数据、语音数据和视频数据转换为文本信息,并将其他数据的文本内容赋值为空字符串;其中,对文本数据进行文本内容提取,获取文本数据的转换文本;对图像数据并行开展光学字符识别和图像内容描述生成,获取图像数据的转换文本;对语音数据进行语音识别,获取语音数据的转换文本;对视频数据并行开展语音识别和字幕文字识别,获取视频数据的转换文本;
文本收集和预处理模块,用于获取转换后的文本信息并进行预处理,得到预处理后的转换文本,将预处理后的转换文本与文本数据、图像数据、语音数据和视频数据对应的原始文件名称进行拼接,并将空字符串与其他数据对应的原始文件名称进行拼接,得到最终的转换文本;
分级标签提取模块,用于根据中文词法分析工具对最终的转换文本进行分词和词性标注,并根据词性标注结果进行分级开放标签提取,得到多模态数据的文本标签列表。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取多模态数据并进行数据分类,将多模态数据划分为文本数据、图像数据、语音数据、视频数据以及其他数据;
将文本数据、图像数据、语音数据和视频数据转换为文本信息,并将其他数据的文本内容赋值为空字符串;其中,对文本数据进行文本内容提取,获取文本数据的转换文本;对图像数据并行开展光学字符识别和图像内容描述生成,获取图像数据的转换文本;对语音数据进行语音识别,获取语音数据的转换文本;对视频数据并行开展语音识别和字幕文字识别,获取视频数据的转换文本;
获取转换后的文本信息并进行预处理,得到预处理后的转换文本,将预处理后的转换文本与文本数据、图像数据、语音数据和视频数据对应的原始文件名称进行拼接,并将空字符串与其他数据对应的原始文件名称进行拼接,得到最终的转换文本;
根据中文词法分析工具对最终的转换文本进行分词和词性标注,并根据词性标注结果进行分级开放标签提取,得到多模态数据的文本标签列表。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取多模态数据并进行数据分类,将多模态数据划分为文本数据、图像数据、语音数据、视频数据以及其他数据;
将文本数据、图像数据、语音数据和视频数据转换为文本信息,并将其他数据的文本内容赋值为空字符串;其中,对文本数据进行文本内容提取,获取文本数据的转换文本;对图像数据并行开展光学字符识别和图像内容描述生成,获取图像数据的转换文本;对语音数据进行语音识别,获取语音数据的转换文本;对视频数据并行开展语音识别和字幕文字识别,获取视频数据的转换文本;
获取转换后的文本信息并进行预处理,得到预处理后的转换文本,将预处理后的转换文本与文本数据、图像数据、语音数据和视频数据对应的原始文件名称进行拼接,并将空字符串与其他数据对应的原始文件名称进行拼接,得到最终的转换文本;
根据中文词法分析工具对最终的转换文本进行分词和词性标注,并根据词性标注结果进行分级开放标签提取,得到多模态数据的文本标签列表。
上述一种多模态数据的文本标签提取方法、装置、设备及介质,通过将多模态数据进行分类,自动识别文本、图像、语音和视频等不同模态数据,然后并行对多模态数据进行文本转换,并收集转换后的文本信息进行预处理,最后利用分级开放标签提取方法提取得到多模态数据的文本标签列表,实现不同场景下多模态数据的文本转换和标签提取。
相比于现有技术,本申请的有益效果在于:
1、本申请可以同时兼容所有模态数据的文本转换和标签提取;
2、本申请通过对图像数据并行开展光学字符识别和图像内容描述生成,可以同时兼顾含文字和不含文字的图片数据转文本;通过将所有语音数据的文件格式全部转存为wav格式,并将wav格式的语音数据输入Vosk语音识别模型进行文本转换,可以支持多种格式的语音数据转文本;通过对视频数据并行开展语音识别和字幕文字识别,可以同时兼顾含有字幕和不含字幕以及无声的视频数据转文本;
3、本申请通过对转换的文本进行分词和词性标注,并根据词性标注结果进行分级开放标签提取,提取得到不同粒度的文本标签以适应不同的应用场景。
附图说明
图1为一个实施例中多模态数据的文本标签提取方法的流程示意图;
图2为一个实施例中图像转文本的处理过程示意图;
图3为一个实施例中语音转文本的处理过程示意图;
图4为一个实施例中视频转文本的处理过程示意图;
图5为一个实施例中分级开放标签提取流程示意图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种多模态数据的文本标签提取方法,包括以下步骤:
首先,获取多模态数据并进行数据分类,将多模态数据划分为文本数据、图像数据、语音数据、视频数据以及其他数据。
然后,将文本数据、图像数据、语音数据和视频数据转换为文本信息,并将其他数据的文本内容赋值为空字符串;其中,对文本数据进行文本内容提取,获取文本数据的转换文本;对图像数据并行开展光学字符识别和图像内容描述生成,获取图像数据的转换文本;对语音数据进行语音识别,获取语音数据的转换文本;对视频数据并行开展语音识别和字幕文字识别,获取视频数据的转换文本。
再获取转换后的文本信息并进行预处理,得到预处理后的转换文本,将预处理后的转换文本与文本数据、图像数据、语音数据和视频数据对应的原始文件名称进行拼接,并将空字符串与其他数据对应的原始文件名称进行拼接,得到最终的转换文本。
最后,根据中文词法分析工具对最终的转换文本进行分词和词性标注,并根据词性标注结果进行分级开放标签提取,得到多模态数据的文本标签列表。
在其中一个实施例中,获取多模态数据并进行数据分类,将多模态数据划分为文本数据、图像数据、语音数据、视频数据以及其他数据,包括:
获取多模态数据,采用文件查看工具filetype根据多模态数据的文件内容和文件后缀名进行数据分类,将多模态数据划分为文本数据、图像数据、语音数据、视频数据以及其他数据,并获取各类多模态数据的文件格式。其中,各类多模态数据的文件格式如表1所示。
表1各类多模态数据的文件格式
由表1可知,通过数据分类,可以获取10种文本数据,10种图像数据,7种语音数据、9种视频数据以及其他数据,其中,文本数据、图像数据、语音数据和视频数据这四类模态数据对应的原始文件都可以转换为文本内容,而其他数据由于具体类型不明确,无法智能解析其内容,因此会单独标记其文本内容为空字符串,并将其他数据的原始文件名称拼接上空字符串直接作为其对应的最终转换文本。
具体地,本申请在对文本数据进行文本内容提取,基于表1中识别得到的不同格式的文本数据,会自动匹配对应的python解析工具包来完成相关文本内容的提取,其中,常见文本格式与解析工具包的适配情况如表2所示。
表2常见文本格式与解析工具包的适配情况
可以理解,通过自动匹配对应的python解析工具,可以精确高效地实现文本数据的读取和解析。
在其中一个实施例中,如图2所示,对图像数据并行开展光学字符识别和图像内容描述生成,获取图像数据的转换文本,包括:
根据RBC文字识别模型和Clipcap图像描述生成模型并行对图像数据进行文本转换,其中,RBC文字识别模型由深度残差网络ResNet34、Bi-LSTM(双向长短期记忆网络)的骨干网络以及CTC(Connectionist Temporal Classification,连续时序分类网络)组成,用于根据光学字符识别技术提取图像数据中的文本内容,Clipcap图像描述生成模型用于对图像数据中的目标对象进行描述,生成描述内容;
将图像数据中的文本内容和描述内容进行合并,获取图像数据的转换文本。
可以理解,本申请考虑到常见的图像数据一般会有三类不同风格。第一种风格的图像数据仅包含文字,第二种风格的图像数据会同时包含文字和目标对象,第三种风格的图像数据仅包含目标对象。因此,对于不同风格的图像文件,采用的文本转换方法也会存在差异。对于只包含纯文字类型的图像数据,本申请基于OCR(Optical CharacterRecognition,光学字符识别)技术实现的RBC模型来完成文字的识别与提取。对于只包含目标对象的图像数据,采用开源的中文Clipcap图像描述生成模型来自动生成一段文本描述内容。对于同时包含文字和目标对象的图像数据,同时开展OCR识别和Clipcap图像描述生成任务,然后将二者结果进行合并后共同作为最终的文本转换结果。考虑到在通常情况下无法预先确定输入图像属于哪种风格。因此,本申请对图像数据并行开展OCR识别和Clipcap图像描述生成任务,可以保证对任意输入的常规图像都可以将其转换成对应的文本内容,从而解决图像数据与文本内容的转换难题。进一步地,本申请还可以采用其他的OCR识别模型来替代RBC识别模型实现图片中的文本提取,采用其他的图像描述生成模型来替代Clipcap图像描述生成模型实现图片内容的描述生成。
在其中一个实施例中,如图3所示,对语音数据进行语音识别,获取语音数据的转换文本,包括:
识别语音数据的文件格式,将所有语音数据的文件格式全部转存为wav格式,将wav格式的语音数据输入Vosk语音识别模型进行文本转换,获取语音数据的转换文本。
可以理解,本申请考虑开源的Vosk语音识别模型的精度高、速度快、支持离线部署,因此采用它来完成语音转文本任务,但同时它的缺点也很明显,它目前仅对wav格式16位、单声道、16k采样帧率的语音数据识别效果最佳。为了克服上述缺点,使得Vosk语音识别模型能支持如表1中所列的7种格式的语音数据,本申请根据Python中的音频处理库pydub和FFmpeg进行语音数据的自动转存,将其他格式的语音数据全部转存在16位、单声道、16k采样帧率的wav格式,并将wav格式的语音数据输入vosk-model-cn-0.22的汉语识别模型进行文本转换,获取语音数据的转换文本,从而可以支持多种格式的语音数据转文本。进一步地,本申请还可以采用其他的中文语音识别技术替代Vosk工具进行语音识别。
在其中一个实施例中,如图4所示,对视频数据并行开展语音识别和字幕文字识别,获取视频数据的转换文本,包括:
根据Python中的视频编辑库MoviePy和字幕关键帧定位算法并行对视频数据进行处理,其中,视频编辑库MoviePy将视频数据转换为wav格式的语音数据,字幕关键帧定位算法提取视频数据中包含字幕的静态关键帧图片;
根据Vosk语音识别模型对wav格式的语音数据进行文本转换,根据RBC文字识别模型对包含字幕的静态关键帧图片进行文本转换,将Vosk语音识别模型和RBC文字识别模型输出的转换文本进行合并,得到视频数据的转换文本。
可以理解,本申请通过对视频数据并行开展语音识别和字幕文字识别,可以同时支持含字幕和不含字幕以及无声的视频数据转文本。
在其中一个实施例中,获取转换后的文本信息并进行预处理,得到预处理后的转换文本,包括:
获取转换后的文本信息,根据文本过滤技术和文本去重技术对转换后的文本信息进行提纯,得到预处理后的转换文本。
可以理解,考虑到转换后的文本信息中通常会包含一些无用字符,且同一种模态数据进行不同模式的文本转换时,转换结果中可能会出现重复内容的情况,因此,本申请在获取转换后的文本信息后,根据文本过滤技术进行提纯,过滤掉外文字符、乱码、特殊符号、连续空格、Tab键、换行符、标签等无用字符,并结合文本去重技术对不同转换模式获取的文本内容进行去重,可以有效提高转换文本的数据质量。
在其中一个实施例中,如图5所示,根据中文词法分析工具对最终的转换文本进行分词和词性标注,并根据词性标注结果进行分级开放标签提取,得到多模态数据的文本标签列表,包括:
根据中文词法分析工具LAC对最终的转换文本进行分词和词性标注,并根据词性标注结果提取一级标签和二级标签,得到多模态数据的文本标签列表;其中,一级标签涵盖的词性包括人名、地名、机构名、低置信度的人名、低置信度的地名、低置信度的机构名以及作品名;二级标签涵盖的词性包括一级标签中的词性以及时间、普通名词、名动词、普通动词、数量词、量词和低置信度的时间。其中,一级标签和二级标签的筛选规则如表3所示。
表3一级标签和二级标签的筛选规则
由表3可知,一级标签的筛选规则比二级标签更严格,换言之能成为一级标签的一定可以成为二级标签,反之不成立。其中,表3中的PER、LOC、ORG、nr、ns、nt、nz和nw分别表示人名、地名、机构名、低置信度的人名、低置信度的地名、低置信度的机构名以及作品名,TIME、n、vn、v、m、q和t分别表示时间、普通名词、名动词、普通动词、数量词、量词和低置信度的时间。
可以理解,本申请提取的可见标签并不是来自预先定义好的封闭集,而是面向整个开放域,因此被称为开放标签。并且,考虑到面向不同的应用场景时,对标签的粒度和质量要求也会存在一些差别。例如,面向多源混合管理或者多模态数据分类任务时,对文本标签的粒度和质量会要求较高,通常都是提取少量的抽象概念或者实体级别的对象作为一级标签。面向多模态搜索任务时,要求尽可能保留原始模态的特征,以保证搜索性能,因此通常会提取能代表原始模态完整语义的二级标签。为此,本申请设计了两种不同粒度的开放标签提取方案,可以高效解决不同场景下的文本开放标签提取难题。进一步地,本申请还可以采用其它的信息抽取算法来替代分级开放标签提取算法完成不同粒度的标签提取。
应该理解的是,虽然图1至图5的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1至图5中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,提供了一种多模态数据的文本标签提取装置,包括:
数据分类模块,用于获取多模态数据并进行数据分类,将多模态数据划分为文本数据、图像数据、语音数据、视频数据以及其他数据;
文本转换模块,用于将文本数据、图像数据、语音数据和视频数据转换为文本信息,并将其他数据的文本内容赋值为空字符串;其中,对文本数据进行文本内容提取,获取文本数据的转换文本;对图像数据并行开展光学字符识别和图像内容描述生成,获取图像数据的转换文本;对语音数据进行语音识别,获取语音数据的转换文本;对视频数据并行开展语音识别和字幕文字识别,获取视频数据的转换文本;
文本收集和预处理模块,用于获取转换后的文本信息并进行预处理,得到预处理后的转换文本,将预处理后的转换文本与文本数据、图像数据、语音数据和视频数据对应的原始文件名称进行拼接,并将空字符串与其他数据对应的原始文件名称进行拼接,得到最终的转换文本;
分级标签提取模块,用于根据中文词法分析工具对最终的转换文本进行分词和词性标注,并根据词性标注结果进行分级开放标签提取,得到多模态数据的文本标签列表。
关于多模态数据的文本标签提取装置的具体限定可以参见上文中对于多模态数据的文本标签提取方法的限定,在此不再赘述。上述多模态数据的文本标签提取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种多模态数据的文本标签提取方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取多模态数据并进行数据分类,将多模态数据划分为文本数据、图像数据、语音数据、视频数据以及其他数据;
将文本数据、图像数据、语音数据和视频数据转换为文本信息,并将其他数据的文本内容赋值为空字符串;其中,对文本数据进行文本内容提取,获取文本数据的转换文本;对图像数据并行开展光学字符识别和图像内容描述生成,获取图像数据的转换文本;对语音数据进行语音识别,获取语音数据的转换文本;对视频数据并行开展语音识别和字幕文字识别,获取视频数据的转换文本;
获取转换后的文本信息并进行预处理,得到预处理后的转换文本,将预处理后的转换文本与文本数据、图像数据、语音数据和视频数据对应的原始文件名称进行拼接,并将空字符串与其他数据对应的原始文件名称进行拼接,得到最终的转换文本;
根据中文词法分析工具对最终的转换文本进行分词和词性标注,并根据词性标注结果进行分级开放标签提取,得到多模态数据的文本标签列表。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取多模态数据并进行数据分类,将多模态数据划分为文本数据、图像数据、语音数据、视频数据以及其他数据;
将文本数据、图像数据、语音数据和视频数据转换为文本信息,并将其他数据的文本内容赋值为空字符串;其中,对文本数据进行文本内容提取,获取文本数据的转换文本;对图像数据并行开展光学字符识别和图像内容描述生成,获取图像数据的转换文本;对语音数据进行语音识别,获取语音数据的转换文本;对视频数据并行开展语音识别和字幕文字识别,获取视频数据的转换文本;
获取转换后的文本信息并进行预处理,得到预处理后的转换文本,将预处理后的转换文本与文本数据、图像数据、语音数据和视频数据对应的原始文件名称进行拼接,并将空字符串与其他数据对应的原始文件名称进行拼接,得到最终的转换文本;
根据中文词法分析工具对最终的转换文本进行分词和词性标注,并根据词性标注结果进行分级开放标签提取,得到多模态数据的文本标签列表。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种多模态数据的文本标签提取方法,其特征在于,所述方法包括:
获取多模态数据并进行数据分类,将所述多模态数据划分为文本数据、图像数据、语音数据、视频数据以及其他数据;
将所述文本数据、图像数据、语音数据和视频数据转换为文本信息,并将所述其他数据的文本内容赋值为空字符串;其中,对所述文本数据进行文本内容提取,获取文本数据的转换文本;对所述图像数据并行开展光学字符识别和图像内容描述生成,获取图像数据的转换文本;对所述语音数据进行语音识别,获取语音数据的转换文本;对所述视频数据并行开展语音识别和字幕文字识别,获取视频数据的转换文本;
获取转换后的文本信息并进行预处理,得到预处理后的转换文本,将所述预处理后的转换文本与所述文本数据、图像数据、语音数据和视频数据对应的原始文件名称进行拼接,并将空字符串与所述其他数据对应的原始文件名称进行拼接,得到最终的转换文本;
根据中文词法分析工具对所述最终的转换文本进行分词和词性标注,并根据词性标注结果进行分级开放标签提取,得到多模态数据的文本标签列表。
2.根据权利要求1所述的方法,其特征在于,获取多模态数据并进行数据分类,将所述多模态数据划分为文本数据、图像数据、语音数据、视频数据以及其他数据,包括:
获取多模态数据,根据所述多模态数据的文件内容和文件后缀名进行数据分类,将所述多模态数据划分为文本数据、图像数据、语音数据、视频数据以及其他数据,并获取各类多模态数据的文件格式。
3.根据权利要求1所述的方法,其特征在于,对所述图像数据并行开展光学字符识别和图像内容描述生成,获取图像数据的转换文本,包括:
根据RBC文字识别模型和Clipcap图像描述生成模型并行对所述图像数据进行文本转换,其中,所述RBC文字识别模型用于根据光学字符识别技术提取所述图像数据中的文本内容,所述Clipcap图像描述生成模型用于对所述图像数据中的目标对象进行描述,生成描述内容;
将所述图像数据中的文本内容和描述内容进行合并,获取图像数据的转换文本。
4.根据权利要求1所述的方法,其特征在于,对所述语音数据进行语音识别,获取语音数据的转换文本,包括:
识别所述语音数据的文件格式,将所有语音数据的文件格式全部转存为wav格式,将wav格式的语音数据输入Vosk语音识别模型进行文本转换,获取语音数据的转换文本。
5.根据权利要求1所述的方法,其特征在于,对所述视频数据并行开展语音识别和字幕文字识别,获取视频数据的转换文本,包括:
根据Python中的视频编辑库MoviePy和字幕关键帧定位算法并行对所述视频数据进行处理,其中,所述视频编辑库MoviePy将所述视频数据转换为wav格式的语音数据,所述字幕关键帧定位算法提取所述视频数据中包含字幕的静态关键帧图片;
根据Vosk语音识别模型对wav格式的语音数据进行文本转换,根据RBC文字识别模型对包含字幕的静态关键帧图片进行文本转换,将所述Vosk语音识别模型和RBC文字识别模型输出的转换文本进行合并,得到视频数据的转换文本。
6.根据权利要求1所述的方法,其特征在于,获取转换后的文本信息并进行预处理,得到预处理后的转换文本,包括:
获取转换后的文本信息,根据文本过滤技术和文本去重技术对所述转换后的文本信息进行提纯,得到预处理后的转换文本。
7.根据权利要求1所述的方法,其特征在于,根据中文词法分析工具对所述最终的转换文本进行分词和词性标注,并根据词性标注结果进行分级开放标签提取,得到多模态数据的文本标签列表,包括:
根据中文词法分析工具LAC对所述最终的转换文本进行分词和词性标注,并根据词性标注结果提取一级标签和二级标签,得到多模态数据的文本标签列表;其中,所述一级标签涵盖的词性包括人名、地名、机构名、低置信度的人名、低置信度的地名、低置信度的机构名以及作品名;所述二级标签涵盖的词性包括一级标签中的词性以及时间、普通名词、名动词、普通动词、数量词、量词和低置信度的时间。
8.一种多模态数据的文本标签提取装置,其特征在于,所述装置包括:
数据分类模块,用于获取多模态数据并进行数据分类,将所述多模态数据划分为文本数据、图像数据、语音数据、视频数据以及其他数据;
文本转换模块,用于将所述文本数据、图像数据、语音数据和视频数据转换为文本信息,并将所述其他数据的文本内容赋值为空字符串;其中,对所述文本数据进行文本内容提取,获取文本数据的转换文本;对所述图像数据并行开展光学字符识别和图像内容描述生成,获取图像数据的转换文本;对所述语音数据进行语音识别,获取语音数据的转换文本;对所述视频数据并行开展语音识别和字幕文字识别,获取视频数据的转换文本;
文本收集和预处理模块,用于获取转换后的文本信息并进行预处理,得到预处理后的转换文本,将所述预处理后的转换文本与所述文本数据、图像数据、语音数据和视频数据对应的原始文件名称进行拼接,并将空字符串与所述其他数据对应的原始文件名称进行拼接,得到最终的转换文本;
分级标签提取模块,用于根据中文词法分析工具对所述最终的转换文本进行分词和词性标注,并根据词性标注结果进行分级开放标签提取,得到多模态数据的文本标签列表。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202311549360.2A 2023-11-20 2023-11-20 一种多模态数据的文本标签提取方法、装置、设备及介质 Active CN117573870B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311549360.2A CN117573870B (zh) 2023-11-20 2023-11-20 一种多模态数据的文本标签提取方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311549360.2A CN117573870B (zh) 2023-11-20 2023-11-20 一种多模态数据的文本标签提取方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN117573870A true CN117573870A (zh) 2024-02-20
CN117573870B CN117573870B (zh) 2024-05-07

Family

ID=89860093

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311549360.2A Active CN117573870B (zh) 2023-11-20 2023-11-20 一种多模态数据的文本标签提取方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN117573870B (zh)

Citations (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104679902A (zh) * 2015-03-20 2015-06-03 湘潭大学 一种结合跨媒体融合的信息摘要提取方法
CN109325148A (zh) * 2018-08-03 2019-02-12 百度在线网络技术(北京)有限公司 生成信息的方法和装置
CN110287389A (zh) * 2019-05-31 2019-09-27 南京理工大学 基于文本、语音和视频融合的多模态情感分类方法
US20200084519A1 (en) * 2018-09-07 2020-03-12 Oath Inc. Systems and Methods for Multimodal Multilabel Tagging of Video
CN111737476A (zh) * 2020-08-05 2020-10-02 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机可读存储介质及电子设备
CN112004111A (zh) * 2020-09-01 2020-11-27 南京烽火星空通信发展有限公司 一种全域深度学习的新闻视频信息抽提方法
CN112738556A (zh) * 2020-12-22 2021-04-30 上海哔哩哔哩科技有限公司 视频处理方法及装置
CN113392270A (zh) * 2020-10-30 2021-09-14 腾讯科技(深圳)有限公司 视频处理方法、装置、计算机设备以及存储介质
CN113569088A (zh) * 2021-09-27 2021-10-29 腾讯科技(深圳)有限公司 一种音乐推荐方法、装置以及可读存储介质
CN114443899A (zh) * 2022-01-28 2022-05-06 腾讯科技(深圳)有限公司 视频分类方法、装置、设备及介质
CN114817633A (zh) * 2022-04-27 2022-07-29 咪咕文化科技有限公司 视频分类方法、装置、设备及存储介质
CN114880496A (zh) * 2022-04-28 2022-08-09 国家计算机网络与信息安全管理中心 多媒体信息话题分析方法、装置、设备及存储介质
US20220270369A1 (en) * 2021-02-22 2022-08-25 Communication University of Zhejiang Intelligent cataloging method for all-media news based on multi-modal information fusion understanding
CN115545093A (zh) * 2022-09-13 2022-12-30 珠海高凌信息科技股份有限公司 一种多模态数据的融合方法、系统及存储介质
CN116049483A (zh) * 2022-11-15 2023-05-02 国家计算机网络与信息安全管理中心 一种基于多模态数据的用户标签构建方法及系统
CN116127054A (zh) * 2021-11-15 2023-05-16 腾讯科技(深圳)有限公司 图像处理方法、装置、设备、存储介质及计算机程序
CN116956920A (zh) * 2023-06-25 2023-10-27 北方民族大学 一种多任务协同表征的多模态命名实体识别方法
CN116955707A (zh) * 2022-11-24 2023-10-27 腾讯科技(深圳)有限公司 内容标签的确定方法、装置、设备、介质及程序产品
CN116978028A (zh) * 2023-03-21 2023-10-31 腾讯科技(深圳)有限公司 视频处理方法、装置、电子设备及存储介质
CN116977701A (zh) * 2023-05-05 2023-10-31 腾讯科技(深圳)有限公司 视频分类模型训练的方法、视频分类的方法和装置
CN117009578A (zh) * 2022-11-14 2023-11-07 腾讯科技(深圳)有限公司 视频数据的标注方法、装置、电子设备及存储介质

Patent Citations (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104679902A (zh) * 2015-03-20 2015-06-03 湘潭大学 一种结合跨媒体融合的信息摘要提取方法
CN109325148A (zh) * 2018-08-03 2019-02-12 百度在线网络技术(北京)有限公司 生成信息的方法和装置
US20200084519A1 (en) * 2018-09-07 2020-03-12 Oath Inc. Systems and Methods for Multimodal Multilabel Tagging of Video
CN110287389A (zh) * 2019-05-31 2019-09-27 南京理工大学 基于文本、语音和视频融合的多模态情感分类方法
CN111737476A (zh) * 2020-08-05 2020-10-02 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机可读存储介质及电子设备
CN112004111A (zh) * 2020-09-01 2020-11-27 南京烽火星空通信发展有限公司 一种全域深度学习的新闻视频信息抽提方法
CN113392270A (zh) * 2020-10-30 2021-09-14 腾讯科技(深圳)有限公司 视频处理方法、装置、计算机设备以及存储介质
CN112738556A (zh) * 2020-12-22 2021-04-30 上海哔哩哔哩科技有限公司 视频处理方法及装置
US20220270369A1 (en) * 2021-02-22 2022-08-25 Communication University of Zhejiang Intelligent cataloging method for all-media news based on multi-modal information fusion understanding
CN113569088A (zh) * 2021-09-27 2021-10-29 腾讯科技(深圳)有限公司 一种音乐推荐方法、装置以及可读存储介质
CN116127054A (zh) * 2021-11-15 2023-05-16 腾讯科技(深圳)有限公司 图像处理方法、装置、设备、存储介质及计算机程序
CN114443899A (zh) * 2022-01-28 2022-05-06 腾讯科技(深圳)有限公司 视频分类方法、装置、设备及介质
CN114817633A (zh) * 2022-04-27 2022-07-29 咪咕文化科技有限公司 视频分类方法、装置、设备及存储介质
CN114880496A (zh) * 2022-04-28 2022-08-09 国家计算机网络与信息安全管理中心 多媒体信息话题分析方法、装置、设备及存储介质
CN115545093A (zh) * 2022-09-13 2022-12-30 珠海高凌信息科技股份有限公司 一种多模态数据的融合方法、系统及存储介质
CN117009578A (zh) * 2022-11-14 2023-11-07 腾讯科技(深圳)有限公司 视频数据的标注方法、装置、电子设备及存储介质
CN116049483A (zh) * 2022-11-15 2023-05-02 国家计算机网络与信息安全管理中心 一种基于多模态数据的用户标签构建方法及系统
CN116955707A (zh) * 2022-11-24 2023-10-27 腾讯科技(深圳)有限公司 内容标签的确定方法、装置、设备、介质及程序产品
CN116978028A (zh) * 2023-03-21 2023-10-31 腾讯科技(深圳)有限公司 视频处理方法、装置、电子设备及存储介质
CN116977701A (zh) * 2023-05-05 2023-10-31 腾讯科技(深圳)有限公司 视频分类模型训练的方法、视频分类的方法和装置
CN116956920A (zh) * 2023-06-25 2023-10-27 北方民族大学 一种多任务协同表征的多模态命名实体识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZAHRA AMIRI 等: "Adventures in data analysis: a systematic review of Deep Learning techniques for pattern recognition in cyber-physical-social systems", vol. 83, 9 August 2023 (2023-08-09), pages 22909 *
赵勤博 等: "跨语种多模态信息分拣技术与应用", 《火力与指挥控制》, vol. 48, no. 10, 15 October 2023 (2023-10-15), pages 73 - 83 *

Also Published As

Publication number Publication date
CN117573870B (zh) 2024-05-07

Similar Documents

Publication Publication Date Title
CN110444198B (zh) 检索方法、装置、计算机设备和存储介质
CN109145152B (zh) 一种基于查询词的自适应智能生成图文视频缩略图方法
EP0440197B1 (en) Method and apparatus for inputting text
US20060224378A1 (en) Communication support apparatus and computer program product for supporting communication by performing translation between languages
US20030191645A1 (en) Statistical pronunciation model for text to speech
US20050283752A1 (en) DiVAS-a cross-media system for ubiquitous gesture-discourse-sketch knowledge capture and reuse
CN110263340B (zh) 评论生成方法、装置、服务器及存储介质
US20070288237A1 (en) Method And Apparatus For Multimedia Data Management
JP2007087397A (ja) 形態素解析プログラム、補正プログラム、形態素解析装置、補正装置、形態素解析方法および補正方法
CN112967144B (zh) 一种金融信用风险事件抽取方法、可读存储介质及设备
KR100918338B1 (ko) 복수 언어의 대역 텍스트 입력에 의한 제 3 언어 텍스트 생성 방법, 장치 및 프로그램을 저장한 기록 매체
US20230325611A1 (en) Video translation platform
Adnan et al. Information extraction from multifaceted unstructured big data
JP2017058507A (ja) 音声認識装置、音声認識方法、プログラム
CN117573870B (zh) 一种多模态数据的文本标签提取方法、装置、设备及介质
CN115988149A (zh) 一种ai智能图文生成视频的方法
CN114780757A (zh) 短媒体标签抽取方法、装置、计算机设备和存储介质
CN115134660A (zh) 视频剪辑方法、装置、计算机设备及存储介质
CN111552780B (zh) 医用场景的搜索处理方法、装置、存储介质及电子设备
Hukkeri et al. Erratic navigation in lecture videos using hybrid text based index point generation
CN114298048A (zh) 命名实体识别方法及装置
Gupta et al. C2vnet: A deep learning framework towards comic strip to audio-visual scene synthesis
CN115022733B (zh) 摘要视频生成方法、装置、计算机设备及存储介质
Carson-Berndsen Multilingual time maps: portable phonotactic models for speech technology
CN117235605B (zh) 一种基于多模态注意力融合的敏感信息分类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant