CN112908331A - 一种基于大数据的视频文件处理方法和装置 - Google Patents
一种基于大数据的视频文件处理方法和装置 Download PDFInfo
- Publication number
- CN112908331A CN112908331A CN202110356087.6A CN202110356087A CN112908331A CN 112908331 A CN112908331 A CN 112908331A CN 202110356087 A CN202110356087 A CN 202110356087A CN 112908331 A CN112908331 A CN 112908331A
- Authority
- CN
- China
- Prior art keywords
- word
- data
- text data
- expression
- video file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 31
- 238000012545 processing Methods 0.000 claims abstract description 60
- 230000014509 gene expression Effects 0.000 claims description 111
- 230000004927 fusion Effects 0.000 claims description 99
- 239000013598 vector Substances 0.000 claims description 33
- 230000015654 memory Effects 0.000 claims description 13
- 238000004458 analytical method Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 12
- 238000002372 labelling Methods 0.000 claims description 10
- 230000001815 facial effect Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 238000000034 method Methods 0.000 description 14
- 238000003062 neural network model Methods 0.000 description 5
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 206010011469 Crying Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Acoustics & Sound (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于大数据的视频文件处理方法和装置,获取待处理视频文件,将待处理视频文件进行初步处理,得到音频数据和图像数据,将音频数据进行语音识别,得到当前文本数据,并获取历史文本数据,获取当前文本数据的当前特征以及历史文本数据的历史特征,融合当前特征和历史特征,获取当前文本数据的文本语义,将图像数据逐帧分割,得到多帧图像,对各帧图像进行人脸识别,得到各帧图像中存在的各人脸图像,并获取各人脸图像的身份信息,将当前文本数据的文本语义以及各人脸图像的身份信息存储至处理结果数据表中。本发明提供的视频文件处理方法能够对视频文件进行较为全面的数据处理,提升视频文件处理的全面性和准确性。
Description
技术领域
本发明涉及一种基于大数据的视频文件处理方法和装置。
背景技术
目前,对视频文件的处理方式通常只涉及对视频文件进行逐帧分割处理,得到各帧图像,或者对视频文件中的音频数据进行语音识别处理,得到文字数据,处理过程比较简单,得到的处理结果比较单一,无法获取到视频文件所包含的较为全面的数据信息。
发明内容
本发明提供一种基于大数据的视频文件处理方法和装置,用于解决现有的视频文件处理方法的处理过程比较简单,得到的处理结果比较单一,无法获取到视频文件所包含的较为全面的数据信息的技术问题。
一种基于大数据的视频文件处理方法,包括:
获取待处理视频文件;
将所述待处理视频文件进行初步处理,得到所述待处理视频文件的音频数据和图像数据;
将所述音频数据进行语音识别,得到当前文本数据,并根据所述当前文本数据,获取历史文本数据;
获取所述当前文本数据的当前特征,以及所述历史文本数据的历史特征;
融合所述当前特征和所述历史特征,获取所述当前文本数据的文本语义;
将所述图像数据逐帧分割,得到多帧图像;
对各帧图像进行人脸识别,得到所述各帧图像中存在的各人脸图像;
将所述各人脸图像输入至预设的人脸图像库中,获取所述各人脸图像的身份信息;
将所述当前文本数据的文本语义以及所述各人脸图像的身份信息存储至预设的处理结果数据表中。
优选地,所述获取所述当前文本数据的当前特征,以及所述历史文本数据的历史特征具体为:
将所述当前文本数据进行词语划分,得到所述当前文本数据中的各个词语;
获取所述当前文本数据中各个词语的词特征;
获取所述历史文本数据的文本特征。
优选地,所述融合所述当前特征和所述历史特征,获取所述当前文本数据的文本语义具体为:
按照所述各个词语在所述当前文本数据中的由先至后的正向顺序,分别将所述各个词语的词特征和所述历史文本数据的文本特征输入至预设的记忆网络模型中,得到与所述各个词语一一对应的正向融合特征;
按照所述各个词语在所述当前文本数据中的由后至先的反向顺序,分别将所述各个词语的词特征和所述历史文本数据的文本特征输入至所述记忆网络模型中,得到与所述各个词语一一对应的反向融合特征;
将所述正向融合特征和所述反向融合特征输入至语义分析网络模型中,分析得到所述当前文本数据的文本语义。
优选地,所述按照所述各个词语在所述当前文本数据中的由先至后的正向顺序,分别将所述各个词语的词特征和所述历史文本数据的文本特征输入至预设的记忆网络模型中,得到与所述各个词语一一对应的正向融合特征具体为:
按照所述各个词语在所述当前文本数据中的由先至后的顺序,逐个提取第i个词语的词特征,并获取第i个词语的正向附加融合特征,所述第i个词语的正向附加融合特征为第i-1个词语的正向融合特征;
将第i个词语的词特征、所述历史文本数据的文本特征以及第i个词语的正向附加融合特征,输入至所述记忆网络模型中进行特征处理,得到第i个词语的正向融合特征,以此得到与所述各个词语一一对应的正向融合特征。
优选地,所述将所述正向融合特征和所述反向融合特征输入至语义分析网络模型中,分析得到所述当前文本数据的文本语义,包括:
根据所述各个词语在所述当前文本数据中的由先至后的正向顺序,确定在所述正向顺序下所述各个词语中的第一个词语和最后一个词语;
从所述各个词语一一对应的正向融合特征中,确定所述最后一个词语的正向融合特征;从所述各个词语一一对应的反向融合特征中,确定所述第一个词语的反向融合特征;
将所述最后一个词语的正向融合特征和所述第一个词语的反向融合特征输入至所述语义分析网络模型中,分析得到所述当前文本数据的文本语义。
优选地,所述对各帧图像进行人脸识别,得到所述各帧图像中存在的各人脸图像之后,所述视频文件处理方法还包括:
对所述各人脸图像进行表情识别,得到所述各人脸图像的表情信息;
相应地,所述将所述当前文本数据的文本语义以及所述各人脸图像的身份信息存储至预设的处理结果数据表中具体为:
将所述当前文本数据的文本语义、所述各人脸图像的身份信息以及所述各人脸图像的表情信息存储至所述处理结果数据表中。
优选地,所述对所述各人脸图像进行表情识别,得到所述各人脸图像的表情信息具体为:
获取第一样本集和第二样本集,所述第一样本集中的第一表情样本图像为正面表情样本图像,所述第二样本集中的第二表情样本图像为负面表情样本图像;
对所述第一样本集中的各第一表情样本图像进行标注,得到第一表情类别,对所述第二样本集中的各第二表情样本图像进行标注,得到第二表情类别,所述第一表情类别为正面表情,所述第二表情类别为负面表情,所述第一表情类别和第二表情类别构成标注数据;
将所述第一样本集和第二样本集输入至表情识别编码器中进行特征提取,表情识别编码器输出的特征向量输入给Flatten层,经Flatten层处理得到一维特征向量,一维特征向量作为全连接层的输入,全连接层将一维特征向量映射到特征标记空间,然后输出给softmax函数,通过softmax函数输出两个表情类别的概率,根据输出的两个表情类别的概率确定对应的初始表情类别;
将所述初始表情类别与所述标注数据通过交叉熵损失函数进行运算,优化表情识别网络模型中的参数;
将所述各人脸图像输入到所述表情识别网络模型中,得到所述各人脸图像的表情信息。
一种基于大数据的视频文件处理装置,包括用于执行实现上述基于大数据的视频文件处理方法的计算机程序的处理器。
本发明提供的一种基于大数据的视频文件处理方法的技术效果包括:
对待处理视频文件进行初步处理,得到图像数据和音频数据,将音频数据进行语音识别,得到当前文本数据,并根据当前文本数据,获取历史文本数据,结合当前文本数据的当前特征,以及历史文本数据的历史特征,获取当前文本数据的文本语义,因此本发明提供的视频文件处理方法中,在对音频数据对应的当前文本数据进行处理时,需要融合当前文本数据以及历史文本数据这两个数据进行处理,由于当前文本数据的文本语义除了与当前文本数据本身有关,与历史文本数据也存在一定的关联,因此,结合当前文本数据以及历史文本数据,可以准确可靠地得到当前文本数据的文本语义,避免处理结果比较片面,数据处理准确性较高;而且,对图像数据的各帧图像进行人脸识别,得到人脸图像,并输入至预设的人脸图像库中,能够准确获取各人脸图像的身份信息。因此,本发明提供的视频文件处理方法不但能够准确可靠地得到音频数据对应的当前本文数据的文本语义,而且,能够对视频文件进行较为全面的数据处理,能够获取到视频文件所包含的较为全面的数据信息,提升视频文件处理的全面性和准确性。
附图说明
图1是本发明提供的一种基于大数据的视频文件处理方法的流程图。
具体实施方式
基于大数据的视频文件处理方法实施例:
本实施例提供一种基于大数据的视频文件处理方法,该视频文件处理方法的硬件执行主体可以为计算机设备、服务器设备、智能移动终端等,本实施例不对硬件执行主体做具体限定。
如图1所示,本实施例提供的基于大数据的视频文件处理方法包括如下步骤:
步骤(1):获取待处理视频文件:
获取待处理视频文件,待处理视频文件为需要进行数据处理的视频文件。应当理解,视频文件的长短由实际应用场景进行确定,比如:待处理视频文件中的场景为:某人在说话。
步骤(2):将所述待处理视频文件进行初步处理,得到所述待处理视频文件的音频数据和图像数据:
得到待处理视频文件之后,将待处理视频文件进行初步处理,得到待处理视频文件的音频数据和图像数据。应当理解,音频数据为待处理视频文件的音频段,图像数据为只有图像没有声音的视频段。由于将视频文件处理为音频数据和图像数据的处理过程属于常规技术手段,不再赘述。
步骤(3):将所述音频数据进行语音识别,得到当前文本数据,并根据所述当前文本数据,获取历史文本数据:
将音频数据进行语音识别,得到与音频数据相对应的当前文本数据。由于语音识别算法为常规算法,不再赘述。
得到当前文本数据之后,根据当前文本数据,获取历史文本数据。历史文本数据可以为对历史视频文件(即之前处理的视频文件)中的音频数据进行语音识别得到的文本数据。那么,为了获取到历史文本数据,在每一次进行视频文件处理之后,均将文本数据存储至相关的数据库中,在得到当前文本数据之后,从数据库中调取历史文本数据。
步骤(4):获取所述当前文本数据的当前特征,以及所述历史文本数据的历史特征:
获取当前文本数据的当前特征,以及历史文本数据的历史特征。其中,当前文本数据的当前特征为当前文本数据中各个词语的词特征,历史文本数据的历史特征为历史文本数据的文本特征。本实施例中,词特征为词向量。历史文本数据的个数可以只是一个,也可以包括多个。
当前文本数据的当前特征的获取过程为:先将当前文本数据进行词语划分,得到当前文本数据中的各个词语,然后获取当前文本数据中各个词语的词特征。其中,词语划分原则由实际需要进行设定,可以根据预设的词语库进行划分,具体为:将当前文本数据输入至预设的词语库中,确定当前文本数据中存在的各个词语,并将各个词语按照在当前文本数据中的出现顺序进行排序。作为其他的实施方式,也可以直接按照单字对当前文本数据进行词语划分,即当前文本数据中的每一个字均为一个词语。本实施例可以使用嵌入算法(embedding)对词语进行特征提取,即将词语转换为词向量,比如:预设有一个词向量数据库,该词向量数据库包括之前得到的所有历史文本数据中出现的每一个词语,以及每一个词语的出现次数,而且,每一个词语均按照出现次数进行排序,那么,词向量数据库中按照每一个词语的出现次数对每一个词语进行排序,每一个词语均有唯一的顺序编号。应当理解,当前文本数据和历史文本数据中包含的词语个数可以相同,也可以不相同。
那么,得到当前文本数据中的各个词语之后,将各个词语输入至词向量数据库中,获取当前文本数据中的各个词语的顺序编号,各个词语的顺序编号为各个词语的词特征。比如:当前文本数据为“天气预报”,若按照词语库进行词语划分,则得到“天气”和“预报”两个词语,这两个词语的词向量(即词特征)分别为[65,24];若按照字进行词语划分,则得到“天”、“气”、“预”和“报”四个词语,这四个词语的词向量分别为[89,65,31,24]。
为了获取到各历史文本数据的文本特征,在获取到每一个视频文件的文本数据的词特征之后,存储该文本数据的词特征。
对于任意一个历史文本数据而言,得到该历史文本数据中各个词语的词特征之后,根据各个词特征(即根据各个词在历史文本数据中的先后顺序),得到该历史文本数据的文本特征,比如:若该历史文本数据包括;六个词语,那么,该历史文本数据的文本特征为[89,65,31,24,55,42],其中,这六个数据分别为该历史文本数据所包含的六个词语的词特征,即所有词语的词特征构成历史文本数据的文本特征。
步骤(5):融合所述当前特征和所述历史特征,获取所述当前文本数据的文本语义:
步骤(5-1):按照所述各个词语在所述当前文本数据中的由先至后的正向顺序,分别将所述各个词语的词特征和所述历史文本数据的文本特征输入至预设的记忆网络模型中,得到与所述各个词语一一对应的正向融合特征:
按照各个词语在当前文本数据中的由先至后的正向顺序,分别将各个词语的词特征和历史文本数据的文本特征输入至预设的记忆网络模型中,得到与各个词语一一对应的正向融合特征,本实施例中:
由于当前文本数据中的各个词语按照在当前文本数据中的出现顺序进行排序,即当前文本数据中的各个词语按照由先至后的正向顺序进行排序。那么,按照各个词语在当前文本数据中的由先至后的正向顺序,逐个提取第i个词语的词特征,并获取第i个词语的正向附加融合特征,第i个词语的正向附加融合特征为第i-1个词语的正向融合特征。即基于正向顺序,对于任意一个词语而言,该词语的正向附加融合特征为与该词语相邻的前一个词语的正向融合特征。i=1、2、……、n,n为当前文本数据的词语总数。
本实施例中预设的记忆网络模型以Bi-LSTM模型为例,Bi-LSTM模型为双向长短期记忆网络模型。应当理解,由于需要进行正向融合和反向融合,因此,Bi-LSTM模型可以为双向Bi-LSTM模型,分为正向Bi-LSTM模型和反向Bi-LSTM模型,正向融合特征可由正向Bi-LSTM模型进行获取,反向融合特征可由反向Bi-LSTM模型进行获取。
然后,将第i个词语的词特征、历史文本数据的文本特征以及第i个词语的正向附加融合特征,输入至正向Bi-LSTM模型中进行特征处理,得到第i个词语的正向融合特征。作为一个具体实施方式,第i个词语的正向融合特征的获取过程具体为:将第i个词语的词特征拼接在历史文本数据的文本特征之后,得到第i个词语的拼接特征,然后将第i个词语的拼接特征和第i个词语的正向附加融合特征分别输入至正向Bi-LSTM模型中进行特征处理,得到第i个词语的正向融合特征。本实施例中,为了将第i个词语的拼接特征和第i个词语的正向附加融合特征输入至正向Bi-LSTM模型,正向Bi-LSTM模型包括两个信息输入通道,分别输入第i个词语的拼接特征和第i个词语的正向附加融合特征,正向Bi-LSTM模型输出第i个词语的正向融合特征。
根据上述过程,得到与当前文本数据中的各个词语一一对应的正向融合特征。具体地:当i=1时,由于第1个词语前面不存在词语,因此,将第1个词语的词特征和历史文本数据的文本特征输入至正向Bi-LSTM模型中进行特征处理,得到第1个词语的正向融合特征;将第2个词语的词特征、历史文本数据的文本特征以及第2个词语的正向附加融合特征(即第1个词语的正向融合特征),输入至正向Bi-LSTM模型中进行特征处理,得到第2个词语的正向融合特征,以此类推,得到当前文本数据中的各个词语一一对应的正向融合特征。
步骤(5-2):按照所述各个词语在所述当前文本数据中的由后至先的反向顺序,分别将所述各个词语的词特征和所述历史文本数据的文本特征输入至所述记忆网络模型中,得到与所述各个词语一一对应的反向融合特征:
按照各个词语在当前文本数据中的由后至先的反向顺序,分别将各个词语的词特征和历史文本数据的文本特征输入至记忆网络模型中,得到与各个词语一一对应的反向融合特征。与上述正向融合特征的获取过程同理,在获取反向融合特征时,需要将当前文本数据中的各个词语反过来排序,即按照各个词语在当前文本数据中的由后至前的反向顺序,分别将各个词语的词特征和历史文本数据的文本特征输入至反向Bi-LSTM模型中,得到与各个词语一一对应的反向融合特征。应当理解,在进行反向排序时,当前文本数据的最后一个词语在反向顺序下,就变成了第一个词语,倒数第二个词语在反向顺序下,就变成了第二个词语,以此类推,当前文本数据的第一个词语在反向顺序下,就变成了最后一个词语。因此,虽然正向顺序和反向顺序下,“第i个词语”的前一个词语均为“第i-1个词语”,但是,对于第i个词语而言,在正向顺序下的第i-1个词语等于在反向顺序下的第i+1个词语。即对于任意一个词语而言,在正向顺序下该词语的前一个词语是在反向顺序下该词语的后一个词语;在正向顺序下该词语的后一个词语是在反向顺序下该词语的前一个词语。
与上述正向融合特征的获取过程同理,在反向顺序下,逐个提取第i个词语的词特征,并获取第i个词语的反向附加融合特征,第i个词语的反向附加融合特征为第i-1个词语的反向融合特征。即基于反向顺序,对于任意一个词语而言,该词语的反向附加融合特征为与在反向顺序下该词语相邻的前一个词语的反向融合特征。
然后,将第i个词语的词特征、历史文本数据的文本特征以及第i个词语的反向附加融合特征,输入至反向Bi-LSTM模型中进行特征处理,得到第i个词语的反向融合特征。作为一个具体实施方式,第i个词语的反向融合特征的获取过程具体为:将第i个词语的词特征拼接在历史文本数据的文本特征之后,得到第i个词语的拼接特征,然后将第i个词语的拼接特征和第i个词语的反向附加融合特征分别输入至反向Bi-LSTM模型中进行特征处理,得到第i个词语的反向融合特征。同样地,反向Bi-LSTM模型可以包括两个信息输入通道,分别输入第i个词语的拼接特征和第i个词语的反向附加融合特征,反向Bi-LSTM模型输出第i个词语的反向融合特征。
根据上述过程,得到与当前文本数据中的各个词语一一对应的反向融合特征。具体地:当i=1时,由于第1个词语(即正向顺序下最后一个词语)前面不存在词语,因此,将第1个词语的词特征和历史文本数据的文本特征输入至反向Bi-LSTM模型中进行特征处理,得到第1个词语的反向融合特征;将第2个词语的词特征、历史文本数据的文本特征以及第2个词语的反向附加融合特征(即第1个词语的反向融合特征),输入至反向Bi-LSTM模型中进行特征处理,得到第2个词语的反向融合特征,以此类推,得到当前文本数据中的各个词语一一对应的反向融合特征。
步骤(5-3):将所述正向融合特征和所述反向融合特征输入至语义分析网络模型中,分析得到所述当前文本数据的文本语义:
由于融合特征包括正向融合特征和反向融合特征,则将得到的正向融合特征和反向融合特征输入至语义分析网络模型中,分析得到当前文本数据的文本语义,能够提升数据处理的准确性。语义分析网络模型可以为基于因子分解机的神经网络模型模型,也可以是卷积神经网络模型模型。本实施例中,语义分析网络模型以基于因子分解机的神经网络模型为例,基于因子分解机的神经网络模型使用因子分解机作为底层,在对基于因子分解机的神经网络模型进行训练时,每个训练样本的样本特征可预先采用因子分解机模型进行处理得到,并可基于深度神经网络使用嵌入向量进行训练。
本实施例中,根据正向顺序,即各个词语在当前文本数据中的由先至后的顺序,确定在正向顺序下各个词语中的第一个词语和最后一个词语。
基于正向顺序,从各个词语一一对应的正向融合特征中,确定最后一个词语的正向融合特征。并且,从各个词语一一对应的反向融合特征中,确定第一个词语的反向融合特征。
因此,基于正向顺序,将最后一个词语的正向融合特征和第一个词语的反向融合特征输入至语义分析网络模型中,获取当前文本数据的文本语义。
作为其他的实施方式,还可以根据所有词语的正向融合特征以及所有词语的反向融合特征进行数据处理,获取当前文本数据的文本语义,不再赘述。
步骤(6):将所述图像数据逐帧分割,得到多帧图像:
由于图像数据包括多帧图像,那么,将图像数据逐帧分割,得到多帧图像,具体帧数由实际情况进行确定。由于将图像数据分割为多帧图像属于常规技术手段,不再赘述。
步骤(7):对各帧图像进行人脸识别,得到所述各帧图像中存在的各人脸图像:
得到各帧图像之后,对各帧图像进行人脸识别,得到各帧图像中存在的各人脸图像。应当理解,对于任意一帧图像,可能只包括一个人脸图像,也可能包括至少两个人脸图像,还可能不包括人脸图像。
由于人脸识别算法属于现有算法,不再赘述。
步骤(8):将所述各人脸图像输入至预设的人脸图像库中,获取所述各人脸图像的身份信息:
预设有人脸图像库,该人脸图像库包括至少两个人脸图像,以及各人脸图像的身份信息,身份信息可以为姓名、身份证号等等。那么,将各人脸图像输入至该人脸图像库中,就能够获取各人脸图像的身份信息。应当理解,若各帧图像中的人脸图像包括不止一个人的人脸图像,则分别得到各个人员的人脸图像的身份信息。
步骤(9):将所述当前文本数据的文本语义以及所述各人脸图像的身份信息存储至预设的处理结果数据表中:
得到当前文本数据的文本语义以及各人脸图像的身份信息之后,将当前文本数据的文本语义以及各人脸图像的身份信息存储至预设的处理结果数据表中进行存储。其中,处理结果数据表包括两个数据填充区域,分别是文本语义填充区域和身份信息填充区域,将当前文本数据的文本语义填充入文本语义填充区域中,将各人脸图像的身份信息存储填充入身份信息填充区域中。应当理解,处理结果数据表可以为excel表格。
本实施例中,步骤(7)之后,视频文件处理方法还包括如下步骤:对各人脸图像进行表情识别,得到各人脸图像的表情信息。本实施例中,表情分为两种,分别是正面表情和负面表情,其中,正面表情具体是高兴、开心等,负面表情具体是伤心、哭泣、难过等。以下给出表情识别的一种具体实现过程:
获取两个样本集,分别是第一样本集和第二样本集,第一样本集包括至少两个第一表情样本图像,第二样本集包括至少两个第二表情样本图像。第一样本集中的第一表情样本图像为正面表情样本图像,第二样本集中的第二表情样本图像为负面表情样本图像。
对第一样本集中的各第一表情样本图像进行标注,得到第一表情类别,第一表情类别为正面表情,对第二样本集中的各第二表情样本图像进行标注,得到第二表情类别,第二表情类别为负面表情。标注的表情类别分为两种,可以用不同的索引表示不同的表情类别,其中,索引0对应正面表情,索引1对应负面表情,标注还可以经过one-hot编码。第一表情类别和第二表情类别构成标注数据。
表情识别网络包括表情识别编码器、Flatten层、全连接层和softmax函数。
将第一样本集和第二样本集输入至表情识别编码器中进行特征提取,表情识别编码器输出特征向量(比如嘴角张度),特征向量输入给Flatten层,经Flatten层处理得到一维特征向量,一维特征向量作为全连接层的输入,全连接层将一维特征向量映射到特征标记空间,然后输出给softmax函数,通过softmax函数输出两个表情类别的概率,应当理解,这两个表情类别的概率相加为1,根据输出的两个表情类别的概率确定对应的初始表情类别。
将得到的初始表情类别与标注数据通过交叉熵损失函数进行运算,优化表情识别网络模型中的参数,使得输出的表情类别逐渐靠近真实值。
那么,将目标人脸图像输入到该表情识别网络模型中,通过表情识别网络模型进行表情识别,具体是将各人脸图像输入至表情识别编码器中进行特征提取,图像分类编码器输出特征向量,特征向量输入给Flatten层,经Flatten层处理得到一维特征向量,一维特征向量作为全连接层的输入,全连接层将一维特征向量映射到特征标记空间,然后输出给softmax函数,通过softmax函数输出对应的表情类别,输出的表情类别为各人脸图像的表情信息。因此,各人脸图像的表情信息为正面表情或者负面表情。
应当理解,根据人脸图像进行表情识别的过程也可以采用已有的表情识别算法,不再赘述。
相应地,将当前文本数据的文本语义以及各人脸图像的身份信息存储至预设的处理结果数据表中具体为:将当前文本数据的文本语义、各人脸图像的身份信息以及各人脸图像的表情信息存储至处理结果数据表中。那么,处理结果数据表中还包括表情信息填充区域,各人脸图像的表情信息填充至表情信息填充区域中。
基于大数据的视频文件处理装置实施例:
本实施例还提供一种基于大数据的视频文件处理装置,包括用于执行实现一种基于大数据的视频文件处理方法的计算机程序的处理器。由于该基于大数据的视频文件处理方法在上述基于大数据的视频文件处理方法实施例中已给出了具体描述,不再赘述。
Claims (8)
1.一种基于大数据的视频文件处理方法,其特征在于,包括:
获取待处理视频文件;
将所述待处理视频文件进行初步处理,得到所述待处理视频文件的音频数据和图像数据;
将所述音频数据进行语音识别,得到当前文本数据,并根据所述当前文本数据,获取历史文本数据;
获取所述当前文本数据的当前特征,以及所述历史文本数据的历史特征;
融合所述当前特征和所述历史特征,获取所述当前文本数据的文本语义;
将所述图像数据逐帧分割,得到多帧图像;
对各帧图像进行人脸识别,得到所述各帧图像中存在的各人脸图像;
将所述各人脸图像输入至预设的人脸图像库中,获取所述各人脸图像的身份信息;
将所述当前文本数据的文本语义以及所述各人脸图像的身份信息存储至预设的处理结果数据表中。
2.根据权利要求1所述的基于大数据的视频文件处理方法,其特征在于,所述获取所述当前文本数据的当前特征,以及所述历史文本数据的历史特征具体为:
将所述当前文本数据进行词语划分,得到所述当前文本数据中的各个词语;
获取所述当前文本数据中各个词语的词特征;
获取所述历史文本数据的文本特征。
3.根据权利要求2所述的基于大数据的视频文件处理方法,其特征在于,所述融合所述当前特征和所述历史特征,获取所述当前文本数据的文本语义具体为:
按照所述各个词语在所述当前文本数据中的由先至后的正向顺序,分别将所述各个词语的词特征和所述历史文本数据的文本特征输入至预设的记忆网络模型中,得到与所述各个词语一一对应的正向融合特征;
按照所述各个词语在所述当前文本数据中的由后至先的反向顺序,分别将所述各个词语的词特征和所述历史文本数据的文本特征输入至所述记忆网络模型中,得到与所述各个词语一一对应的反向融合特征;
将所述正向融合特征和所述反向融合特征输入至语义分析网络模型中,分析得到所述当前文本数据的文本语义。
4.根据权利要求3所述的基于大数据的视频文件处理方法,其特征在于,所述按照所述各个词语在所述当前文本数据中的由先至后的正向顺序,分别将所述各个词语的词特征和所述历史文本数据的文本特征输入至预设的记忆网络模型中,得到与所述各个词语一一对应的正向融合特征具体为:
按照所述各个词语在所述当前文本数据中的由先至后的顺序,逐个提取第i个词语的词特征,并获取第i个词语的正向附加融合特征,所述第i个词语的正向附加融合特征为第i-1个词语的正向融合特征;
将第i个词语的词特征、所述历史文本数据的文本特征以及第i个词语的正向附加融合特征,输入至所述记忆网络模型中进行特征处理,得到第i个词语的正向融合特征,以此得到与所述各个词语一一对应的正向融合特征。
5.根据权利要求4所述的基于大数据的视频文件处理方法,其特征在于,所述将所述正向融合特征和所述反向融合特征输入至语义分析网络模型中,分析得到所述当前文本数据的文本语义,包括:
根据所述各个词语在所述当前文本数据中的由先至后的正向顺序,确定在所述正向顺序下所述各个词语中的第一个词语和最后一个词语;
从所述各个词语一一对应的正向融合特征中,确定所述最后一个词语的正向融合特征;从所述各个词语一一对应的反向融合特征中,确定所述第一个词语的反向融合特征;
将所述最后一个词语的正向融合特征和所述第一个词语的反向融合特征输入至所述语义分析网络模型中,分析得到所述当前文本数据的文本语义。
6.根据权利要求1所述的基于大数据的视频文件处理方法,其特征在于,所述对各帧图像进行人脸识别,得到所述各帧图像中存在的各人脸图像之后,所述视频文件处理方法还包括:
对所述各人脸图像进行表情识别,得到所述各人脸图像的表情信息;
相应地,所述将所述当前文本数据的文本语义以及所述各人脸图像的身份信息存储至预设的处理结果数据表中具体为:
将所述当前文本数据的文本语义、所述各人脸图像的身份信息以及所述各人脸图像的表情信息存储至所述处理结果数据表中。
7.根据权利要求6所述的基于大数据的视频文件处理方法,其特征在于,所述对所述各人脸图像进行表情识别,得到所述各人脸图像的表情信息具体为:
获取第一样本集和第二样本集,所述第一样本集中的第一表情样本图像为正面表情样本图像,所述第二样本集中的第二表情样本图像为负面表情样本图像;
对所述第一样本集中的各第一表情样本图像进行标注,得到第一表情类别,对所述第二样本集中的各第二表情样本图像进行标注,得到第二表情类别,所述第一表情类别为正面表情,所述第二表情类别为负面表情,所述第一表情类别和第二表情类别构成标注数据;
将所述第一样本集和第二样本集输入至表情识别编码器中进行特征提取,表情识别编码器输出的特征向量输入给Flatten层,经Flatten层处理得到一维特征向量,一维特征向量作为全连接层的输入,全连接层将一维特征向量映射到特征标记空间,然后输出给softmax函数,通过softmax函数输出两个表情类别的概率,根据输出的两个表情类别的概率确定对应的初始表情类别;
将所述初始表情类别与所述标注数据通过交叉熵损失函数进行运算,优化表情识别网络模型中的参数;
将所述各人脸图像输入到所述表情识别网络模型中,得到所述各人脸图像的表情信息。
8.一种基于大数据的视频文件处理装置,其特征在于,包括用于执行实现如权利要求1-7任一项所述的基于大数据的视频文件处理方法的计算机程序的处理器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110356087.6A CN112908331A (zh) | 2021-04-01 | 2021-04-01 | 一种基于大数据的视频文件处理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110356087.6A CN112908331A (zh) | 2021-04-01 | 2021-04-01 | 一种基于大数据的视频文件处理方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112908331A true CN112908331A (zh) | 2021-06-04 |
Family
ID=76110212
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110356087.6A Withdrawn CN112908331A (zh) | 2021-04-01 | 2021-04-01 | 一种基于大数据的视频文件处理方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112908331A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112561499A (zh) * | 2021-02-01 | 2021-03-26 | 开封大学 | 一种基于低碳经济的新能源数据管理系统 |
-
2021
- 2021-04-01 CN CN202110356087.6A patent/CN112908331A/zh not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112561499A (zh) * | 2021-02-01 | 2021-03-26 | 开封大学 | 一种基于低碳经济的新能源数据管理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109117777B (zh) | 生成信息的方法和装置 | |
CN112818906B (zh) | 一种基于多模态信息融合理解的全媒体新闻智能编目方法 | |
US11281945B1 (en) | Multimodal dimensional emotion recognition method | |
CN110717324B (zh) | 裁判文书答案信息提取方法、装置、提取器、介质和设备 | |
CN114245203B (zh) | 基于剧本的视频剪辑方法、装置、设备及介质 | |
CN112348111B (zh) | 视频中的多模态特征融合方法、装置、电子设备及介质 | |
CN112784696A (zh) | 基于图像识别的唇语识别方法、装置、设备及存储介质 | |
CN110798636A (zh) | 字幕生成方法及装置、电子设备 | |
CN111985243B (zh) | 情感模型的训练方法、情感分析方法、装置及存储介质 | |
CN112836702B (zh) | 一种基于多尺度特征提取的文本识别方法 | |
CN113297379A (zh) | 一种文本数据多标签分类方法及装置 | |
CN111368066B (zh) | 获取对话摘要的方法、装置和计算机可读存储介质 | |
CN114882873A (zh) | 一种语音识别模型训练方法、装置和可读存储介质 | |
CN112908331A (zh) | 一种基于大数据的视频文件处理方法和装置 | |
CN112463922A (zh) | 一种风险用户识别方法及存储介质 | |
CN114528851B (zh) | 回复语句确定方法、装置、电子设备和存储介质 | |
CN113298112B (zh) | 一种一体化数据智能标注方法及系统 | |
CN114840642A (zh) | 事件抽取方法、装置、设备及存储介质 | |
CN114218437A (zh) | 自适应图片裁剪融合方法、系统、计算机设备及介质 | |
CN110381367B (zh) | 一种视频处理方法、设备及计算机可读存储介质 | |
CN114141235A (zh) | 语音语料库生成方法、装置、计算机设备和存储介质 | |
CN113468322A (zh) | 关键词识别模型的训练、提取方法、装置、设备及介质 | |
Hukkeri et al. | Erratic navigation in lecture videos using hybrid text based index point generation | |
CN113329190B (zh) | 一种动漫设计视频制作分析管理方法、设备、系统及计算机存储介质 | |
CN114241495B (zh) | 一种用于脱机手写文本识别的数据增强方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210604 |
|
WW01 | Invention patent application withdrawn after publication |