CN116233540A - 基于视频图像识别的并行信号处理方法及系统 - Google Patents

基于视频图像识别的并行信号处理方法及系统 Download PDF

Info

Publication number
CN116233540A
CN116233540A CN202310226634.8A CN202310226634A CN116233540A CN 116233540 A CN116233540 A CN 116233540A CN 202310226634 A CN202310226634 A CN 202310226634A CN 116233540 A CN116233540 A CN 116233540A
Authority
CN
China
Prior art keywords
information
text information
text
display area
video image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310226634.8A
Other languages
English (en)
Other versions
CN116233540B (zh
Inventor
晋荣
任鹏
李想
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Fortis Asia News Network Technology Co ltd
Original Assignee
Beijing Fortis Asia News Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Fortis Asia News Network Technology Co ltd filed Critical Beijing Fortis Asia News Network Technology Co ltd
Priority to CN202310226634.8A priority Critical patent/CN116233540B/zh
Publication of CN116233540A publication Critical patent/CN116233540A/zh
Application granted granted Critical
Publication of CN116233540B publication Critical patent/CN116233540B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440236Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by media transcoding, e.g. video is transformed into a slideshow of still pictures, audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Television Systems (AREA)
  • Controls And Circuits For Display Device (AREA)

Abstract

本发明涉及信号处理领域技术领域,尤其涉及一种基于视频图像识别的并行信号处理方法和系统。该方法包括接收视频图像信息;对所述视频图像的图像信息和声音信息进行识别;对识别之后的声音信息转化为文本信息;在显示屏上目标显示区域显示所述文本信息,该系统包括接收模块、识别模块、转化模块和显示模块。通过对接收视频图像信息的字幕信息和声音信息进行识别,并将声音信息根据语音识别算法转化为文本信息并在显示屏目标显示区域进行显示,实现了电视无字幕视频播放的字幕显示,解决了电视视频播放实时字幕显示存在局限性的问题。

Description

基于视频图像识别的并行信号处理方法及系统
技术领域
本发明涉及信号处理领域,尤其涉及一种基于视频图像识别的并行信号处理方法及系统。
背景技术
电视作为娱乐方式的一种,丰富着人们的生活。但由于并不是所有的电视节目都有字幕,字幕的缺乏严重影响听障人群的观看体验。
申请号为CN201811367918.4的专利文献公开了一种字幕添加方法、装置、电子设备及计算机可读存储介质,其中该方法包括:提取待添加字幕的视频文件中的音频信息,并对音频信息进行语音识别,得到音频信息对应的文本信息及语音环境特征,然后依据得到的文本信息及语音环境特征,生成相应的字幕信息,继而将字幕信息添加至视频文件中,以使得视频文件在播放时携带字幕信息。
现有技术通过对视频的音频信息进行提取并识别,然后添加到视频文件中,使视频文件播放时携带字幕信息,该方法需要预先对视频进行处理,因此在电视视频播放实时字幕显示中存在局限性。
发明内容
为此,本发明提供一种基于视频图像识别的并行信号处理方法及系统,可以解决电视视频播放实时字幕显示存在局限性的问题。
为实现上述目的,本发明提供一种基于视频图像识别的并行信号处理方法,该方法包括:
接收视频图像信息;
对所述视频图像在目标显示区域的字幕信息和视频图像的声音信息进行识别,若在目标显示区域未能识别出文本信息,则判定所述视频图像不含字幕信息;
对识别之后的声音信息转化为文本信息,若在目标显示区域识别出文本信息,则将所述文本信息与所述声音信息识别之后的文本字符进行对比,当所述文本信息与所述声音信息识别之后的文本字符匹配度≥80%时,判定所述文本信息为字幕信息,当所述文本信息与所述声音信息识别之后的文本字符匹配度<80%时,判定所述文本信息不为字幕信息;
在显示屏上目标显示区域显示所述文本信息。
进一步地,在对所述视频图像的声音信息进行识别时,通过深度学习神经网络、声学模型和语言模型对所述声音信息进行识别转化,所述深度学习神经网络用以对声音信息进行编码,得到编码信息,所述声学模型用以对所述编码信息进行解码,得到解码信息,所述语言模型用以对所述解码信息进行识别并输出为文本信息,所述语言模型不仅能够将所述解码信息输出,还能够记录输出文本信息的文本字符间的时间间隔,
在所述深度学习神经网络对声音信息进行编码时,对所述声音信息的声音特征进行提取,并将所述声音特征与第一目标声音特征库进行匹配度对比,
若所述声音特征与第一目标声音特征库的匹配度≥80%,则判定所述声音特征为人声特征。
进一步地,若所述声音特征与第一目标声音特征库的匹配度<80%,则判定所述声音特征为非人声特征。
所述深度学习神经网络对人声信息正常解码,对非人声特征进一步根据与第二目标声音特征库、第三目标声音特征库和第四目标声音特征库的匹配度进行对比,
若所述非人声特征与第二目标声音特征库的匹配度≥80%,则判定所述声音特征为音乐声音特征,
若所述非人声特征与第三目标声音特征库的匹配度≥80%,则判定所述声音特征为动物声音特征,
若所述非人声特征与第四目标声音特征库的匹配度≥80%,则判定所述声音特征为自然声音特征。
进一步地,在显示屏上目标显示区域显示所述文本信息时,所述目标显示区域设置有最大文本字符数值Nm和文本信息的显示时间,所述最大文本字符数值Nm用以对目标显示区域的文本信息的字符数值进行限制,所述显示时间用以对目标显示区域的文本信息进行时间限制。
进一步地,在对所述文本信息进行显示时,所述文本信息只在目标显示区域进行显示,
若所述文本信息的字符数量N≤Nm,则目标显示区域正常显示所述文本信息,
若所述文本信息的字符数量N>Nm,则将所述文本信息进行分段,第一段文本信息的字符数量为Nm,第二段文本信息的字符数量为N-Nm,
若所述第二段文本信息字符数量N-Nm>Nm,则继续对所述第二段文本信息字符进行分段,第三段文本信息字符数量为N-2ⅹNm。
进一步地,在对所述文本信息进行显示时,在文本信息的结尾字符之后的目标显示区域不再显示下一段文本信息,对某一文本信息字符为所述文本信息开始字符或者结尾字符的判定为,
当N≤Nm时,目标显示区域只显示该段文本信息,
当N>Nm时,目标显示区域根据开始字符和结束字符对文本信息进行分段,开始字符和结束字符的判定为,
所述文本信息中某一文本字符P0与下一个文本字符P1之间的时间间隔为T0,所述文本字符P1与下一个文本字符P2之间的时间间隔为T1,
若T1/T0≥2,则文本字符P1为所述文本信息的一个结尾字符,P2为所述文本信息的一个开始字符,
若T1/T0<2,则文本字符P1和文本字符P2均不是开始字符或结尾字符。
进一步地,在对所述文本信息进行显示时,所述文本信息在目标显示区域的显示时间为,
若所述文本信息的字符数量N1≤Nm,则所述显示时间为所述文本信息的开始字符和结尾字符之间的时间间隔T2,
若所述文本信息的字符数量N2满足Nm<N2≤2ⅹNm,则将该段文本信息分为两次显示,第一次显示的文本信息字符数量为Nm,第二次显示的文本信息字符数量为N2-Nm,第一次文本信息在所述目标显示区域的显示时间为T3ⅹNm/N2,第二次文本信息在所述目标显示区域的显示时间为T3ⅹ(N2-Nm)/N2,T3为所述文本信息的开始字符和结尾字符之间的时间间隔,
若所述文本信息的字符数量N3满足2ⅹNm<N3≤3ⅹNm,则将该段文本信息分为三次显示,则第一次显示的文本信息字符数量为Nm,第二次显示的文本信息字符数量为Nm,第三次显示的文本信息字符数量为N3-2ⅹNm,第一次显示的文本信息和第二次显示的文本信息在所述目标显示区域的显示时间相同,均为T4ⅹNm/N3,第三次显示的文本信息在所述目标显示区域的显示时间为T4ⅹ(N3-2ⅹNm)/N3,T4为该段文本信息的开始字符和结尾字符之间的时间间隔,
在显示屏上目标显示区域显示非人声信息转化来的文本信息时,目标显示区域直接对非人声特征的种类信息进行显示,所述种类信息包括音乐声、动物叫声和自然声,
在显示屏上目标显示区域显示文本信息时,对目标显示区域的视频图像颜色进行识别判定,
若目标显示区域的视频图像颜色为白色,则将所述显示文本信息颜色设置为蓝色,
若目标显示区域的视频图像颜色不为白色,则将所述显示文本信息颜色设置为白色。
进一步地,本发明还提供了基于视频图像识别的并行信号处理方法的基于视频图像识别的并行信号处理系统,该系统包括:
接收模块,用以接收视频图像信息;
识别模块,用以对所述视频图像的图像信息和声音信息进行识别;
转化模块,用以对识别之后的声音信息转化为文本信息;
显示模块,用以对所述文本信息进行显示。
进一步地,所述识别模块包括第一识别单元和第二识别单元,所述第一识别单元用以对所述视频图像目标显示区域的字幕信息进行识别,所述第二识别单元用以对所述视频图像的声音信息进行识别,
所述第二识别单元包括深度学习神经网络和声学模型,所述深度学习神经网络用以对声音信息进行编码,得到编码信息,所述声学模型用以对所述编码信息进行解码,得到解码信息。
进一步地,所述转化模块中含有语言模型,用以对所述解码信息进行输出为文本信息,
所述显示模块设置有最大文本字符数值Nm和文本信息的显示时间,用以对文本信息的显示数量和显示时间进行限制。
与现有技术相比,本发明的有益效果在于,通过接收视频图像信息,并对所述视频图像的字幕信息和声音信息进行识别,将声音信息根据语音识别算法转化为文本信息并在显示屏目标显示区域进行显示,实现了电视无字幕视频播放的字幕显示,解决了电视视频播放实时字幕显示存在局限性的问题。
尤其,通过对视频图像的识别,判定视频图像是否含字幕信息,通过将在目标显示区域的文本信息与声音信息识别之后的文本字符进行对比,实现了对文本信息是否为字幕信息的快速判断,提高了视频图像处理的效率。
尤其,通过深度学习神经网络、声学模型和语言模型的综合应用,对视频图像的声音信息进行转化,得到文本信息,在视频播放过程中即可对所述声音信息进行实时的识别转化,提高了信息数据的处理效率。
尤其,通过设置最大文本字符数值Nm和文本信息的显示时间来对文本信息的显示进行限制,在满足观看体验的同时缩短显示时间,提高了信息数据的处理效率。
尤其,通过对比文本字符间的时间间隔与下一时间间隔的比例关系确定文本字符属性,即是否为开始字符或者结尾字符,而不是直接采用固定的时间间隔来确定文本字符属性,固定的时间间隔会受到不同的声音语境和声音语速的影响,而造成文本字符属性的判断不准确,采用对比文本字符间的时间间隔与下一时间间隔的比例关系来确定文本字符属性提高了确定文本字符属性的准确性,提高了电视机的观看体验。
尤其,通过对目标显示区域内字幕信息的显示时间进行控制,不同的声音识别后生成的文本信息具有不同的显示时间,不同的时间显示由声音信息决定,使得文本信息在目标显示区域显示更加贴合语境,提高了观看体验。
附图说明
图1为本发明实施例提供的基于视频图像识别的并行信号处理方法的流程意图;
图2为本发明实施例提供的基于视频图像识别的并行信号处理系统的结构示意图;
图3为本发明实施例提供的基于视频图像识别的并行信号处理系统目标显示区域在显示屏上位置的示意图。
具体实施方式
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
需要说明的是,在本发明的描述中,术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系,这仅仅是为了便于描述,而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,还需要说明的是,在本发明的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可根据具体情况理解上述术语在本发明中的具体含义。
请参阅图1所示,本发明实施例提供一种基于视频图像识别的并行信号处理方法,该方法包括:
步骤S110,接收视频图像信息;
步骤S120,对所述视频图像在目标显示区域的字幕信息和视频图像的声音信息进行识别,若在目标显示区域未能识别出文本信息,则判定所述视频图像不含字幕信息;
步骤S130,对识别之后的声音信息转化为文本信息,若在目标显示区域识别出文本信息,则将所述文本信息与所述声音信息识别之后的文本字符进行对比,当所述文本信息与所述声音信息识别之后的文本字符匹配度≥80%时,判定所述文本信息为字幕信息,当所述文本信息与所述声音信息识别之后的文本字符匹配度<80%时,判定所述文本信息不为字幕信息;
步骤S140,在显示屏上目标显示区域显示所述文本信息。
具体而言,本发明实施例接收模块接收视频图像信息,并对所述视频图像的字幕信息和声音信息进行识别,将声音信息根据语音识别算法转化为文本信息并在显示屏目标显示区域进行显示,实现了电视无字幕视频播放的字幕显示,提高了听障人群的观看体验。
具体而言,本发明实施例通过对视频图像的识别,判定视频图像是否含字幕信息,通过将在目标显示区域的文本信息与声音信息识别之后的文本字符进行对比,实现了对文本信息是否为字幕信息的快速判断,提高了视频图像处理的效率。
具体而言,在对所述视频图像的声音信息进行识别时,通过深度学习神经网络、声学模型和语言模型对所述声音信息进行识别转化,所述深度学习神经网络用以对声音信息进行编码,得到编码信息,所述声学模型用以对所述编码信息进行解码,得到解码信息,所述语言模型用以对所述解码信息进行识别并输出为文本信息,所述语言模型不仅能够将所述解码信息输出,还能够记录输出文本信息的文本字符间的时间间隔。
具体而言,本发明实施例通过深度学习神经网络、声学模型和语言模型的综合应用,对视频图像的声音信息进行转化,得到文本信息,在视频播放过程中即可对所述声音信息进行实时的识别转化,提高了信息数据的处理效率。
具体而言,在所述深度学习神经网络对声音信息进行编码时,对所述声音信息的声音特征进行提取,并将所述声音特征与第一目标声音特征库进行匹配度对比,
若所述声音特征与第一目标声音特征库的匹配度≥80%,则判定所述声音信息为人声信息。
具体而言,若所述声音特征与第一目标声音特征库的匹配度<80%,则判定所述声音信息为非人声信息,
所述深度学习神经网络对人声信息正常解码,对非人声信息进一步根据与第二目标声音特征库、第三目标声音特征库和第四目标声音特征库的匹配度进行对比,
若所述非人声特征与第二目标声音特征库的匹配度≥80%,则判定所述声音信息为音乐声音信息,
若所述非人声特征与第三目标声音特征库的匹配度≥80%,则判定所述声音信息为动物声音信息,
若所述非人声特征与第四目标声音特征库的匹配度≥80%,则判定所述声音信息为自然声音信息。
具体而言,在显示屏上目标显示区域显示人声信息转化来的文本信息时,所述目标显示区域设置有最大文本字符数值Nm和文本信息的显示时间,所述最大文本字符数值Nm用以对目标显示区域的文本信息的字符数值进行限制,所述显示时间用以对目标显示区域的文本信息进行时间限制。
具体而言,本发明实施例通过设置最大文本字符数值Nm和文本信息的显示时间来对文本信息的显示进行限制,在满足观看体验的同时缩短显示时间,提高了信息数据的处理效率。
具体而言,在对所述文本信息进行显示时,所述文本信息只在目标显示区域进行显示,
若所述文本信息的字符数量N≤Nm,则目标显示区域正常显示所述文本信息,
若所述文本信息的字符数量N>Nm,则将所述文本信息进行分段,第一段文本信息的字符数量为Nm,第二段文本信息的字符数量为N-Nm,
若所述第二段文本信息字符数量N-Nm>Nm,则继续对所述第二段文本信息字符进行分段,第三段文本信息字符数量为N-2ⅹNm。
具体而言,在对所述文本信息进行显示时,在文本信息的结尾字符之后的目标显示区域不再显示下一段文本信息,对某一文本信息字符为所述文本信息开始字符或者结尾字符的判定为,
所述文本信息中某一文本字符P0与下一个文本字符P1之间的时间间隔为T0,所述文本字符P1与下一个文本字符P2之间的时间间隔为T1,
当N≤Nm时,目标显示区域只显示该段文本信息,
当N>Nm时,目标显示区域根据开始字符和结束字符对文本信息进行分段,开始字符和结束字符的判定为,
所述文本信息中某一文本字符P0与下一个文本字符P1之间的时间间隔为T0,所述文本字符P1与下一个文本字符P2之间的时间间隔为T1,
若T1/T0≥2,则文本字符P1为所述文本信息的一个结尾字符,P2为所述文本信息的一个开始字符,
若T1/T0<2,则文本字符P1和文本字符P2均不是开始字符或结尾字符。
具体而言,本发明实施例通过对比文本字符间的时间间隔与下一时间间隔的比例关系确定文本字符属性,即是否为开始字符或者结尾字符,而不是直接采用固定的时间间隔来确定文本字符属性,固定的时间间隔会受到不同的声音语境和声音语速的影响,而造成文本字符属性的判断不准确,采用对比文本字符间的时间间隔与下一时间间隔的比例关系来确定文本字符属性提高了确定文本字符属性的准确性,提高了电视机的观看体验。
具体而言,在对所述文本信息进行显示时,所述文本信息在目标显示区域的显示时间为,
若所述文本信息的字符数量N1≤Nm,则所述显示时间为所述文本信息的开始字符和结尾字符之间的时间间隔T2,
若所述文本信息的字符数量N2满足Nm<N2≤2ⅹNm,则将该段文本信息分为两次显示,第一次显示的文本信息字符数量为Nm,第二次显示的文本信息字符数量为N2-Nm,第一次文本信息在所述目标显示区域的显示时间为T3ⅹNm/N2,第二次文本信息在所述目标显示区域的显示时间为T3ⅹ(N2-Nm)/N2,T3为所述文本信息的开始字符和结尾字符之间的时间间隔,
若所述文本信息的字符数量N3满足2ⅹNm<N3≤3ⅹNm,则将该段文本信息分为三次显示,则第一次显示的文本信息字符数量为Nm,第二次显示的文本信息字符数量为Nm,第三次显示的文本信息字符数量为N3-2ⅹNm,第一次显示的文本信息和第二次显示的文本信息在所述目标显示区域的显示时间相同,均为T4ⅹNm/N3,第三次显示的文本信息在所述目标显示区域的显示时间为T4ⅹ(N3-2ⅹNm)/N3,T4为该段文本信息的开始字符和结尾字符之间的时间间隔。
具体而言,本发明实施例通过对目标显示区域内字幕信息的显示时间进行控制,不同的声音识别后生成的文本信息具有不同的显示时间,不同的时间显示由声音信息决定,使得文本信息在目标显示区域显示更加贴合语境,提高了观看体验。
具体而言,在显示屏上目标显示区域显示非人声信息转化来的文本信息时,目标显示区域直接对非人声信息的种类信息进行显示,所述种类信息包括音乐声、动物叫声和自然声。
具体而言,在显示屏上目标显示区域显示文本信息时,对目标显示区域的视频图像颜色进行识别判定,
若目标显示区域的视频图像颜色为白色,则将所述显示文本信息颜色设置为蓝色,
若目标显示区域的视频图像颜色不为白色,则将所述显示文本信息颜色设置为白色。
请参阅图2所示,本发明实施例还提供应用于基于视频图像识别的并行信号处理方法的基于视频图像识别的并行信号处理系统,该系统包括:
接收模块210,用以接收视频图像信息;
识别模块220,用以对所述视频图像的图像信息和声音信息进行识别;
转化模块230,用以对识别之后的声音信息转化为文本信息;
显示模块230,用以对所述文本信息进行显示。
具体而言,所述识别模块包括第一识别单元和第二识别单元,所述第一识别单元用以对所述视频图像目标显示区域的字幕信息进行识别,所述第二识别单元用以对所述视频图像的声音信息进行识别。
具体而言,所述第二识别单元包括深度学习神经网络和声学模型,所述深度学习神经网络用以对声音信息进行编码,得到编码信息,所述声学模型用以对所述编码信息进行解码,得到解码信息。
具体而言,所述转化模块中含有语言模型,用以对所述解码信息进行输出为文本信息。
具体而言,所述显示模块设置有最大文本字符数值Nm和文本信息的显示时间,用以对文本信息的显示数量和显示时间进行限制。
请参阅图3所示,本发明实施例提供的基于视频图像识别的并行信号处理系统的目标显示区域的位置在显示屏310的底部位置区域320,
所述显示屏310的长度为L,宽度为W,
所述目标显示区域320的长度为0.8ⅹL,宽度为0.125ⅹW,
所述目标显示区域320的底边距显示屏310的底边的距离为0.07ⅹW,
所述目标显示区域320在长度方向上位于显示屏310长度方向的居中位置。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
以上所述仅为本发明的优选实施例,并不用于限制本发明;对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于视频图像识别的并行信号处理方法,其特征在于,包括:
接收视频图像信息;
对所述视频图像在目标显示区域的字幕信息和视频图像的声音信息进行识别,若在目标显示区域未能识别出文本信息,则判定所述视频图像不含字幕信息;
对识别之后的声音信息转化为文本信息,若在目标显示区域识别出文本信息,则将所述文本信息与所述声音信息识别之后的文本字符进行对比,当所述文本信息与所述声音信息识别之后的文本字符匹配度≥80%时,判定所述文本信息为字幕信息,当所述文本信息与所述声音信息识别之后的文本字符匹配度<80%时,判定所述文本信息不为字幕信息;
在显示屏上目标显示区域显示所述文本信息。
2.根据权利要求1所述的基于视频图像识别的并行信号处理方法,其特征在于,在对所述视频图像的声音信息进行识别时,通过深度学习神经网络、声学模型和语言模型对所述声音信息进行识别转化,所述深度学习神经网络用以对声音信息进行编码,得到编码信息,所述声学模型用以对所述编码信息进行解码,得到解码信息,所述语言模型用以对所述解码信息进行识别并输出为文本信息,所述语言模型不仅能够将所述解码信息输出,还能够记录输出文本信息的文本字符间的时间间隔,
在所述深度学习神经网络对声音信息进行编码时,对所述声音信息的声音特征进行提取,并将所述声音特征与第一目标声音特征库进行匹配度对比,
若所述声音特征与第一目标声音特征库的匹配度≥80%,则判定所述声音特征为人声特征。
3.根据权利要求2所述的基于视频图像识别的并行信号处理方法,其特征在于,若所述声音特征与第一目标声音特征库的匹配度<80%,则判定所述声音特征为非人声特征,
所述深度学习神经网络对人声信息正常解码,对非人声特征进一步根据与第二目标声音特征库、第三目标声音特征库和第四目标声音特征库的匹配度进行对比,
若所述非人声特征与第二目标声音特征库的匹配度≥80%,则判定所述声音特征为音乐声音特征,
若所述非人声特征与第三目标声音特征库的匹配度≥80%,则判定所述声音特征为动物声音特征,
若所述非人声特征与第四目标声音特征库的匹配度≥80%,则判定所述声音特征为自然声音特征。
4.根据权利要求3所述的基于视频图像识别的并行信号处理方法,其特征在于,在显示屏上目标显示区域显示所述文本信息时,所述目标显示区域设置有最大文本字符数值Nm和文本信息的显示时间,所述最大文本字符数值Nm用以对目标显示区域的文本信息的字符数值进行限制,所述显示时间用以对目标显示区域的文本信息进行时间限制。
5.根据权利要求4所述的基于视频图像识别的并行信号处理方法,其特征在于,在对所述文本信息进行显示时,所述文本信息只在目标显示区域进行显示,
若所述文本信息的字符数量N≤Nm,则目标显示区域正常显示所述文本信息,
若所述文本信息的字符数量N>Nm,则将所述文本信息进行分段,第一段文本信息的字符数量为Nm,第二段文本信息的字符数量为N-Nm,
若所述第二段文本信息字符数量N-Nm>Nm,则继续对所述第二段文本信息字符进行分段,第三段文本信息字符数量为N-2ⅹNm。
6.根据权利要求5所述的基于视频图像识别的并行信号处理方法,其特征在于,在对所述文本信息进行显示时,在文本信息的结尾字符之后的目标显示区域不再显示下一段文本信息,对某一文本信息字符为所述文本信息开始字符或者结尾字符的判定为,
所述文本信息中某一文本字符P0与下一个文本字符P1之间的时间间隔为T0,所述文本字符P1与下一个文本字符P2之间的时间间隔为T1,
当N≤Nm时,目标显示区域只显示该段文本信息,
当N>Nm时,目标显示区域根据开始字符和结束字符对文本信息进行分段,开始字符和结束字符的判定为,
若T1/T0≥2,则文本字符P1为所述文本信息的一个结尾字符,P2为所述文本信息的一个开始字符,
若T1/T0<2,则文本字符P1和文本字符P2均不是开始字符或结尾字符。
7.根据权利要求6所述的基于视频图像识别的并行信号处理方法,其特征在于,在对所述文本信息进行显示时,所述文本信息在目标显示区域的显示时间为,
若所述文本信息的字符数量N1≤Nm,则所述显示时间为所述文本信息的开始字符和结尾字符之间的时间间隔T2,
若所述文本信息的字符数量N2满足Nm<N2≤2ⅹNm,则将该段文本信息分为两次显示,第一次显示的文本信息字符数量为Nm,第二次显示的文本信息字符数量为N2-Nm,第一次文本信息在所述目标显示区域的显示时间为T3ⅹNm/N2,第二次文本信息在所述目标显示区域的显示时间为T3ⅹ(N2-Nm)/N2,T3为所述文本信息的开始字符和结尾字符之间的时间间隔,
若所述文本信息的字符数量N3满足2ⅹNm<N3≤3ⅹNm,则将该段文本信息分为三次显示,则第一次显示的文本信息字符数量为Nm,第二次显示的文本信息字符数量为Nm,第三次显示的文本信息字符数量为N3-2ⅹNm,第一次显示的文本信息和第二次显示的文本信息在所述目标显示区域的显示时间相同,均为T4ⅹNm/N3,第三次显示的文本信息在所述目标显示区域的显示时间为T4ⅹ(N3-2ⅹNm)/N3,T4为该段文本信息的开始字符和结尾字符之间的时间间隔,
在显示屏上目标显示区域显示非人声特征转化来的文本信息时,目标显示区域直接对非人声特征的种类信息进行显示,所述种类信息包括音乐声、动物叫声和自然声,
在显示屏上目标显示区域显示文本信息时,对目标显示区域的视频图像颜色进行识别判定,
若目标显示区域的视频图像颜色为白色,则将所述显示文本信息颜色设置为蓝色,
若目标显示区域的视频图像颜色不为白色,则将所述显示文本信息颜色设置为白色。
8.一种应用于权利要求1-7任一所述的基于视频图像识别的并行信号处理方法的基于视频图像识别的并行信号处理系统,其特征在于,包括:
接收模块,用以接收视频图像信息;
识别模块,用以对所述视频图像的图像信息和声音信息进行识别;
转化模块,用以对识别之后的声音信息转化为文本信息;
显示模块,用以对所述文本信息进行显示。
9.根据权利要求8所述的基于视频图像识别的并行信号处理系统,其特征在于,所述识别模块包括第一识别单元和第二识别单元,所述第一识别单元用以对所述视频图像目标显示区域的字幕信息进行识别,所述第二识别单元用以对所述视频图像的声音信息进行识别,
所述第二识别单元包括深度学习神经网络和声学模型,所述深度学习神经网络用以对声音信息进行编码,得到编码信息,所述声学模型用以对所述编码信息进行解码,得到解码信息。
10.根据权利要求9所述的基于视频图像识别的并行信号处理系统,其特征在于,所述转化模块中含有语言模型,用以对所述解码信息进行输出为文本信息,
所述显示模块设置有最大文本字符数值Nm和文本信息的显示时间,用以对文本信息的显示数量和显示时间进行限制。
CN202310226634.8A 2023-03-10 2023-03-10 基于视频图像识别的并行信号处理方法及系统 Active CN116233540B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310226634.8A CN116233540B (zh) 2023-03-10 2023-03-10 基于视频图像识别的并行信号处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310226634.8A CN116233540B (zh) 2023-03-10 2023-03-10 基于视频图像识别的并行信号处理方法及系统

Publications (2)

Publication Number Publication Date
CN116233540A true CN116233540A (zh) 2023-06-06
CN116233540B CN116233540B (zh) 2024-04-02

Family

ID=86578487

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310226634.8A Active CN116233540B (zh) 2023-03-10 2023-03-10 基于视频图像识别的并行信号处理方法及系统

Country Status (1)

Country Link
CN (1) CN116233540B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008141539A1 (fr) * 2007-05-17 2008-11-27 Huawei Technologies Co., Ltd. Procédé d'affichage de légendes, système et appareil de communication vidéo
CN102148939A (zh) * 2010-02-09 2011-08-10 佛山市南海海信多媒体技术有限公司 一种实时显示电视节目字幕的方法、装置及其电视机
CN103886025A (zh) * 2014-02-22 2014-06-25 小米科技有限责任公司 网页中图片的显示方法和装置
CN107864410A (zh) * 2017-10-12 2018-03-30 庄世健 一种多媒体数据处理方法、装置、电子设备以及存储介质
CN111901615A (zh) * 2020-06-28 2020-11-06 北京百度网讯科技有限公司 直播视频的播放方法和装置
CN111968649A (zh) * 2020-08-27 2020-11-20 腾讯科技(深圳)有限公司 一种字幕纠正方法、字幕显示方法、装置、设备及介质
WO2021217769A1 (zh) * 2020-04-27 2021-11-04 平安科技(深圳)有限公司 基于情绪识别的答复方法、装置、计算机设备及存储介质
CN114999463A (zh) * 2022-08-01 2022-09-02 深译信息科技(珠海)有限公司 语音识别方法、装置、设备及介质
CN115457565A (zh) * 2022-09-13 2022-12-09 北京中电汇智科技有限公司 一种ocr文字识别方法、电子设备及存储介质
CN115474088A (zh) * 2022-09-07 2022-12-13 腾讯音乐娱乐科技(深圳)有限公司 一种视频处理方法、计算机设备及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008141539A1 (fr) * 2007-05-17 2008-11-27 Huawei Technologies Co., Ltd. Procédé d'affichage de légendes, système et appareil de communication vidéo
CN102148939A (zh) * 2010-02-09 2011-08-10 佛山市南海海信多媒体技术有限公司 一种实时显示电视节目字幕的方法、装置及其电视机
CN103886025A (zh) * 2014-02-22 2014-06-25 小米科技有限责任公司 网页中图片的显示方法和装置
CN107864410A (zh) * 2017-10-12 2018-03-30 庄世健 一种多媒体数据处理方法、装置、电子设备以及存储介质
WO2021217769A1 (zh) * 2020-04-27 2021-11-04 平安科技(深圳)有限公司 基于情绪识别的答复方法、装置、计算机设备及存储介质
CN111901615A (zh) * 2020-06-28 2020-11-06 北京百度网讯科技有限公司 直播视频的播放方法和装置
CN111968649A (zh) * 2020-08-27 2020-11-20 腾讯科技(深圳)有限公司 一种字幕纠正方法、字幕显示方法、装置、设备及介质
CN114999463A (zh) * 2022-08-01 2022-09-02 深译信息科技(珠海)有限公司 语音识别方法、装置、设备及介质
CN115474088A (zh) * 2022-09-07 2022-12-13 腾讯音乐娱乐科技(深圳)有限公司 一种视频处理方法、计算机设备及存储介质
CN115457565A (zh) * 2022-09-13 2022-12-09 北京中电汇智科技有限公司 一种ocr文字识别方法、电子设备及存储介质

Also Published As

Publication number Publication date
CN116233540B (zh) 2024-04-02

Similar Documents

Publication Publication Date Title
CN108347646B (zh) 多媒体内容播放方法和装置
US7013273B2 (en) Speech recognition based captioning system
JP4488091B2 (ja) 電子機器、映像コンテンツ編集方法及びプログラム
JP2007504495A (ja) 音響信号の演奏を制御する方法と装置
US8582804B2 (en) Method of facial image reproduction and related device
US20020069055A1 (en) Apparatus and method for automatically generating punctuation marks continuous speech recognition
MXPA06013573A (es) Sistema y metodo para generar subtitulacion.
CN110796140B (zh) 一种字幕检测方法和装置
JP2011250100A (ja) 画像処理装置および方法、並びにプログラム
CN114157920B (zh) 一种展示手语的播放方法、装置、智能电视及存储介质
JP2007101945A (ja) 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム
JP3873926B2 (ja) 字幕挿入方法、字幕挿入システム、および字幕挿入プログラム
CN111079423A (zh) 一种听写报读音频的生成方法、电子设备及存储介质
KR100636386B1 (ko) 실시간 비디오 음성 더빙 장치 및 그 방법
JP2012512424A (ja) 音声合成のための方法および装置
CN117596433B (zh) 一种基于时间轴微调的国际中文教学视听课件编辑系统
CN116233540B (zh) 基于视频图像识别的并行信号处理方法及系统
US8553855B2 (en) Conference support apparatus and conference support method
JP4934090B2 (ja) 番組登場人物抽出装置及び番組登場人物抽出プログラム
JP2010124391A (ja) 情報処理装置、機能設定方法及び機能設定プログラム
CN112235183B (zh) 通信消息处理方法、设备及即时通信客户端
JP2009130411A (ja) 字幕監視装置及び字幕監視プログラム
KR20150055921A (ko) 동영상 재생 제어 방법 및 장치
JP2004080069A (ja) テレビジョン受像機
CN114444982B (zh) 基于互联网教育的教学质量监控系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant