CN111356022A - 一种基于语音识别的视频文件处理方法 - Google Patents

一种基于语音识别的视频文件处理方法 Download PDF

Info

Publication number
CN111356022A
CN111356022A CN202010308388.7A CN202010308388A CN111356022A CN 111356022 A CN111356022 A CN 111356022A CN 202010308388 A CN202010308388 A CN 202010308388A CN 111356022 A CN111356022 A CN 111356022A
Authority
CN
China
Prior art keywords
audio
video
playing
text data
video file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010308388.7A
Other languages
English (en)
Inventor
徐琼琼
陈海清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202010308388.7A priority Critical patent/CN111356022A/zh
Publication of CN111356022A publication Critical patent/CN111356022A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于语音识别的视频文件处理方法,接收视频播放语音指令,对视频播放语音指令进行语音识别,得到播放指令文本数据,将播放指令文本数据与预设的视频播放指令专用词典进行比对,确定是否为有效文本数据,若为有效文本数据,则将有效文本数据转换为视频播放控制指令,以控制启动视频播放应用,播放视频文件,在视频文件播放过程中,提取视频文件的各个视频图像帧以及视频文件的音频数据,分别对视频图像帧和音频数据进行处理,得到该视频文件的人脸图像库和音频库,最后输出人脸图像库和音频库。通过该视频文件处理方法能够有效可靠地提取出视频文件中的人脸图像以及音频关键字,实现视频文件的可靠处理,得到所需的数据信息。

Description

一种基于语音识别的视频文件处理方法
技术领域
本发明涉及一种基于语音识别的视频文件处理方法。
背景技术
目前,视频处理技术的应用越来越广泛。在视频处理领域,很多情况下需要对视频文件进行处理,获取到视频文件中的相关数据信息,现有的视频处理方法无法对视频文件进行可靠处理。
发明内容
本发明的目的在于提供一种基于语音识别的视频文件处理方法,用于解决现有的视频处理方法无法对视频文件进行可靠处理的问题。
为了解决上述问题,本发明采用以下技术方案:
一种基于语音识别的视频文件处理方法,包括:
接收视频播放语音指令;
对所述视频播放语音指令进行语音识别,得到播放指令文本数据;
将所述播放指令文本数据输入到预设的视频播放指令专用词典进行比对,若所述播放指令文本数据中存在所述视频播放指令专用词典中的至少一个词语,则判定所述播放指令文本数据为有效文本数据;
将所述有效文本数据转换为视频播放控制指令;
根据所述视频播放控制指令,启动视频播放应用,以对预先设置的视频文件进行播放;
在所述视频文件播放过程中,提取所述视频文件的各个视频图像帧以及所述视频文件的音频数据;
对于各个所述视频图像帧,提取各个所述视频图像帧包含的人脸图像;
根据提取到的各人脸图像,建立所述视频文件的人脸图像库;
将所述音频数据进行语音识别,得到音频文本数据;
将所述音频文本数据输入至预设的音频关键字数据库,提取所述音频文本数据中的目标音频关键字;
根据提取得到的各目标音频关键字,建立所述视频文件的音频库;
输出所述人脸图像库和音频库。
优选地,所述将所述播放指令文本数据输入到预设的视频播放指令专用词典进行比对,包括:
将所述视频播放指令专用词典中的各个词语分别与所述播放指令文本数据进行比对,得到所述播放指令文本数据中是否存在所述视频播放指令专用词典中的词语。
优选地,所述视频播放指令专用词典中的词语包括播放。
优选地,所述视频播放指令专用词典中的词语还包括与播放相关的词语。
优选地,所述将所述音频数据进行语音识别,得到音频文本数据,包括:
将所述音频数据进行划分,划分成至少两个音频子数据,对各个所述音频子数据分别进行语音识别,得到音频文本子数据;
相应地,将所述音频文本数据输入至预设的音频关键字数据库,提取所述音频数据中的目标音频关键字,包括:
将各个音频文本子数据输入至所述音频关键字数据库,提取各个音频文本子数据中的目标音频关键字。
优选地,所述将各个音频文本子数据输入至所述音频关键字数据库,提取各个音频文本子数据中的音频关键字,包括:
对于任意一个音频文本子数据,将所述音频关键字数据库中的各个音频关键字分别与该音频文本子数据进行比对,提取该音频文本子数据中的目标音频关键字。
本发明的有益效果为:当需要对视频文件进行处理时,说出视频播放语音指令,将该视频播放语音指令进行语音识别,得到播放指令文本数据,然后需要对播放指令文本数据进行判断,根据预设的视频播放指令专用词典进行比对,若播放指令文本数据中存在视频播放指令专用词典中的至少一个词语,则判定该播放指令文本数据为有效文本数据,将有效文本数据转换为视频播放控制指令,根据视频播放控制指令,启动视频播放应用,以对预先设置的视频文件进行播放,通过这种语音识别控制启动视频播放的方式,相较于传统的点击视频文件控制启动视频播放的方式,智能化程度得到很大的提升,而且无需动作操作,提升控制便捷性;在视频文件播放过程中,提取视频文件的各个视频图像帧以及视频文件的音频数据,分别对各个视频图像帧以及音频数据进行处理,其中,对于提取各个视频图像帧包含的人脸图像,根据提取到的各人脸图像,建立视频文件的人脸图像库;将音频数据进行语音识别,得到音频文本数据,将音频文本数据输入至预设的音频关键字数据库,提取音频数据中的目标音频关键字,根据提取得到的各目标音频关键字,建立视频文件的音频库。因此,通过本发明提供的视频文件处理方法能够有效可靠地提取出视频文件中的人脸图像以及音频关键字,实现视频文件的可靠处理,得到所需的数据信息。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍:
图1是基于语音识别的视频文件处理方法的流程示意图。
具体实施方式
本实施例提供一种基于语音识别的视频文件处理方法,该视频文件处理方法的执行主体可以为台式电脑、笔记本电脑、智能移动终端等。由于需要获取到语音信号,因此,执行主体上需要设置有麦克风等语音采集设备,比如笔记本电脑或者智能移动终端自带的麦克风。由于需要控制进行视频文件播放,因此,执行主体中需要安装有视频播放应用,比如目前一些主流的视频播放软件程序,若安装有多个视频播放应用,则指定其中一个视频播放应用作为视频文件的默认播放软件,在后续控制时启动该视频播放应用。
如图1所示,视频文件处理方法包括以下步骤:
接收视频播放语音指令:
执行主体中存储有预设的视频文件,即需要处理的视频文件。当需要对视频文件进行处理时,操作人员说出视频播放语音指令。执行主体自带的麦克风或者执行主体配设的麦克风获取到操作人员的视频播放语音指令。
对所述视频播放语音指令进行语音识别,得到播放指令文本数据:
执行主体中内置有现有的语音识别算法,根据该语音识别算法将获取到的视频播放语音指令进行语音识别,得到播放指令文本数据。
将所述播放指令文本数据输入到预设的视频播放指令专用词典进行比对,若所述播放指令文本数据中存在所述视频播放指令专用词典中的至少一个词语,则判定所述播放指令文本数据为有效文本数据:
执行主体中预设有一个视频播放指令专用词典,该视频播放指令专用词典包括至少一个词语,该视频播放指令专用词典中的各个词语均为控制视频播放的控制指令的相关词语,作为一个具体实施方式,视频播放指令专用词典中的词语包括“播放”,进一步地,还包括与“播放”相关的词语,比如“启动”、“打开”等等。
将播放指令文本数据输入到该视频播放指令专用词典进行比对,本实施例给出一种实现过程,将视频播放指令专用词典中的各个词语分别与播放指令文本数据进行比对,也就是说,对于视频播放指令专用词典中的任意一个词语,将该词语输入到播放指令文本数据中,判断播放指令文本数据中是否存在该词语。那么,最终得到播放指令文本数据中是否存在视频播放指令专用词典中的词语。
若播放指令文本数据中存在视频播放指令专用词典中的至少一个词语,即播放指令文本数据中存在视频播放指令专用词典中的词语,那么,判定播放指令文本数据为有效文本数据。
将所述有效文本数据转换为视频播放控制指令:
将得到的有效文本数据转换为视频播放控制指令,作为一个具体实施方式,视频播放控制指令可以是一特定的数据串。
根据所述视频播放控制指令,启动视频播放应用,以对预先设置的视频文件进行播放:
根据得到的视频播放控制指令,控制启动已安装或者默认的视频播放应用,视频播放应用启动后播放预先设置的视频文件。
在所述视频文件播放过程中,提取所述视频文件的各个视频图像帧以及所述视频文件的音频数据:
视频播放应用在播放视频文件过程中,本实施例中,会读取视频文件包含的各个视频图像帧,并基于各个视频图像帧的帧序号,以预设的视频播放帧率依次输出各个视频播放帧,例如,该视频播放帧率可以为60dps,即每秒输出60幅视频图像帧。
执行主体获取到视频文件的各个视频图像帧。同时,对视频文件进行音频提取处理,提取得到该视频文件的音频数据,即该视频文件的声音信号。
对于各个所述视频图像帧,提取各个所述视频图像帧包含的人脸图像:
执行主体中内置有现有的人脸识别算法,人脸识别算法会对各视频图像帧进行解析处理,提取得到各个视频图像帧包含的人脸图像。应当理解,视频图像帧中可以只有一个人,也可以有多个人,因此,对于任意一个视频图像帧,可以只包含一个人脸图像,也可以包含多个人脸图像。
根据提取到的各人脸图像,建立所述视频文件的人脸图像库:
根据提取到的各人脸图像,建立视频文件的人脸图像库,可以直接将提取到的所有的人脸图像存储在一块,构成该视频文件的人脸图像库;或者,将所有的视频图像帧进行排序,得到帧号,然后,构建与视频图像帧个数相同的数据组,各数据组包括帧号以及与该帧号相对应的视频图像帧的人脸图像,所有的数据组构成该视频文件的人脸图像库;或者,将视频文件按照时间划分成多个子时间段,比如N个子时间段,设置N个数据组,各数据组包括子时间段内的所有的视频图像帧的人脸图像,所有的数据组构成该视频文件的人脸图像库。
将所述音频数据进行语音识别,得到音频文本数据:
将获取到的该视频文件的音频数据进行语音识别,得到音频文本数据。若音频数据比较长,则为了提升识别可靠性,将音频数据进行划分,划分成至少两个音频子数据,然后,对各个音频子数据分别进行语音识别,得到对应的音频文本子数据。
将所述音频文本数据输入至预设的音频关键字数据库,提取所述音频文本数据中的目标音频关键字:
执行主体中预设有一个音频关键字数据库,音频关键字数据库为包含有一定量的音频关键字(即音频关键字数据库包括至少一个音频关键字),该音频关键字数据库中的音频关键字可以根据实际需要进行专门设置,比如:将所需的关键字集合成为音频关键字数据库,这些关键字可以是不同种类的关键字,或者该音频关键字数据库中的音频关键字均是相同种类的关键字。本实施例中,音频关键字数据库中音频关键字为同种类型的关键字,比如均为动物的关键字,那么,音频关键字数据库包含的各个音频关键字就是各种动物的名字,比如:猴子、老虎、大象、狮子等等。应当理解,为了便于建立音频关键字数据库,音频关键字数据库中的各种动物均为常见的动物。
将获取到的音频文本数据输入至预设的音频关键字数据库,提取得到音频文本数据中的存在于音频关键字数据库的音频关键字,提取到的音频关键字为目标音频关键字。接上文举例,由于音频关键字数据库中存储的是各种动物的名字,则提取音频文本数据中出现的动物名字,若音频文本数据为“xxxx市的xxx湖边出现了老虎xxxx狮子xxxx”,则提取得到音频文本数据中的动物名字,包括“老虎”和“狮子”,“老虎”和“狮子”就是目标音频关键字。
作为一个具体实施方式,由于上述中将音频数据进行划分,划分成至少两个音频子数据,然后,对各个音频子数据分别进行语音识别,得到对应的音频文本子数据。那么,在提取音频关键字时,将各个音频文本子数据分别输入至音频关键字数据库,提取得到各个音频文本子数据中的目标音频关键字。
进一步地,“将各个音频文本子数据输入至音频关键字数据库,提取各个音频文本子数据中的音频关键字”具体为:对于任意一个音频文本子数据,将音频关键字数据库中的各个音频关键字分别与该音频文本子数据进行比对,若音频关键字数据库中的音频关键字存在于该音频文本子数据中,则保留该音频关键字,最终得到该音频文本子数据中的目标音频关键字。其他的各音频文本子数据也按照上述方式进行处理,最终得到所有音频文本子数据中的目标音频关键字,进而得到音频文本数据中的目标音频关键字。
接上述举例:对各个音频子数据分别进行语音识别,得到的各音频文本子数据分别是:“xxxx市的xxx湖边出现了老虎”和“xxxx狮子xxxx”,那么,将“xxxx市的xxx湖边出现了老虎”和“xxxx狮子xxxx”分别输入至音频关键字数据库,提取得到音频文本子数据“xxxx市的xxx湖边出现了老虎”中的目标音频关键字为“老虎”,音频文本子数据“xxxx狮子xxxx”中的目标音频关键字为“狮子”,则音频文本数据中的目标音频关键字为“老虎”和“狮子”。
根据提取得到的各目标音频关键字,建立所述视频文件的音频库:
提取得到音频文本数据中的目标音频关键字之后,将所有的目标音频关键字集合起来,构成视频文件的音频库。
输出所述人脸图像库和音频库:
输出建立的人脸图像库和音频库,比如有线传输或者无线传输给外部相关设备,可以使外部设备或者相关人员根据人脸图像库和音频库进行后续处理。
上述实施例仅以一种具体的实施方式说明本发明的技术方案,任何对本发明进行的等同替换及不脱离本发明精神和范围的修改或局部替换,其均应涵盖在本发明权利要求保护的范围之内。

Claims (6)

1.一种基于语音识别的视频文件处理方法,其特征在于,包括:
接收视频播放语音指令;
对所述视频播放语音指令进行语音识别,得到播放指令文本数据;
将所述播放指令文本数据输入到预设的视频播放指令专用词典进行比对,若所述播放指令文本数据中存在所述视频播放指令专用词典中的至少一个词语,则判定所述播放指令文本数据为有效文本数据;
将所述有效文本数据转换为视频播放控制指令;
根据所述视频播放控制指令,启动视频播放应用,以对预先设置的视频文件进行播放;
在所述视频文件播放过程中,提取所述视频文件的各个视频图像帧以及所述视频文件的音频数据;
对于各个所述视频图像帧,提取各个所述视频图像帧包含的人脸图像;
根据提取到的各人脸图像,建立所述视频文件的人脸图像库;
将所述音频数据进行语音识别,得到音频文本数据;
将所述音频文本数据输入至预设的音频关键字数据库,提取所述音频文本数据中的目标音频关键字;
根据提取得到的各目标音频关键字,建立所述视频文件的音频库;
输出所述人脸图像库和音频库。
2.根据权利要求1所述的基于语音识别的视频文件处理方法,其特征在于,所述将所述播放指令文本数据输入到预设的视频播放指令专用词典进行比对,包括:
将所述视频播放指令专用词典中的各个词语分别与所述播放指令文本数据进行比对,得到所述播放指令文本数据中是否存在所述视频播放指令专用词典中的词语。
3.根据权利要求1所述的基于语音识别的视频文件处理方法,其特征在于,所述视频播放指令专用词典中的词语包括播放。
4.根据权利要求3所述的基于语音识别的视频文件处理方法,其特征在于,所述视频播放指令专用词典中的词语还包括与播放相关的词语。
5.根据权利要求1所述的基于语音识别的视频文件处理方法,其特征在于,所述将所述音频数据进行语音识别,得到音频文本数据,包括:
将所述音频数据进行划分,划分成至少两个音频子数据,对各个所述音频子数据分别进行语音识别,得到音频文本子数据;
相应地,将所述音频文本数据输入至预设的音频关键字数据库,提取所述音频数据中的目标音频关键字,包括:
将各个音频文本子数据输入至所述音频关键字数据库,提取各个音频文本子数据中的目标音频关键字。
6.根据权利要求5所述的基于语音识别的视频文件处理方法,其特征在于,所述将各个音频文本子数据输入至所述音频关键字数据库,提取各个音频文本子数据中的音频关键字,包括:
对于任意一个音频文本子数据,将所述音频关键字数据库中的各个音频关键字分别与该音频文本子数据进行比对,提取该音频文本子数据中的目标音频关键字。
CN202010308388.7A 2020-04-18 2020-04-18 一种基于语音识别的视频文件处理方法 Withdrawn CN111356022A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010308388.7A CN111356022A (zh) 2020-04-18 2020-04-18 一种基于语音识别的视频文件处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010308388.7A CN111356022A (zh) 2020-04-18 2020-04-18 一种基于语音识别的视频文件处理方法

Publications (1)

Publication Number Publication Date
CN111356022A true CN111356022A (zh) 2020-06-30

Family

ID=71194952

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010308388.7A Withdrawn CN111356022A (zh) 2020-04-18 2020-04-18 一种基于语音识别的视频文件处理方法

Country Status (1)

Country Link
CN (1) CN111356022A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113838460A (zh) * 2020-12-31 2021-12-24 京东科技控股股份有限公司 视频语音识别方法、装置、设备和存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101329867A (zh) * 2007-06-21 2008-12-24 西门子(中国)有限公司 一种语音点播方法及装置
US20150222948A1 (en) * 2012-09-29 2015-08-06 Shenzhen Prtek Co. Ltd. Multimedia Device Voice Control System and Method, and Computer Storage Medium
CN105872803A (zh) * 2015-12-30 2016-08-17 乐视网信息技术(北京)股份有限公司 对智能电视进行声控的方法和装置
CN108366281A (zh) * 2018-02-05 2018-08-03 山东浪潮商用系统有限公司 一种应用于机顶盒的全语音交互方法
CN109686365A (zh) * 2018-12-26 2019-04-26 深圳供电局有限公司 一种语音识别方法和语音识别系统
CN110418076A (zh) * 2019-08-02 2019-11-05 新华智云科技有限公司 视频集锦生成方法、装置、电子设备及存储介质
CN110782885A (zh) * 2019-09-29 2020-02-11 深圳和而泰家居在线网络科技有限公司 语音文本修正方法及装置、计算机设备和计算机存储介质
CN110942765A (zh) * 2019-11-11 2020-03-31 珠海格力电器股份有限公司 一种构建语料库的方法、设备、服务器和存储介质
CN110970029A (zh) * 2018-09-28 2020-04-07 上海博泰悦臻电子设备制造有限公司 车辆、车机设备及基于语音语义识别的车载语音交互方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101329867A (zh) * 2007-06-21 2008-12-24 西门子(中国)有限公司 一种语音点播方法及装置
US20150222948A1 (en) * 2012-09-29 2015-08-06 Shenzhen Prtek Co. Ltd. Multimedia Device Voice Control System and Method, and Computer Storage Medium
CN105872803A (zh) * 2015-12-30 2016-08-17 乐视网信息技术(北京)股份有限公司 对智能电视进行声控的方法和装置
CN108366281A (zh) * 2018-02-05 2018-08-03 山东浪潮商用系统有限公司 一种应用于机顶盒的全语音交互方法
CN110970029A (zh) * 2018-09-28 2020-04-07 上海博泰悦臻电子设备制造有限公司 车辆、车机设备及基于语音语义识别的车载语音交互方法
CN109686365A (zh) * 2018-12-26 2019-04-26 深圳供电局有限公司 一种语音识别方法和语音识别系统
CN110418076A (zh) * 2019-08-02 2019-11-05 新华智云科技有限公司 视频集锦生成方法、装置、电子设备及存储介质
CN110782885A (zh) * 2019-09-29 2020-02-11 深圳和而泰家居在线网络科技有限公司 语音文本修正方法及装置、计算机设备和计算机存储介质
CN110942765A (zh) * 2019-11-11 2020-03-31 珠海格力电器股份有限公司 一种构建语料库的方法、设备、服务器和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113838460A (zh) * 2020-12-31 2021-12-24 京东科技控股股份有限公司 视频语音识别方法、装置、设备和存储介质

Similar Documents

Publication Publication Date Title
CN110751208B (zh) 一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法
US10824664B2 (en) Method and apparatus for providing text push information responsive to a voice query request
US20240021202A1 (en) Method and apparatus for recognizing voice, electronic device and medium
CN112233698B (zh) 人物情绪识别方法、装置、终端设备及存储介质
CN112115706A (zh) 文本处理方法、装置、电子设备及介质
CN111986656B (zh) 教学视频自动字幕处理方法与系统
CN112396182B (zh) 脸部驱动模型的训练和脸部口型动画的生成方法
WO2020238045A1 (zh) 智能语音识别方法、装置及计算机可读存储介质
CN113327609A (zh) 用于语音识别的方法和装置
US11393458B2 (en) Method and apparatus for speech recognition
CN113035199B (zh) 音频处理方法、装置、设备及可读存储介质
CN108595406B (zh) 一种用户状态的提醒方法、装置、电子设备及存储介质
CN113436609B (zh) 语音转换模型及其训练方法、语音转换方法及系统
US11036996B2 (en) Method and apparatus for determining (raw) video materials for news
CN111356022A (zh) 一种基于语音识别的视频文件处理方法
CN115249479A (zh) 基于brnn的电网调度复杂语音识别方法、系统及终端
CN111062221A (zh) 数据处理方法、装置、电子设备以及存储介质
CN111414748A (zh) 话务数据处理方法及装置
CN115547345A (zh) 声纹识别模型训练及相关识别方法、电子设备和存储介质
CN111785236A (zh) 一种基于动机提取模型与神经网络的自动作曲方法
CN113889130A (zh) 一种语音转换方法、装置、设备及介质
CN111985231B (zh) 无监督角色识别方法、装置、电子设备及存储介质
CN111464862A (zh) 一种基于语音识别和图像处理的视频截图方法
CN111385645A (zh) 一种基于语音识别的视频文件截取方法
CN110648666A (zh) 一种基于会议概要提升会议转写性能的方法与系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20200630

WW01 Invention patent application withdrawn after publication