CN111385645A - 一种基于语音识别的视频文件截取方法 - Google Patents

一种基于语音识别的视频文件截取方法 Download PDF

Info

Publication number
CN111385645A
CN111385645A CN202010308387.2A CN202010308387A CN111385645A CN 111385645 A CN111385645 A CN 111385645A CN 202010308387 A CN202010308387 A CN 202010308387A CN 111385645 A CN111385645 A CN 111385645A
Authority
CN
China
Prior art keywords
video
audio
text data
intercepting
instruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010308387.2A
Other languages
English (en)
Inventor
耿奎
陈海清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202010308387.2A priority Critical patent/CN111385645A/zh
Publication of CN111385645A publication Critical patent/CN111385645A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440236Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by media transcoding, e.g. video is transformed into a slideshow of still pictures, audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments

Abstract

本发明涉及一种基于语音识别的视频文件截取方法,接收视频截取语音指令,根据视频截取语音指令控制视频文件的播放,并且,在视频文件播放过程中,按照预设的时间段,提取视频文件每一个预设的时间段内的音频数据,对音频数据进行语音识别,得到音频文本数据,将音频文本数据输入至预设的音频关键字数据库,根据判断该音频文本数据是否存在音频关键字数据库中的音频关键字所对应的时刻在视频文件中的进度,截取得到该进度之前预设长度的视频片段,得到目标视频片段,最后输出目标视频片段。该视频文件截取方法能够进行视频片段的自动截取,相较于人工截取方法,降低了人工成本,避免浪费人力以及操作人员的时间,而且,能够提升视频截取准确性。

Description

一种基于语音识别的视频文件截取方法
技术领域
本发明涉及一种基于语音识别的视频文件截取方法。
背景技术
目前,视频处理技术的应用越来越广泛。很多场景下,需要将一个视频文件中涉及到相关信息的一小段视频或者多个小段视频截取出来,以便于后续使用。常规的视频截取方法为人工截取的方式,操作人员观看该视频文件,当获知某一视频片段包含相关信息的时候,人工截取这一视频片段,这种视频截取方法需要操作人员专门坐在电脑旁对视频文件进行观看和人工截取,费时费力,而且,很容易出现因疏忽而忘记截取其中部分视频片段的情况,视频截取准确性较低。
发明内容
本发明的目的在于提供一种基于语音识别的视频文件截取方法,用于解决人工对视频文件进行截取的方法的准确性较低的问题。
为了解决上述问题,本发明采用以下技术方案:
一种基于语音识别的视频文件截取方法,包括:
接收视频截取语音指令;
对所述视频截取语音指令进行语音识别,得到截取指令文本数据;
将所述截取指令文本数据输入到预设的视频截取指令专用词典进行比对,若所述截取指令文本数据中存在所述视频截取指令专用词典中的至少一个词语,则判定所述截取指令文本数据为有效文本数据;
将所述有效文本数据转换为视频截取控制指令;
根据所述视频截取控制指令,启动视频播放应用,以对预先设置的视频文件进行播放;
在所述视频文件播放过程中,按照预设的时间段,提取所述视频文件每一个所述预设的时间段内的音频数据;
对所述音频数据进行语音识别,得到音频文本数据;
将所述音频文本数据输入至预设的音频关键字数据库,判断所述音频文本数据中是否存在所述音频关键字数据库中的至少一个音频关键字;
若所述音频文本数据中存在所述音频关键字数据库中的至少一个音频关键字,则记录所述判断所述音频文本数据中是否存在所述音频关键字数据库中的至少一个音频关键字的时刻在所述视频文件中的进度,截取所述进度之前预设长度的视频片段,得到目标视频片段;
输出所述目标视频片段。
优选地,所述将所述截取指令文本数据输入到预设的视频截取指令专用词典进行比对,包括:
将所述视频截取指令专用词典中的各个词语分别与所述截取指令文本数据进行比对,得到所述截取指令文本数据中是否存在所述视频截取指令专用词典中的词语。
优选地,所述视频截取指令专用词典中的词语包括截取。
优选地,所述视频截取指令专用词典中的词语还包括与截取相关的词语。
优选地,所述预设的时间段等于所述视频文件的时长与预设分段数的比值。
优选地,所述预设长度对应的时长小于或者等于所述预设的时间段。
本发明的有益效果为:当需要对视频文件进行截取,以得到某一段或者某几段的视频片段时,说出视频截取语音指令,将该视频截取语音指令进行语音识别,得到截取指令文本数据,然后根据预设的视频截取指令专用词典对该截取指令文本数据进行验证,若截取指令文本数据中存在视频截取指令专用词典中的至少一个词语,则判定该截取指令文本数据为有效文本数据,即为有效的截取指令,将有效文本数据转换为视频截取控制指令,根据视频截取控制指令,启动视频播放应用,以对预先设置的视频文件进行播放,通过这种语音识别控制启动视频播放的方式,相较于传统的点击视频文件控制启动视频播放的方式,智能化程度得到很大的提升,而且无需动作操作,提升控制便捷性;在视频文件播放过程中,按照预设的时间段,提取视频文件每一个预设的时间段内的音频数据,对音频数据进行语音识别,得到音频文本数据,将音频文本数据输入至预设的音频关键字数据库,根据该音频关键字数据库判断音频文本数据中是否存在音频关键字数据库中的音频关键字,若音频文本数据中存在音频关键字数据库中的音频关键字,表示该音频数据对应的视频片段包含所要求的截取的视频片段,根据判断音频文本数据中是否存在音频关键字数据库中的音频关键字的时刻在视频文件中的进度,截取该进度之前预设长度的视频片段,得到目标视频片段,即所要求的截取的视频片段。因此,本发明提供的视频文件截取方法基于语音识别技术,根据语音识别得到的文本数据中存在的相关音频关键字进行视频片段的自动截取,相较于常规的人工截取方法,无需专门设置操作人员在旁观看,也无需操作人员人工截取各个视频片段,降低了人工成本,毫无费时费力,而且,该自动截取方式能够避免因人为因素,比如观看疏忽而出现的忘记截取部分视频片段的现象,进而提升视频截取准确性和可靠性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍:
图1是基于语音识别的视频文件截取方法的流程示意图;
图2是视频文件播放过程对应的时间轴示意图。
具体实施方式
本实施例提供一种基于语音识别的视频文件截取方法,该视频文件截取方法的执行主体可以为台式电脑、笔记本电脑、智能移动终端等。由于需要获取到语音信号,因此,执行主体上需要设置有麦克风等语音采集设备,比如笔记本电脑或者智能移动终端自带的麦克风。由于需要进行视频文件播放,因此,执行主体中需要安装有视频播放应用,比如目前一些主流的视频播放软件程序,若安装多个视频播放应用,则指定其中一个视频播放应用作为视频文件的默认播放软件,在后续控制时启动该视频播放应用。
如图1所示,视频文件截取方法包括以下步骤:
接收视频截取语音指令:
执行主体中存储有预设的视频文件,即需要截取的视频文件。预先设置的视频文件的时长以及视频内容由实际需要进行设置。
当需要对视频文件进行截取时,操作人员说出视频截取语音指令。执行主体自带的麦克风或者执行主体配设的麦克风获取到操作人员的视频截取语音指令。
对所述视频截取语音指令进行语音识别,得到截取指令文本数据:
执行主体中内置有现有的语音识别算法,根据该语音识别算法将获取到的视频截取语音指令进行语音识别,得到截取指令文本数据,即将语音信号识别为对应的文本数据。
将所述截取指令文本数据输入到预设的视频截取指令专用词典进行比对,若所述截取指令文本数据中存在所述视频截取指令专用词典中的至少一个词语,则判定所述截取指令文本数据为有效文本数据:
执行主体中预设有一个视频截取指令专用词典,该视频截取指令专用词典包含至少一个词语,各个词语均为对视频文件进行截取的控制指令的相关词语,作为一个具体实施方式,视频截取指令专用词典中的词语包括“截取”,进一步地,还可以包括与“截取”相关的词语,比如“分割”等。
将截取指令文本数据输入到该视频截取指令专用词典进行比对,本实施例给出一种实现过程,将视频截取指令专用词典中的各个词语分别与截取指令文本数据进行比对,也就是说,对于视频截取指令专用词典中的任意一个词语,将该词语输入到截取指令文本数据中,判断截取指令文本数据中是否存在该词语。最终,判断得到截取指令文本数据中是否存在视频截取指令专用词典中的词语。
若截取指令文本数据中存在视频截取指令专用词典中的至少一个词语,即截取指令文本数据中存在视频截取指令专用词典中的词语,那么,判定截取指令文本数据为有效文本数据,即视频截取语音指令为有效的截取指令。
将所述有效文本数据转换为视频截取控制指令:
将得到的有效文本数据转换为视频截取控制指令,即转换为与视频截取控制指令对应的电控信号,比如一特定位数的数据串。
根据所述视频截取控制指令,启动视频播放应用,以对预先设置的视频文件进行播放:
根据得到的视频截取控制指令,控制启动已安装或者默认的视频播放应用,视频播放应用启动后播放预先设置的视频文件。
在所述视频文件播放过程中,按照预设的时间段,提取所述视频文件每一个所述预设的时间段内的音频数据:
预设有一个时间段,该时间段可以直接设定,也可以根据视频文件的时长进行确定,比如:视频文件的时长越长,该时间段设置的相对长一些。
通俗点讲,视频文件包括音频数据以及视频画面。即,视频文件对应有音频数据,将视频文件的音频数据按照预设的时间段进行划分,提取每一个预设的时间段内的音频数据,即,在视频文件播放过程中,每持续播放一个时间段,提取该时间段内的音频数据,假设预设的时间段为10s,则在视频文件播放过程中,每持续播放10s,就提取该10s内的音频数据。或者,随着视频文件的播放,同步提取音频数据,直至持续提取10s的音频数据,对这10s的音频数据进行后续处理,接着提取下一个10s的音频数据,以此类推。
本实施例中,预设的时间段与视频文件的时长存在一定的关系,即时间段等于视频文件的时长与预设分段数的比值,可以理解为将视频文件等分为预设分段数,得到预设分段数的子视频段,每一个子视频段的长度就是预设的时间段,那么,提取各个子视频段的音频数据,得到各个预设的时间段的音频数据。举例来说,视频文件的时长为1min,预设分段数为6,即将视频文件等分为6个子视频段,每一个子视频段的长度,即时间段为1min/6,等于10s。
对所述音频数据进行语音识别,得到音频文本数据:
通过提取,能够得到多个(即至少两个)预设时间段的音频数据,在得到任意一个时间段的音频数据时,对该时间段的音频数据进行处理。以下以其中任意一个时间段的音频数据为例进行说明,其他各时间段的音频数据的处理过程与此相同。
根据内置的语音识别算法对该时间段的音频数据进行语音识别,得到音频文本数据,即将该时间段的语音信号识别为对应的文本数据。
将所述音频文本数据输入至预设的音频关键字数据库,判断所述音频文本数据中是否存在所述音频关键字数据库中的至少一个音频关键字:
执行主体中预设有一个音频关键字数据库,音频关键字数据库中包含有一定量的音频关键字(即包括至少一个音频关键字),该音频关键字数据库中的音频关键字的个数以及音频关键字的具体类型可以根据实际需要(比如视频截取目的)进行专门设置,比如:将所需的关键字集合成为音频关键字数据库,该所需的关键字由实际需要进行设置,可以是不同种类的关键字,或者该音频关键字数据库中的音频关键字均是相同种类的关键字,这些相同种类的关键字表示某一个种类的对象。本实施例中,音频关键字数据库中的音频关键字为同种类型的关键字,即各音频关键字均为同种类型,比如均为植物的关键字,那么,音频关键字数据库包含的各个音频关键字均为各种植物的名字,比如:杨树、柳树、牡丹、月季等等。作为一个具体实施方式,为了便于建立音频关键字数据库,音频关键字数据库包含的各个音频关键字为较为常见的植物的名字,各常见的植物的名字的划分由实际需要进行设置。
将获取到的音频文本数据输入至预设的音频关键字数据库,判断音频文本数据中是否存在音频关键字数据库中的至少一个音频关键字,即是否存在音频关键字数据库中包含的音频关键字。本实施例中,给出一种具体的判断方式:将音频关键字数据库中的各个音频关键字分别与该音频文本数据进行比对,判断音频关键字数据库中的各个音频关键字是否存在于该音频文本数据中,若音频关键字数据库中的至少一个音频关键字存在于该音频文本数据中,判定音频文本数据中存在音频关键字数据库中的至少一个音频关键字;若音频关键字数据库中的所有的音频关键字均不存在于该音频文本数据中,判定音频文本数据中不存在音频关键字数据库中的音频关键字。
接上文举例:音频关键字数据库中的各音频关键字均为常见植物的名字,若音频文本数据为“xxxx地区的xxx河边种植有杨树xxxx公园种植有牡丹xxxx”,将音频文本数据“xxxx地区的xxx河边种植有杨树xxxx公园种植有牡丹xxxx”输入至音频关键字数据库,判断得到该音频文本数据中存在于音频关键字数据库中的音频关键字为“杨树”和“牡丹”,判定该音频文本数据中存在音频关键字数据库中的至少一个音频关键字。
若所述音频文本数据中存在所述音频关键字数据库中的至少一个音频关键字,则记录所述判断所述音频文本数据中是否存在所述音频关键字数据库中的至少一个音频关键字的时刻在所述视频文件中的进度,截取所述进度之前预设长度的视频片段,得到目标视频片段:
若音频文本数据中存在音频关键字数据库中的至少一个音频关键字,则记录并得到判断该音频文本数据中是否存在音频关键字数据库中的至少一个音频关键字的时刻在视频文件中的进度,由于判断该音频文本数据中是否存在音频关键字数据库中的至少一个音频关键字所对应的时刻、对该音频数据进行语音识别所对应的时刻以及该音频数据提取完成所对应的时刻基本上相同,因此,得到的判断该音频文本数据中是否存在音频关键字数据库中的至少一个音频关键字的时刻在视频文件中的进度、对该音频数据进行语音识别的时刻在视频文件中的进度以及该音频数据提取完成的时刻在视频文件中的进度本质上是相同给的。该进度本质上是在视频文件中的某一个时间点,如图2所示,假设视频文件的时长为1min,提取到的每一个音频数据为每10s的音频数据,对于某一个音频数据而言,提取得到的该音频数据为视频文件中10s-20s的音频数据,则该音频数据提取完成的时刻为视频文件的20s时刻,即视频文件播放到20s的时刻,也就是图2中时间轴上的20s位置。相应地,对该音频数据进行语音识别的时刻以及判断该音频文本数据中是否存在音频关键字数据库中的至少一个音频关键字的时刻在该视频文件中的进度均为20s时刻,即图2中时间轴上的20s位置。
以得到的进度作为待截取的视频片段的终点,截取该进度之前预设长度的视频片段,本实施例中,预设长度对应的时长小于或者等于上文中的预设的时间段,那么,截取得到的视频片段的时长要小于或者等于上文中的子视频段的时长。举例来说:预设长度为5s,得到的进度为20s,那么,从视频文件的20s处往前截取5s长度的视频片段,即截取到的视频片段为从15s到20s的视频片段,为图2中的阴影部分长度的视频片段,得到的视频片段为目标视频片段。
输出所述目标视频片段:
输出得到的目标视频片段,比如有线传输或者无线传输给外部相关设备,以供后续处理。
上述实施例仅以一种具体的实施方式说明本发明的技术方案,任何对本发明进行的等同替换及不脱离本发明精神和范围的修改或局部替换,其均应涵盖在本发明权利要求保护的范围之内。

Claims (6)

1.一种基于语音识别的视频文件截取方法,其特征在于,包括:
接收视频截取语音指令;
对所述视频截取语音指令进行语音识别,得到截取指令文本数据;
将所述截取指令文本数据输入到预设的视频截取指令专用词典进行比对,若所述截取指令文本数据中存在所述视频截取指令专用词典中的至少一个词语,则判定所述截取指令文本数据为有效文本数据;
将所述有效文本数据转换为视频截取控制指令;
根据所述视频截取控制指令,启动视频播放应用,以对预先设置的视频文件进行播放;
在所述视频文件播放过程中,按照预设的时间段,提取所述视频文件每一个所述预设的时间段内的音频数据;
对所述音频数据进行语音识别,得到音频文本数据;
将所述音频文本数据输入至预设的音频关键字数据库,判断所述音频文本数据中是否存在所述音频关键字数据库中的至少一个音频关键字;
若所述音频文本数据中存在所述音频关键字数据库中的至少一个音频关键字,则记录所述判断所述音频文本数据中是否存在所述音频关键字数据库中的至少一个音频关键字的时刻在所述视频文件中的进度,截取所述进度之前预设长度的视频片段,得到目标视频片段;
输出所述目标视频片段。
2.根据权利要求1所述的基于语音识别的视频文件截取方法,其特征在于,所述将所述截取指令文本数据输入到预设的视频截取指令专用词典进行比对,包括:
将所述视频截取指令专用词典中的各个词语分别与所述截取指令文本数据进行比对,得到所述截取指令文本数据中是否存在所述视频截取指令专用词典中的词语。
3.根据权利要求1所述的基于语音识别的视频文件截取方法,其特征在于,所述视频截取指令专用词典中的词语包括截取。
4.根据权利要求3所述的基于语音识别的视频文件截取方法,其特征在于,所述视频截取指令专用词典中的词语还包括与截取相关的词语。
5.根据权利要求1所述的基于语音识别的视频文件截取方法,其特征在于,所述预设的时间段等于所述视频文件的时长与预设分段数的比值。
6.根据权利要求1所述的基于语音识别的视频文件截取方法,其特征在于,所述预设长度对应的时长小于或者等于所述预设的时间段。
CN202010308387.2A 2020-05-30 2020-05-30 一种基于语音识别的视频文件截取方法 Withdrawn CN111385645A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010308387.2A CN111385645A (zh) 2020-05-30 2020-05-30 一种基于语音识别的视频文件截取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010308387.2A CN111385645A (zh) 2020-05-30 2020-05-30 一种基于语音识别的视频文件截取方法

Publications (1)

Publication Number Publication Date
CN111385645A true CN111385645A (zh) 2020-07-07

Family

ID=71218913

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010308387.2A Withdrawn CN111385645A (zh) 2020-05-30 2020-05-30 一种基于语音识别的视频文件截取方法

Country Status (1)

Country Link
CN (1) CN111385645A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113516997A (zh) * 2021-04-26 2021-10-19 常州分音塔科技有限公司 一种语音事件识别装置和方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106610772A (zh) * 2015-10-21 2017-05-03 中兴通讯股份有限公司 一种截屏的方法、装置及智能终端
CN108346034A (zh) * 2018-02-02 2018-07-31 深圳市鹰硕技术有限公司 一种会议智能管理方法及系统
CN110362204A (zh) * 2019-07-11 2019-10-22 Oppo广东移动通信有限公司 信息提示方法、装置、存储介质及增强现实设备
US20190377901A1 (en) * 2018-06-08 2019-12-12 Microsoft Technology Licensing, Llc Obfuscating information related to personally identifiable information (pii)
CN110769178A (zh) * 2019-12-25 2020-02-07 北京影谱科技股份有限公司 自动生成足球比赛射门集锦的方法、装置及设备及计算机可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106610772A (zh) * 2015-10-21 2017-05-03 中兴通讯股份有限公司 一种截屏的方法、装置及智能终端
CN108346034A (zh) * 2018-02-02 2018-07-31 深圳市鹰硕技术有限公司 一种会议智能管理方法及系统
US20190377901A1 (en) * 2018-06-08 2019-12-12 Microsoft Technology Licensing, Llc Obfuscating information related to personally identifiable information (pii)
CN110362204A (zh) * 2019-07-11 2019-10-22 Oppo广东移动通信有限公司 信息提示方法、装置、存储介质及增强现实设备
CN110769178A (zh) * 2019-12-25 2020-02-07 北京影谱科技股份有限公司 自动生成足球比赛射门集锦的方法、装置及设备及计算机可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113516997A (zh) * 2021-04-26 2021-10-19 常州分音塔科技有限公司 一种语音事件识别装置和方法

Similar Documents

Publication Publication Date Title
US7680853B2 (en) Clickable snippets in audio/video search results
US20130144618A1 (en) Methods and electronic devices for speech recognition
EP3142031B1 (en) Preset style song processing method and apparatus
CN101131691A (zh) 翻译隐藏式字幕的领域自适应便携机器翻译设备及其方法
CN111429912B (zh) 关键词检测方法、系统、移动终端及存储介质
CN103488384A (zh) 一种语音助手应用界面显示方法和装置
CN111091811A (zh) 语音训练数据的处理方法、装置及存储介质
CN111385645A (zh) 一种基于语音识别的视频文件截取方法
WO2020182042A1 (zh) 关键词样本确定方法、语音识别方法、装置、设备和介质
CN103106061A (zh) 语音输入方法和装置
CN103489444A (zh) 一种语音识别方法和装置
CN110740275A (zh) 一种非线性编辑系统
CN107885675B (zh) 一种多功能测量仪器程控命令处理方法
CN104202458A (zh) 一种自动保存联系人信息的方法和智能终端
CN104361883A (zh) 歌唱评测标准文件制作方法和装置
CN106531202A (zh) 一种音频处理方法及装置
CN116719420B (zh) 一种基于虚拟现实的用户动作识别方法及系统
CN105578297B (zh) 一种web端音视频文件片段式重复播放方法及系统
CN115101068A (zh) 一种多人对话场景下提高音频转写准确性的方法和系统
CN111464862A (zh) 一种基于语音识别和图像处理的视频截图方法
CN105551504A (zh) 一种基于哭声触发智能移动终端功能应用的方法及装置
CN106297775A (zh) 语音识别装置及方法
CN108628573B (zh) 一种支持多类型音频信号输入的方法和装置
CN106681899A (zh) 基于Jmeter的安卓UI自动化测试方法及系统
CN103928024A (zh) 一种语音查询方法及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20200707