CN105825870A - 一种语音指令数据获取方法及装置 - Google Patents

一种语音指令数据获取方法及装置 Download PDF

Info

Publication number
CN105825870A
CN105825870A CN201610143886.4A CN201610143886A CN105825870A CN 105825870 A CN105825870 A CN 105825870A CN 201610143886 A CN201610143886 A CN 201610143886A CN 105825870 A CN105825870 A CN 105825870A
Authority
CN
China
Prior art keywords
data
virtual value
frame
audio
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610143886.4A
Other languages
English (en)
Other versions
CN105825870B (zh
Inventor
周子棂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Ouring Three-Dimensional Science And Technology Co Ltd
Original Assignee
Jiangsu Ouring Three-Dimensional Science And Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Ouring Three-Dimensional Science And Technology Co Ltd filed Critical Jiangsu Ouring Three-Dimensional Science And Technology Co Ltd
Priority to CN201610143886.4A priority Critical patent/CN105825870B/zh
Publication of CN105825870A publication Critical patent/CN105825870A/zh
Application granted granted Critical
Publication of CN105825870B publication Critical patent/CN105825870B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提供了一种语音指令数据获取方法及装置,属于语音识别技术领域,该语音指令数据获取方法包括:将接收到的音频数据进行分帧处理;判断当前帧的有效值是否大于预设的静音阈值,若是,更新预设的时间变量,当所更新后的时间变量是否超过第一预设时间且下一帧的有效值是大于所述静音阈值时,将所述下一帧标记为音频指令数据起点;在音频指令数据起点与第二预设时间之间的时间段内,查找第一个有效值位于预设范围内的音频数据帧,从而确定音频指令数据终点;截取所标记的音频指令数据起点至音频指令数据终点的音频数据获得音频指令数据。相对于现有的语音端点检测方法,本发明提供的语音指令数据获取方法简单易行,计算量较小。

Description

一种语音指令数据获取方法及装置
技术领域
本发明涉及语音识别技术领域,具体而言,涉及一种语音指令数据获取方法及装置。
背景技术
随着仪器设备的智能化发展,很多仪器设备例如智能手机、打印机、智能家居设备等都具有语音识别系统,可以通过语音指令控制仪器设备执行相应的动作。在语音识别系统中,语音识别的开启可以通过外部输入指令的方式,也可以直接通过语音唤醒的方式,即系统持续检测外部声音,当判定到有用户说话即用户发出语音指令时启动识别。对于直接通过语音唤醒的来开启识别的方式,能否正确快速的从背景噪音中截取有效的语音指令数据,是语音识别系统的可靠性的重要保障。
发明内容
本发明的目的在于提供一种语音端点检测方法及装置,能够有效地识别接收到的音频数据中的语音指令数据起点和语音指令数据终点,进而根据语音指令数据起点和语音指令数据终点从接收到的音频数据中截取出所需要识别的语音指令数据。
第一方面,本发明实施例提供的一种语音指令数据获取方法,所述方法包括:将接收到的音频数据进行分帧处理,将每一帧音频数据压缩为一个有效值;判断当前帧的有效值是否大于预设的静音阈值,若是,更新预设的时间变量,判断所更新后的时间变量是否超过第一预设时间,若是,判断下一帧的有效值是否大于所述静音阈值,若是,将所述下一帧标记为音频指令数据起点;在所述音频指令数据起点与第二预设时间之间的时间段内,查找所述音频指令数据起点之后的音频数据帧中第一个有效值位于预设范围内的音频数据帧,并根据所查找到的音频数据帧确定音频指令数据终点;截取所标记的所述音频指令数据起点至所述音频指令数据终点的音频数据获得音频指令数据。
第二方面,本发明实施例还提供了一种语音指令数据获取装置,所述语音指令数据获取装置包括:有效值获取单元,用于将接收到的音频数据进行分帧处理,将每一帧音频数据压缩为一个有效值;起点标记单元,用于判断当前帧的有效值是否大于预设的静音阈值,若是,更新预设的时间变量,判断所更新后的时间变量是否超过第一预设时间,若是,判断下一帧的有效值是否大于所述静音阈值,若是,将所述下一帧标记为音频指令数据起点;终点标记单元,用于在所述音频指令数据起点与第二预设时间之间的时间段内,查找所述音频指令数据起点之后的音频数据帧中第一个有效值位于预设范围内的音频数据帧,并根据所查找到的音频数据帧确定音频指令数据终点;音频指令数据获取单元,用于截取所标记的所述音频指令数据起点至所述音频指令数据终点的音频数据获得音频指令数据。
本发明实施例提供的语音指令数据获取方法及装置,设置了第一预设时间和第二预设时间,其中,第一预设时间根据语音识别系统中的最短语音指令数据的时间长度设置,第二预设时间根据语音识别系统中的最长语音指令数据的时间长度设置。当在时间上连续的有效值均高于静音阈值的多个音频数据帧组成的数据段所持续的时间大于等于第一预设时间小于等于第二预设时间时,判定所述数据段为前景音,即为本发明实施例所需要提取的语音指令数据,分别标记所述数据段的起点作为音频指令数据起点,标记所述音频帧数据段的终点作为音频指令数据终点,根据所标记的语音指令数据起点和语音指令数据终点就可以从读取的音频数据中截取出所需要识别的语音指令数据。本发明实施例提供的语音指令数据获取方法有效地提高了包含语音识别系统的电子设备在复杂环境中长时间、无规律间断工作的可靠性,相对于现有的语音端点检测方法,例如门限检测方法等,简单易行,计算量较小。
此外,本发明实施例中,静音阈值是根据外部环境中的背景噪音设置的,当前帧音频数据的有效值小于预设的静音阈值时,或者是当在时间上连续的有效值均高于静音阈值的多个音频数据帧组成的数据段所持续的时间大于第二预设时间时,根据预设的静音阈值计算模型对静音阈值进行更新,使得静音阈值具有自适应性,能够根据环境背景噪音的变化时刻发生变化。例如,当外部环境中突然开始播放歌曲,静音阈值则根据当前采集到的音频数据进行更新,有效地保证了所获取的语音指令数据的可靠性。
本发明的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明实施例了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。通过附图所示,本发明的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图,重点在于示出本发明的主旨。
图1为本发明较佳实施例提供的电子设备的方框示意图;
图2为本发明较佳实施例提供的应用于图1所示的电子设备的一种语音指令数据获取方法的流程图;
图3为本发明较佳实施例提供的应用于图1所示的电子设备的一种语音指令数据获取方法中确定音频指令数据终点的方法流程图;
图4为本发明较佳实施例提供的一种语音指令数据获取装置的功能模块示意图;
图5为本发明较佳实施例提供的另一种语音指令数据获取装置的功能模块示意图;
图6为本发明较佳实施例提供的一种语音指令数据获取装置的终点标记单元的功能模块示意图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
本发明实施例提供的语音指令数据获取方法及装置应用于包含有语音识别系统的电子设备100。例如,所述电子设备100可以为打印机、智能手机、智能家居设备等。如图1所示,所述电子设备100包括语音指令数据获取装置110、存储器120、存储控制器130、处理器140、外设接口150、输入输出模块160、音频模块170、显示模块180。
所述存储器120、存储控制器130、处理器140、外设接口150、输入输出模块160、音频模块170、显示模块180各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述语音指令数据获取装置110包括至少一个可以软件或固件(firmware)的形式存储于所述存储器120中或固化在所述语音指令数据获取终端设备的操作系统(operatingsystem,OS)中的软件功能模块。所述处理器140用于执行存储器120中存储的可执行模块,例如所述语音指令数据获取装置110包括的软件功能模块或计算机程序。
其中,存储器120可以是,但不限于,随机存取存储器(RandomAccessMemory,RAM),只读存储器(ReadOnlyMemory,ROM),可编程只读存储器(ProgrammableRead-OnlyMemory,PROM),可擦除只读存储器(ErasableProgrammableRead-OnlyMemory,EPROM),电可擦除只读存储器(ElectricErasableProgrammableRead-OnlyMemory,EEPROM)等。其中,存储器120用于存储程序,所述处理器140在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流过程定义的服务器所执行的方法可以应用于处理器140中,或者由处理器140实现。
处理器140可能是一种集成电路芯片,具有信号的处理能力。上述的处理器140可以是通用处理器,包括中央处理器(CentralProcessingUnit,简称CPU)、网络处理器(NetworkProcessor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器140也可以是任何常规的处理器等。
所述外设接口150将各种输入输出模块160耦合至处理器140以及存储器120。在一些实施例中,外设接口150,处理器140以及存储控制器130可以在单个芯片中实现。在其他一些实例中,他们可以分别由独立的芯片实现。
输入输出模块160用于提供给用户输入数据实现用户与所述电子设备100的交互。所述输入输出模块160可以是,但不限于,鼠标和键盘等。
音频模块170向用户提供音频接口,其可包括一个或多个麦克风、一个或者多个扬声器以及音频电路。
显示模块180在所述电子设备100与用户之间提供一个交互界面(例如用户操作界面)或用于显示图像数据给用户参考。在本实施例中,所述显示模块180可以是液晶显示器或触控显示器。若为触控显示器,其可为支持单点和多点触控操作的电容式触控屏或电阻式触控屏等。支持单点和多点触控操作是指触控显示器能感应到来自该触控显示器上一个或多个位置处同时产生的触控操作,并将该感应到的触控操作交由处理器140进行计算和处理。
请参阅图2,是本发明较佳实施例提供的应用于图1所示的包含语音识别系统的电子设备的语音指令数据获取方法的流程图。下面将对图2所示的具体流程进行详细阐述。所述语音指令数据获取方法包括:
步骤S101,将接收到的音频数据进行分帧处理,将每一帧音频数据压缩为一个有效值;
为了减少计算量,将电子设备100的音频模块170例如声卡采集的音频数据进行分帧处理,优选的,本发明实施例中,每一帧音频数据具有512个采样点。将每一帧音频数据压缩为一个有效值,其中,所述有效值可以为该帧音频数据的所有采样点的幅值的平均值。
步骤S102,判断当前帧的有效值是否大于预设的静音阈值;
若当前帧的有效值大于预设的静音阈值,进入步骤S103,若当前帧的有效值小于等于预设的静音阈值,进入步骤S104。其中,预设的静音阈值可以为通过多次采集该环境下的背景噪音所得到的经验值,也可以是根据当前声卡实时采集到的背景噪音计算得到,用于表示当前外部环境中的背景噪音。
步骤S103,更新预设的时间变量;
其中,时间变量的初始值T0为0,当出现有效值大于预设的静音阈值的音频数据帧时,将时间变量更新为T1,且T1=T0+ΔT,其中,ΔT为一个音频数据帧所持续的时间,同理,当下一帧的有效值仍然大于静音阈值时,将时间变量更新为T2,且T2=T1+ΔT,依次类推。完成步骤S103后,进入步骤S105。
步骤S104,初始化时间变量;
初始化时间变量即将时间变量重新设置为0。然后再返回步骤S102继续判断下一帧的有效值是否大于预设的静音阈值。
步骤S105,判断所更新后的时间变量是否超过第一预设时间;
若所更新后的时间变量超过第一预设时间,进入步骤S106,若所更新后的时间变量不超过第一预设时间,返回步骤S102继续判断下一帧的有效值是否大于预设的静音阈值。其中,第一预设时间根据语音识别系统中的最短语音指令数据的时间长度设置。
步骤S106,判断下一帧的有效值是否大于所述静音阈值;
若下一帧的有效值大于所述静音阈值,进入步骤S107,若下一帧的有效值小于所述静音阈值,返回执行步骤S104,初始化时间变量后,返回步骤S102继续判断下一帧的有效值是否大于预设的静音阈值。
步骤S107,将所述下一帧标记为音频指令数据起点;
步骤S108,在所述音频指令数据起点与第二预设时间之间的时间段内,查找所述音频指令数据起点之后的音频数据帧中第一个有效值位于预设范围内的音频数据帧,并根据所查找到的音频数据帧确定音频指令数据终点;
其中,所述预设范围根据环境中的背景噪音在静音阈值的上下正常的波动范围设定。例如,当静音阈值为600,背景噪音的正常波动范围为600±50,此时,预设范围为0~650。第二预设时间根据语音识别系统中的最长语音指令数据的时间长度设置。本发明实施例中,如图3所示,通过步骤S108实现音频指令数据终点的标记的具体方法可以为:
步骤S201,在第一参考时间点与第二预设时间之间的时间段内,查找第一个有效值位于预设范围内的音频数据帧;
其中,第一参考时间点的初始值为所述音频指令数据起点所在的时间节点。
步骤S202,将所述第一个有效值位于预设范围内的音频数据帧的开始时间设为第二参考时间点;
步骤S203,判断所述第二参考时间点之后的第三预设时间内的所有音频数据帧的有效值是否均位于预设范围内;
其中,所述第三预设时间为本发明较佳的实施例中判定用户发出的语音指令结束的条件,用于避免将语音指令数据中出现的合理间断点误标记为语音指令数据终点,所述合理间断点为语音指令数据中持续时间小于第三预设时间的间断点。本发明实施例中,所述第三预设时间可以根据多次试验结果设置。若所述第二参考时间点之后的第三预设时间内的所有音频数据帧的有效值均位于预设范围内,进入步骤S204,若所述第二参考时间点之后的第三预设时间内存在音频数据帧的有效值超出预设范围,则进入步骤205;
步骤S204,将所述第二参考时间点之后的第三预设时间内的最后一个音频数据帧标记为音频指令数据终点;
音频指令数据终点标记完成后,进入步骤S109。
步骤205,重新设置第一参考时间点。
将第一参考时间点重新设置为步骤S203中第一个有效值超出预设范围的音频数据帧所在的时间节点,返回执行步骤S201。
步骤S109,截取所标记的所述音频指令数据起点至所述音频指令数据终点的音频数据获得音频指令数据。
将所截取出的音频指令数据发送到电子设备100的语音识别系统中的语音识别消息队列,语音识别系统就可以对所述音频指令数据进行识别,当识别通过时,就可以根据所述音频指令数据控制电子设备100执行相应的动作。
下面将举例对本方法的具体过程进行说明。
假设得到的音频数据帧序列为{V1,V2,V3,…,Vk-1,Vk,Vk+1,…},其中k为正整数,其中V2,V3,V4,V5,V6的有效值均大于预设的静音阈值,第一预设时间为2ΔT,第二预设时间为8ΔT。
首先,比较V1的有效值与静音阈值,若V1的有效值小于等于静音阈值,比较V2的有效值与静音阈值,若V2的有效值大于静音阈值,进入前景音假设模式,将时间变量T由0更新为ΔT,将时间变量T与第一预设时间T1比较,此时,T<T1。所述前景音假设模式表示该段音频数据可能是噪点,可能是前景音,也可能是长噪音。其中,噪点由多个连续的音频数据帧组成,且所述多个连续的音频数据帧的有效值均大于静音阈值,但所述多个连续的音频数据帧的持续时间小于第一预设时间;前景音也由多个连续的音频数据帧组成,且所述多个连续的音频数据帧的有效值均大于静音阈值,但所述多个连续的音频数据帧的持续时间大于等于第一预设时间小于等于第二预设时间,也就是说所述前景音即为本方法所需要获取的语音指令数据;此外,长噪音也由多个连续的音频数据帧组成,且所述多个连续的音频数据帧的有效值均大于静音阈值,但所述多个连续的音频数据帧的持续时间大于第二预设时间,例如,外部环境中突然开始播放歌曲。
继续比较V3的有效值与静音阈值,当V3的有效值大于静音阈值,将时间变量T由ΔT更新为2ΔT。将更新后的时间变量T与第一预设时间T1比较,此时T=T1,满足更新后的时间变量超过第一预设时间的条件。比较V4的有效值是否大于静音阈值M,若V4的有效值大于静音阈值,则将V4标记为音频指令数据起点,进入前景音确认模式,将时间变量T由2ΔT更新为3ΔT,将更新后的时间变量T与第二预设时间T2比较,此时,T<T2。所述前景音确认模式下,该段音频数据可能是前景音,也可能是长噪音。
此后,需要确认该段音频数据是否为前景音,且在判定该段音频数据为前景音时,标记语音指令数据终点。判断V5的有效值是否位于预设范围,当V5的有效值不在预设范围内时,将时间变量T由3ΔT更新为4ΔT,将更新后的时间变量T与第二预设时间T2比较,此时,T<T2。继续判断V6的有效值是否位于预设范围,当V6的有效值不在预设范围内时,将时间变量T由4ΔT更新为5ΔT,将更新后的时间变量T与第二预设时间T2比较,此时,T<T2。继续判断V7的有效值是否位于预设范围,当V7的有效值在预设范围内时,以V7的开始时间为第二参考时间点,判断V7之后的第三预设时间内的所有音频数据帧的有效值是否均位于预设范围内。假设V7之后的第三预设时间内的所有音频数据帧为V9、V10、V11,当V9、V10、V11的有效值均位于预设范围内时,将V11标记为音频指令数据终点,此后,就可以根据所标记的音频指令数据起点和音频指令数据终点从音频数据中截取出音频指令数据。当V9的有效值位于预设范围内,而V10的有效值不在预设范围内时,以V10的开始时间为第一参考时间点,继续在第一参考时间点与第二预设时间之内的时间段内,查找第一个有效值位于预设范围内的音频数据帧,直至确定音频指令数据终点。
当然,若在所述音频指令数据起点与第二预设时间之间的时间段内,无法查找到有效值位于预设范围内的音频数据帧,或是查找到有效值均位于预设范围内的多个连续音频数据帧,但是所述多个连续音频数据帧中第一帧至最后一帧的时间长度无法达到第三预设时间时,则说明该段音频数据不是语音指令数据,而是长噪音。此时,需要重新设置静音阈值后回到步骤S102,继续判断下一个获得的音频数据帧。
本发明实施例提供的语音指令数据获取方法,通过设置静音阈值、第一预设时间和第二预设时间,一方面通过静音阈值筛选高于环境背景噪音的音频数据,另一方面,通过第一预设时间剔除筛选出的高于环境背景噪音的音频数据中的噪点,通过第二预设时间剔除筛选出的高于环境背景噪音的音频数据中的长噪音,从接收到的音频数据中有效地获取到前景音,即所需要的语音指令数据。本发明实施例提供的语音指令数据获取方法有效地提高了包含语音识别系统的电子设备在复杂环境中长时间、无规律间断工作的可靠性,相对于现有的语音端点检测方法,例如门限检测方法等,简单易行,计算量较小。
由上述分析可以看出,用于表示外部环境的背景噪音的静音阈值的设置是判断音频指令数据起点和音频指令数据终点的重要影响因素。根据经验或一段时间的试验值预先设置的静音阈值,不具有自适应性,当外部环境中的背景噪音发生变化时将影响语音指令数据的有效获取。尤其当外部环境中出现长噪音时,需要重新设置静音阈值,以保证所获取的语音指令数据的可靠性。
因此,为了具有更新静音阈值的功能,本语音指令数据获取方法还包括:
设置具有预设容量的数据存储器,当当前帧的有效值大于所述静音阈值时,根据预设公式对该有效值进行转换,将转换后的有效值存入所述数据存储器中,当当前帧的有效值小于等于所述静音阈值时,将该有效值存入所述数据存储器中。本发明实施例中,所述数据存储器的预设容量可以设置为468。所述预设公式为:
NEMS=EMS˙(et/4.328-1.0)+A
其中,EMS为所述当前帧的有效值,NEMS为将所述当前帧的有效值经过转换后的有效值,t为当前帧所对应的时间,所述当前帧所对应的时间为多个在时间上连续的有效值大于所述静音阈值的音频数据帧所构成的数据段内,以所述数据段的第一帧为起点,到达所述当前帧的时间长度,A为当前所述数据存储器中所存储的有效值的平均值。例如,当连续的第k帧、第k+1帧、第k+2帧、第k+3帧音频数据的有效值均大于静音阈值,则需要依次对第k帧、第k+1帧、第k+2帧、第k+3帧音频数据的有效值根据上述预设公式进行转换后存入所述数据存储器,其中,第k帧对应的时间t为0,第k+1帧对应的时间t为从第k帧到第k+1帧的时间长度ΔT,第k+2帧对应的时间t为从第k帧到第k+2帧的时间长度2ΔT,第k+3帧对应的时间t为从第k帧到第k+3帧的时间长度3ΔT。
此外,当上述步骤S105中的所更新后的时间变量不超过第一预设时间时,说明该段音频数据为噪点,此时,将存入预设的数据存储器中与该段噪点对应的转换后的有效值用所述静音阈值替换掉。这样设计有效地避免了噪点对静音阈值更新的影响。
本发明实施例中,更新静音阈值的条件有:
(1)当所述当前帧的有效值小于等于所述静音阈值时,根据预设的静音阈值计算模型更新所述静音阈值。
当语音识别系统处于初始化状态时,静音阈值可以设置为0,在判断当前帧的有效值是否大于静音阈值之前,需要先对静音阈值的有效性进行判断。当静音阈值大于0时,判定该静音阈值有效,再判断当前帧的有效值是否大于静音阈值,当当前帧的有效值小于静音阈值时,将所述当前帧的有效值存入所述数据存储器,并根据预设的静音阈值计算模型对当前的静音阈值进行更新。用更新后的静音阈值代替当前的静音阈值后,再继续判断下一帧的有效值是否大于静音阈值。
(2)当在所述音频指令数据起点与第二预设时间之间的时间段内,所述音频指令数据起点之后的音频数据帧中未查找到有效值位于预设范围内的音频数据帧时,即判定当前段音频数据为长噪音时,根据预设的静音阈值计算模型更新所述静音阈值。
具体的,本实施例优选的静音阈值计算模型为:
ST=A˙ξ+O
其中,ST为更新后的静音阈值,A为当前所述数据存储器中所存储的有效值的平均值,ξ为预设的增益系数,O为预设的补偿值。增益系数ξ以及补偿值O均根据具体外部环境的背景噪音设置,本发明实施例中,所述增益系数的数值范围可以为1.3~1.8,所述补偿值的数值范围可以为80~100。
请参阅图4,是本发明较佳实施例提供的图1所示的语音指令数据获取装置110的功能模块示意图,所述语音指令数据获取装置110包括:
有效值获取单元111,用于将接收到的音频数据进行分帧处理,将每一帧音频数据压缩为一个有效值;起点标记单元112,用于判断当前帧的有效值是否大于预设的静音阈值,若是,更新预设的时间变量,判断所更新后的时间变量是否超过第一预设时间,若是,判断下一帧的有效值是否超过所述静音阈值,若是,将所述下一帧标记为音频指令数据起点;终点标记单元113,用于在所述音频指令数据起点与第二预设时间之间的时间段内,查找所述音频指令数据起点之后的音频数据帧中第一个有效值位于预设范围内的音频数据帧,并根据所查找到的音频数据帧确定音频指令数据终点;音频指令数据获取单元114,用于截取所标记的所述音频指令数据起点至所述音频指令数据终点的音频数据作为音频指令数据。
此外,如图5所示,所述语音指令数据获取装置110还包括有效值存储单元115,所述有效值存储单元115用于当当前帧的有效值大于所述静音阈值时,根据预设公式对该有效值进行转换,将转换后的有效值存入预设的数据存储器中,当当前帧的有效值小于等于所述静音阈值时,将该有效值存入所述数据存储器中。
其中,所述预设公式为:
NEMS=EMS˙(et/4.328-1.0)+A
其中,EMS为所述当前帧的有效值,NEMS为将所述当前帧的有效值经过转换后的有效值,t为当前帧所对应的时间,所述当前帧所对应的时间为多个在时间上连续的有效值大于所述静音阈值的音频数据帧所构成的数据段内,以所述数据段的第一帧为起点,到达所述当前帧的时间长度,A为当前所述数据存储器中所存储的有效值的平均值。
需要说明的是,所述有效值存储单元115还用于当所述所更新后的时间变量不超过第一预设时间时,将所述的存入预设的数据存储器中的转换后的有效值用所述静音阈值替换。
进一步地,如图5所示,所述语音指令数据获取装置110还包括静音阈值更新单元116,所述静音阈值更新单元116用于当所述当前帧的有效值小于等于所述静音阈值时,根据预设的静音阈值计算模型更新所述静音阈值。所述静音阈值更新单元116还用于当在所述音频指令数据起点与第二预设时间之间的时间段内,所述音频指令数据起点之后的音频数据帧中未查找到有效值位于预设范围内的音频数据帧时,根据预设的静音阈值计算模型更新所述静音阈值。
其中,所述的静音阈值计算模型为:
ST=A˙ξ+O
其中,ST为更新后的静音阈值,A为当前所述数据存储器中所存储的有效值的平均值,ξ为预设的增益系数,O为预设的补偿值。
具体的,本发明实施例中,如图6所示,终点标记单元113包括查找子单元1131、参考时间点设置子单元1132以及标记子单元1133。所述查找子单元1131用于在第一参考时间点与第二预设时间之间的时间段内,查找第一个有效值位于预设范围内的音频数据帧,其中,第一参考时间点的初始值为所述音频指令数据起点所在的时间节点;所述参考时间点设置子单元1132用于将所述第一个有效值位于预设范围内的音频数据帧的开始时间设为第二参考时间点;所述标记子单元1133用于判断所述第二参考时间点之后的第三预设时间内的所有音频数据帧的有效值是否均位于预设范围内,若是,将所述参考时间点之后的第三预设时间内的最后一个音频数据帧标记为音频指令数据终点。
本发明实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种语音指令数据获取方法,其特征在于,所述方法包括:
将接收到的音频数据进行分帧处理,将每一帧音频数据压缩为一个有效值;
判断当前帧的有效值是否大于预设的静音阈值,若是,更新预设的时间变量,判断所更新后的时间变量是否超过第一预设时间,若是,判断下一帧的有效值是否大于所述静音阈值,若是,将所述下一帧标记为音频指令数据起点;
在所述音频指令数据起点与第二预设时间之间的时间段内,查找所述音频指令数据起点之后的音频数据帧中第一个有效值位于预设范围内的音频数据帧,并根据所查找到的音频数据帧确定音频指令数据终点;
截取所标记的所述音频指令数据起点至所述音频指令数据终点的音频数据获得音频指令数据。
2.根据权利要求1所述的语音指令数据获取方法,其特征在于,还包括:
当当前帧的有效值大于所述静音阈值时,根据预设公式对该有效值进行转换,将转换后的有效值存入预设的数据存储器中,当所述当前帧的有效值小于等于所述静音阈值时,将该有效值存入所述数据存储器中。
3.根据权利要求2所述的语音指令数据获取方法,其特征在于,所述预设公式为:
NEMS=EMS·(et/4.328-1.0)+A
其中,EMS为所述当前帧的有效值,NEMS为将所述当前帧的有效值经过转换后的新的有效值,t为当前帧所对应的时间,所述当前帧所对应的时间为多个在时间上连续的有效值大于所述静音阈值的音频数据帧所构成的数据段内,以所述数据段的第一帧为起点,到达所述当前帧的时间长度,A为当前所述数据存储器中所存储的有效值的平均值。
4.根据权利要求3所述的语音指令数据获取方法,其特征在于,还包括:当所述所更新后的时间变量不超过第一预设时间时,将存入所述数据存储器中的转换后的有效值用所述静音阈值替换。
5.根据权利要求2所述的语音指令数据获取方法,其特征在于,所述方法还包括:当所述当前帧的有效值小于等于所述静音阈值时,根据预设的静音阈值计算模型更新所述静音阈值。
6.根据权利要求2所述的语音指令数据获取方法,其特征在于,所述方法还包括:当在所述音频指令数据起点与第二预设时间之间的时间段内,所述音频指令数据起点之后的音频数据帧中未查找到有效值位于预设范围内的音频数据帧时,根据预设的静音阈值计算模型更新所述静音阈值。
7.根据权利要求5或6所述的语音指令数据获取方法,其特征在于,所述静音阈值计算模型为:ST=A·ξ+O
其中,ST为更新后的静音阈值,A为当前所述数据存储器中所存储的有效值的平均值,ξ为预设的增益系数,O为预设的补偿值。
8.根据权利要求1所述的语音指令数据获取方法,其特征在于,所述的在所述音频指令数据起点与第二预设时间之间的时间段内,查找所述音频指令数据起点之后的音频数据帧中第一个有效值位于预设范围内的音频数据帧,并根据所查找到的音频数据帧确定音频指令数据终点,包括:
在第一参考时间点与第二预设时间之间的时间段内,查找第一个有效值位于预设范围内的音频数据帧,其中,第一参考时间点的初始值为所述音频指令数据起点所在的时间节点;
将所述的第一个有效值位于预设范围内的音频数据帧的开始时间设置为第二参考时间点;
判断所述第二参考时间点之后的第三预设时间内的所有音频数据帧的有效值是否均位于预设范围内,若是,将所述第二参考时间点之后的第三预设时间内的最后一个音频数据帧标记为音频指令数据终点。
9.一种语音指令数据获取装置,其特征在于,所述语音指令数据获取装置包括:
有效值获取单元,用于将接收到的音频数据进行分帧处理,将每一帧音频数据压缩为一个有效值;
起点标记单元,用于判断当前帧的有效值是否大于预设的静音阈值,若是,更新预设的时间变量,判断所更新后的时间变量是否超过第一预设时间,若是,判断下一帧的有效值是否大于所述静音阈值,若是,将所述下一帧标记为音频指令数据起点;
终点标记单元,用于在所述音频指令数据起点与第二预设时间之间的时间段内,查找所述音频指令数据起点之后的音频数据帧中第一个有效值位于预设范围内的音频数据帧,并根据所查找到的音频数据帧确定音频指令数据终点;
音频指令数据获取单元,用于截取所标记的所述音频指令数据起点至所述音频指令数据终点的音频数据获得音频指令数据。
10.根据权利要求9所述的语音指令数据获取装置,其特征在于,还包括有效值存储单元,所述有效值存储单元用于当当前帧的有效值大于所述静音阈值时,根据预设公式对该有效值进行转换,将转换后的有效值存入预设的数据存储器中,当所述当前帧的有效值小于等于所述静音阈值时,将该有效值存入所述数据存储器中。
CN201610143886.4A 2016-03-14 2016-03-14 一种语音指令数据获取方法及装置 Expired - Fee Related CN105825870B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610143886.4A CN105825870B (zh) 2016-03-14 2016-03-14 一种语音指令数据获取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610143886.4A CN105825870B (zh) 2016-03-14 2016-03-14 一种语音指令数据获取方法及装置

Publications (2)

Publication Number Publication Date
CN105825870A true CN105825870A (zh) 2016-08-03
CN105825870B CN105825870B (zh) 2019-04-02

Family

ID=56987667

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610143886.4A Expired - Fee Related CN105825870B (zh) 2016-03-14 2016-03-14 一种语音指令数据获取方法及装置

Country Status (1)

Country Link
CN (1) CN105825870B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107248046A (zh) * 2017-08-01 2017-10-13 中州大学 一种思想政治课课堂教学质量评价装置及方法
CN108520743A (zh) * 2018-02-02 2018-09-11 百度在线网络技术(北京)有限公司 智能设备的语音控制方法、智能设备及计算机可读介质
CN108962225A (zh) * 2018-06-27 2018-12-07 西安理工大学 一种多尺度自适应语音端点检测方法
CN112365899A (zh) * 2020-10-30 2021-02-12 北京小米松果电子有限公司 语音处理方法、装置、存储介质及终端设备
CN112712791A (zh) * 2020-12-08 2021-04-27 深圳市优必选科技股份有限公司 静音语音检测方法、装置、终端设备及存储介质
CN114283840A (zh) * 2021-12-22 2022-04-05 天翼爱音乐文化科技有限公司 一种指令音频生成方法、系统、装置与存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0077574A1 (en) * 1981-10-20 1983-04-27 Nissan Motor Co., Ltd. Speech recognition system for an automotive vehicle
JPH02198500A (ja) * 1989-01-27 1990-08-06 Ricoh Co Ltd 音声認識装置
JPH03253899A (ja) * 1990-03-05 1991-11-12 Ricoh Co Ltd 音声区間検出方式
KR20040032660A (ko) * 2002-10-10 2004-04-17 서울통신기술 주식회사 음성처리보드의 음성신호 검출 방법
CN1716380A (zh) * 2005-07-26 2006-01-04 浙江大学 基于决策树和说话人改变检测的音频分割方法
CN101030369A (zh) * 2007-03-30 2007-09-05 清华大学 基于子词隐含马尔可夫模型的嵌入式语音识别方法
CN101221762A (zh) * 2007-12-06 2008-07-16 上海大学 一种mp3压缩域音频分割方法
US20110254688A1 (en) * 2010-04-15 2011-10-20 Samsung Electronics Co., Ltd. User state recognition in a wireless communication system
CN102298346A (zh) * 2011-05-26 2011-12-28 江苏科技大学 一种智能轮椅语音驱动控制器及识别与控制方法
CN102971787A (zh) * 2010-10-29 2013-03-13 安徽科大讯飞信息科技股份有限公司 录音结束点检测方法及系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0077574A1 (en) * 1981-10-20 1983-04-27 Nissan Motor Co., Ltd. Speech recognition system for an automotive vehicle
JPH02198500A (ja) * 1989-01-27 1990-08-06 Ricoh Co Ltd 音声認識装置
JPH03253899A (ja) * 1990-03-05 1991-11-12 Ricoh Co Ltd 音声区間検出方式
KR20040032660A (ko) * 2002-10-10 2004-04-17 서울통신기술 주식회사 음성처리보드의 음성신호 검출 방법
CN1716380A (zh) * 2005-07-26 2006-01-04 浙江大学 基于决策树和说话人改变检测的音频分割方法
CN101030369A (zh) * 2007-03-30 2007-09-05 清华大学 基于子词隐含马尔可夫模型的嵌入式语音识别方法
CN101221762A (zh) * 2007-12-06 2008-07-16 上海大学 一种mp3压缩域音频分割方法
US20110254688A1 (en) * 2010-04-15 2011-10-20 Samsung Electronics Co., Ltd. User state recognition in a wireless communication system
CN102971787A (zh) * 2010-10-29 2013-03-13 安徽科大讯飞信息科技股份有限公司 录音结束点检测方法及系统
CN102298346A (zh) * 2011-05-26 2011-12-28 江苏科技大学 一种智能轮椅语音驱动控制器及识别与控制方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107248046A (zh) * 2017-08-01 2017-10-13 中州大学 一种思想政治课课堂教学质量评价装置及方法
CN108520743A (zh) * 2018-02-02 2018-09-11 百度在线网络技术(北京)有限公司 智能设备的语音控制方法、智能设备及计算机可读介质
CN108962225A (zh) * 2018-06-27 2018-12-07 西安理工大学 一种多尺度自适应语音端点检测方法
CN112365899A (zh) * 2020-10-30 2021-02-12 北京小米松果电子有限公司 语音处理方法、装置、存储介质及终端设备
CN112712791A (zh) * 2020-12-08 2021-04-27 深圳市优必选科技股份有限公司 静音语音检测方法、装置、终端设备及存储介质
CN112712791B (zh) * 2020-12-08 2024-01-12 深圳市优必选科技股份有限公司 静音语音检测方法、装置、终端设备及存储介质
CN114283840A (zh) * 2021-12-22 2022-04-05 天翼爱音乐文化科技有限公司 一种指令音频生成方法、系统、装置与存储介质

Also Published As

Publication number Publication date
CN105825870B (zh) 2019-04-02

Similar Documents

Publication Publication Date Title
CN105825870A (zh) 一种语音指令数据获取方法及装置
US10783171B2 (en) Address search method and device
CN107357779B (zh) 一种获取机构名称的方法及装置
US20150348542A1 (en) Speech recognition method and system based on user personalized information
CN108307069B (zh) 导航运行方法、导航运行装置及移动终端
CN110020422A (zh) 特征词的确定方法、装置和服务器
CN103024169A (zh) 一种通讯终端应用程序的语音启动方法和装置
CN103679030B (zh) 一种基于动态语义特征的恶意代码分析检测方法
CN106919695B (zh) 一种信息推荐方法及终端
CN108491326A (zh) 测试行为重组方法、装置及存储介质
CN105005563A (zh) 一种摘要生成方法及装置
CN110111812B (zh) 一种键盘击键内容的自适应识别方法和系统
CN107609047A (zh) 应用推荐方法、装置、移动设备及存储介质
WO2019184517A1 (zh) 一种音频指纹提取方法及装置
CN104766008A (zh) 应用程序安装包的安全检测方法及服务器
CN105117107A (zh) 应用程序图标管理方法及系统
CN108682415B (zh) 语音搜索方法、装置和系统
CN110097895A (zh) 一种纯音乐检测方法、装置及存储介质
CN105353957A (zh) 一种信息显示方法及终端
CN104346151B (zh) 一种信息处理方法及电子设备
CN106126171A (zh) 一种音效处理方法及移动终端
CN104731918A (zh) 一种语音搜索方法及装置
CN108231074A (zh) 一种数据处理方法、语音助手设备及计算机可读存储介质
CN104637496B (zh) 计算机系统及音频比对方法
CN103247316A (zh) 一种音频检索中构建索引的方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190402