CN111554287B - 语音处理方法及装置、家电设备和可读存储介质 - Google Patents
语音处理方法及装置、家电设备和可读存储介质 Download PDFInfo
- Publication number
- CN111554287B CN111554287B CN202010342433.0A CN202010342433A CN111554287B CN 111554287 B CN111554287 B CN 111554287B CN 202010342433 A CN202010342433 A CN 202010342433A CN 111554287 B CN111554287 B CN 111554287B
- Authority
- CN
- China
- Prior art keywords
- audio data
- per frame
- frame
- decibel
- processing method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
- G10L15/05—Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/22—Interactive procedures; Man-machine interfaces
Abstract
本发明公开了一种语音处理方法及装置、家电设备和可读存储介质。语音处理方法包括:获取音频数据,并在确定音频数据包括家电设备的唤醒词数据的情况下,处理音频数据以获得音频数据的每帧分贝;根据音频数据的每帧分贝获取每帧分贝对应的每帧分贝累计平均值;计算多个每帧分贝累计平均值的下降速率;在下降速率大于预设速率阈值的情况下,确定音频数据的结束端点。上述语音处理方法的算法简单,准确性高,并且无需通过在线语音识别装置确定语音数据的结束端点,而可以在家电设备的本地离线进行处理,这样对家电设备的芯片的要求配置低,成本低,也能减少周围噪声的影响。
Description
技术领域
本发明涉及语音识别技术领域,更具体而言,涉及一种语音处理方法及装置、家电设备和可读存储介质。
背景技术
在相关技术中,语音识别包括离线语音识别和在线语音识别。离线语音识别的语音识别性能较低,无法准确地识别语句。在线语音识别的语音识别性能虽然较高,但是,目前,通过家电设备的在线语音识别装置比较分析音频数据中环境噪音的频率特性因子和语音频率特性因子过程复杂,需要大量运算且实时性要求高,这样使得家电设备需要较高的芯片配置进行处理,成本较高。
发明内容
本发明实施方式提供一种语音处理方法及装置、家电设备和可读存储介质。
本发明实施方式的语音处理方法用于家电设备。语音处理方法包括:获取音频数据,并在确定所述音频数据包括所述家电设备的唤醒词数据的情况下,处理所述音频数据以获得所述音频数据的每帧分贝;根据所述音频数据的每帧分贝获取所述每帧分贝对应的每帧分贝累计平均值;计算多个所述每帧分贝累计平均值的下降速率;在所述下降速率大于预设速率阈值的情况下,确定所述音频数据的结束端点。
上述语音处理方法中,通过获取每帧分贝对应的每帧分贝累计平均值,及计算多个每帧分贝累计平均值的下降速率,及在下降速率大于预设速率阈值的情况下,确定音频数据的结束端点,这样算法简单,准确性高,并且无需通过在线语音识别装置确定语音数据的结束端点,而可以在家电设备的本地离线进行处理,这样对家电设备的芯片的要求配置低,成本低,也能减少周围噪声的影响。
在某些实施方式中,处理所述音频数据以获得所述音频数据的每帧分贝,包括:获取所述音频数据的每帧数据的多个采样数据的样本总数、每个所述采样数据对应的每个输出电压和所述音频数据的位深度;根据所述样本总数、所述输出电压和所述位深度计算所述音频数据的每帧分贝。如此,这样可以快速并准确地计算得到音频数据的每帧分贝,运算简单。
在某些实施方式中,所述语音处理方法包括:在确定所述音频数据包括所述家电设备的唤醒词数据的情况下,确定所述音频数据的起始端点;计算以所述起始端点的预设帧长内的所述音频数据的平均每帧分贝。如此,这样可以简化运算,提高音频数据处理的精确度。
在某些实施方式中,根据所述音频数据的每帧分贝获取所述每帧分贝对应的每帧分贝累计平均值,包括:获取所述音频数据的当前每帧分贝,和前一每帧分贝的累计平均值;根据所述当前每帧分贝和所述前一每帧分贝的累计平均值计算所述当前每帧分贝的累计平均值。如此,这样可以简化运行,提高音频数据处理的精确度。
在某些实施方式中,根据所述当前每帧分贝和所述前一每帧分贝的累计平均值计算所述当前每帧分贝的累计平均值,包括:获取第一权重及第二权重;根据所述当前每帧分贝、所述前一每帧分贝的累计平均值、所述第一权重及所述第二权重计算所述当前每帧分贝的累计平均值。如此,通过设置第一权重和第二权重,可以减弱声音频率内的噪声,从而提高确定结束端点的精确度。
在某些实施方式中,获取第一权重及第二权重,包括:分析所述音频数据中的音节发音特征;根据所述音节发音特征获取所述第一权重及所述第二权重。如此,这样可以提高音频数据处理的精确度。
在某些实施方式中,计算多个所述每帧分贝累计平均值的下降速率,包括:按索引顺序存储多个所述每帧分贝累计平均值,每个所述每帧分贝累计平均值对应一个索引号;查找存储的多个所述每帧分贝累计平均值中的最大值及所述最大值对应的所述索引号;计算排序在所述最大值对应的所述索引号之后的所有所述每帧分贝累计平均值的总平均值;计算所述最大值与所述总平均值的差值,所述差值作为所述多个所述每帧分贝累计平均值的下降速率。如此,这样可提高确定结束端点的精确度。
在某些实施方式中,所述语音处理方法包括:在确定所述音频数据包括所述家电设备的唤醒词数据的情况下,确定所述音频数据的起始端点;在确定所述结束端点的情况下,上传所述起始端点与所述结束端点之间的音频数据。在确定结束端点的情况下,才上传起始端点至结束端点的音频数据,这样在线语音识别装置无需实时地对音频数据的每一帧进行处理,而是对所上传的起始端点至结束端点的一整段音频数据进行整体处理,这样可以降低在线语音识别装置的运算,降低在线语音识别装置的芯片的配置要求,从而降低家电设备的成本。
在某些实施方式中,所述语音处理方法包括:在确定所述音频数据的结束端点的预设时长内,再次确定所述结束端点的情况下,上传前一次所确定的所述结束端点至当前所确定所述结束端点之间的所述音频数据。如此,这样在线语音识别装置无需实时地对音频数据的每一帧进行处理,而是对所上传的起始端点至结束端点的一整段音频数据进行整体处理,这样可以降低在线语音识别装置的运算,降低在线语音识别装置的芯片的配置要求,从而降低家电设备的成本。
本发明实施方式提供一种语音处理装置,其包括处理器,所述处理器用于执行上述任一实施方式的语音处理方法。
上述语音处理装置中,通过获取每帧分贝对应的每帧分贝累计平均值,及计算多个每帧分贝累计平均值的下降速率,及在下降速率大于预设速率阈值的情况下,确定音频数据的结束端点,这样算法简单,准确性高,并且无需通过在线语音识别装置确定语音数据的结束端点,而可以在家电设备的本地离线进行处理,这样对家电设备的芯片的要求配置低,成本低,也能减少周围噪声的影响。
本发明实施方式提供一种家电设备,包括上述任一实施方式的语音处理装置。
上述家电设备中,通过获取每帧分贝对应的每帧分贝累计平均值,及计算多个每帧分贝累计平均值的下降速率,及在下降速率大于预设速率阈值的情况下,确定音频数据的结束端点,这样算法简单,准确性高,并且无需通过在线语音识别装置确定语音数据的结束端点,而可以在家电设备的本地离线进行处理,这样对家电设备的芯片的要求配置低,成本低,也能减少周围噪声的影响。
本发明实施方式提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施方式的语音处理方法。
上述计算机可读存储介质中,通过获取每帧分贝对应的每帧分贝累计平均值,及计算多个每帧分贝累计平均值的下降速率,及在下降速率大于预设速率阈值的情况下,确定音频数据的结束端点,这样算法简单,准确性高,并且无需通过在线语音识别装置确定语音数据的结束端点,而可以在家电设备的本地离线进行处理,这样对家电设备的芯片的要求配置低,成本低,也能减少周围噪声的影响。
本发明的实施方式的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施方式的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施方式的描述中将变得明显和容易理解,其中:
图1是本发明实施方式的语音处理方法的流程图。
图2是本发明实施方式的语音处理装置的模块图。
图3是本发明实施方式的家电设备的模块图。
图4是本发明实施方式的语音处理方法的另一流程图。
图5是本发明实施方式的语音处理方法的又一流程图。
图6是本发明实施方式的语音处理方法的再一流程图。
图7是本发明实施方式的语音处理方法的再一流程图。
图8是本发明实施方式的语音处理方法的再一流程图。
图9是本发明实施方式的按索引号排列的每帧分贝累计平均值的示意图。
图10是本发明实施方式的按索引号排列的每帧分贝累计平均值的另一示意图。
图11是本发明实施方式的语音处理方法的再一流程图。
图12是本发明实施方式的语音处理方法的再一流程图。
图13是通过本实施方式的语音处理方法处理的音频数据示意图。
图14是本发明实施方式的计算机可读存储介质与语音处理装置交互的示意图。
具体实施方式
下面详细描述本发明的实施方式,实施方式的示例在附图中示出,其中,相同或类似的标号自始至终表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的实施方式的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的实施方式的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明的实施方式的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明的实施方式中的具体含义。
下文的公开提供了许多不同的实施方式或例子用来实现本发明的实施方式的不同结构。为了简化本发明的实施方式的公开,下文中对特定例子的部件和设置进行描述。当然,它们仅仅为示例,并且目的不在于限制本发明。此外,本发明的实施方式可以在不同例子中重复参考数字和/或参考字母,这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施方式和/或设置之间的关系。此外,本发明的实施方式提供了的各种特定的工艺和材料的例子,但是本领域普通技术人员可以意识到其他工艺的应用和/或其他材料的使用。
请参阅图1及2,本发明实施方式的语音处理方法可用于本实施方式的家电设备1000(请参阅图3)本发明实施方式的语音处理方法包括:
步骤S10,获取音频数据,并在确定音频数据包括家电设备1000的唤醒词数据的情况下,处理音频数据以获得音频数据的每帧分贝;
步骤S30,根据音频数据的每帧分贝获取每帧分贝对应的每帧分贝累计平均值;
步骤S50,计算多个每帧分贝累计平均值的下降速率;
步骤S70,在下降速率大于预设速率阈值的情况下,确定音频数据的结束端点。
上述实施方式的语音处理方法可本实施方式的语音处理装置100实现。语音处理装置100包括处理器10和存储器20。步骤S10、步骤S30、步骤S50及步骤S70可由处理器10实现。处理器10用于获取音频数据,并在确定音频数据包括家电设备1000的唤醒词数据的情况下,处理音频数据以获得音频数据的每帧分贝,及根据音频数据的每帧分贝获取每帧分贝对应的每帧分贝累计平均值,及计算多个每帧分贝累计平均值的下降速率,及在下降速率大于预设速率阈值的情况下,确定音频数据的结束端点。
上述语音处理方法及语音处理装置100中,通过获取每帧分贝对应的每帧分贝累计平均值,及计算多个每帧分贝累计平均值的下降速率,及在下降速率大于预设速率阈值的情况下,确定音频数据的结束端点,这样算法简单,准确性高,并且无需通过在线语音识别装置确定语音数据的结束端点,而可以在家电设备1000的本地离线进行处理,这样对家电设备1000的芯片的要求配置低,成本低,也能减少周围噪声的影响。
具体地,在一个实施例中,家电设备1000可包括语音处理装置100,家电设备1000的麦克风可以采集相应的音频数据,传送给语音处理装置100。在另一个实施例中,语音处理装置100可以作为一个独立的装置安装在家电设备1000,家电设备1000的麦克风可以采集相应的音频数据后,再传送给语音处理装置100。在又一个实施中,语音处理装置100也可以独立地安装在其他终端设备中。
请参阅图3,本实施方式的家电设备1000包括语音处理装置100。具体地,家电设备1000还包括在线语音识别装置200。语音处理装置100与在线语音识别装置200连接。语音处理装置100可上传音频数据给在线语音识别装置200。在线语音识别装置200可在线识别音频数据。本实施方式的家电设备1000中,通过获取每帧分贝对应的每帧分贝累计平均值,及计算多个每帧分贝累计平均值的下降速率,及在下降速率大于预设速率阈值的情况下,确定音频数据的结束端点,这样算法简单,准确性高,并且无需通过在线语音识别装置200确定语音数据的结束端点,而可以在家电设备1000的本地离线进行处理,这样对家电设备1000的芯片的要求配置低,成本低,也能减少周围噪声的影响。
具体地,本实施方式中,家电设备1000包括但不限于吸油烟机、燃气灶具、洗碗机、微波炉、电烤箱、家用消毒柜、空调、冰箱、饮水机、热水器、净水机等设备。
本实施方式的音频数据可以是家电设备1000的麦克风所输入的声音数据,也可以是具有麦克风的其它终端获取到音频数据后传输到家电设备1000。当有人在环境中说话时,音频数据可包括人的声音段的语音数据。
本实施方式中,存储器20预先存储有换醒词数据。本实施方式的处理器10获取到音频数据后,比对音频数据是否存在换醒词数据。在存在唤醒词数据的情况下,处理器10确定接收到家电设备1000的唤醒词,处理音频数据以获得音频数据的每帧分贝。
请参阅图4,本实施方式中,步骤S10中,处理音频数据以获取音频数据的每帧分贝,包括:
步骤S12,在确定音频数据包括家电设备1000的唤醒词数据的情况下,获取音频数据的每帧数据的多个采样数据的样本总数、每个采样数据对应的每个输出电压和音频数据的位深度;
步骤S14,根据样本总数、输出电压和位深度计算音频数据的每帧分贝。
上述实施方式的语音处理方法可由本实施方式的语音处理装置100实现。其中,步骤S12及步骤S14可由处理器10实现。处理器10用于在接收到唤醒家电设备1000的唤醒词的情况下,获取音频数据的每帧数据的多个采样数据的样本总数、每个采样数据对应的每个输出电压和音频数据的位深度,及根据样本总数、输出电压和位深度计算音频数据的每帧分贝。如此,这样可以快速并准确地计算得到音频数据的每帧分贝,运算简单。
具体地,本实施方式中,麦克风采集到的音频数据为模拟信号,处理器10可以将该模拟信号转换为数字信号。音频数据可以采用PCM(Pulse-Code Modulation,脉冲编码调制)的方式进行数字化,转换为数字信号的精确度由采样周期(Sampling Rate)和位深度(Bit Depth)决定。经过实验,人的声音的频率特征信号分布在100Hz至8KHz之内,超过8KHz的高频数据在处理语音信号时,由于其能量较低而不会对处理结果产生很大的影响,为了提高计算效率,本实施方式的语音处理频率范围设置为100Hz至8KHz之内。而若需要得到8kHz的语音数据,根据奈奎斯特理论,采样频率设置为待取样频率的两倍(16kHz)。因此,本实施方式的位深度可设为16位采样分辨率。
本实施方式中,音频数据的每帧分贝(Lframe)用公式1表示,公式1为:
其中,s是一个帧的采样数据的样本总数,a是采样数据对应的输出电压(麦克风的输出电压),h是位深度。在一个实施例中,s为480,h为16位(32767)。
本实施方式中,语音处理方法包括:
在确定音频数据包括家电设备1000的唤醒词数据的情况下,确定音频数据的起始端点;
计算以起始端点为起点的预设帧长内的音频数据的平均每帧分贝。
上述实施方式的语音处理方法可由本实施方式的语音处理装置100实现,其中,处理器10用于获取在接收到唤醒家电设备1000的唤醒词的情况下对应的起始端点,及计算以起始端点为起点的预设帧长内的音频数据的平均每帧分贝。其中,平均每帧分贝作为环境噪声分贝。
具体地,经过多次实验,在识别换醒词数据的前后帧长内是不存在人的声音数据,在识别换醒词的语音数据后的预设帧长内,可以理解为,噪音检测阶段。本实施方式中,预设帧长可设置为5帧(20ms×5=100ms)。在接收到唤醒家电设备1000的唤醒词后,通过上述实施方式的音频数据的每帧分贝(Lframe)的计算公式计算连续5帧的帧分贝,再计算5帧的平均每帧分贝,计算得到的平均每帧分贝作为环境噪声分贝(Lnoise)。也就是说,在接收到唤醒家电设备1000的唤醒词之后,到用户开始说的第一句话之前的音频数据对应的帧分贝可理解为环境噪声分贝(Lnoise)。如此,这样可以简化运行,提高音频数据处理的精确度。
请参阅图5,本实施方式中,步骤S30,包括:
步骤S32,获取音频数据的当前每帧分贝,和前一每帧分贝的累计平均值;
步骤S34,根据当前每帧分贝和前一每帧分贝的累计平均值计算当前每帧分贝的累计平均值。
上述实施方式的语音处理方法可由本实施方式的语音处理装置100实现。其中,步骤S32及步骤S34可由处理器10实现。处理器10用于获取音频数据的当前每帧分贝,和前一每帧分贝的累计平均值,及根据当前每帧分贝和前一每帧分贝的累计平均值计算当前每帧分贝的累计平均值。如此,这样可以简化运算,提高音频数据处理的精确度。
具体地,请参阅图6,本实施方式中,步骤S34包括:
步骤S342,获取第一权重及第二权重;
步骤S344,根据当前每帧分贝、前一每帧分贝的累计平均值、第一权重及第二权重计算当前每帧分贝的累计平均值。
上述实施方式的语音处理方法可由本实施方式的语音处理装置100实现。其中,步骤S342及步骤S344可由处理器10实现。处理器10用于获取第一权重及第二权重,及根据当前每帧分贝、前一每帧分贝的累计平均值、第一权重及第二权重计算当前每帧分贝的累计平均值。如此,通过设置第一权重和第二权重,可以减弱声音频率内的噪声,从而提高确定结束端点的精确度。
具体地,音频数据的每帧分贝的累计平均值用公式2表示,公式2为:
其中,Ln是音频数据的当前帧分贝,Cn-1是前一每帧分贝的累计平均值。Cn是当前帧分贝的累计平均值,Wmax是第一权重,W是第二权重。
在一个实施例中,在接收到唤醒家电设备1000的唤醒词的情况下,计算连续5帧的平均每帧分贝并作为环境噪声分贝,该阶段为噪声检测阶段。然后,进入音频数据的每帧分贝的累计平均值的运算阶段,在该阶段,通过上述音频数据的每帧分贝的累计平均值的计算公式开始计算音频数据的每帧分贝的累计平均值。本实施方式中,在上述公式2中,当n=1时,L1为运算阶段的第一帧分贝,C0可用上述实施方式的环境噪声分贝(Lnoise)来表示。C1为运算阶段的第一帧分贝的累计平均值。在上述公式2中,当n=2时,L2为运算阶段的第二帧分贝,C1为运算阶段的第一帧分贝的累计平均值。C2为运算阶段的第二帧分贝的累计平均值。在上述公式2中,当n=3时,L3为运算阶段的第二帧分贝,C2为运算阶段的第一帧分贝的累计平均值。C3为运算阶段的第二帧分贝的累计平均值,以此类推,获取音频数据的每帧分贝对应的每帧分贝累计平均值。
请参阅图7,本实施方式中,步骤S342,包括:
步骤S3422,分析音频数据中的音节发音特征;
步骤S3424,根据音节发音特征获取第一权重及第二权重。
上述实施方式的语音处理方法可由本实施方式的语音处理装置100实现。其中,步骤S3422及步骤S3424可由处理器10实现。处理器10用于分析音频数据中的音节发音特征,及根据音节发音特征获取第一权重及第二权重。如此,这样可以提高音频数据处理的精确度。
具体地,音节发音特征包括但不限于音节发音时间、频率、相位差等。由于不同的语言,音节发音特征存在不同,本实施方式中,预设存储有音节发音特征与第一权重及第二权重的对应表。
请参阅图8,本实施方式中,步骤S50包括:
步骤S52,按索引顺序存储多个每帧分贝累计平均值,每个每帧分贝累计平均值对应一个索引号;
步骤S54,查找存储的多个每帧分贝累计平均值中的最大值及最大值对应的索引号;
步骤S56,计算排序在最大值对应的索引号之后的所有每帧分贝累计平均值的总平均值;
步骤S58,计算最大值与总平均值的差值,差值为作为多个每帧分贝累计平均值的下降速率。
上述实施方式的语音处理方法可由本实施方式的语音处理装置100实现。其中,步骤S52、步骤S54、步骤S56及步骤S58可由处理器10实现。处理器10用于按索引顺序存储多个每帧分贝累计平均值,每个每帧分贝累计平均值对应一个索引号,及查找存储的多个每帧分贝累计平均值中的最大值及最大值对应的索引号,及计算排序在最大值对应的索引号之后的所有每帧分贝累计平均值的总平均值,以及计算最大值与总平均值的差值,差值为作为多个每帧分贝累计平均值的下降速率。如此,这样可提高确定结束端点的精确度。
具体地,本实施方式中,每帧分贝对应的每帧分贝累计平均值存储在队列形式的内存中。首先,本实施方式的存储器20创建有图9所示的队列结构(先入先出)的内存列表。每个内存空间的总大小为N,每个内存空间都有一个从1到N的索引号(Index No),索引可表示为监控时间。每帧的监控时间是30毫秒。每帧分贝累计平均值(Date)按队列顺序(N=Size of Queue)储存在内存空间,当储存的索引达到N时,查找多个每帧分贝累计平均值中的最大值。
请参阅图10,第x索引储存多个每帧分贝累计平均值中的最大值(Cmax),计算x+1到N的索引的差值T,其中,T=N-(x+1)。根据公式3计算计算排序在最大值对应的索引号之后的所有每帧分贝累计平均值的总平均值(Vmin),公式3为:
其中,Ci为排序在最大值对应的索引号之后的每帧分贝累计平均值。
本实施方式中,多个每帧分贝累计平均值中的最大值(Cmax)与排序在最大值对应的索引号之后的所有每帧分贝累计平均值的总平均值(Vmin)的差值V=Cmax-Vmin。差值V作为多个每帧分贝累计平均值的下降速率。
本实施方式中,在多个帧分贝累计平均值的下降速率大于预设速率阈值的情况下,确定音频数据的结束端点。也就是说,此时,检测到采集到的音频数据出现了结束端点。
需要说明的是,本实施方式的预设速率阈值是根据通过多次实验,根据家电设备1000的麦克风的灵敏度和噪声大小实验得出。该预设速率阈值预先存储在家电设备1000中。
本实施方式中,请参阅图11,语音处理方法包括:
步骤S90,在确定音频数据包括家电设备1000的唤醒词数据的情况下,确定音频数据的起始端点;
步骤S110,在确定结束端点的情况下,上传起始端点与结束端点之间的音频数据。
上述实施方式的语音处理方法可由本实施方式的语音处理装置100实现。其中,步骤S90及步骤S110可由处理器10实现。处理器10用于在确定音频数据包括家电设备1000的唤醒词数据的情况下,确定音频数据的起始端点,及在确定结束端点的情况下,上传起始端点与结束端点之间的音频数据。
具体地,起始端点用A表示,结束端点用B表示,那么,本实施方式中,起始端点A与结束端点B之间的音频数据,可以用[A,B]、(A,B]、(A、B]、(A,B)进行表述。
本实施方式的家电设备1000连接服务器,家电设备1000包括在线语音识别装置200。在线语音识别装置200可以对音频数据进行语音识别。在一个实施例中,起始端点A与结束端点B之间的音频数据用[A,B]来表示。在确定结束端点的情况下,才上传起始端点至结束端点的音频数据,这样在线语音识别装置200无需实时地对音频数据的每一帧进行处理,而是对所上传的起始端点至结束端点的一整段音频数据进行整体处理,这样可以降低在线语音识别装置200的运算,降低在线语音识别装置200的芯片的配置要求,从而降低家电设备1000的成本。
本实施方式中,请参阅图12,语音处理方法包括:
步骤S130,在确定音频数据的结束端点的预设时长内,再次确定结束端点的情况下,上传前一次所确定的结束端点至当前所确定结束端点之间的音频数据。
上述实施方式的语音处理方法可由本实施方式的语音处理装置100实现。其中,步骤S130可由处理器10实现。处理器10用于在确定音频数据的结束端点的预设时长内,再次确定结束端点的情况下,上传前一次所确定的结束端点至当前所确定结束端点之间的音频数据。
具体地,在接收到唤醒家电设备1000的唤醒词的情况下,处理器10不断地获取音频数据并通过上述实施方式的语音处理方法确定结束端点,在实际中,音频数据可能存在多个结束端点。本实施方式在确定音频数据的结束端点的预设时长内再次确定结束端点的情况下,上传前一次所确定的结束端点至当前所确定结束端点之间的音频数据。
本实施方式,前一次所确定的结束端点用C表示,当前所确定结束端点用D表示,那么,本实施方式中,前一次所确定的结束端点C与当前所确定结束端点D之间的音频数据,可以用[C,D]、(C,D]、(C,D]、(C,D)进行表述。
在一个实施例中,音频数据的起始端点为A,存在三个结束端点,第一个结束端点为B,第二个结束端点为C,第三个结束端点为D。在确定第一个结束端点B的情况下上述音频数据[A,B],在确定第二个端点C的情况下,上传音频数据(B,C],在确定第三个端点D的情况下,上传音频数据(C,D]。也就是说,已经上传过的音频数据不再重新上传。
需要说明的是,在超过预设时长的情况下,需要重新获取到唤醒词数据后,才会执行上述实施方式的语音处理方法。
请参阅图13,图13通过本实施方式的语音处理方法处理的音频数据示意图。曲线L1表示音频数据,曲线L2表示音频数据的每帧分贝(frame dB),曲线L3表示每帧分贝累计平均值(accumulate average)。L4表示每帧分贝累计平均值的下降速率(Sound DecreaseVelocity)。从图13可以看出,接收到唤醒家电设备1000的唤醒词的换醒指令(Wake upCommand Range),在确定结束端点(Voice End Point)情况下,上传在接收到唤醒家电设备1000的唤醒词的情况下对应的起始端点(Start Record)至结束端点(Voice End Point)的音频数据至在线语音识别装置200,音频数据开始点(Start Record)至当前结束端点(Voice End Point)的音频数据包括环境噪声(Ambient Noise)和语音数据(VoiceCommand Range)。在线语音识别装置200将语音数据识别为“广州的天气怎么样”。
在一个实施例中,家电设备1000为吸油烟机,吸油烟机通过无线网络模块连接服务器。吸油烟机包括在线语音识别装置200和语音处理装置100。吸油烟机预先存储有唤醒吸油烟机的唤醒词“开启语音”的预设音频数据。吸油烟机在接收到与唤醒词“开启语音”的预设音频数据匹配的音频数据的情况下,开始执行上述实施方式的语音处理方法。然后,吸油烟机根据接收到的音频数据确定第一个结束端点,语音处理装置100将在接收到与唤醒词“开启语音”的预设音频数据匹配的音频数据的起始端点至第一个结束端点的音频数据上述至在线语音识别装置200,在线语音识别装置200通过语音识别将音频数据识别为“将吸油烟机的风力调大”,吸油烟机识别到该语音对应的控制指令,然后根据控制指令将吸油烟机的风力调大。在预设时长内(例如3S),检测到第二个结束端点。语音处理装置100将第一个结束端点至第二个结束端点的音频数据上传在线语音识别装置200进行语音识别,在线语音识别装置200通过语音识别将音频数据识别为“将照明灯打开”,吸油烟机识别到该语音对应的控制指令,然后根据控制指令将照明灯打开。
请参阅图14,本实施方式还提供一种计算机可读存储介质300。计算机可读存储介质300可与本申请的语音处理装置100连接。计算机可读存储介质300存储有计算机程序。计算机程序被处理器10执行时实现上述任一实施方式的语音处理方法。
例如,请结合图1及图14,计算机程序被处理器10执行时实现以下步骤:
步骤S10,获取音频数据,并在确定音频数据包括家电设备1000的唤醒词数据的情况下,处理音频数据以获得音频数据的每帧分贝;
步骤S30,根据音频数据的每帧分贝获取每帧分贝对应的每帧分贝累计平均值;
步骤S50,计算多个每帧分贝累计平均值的下降速率;
步骤S70,在下降速率大于预设速率阈值的情况下,确定音频数据的结束端点。
上述计算机可读存储介质300中,通过获取每帧分贝对应的每帧分贝累计平均值,及计算多个每帧分贝累计平均值的下降速率,及在下降速率大于预设速率阈值的情况下,确定音频数据的结束端点,这样算法简单,准确性高,并且无需通过在线语音识别装置200确定语音数据的结束端点,而可以在家电设备1000的本地离线进行处理,这样对家电设备1000的芯片的要求配置低,成本低,也能减少周围噪声的影响。
在本说明书的描述中,参考术语“一个实施方式”、“一些实施方式”、“示意性实施方式”、“示例”、“具体示例”或“一些示例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理模块的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(控制方法),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在计算机存储器中。
应当理解,本发明的实施方式的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明的各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
尽管上面已经示出和描述了本发明的实施方式,可以理解的是,上述实施方式是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施实施进行变化、修改、替换和变型。
Claims (11)
1.一种语音处理方法,用于家电设备,其特征在于,所述语音处理方法包括:
获取音频数据,并在确定所述音频数据包括所述家电设备的唤醒词数据的情况下,处理所述音频数据以获得所述音频数据的每帧分贝;
根据所述音频数据的每帧分贝获取所述每帧分贝对应的每帧分贝累计平均值;
计算多个所述每帧分贝累计平均值的下降速率;
在所述下降速率大于预设速率阈值的情况下,确定所述音频数据的结束端点;处理所述音频数据以获得所述音频数据的每帧分贝,包括:
获取所述音频数据的每帧数据的多个采样数据的样本总数、每个所述采样数据对应的每个输出电压和所述音频数据的位深度;
根据所述样本总数、所述输出电压和所述位深度计算所述音频数据的每帧分贝。
2.根据权利要求1所述的语音处理方法,其特征在于,所述语音处理方法包括:
在确定所述音频数据包括所述家电设备的唤醒词数据的情况下,确定所述音频数据的起始端点;
计算以所述起始端点的预设帧长内的所述音频数据的平均每帧分贝。
3.根据权利要求1所述的语音处理方法,其特征在于,根据所述音频数据的每帧分贝获取所述每帧分贝对应的每帧分贝累计平均值,包括:
获取所述音频数据的当前每帧分贝,和前一每帧分贝的累计平均值;
根据所述当前每帧分贝和所述前一每帧分贝的累计平均值计算所述当前每帧分贝的累计平均值。
4.根据权利要求3所述的语音处理方法,其特征在于,根据所述当前每帧分贝和所述前一每帧分贝的累计平均值计算所述当前每帧分贝的累计平均值,包括:
获取第一权重及第二权重;
根据所述当前每帧分贝、所述前一每帧分贝的累计平均值、所述第一权重及所述第二权重计算所述当前每帧分贝的累计平均值。
5.根据权利要求4所述的语音处理方法,其特征在于,获取第一权重及第二权重,包括:
分析所述音频数据中的音节发音特征;
根据所述音节发音特征获取所述第一权重及所述第二权重。
6.根据权利要求1所述的语音处理方法,其特征在于,计算多个所述每帧分贝累计平均值的下降速率,包括:
按索引顺序存储多个所述每帧分贝累计平均值,每个所述每帧分贝累计平均值对应一个索引号;
查找存储的多个所述每帧分贝累计平均值中的最大值及所述最大值对应的所述索引号;
计算排序在所述最大值对应的所述索引号之后的所有所述每帧分贝累计平均值的总平均值;
计算所述最大值与所述总平均值的差值,所述差值作为所述多个所述每帧分贝累计平均值的下降速率。
7.根据权利要求1所述的语音处理方法,其特征在于,所述语音处理方法包括:
在确定所述音频数据包括所述家电设备的唤醒词数据的情况下,确定所述音频数据的起始端点;
在确定所述结束端点的情况下,上传所述起始端点与所述结束端点之间的音频数据。
8.根据权利要求7所述的语音处理方法,其特征在于,所述语音处理方法包括:
在确定所述音频数据的结束端点的预设时长内,再次确定所述结束端点的情况下,上传前一次所确定的所述结束端点至当前所确定所述结束端点之间的所述音频数据。
9.一种语音处理装置,其特征在于,包括处理器,所述处理器用于执行上述权利要求1-8任意一项所述的语音处理方法。
10.一种家电设备,其特征在于,包括权利要求9所述的语音处理装置。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-8中任意一项所述的语音处理方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010342433.0A CN111554287B (zh) | 2020-04-27 | 2020-04-27 | 语音处理方法及装置、家电设备和可读存储介质 |
PCT/CN2021/086134 WO2021218591A1 (zh) | 2020-04-27 | 2021-04-09 | 语音处理方法及装置、家电设备和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010342433.0A CN111554287B (zh) | 2020-04-27 | 2020-04-27 | 语音处理方法及装置、家电设备和可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111554287A CN111554287A (zh) | 2020-08-18 |
CN111554287B true CN111554287B (zh) | 2023-09-05 |
Family
ID=72004029
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010342433.0A Active CN111554287B (zh) | 2020-04-27 | 2020-04-27 | 语音处理方法及装置、家电设备和可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111554287B (zh) |
WO (1) | WO2021218591A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111554287B (zh) * | 2020-04-27 | 2023-09-05 | 佛山市顺德区美的洗涤电器制造有限公司 | 语音处理方法及装置、家电设备和可读存储介质 |
CN114679512A (zh) * | 2022-03-25 | 2022-06-28 | 深圳禾苗通信科技有限公司 | 老人智能手机通话实时降速方法及装置 |
CN115240659B (zh) * | 2022-09-21 | 2023-01-06 | 深圳市北科瑞声科技股份有限公司 | 分类模型训练方法、装置、计算机设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR19980031903A (ko) * | 1996-10-31 | 1998-07-25 | 김광호 | 음성 끝점 판별 방법 |
CN108172242A (zh) * | 2018-01-08 | 2018-06-15 | 深圳市芯中芯科技有限公司 | 一种改进的蓝牙智能云音箱语音交互端点检测方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7171357B2 (en) * | 2001-03-21 | 2007-01-30 | Avaya Technology Corp. | Voice-activity detection using energy ratios and periodicity |
KR100883652B1 (ko) * | 2006-08-03 | 2009-02-18 | 삼성전자주식회사 | 음성 구간 검출 방법 및 장치, 및 이를 이용한 음성 인식시스템 |
GB2450886B (en) * | 2007-07-10 | 2009-12-16 | Motorola Inc | Voice activity detector and a method of operation |
US9312826B2 (en) * | 2013-03-13 | 2016-04-12 | Kopin Corporation | Apparatuses and methods for acoustic channel auto-balancing during multi-channel signal extraction |
CN105023572A (zh) * | 2014-04-16 | 2015-11-04 | 王景芳 | 一种含噪语音端点鲁棒检测方法 |
US10360926B2 (en) * | 2014-07-10 | 2019-07-23 | Analog Devices Global Unlimited Company | Low-complexity voice activity detection |
KR20180084394A (ko) * | 2017-01-17 | 2018-07-25 | 삼성전자주식회사 | 발화 완료 감지 방법 및 이를 구현한 전자 장치 |
EP4060659B1 (en) * | 2017-05-12 | 2024-04-24 | Apple Inc. | Low-latency intelligent automated assistant |
CN111554287B (zh) * | 2020-04-27 | 2023-09-05 | 佛山市顺德区美的洗涤电器制造有限公司 | 语音处理方法及装置、家电设备和可读存储介质 |
-
2020
- 2020-04-27 CN CN202010342433.0A patent/CN111554287B/zh active Active
-
2021
- 2021-04-09 WO PCT/CN2021/086134 patent/WO2021218591A1/zh active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR19980031903A (ko) * | 1996-10-31 | 1998-07-25 | 김광호 | 음성 끝점 판별 방법 |
CN108172242A (zh) * | 2018-01-08 | 2018-06-15 | 深圳市芯中芯科技有限公司 | 一种改进的蓝牙智能云音箱语音交互端点检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111554287A (zh) | 2020-08-18 |
WO2021218591A1 (zh) | 2021-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111554287B (zh) | 语音处理方法及装置、家电设备和可读存储介质 | |
CN108320733B (zh) | 语音数据处理方法及装置、存储介质、电子设备 | |
US8468019B2 (en) | Adaptive noise modeling speech recognition system | |
CN110660413B (zh) | 语音活动侦测系统 | |
CN108896878B (zh) | 一种基于超声波的局部放电检测方法 | |
CN111880856B (zh) | 语音唤醒方法、装置、电子设备及存储介质 | |
JP2019533193A (ja) | 音声制御システム及びそのウェイクアップ方法、ウェイクアップ装置、並びに家電製品、コプロセッサ | |
US20070288238A1 (en) | Speech end-pointer | |
CN111294258A (zh) | 一种控制智能家居设备的语音交互系统及方法 | |
US9454976B2 (en) | Efficient discrimination of voiced and unvoiced sounds | |
US7177810B2 (en) | Method and apparatus for performing prosody-based endpointing of a speech signal | |
CN110992932B (zh) | 一种自学习的语音控制方法、系统及存储介质 | |
WO2014190496A1 (en) | Method and system for identifying location associated with voice command to control home appliance | |
KR20010034367A (ko) | 음성 인식에서 무음을 사용한 시스템 | |
CN112002315B (zh) | 一种语音控制方法、装置、电器设备、存储介质及处理器 | |
CN115331670B (zh) | 一种家用电器用离线语音遥控器 | |
JP2019053233A (ja) | 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム | |
CN111755025B (zh) | 一种基于音频特征的状态检测方法、装置及设备 | |
JP2000310993A (ja) | 音声検出装置 | |
JP4552368B2 (ja) | 機器制御システム、音声認識装置及び方法、並びにプログラム | |
CN110970019A (zh) | 智能家居系统的控制方法和装置 | |
CN111833869A (zh) | 一种应用于城市大脑的语音交互方法及系统 | |
CN101226741B (zh) | 一种活动语音端点的侦测方法 | |
CN117373465B (zh) | 一种语音频信号切换系统 | |
JPH11305794A (ja) | ピッチ検出装置及び情報媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |