CN105719642A - 连续长语音识别方法及系统、硬件设备 - Google Patents
连续长语音识别方法及系统、硬件设备 Download PDFInfo
- Publication number
- CN105719642A CN105719642A CN201610111643.2A CN201610111643A CN105719642A CN 105719642 A CN105719642 A CN 105719642A CN 201610111643 A CN201610111643 A CN 201610111643A CN 105719642 A CN105719642 A CN 105719642A
- Authority
- CN
- China
- Prior art keywords
- frame
- continuous
- section
- mute
- relief area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000009432 framing Methods 0.000 claims abstract description 31
- 230000008569 process Effects 0.000 claims abstract description 23
- 108010076504 Protein Sorting Signals Proteins 0.000 claims abstract description 3
- 230000009467 reduction Effects 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 9
- 238000011946 reduction process Methods 0.000 claims description 6
- 239000000872 buffer Substances 0.000 abstract description 10
- 238000010586 diagram Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明涉及语言信号识别技术领域,提供一种连续长语音识别方法及系统、硬件设备,以解决在连续长语音识别过程中,大段语音造成服务器缓冲区溢出的问题,该方法包括:按照预设的分帧时间长度对缓冲区内的数据进行分帧,识别各帧信号的类型;对于各个正常语音帧后的首个静音帧,计算连续的静音帧的总静音时间,如果总静音时间大于预设停顿时间阈值,则将所述连续的静音帧设置为停顿状态,分别将两个连续停顿状态之间的信号顺序保存在各个切片中。本发明提出的技术方案快速准确的将长语音切断成短语句切片,并在执行过程中丢弃长段不影响语音识别准确率的静音包,最后分段对各个切片进行识别,有效避免了大段语音造成服务器缓冲区溢出问题。
Description
技术领域
本发明属于语言信号识别技术领域,特别涉及一种连续长语音识别方法及系统、硬件设备。
背景技术
目前的语音识别领域,HMM(HiddenMarkovModel,隐马尔可夫模型)是语音识别的基础,语音识别中的主流RNN声学模型框架,主要还包含两部分:双向LSTMRNN和CTC输出层。双向RNN对当前语音帧进行判断时,要使用历史的语音信息和未来的语音信息,即需要语音有正确的开始帧和结束帧,才能正确识别,正确的开始帧必须是一句话的开始,它是数据的第一帧,正确的结束帧必须是一句话的结束,它是数据的最后一帧,只有满足上述条件才能把一句话识别完整。
但是,在进行语言识别时,语音识别电脑(或云端服务器)的缓冲有限,当语音数据到来时,需要在数据缓冲区等待识别,随着时间累计,必然造成电脑(或云端服务器)缓冲溢出,使电脑卡死(或服务器阻塞),目前语音识别方法为了防止以上情况,一般通过限制语音长度和限制数据量来解决,这会导致当连续语音超过限定值时被强行切断,从而造成不正确结束帧,强行切断帧的相关语音识别不准确,其后的音频数据则无法识别。
发明内容
【要解决的技术问题】
本发明的目的是提供一种连续长语音识别方法及系统、硬件设备,通过将连续语音切片成短语音数据序列进行识别,以解决在连续长语音识别过程中,大段语音造成服务器缓冲区溢出的问题。
【技术方案】
本发明是通过以下技术方案实现的。
本发明首先涉及一种连续长语音识别方法,该方法包括步骤:
A、初始化缓冲区,设置分帧时间长度、停顿时间阈值;
B、将待识别的连续长语音读入缓冲区并对缓冲区内的数据进行降噪处理;
C、按照预设的分帧时间长度对缓冲区内的数据进行分帧,识别各帧信号的类型,所述信号类型包括正常语音帧和静音帧;
D、对于各个正常语音帧后的首个静音帧,计算连续的静音帧的总静音时间,如果总静音时间大于预设停顿时间阈值,则将所述连续的静音帧设置为停顿状态,分别将两个连续停顿状态之间的语音信号保存在各个切片中,并在各个切片中追加一段静音帧;
E、分别对各个切片进行识别。
上述步骤中,通过步骤D,将长语音切断成短语句切片,并在执行过程中丢弃长段不影响语音识别准确率的静音包,有效避免了大段语音造成服务器缓冲区溢出问题。具体地,对于连续的长语音信号,通过步骤C的分帧得到了信号类型为正常语音帧或静音帧的分段信号,通过对连续的静音帧的总静音时间进行判断,从而判断该连续的静音帧是否为静音包(即语音信号是否为停顿状态),对于连续的两个静音包之间的信号,将其保存在切片中,通过步骤E进行短语音信号识别。
作为一种优选的实施方式,所述步骤B具体包括:首先对缓冲区内的数据进行快速傅立叶变换,并将非人声频率部分的声音系数设置为0,然后进行小波变换,并根据场景调整相应尺度小波系数,然后将处理后得到的数据替换原缓冲区的数据。
作为另一种优选的实施方式,所述步骤C根据各帧信号的平均能量值、过零率对该信号的类型进行识别。
作为另一种优选的实施方式,所述步骤A中预设的的停顿时间阈值为100~150ms。
作为另一种优选的实施方式,所述步骤D中追加的静音帧的长度为30~50ms。
本发明还涉及一种连续长语音识别系统,包括初始化模块、降噪模块、分帧模块、切片模块、分片识别模块,
所述初始化模块被配置成:初始化缓冲区,设置分帧时间长度、停顿时间阈值;
所述降噪模块被配置成:将待识别的连续长语音读入缓冲区并对缓冲区内的数据进行降噪处理;
所述分帧模块被配置成:按照预设的分帧时间长度对缓冲区内的数据进行分帧,识别各帧信号的类型,所述信号类型包括正常语音帧和静音帧;
所述切片模块被配置成:对于各个正常语音帧后的首个静音帧,计算连续的静音帧的总静音时间,如果总静音时间大于预设停顿时间阈值,则将所述连续的静音帧设置为停顿状态,分别将两个连续停顿状态之间的语音信号保存在各个切片中,并在各个切片中追加一段静音帧;
所述分片识别模块被配置成:分别对各个切片进行识别。
作为一种优选的实施方式,所述降噪模块具体被配置成:首先对缓冲区内的数据进行快速傅立叶变换,并将非人声频率部分的声音系数设置为0,然后进行小波变换,并根据场景调整相应尺度小波系数,然后将处理后得到的数据替换原缓冲区的数据。
作为另一种优选的实施方式,所述分帧模块根据各帧信号的平均能量值、过零率对该信号的类型进行识别。
作为另一种优选的实施方式,所述初始化模块预设的停顿时间阈值为100~150ms。
作为另一种优选的实施方式,所述切片模块中追加的静音帧的长度为30~50ms。
本发明还涉及一种硬件设备,所述硬件设备被配置成安装有上述的任一连续长语音识别系统以对连续长语音进行识别。
【有益效果】
本发明提出的技术方案具有以下有益效果:
本发明综合运用快速傅立叶变换和小波变换,并结合人类语言特点,准确判断人类语句间隙,快速准确的将长语音切断成短语句切片,并在执行过程中丢弃长段不影响语音识别准确率的静音包,最后分段对各个切片进行识别,有效避免了大段语音造成服务器缓冲区溢出问题。同时,切片满足语音引擎识别所要求的开始帧和结束帧的约束,识别率等同于短语音。
附图说明
图1为本发明的实施例一提供的连续长语音识别系统的原理框图。
图2为本发明的实施例二提供的连续长语音识别方法中的切片编号流程示意图。
图3为本发明的实施例二提供的连续长语音识别方法中的分组切片识别流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的具体实施方式进行清楚、完整的描述。
实施例一
图1为本发明实施例一提供的连续长语音识别系统的原理框图。如图1所示,该连续长语音识别系统包括初始化模块、降噪模块、分帧模块、切片模块、分片识别模块。
本实施例中,初始化模块被配置成:初始化缓冲区,设置分帧时间长度、停顿时间阈值。具体地,初始化模块预设的停顿时间阈值为120ms。
本实施例中,降噪模块用于将待识别的连续长语音读入缓冲区并对缓冲区内的数据进行降噪处理。降噪模块具体被配置成:首先对缓冲区内的数据进行快速傅立叶变换,并将非人声频率部分的声音系数设置为0(人的发声频率在100Hz到10000Hz范围内),以最大限度滤除人声外噪声,然后进行小波变换,并根据场景预设阀值调整相应尺度小波系数到预设小波系数,进一步降低噪声,将小波变换得到的数据替换原缓冲区的数据。
本实施例中,分帧模块被配置成:按照预设的分帧时间长度对缓冲区内的数据进行分帧,识别各帧信号的类型,其中信号类型包括正常语音帧和静音帧。分帧模块根据各帧信号的平均能量值、过零率、超预设阈值次数对该信号的类型进行识别。
本实施例中,切片模块被配置成:对于各个正常语音帧后的首个静音帧,计算连续的静音帧的总静音时间,如果总静音时间大于预设停顿时间阈值,则将该连续的静音帧设置为停顿状态,分别将两个连续停顿状态之间的信号顺序保存在各个切片中。具体地,切片模块的处理流程可以参考下述具体方法实施例。
本实施例中,分片识别模块被配置成:分别对各个切片进行识别。
采用实施例一中的系统实现的连续长语音识别方法可以参考下述具体方法实施例。
实施例二
实施例二提供一种连续长语音识别方法,该方法包括切片编号流程和分组切片识别流程。
图2为本发明实施例二提供的连续长语音识别方法中的切片编号流程示意图。如图2所示,切片编号流程包括以下步骤:
1.1:初始化缓冲区,设置分帧时间长度、停顿时间阈值。具体地,预设的停顿时间阈值为120ms。具体地,在内存中开辟一段缓冲区,并分成百字节级的小段读入待识别的音频数据,在读入音频数据段(实际读入字节数会小于等于设定值)后计算缓冲区是否已满,如果缓冲区未满且未到音频数据尾端则继续读入音频数据,如果缓冲区满或已经到数据尾则进入步骤1.2,已经到数据尾时需要设置到尾标志。
1.2:该步骤对缓冲区内的数据进行降噪处理,具体地,对缓冲区内的数据进行快速傅立叶变换,并将非人声频率部分的声音系数设置为0(人的发声频率在100Hz到10000Hz范围内),以最大限度滤除人声外噪声,结果数据保存回原缓冲区。接着对缓冲区内的数据进行小波变换,并根据场景予设阀值调整相应尺度小波系数到予设值,进一步降低噪声,结果数据保存回原缓冲区。
1.3:检测缓冲区是否有未处理数据,如果有未处理数据则转入步骤1.4,否则转入步骤1.7。
1.4:按照预设的分帧时间长度对缓冲区内的数据进行分帧,识别各帧信号的类型,其中信号类型包括正常语音帧和静音帧。分帧模块根据各帧信号的平均能量值、过零率、超预设阈值次数对该信号的类型进行识别。由于采取了分步骤1.2的降噪操作,因此该步骤很容易区分正常语音帧和静音帧。该步骤中,如果统计结果为静音帧,则进入步骤1.5;如果统计结果为正常语音帧,则通过步骤1.6将该正常语音帧写入切片。
1.5:对连续的静音帧数量进行统计,计算连续的静音帧的总体静音时间,如果静音时间大于等于停顿时间阈值(人类语音,东方语系如中文的字与字之间会有停顿,大约2~20ms之间,而西方语系如英文单词与单词之间没有停顿。人类任何语系句与句之间都有停顿,自然语音停顿大于100ms),即认为该连续的静音帧处于停顿状态,检查是否已经存在新开辟的切片,如果已经存在新开辟的切片,则给该切片编号,把一定数量(长度30~50ms)连续的静音帧数据追加到该切片中,并关闭该切片,然后返回至步骤1.3;如果静音时间小于停顿时间阈值,则通过步骤1.6将静音帧写入切片。从步骤1.5可知,本实施例将处于停顿状态的静音帧作为各个切片编号的界限。
1.6:检查是否已经存在新开辟的切片,如果已经存在新开辟的切片,则向切片追加数据,然后回到分步骤3;如果不存在新开辟的切片,则新开辟一个切片,并给该切片写数据,然后回到步骤1.3。
1.7:当缓冲区无未处理数据时,检查是否到尾标志,如果到达尾标志,则回到步骤1.1,重新填充缓冲区数据。如果已经到数据尾,检查是否已经存在新开辟的切片,如果已经存在新开辟的切片,则给切片编号,关闭切片,然后结束切片编号流程进入分组切片识别流程。如果已经到数据尾且无新开辟的切片,则直接结束切片编号流程进入分组切片识别流程。
图3为本发明实施例二提供的连续长语音识别方法中的分组切片识别流程示意图。如图3所示分组切片识别流程包括以下步骤:
2.1:将切片编号计数器设置为“0”。
2.2:按切片编号发送切片数据到识别引擎(本地或云端服务器)进行识别,等待周期数计数器设置为“0”。其中识别引擎采用方法进行识别,由于该识别方法是针对短语音的识别,为本领域的现有技术,因此本实施例不对其进行详细描述。
2.3:设置一个等待周期值,到达预设识别时间则将等待周期数计数器加1。
2.4:判断识别引擎是否有结果返回,如果有结果返回则转入步骤2.5,如果无结果返回则转入步骤2.7。
2.5:如果返回标志为识别成功,则转入步骤2.6,如果返回标志为识别错误,则转入步骤2.8。
2.6:返回识别结果,判断切片编号是否为最后编号,如果是最后编号,结束分组切片识别流程;如果不是最后编号,编号计数器加1,转入步骤2.2。
2.7:将等待计数器的值与预设的等待周期值进行比较,如果等待计数器的值大于预设的等待周期值即判定超时,则转入步骤2.2重发该切片至识别引擎进行识别;否则转入步骤2.3继续等待识别引擎识别。
2.8:如果返回标志为识别错误,则判断错误类型,如果类型为可以重发,则转入步骤2.2重发该切片至识别引擎进行识别;否则返回识别错误的切片编号。
从以上实施例可以看出,本发明实施例综合运用快速傅立叶变换和小波变换,并结合人类语言特点,准确判断人类语句间隙,快速准确的将长语音切断成短语句切片,并在执行过程中丢弃长段不影响语音识别准确率的静音包,最后分段对各个切片进行识别,有效避免了大段语音造成服务器缓冲区溢出问题。同时,切片满足语音引擎识别所要求的开始帧和结束帧的约束,识别率等同于短语音的识别率。另外,本发明实施例在切片语音识别时采用重发机制,有效减低了网络对云端服务器识别过程中的不利影响。
需要说明,上述描述的实施例是本发明的一部分实施例,而不是全部实施例,也不是对本发明的限制。基于本发明的实施例,本领域普通技术人员在不付出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
Claims (10)
1.一种连续长语音识别方法,其特征在于包括步骤:
A、初始化缓冲区,设置分帧时间长度、停顿时间阈值;
B、将待识别的连续长语音读入缓冲区并对缓冲区内的数据进行降噪处理;
C、按照预设的分帧时间长度对缓冲区内的数据进行分帧,识别各帧信号的类型,所述信号类型包括正常语音帧和静音帧;
D、对于各个正常语音帧后的首个静音帧,计算连续的静音帧的总静音时间,如果总静音时间大于预设停顿时间阈值,则将所述连续的静音帧设置为停顿状态,分别将两个连续停顿状态之间的语音信号保存在各个切片中,并在各个切片中追加一段静音帧;
E、分别对各个切片进行识别。
2.根据权利要求1所述的连续长语音识别方法,其特征在于所述步骤B具体包括:首先对缓冲区内的数据进行快速傅立叶变换,并将非人声频率部分的声音系数设置为0,然后进行小波变换,并根据场景调整相应尺度小波系数,然后将处理后得到的数据替换原缓冲区的数据。
3.根据权利要求1所述的连续长语音识别方法,其特征在于所述步骤C根据各帧信号的平均能量值、过零率对该信号的类型进行识别。
4.根据权利要求1所述的连续长语音识别方法,其特征在于所述步骤A中的停顿时间阈值为100~150ms。
5.根据权利要求1或4所述的连续长语音识别方法,其特征在于所述步骤D中追加的静音帧的长度为30~50ms。
6.一种连续长语音识别系统,其特征在于包括初始化模块、降噪模块、分帧模块、切片模块、分片识别模块,
所述初始化模块被配置成:初始化缓冲区,设置分帧时间长度、停顿时间阈值;
所述降噪模块被配置成:将待识别的连续长语音读入缓冲区并对缓冲区内的数据进行降噪处理;
所述分帧模块被配置成:按照预设的分帧时间长度对缓冲区内的数据进行分帧,识别各帧信号的类型,所述信号类型包括正常语音帧和静音帧;
所述切片模块被配置成:对于各个正常语音帧后的首个静音帧,计算连续的静音帧的总静音时间,如果总静音时间大于预设停顿时间阈值,则将所述连续的静音帧设置为停顿状态,分别将两个连续停顿状态之间的信号顺序保存在各个切片中,并在各个切片中追加一段静音帧;
所述分片识别模块被配置成:分别对各个切片进行识别。
7.根据权利要求6所述的连续长语音识别系统,其特征在于所述降噪模块具体被配置成:首先对缓冲区内的数据进行快速傅立叶变换,并将非人声频率部分的声音系数设置为0,然后进行小波变换,并根据场景调整相应尺度小波系数,然后将处理后得到的数据替换原缓冲区的数据。
8.根据权利要求6所述的连续长语音识别系统,其特征在于所述分帧模块根据各帧信号的平均能量值、过零率对该信号的类型进行识别。
9.根据权利要求6所述的连续长语音识别系统,其特征在于所述初始化模块预设的停顿时间阈值为100~150ms,所述切片模块追加的静音帧的长度为30~50ms。
10.一种硬件设备,其特征在于:所述硬件设备被配置成安装有权利要求6~9中任一所述的系统以对连续长语音进行识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610111643.2A CN105719642A (zh) | 2016-02-29 | 2016-02-29 | 连续长语音识别方法及系统、硬件设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610111643.2A CN105719642A (zh) | 2016-02-29 | 2016-02-29 | 连续长语音识别方法及系统、硬件设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105719642A true CN105719642A (zh) | 2016-06-29 |
Family
ID=56156173
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610111643.2A Withdrawn CN105719642A (zh) | 2016-02-29 | 2016-02-29 | 连续长语音识别方法及系统、硬件设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105719642A (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106373581A (zh) * | 2016-09-28 | 2017-02-01 | 成都奥克特科技有限公司 | 语音信号的数据编码处理方法 |
CN106504773A (zh) * | 2016-11-08 | 2017-03-15 | 上海贝生医疗设备有限公司 | 一种可穿戴装置及语音与活动监测系统 |
CN106782506A (zh) * | 2016-11-23 | 2017-05-31 | 语联网(武汉)信息技术有限公司 | 一种将录音音频分割成段的方法 |
CN106971723A (zh) * | 2017-03-29 | 2017-07-21 | 北京搜狗科技发展有限公司 | 语音处理方法和装置、用于语音处理的装置 |
CN107040359A (zh) * | 2017-05-08 | 2017-08-11 | 海能达通信股份有限公司 | 一种语音呼叫过程中携带随路信令的方法、装置及设备 |
CN107393526A (zh) * | 2017-07-19 | 2017-11-24 | 腾讯科技(深圳)有限公司 | 语音静音检测方法、装置、计算机设备和存储介质 |
CN107889028A (zh) * | 2016-09-30 | 2018-04-06 | 联想(新加坡)私人有限公司 | 用于调节音量的装置、方法及计算机可读存储介质 |
CN108090051A (zh) * | 2017-12-20 | 2018-05-29 | 深圳市沃特沃德股份有限公司 | 连续长语音文件的翻译方法与翻译机 |
CN108446389A (zh) * | 2018-03-22 | 2018-08-24 | 平安科技(深圳)有限公司 | 语音消息搜索显示方法、装置、计算机设备及存储介质 |
CN109448455A (zh) * | 2018-12-20 | 2019-03-08 | 广东小天才科技有限公司 | 一种实时纠错的背诵方法及家教设备 |
CN109671425A (zh) * | 2018-12-29 | 2019-04-23 | 广州酷狗计算机科技有限公司 | 音频分类方法、装置及存储介质 |
CN110246500A (zh) * | 2019-07-12 | 2019-09-17 | 携程旅游信息技术(上海)有限公司 | 基于录音文件的语音识别方法及系统 |
CN110335612A (zh) * | 2019-07-11 | 2019-10-15 | 招商局金融科技有限公司 | 基于语音识别的会议记录生成方法、装置及存储介质 |
CN110491370A (zh) * | 2019-07-15 | 2019-11-22 | 北京大米科技有限公司 | 一种语音流识别方法、装置、存储介质及服务器 |
CN110751942A (zh) * | 2018-07-20 | 2020-02-04 | 北京京东金融科技控股有限公司 | 一种识别特征声音的方法和装置 |
CN111899726A (zh) * | 2020-07-28 | 2020-11-06 | 上海喜日电子科技有限公司 | 音频处理方法、装置、电子设备及存储介质 |
CN112311937A (zh) * | 2020-09-25 | 2021-02-02 | 厦门天聪智能软件有限公司 | 一种基于sip协议抓包和语音识别的客服实时质检方法和系统 |
CN112435669A (zh) * | 2020-11-19 | 2021-03-02 | 福州灵医科技有限公司 | 一种机器人多轮对话语音交互方法、系统和终端设备 |
CN113254251A (zh) * | 2021-06-23 | 2021-08-13 | 长沙联远电子科技有限公司 | 一种用于音频dsp数据的防溢出方法 |
CN114267358A (zh) * | 2021-12-17 | 2022-04-01 | 北京百度网讯科技有限公司 | 音频处理方法、装置、设备、存储介质及程序 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IT1315917B1 (it) * | 2000-05-10 | 2003-03-26 | Multimedia Technologies Inst M | Metodo di rivelazione di attivita' vocale e metodo per lasegmentazione di parole isolate, e relativi apparati. |
CN1964408A (zh) * | 2005-11-12 | 2007-05-16 | 鸿富锦精密工业(深圳)有限公司 | 静音处理装置及方法 |
CN101021854A (zh) * | 2006-10-11 | 2007-08-22 | 鲍东山 | 基于内容的音频分析系统 |
CN101656078A (zh) * | 2009-08-26 | 2010-02-24 | 深圳市冠旭电子有限公司 | 一种噪音处理方法、装置及系统 |
CN103581158A (zh) * | 2012-08-10 | 2014-02-12 | 百度在线网络技术(北京)有限公司 | 一种语音数据的处理方法及系统 |
CN104916283A (zh) * | 2015-06-11 | 2015-09-16 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
-
2016
- 2016-02-29 CN CN201610111643.2A patent/CN105719642A/zh not_active Withdrawn
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IT1315917B1 (it) * | 2000-05-10 | 2003-03-26 | Multimedia Technologies Inst M | Metodo di rivelazione di attivita' vocale e metodo per lasegmentazione di parole isolate, e relativi apparati. |
CN1964408A (zh) * | 2005-11-12 | 2007-05-16 | 鸿富锦精密工业(深圳)有限公司 | 静音处理装置及方法 |
CN101021854A (zh) * | 2006-10-11 | 2007-08-22 | 鲍东山 | 基于内容的音频分析系统 |
CN101656078A (zh) * | 2009-08-26 | 2010-02-24 | 深圳市冠旭电子有限公司 | 一种噪音处理方法、装置及系统 |
CN103581158A (zh) * | 2012-08-10 | 2014-02-12 | 百度在线网络技术(北京)有限公司 | 一种语音数据的处理方法及系统 |
CN104916283A (zh) * | 2015-06-11 | 2015-09-16 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106373581A (zh) * | 2016-09-28 | 2017-02-01 | 成都奥克特科技有限公司 | 语音信号的数据编码处理方法 |
CN107889028A (zh) * | 2016-09-30 | 2018-04-06 | 联想(新加坡)私人有限公司 | 用于调节音量的装置、方法及计算机可读存储介质 |
CN106504773A (zh) * | 2016-11-08 | 2017-03-15 | 上海贝生医疗设备有限公司 | 一种可穿戴装置及语音与活动监测系统 |
CN106782506A (zh) * | 2016-11-23 | 2017-05-31 | 语联网(武汉)信息技术有限公司 | 一种将录音音频分割成段的方法 |
CN106971723A (zh) * | 2017-03-29 | 2017-07-21 | 北京搜狗科技发展有限公司 | 语音处理方法和装置、用于语音处理的装置 |
CN107040359A (zh) * | 2017-05-08 | 2017-08-11 | 海能达通信股份有限公司 | 一种语音呼叫过程中携带随路信令的方法、装置及设备 |
CN107393526A (zh) * | 2017-07-19 | 2017-11-24 | 腾讯科技(深圳)有限公司 | 语音静音检测方法、装置、计算机设备和存储介质 |
CN107393526B (zh) * | 2017-07-19 | 2024-01-02 | 腾讯科技(深圳)有限公司 | 语音静音检测方法、装置、计算机设备和存储介质 |
CN108090051A (zh) * | 2017-12-20 | 2018-05-29 | 深圳市沃特沃德股份有限公司 | 连续长语音文件的翻译方法与翻译机 |
CN108446389A (zh) * | 2018-03-22 | 2018-08-24 | 平安科技(深圳)有限公司 | 语音消息搜索显示方法、装置、计算机设备及存储介质 |
CN108446389B (zh) * | 2018-03-22 | 2021-12-24 | 平安科技(深圳)有限公司 | 语音消息搜索显示方法、装置、计算机设备及存储介质 |
CN110751942A (zh) * | 2018-07-20 | 2020-02-04 | 北京京东金融科技控股有限公司 | 一种识别特征声音的方法和装置 |
CN109448455A (zh) * | 2018-12-20 | 2019-03-08 | 广东小天才科技有限公司 | 一种实时纠错的背诵方法及家教设备 |
CN109671425B (zh) * | 2018-12-29 | 2021-04-06 | 广州酷狗计算机科技有限公司 | 音频分类方法、装置及存储介质 |
CN109671425A (zh) * | 2018-12-29 | 2019-04-23 | 广州酷狗计算机科技有限公司 | 音频分类方法、装置及存储介质 |
CN110335612A (zh) * | 2019-07-11 | 2019-10-15 | 招商局金融科技有限公司 | 基于语音识别的会议记录生成方法、装置及存储介质 |
CN110246500A (zh) * | 2019-07-12 | 2019-09-17 | 携程旅游信息技术(上海)有限公司 | 基于录音文件的语音识别方法及系统 |
CN110491370A (zh) * | 2019-07-15 | 2019-11-22 | 北京大米科技有限公司 | 一种语音流识别方法、装置、存储介质及服务器 |
CN111899726A (zh) * | 2020-07-28 | 2020-11-06 | 上海喜日电子科技有限公司 | 音频处理方法、装置、电子设备及存储介质 |
CN112311937A (zh) * | 2020-09-25 | 2021-02-02 | 厦门天聪智能软件有限公司 | 一种基于sip协议抓包和语音识别的客服实时质检方法和系统 |
CN112435669A (zh) * | 2020-11-19 | 2021-03-02 | 福州灵医科技有限公司 | 一种机器人多轮对话语音交互方法、系统和终端设备 |
CN112435669B (zh) * | 2020-11-19 | 2024-04-02 | 福州灵医科技有限公司 | 一种机器人多轮对话语音交互方法、系统和终端设备 |
CN113254251A (zh) * | 2021-06-23 | 2021-08-13 | 长沙联远电子科技有限公司 | 一种用于音频dsp数据的防溢出方法 |
CN114267358A (zh) * | 2021-12-17 | 2022-04-01 | 北京百度网讯科技有限公司 | 音频处理方法、装置、设备、存储介质及程序 |
CN114267358B (zh) * | 2021-12-17 | 2023-12-12 | 北京百度网讯科技有限公司 | 音频处理方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105719642A (zh) | 连续长语音识别方法及系统、硬件设备 | |
CN111968679B (zh) | 情感识别方法、装置、电子设备及存储介质 | |
US9530401B2 (en) | Apparatus and method for reporting speech recognition failures | |
KR101417975B1 (ko) | 오디오 레코드의 엔드포인트를 자동 감지하는 방법 및 시스템 | |
KR101054704B1 (ko) | 음성 활성도 검출 시스템 및 방법 | |
US6615170B1 (en) | Model-based voice activity detection system and method using a log-likelihood ratio and pitch | |
CN105374352B (zh) | 一种语音激活方法及系统 | |
US6618702B1 (en) | Method of and device for phone-based speaker recognition | |
Nanjo et al. | Language model and speaking rate adaptation for spontaneous presentation speech recognition | |
US7269561B2 (en) | Bandwidth efficient digital voice communication system and method | |
WO2014107141A1 (en) | Speech analytics system and methodology with accurate statistics | |
CN109065075A (zh) | 一种语音处理方法、装置、系统及计算机可读存储介质 | |
WO2018192186A1 (zh) | 语音识别方法及装置 | |
CN111508498A (zh) | 对话式语音识别方法、系统、电子设备和存储介质 | |
CN109119070A (zh) | 一种语音端点检测方法、装置、设备及存储介质 | |
CN111081219A (zh) | 一种端到端的语音意图识别方法 | |
CN106898362A (zh) | 基于核主成分分析改进Mel滤波器的语音特征提取方法 | |
CN110853621B (zh) | 语音顺滑方法、装置、电子设备及计算机存储介质 | |
CN109215647A (zh) | 语音唤醒方法、电子设备及非暂态计算机可读存储介质 | |
CN112614514A (zh) | 有效语音片段检测方法、相关设备及可读存储介质 | |
CN1932976B (zh) | 一种实现视音频处理中字幕与语音同步的方法和系统 | |
JPH0341838B2 (zh) | ||
CN109376224B (zh) | 语料过滤方法与装置 | |
Pradhan et al. | Estimating semantic confidence for spoken dialogue systems | |
CN112151042B (zh) | 声纹识别方法、装置和系统、计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20160629 |