CN105513590A - 语音识别的方法和装置 - Google Patents
语音识别的方法和装置 Download PDFInfo
- Publication number
- CN105513590A CN105513590A CN201510819075.7A CN201510819075A CN105513590A CN 105513590 A CN105513590 A CN 105513590A CN 201510819075 A CN201510819075 A CN 201510819075A CN 105513590 A CN105513590 A CN 105513590A
- Authority
- CN
- China
- Prior art keywords
- sampling rate
- voice messaging
- acoustic feature
- feature information
- acoustic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000005070 sampling Methods 0.000 claims abstract description 186
- 238000001228 spectrum Methods 0.000 claims description 20
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 8
- 230000000306 recurrent effect Effects 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种语音识别的方法和装置,其中,语音识别的方法包括以下步骤:接收用户通过终端输入的语音信息和终端所处的网络信息;根据网络信息确定语音信息对应的采样率,其中,采样率包括第一采样率和第二采样率,第一采样率大于第二采样率;当语音信息对应的采样率为第一采样率时,根据第一采样率对应的声学模型对语音信息进行识别;以及当语音信息对应的采样率为第二采样率时,对语音信息进行预处理,并根据声学模型对预处理后的语音信息进行识别。本发明实施例的语音识别的方法,解决了分别训练生成不同采样率对应的声学模型,训练语料需求量大,训练所需的时间成本高的问题,且提升了语音识别的准确率。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语音识别的方法和装置。
背景技术
语音识别技术,是一种能够将用户输入的语音转换成文本的技术。随着科技的不断进步,语音识别技术的应用也越来越广泛。语音识别系统主要通过接收用户输入的语音,基于训练的声学模型对语音进行识别,从而获得语音识别结果。
目前,对声学模型的训练主要根据不同的采样率分别对训练语料进行训练,例如采样率为16khz的训练语料,生成的模型为16k的声学模型;采样率为8khz的,生成的模型为8k的声学模型。
但是,分别训练生成声学模型,训练语料需求量大,训练所需的时间成本高,且采样率低的声学模型的语音识别准确率低。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的一个目的在于提出一种语音识别的方法,该方法能够解决分别训练生成不同采样率对应的声学模型,训练语料需求量大,训练所需的时间成本高的问题,且提升语音识别的准确率。
本发明的第二个目的在于提出一种语音识别的装置。
为了实现上述目的,本发明第一方面实施例提出了一种语音识别的方法,包括以下步骤:接收用户通过终端输入的语音信息和所述终端所处的网络信息;根据所述网络信息确定所述语音信息对应的采样率,其中,所述采样率包括第一采样率和第二采样率,所述第一采样率大于所述第二采样率;当所述语音信息对应的采样率为第一采样率时,根据所述第一采样率对应的声学模型对所述语音信息进行识别;以及当所述语音信息对应的采样率为第二采样率时,对所述语音信息进行预处理,并根据所述声学模型对预处理后的所述语音信息进行识别。
本发明实施例的语音识别的方法,通过接收用户通过终端输入的语音信息和终端所处的网络信息,然后根据网络信息确定语音信息对应的采样率,当语音信息对应的采样率为第一采样率时,直接根据声学模型对语音信息进行识别,当语音信息对应的采样率为第二采样率时,对语音信息进行预处理后,再根据声学模型对语音信息进行识别,解决了分别训练生成不同采样率对应的声学模型,训练语料需求量大,训练所需的时间成本高的问题,且提升了语音识别的准确率。
本发明第二方面实施例提出了一种语音识别的装置,包括:接收模块,用于接收用户通过终端输入的语音信息和所述终端所处的网络信息;确定模块,用于根据所述网络信息确定所述语音信息对应的采样率,其中,所述采样率包括第一采样率和第二采样率,所述第一采样率大于所述第二采样率;第一识别模块,用于当所述语音信息对应的采样率为第一采样率时,根据所述第一采样率对应的声学模型对所述语音信息进行识别;以及第二识别模块,用于当所述语音信息对应的采样率为第二采样率时,对所述语音信息进行预处理,并根据所述声学模型对预处理后的所述语音信息进行识别。
本发明实施例的语音识别的装置,通过接收用户通过终端输入的语音信息和终端所处的网络信息,然后根据网络信息确定语音信息对应的采样率,当语音信息对应的采样率为第一采样率时,直接根据声学模型对语音信息进行识别,当语音信息对应的采样率为第二采样率时,对语音信息进行预处理后,再根据声学模型对语音信息进行识别,解决了分别训练生成不同采样率对应的声学模型,训练语料需求量大,训练所需的时间成本高的问题,且提升了语音识别的准确率。
附图说明
图1是根据本发明一个实施例的语音识别的方法的流程图。
图2是根据本发明一个实施例的语音识别的装置的结构示意图一。
图3是根据本发明一个实施例的语音识别的装置的结构示意图二。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的语音识别的方法和装置。
图1是根据本发明一个实施例的语音识别的方法的流程图。
如图1所示,语音识别的方法可包括:
S1、接收用户通过终端输入的语音信息和终端所处的网络信息。
其中,网络信息可包括2G网络、3G网络、4G网络等。具体地,用户可通过终端输入一段语音信息,然后终端可将该语音信息与该终端所处的网络信息一起上传至服务器。举例来说,用户开启手机的麦克风功能,并输入语音信息“搜一下附近的好吃的”,则手机可将该语音信息发送给服务器。同时,如果该手机使用的是移动4G网络,则可将该网络信息也发送给服务器。
S2、根据网络信息确定语音信息对应的采样率。
其中,采样率包括第一采样率和第二采样率,第一采样率大于第二采样率。具体地,服务器在收到上述语音信息和网络信息后,可根据网络信息确定语音信息对应的采样率。举例来说,如果终端使用的网络信息为4G或3G网络,则可确定语音信息对应的采样率为16khz;如果终端使用的网络信息为2G网络,则可确定语音信息对应的采样率为8khz。
S3、当语音信息对应的采样率为第一采样率时,根据第一采样率对应的声学模型对语音信息进行识别。
其中,第一采样率对应的声学模型主要通过LSTM(Long-ShortTermMemory,时间递归神经网络)训练获得。例如,假设第一采样率为16khz,则可以16khz对语音信息进行采样,然后提取16khz对应的声学特征,再根据已训练好的16khz的声学模型对语音信息进行识别,从而生成对应的识别结果。
S4、当语音信息对应的采样率为第二采样率时,对语音信息进行预处理,并根据声学模型对预处理后的语音信息进行识别。
具体地,当语音信息对应的采样率为第二采样率时,可提取语音信息在第二采样率时的声学特征信息,然后基于频谱扩展模型将第二采样率时的声学特征信息转换为第一采样率时的声学特征信息。在此之后,可将转换后的第一采样率时的声学特征信息作为输入,并基于声学模型输出对应的识别结果。例如,假设第二采样率为8khz,第一采样率为16khz,则可以8khz对语音信息进行采样,然后提取8khz对应的声学特征,再根据频谱扩展模型将提取的8khz对应的声学特征转换为16khz对应的声学特征,最后根据已训练好的16khz的声学模型对语音信息进行识别,从而生成对应的识别结果。
其中,频谱扩展模型为通过采集大量的第一采样率的训练语料,对训练语料进行训练获得的。具体地,可对训练语料进行下采样以获取训练语料在第二采样率时的声学特征信息,再根据回归神经网络建立训练语料在第一采样率时的声学特征信息与在第二采样率时的声学特征信息之间的映射关系,从而生成频谱扩展模型。举例来说,首先可采集大量的采样率为16khz的训练语料,然后对该训练语料进行下采样,提取训练语料在采样率为8khz时的声学特征,将该声学特征作为输入代入至回归神经网络,例如DNN(DeepNeuralNetworks,深度神经网络),从而获得扩展为采样率为16khz的声学特征,以此建立采样率为8khz时的声学特征与采样率为16khz时的声学特征两者之间的映射关系,然后将映射关系保存,从而生成频谱扩展模型。
另外,在将第二采样率时的声学特征扩展为第一采样率时的声学特征之后,可将扩展后的声学特征加入至原有的第一采样率对应的声学模型中进行训练,从而使得训练后的声学模型准确率更高。
本发明实施例的语音识别的方法,通过接收用户通过终端输入的语音信息和终端所处的网络信息,然后根据网络信息确定语音信息对应的采样率,当语音信息对应的采样率为第一采样率时,直接根据声学模型对语音信息进行识别,当语音信息对应的采样率为第二采样率时,对语音信息进行预处理后,再根据声学模型对语音信息进行识别,解决了分别训练生成不同采样率对应的声学模型,训练语料需求量大,训练所需的时间成本高的问题,且提升了语音识别的准确率。
为实现上述目的,本发明还提出一种语音识别的装置。
图2是根据本发明一个实施例的语音识别的装置的结构示意图一。
如图2所示,语音识别的装置可包括:接收模块110、确定模块120、第一识别模块130和第二识别模块140。
接收模块110用于接收用户通过终端输入的语音信息和终端所处的网络信息。其中,网络信息可包括2G网络、3G网络、4G网络等。具体地,用户可通过终端输入一段语音信息,然后终端可将该语音信息与该终端所处的网络信息一起上传至接收模块110。举例来说,用户开启手机的麦克风功能,并输入语音信息“搜一下附近的好吃的”,则手机可将该语音信息发送给服务器。同时,如果该手机使用的是移动4G网络,则可将该网络信息也发送给服务器。
确定模块120用于根据网络信息确定语音信息对应的采样率。其中,采样率包括第一采样率和第二采样率,第一采样率大于第二采样率。具体地,确定模块120在收到上述语音信息和网络信息后,可根据网络信息确定语音信息对应的采样率。举例来说,如果终端使用的网络信息为4G或3G网络,则可确定语音信息对应的采样率为16khz;如果终端使用的网络信息为3G网络,则可确定语音信息对应的采样率为8khz。
第一识别模块130用于当语音信息对应的采样率为第一采样率时,根据第一采样率对应的声学模型对语音信息进行识别。其中,第一采样率对应的声学模型主要通过LSTM(Long-ShortTermMemory,时间递归神经网络)训练获得。例如,假设第一采样率为16khz,则可以16khz对语音信息进行采样,然后提取16khz对应的声学特征,再根据已训练好的16khz的声学模型对语音信息进行识别,从而生成对应的识别结果。
第二识别模块140用于当语音信息对应的采样率为第二采样率时,对语音信息进行预处理,并根据声学模型对预处理后的语音信息进行识别。具体地,当语音信息对应的采样率为第二采样率时,第二识别模块140可提取语音信息在第二采样率时的声学特征信息,然后基于频谱扩展模型将第二采样率时的声学特征信息转换为第一采样率时的声学特征信息。在此之后,可将转换后的第一采样率时的声学特征信息作为输入,并基于声学模型输出对应的识别结果。例如,假设第二采样率为8khz,第一采样率为16khz,则可以8khz对语音信息进行采样,然后提取8khz对应的声学特征,再根据频谱扩展模型将提取的8khz对应的声学特征转换为16khz对应的声学特征,最后根据已训练好的16khz的声学模型对语音信息进行识别,从而生成对应的识别结果。
此外,如图3所示,本发明实施例的语音识别的装置还可包括训练模块150。
训练模块150用于在基于频谱扩展模型将第二采样率时的声学特征信息转换为第一采样率时的声学特征信息之前,基于训练语料训练频谱扩展模型。具体地,训练模块150可对训练语料进行下采样以获取训练语料在第二采样率时的声学特征信息,再根据回归神经网络建立训练语料在第一采样率时的声学特征信息与在第二采样率时的声学特征信息之间的映射关系,从而生成频谱扩展模型。举例来说,首先可采集大量的采样率为16khz的训练语料,然后对该训练语料进行下采样,提取训练语料在采样率为8khz时的声学特征,将该声学特征作为输入代入至回归神经网络,例如DNN(DeepNeuralNetworks,深度神经网络),从而获得扩展为采样率为16khz的声学特征,以此建立采样率为8khz时的声学特征与采样率为16khz时的声学特征两者之间的映射关系,然后将映射关系保存,从而生成频谱扩展模型。
另外,在将第二采样率时的声学特征扩展为第一采样率时的声学特征之后,可将扩展后的声学特征加入至原有的第一采样率对应的声学模型中进行训练,从而使得训练后的声学模型准确率更高。
本发明实施例的语音识别的装置,通过接收用户通过终端输入的语音信息和终端所处的网络信息,然后根据网络信息确定语音信息对应的采样率,当语音信息对应的采样率为第一采样率时,直接根据声学模型对语音信息进行识别,当语音信息对应的采样率为第二采样率时,对语音信息进行预处理后,再根据声学模型对语音信息进行识别,解决了分别训练生成不同采样率对应的声学模型,训练语料需求量大,训练所需的时间成本高的问题,且提升了语音识别的准确率。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种语音识别的方法,其特征在于,包括以下步骤:
接收用户通过终端输入的语音信息和所述终端所处的网络信息;
根据所述网络信息确定所述语音信息对应的采样率,其中,所述采样率包括第一采样率和第二采样率,所述第一采样率大于所述第二采样率;
当所述语音信息对应的采样率为第一采样率时,根据所述第一采样率对应的声学模型对所述语音信息进行识别;以及
当所述语音信息对应的采样率为第二采样率时,对所述语音信息进行预处理,并根据所述声学模型对预处理后的所述语音信息进行识别。
2.如权利要求1所述的方法,其特征在于,对所述语音信息进行预处理,包括:
提取所述语音信息在所述第二采样率时的声学特征信息;
基于频谱扩展模型将所述第二采样率时的声学特征信息转换为所述第一采样率时的声学特征信息。
3.如权利要求2所述的方法,其特征在于,根据所述声学模型对预处理后的所述语音信息进行识别,包括:
将转换后的所述第一采样率时的声学特征信息作为输入,并基于所述声学模型输出对应的识别结果。
4.如权利要求2所述的方法,其特征在于,在基于频谱扩展模型将所述第二采样率时的声学特征信息转换为所述第一采样率时的声学特征信息之前,还包括:
基于训练语料训练所述频谱扩展模型,其中,所述训练语料的采样率为第一采样率。
5.如权利要求4所述的方法,其特征在于,基于训练语料训练所述频谱扩展模型,包括:
对所述训练语料进行下采样以获取所述训练语料在所述第二采样率时的声学特征信息;
根据回归神经网络建立所述训练语料在所述第一采样率时的声学特征信息与在所述第二采样率时的声学特征信息之间的映射关系以生成所述频谱扩展模型。
6.一种语音识别的装置,其特征在于,包括:
接收模块,用于接收用户通过终端输入的语音信息和所述终端所处的网络信息;
确定模块,用于根据所述网络信息确定所述语音信息对应的采样率,其中,所述采样率包括第一采样率和第二采样率,所述第一采样率大于所述第二采样率;
第一识别模块,用于当所述语音信息对应的采样率为第一采样率时,根据所述第一采样率对应的声学模型对所述语音信息进行识别;以及
第二识别模块,用于当所述语音信息对应的采样率为第二采样率时,对所述语音信息进行预处理,并根据所述声学模型对预处理后的所述语音信息进行识别。
7.如权利要求6所述的装置,其特征在于,所述第二识别模块,用于:
提取所述语音信息在所述第二采样率时的声学特征信息;
基于频谱扩展模型将所述第二采样率时的声学特征信息转换为所述第一采样率时的声学特征信息。
8.如权利要求7所述的装置,其特征在于,所述第二识别模块,用于:
将转换后的所述第一采样率时的声学特征信息作为输入,并基于所述声学模型输出对应的识别结果。
9.如权利要求7所述的装置,其特征在于,还包括:
训练模块,用于在基于频谱扩展模型将所述第二采样率时的声学特征信息转换为所述第一采样率时的声学特征信息之前,基于训练语料训练所述频谱扩展模型,其中,所述训练语料的采样率为第一采样率。
10.如权利要求9所述的装置,其特征在于,所述训练模块,用于:
对所述训练语料进行下采样以获取所述训练语料在所述第二采样率时的声学特征信息;
根据回归神经网络建立所述训练语料在所述第一采样率时的声学特征信息与在所述第二采样率时的声学特征信息之间的映射关系以生成所述频谱扩展模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510819075.7A CN105513590A (zh) | 2015-11-23 | 2015-11-23 | 语音识别的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510819075.7A CN105513590A (zh) | 2015-11-23 | 2015-11-23 | 语音识别的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105513590A true CN105513590A (zh) | 2016-04-20 |
Family
ID=55721519
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510819075.7A Pending CN105513590A (zh) | 2015-11-23 | 2015-11-23 | 语音识别的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105513590A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106875935A (zh) * | 2017-01-22 | 2017-06-20 | 上海云信留客信息科技有限公司 | 语音智能识别清洗方法 |
CN106997767A (zh) * | 2017-03-24 | 2017-08-01 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音处理方法及装置 |
CN107068161A (zh) * | 2017-04-14 | 2017-08-18 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音降噪方法、装置和计算机设备 |
CN107134277A (zh) * | 2017-06-15 | 2017-09-05 | 深圳市潮流网络技术有限公司 | 一种基于gmm模型的语音激活检测方法 |
WO2018153214A1 (zh) * | 2017-02-27 | 2018-08-30 | 芋头科技(杭州)有限公司 | 一种混合频率声学识别模型的训练方法及语音识别方法 |
CN109660904A (zh) * | 2019-02-02 | 2019-04-19 | 恒玄科技(上海)有限公司 | 耳机装置、声音信号处理方法及系统 |
CN110459205A (zh) * | 2019-09-24 | 2019-11-15 | 京东数字科技控股有限公司 | 语音识别方法及装置、计算机可存储介质 |
CN111105786A (zh) * | 2019-12-26 | 2020-05-05 | 苏州思必驰信息科技有限公司 | 一种多采样率语音识别方法、装置、系统及存储介质 |
CN111354365A (zh) * | 2020-03-10 | 2020-06-30 | 苏宁云计算有限公司 | 一种纯语音数据采样率识别方法、装置、系统 |
CN111402867A (zh) * | 2020-04-21 | 2020-07-10 | 北京字节跳动网络技术有限公司 | 混合采样率声学模型训练方法、装置及电子设备 |
CN111477218A (zh) * | 2020-04-16 | 2020-07-31 | 北京雷石天地电子技术有限公司 | 多语音识别方法、装置、终端和非临时性计算机可读存储介质 |
CN113689865A (zh) * | 2021-08-24 | 2021-11-23 | 广东优碧胜科技有限公司 | 采样率切换方法、装置、电子设备以及语音系统 |
WO2022032608A1 (zh) * | 2020-08-11 | 2022-02-17 | 南京拓灵智能科技有限公司 | 一种音频降噪方法和装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6199041B1 (en) * | 1998-11-20 | 2001-03-06 | International Business Machines Corporation | System and method for sampling rate transformation in speech recognition |
CN1535459A (zh) * | 2001-07-26 | 2004-10-06 | 日本电气株式会社 | 语音带宽扩展装置及语音带宽扩展方法 |
CN1750124A (zh) * | 2004-09-17 | 2006-03-22 | 哈曼贝克自动系统股份有限公司 | 带限音频信号的带宽扩展 |
CN101014997A (zh) * | 2004-02-18 | 2007-08-08 | 皇家飞利浦电子股份有限公司 | 用于生成用于自动语音识别器的训练数据的方法和系统 |
CN101320560A (zh) * | 2008-07-01 | 2008-12-10 | 上海大学 | 语音识别系统应用采样速率转化提高识别率的方法 |
CN102637436A (zh) * | 2011-02-09 | 2012-08-15 | 索尼公司 | 声音信号处理装置、声音信号处理方法和程序 |
CN103886860A (zh) * | 2014-02-21 | 2014-06-25 | 联想(北京)有限公司 | 一种信息处理方法和电子设备 |
US8965545B2 (en) * | 2010-09-30 | 2015-02-24 | Google Inc. | Progressive encoding of audio |
-
2015
- 2015-11-23 CN CN201510819075.7A patent/CN105513590A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6199041B1 (en) * | 1998-11-20 | 2001-03-06 | International Business Machines Corporation | System and method for sampling rate transformation in speech recognition |
CN1535459A (zh) * | 2001-07-26 | 2004-10-06 | 日本电气株式会社 | 语音带宽扩展装置及语音带宽扩展方法 |
CN101014997A (zh) * | 2004-02-18 | 2007-08-08 | 皇家飞利浦电子股份有限公司 | 用于生成用于自动语音识别器的训练数据的方法和系统 |
CN1750124A (zh) * | 2004-09-17 | 2006-03-22 | 哈曼贝克自动系统股份有限公司 | 带限音频信号的带宽扩展 |
CN101320560A (zh) * | 2008-07-01 | 2008-12-10 | 上海大学 | 语音识别系统应用采样速率转化提高识别率的方法 |
US8965545B2 (en) * | 2010-09-30 | 2015-02-24 | Google Inc. | Progressive encoding of audio |
CN102637436A (zh) * | 2011-02-09 | 2012-08-15 | 索尼公司 | 声音信号处理装置、声音信号处理方法和程序 |
CN103886860A (zh) * | 2014-02-21 | 2014-06-25 | 联想(北京)有限公司 | 一种信息处理方法和电子设备 |
Non-Patent Citations (2)
Title |
---|
KEHUANG LI等: ""A deep neural network approach to speech bandwidth expansion"", 《ICASSP 2015,IEEE》 * |
KEHUANG LI等: ""DNN-Based Speech Bandwidth Expansion and Its Application to Adding High-Frequency Missing Features for Automatic Speech Recognition of Narrowband Speech"", 《2015 ISCA》 * |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106875935A (zh) * | 2017-01-22 | 2017-06-20 | 上海云信留客信息科技有限公司 | 语音智能识别清洗方法 |
WO2018153214A1 (zh) * | 2017-02-27 | 2018-08-30 | 芋头科技(杭州)有限公司 | 一种混合频率声学识别模型的训练方法及语音识别方法 |
US11120789B2 (en) | 2017-02-27 | 2021-09-14 | Yutou Technology (Hangzhou) Co., Ltd. | Training method of hybrid frequency acoustic recognition model, and speech recognition method |
CN106997767A (zh) * | 2017-03-24 | 2017-08-01 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音处理方法及装置 |
CN107068161A (zh) * | 2017-04-14 | 2017-08-18 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音降噪方法、装置和计算机设备 |
CN107134277A (zh) * | 2017-06-15 | 2017-09-05 | 深圳市潮流网络技术有限公司 | 一种基于gmm模型的语音激活检测方法 |
CN109660904B (zh) * | 2019-02-02 | 2020-05-29 | 恒玄科技(上海)股份有限公司 | 耳机装置、声音信号处理方法及系统 |
CN109660904A (zh) * | 2019-02-02 | 2019-04-19 | 恒玄科技(上海)有限公司 | 耳机装置、声音信号处理方法及系统 |
CN110459205A (zh) * | 2019-09-24 | 2019-11-15 | 京东数字科技控股有限公司 | 语音识别方法及装置、计算机可存储介质 |
US20220343898A1 (en) * | 2019-09-24 | 2022-10-27 | Jingdong Technology Holding Co., Ltd. | Speech recognition method and apparatus, and computer-readable storage medium |
CN110459205B (zh) * | 2019-09-24 | 2022-04-12 | 京东科技控股股份有限公司 | 语音识别方法及装置、计算机可存储介质 |
WO2021057029A1 (zh) * | 2019-09-24 | 2021-04-01 | 京东数字科技控股有限公司 | 语音识别方法及装置、计算机可存储介质 |
CN111105786A (zh) * | 2019-12-26 | 2020-05-05 | 苏州思必驰信息科技有限公司 | 一种多采样率语音识别方法、装置、系统及存储介质 |
WO2021179470A1 (zh) * | 2020-03-10 | 2021-09-16 | 苏宁易购集团股份有限公司 | 一种纯语音数据采样率识别方法、装置、系统 |
CN111354365A (zh) * | 2020-03-10 | 2020-06-30 | 苏宁云计算有限公司 | 一种纯语音数据采样率识别方法、装置、系统 |
CN111354365B (zh) * | 2020-03-10 | 2023-10-31 | 苏宁云计算有限公司 | 一种纯语音数据采样率识别方法、装置、系统 |
CN111477218A (zh) * | 2020-04-16 | 2020-07-31 | 北京雷石天地电子技术有限公司 | 多语音识别方法、装置、终端和非临时性计算机可读存储介质 |
CN111402867B (zh) * | 2020-04-21 | 2021-01-22 | 北京字节跳动网络技术有限公司 | 混合采样率声学模型训练方法、装置及电子设备 |
CN111402867A (zh) * | 2020-04-21 | 2020-07-10 | 北京字节跳动网络技术有限公司 | 混合采样率声学模型训练方法、装置及电子设备 |
WO2022032608A1 (zh) * | 2020-08-11 | 2022-02-17 | 南京拓灵智能科技有限公司 | 一种音频降噪方法和装置 |
CN113689865A (zh) * | 2021-08-24 | 2021-11-23 | 广东优碧胜科技有限公司 | 采样率切换方法、装置、电子设备以及语音系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105513590A (zh) | 语音识别的方法和装置 | |
US10380992B2 (en) | Natural language generation based on user speech style | |
CN106328148B (zh) | 基于本地和云端混合识别的自然语音识别方法、装置和系统 | |
CN111261144B (zh) | 一种语音识别的方法、装置、终端以及存储介质 | |
US10331794B2 (en) | Hybrid, offline/online speech translation system | |
CN105261366B (zh) | 语音识别方法、语音引擎及终端 | |
CN107945792B (zh) | 语音处理方法和装置 | |
US9564127B2 (en) | Speech recognition method and system based on user personalized information | |
CN103903611B (zh) | 一种语音信息的识别方法和设备 | |
CN105895103B (zh) | 一种语音识别方法及装置 | |
CN104916283A (zh) | 语音识别方法和装置 | |
CN104540220B (zh) | 一种智能终端的定位方法及系统 | |
CN104036774A (zh) | 藏语方言识别方法及系统 | |
CN103635963A (zh) | 语言模型的跨语种初始化 | |
CN102543071A (zh) | 用于移动设备的语音识别系统和方法 | |
KR101551037B1 (ko) | 차량에서의 정보 제공을 위한 시스템 | |
CN103400576B (zh) | 基于用户行为日志的语音模型更新方法及装置 | |
CN109065046A (zh) | 语音唤醒的方法、装置、电子设备及计算机可读存储介质 | |
CN108122555B (zh) | 通讯方法、语音识别设备和终端设备 | |
US20190147855A1 (en) | Neural network for use in speech recognition arbitration | |
CN103956167A (zh) | 一种基于Web的可视化手语翻译方法及设备 | |
CN106462513A (zh) | 信息处理系统及车载装置 | |
CN102236639A (zh) | 更新语言模型的系统和方法 | |
KR20140058127A (ko) | 음성인식장치 및 음성인식방법 | |
CN104125548A (zh) | 一种对通话语言进行翻译的方法、设备和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160420 |