CN106537493A - 语音识别系统及方法、客户端设备及云端服务器 - Google Patents

语音识别系统及方法、客户端设备及云端服务器 Download PDF

Info

Publication number
CN106537493A
CN106537493A CN201580031165.8A CN201580031165A CN106537493A CN 106537493 A CN106537493 A CN 106537493A CN 201580031165 A CN201580031165 A CN 201580031165A CN 106537493 A CN106537493 A CN 106537493A
Authority
CN
China
Prior art keywords
module
speech
user
phonetic feature
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201580031165.8A
Other languages
English (en)
Inventor
李强生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen All Time Technology Co Ltd
Original Assignee
Shenzhen All Time Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen All Time Technology Co Ltd filed Critical Shenzhen All Time Technology Co Ltd
Publication of CN106537493A publication Critical patent/CN106537493A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Abstract

本发明公开一种语音识别系统,至少包括:语音输入模块,用于当启用实时通话或语音录入功能时,实时输入用户的语音;特征提取模块,用于从所输入的用户语音中提取语音特征;模型训练模块,用于根据所述语音特征以及预设的规则,建立对应的声学和语言模型;以及更新模块,用于保存并更新所述声学和语言模型到一个模型数据库中。本发明还提供一种语音识别方法、客户端设备以及云端服务器。

Description

语音识别系统及方法、客户端设备及云端服务器
技术领域
本发明涉及语音识别领域,尤其涉及一种语音识别系统及方法和具有语音识别功能的客户端设备及云端服务器。
背景技术
“大词汇连续语音识别”(Large Vocabulary Continuous Speech Recognition,LVCSR,简称“语音识别”),就是由计算机根据人的连续声音信号中所蕴涵的语言信息,识别出某段语音对应的是哪些文字的过程。
大词汇连续汉语语音识别器已经取得了很大的进展,对标准普通话,识别器的准确率可以达到95%以上。但是,汉语的方言问题是汉语语音识别面临的主要问题。由于在中国大部分人的普通话都带有一定的方言背景,在这样的情况下,大部分的语音识别器的性能都会大大下降,甚至无法使用。
当前包括苹果公司的Siri、中国的科大讯飞等设备和软件可以提供语音输入功能,但是语音识别受用户个人发音的影响,导致语音识别时准确率受到很大影响,进而影响了语音识别功能的适用。另外,大量的非智能客户端设备,在使用时其自带的语音操控功能,也由于语音输入时识别率的问题,而影响到其语音功能的适用,例如汽车中的语音操作功能、蓝牙耳机、门铃等设备的语音操控等。
目前很多识别器对方言背景对语音识别器性能造成的影响是用数据库方法去消除或减弱的,就是说,当已经有一个对标准普通话进行识别的语音识别器,需要对带某种方言背景的普通话进行识别时,采用的方法为:收集大量与该方言有关的第一语音数据库,然后利用已有的声学模型训练方法去重新训练声学模型,或利用已有的说话人自适应方法对声学模型进行自适应。这种方法的缺点是:(1)收集带方言背景的数据库的工作量非常巨大,对于汉语这么多的方言,数据库的收集更是一件巨大的工程。(2)这种方法无法兼顾标准普通话和带发音背景普通话之间的共性,仅是通过数据驱动的方法去解决问题,相当于完全重新构建一个语音识别器,给不同方言背景的语音识别器之间的资源共享和兼容带来困难。
发明内容
为了解决上述技术问题,本发明提供一种语音识别系统及方法和具有语音识别功能的客户端设备及云端服务器。
本发明一实施例提供一种语音识别系统,至少包括:语音输入模块,用于当启用实时通话或语音录入功能时,实时输入用户的语音;特征提取模块,用于从所输入的用户语音中提取语音特征;模型训练模块,用于根据所述语音特征以及预设的规则,建立对应的声学和语言模型;以及更新模块,用于保存并更新所述声学和语言模型到一个模型数据库中。
本发明另一实施例还提供一种语音识别方法,包括:基于启用实时通话或语音录入功能实时输入用户的语音;从所输入的用户语音中提取语音特征;根据所述语音特征以及预设的规则,建立对应的声学和语言模型;以及实时保存并更新所述声学和语言模型到一个模型数据库中。
本发明又一实施例提供一种客户端设备,其包括上述的语音识别系统。
发明再一实施例提供一种云端服务器,其包括对应不同用户的多个私有云主模块。每个云主模块包括:特征提取模块,用于从来自于正在启用实时通话或语音录入功能的客户端设备所输入的用户语音中提取语音特征;模型训练模块,用于根据所述语音特征以及预设的规则,建立对应的声学和语言模型;以及更新模块,用于保存并更新所述声学和语言模型到一个模型数据库中。
本发明的语音识别系统和方法通过实时记录或保存实时通话和录音信息,并作为语音模型训练的样本,从而能够根据用户不同的发音特点持续更新模型数据库。由此,可以满足用户的个性化需求,而且能够支持多种语音,例如英语或者地方方言等,提高了识别度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明第一实施例提供的语音识别系统的系统框架图;
图2是图1的语音识别系统的功能模块图;
图3是本发明第二实施例提供的语音识别系统的功能模块图;
图4是本发明一实施例提供的语音识别方法的流程图;
图5是本发明另一实施例提供的语音识别方法的流程图;
图6是图5中的步骤S409的具体流程图;
图7是本发明又一实施例提供的语音识别方法的流程图。
具体实施方式
下面结合附图和具体实施方式对本发明的技术方案作进一步更详细的描述。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
第一实施例
请参阅图1,其为本发明第一实施例提供的一种语音识别系统100的系统架构图。在本实施例中,所述语音识别系统100由客户端设备200与云端服务器300共同实现,以能够通过云端服务器300完成识别前端、模型训练和识别后端的全过程,并将最终的语音识别结果下发至客户端设备200。如此,可减轻客户端设备200的数据处理量,部署起来非常方便,且后续升级的大部分工作也都在云端服务器300完成。
具体的,请参阅图2,所述语音识别系统100至少包括语音输入模块10、特征提取模块20、模型训练模块30以及更新模块40。本实施例中,所述语音输入模块10设置在客户端设备200上,例如是麦克风及其处理电路。所述特征提取模块20、模型训练模块30、更新模块40等集成在所述云端服务器300中。
所述语音输入模块10用于当客户端设备200启用实时通话或语音录入功能时,实时输入用户的语音。所述客户端设备200可以是手机、车载设备、电脑、手机、智能家居设备以及可穿戴设备等等。所述用户的语音也可进行本地保存或云端保存。
所述特征提取模块20用于从所输入的用户语音中提取语音特征。本实施例中,所述特征提取模块20将提取到的语音特征实时保存在一个第一语音数据库21中,所述第一语音数据库21可以是本地数据库,也可以是云端数据库。所述语音特征指所述用户语音的特征数据。
所述模型训练模块30用于根据所述语音特征以及预设的规则,建立对应的声学和语言模型,以供在后续识别过程中,将提取的语音特征与所述声学和语言模型进行匹配与比较,得到最佳的识别结果。本实施例中,所述预设的规则是动态时间规整((Dynamic timewarping,简称DTW)、隐形马尔可夫(Hidden Markov Model,HMM)理论、矢量量化(VectorQuantization,简称VQ)技术中的至少其中之一者。此外,本实施例中,所述模型训练模块30定时从所述第一语音数据库21中提取所述语音特征,以进行模型训练。当然,在其他实施例中,所述模型训练模块30也可实时提取第一语音数据库21中的特定语音特征,以进行实时的模型训练,或者定量(例如100条)提取所述特定语音特征,本发明不以此些实施例为限
所述更新模块40用于实时保存并更新所述声学和语言模型到一个模型数据库41中,由此,能够获取更庞大的声学和语言模型数据库41,提高了识别度。
此外,为了能够对用户的语音信息进行保密,且针对不同的用户语音特点提供个性化的模型训练,所述云端服务器300包括对应于不同用户的多个私有云主模块,每个私有云主模块包括所述特征提取模块20、模型训练模块30以及更新模块40等等。其中,所述特征提取模块20提取的特定语音特征保存到对应的私有云模块下。同时,所述模型训练模块30对所述特定语音特征进行声学和语言模型训练,并通过更新模块40更新所述模型。当用户启用所述语音识别系统100时,可通过帐号鉴权的方式启用所述语音识别功能。
可以理解的是,在其他实施例中,所述语音识别系统100还可集成在一个客户端设备200中,例如:车载设备、电脑、手机、智能家居设备以及可穿戴设备等等中,以供用户开启离线语音识别功能。此时,所述第一语音数据库21以及模型数据库41均为本地数据库。采用此种方式,能够在无网络连接的情况下,实现上述语音识别功能。
总的来说,在传统语音识别技术中,通常不会将手机实时通话或利用pad(可以是其他设备)录音过程中的语音进行记录或保存,以作为语音模型训练的样本。而本发明通过实时记录或保存实时通话和录音信息,并作为语音模型训练的样本,从而能够根据用户不同的发音特点持续更新模型数据库41。由此,可以满足用户的个性化需求,而且能够支持多种语音,例如英语或者地方方言等,提高了识别度。此外,本发明还提供了针对不同用户的私有云主模块,供用户通过账户鉴权的方式启用语音识别功能,从而能够提高对用户语音信息的保密性能。
第二实施例
请参阅图3,本发明第二实施例提供的语音识别系统100a与第一实施例的语音识别系统100基本相同,不同之处在于:所述语音识别系统100a进一步包括识别模块50,所述识别模块50用于根据模型数据库41a中的所述声学和语言模型,判断是否能够识别所述语音特征,如果能够识别,则生成携带控制命令的识别结果,否则,将无法识别的其他语音特征存储到第一语音数据库21a中。此时,所述第一语音数据库21a仅需保存无法识别的所述语音特征,节省了占用空间。所述模型训练模块30也进一步包括一个手动标注单元31,用于根据用户命令,手动将所述匹配度低于所述阈值的无法识别的语音特征与预设的标准语音进行映射,并将所述语音特征与所述标准语音数据及其映射关系更新在一个第二语音数据库33中,供所述识别模块50采用。对应的,所述识别模块50还用于根据当前输入的用户语音数据以及所述第二语音数据库33,识别所述语音数据并输出识别结果。
更具体的,所述识别模块50包括第一解码单元51以及第二解码单元52,所述第一解码单元51用于将当前提取的语音特征与所述声学和语言模型进行匹配度计算。如果匹配度大于等于阈值,则判断能够识别对应的所述语音特征并输出识别结果,否则,判断无法识别所述语音特征。所述第二解码单元52用于根据当前输入的用户语音以及所述第二语音数据库33,识别所述用户的语音,并输出对应的标准语音。
本实施例中,所述手动标注单元31包括提示子单元311、选择子单元313、输入子单元315以及确认子单元317。所述提示子单元311用于周期性提示用户查看存储在第一语音数据库21中的无法识别的语音特征。所述选择子单元313用于供用户选择对应于所述无法识别的语音特征的标准语音,其中所述标准语音预先存储在所述第一语音数据库21中。例如,用户可以通过听取所述无法识别的特定的语音,然后根据所提供的标准语音,选择与所述语音特征相匹配的标准语音。所述输入子单元315,用于供用户输入对应于所述无法识别的语音特征的标准语音。可以理解的是,可仅选择所述选择子单元313以及所述输入子单元315其中之一者进行设置,当标准语音中无对应的选项时,可通过语音输入的方式,确定对应的标准语音。所述确认子单元317用于供用户确认所述语音特征与所述标准语音之间的映射关系,并于确认完成后,将所述映射关系存储到所述第二语音数据库33中。
在第二实施例中,所述特征提取模块20、模型训练模块30、更新模块40以及识别模块50等集成在所述云端服务器300a中,所述识别模块50分别识别不同云模块下的语音数据。
第二实施例提供的语音识别系统100a仅对无法识别的语音数据进行再次模型训练,能够减少数据冗余度,提高了识别速度和效率。
此外,所述语音识别系统100a(或100)可进一步包括执行模块60,用于根据所述识别结果,生成特定格式的文本或播放对应的标准语音,并根据所述控制命令控制对应的客户端设备。而为了能够在不同的客户端设备200中运行所述语音识别系统100a,所述语音识别系统100a还可进一步包括下载模块70,用于供用户将对应私有云模块中的更新后的声学和语言模型下载到本地,以在本地实现语音识别。
可以理解是,在其他实施例中,所述识别模块50对所述语音特征进行识别的同时,还可将全部所述语音特征存储在所述第一语音数据库21中,以供模型训练模块30定时从所述第一语音数据库21提取所述语音特征,从而进行模型训练。
请参阅图4,本发明的一个实施例提供一种语音识别方法,所述方法包括以下步骤:
步骤S401,基于启用实时通话或语音录入功能,实时输入用户的语音。具体的,所述实时通话或语音录入功能通过手机、车载设备、电脑、手机、智能家居设备以及可穿戴设备等等实现。同时,所述用户的语音也可进行实时保存,供后续调用。
步骤S403,从所输入的用户语音中提取语音特征。本实施例中,提取到的语音特征被实时保存在一个第一语音数据库21中。其中,所述第一语音数据库21可以是本地数据库,也可以是云端数据库,所述语音特征指所述用户语音的特征数据。
步骤S405,根据所述语音特征以及预设的规则,建立对应的声学和语言模型,以供在后续识别过程中,将提取的语音特征与所述声学和语言模型进行匹配与比较,得到最佳的识别结果。
步骤S407,实时保存并更新所述声学和语言模型到一个模型数据库41中,由此,能够获取更庞大的声学和语言模型数据库41,提高了识别度。
在本实施例中,步骤S401在客户端设备上执行,例如是通过麦克风及其处理电路进行语音输入。所述步骤S403、步骤S405、步骤S407在云端服务器300中执行。而为了能够对用户的语音信息进行保密,且针对不同的用户语音特点提供个性化的模型训练,所述云端服务器还包括对应于不同用户的多个私有云账户,每个私有云主账户可分别执行所述步骤S403~S407,当用户启用所述语音识别功能时,可通过帐号鉴权的方式进行。
可以理解的是,在其他实施例中,所述步骤S401~S407均可在客户端设备200上执行,且所述第一语音数据库21和模型数据库41为本地数据库。
请参阅图5,在又一实施例中,除了上述步骤S401~S407,所述语音识别方法进一步包括:
步骤S409,根据模型数据库41中的所述声学和语言模型,判断是否能够识别所述语音特征,如果能够识别,则执行步骤S411,生成携带控制命令的识别结果,否则,执行步骤S413,将无法识别的其他语音特征存储到所述第一语音数据库21中。
具体的,请参阅图6,所述步骤S409包括以下子步骤:
子步骤S409a,将所述语音特征与所述声学和语言模型进行匹配度计算,如果匹配度大于等于阈值,则执行子步骤S409b,判断能够识别对应的所述语音特征并输出识别结果,否则,执行子步骤S409c,判断无法识别所述语音特征。
子步骤S409d,根据用户命令,手动将所述匹配度低于所述阈值的无法识别的语音特征与预设的标准语音进行映射,并将所述语音特征与所述标准语音数据及其映射关系更新在一个第二语音数据库33中。
此时,所述第一语音数据库21仅保存无法识别的所述语音特征,因此语音识别系统100仅需要对无法识别的语音数据进行再次模型训练,能够减少数据冗余度,提高了识别速度和效率。
请参阅图7,在又一实施例中,结合步骤S401~S413,所述方法进一步包括:
步骤S415,根据所述识别结果,生成特定格式的文本或播放对应的标准语音,并根据所述控制命令控制对应的客户端设备;
步骤S417,将对应私有云模块中的更新后的声学和语言模型下载到本地,以在本地实现语音识别。
又,在其他实施例中,对所述语音特征进行识别的同时,还可将全部所述语音特征存储在所述第一语音数据库21中,以定时、实时或定量从所述第一语音数据库21提取所述语音特征,从而进行模型训练。
本发明的语音识别系统和方法通过实时记录或保存实时通话和录音信息,并作为语音模型训练的样本,从而能够根据用户不同的发音特点持续更新模型数据库41。由此,可以满足用户的个性化需求,而且能够支持多种语音,例如英语或者地方方言等,提高了识别度。此外,本发明还提供了针对不同用户的私有云主模块(账户),供用户通过账户鉴权的方式启用语音识别功能,从而能够提高对用户语音信息的保密性能。
需要说明的是,通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现,当然也可以全部通过硬件来实施。基于这样的理解,本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
以上所揭露的仅为本发明实施例中的较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (13)

1.一种语音识别系统,其特征在于,所述系统至少包括:
语音输入模块,用于当启用实时通话或语音录入功能时,实时输入用户的语音;
特征提取模块,用于从所输入的用户语音中提取语音特征;
模型训练模块,用于根据所述语音特征以及预设的规则,建立对应的声学和语言模型;以及
更新模块,用于保存并更新所述声学和语言模型到一个模型数据库中。
2.如权利要求1所述的语音识别系统,其特征在于,所述特征提取模块将提取到的语音特征实时保存在一个第一语音数据库中,所述模型训练模块定时或定量从所述第一语音数据库中提取所述语音特征以进行模型训练。
3.如权利要求2所述的语音识别系统,其特征在于,所述特征提取模块、模型训练模块以及更新模块集成在一个云端服务器中,所述云端服务器包括对应不同用户的多个私有云模块,所述特征提取模块提取的特定语音特征保存到对应的私有云模块下,并通过所述模型训练模块和更新模块建立模型和更新,所述识别模块则分别识别不同云模块下的语音数据。
4.如权利要求1所述的语音识别系统,进一步包括:
识别模块,用于根据模型数据库中的所述声学和语言模型,判断是否能够识别所述语音特征,如果能够识别,则生成携带控制命令的识别结果,否则,将无法识别的其他语音特征存储到一个第一语音数据库中,以供所述模型训练模块重新进行模型训练。
5.如权利要求4所述的语音识别系统,其特征在于,至少包括:
第一解码单元,用于将所述语音特征与所述声学和语言模型进行匹配度计算,如果匹配度大于等于阈值,则判断能够识别对应的所述语音特征并输出识别结果,否则,判断无法识别所述语音特征;以及
所述模型训练模块进一步包括一手动标注单元,用于根据用户命令,手动将所述匹配度低于所述阈值的无法识别的语音特征与预设的标准语音进行映射匹配,并将所述语音特征与所述标准语音数据及其映射关系保存在一个第二语音数据库中。
6.如权利要求5所述的语音识别系统,其特征在于,所述手动标注单元包括:
提示子单元,用于周期性提示用户查看存储在第一语音数据库中的无法识别的语音特征;
选择子单元,用于供用户选择对应于所述无法识别的语音特征的标准语音,其中所述标准语音预先存储在所述第一语音数据库中;和/或
输入子单元,用于供用户输入对应于所述无法识别的语音特征的标准语音;以及
确认子单元,用于供用户确认所述无法识别的语音特征与所述标准语音之间的映射关系,并存储到所述第二语音数据库。
7.如权利要求5所述的语音识别系统,其特征在于,所述识别模块还包括第二解码单元,用于根据当前输入的用户语音以及所述第二语音数据库,识别所述用户的语音,并输出对应的标准语音。
8.如权利要求4所述的语音识别系统,其特征在于,所述识别模块对所述语音特征进行识别的同时,将所述语音特征存储在所述第一语音数据库中,以供模型训练模块从所述第一语音数据库提取所述语音特征,从而进行模型训练。
9.如权利要求4所述的语音识别系统,其特征在于,通过一个云端服务器的各个私有云模块分别实现所述特征提取模块、模型训练模块、更新模块以及识别模块的功能,其中每一个私有云模块对应一个用户,所述特征提取模块提取的特定语音特征保存到对应的私有云模块下
10.如权利要求1所述的语音识别系统,进一步包括:
下载模块,用于供用户将对应私有云模块中的声学和语言模型下载到本地,以在本地实现语音识别。
11.一种语音识别方法,包括:
基于启用实时通话或语音录入功能实时输入用户的语音;
从所输入的用户语音中提取语音特征;
根据所述语音特征以及预设的规则,建立对应的声学和语言模型;以及
实时保存并更新所述声学和语言模型到一个模型数据库中。
12.一种客户端设备,其包括如权利要求1~9项任一项所述的语音识别系统。
13.一种云端服务器,其包括对应不同用户的多个私有云主模块,每个云主模块包括:
特征提取模块,用于从来自于正在启用实时通话或语音录入功能的客户端设备所输入的用户语音中提取语音特征;
模型训练模块,用于根据所述语音特征以及预设的规则,建立对应的声学和语言模型;以及
更新模块,用于保存并更新所述声学和语言模型到一个模型数据库中。
CN201580031165.8A 2015-09-29 2015-09-29 语音识别系统及方法、客户端设备及云端服务器 Pending CN106537493A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2015/091042 WO2017054122A1 (zh) 2015-09-29 2015-09-29 语音识别系统及方法、客户端设备及云端服务器

Publications (1)

Publication Number Publication Date
CN106537493A true CN106537493A (zh) 2017-03-22

Family

ID=58358136

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580031165.8A Pending CN106537493A (zh) 2015-09-29 2015-09-29 语音识别系统及方法、客户端设备及云端服务器

Country Status (2)

Country Link
CN (1) CN106537493A (zh)
WO (1) WO2017054122A1 (zh)

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106991961A (zh) * 2017-06-08 2017-07-28 无锡职业技术学院 一种人工智能led点阵显示屏控制装置及其控制方法
CN107146617A (zh) * 2017-06-15 2017-09-08 成都启英泰伦科技有限公司 一种新型语音识别设备及方法
CN107180629A (zh) * 2017-06-28 2017-09-19 长春煌道吉科技发展有限公司 一种语音采集识别方法与系统
CN107342076A (zh) * 2017-07-11 2017-11-10 华南理工大学 一种兼容非常态语音的智能家居控制系统及方法
CN107731231A (zh) * 2017-09-15 2018-02-23 福州瑞芯微电子股份有限公司 一种支持多云端语音服务的方法及一种存储设备
CN108008843A (zh) * 2017-03-25 2018-05-08 深圳雷柏科技股份有限公司 一种无线语音鼠标及语音操作系统
CN108520751A (zh) * 2018-03-30 2018-09-11 四川斐讯信息技术有限公司 一种语音智能识别设备及语音智能识别方法
CN108597500A (zh) * 2018-03-30 2018-09-28 四川斐讯信息技术有限公司 一种智能穿戴设备及基于智能穿戴设备的语音识别方法
CN108682416A (zh) * 2018-04-11 2018-10-19 深圳市卓翼科技股份有限公司 本地自适应语音训练方法和系统
CN108717851A (zh) * 2018-03-28 2018-10-30 深圳市三诺数字科技有限公司 一种语音识别方法及装置
CN108766441A (zh) * 2018-05-29 2018-11-06 广东声将军科技有限公司 一种基于离线声纹识别和语音识别的语音控制方法及装置
CN108806691A (zh) * 2017-05-04 2018-11-13 有爱科技(深圳)有限公司 语音识别方法及系统
CN108877410A (zh) * 2018-08-07 2018-11-23 深圳市漫牛医疗有限公司 一种聋哑人手语交互方法以及聋哑人手语交互装置
CN108986792A (zh) * 2018-09-11 2018-12-11 苏州思必驰信息科技有限公司 用于语音对话平台的语音识别模型的训练调度方法及系统
CN109036387A (zh) * 2018-07-16 2018-12-18 中央民族大学 视频语音识别方法及系统
CN109065076A (zh) * 2018-09-05 2018-12-21 深圳追科技有限公司 音频标签的设置方法、装置、设备和存储介质
CN109102801A (zh) * 2017-06-20 2018-12-28 京东方科技集团股份有限公司 语音识别方法和语音识别装置
CN109493650A (zh) * 2018-12-05 2019-03-19 安徽智训机器人技术有限公司 一种基于人工智能的语言教学系统及方法
CN110033765A (zh) * 2019-04-11 2019-07-19 中国联合网络通信集团有限公司 一种语音识别的方法及终端
CN110047467A (zh) * 2019-05-08 2019-07-23 广州小鹏汽车科技有限公司 语音识别方法、装置、存储介质及控制终端
CN110211609A (zh) * 2019-06-03 2019-09-06 四川长虹电器股份有限公司 一种提升语音识别准确率的方法
CN110415678A (zh) * 2019-06-13 2019-11-05 百度时代网络技术(北京)有限公司 自定义语音播报客户端、服务器、系统及方法
CN110517664A (zh) * 2019-09-10 2019-11-29 科大讯飞股份有限公司 多方言识别方法、装置、设备及可读存储介质
CN111292746A (zh) * 2020-02-07 2020-06-16 普强时代(珠海横琴)信息技术有限公司 一种基于人机交互的语音输入转换系统
CN112002326A (zh) * 2020-10-28 2020-11-27 深圳市一恒科电子科技有限公司 一种交互方法及机器人设备
CN113066482A (zh) * 2019-12-13 2021-07-02 阿里巴巴集团控股有限公司 语音模型更新、语音数据处理方法、设备及存储介质
CN113707135A (zh) * 2021-10-27 2021-11-26 成都启英泰伦科技有限公司 一种高精度连续语音识别的声学模型训练方法
CN113938556A (zh) * 2020-07-14 2022-01-14 华为技术有限公司 来电提示方法、装置和电子设备
WO2022121185A1 (zh) * 2020-12-11 2022-06-16 平安科技(深圳)有限公司 模型训练方法、方言识别方法、装置、服务器及存储介质
WO2023065854A1 (zh) * 2021-10-22 2023-04-27 华为技术有限公司 分布式语音控制方法及电子设备
CN116597827A (zh) * 2023-05-23 2023-08-15 苏州科帕特信息科技有限公司 一种目标语言模型确定方法及装置

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107871506A (zh) * 2017-11-15 2018-04-03 北京云知声信息技术有限公司 语音识别功能的唤醒方法及装置
CN108917283A (zh) * 2018-07-12 2018-11-30 四川虹美智能科技有限公司 一种智能冰箱控制方法、系统、智能冰箱和云端服务器
US10388272B1 (en) 2018-12-04 2019-08-20 Sorenson Ip Holdings, Llc Training speech recognition systems using word sequences
US11170761B2 (en) 2018-12-04 2021-11-09 Sorenson Ip Holdings, Llc Training of speech recognition systems
US10573312B1 (en) 2018-12-04 2020-02-25 Sorenson Ip Holdings, Llc Transcription generation from multiple speech recognition systems
US11017778B1 (en) 2018-12-04 2021-05-25 Sorenson Ip Holdings, Llc Switching between speech recognition systems
CN111312253A (zh) * 2018-12-11 2020-06-19 青岛海尔洗衣机有限公司 语音控制方法、云端服务器及终端设备
US11488604B2 (en) 2020-08-19 2022-11-01 Sorenson Ip Holdings, Llc Transcription of audio
CN112908296A (zh) * 2021-02-18 2021-06-04 上海工程技术大学 一种方言识别方法
CN114596845A (zh) * 2022-04-13 2022-06-07 马上消费金融股份有限公司 语音识别模型的训练方法、语音识别方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075433A (zh) * 2007-04-18 2007-11-21 上海山思智能科技有限公司 一种机器人语音识别人工智能的控制方法
CN101079885A (zh) * 2007-06-26 2007-11-28 中兴通讯股份有限公司 一种提供自动语音识别统一开发平台的系统和方法
CN101366075A (zh) * 2005-08-09 2009-02-11 移动声控有限公司 话音控制式无线通信装置系统的控制中心
CN102543073A (zh) * 2010-12-10 2012-07-04 上海上大海润信息系统有限公司 一种沪语语音识别信息处理方法
CN104239456A (zh) * 2014-09-02 2014-12-24 百度在线网络技术(北京)有限公司 用户特征数据的提取方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9111540B2 (en) * 2009-06-09 2015-08-18 Microsoft Technology Licensing, Llc Local and remote aggregation of feedback data for speech recognition

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101366075A (zh) * 2005-08-09 2009-02-11 移动声控有限公司 话音控制式无线通信装置系统的控制中心
CN101075433A (zh) * 2007-04-18 2007-11-21 上海山思智能科技有限公司 一种机器人语音识别人工智能的控制方法
CN101079885A (zh) * 2007-06-26 2007-11-28 中兴通讯股份有限公司 一种提供自动语音识别统一开发平台的系统和方法
CN102543073A (zh) * 2010-12-10 2012-07-04 上海上大海润信息系统有限公司 一种沪语语音识别信息处理方法
CN104239456A (zh) * 2014-09-02 2014-12-24 百度在线网络技术(北京)有限公司 用户特征数据的提取方法和装置

Cited By (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108008843A (zh) * 2017-03-25 2018-05-08 深圳雷柏科技股份有限公司 一种无线语音鼠标及语音操作系统
CN108806691A (zh) * 2017-05-04 2018-11-13 有爱科技(深圳)有限公司 语音识别方法及系统
CN108806691B (zh) * 2017-05-04 2020-10-16 有爱科技(深圳)有限公司 语音识别方法及系统
CN106991961A (zh) * 2017-06-08 2017-07-28 无锡职业技术学院 一种人工智能led点阵显示屏控制装置及其控制方法
CN107146617A (zh) * 2017-06-15 2017-09-08 成都启英泰伦科技有限公司 一种新型语音识别设备及方法
CN109102801A (zh) * 2017-06-20 2018-12-28 京东方科技集团股份有限公司 语音识别方法和语音识别装置
US11355124B2 (en) 2017-06-20 2022-06-07 Boe Technology Group Co., Ltd. Voice recognition method and voice recognition apparatus
CN107180629A (zh) * 2017-06-28 2017-09-19 长春煌道吉科技发展有限公司 一种语音采集识别方法与系统
CN107180629B (zh) * 2017-06-28 2020-04-28 长春煌道吉科技发展有限公司 一种语音采集识别方法与系统
CN107342076A (zh) * 2017-07-11 2017-11-10 华南理工大学 一种兼容非常态语音的智能家居控制系统及方法
CN107342076B (zh) * 2017-07-11 2020-09-22 华南理工大学 一种兼容非常态语音的智能家居控制系统及方法
CN107731231B (zh) * 2017-09-15 2020-08-14 瑞芯微电子股份有限公司 一种支持多云端语音服务的方法及一种存储设备
CN107731231A (zh) * 2017-09-15 2018-02-23 福州瑞芯微电子股份有限公司 一种支持多云端语音服务的方法及一种存储设备
CN108717851B (zh) * 2018-03-28 2021-04-06 深圳市三诺数字科技有限公司 一种语音识别方法及装置
CN108717851A (zh) * 2018-03-28 2018-10-30 深圳市三诺数字科技有限公司 一种语音识别方法及装置
CN108597500A (zh) * 2018-03-30 2018-09-28 四川斐讯信息技术有限公司 一种智能穿戴设备及基于智能穿戴设备的语音识别方法
CN108520751A (zh) * 2018-03-30 2018-09-11 四川斐讯信息技术有限公司 一种语音智能识别设备及语音智能识别方法
CN108682416A (zh) * 2018-04-11 2018-10-19 深圳市卓翼科技股份有限公司 本地自适应语音训练方法和系统
CN108682416B (zh) * 2018-04-11 2021-01-01 深圳市卓翼科技股份有限公司 本地自适应语音训练方法和系统
CN108766441B (zh) * 2018-05-29 2020-11-10 广东声将军科技有限公司 一种基于离线声纹识别和语音识别的语音控制方法及装置
CN108766441A (zh) * 2018-05-29 2018-11-06 广东声将军科技有限公司 一种基于离线声纹识别和语音识别的语音控制方法及装置
CN109036387A (zh) * 2018-07-16 2018-12-18 中央民族大学 视频语音识别方法及系统
CN108877410A (zh) * 2018-08-07 2018-11-23 深圳市漫牛医疗有限公司 一种聋哑人手语交互方法以及聋哑人手语交互装置
CN109065076A (zh) * 2018-09-05 2018-12-21 深圳追科技有限公司 音频标签的设置方法、装置、设备和存储介质
CN109065076B (zh) * 2018-09-05 2020-11-27 深圳追一科技有限公司 音频标签的设置方法、装置、设备和存储介质
CN108986792A (zh) * 2018-09-11 2018-12-11 苏州思必驰信息科技有限公司 用于语音对话平台的语音识别模型的训练调度方法及系统
CN109493650A (zh) * 2018-12-05 2019-03-19 安徽智训机器人技术有限公司 一种基于人工智能的语言教学系统及方法
CN110033765A (zh) * 2019-04-11 2019-07-19 中国联合网络通信集团有限公司 一种语音识别的方法及终端
CN110047467A (zh) * 2019-05-08 2019-07-23 广州小鹏汽车科技有限公司 语音识别方法、装置、存储介质及控制终端
CN110047467B (zh) * 2019-05-08 2021-09-03 广州小鹏汽车科技有限公司 语音识别方法、装置、存储介质及控制终端
CN110211609A (zh) * 2019-06-03 2019-09-06 四川长虹电器股份有限公司 一种提升语音识别准确率的方法
CN110415678A (zh) * 2019-06-13 2019-11-05 百度时代网络技术(北京)有限公司 自定义语音播报客户端、服务器、系统及方法
CN110517664A (zh) * 2019-09-10 2019-11-29 科大讯飞股份有限公司 多方言识别方法、装置、设备及可读存储介质
CN110517664B (zh) * 2019-09-10 2022-08-05 科大讯飞股份有限公司 多方言识别方法、装置、设备及可读存储介质
CN113066482A (zh) * 2019-12-13 2021-07-02 阿里巴巴集团控股有限公司 语音模型更新、语音数据处理方法、设备及存储介质
CN111292746A (zh) * 2020-02-07 2020-06-16 普强时代(珠海横琴)信息技术有限公司 一种基于人机交互的语音输入转换系统
CN113938556A (zh) * 2020-07-14 2022-01-14 华为技术有限公司 来电提示方法、装置和电子设备
CN113938556B (zh) * 2020-07-14 2023-03-10 华为技术有限公司 来电提示方法、装置和电子设备
CN112002326A (zh) * 2020-10-28 2020-11-27 深圳市一恒科电子科技有限公司 一种交互方法及机器人设备
WO2022121185A1 (zh) * 2020-12-11 2022-06-16 平安科技(深圳)有限公司 模型训练方法、方言识别方法、装置、服务器及存储介质
WO2023065854A1 (zh) * 2021-10-22 2023-04-27 华为技术有限公司 分布式语音控制方法及电子设备
CN113707135A (zh) * 2021-10-27 2021-11-26 成都启英泰伦科技有限公司 一种高精度连续语音识别的声学模型训练方法
CN116597827A (zh) * 2023-05-23 2023-08-15 苏州科帕特信息科技有限公司 一种目标语言模型确定方法及装置

Also Published As

Publication number Publication date
WO2017054122A1 (zh) 2017-04-06

Similar Documents

Publication Publication Date Title
CN106537493A (zh) 语音识别系统及方法、客户端设备及云端服务器
CN108305641B (zh) 情感信息的确定方法和装置
AU2016216737B2 (en) Voice Authentication and Speech Recognition System
CN107773982B (zh) 游戏语音交互方法及装置
CN107409061B (zh) 用于语音总结的方法和系统
CN108305643B (zh) 情感信息的确定方法和装置
US9454958B2 (en) Exploiting heterogeneous data in deep neural network-based speech recognition systems
US20160240215A1 (en) System and Method for Text-to-Speech Performance Evaluation
CN110970018B (zh) 语音识别方法和装置
Kelly et al. Deep neural network based forensic automatic speaker recognition in VOCALISE using x-vectors
WO2015062284A1 (zh) 自然表达处理方法、处理及回应方法、设备及系统
US20170178632A1 (en) Multi-user unlocking method and apparatus
CN107886951B (zh) 一种语音检测方法、装置及设备
CN111696556B (zh) 一种分析用户对话情绪方法、系统、设备和存储介质
CN104538034A (zh) 一种语音识别方法及系统
CN110600014B (zh) 一种模型训练方法、装置、存储介质及电子设备
CN102089804A (zh) 声音合成模型生成装置、声音合成模型生成系统、通信终端以及声音合成模型生成方法
US9799325B1 (en) Methods and systems for identifying keywords in speech signal
WO2018129869A1 (zh) 声纹验证方法和装置
CN110704618B (zh) 确定对话数据对应的标准问题的方法及装置
US9454959B2 (en) Method and apparatus for passive data acquisition in speech recognition and natural language understanding
KR102312993B1 (ko) 인공신경망을 이용한 대화형 메시지 구현 방법 및 그 장치
US10216732B2 (en) Information presentation method, non-transitory recording medium storing thereon computer program, and information presentation system
CN104200807B (zh) 一种erp语音控制方法
Zhang et al. Speaker recognition with cough, laugh and" Wei"

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170322

WD01 Invention patent application deemed withdrawn after publication