CN111627438A - 语音识别方法及装置 - Google Patents
语音识别方法及装置 Download PDFInfo
- Publication number
- CN111627438A CN111627438A CN202010436965.0A CN202010436965A CN111627438A CN 111627438 A CN111627438 A CN 111627438A CN 202010436965 A CN202010436965 A CN 202010436965A CN 111627438 A CN111627438 A CN 111627438A
- Authority
- CN
- China
- Prior art keywords
- target account
- voice
- frequency
- word
- frequency words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000012790 confirmation Methods 0.000 claims description 3
- 238000013461 design Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 235000007082 baiteng Nutrition 0.000 description 3
- 244000290660 baiteng Species 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种语音识别方法及装置,该方法包括:接收语音识别的启动指令;根据所述启动指令确定待识别的目标账户,并获取所述目标账户通过键盘输入形成的历史记录;根据所述历史记录确定出现频率超过设定次数的所述目标账户的高频词;将所述目标账户的高频词存储到所述目标账户的语音本地词库中;获取向所述目标账户发送的语音数据;将所述语音数据依次与所述目标账户的语音本地词库、预置的语音公共词库进行匹配识别;若匹配成功,则输出识别结果。本发明的方案能够提高特殊词组的识别能力。
Description
技术领域
本发明涉及语音识别的技术领域,特别涉及一种语音识别方法及装置。
背景技术
现在越来越多的电子设备都具备语音识别功能。语音识别功能能够让用户解放双手,降低控制设备过程的复杂度。语音识别技术的工作原理是:语音采集设备采集用户语音,然后将用户语音发送给语音识别系统,语音识别系统从预置的语音公共词库中找到发音最相似的汉字或词语组合为语音识别结果。
但是,现有的语音公共词库中所包含字、词语甚至是语句都是人们常用的,该语音公共词库存在一个缺点:如果用户想语音识别出自己大概率才会用到的词组(例如一些特殊词组“京阿百腾”、“腾阿百京”等),由于这些特殊词组一般不会存储在语音公共词库中,因此要么会不能识别,要么会识别错误。要解决上述问题,通常需要输入法服务商(例如搜狗)将这些特殊词组添加到预置的语音公共词库中,当随着特殊词组的数量增多时,这无疑给用户带来不便。
公开号为106873798A的专利公开了用于输出信息的方法和装置,该专利是利用语音减少文字输入法备选词的数量,提高文字键盘输入速度,相当于语音二次确认输入的目标文字的功能。因此,该专利也无法解决如何提高特殊词组的识别能力。
发明内容
本发明实施例提供了一种语音识别方法及装置,能够提高特殊词组的识别能力。
第一方面,本发明实施例提供了一种语音识别方法,包括:
接收语音识别的启动指令;
根据所述启动指令确定待识别的目标账户,并获取所述目标账户通过键盘输入形成的历史记录;
根据所述历史记录确定出现频率超过设定次数的所述目标账户的高频词;
将所述目标账户的高频词存储到所述目标账户的语音本地词库中;
获取向所述目标账户发送的语音数据;
将所述语音数据依次与所述目标账户的语音本地词库、预置的语音公共词库进行匹配识别;
若匹配成功,则输出识别结果。
在一种可能的设计中,在所述将所述目标账户的高频词存储到所述目标账户的语音本地词库中之后,包括:
获取除所述目标账户之外的其它账户的语音本地词库;
判断所述目标账户的高频词是否包含在所述其它账户的语音本地词库中;
若是,则将所述目标账户的高频词存储到预置的语音公共词库中。
在一种可能的设计中,所述将所述目标账户的高频词存储到所述目标账户的语音本地词库中,包括:
判断所述目标账户的高频词是否包含在所述目标账户的语音本地词库中;
若否,则将所述目标账户的高频词存储到所述目标账户的语音本地词库中。
在一种可能的设计中,所述将所述目标账户的高频词存储到预置的语音公共词库中,包括:
判断所述目标账户的高频词是否包含在预置的语音公共词库中;
若否,则将所述目标账户的高频词存储到预置的语音公共词库中。
在一种可能的设计中,所述判断所述目标账户的高频词是否包含在所述其它账户的语音本地词库中,包括:
判断所述目标账户的高频词是否包含在不小于设定数量的所述其它账户的语音本地词库中。
第二方面,本发明实施例提供了一种语音识别装置,包括:
接收模块,用于接收语音识别的启动指令;
目标账户获取模块,用于根据所述启动指令确定待识别的目标账户,并获取所述目标账户通过键盘输入形成的历史记录;
高频词确认模块,用于根据所述历史记录确定出现频率超过设定次数的所述目标账户的高频词;
第一存储模块,用于将所述目标账户的高频词存储到所述目标账户的语音本地词库中;
语音数据获取模块,用于获取向所述目标账户发送的语音数据;
匹配识别模块,用于将所述语音数据依次与所述目标账户的语音本地词库、预置的语音公共词库进行匹配识别;
结果输出模块,用于在识别成功时,则输出识别结果。
在一种可能的设计中,还包括:
其它账户获取模块,用于获取除所述目标账户之外的其它账户的语音本地词库;
判断模块,用于判断所述目标账户的高频词是否包含在所述其它账户的语音本地词库中;
第二存储模块,用于在所述目标账户的高频词包含在所述其它账户的语音本地词库中时,将所述目标账户的高频词存储到预置的语音公共词库中。
在一种可能的设计中,所述第一存储模块,还用于判断所述目标账户的高频词是否包含在所述目标账户的语音本地词库中,在所述目标账户的高频词未包含在所述目标账户的语音本地词库中时,将所述目标账户的高频词存储到所述目标账户的语音本地词库中。
在一种可能的设计中,所述第二存储模块,还用于判断所述目标账户的高频词是否包含在预置的语音公共词库中,在所述目标账户的高频词未包含在预置的语音公共词库中时,将所述目标账户的高频词存储到预置的语音公共词库中。
在一种可能的设计中,所述判断模块,还用于判断所述目标账户的高频词是否包含在不小于设定数量的所述其它账户的语音本地词库中。
由上述方案可知,在接收语音识别的启动指令时,根据启动指令确定待识别的目标账户,并获取目标账户通过键盘输入形成的历史记录,根据历史记录确定出现频率超过设定次数的目标账户的高频词,将目标账户的高频词存储到目标账户的语音本地词库中,如此可以实现将目标账户大概率才会用到的特殊词组存储到该目标账户的语音本地词库中;当接收到向目标账户发送的语音数据时,通过将语音数据依次与目标账户的语音本地词库、预置的语音公共词库进行匹配识别,从而可以大大提高特殊词组的识别能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明可以应用于其中的示例性系统架构图;
图2是本发明一个实施例提供的语音识别方法的流程图;
图3是本发明另一个实施例提供的语音识别方法的流程图;
图4是本发明一实施例提供的语音识别装置所在设备的示意图;
图5是本发明一个实施例提供的语音识别装置的示意图;
图6是本发明另一个实施例提供的语音识别装置的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1示出了可以应用本申请的语音识别方法或语音识别装置的实施例的示例性系统架构。
如图1所示,该系统架构可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用输入法,例如拼音输入法、五笔输入法、笔画输入法等。
终端设备101、102、103可以是具有显示屏并且支持文字输入和语音输入的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3(MovingPictureExpertsGroupAudioLayerIII,动态影像专家压缩标准音频层面III)播放器、MP4(MovingPictureExpertsGroupAudioLayerIV,动态影像专家压缩标准音频层面IV)播放器、膝上型便携计算机和台式计算机等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的候选字词提供支持的词库服务器。终端设备101、102、103可以使用内置的词库,也可以从服务器105下载的词库。
需要说明的是,本申请实施例所提供的语音识别方法一般由终端设备101、102、103执行,相应地,语音识别装置一般设置于终端设备101、102、103中。
应该理解,图1中的终端设备101、102、103,网络104和服务器105的数目仅仅是示意性的。终端设备101、102、103可以仅使用内置的词库,而无需服务器105。也可以根据实现需要,从不同的服务器105下载词库,因此可以具有任意数目的终端设备101、102、103,网络104和服务器105。
图2是本发明一个实施例提供的语音识别方法的流程图。如图2所示,该语音识别方法可以包括以下步骤:
步骤201、接收语音识别的启动指令;
步骤202、根据所述启动指令确定待识别的目标账户,并获取所述目标账户通过键盘输入形成的历史记录;
步骤203、根据所述历史记录确定出现频率超过设定次数的所述目标账户的高频词;
步骤204、将所述目标账户的高频词存储到所述目标账户的语音本地词库中;
步骤205、获取向所述目标账户发送的语音数据;
步骤206、将所述语音数据依次与所述目标账户的语音本地词库、预置的语音公共词库进行匹配识别;
步骤207、若匹配成功,则输出识别结果。
在本发明实施例中,在接收语音识别的启动指令时,根据启动指令确定待识别的目标账户,并获取目标账户通过键盘输入形成的历史记录,根据历史记录确定出现频率超过设定次数的目标账户的高频词,将目标账户的高频词存储到目标账户的语音本地词库中,如此可以实现将目标账户大概率才会用到的特殊词组存储到该目标账户的语音本地词库中;当接收到向目标账户发送的语音数据时,通过将语音数据依次与目标账户的语音本地词库、预置的语音公共词库进行匹配识别,从而可以大大提高特殊词组的识别能力。
基于图2所示的语音识别方法,在本发明的一种实施例中,在步骤204之后,包括:
获取除所述目标账户之外的其它账户的语音本地词库;
判断所述目标账户的高频词是否包含在所述其它账户的语音本地词库中;
若是,则将所述目标账户的高频词存储到预置的语音公共词库中。
在本发明实施例中,如果目标账户的高频词同时也是其它账户的高频词,即目标账户的高频词包含在其它账户的语音本地词库中,可以将该目标账户的高频词存储到预置的语音公共词库中,从而可以增加预置的语音公共词库的词条数量;同时也能保证预置的语音公共词库和不同账户的语音本地词库之间的同步性,从而可以降低输入法服务商将特殊词条添加到预置的语音公共词库的难度,进而方便了对预置的语音公共词库中词条的不断更新。
基于图2所示的语音识别方法,在本发明的一种实施例中,步骤将所述目标账户的高频词存储到所述目标账户的语音本地词库中,包括:
判断所述目标账户的高频词是否包含在所述目标账户的语音本地词库中;
若否,则将所述目标账户的高频词存储到所述目标账户的语音本地词库中。
在本发明实施例中,如果目标账户的高频词已经包含在目标账户的语音本地词库中,则可以对该高频词不重复更新存储,以降低终端设备的运行压力。可以理解的是,对目标账户的高频词进行首次采集后,可以将所有采集到的高频词存储到目标账户的语音本地词库中;当下次再进行对目标账户的高频词进行采集时,则需将该次采集到的高频词与已经存储在目标账户的语音本地词库中的高频词进行比对,若已经存在于目标账户的语音本地词库中,则不再对该高频词进行重复存储;若未存在于目标账户的语音本地词库中,则将该高频词进行存储。
基于图2所示的语音识别方法,在本发明的一种实施例中,步骤将所述目标账户的高频词存储到预置的语音公共词库中,包括:
判断所述目标账户的高频词是否包含在预置的语音公共词库中;
若否,则将所述目标账户的高频词存储到预置的语音公共词库中。
在本发明实施例中,如果目标账户的高频词已经包含在预置的语音公共词库,则可以对该高频词不重复更新存储,以降低终端设备的运行压力。反之,则将目标账户的高频词存储到预置的语音公共词库中,从而可以增加预置的语音公共词库的词条数量;同时也能保证预置的语音公共词库和不同账户的语音本地词库之间的同步性,从而可以降低输入法服务商将特殊词条添加到预置的语音公共词库的难度,进而方便了对预置的语音公共词库中词条的不断更新。
基于图2所示的语音识别方法,在本发明的一种实施例中,步骤判断所述目标账户的高频词是否包含在所述其它账户的语音本地词库中,包括:
判断所述目标账户的高频词是否包含在不小于设定数量的所述其它账户的语音本地词库中。
在本发明实施例中,通过判断目标账户的高频词是否包含在不小于设定数量的其它账户的语音本地词库中,可以避免预置的语音公共词库增加的词条数量过多,从而可以降低服务器存储语音公共词库的能力需求,进而降低输入法服务商的运行维护成本。
如图3所示,本发明另一实施例还提供了一种语音识别方法。该方法包括以下步骤:
步骤301、接收语音识别的启动指令。
在本实施例中,语音识别的启动指令可以是由虚拟按键、实体按键和/或唤醒模块等方式进行触发。例如,输入法中设置有话筒标识的虚拟按键,用户通过该虚拟按键可以实现设置在终端设备内的语音识别引擎的启动。
步骤302、根据所述启动指令确定待识别的目标账户,并获取所述目标账户通过键盘输入形成的历史记录。
在本实施例中,响应于终端设备接收到的启动指令,确定待识别的目标账户。由于每个用户对应有该用户绑定输入法软件的账户,因此通过确定目标账户的方式来确定待识别的目标终端设备。在确定待识别的目标账户后,获取该目标账户通过键盘输入形成的历史记录,以确定在该历史记录中包含的该目标账户常用的高频率。
步骤303、根据所述历史记录确定出现频率超过设定次数的所述目标账户的高频词。
在本实施例中,例如设定次数为两次或三次,当历史记录中的某一个词组出现的频率超过该设定次数时,将该词组确定为高频词,即该目标账户中可能独特具有的特殊词组(当然该高频词也包括不是该目标账户所独特具有的特殊词组)。
步骤304、判断所述目标账户的高频词是否包含在所述目标账户的语音本地词库中。
在本实施例中,如果目标账户的高频词已经包含在目标账户的语音本地词库中,则可以对该高频词不重复更新存储,以降低终端设备的运行压力;如果目标账户的高频词未包含在目标账户的语音本地词库中,则执行步骤305。
可以理解的是,对目标账户的高频词进行首次采集后,可以将所有采集到的高频词存储到目标账户的语音本地词库中;当下次再进行对目标账户的高频词进行采集时,则需将该次采集到的高频词与已经存储在目标账户的语音本地词库中的高频词进行比对,若已经存在于目标账户的语音本地词库中,则不再对该高频词进行重复存储;若未存在于目标账户的语音本地词库中,则执行步骤305。
步骤305、将所述目标账户的高频词存储到所述目标账户的语音本地词库中。
在本实施例中,例如通过键盘输入的高频词的格式可以为“txt”,而语音词库中的格式可以为“amr”,按照一些设定的存储规则(例如文本转语音的标准或非标准转化协议)可以将目标账户的高频词存储到目标账户的语音本地词库中。
步骤306、获取除所述目标账户之外的其它账户的语音本地词库。
在本实施例中,例如可以通过访问或调用输入法服务商(例如搜狗)后台大数据的方式来获取除目标账户之外的其它账户的语音本地词库。
步骤307、判断所述目标账户的高频词是否包含在所述其它账户的语音本地词库中。
在本实施例中,例如可以先将目标账户的高频词的格式由“txt”转化为“amr”之后,再由目标账户中格式为“amr”的高频词与其它账户的语音本地词库中格式为“amr”的词组进行比对,若存在相同的词组,则执行步骤308。
需要说明的是,还可以对步骤307进行进一步的判断。例如,可以判断目标账户的高频词是否包含在不小于设定数量的其它账户的语音本地词库中,如此可以避免预置的语音公共词库增加的词条数量过多,从而可以降低服务器存储语音公共词库的能力需求,进而降低输入法服务商的运行维护成本。其中,其它账户的设定数量例如可以是几十个、几百个甚至更多。
步骤308、判断所述目标账户的高频词是否包含在预置的语音公共词库中。
在本实施例中,例如由目标账户中格式为“amr”的高频词与预置的语音公共词库中格式为“amr”的词组进行比对,若不存在相同的词组,则执行步骤309,;若存在相同的词组,将不重复存储该高频词,同时可以继续进行下一高频词的比对。
步骤309、将所述目标账户的高频词存储到预置的语音公共词库中。
步骤310、获取向所述目标账户发送的语音数据。
在本实施例中,在终端设备的工作过程中,用户可以通过终端设备的语音采集设备(例如麦克风)采集语音,以使终端设备获取用户的语音数据。
步骤311、将所述语音数据依次与所述目标账户的语音本地词库、预置的语音公共词库进行匹配识别。
在本实施例中,按照目标账户的语音本地词库、预置的语音公共词库的先后顺序进行匹配,可以更加符合用户真实想要输入的语音内容,同时也可以降低匹配时间和增加匹配效率,从而可以大大提高特殊词组的识别能力。
步骤312、若匹配成功,则输出识别结果。
在本实施例中,将步骤312得到的匹配结果可以输出到终端设备的显示屏上,以供用户查看或选择。
下面以一个例子对上述方法步骤进行简要说明:
例如,用户的目标账户的历史记录中,“京阿百腾”的出现频率超过三次,采用上述方法可以将“京阿百腾”以语音(例如“amr”格式)的方式存储到该目标账户的语音本地词库中。当用户向终端设备输入“京阿百腾”的语音时,终端设备可以将该语音转换为语音数据,并将该语音数据依次和目标账户的语音本地词库、预置的语音公共词库进行匹配识别,如此输出的识别结果可以准确地显示出该用户真是想要输入的内容,即“京阿百腾”的文本格式。而如果采用现有方法进行语音识别,可能在预置的语音公共词库中识别不出来“京阿百腾”,因此会导致要么识别不出来,要么识别错误(例如可能识别出“经啊百腾”、“静阿白疼”等)。
如图4和图5所示,本发明实施例提供了一种语音识别装置所在的设备和语音识别装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。从硬件层面而言,如图4所示,为本发明实施例提供的语音识别装置所在设备的一种硬件结构图,除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的设备通常还可以包括其他硬件,如负责处理报文的转发芯片等等。以软件实现为例,如图5所示,作为一个逻辑意义上的装置,是通过其所在设备的CPU将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。
如图5所示,本实施例提供的语音识别装置,包括:
接收模块501,用于接收语音识别的启动指令;
目标账户获取模块502,用于根据所述启动指令确定待识别的目标账户,并获取所述目标账户通过键盘输入形成的历史记录;
高频词确认模块503,用于根据所述历史记录确定出现频率超过设定次数的所述目标账户的高频词;
第一存储模块504,用于将所述目标账户的高频词存储到所述目标账户的语音本地词库中;
语音数据获取模块505,用于获取向所述目标账户发送的语音数据;
匹配识别模块506,用于将所述语音数据依次与所述目标账户的语音本地词库、预置的语音公共词库进行匹配识别;
结果输出模块507,用于在识别成功时,则输出识别结果。
在本发明实施例中,接收模块501可用于执行上述方法实施例中的步骤201,目标账户获取模块502可用于执行上述方法实施例中的步骤202,高频词确认模块503可用于执行上述方法实施例中的步骤203,第一存储模块504可用于执行上述方法实施例中的步骤204,语音数据获取模块505可用于执行上述方法实施例中的步骤205,匹配识别模块506可用于执行上述方法实施例中的步骤206,结果输出模块507可用于执行上述方法实施例中的步骤207。
如图6所示,在本发明的一个实施例中,上述语音识别装置还包括:
其它账户获取模块508,用于获取除所述目标账户之外的其它账户的语音本地词库;
判断模块509,用于判断所述目标账户的高频词是否包含在所述其它账户的语音本地词库中;
第二存储模块510,用于在所述目标账户的高频词包含在所述其它账户的语音本地词库中时,将所述目标账户的高频词存储到预置的语音公共词库中。
在本发明的一个实施例中,所述第一存储模块504,还用于判断所述目标账户的高频词是否包含在所述目标账户的语音本地词库中,在所述目标账户的高频词未包含在所述目标账户的语音本地词库中时,将所述目标账户的高频词存储到所述目标账户的语音本地词库中。
在本发明的一个实施例中,所述第二存储模块510,还用于判断所述目标账户的高频词是否包含在预置的语音公共词库中,在所述目标账户的高频词未包含在预置的语音公共词库中时,将所述目标账户的高频词存储到预置的语音公共词库中。
在本发明的一个实施例中,所述判断模块509,还用于判断所述目标账户的高频词是否包含在不小于设定数量的所述其它账户的语音本地词库中。
可以理解的是,本发明实施例示意的结构并不构成对语音识别装置的具体限定。在本发明的另一些实施例中,语音识别装置可以包括比图示更多或者更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件、软件或者软件和硬件的组合来实现。
上述装置内的各模块之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
本发明实施例还提供了一种计算机可读介质,存储用于使一计算机执行如本文所述的语音识别方法的指令。具体地,可以提供配有存储介质的系统或者装置,在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。
在这种情况下,从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此程序代码和存储程序代码的存储介质构成了本发明的一部分。
用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上下载程序代码。
此外,应该清楚的是,不仅可以通过执行计算机所读出的程序代码,而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作,从而实现上述实施例中任意一项实施例的功能。
此外,可以理解的是,将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中,随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作,从而实现上述实施例中任一实施例的功能。
综上所述,本发明各个所述实施例所提供的语音识别方法及装置,至少具有如下有益效果:
1、在本发明实施例中,在接收语音识别的启动指令时,根据启动指令确定待识别的目标账户,并获取目标账户通过键盘输入形成的历史记录,根据历史记录确定出现频率超过设定次数的目标账户的高频词,将目标账户的高频词存储到目标账户的语音本地词库中,如此可以实现将目标账户大概率才会用到的特殊词组存储到该目标账户的语音本地词库中;当接收到向目标账户发送的语音数据时,通过将语音数据依次与目标账户的语音本地词库、预置的语音公共词库进行匹配识别,从而可以大大提高特殊词组的识别能力。
2、在本发明实施例中,如果目标账户的高频词同时也是其它账户的高频词,即目标账户的高频词包含在其它账户的语音本地词库中,可以将该目标账户的高频词存储到预置的语音公共词库中,从而可以增加预置的语音公共词库的词条数量;同时也能保证预置的语音公共词库和不同账户的语音本地词库之间的同步性,从而可以降低输入法服务商将特殊词条添加到预置的语音公共词库的难度,进而方便了对预置的语音公共词库中词条的不断更新。
3、在本发明实施例中,如果目标账户的高频词已经包含在目标账户的语音本地词库中,则可以对该高频词不重复更新存储,以降低终端设备的运行压力。可以理解的是,对目标账户的高频词进行首次采集后,可以将所有采集到的高频词存储到目标账户的语音本地词库中;当下次再进行对目标账户的高频词进行采集时,则需将该次采集到的高频词与已经存储在目标账户的语音本地词库中的高频词进行比对,若已经存在于目标账户的语音本地词库中,则不再对该高频词进行重复存储;若未存在于目标账户的语音本地词库中,则将该高频词进行存储。
4、在本发明实施例中,如果目标账户的高频词已经包含在预置的语音公共词库,则可以对该高频词不重复更新存储,以降低终端设备的运行压力。反之,则将目标账户的高频词存储到预置的语音公共词库中,从而可以增加预置的语音公共词库的词条数量;同时也能保证预置的语音公共词库和不同账户的语音本地词库之间的同步性,从而可以降低输入法服务商将特殊词条添加到预置的语音公共词库的难度,进而方便了对预置的语音公共词库中词条的不断更新。
5、在本发明实施例中,通过判断目标账户的高频词是否包含在不小于设定数量的其它账户的语音本地词库中,可以避免预置的语音公共词库增加的词条数量过多,从而可以降低服务器存储语音公共词库的能力需求,进而降低输入法服务商的运行维护成本。
需要说明的是,上述各流程和各系统结构图中不是所有的步骤和模块都是必须的,可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的,可以根据需要进行调整。上述各实施例中描述的系统结构可以是物理结构,也可以是逻辑结构,即,有些模块可能由同一物理实体实现,或者,有些模块可能分由多个物理实体实现,或者,可以由多个独立设备中的某些部件共同实现。
以上各实施例中,硬件单元可以通过机械方式或电气方式实现。例如,一个硬件单元可以包括永久性专用的电路或逻辑(如专门的处理器,FPGA或ASIC)来完成相应操作。硬件单元还可以包括可编程逻辑或电路(如通用处理器或其它可编程处理器),可以由软件进行临时的设置以完成相应操作。具体的实现方式(机械方式、或专用的永久性电路、或者临时设置的电路)可以基于成本和时间上的考虑来确定。
上文通过附图和优选实施例对本发明进行了详细展示和说明,然而本发明不限于这些已揭示的实施例,基与上述多个实施例本领域技术人员可以知晓,可以组合上述不同实施例中的代码审核手段得到本发明更多的实施例,这些实施例也在本发明的保护范围之内。
Claims (10)
1.一种语音识别方法,其特征在于,包括:
接收语音识别的启动指令;
根据所述启动指令确定待识别的目标账户,并获取所述目标账户通过键盘输入形成的历史记录;
根据所述历史记录确定出现频率超过设定次数的所述目标账户的高频词;
将所述目标账户的高频词存储到所述目标账户的语音本地词库中;
获取向所述目标账户发送的语音数据;
将所述语音数据依次与所述目标账户的语音本地词库、预置的语音公共词库进行匹配识别;
若匹配成功,则输出识别结果。
2.根据权利要求1所述语音识别方法,其特征在于,在所述将所述目标账户的高频词存储到所述目标账户的语音本地词库中之后,包括:
获取除所述目标账户之外的其它账户的语音本地词库;
判断所述目标账户的高频词是否包含在所述其它账户的语音本地词库中;
若是,则将所述目标账户的高频词存储到预置的语音公共词库中。
3.根据权利要求1所述语音识别方法,其特征在于,所述将所述目标账户的高频词存储到所述目标账户的语音本地词库中,包括:
判断所述目标账户的高频词是否包含在所述目标账户的语音本地词库中;
若否,则将所述目标账户的高频词存储到所述目标账户的语音本地词库中。
4.根据权利要求2所述语音识别方法,其特征在于,所述将所述目标账户的高频词存储到预置的语音公共词库中,包括:
判断所述目标账户的高频词是否包含在预置的语音公共词库中;
若否,则将所述目标账户的高频词存储到预置的语音公共词库中。
5.根据权利要求2所述语音识别方法,其特征在于,所述判断所述目标账户的高频词是否包含在所述其它账户的语音本地词库中,包括:
判断所述目标账户的高频词是否包含在不小于设定数量的所述其它账户的语音本地词库中。
6.一种语音识别装置,其特征在于,包括:
接收模块,用于接收语音识别的启动指令;
目标账户获取模块,用于根据所述启动指令确定待识别的目标账户,并获取所述目标账户通过键盘输入形成的历史记录;
高频词确认模块,用于根据所述历史记录确定出现频率超过设定次数的所述目标账户的高频词;
第一存储模块,用于将所述目标账户的高频词存储到所述目标账户的语音本地词库中;
语音数据获取模块,用于获取向所述目标账户发送的语音数据;
匹配识别模块,用于将所述语音数据依次与所述目标账户的语音本地词库、预置的语音公共词库进行匹配识别;
结果输出模块,用于在识别成功时,则输出识别结果。
7.根据权利要求6所述语音识别装置,其特征在于,还包括:
其它账户获取模块,用于获取除所述目标账户之外的其它账户的语音本地词库;
判断模块,用于判断所述目标账户的高频词是否包含在所述其它账户的语音本地词库中;
第二存储模块,用于在所述目标账户的高频词包含在所述其它账户的语音本地词库中时,将所述目标账户的高频词存储到预置的语音公共词库中。
8.根据权利要求6所述语音识别装置,其特征在于,所述第一存储模块,还用于判断所述目标账户的高频词是否包含在所述目标账户的语音本地词库中,在所述目标账户的高频词未包含在所述目标账户的语音本地词库中时,将所述目标账户的高频词存储到所述目标账户的语音本地词库中。
9.根据权利要求7所述语音识别装置,其特征在于,所述第二存储模块,还用于判断所述目标账户的高频词是否包含在预置的语音公共词库中,在所述目标账户的高频词未包含在预置的语音公共词库中时,将所述目标账户的高频词存储到预置的语音公共词库中。
10.根据权利要求7所述语音识别装置,其特征在于,所述判断模块,还用于判断所述目标账户的高频词是否包含在不小于设定数量的所述其它账户的语音本地词库中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010436965.0A CN111627438A (zh) | 2020-05-21 | 2020-05-21 | 语音识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010436965.0A CN111627438A (zh) | 2020-05-21 | 2020-05-21 | 语音识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111627438A true CN111627438A (zh) | 2020-09-04 |
Family
ID=72272350
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010436965.0A Pending CN111627438A (zh) | 2020-05-21 | 2020-05-21 | 语音识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111627438A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113721770A (zh) * | 2021-09-03 | 2021-11-30 | 四川虹美智能科技有限公司 | 在智能家居设备中提供语音帮助的方法和智能家居设备 |
CN115602171A (zh) * | 2022-12-13 | 2023-01-13 | 广州小鹏汽车科技有限公司(Cn) | 语音交互方法、服务器及计算机可读存储介质 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101221576A (zh) * | 2008-01-23 | 2008-07-16 | 腾讯科技(深圳)有限公司 | 一种能够实现自动翻译的输入方法及装置 |
CN101623202A (zh) * | 2008-07-08 | 2010-01-13 | 深圳迈瑞生物医疗电子股份有限公司 | 一种医学输入法及医疗设备 |
CN101930297A (zh) * | 2010-07-23 | 2010-12-29 | 百度在线网络技术(北京)有限公司 | 用于网络交互中供用户进行文字输入的方法、设备和系统 |
CN102959547A (zh) * | 2012-05-03 | 2013-03-06 | 华为技术有限公司 | 字词库调整方法及设备 |
CN103903621A (zh) * | 2012-12-26 | 2014-07-02 | 联想(北京)有限公司 | 一种语音识别的方法及电子设备 |
CN104464735A (zh) * | 2014-12-12 | 2015-03-25 | 宇龙计算机通信科技(深圳)有限公司 | 语音信息识别方法、语音信息识别装置与终端 |
CN105469789A (zh) * | 2014-08-15 | 2016-04-06 | 中兴通讯股份有限公司 | 一种语音信息的处理方法及终端 |
CN105488221A (zh) * | 2015-12-25 | 2016-04-13 | 北京奇虎科技有限公司 | 一种在搜索界面推荐查询词进行搜索的方法和系统 |
CN108062346A (zh) * | 2017-10-23 | 2018-05-22 | 沈阳美行科技有限公司 | 一种检索词的保存方法及装置 |
CN109086455A (zh) * | 2018-08-30 | 2018-12-25 | 广东小天才科技有限公司 | 一种语音识别库的构建方法及学习设备 |
CN109961791A (zh) * | 2017-12-22 | 2019-07-02 | 北京搜狗科技发展有限公司 | 一种语音信息处理方法、装置及电子设备 |
CN110148416A (zh) * | 2019-04-23 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、设备和存储介质 |
CN110502126A (zh) * | 2019-05-28 | 2019-11-26 | 华为技术有限公司 | 输入方法及电子设备 |
CN111145756A (zh) * | 2019-12-26 | 2020-05-12 | 北京搜狗科技发展有限公司 | 一种语音识别方法、装置和用于语音识别的装置 |
-
2020
- 2020-05-21 CN CN202010436965.0A patent/CN111627438A/zh active Pending
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101221576A (zh) * | 2008-01-23 | 2008-07-16 | 腾讯科技(深圳)有限公司 | 一种能够实现自动翻译的输入方法及装置 |
CN101623202A (zh) * | 2008-07-08 | 2010-01-13 | 深圳迈瑞生物医疗电子股份有限公司 | 一种医学输入法及医疗设备 |
CN101930297A (zh) * | 2010-07-23 | 2010-12-29 | 百度在线网络技术(北京)有限公司 | 用于网络交互中供用户进行文字输入的方法、设备和系统 |
CN102959547A (zh) * | 2012-05-03 | 2013-03-06 | 华为技术有限公司 | 字词库调整方法及设备 |
CN103903621A (zh) * | 2012-12-26 | 2014-07-02 | 联想(北京)有限公司 | 一种语音识别的方法及电子设备 |
CN105469789A (zh) * | 2014-08-15 | 2016-04-06 | 中兴通讯股份有限公司 | 一种语音信息的处理方法及终端 |
CN104464735A (zh) * | 2014-12-12 | 2015-03-25 | 宇龙计算机通信科技(深圳)有限公司 | 语音信息识别方法、语音信息识别装置与终端 |
CN105488221A (zh) * | 2015-12-25 | 2016-04-13 | 北京奇虎科技有限公司 | 一种在搜索界面推荐查询词进行搜索的方法和系统 |
CN108062346A (zh) * | 2017-10-23 | 2018-05-22 | 沈阳美行科技有限公司 | 一种检索词的保存方法及装置 |
CN109961791A (zh) * | 2017-12-22 | 2019-07-02 | 北京搜狗科技发展有限公司 | 一种语音信息处理方法、装置及电子设备 |
CN109086455A (zh) * | 2018-08-30 | 2018-12-25 | 广东小天才科技有限公司 | 一种语音识别库的构建方法及学习设备 |
CN110148416A (zh) * | 2019-04-23 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、设备和存储介质 |
CN110502126A (zh) * | 2019-05-28 | 2019-11-26 | 华为技术有限公司 | 输入方法及电子设备 |
CN111145756A (zh) * | 2019-12-26 | 2020-05-12 | 北京搜狗科技发展有限公司 | 一种语音识别方法、装置和用于语音识别的装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113721770A (zh) * | 2021-09-03 | 2021-11-30 | 四川虹美智能科技有限公司 | 在智能家居设备中提供语音帮助的方法和智能家居设备 |
CN113721770B (zh) * | 2021-09-03 | 2023-10-27 | 四川虹美智能科技有限公司 | 在智能家居设备中提供语音帮助的方法和智能家居设备 |
CN115602171A (zh) * | 2022-12-13 | 2023-01-13 | 广州小鹏汽车科技有限公司(Cn) | 语音交互方法、服务器及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8364487B2 (en) | Speech recognition system with display information | |
CN101241537B (zh) | Nfc应用的话音接口 | |
CN101199122B (zh) | 使用语言模块扩展通配符 | |
US10579733B2 (en) | Identifying codemixed text | |
KR100814641B1 (ko) | 사용자 주도형 음성 서비스 시스템 및 그 서비스 방법 | |
CN101681365A (zh) | 用于分布式语音搜索的方法和装置 | |
CN101636732A (zh) | 用于语言独立语音索引和搜索的方法和装置 | |
JP2001273283A (ja) | 言語を識別しかつ音声再生装置を制御する方法及び通信デバイス | |
US9055419B2 (en) | Mobile terminal to recommend a short message recipient | |
CN104158945A (zh) | 通话信息获取方法、装置及系统 | |
KR102248843B1 (ko) | 피호출자의 전자 디바이스에서 연락처 정보를 업데이트하는 방법 및 전자 디바이스 | |
US11630825B2 (en) | Method and system for enhanced search term suggestion | |
CN111627438A (zh) | 语音识别方法及装置 | |
CN111768789B (zh) | 电子设备及其语音发出者身份确定方法、装置和介质 | |
CN110533456A (zh) | 一种优惠券信息推送方法、系统及服务器 | |
CN111858966B (zh) | 知识图谱的更新方法、装置、终端设备及可读存储介质 | |
CN113436614A (zh) | 语音识别方法、装置、设备、系统及存储介质 | |
CN105096945A (zh) | 一种终端的语音识别方法和装置 | |
CN109712613B (zh) | 语义分析库更新方法、装置及电子设备 | |
CN112580335A (zh) | 多音字消歧方法及装置 | |
JP2005227510A (ja) | 音声認識装置及び音声認識方法 | |
CN112272182B (zh) | 一种应用登录方法、服务器、设备、介质和计算设备 | |
CN114528851A (zh) | 回复语句确定方法、装置、电子设备和存储介质 | |
CN114171000A (zh) | 一种基于声学模型和语言模型的音频识别方法 | |
CN116383346B (zh) | 检索理解方法和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200904 |
|
RJ01 | Rejection of invention patent application after publication |